Azure OpenAI Serviceのプロビジョニング済み(PTU)のデプロイを試してみた

Azure OpenAI Serviceを使う上でレスポンスの問題に直面することが多々あるかと思います。

レスポンスの問題解決の1つとしてプロビジョニング済み(PTU)というサービスがありますので、こちらの紹介をさせていただきます。

概要

Azure OpenAI Serviceではいくつかのモデルのデプロイ方法が用意されており、プロビジョニング済み(Provisioned)はその一つとなります。

Azure OpenAI Serviceのデプロイのタイプ

  Standard Provisioned Global-Standard(GPT-4oのみ)
データの所在地 特定できる 特定できる 特定できない
課金モデル トークン単位の支払い 月単位のコミットメント トークン単位の支払い
料金 安価 高価 安価
負荷分散 非対応 非対応 対応
処理能力 TPMが少ない TPUを必要に応じて追加できる TPMが多い

Azure OpenAI Service のデプロイの種類について - Azure AI services | Microsoft Learn

プロビジョニング済みとは

プロビジョニング済みは、事前にPTUというユニットを購入することによって、安定したレスポンスが期待できることが特徴です。

事前購入なので利用料金も変動がありませんが、高額となります。また、Microsoftへリクエストを上げる必要がありますので、すぐに使うことはできません。

Azure OpenAI Service のプロビジョニング スループット - Azure AI services | Microsoft Learn

なお、東日本リージョンの場合、標準(Standard)では使えないモデルも利用することができます。

※ 2024年6月25日時点の情報

Azure OpenAI Service モデル - Azure OpenAI | Microsoft Learn

メリットデメリットを整理すると以下になります。

  • メリット
    • 安定したレスポンスが得られる
    • 事前購入なので利用料金に変動がない
    • 東日本リージョンで通常使えないモデルも利用できる
  • デメリット
    • 高額である
    • Microsoftへリクエストを上げる必要がありすぐに使えない

モデルのデプロイ

割り当ての確認

MicrosoftからPTUの割り当てが終了すると、割り当てられたモデルに使用量が生じされます。

コミットメントの購入

クォータの画面でコミットメントを購入します。

モデルのデプロイ

コミットメント購入後に、デプロイの種類で「Provisioned-Managed(PTU)」を選択してモデルをデプロイします。

デプロイの確認

通常の従量課金(PAY-GO)のモデルと同様にデプロイを確認できます。

ベンチマークでの比較

使い方は従量課金(PAY-GO)のモデルと変わらないので、こちらのGitHubで公開されているベンチマークツールを使用してベンチマークを比較しました。

GitHub - Azure/azure-openai-benchmark: Azure OpenAI benchmarking tool

モデル比較

  PTU 従量課金(PAY-GO)
モデルバージョン GPT-4-Turbo (0125) GPT-4-Turbo (0125)
リージョン Japan East South Central US
容量 100PTU 80k

指標

ベンチマークツールのttft_avg:リクエストの開始から最初のトークンが受信されるまでの平均時間(秒) で比較しました。

テスト項目と結果

それぞれのモデルにbalancedとcontextの2つを使い、それぞれのモデルでテストしました。

  PTU balanced PTU context 従量課金 balanced 従量課金 context
リージョン Japan East Japan East South Central US South Central US
context tokens 500 2000 500 2000
max tokens 500 200 500 200
時間帯 19時ごろ 16時ごろ 17時ごろ 20時ごろ
リクエスト数 123 198 47 55
失敗リクエスト数 0 14 0 29
平均時間(秒) 2.03 2.18 1.55 0.93
エラー率 0% 7.07% 0% 52.72%

箱ひげ図

速度が著しく変わるということはありませんでしたが、PTUは非常に安定しており、従量課金(PAY-GO)よりもエラーが少ないことがわかりました。

まとめ

時間帯や地理的な影響もあるかもしれませんが、速度の速さよりも、非常に安定してレスポンスが返ってくることがPTUの強みかと思います。

応答速度が安定することで、アプリケーションも作りやすくなると考えています。

執筆担当者プロフィール
上田 英治

上田 英治(日本ビジネスシステムズ株式会社)

エンジニアとしてインフラ構築、システム開発やIoT基盤構築等を経験し、現在はクラウドアーキテクトとして先端技術の活用提案や新規サービスの立ち上げを担当。

担当記事一覧