Azure OpenAI Serviceのグローバル標準のデプロイを日本リージョンで試してみた

前回の記事でプロビジョニング済みモデルのデプロイについてご紹介しましたが、今回はGPT-4oで利用できるグローバル標準のデプロイについて書きます。

blog.jbs.co.jp

 

概要

Azure OpenAI Serviceではいくつかのモデルのデプロイ方法が用意されており、グローバル標準はGPT-4oで利用できるデプロイ方法になります。

Azure OpenAI Serviceのデプロイのタイプ

  Global-Standard(GPT-4oのみ) Standard Provisioned
データの所在地 特定できない 特定できる 特定できる
課金モデル トークン単位の支払い トークン単位の支払い 月単位のコミットメント
料金 安価 安価 高価
負荷分散 対応 非対応 非対応
処理能力 TPMが多い TPMが少ない TPUを必要に応じて追加できる

Azure OpenAI Service のデプロイの種類について - Azure AI services | Microsoft Learn

グローバル標準とは

グローバル標準ではスタンダードと異なり、世界中のデータセンターにルーティングして負荷分散することができます。その反面、データがどのリージョンで処理されるのかはわかりません。

また、Azure OpenAI Serviceでは監査のためにデータを30日間保持されます。

グローバル標準では以下の記述の通り、東日本リージョンでデプロイした場合の監査データの所在は東日本リージョンになります。

 保存されたデータは指定された Azure の地理的な場所に留まりますが、推論のためのデータ処理は任意の Azure OpenAI の場所で実行される可能性があります。

グローバル標準のスタンダードに対するメリットデメリットを整理すると以下になります。

  • メリット
    • 負荷分散でルーティングされる
    • TPMが大きい
    • 東日本リージョンでデプロイできる
  • デメリット
    • データが処理される地域が固定されない
    • TPMが小さい

デプロイ方法

デプロイ方法は非常に簡単で、「デプロイの種類」で「グローバル標準」を選択するだけです。

ベンチマークでの比較

前回と同様に、こちらのGitHubで公開されているベンチマークツールを使用して、ベンチマークを比較しました。

GitHub - Azure/azure-openai-benchmark: Azure OpenAI benchmarking tool

モデル比較

モデルバージョン GPT-4o standard GPT-4o global standard GPT-4o global standard
リージョン EastUS EastUS JapanEast

指標

ベンチマークツールのttft_avg:リクエストの開始から、最初のトークンが受信されるまでの平均時間(秒) で比較しました。

テスト項目と結果

それぞれのモデルにbalancedとcontextの2つを使い、それぞれのモデルでテストしました。

  GPT-4o standard
(EastUS) balanced
GPT-4o standard
(EastUS) context
GPT-4o
global standard
(EastUS) balanced
GPT-4o
global standard
(EastUS) context
GPT-4o
global
standard
(JapanEast) balanced
GPT-4o
global standard
(JapanEast) context
リージョン EastUS EastUS EastUS EastUS JapanEast JapanEast
context tokens 500 2000 500 2000 500 2000
max tokens 500 200 500 200 500 200
時間帯 17時ごろ 17時ごろ 17時ごろ 17時ごろ 17時ごろ 17時ごろ
リクエスト数 44 34 40 34 35 42
失敗リクエスト数 5 0 14 8 5 4
平均時間(秒) 0.52 0.58 0.63 0.62 0.31 0.39
エラー率 11.36% 0% 35% 23.52% 14.28% 9.52%

箱ひげ図

東日本リージョンのほうが早く安定したレスポンスがあったという結果となりました。

まとめ

GPT-4oなど最新のモデルは、スタンダードのデプロイでは東日本リージョンが使えないのですが、グローバル標準であれば利用する事が可能です。

データ処理の地域を許容できれば速度も安定しているので、グルーバル標準を東日本にデプロイする事も選択の一つと考えます。

執筆担当者プロフィール
上田 英治

上田 英治(日本ビジネスシステムズ株式会社)

エンジニアとしてインフラ構築、システム開発やIoT基盤構築等を経験し、現在はクラウドアーキテクトとして先端技術の活用提案や新規サービスの立ち上げを担当。

担当記事一覧