Azure OpenAI Serviceのグローバル標準のデプロイを日本リージョンで試してみた

前回の記事でプロビジョニング済みモデルのデプロイについてご紹介しましたが、今回はGPT-4oで利用できるグローバル標準のデプロイについて書きます。

Azure OpenAI Serviceではいくつかのモデルのデプロイ方法が用意されており、グローバル標準はGPT-4oで利用できるデプロイ方法になります。

グローバル標準ではスタンダードと異なり、世界中のデータセンターにルーティングして負荷分散することができます。その反面、データがどのリージョンで処理されるのかはわかりません。

また、Azure OpenAI Serviceでは監査のためにデータを30日間保持されます。

グローバル標準では以下の記述の通り、東日本リージョンでデプロイした場合の監査データの所在は東日本リージョンになります。

保存されたデータは指定された Azure の地理的な場所に留まりますが、推論のためのデータ処理は任意の Azure OpenAI の場所で実行される可能性があります。

グローバル標準のスタンダードに対するメリットデメリットを整理すると以下になります。

デプロイ方法は非常に簡単で、「デプロイの種類」で「グローバル標準」を選択するだけです。

前回と同様に、こちらのGitHubで公開されているベンチマークツールを使用して、ベンチマークを比較しました。

モデルバージョン	GPT-4o standard	GPT-4o global standard	GPT-4o global standard
リージョン	EastUS	EastUS	JapanEast

ベンチマークツールのttft_avg:リクエストの開始から、最初のトークンが受信されるまでの平均時間（秒）で比較しました。

それぞれのモデルにbalancedとcontextの2つを使い、それぞれのモデルでテストしました。

	GPT-4o standard (EastUS) balanced	GPT-4o standard (EastUS) context	GPT-4o global standard (EastUS) balanced	GPT-4o global standard (EastUS) context	GPT-4o global standard (JapanEast) balanced	GPT-4o global standard (JapanEast) context
リージョン	EastUS	EastUS	EastUS	EastUS	JapanEast	JapanEast
context tokens	500	2000	500	2000	500	2000
max tokens	500	200	500	200	500	200
時間帯	17時ごろ	17時ごろ	17時ごろ	17時ごろ	17時ごろ	17時ごろ
リクエスト数	44	34	40	34	35	42
失敗リクエスト数	5	0	14	8	5	4
平均時間（秒）	0.52	0.58	0.63	0.62	0.31	0.39
エラー率	11.36％	0％	35％	23.52％	14.28％	9.52％