Azure OpenAI ServiceでGPT4-miniのモデルデプロイが可能になりました

Azure OpenAI ServiceでGPT-4o miniのサポートが始まりましたので、GPT-4oとの料金の違い等について記載します。

GPT-4o miniとは
料金
デプロイ
速度比較
まとめ

GPT-4o miniとは

Microsoftのドキュメントでは「低価格かつ高速のモデル」と紹介されています。

GPT-4o mini は、お客様が驚くべき速度と低コストで素晴らしいアプリケーションを提供することを可能にします。 GPT-4o mini は、Massive Multitask Language Understanding (MMLU) の測定で 82% のスコアを付けるなどスコアが 70% である GPT-3.5 Turbo よりもかなりスマートであり、60% 以上低コストです。1 このモデルは、拡張された 128K コンテキストウィンドウを提供し、GPT-4o の強化された多言語機能を統合し、世界中の言語に対してより高い品質をもたらします。

Azure OpenAI Service の新機能 - Azure AI services | Microsoft Learn

また、GPT-3.5 Turboの後継にもなっており、推奨される置き換えとしての記載があります。

Azure OpenAI Service model retirements - Azure OpenAI | Microsoft Learn *1

対応しているリージョンは、2024年8月19日現在はEastUSとSwedenCentralのみとなっており、どちらもglobal standardとstandardのデプロイをサポートしています。

料金

非常に安く設定されており、GPT-4oはもちろんですが、GPT-3.5 Turboよりも安い料金設定になっています。

Model	Context	Input (per 1,000 tokens)	Output (per 1,000 tokens)
GPT-4o-mini global standard	128K	$0.00015	$0.0006
GPT-4o-mini standard	128K	$0.000165	$0.00066
GPT-4o global standard	128K	$0.005	$0.015
GPT-4o standard	128K	$0.005	$0.015
GPT-3.5-Turbo-0613	4K	$0.0015	$0.002
GPT-3.5-Turbo-0613	16K	$0.003	$0.004

OpenAI’s GPT-4o mini Now Available in API with Vision Capabilities on Azure AI

デプロイ

通常のデプロイと同様に、EastUSもしくはSwedenCentralにデプロイしたAzure OpenAIのリソースでデプロイ可能です。

速度比較

前回と同様に、こちらのGitHubで公開されているベンチマークツールを使用して、ベンチマークを比較しました。

GitHub - Azure/azure-openai-benchmark: Azure OpenAI benchmarking tool

モデル比較

モデルバージョン	GPT-4o global standard	GPT-4o standard	GPT-4o mini global standard	GPT-4o mini standard
リージョン	EastUS	EastUS	EastUS	EastUS

指標

ベンチマークツールのttft_avg:リクエストの開始から、最初のトークンが受信されるまでの平均時間（秒）で比較しました。

テスト項目と結果

各モデルにbalancedとcontextの2つを使いテストしました。

	GPT-4o global standard balanced	GPT-4o global standard context	GPT-4o mini global standard balanced	GPT-4o mini global standard context	GPT-4o standard balanced	GPT-4o standard context	GPT-4o mini standard balanced	GPT-4o mini standard context
リージョン	EastUS	EastUS	EastUS	EastUS	EastUS	EastUS
context tokens	500	2000	500	2000	500	2000	500	2000
max tokens	500	200	500	200	500	200	500	200
時間帯	18時ごろ	18時ごろ	18時ごろ	18時ごろ	18時ごろ	18時ごろ	18時ごろ	18時ごろ
リクエスト数	49	51	51	52	50	51	50	52
失敗リクエスト数	0	25	0	19	0	10	2	13
平均時間（秒）	0.53	0.81	1.2	1.063	0.417	0.71	0.602	0.906
エラー率	0％	49.01％	0％	36.53％	0％	20％	4％	25％