Azure OpenAI ServiceでGPT4-miniのモデルデプロイが可能になりました

Azure OpenAI ServiceでGPT-4o miniのサポートが始まりましたので、GPT-4oとの料金の違い等について記載します。

GPT-4o miniとは

Microsoftのドキュメントでは「低価格かつ高速のモデル」と紹介されています。

GPT-4o mini は、お客様が驚くべき速度と低コストで素晴らしいアプリケーションを提供することを可能にします。 GPT-4o mini は、Massive Multitask Language Understanding (MMLU) の測定で 82% のスコアを付けるなどスコアが 70% である GPT-3.5 Turbo よりもかなりスマートであり、60% 以上低コストです。1 このモデルは、拡張された 128K コンテキスト ウィンドウを提供し、GPT-4o の強化された多言語機能を統合し、世界中の言語に対してより高い品質をもたらします。

Azure OpenAI Service の新機能 - Azure AI services | Microsoft Learn

また、GPT-3.5 Turboの後継にもなっており、推奨される置き換えとしての記載があります。

Azure OpenAI Service model retirements - Azure OpenAI | Microsoft Learn *1

対応しているリージョンは、2024年8月19日現在はEastUSとSwedenCentralのみとなっており、どちらもglobal standardとstandardのデプロイをサポートしています。

料金

非常に安く設定されており、GPT-4oはもちろんですが、GPT-3.5 Turboよりも安い料金設定になっています。

Model Context Input (per 1,000 tokens) Output (per 1,000 tokens)
GPT-4o-mini global standard 128K $0.00015 $0.0006
GPT-4o-mini standard 128K $0.000165 $0.00066
GPT-4o global standard 128K $0.005 $0.015
GPT-4o standard 128K $0.005 $0.015
GPT-3.5-Turbo-0613 4K $0.0015 $0.002
GPT-3.5-Turbo-0613 16K $0.003 $0.004

OpenAI’s GPT-4o mini Now Available in API with Vision Capabilities on Azure AI

デプロイ

通常のデプロイと同様に、EastUSもしくはSwedenCentralにデプロイしたAzure OpenAIのリソースでデプロイ可能です。

速度比較

前回と同様に、こちらのGitHubで公開されているベンチマークツールを使用して、ベンチマークを比較しました。

GitHub - Azure/azure-openai-benchmark: Azure OpenAI benchmarking tool

モデル比較

モデルバージョン GPT-4o global standard GPT-4o standard GPT-4o mini global standard GPT-4o mini standard
リージョン EastUS EastUS EastUS EastUS

指標

ベンチマークツールのttft_avg:リクエストの開始から、最初のトークンが受信されるまでの平均時間(秒) で比較しました。

テスト項目と結果

各モデルにbalancedとcontextの2つを使いテストしました。

  GPT-4o global standard balanced GPT-4o global standard context GPT-4o mini global standard balanced GPT-4o mini global standard context GPT-4o standard balanced GPT-4o standard context GPT-4o mini standard balanced GPT-4o mini standard context
リージョン EastUS EastUS EastUS EastUS EastUS EastUS
context tokens 500 2000 500 2000 500 2000 500 2000
max tokens 500 200 500 200 500 200 500 200
時間帯 18時ごろ 18時ごろ 18時ごろ 18時ごろ 18時ごろ 18時ごろ 18時ごろ 18時ごろ
リクエスト数 49 51 51 52 50 51 50 52
失敗リクエスト数 0 25 0 19 0 10 2 13
平均時間(秒) 0.53 0.81 1.2 1.063 0.417 0.71 0.602 0.906
エラー率 0% 49.01% 0% 36.53% 0% 20% 4% 25%

箱ひげ図

アーリーアクセスの時はかなり早かったのですが、多くの人が使っているせいかあまりGPT-4o miniは速くないという結果になりました。ただこの結果は、今後リージョンが増えることで解決するのではないかと思われます。

まとめ

速度はリージョンの混み具合などもあり不安定ですが、料金のメリットはかなり大きいと考えます。

また、GPT-3.5 Turboの推奨される置き換えモデルにもなっており、現在東日本リージョンで提供されているモデルはすべてリタイアが発表されています。GPT-4o miniが東日本リージョンでもstandardでデプロイできるようになることを期待しています。

*1:日本語のページはまだ更新がないので英語のページをリンクしています

執筆担当者プロフィール
上田 英治

上田 英治(日本ビジネスシステムズ株式会社)

エンジニアとしてインフラ構築、システム開発やIoT基盤構築等を経験し、現在はクラウドアーキテクトとして先端技術の活用提案や新規サービスの立ち上げを担当。

担当記事一覧