Azure OpenAI ServiceでGPT-4o miniのサポートが始まりましたので、GPT-4oとの料金の違い等について記載します。
GPT-4o miniとは
Microsoftのドキュメントでは「低価格かつ高速のモデル」と紹介されています。
GPT-4o mini は、お客様が驚くべき速度と低コストで素晴らしいアプリケーションを提供することを可能にします。 GPT-4o mini は、Massive Multitask Language Understanding (MMLU) の測定で 82% のスコアを付けるなどスコアが 70% である GPT-3.5 Turbo よりもかなりスマートであり、60% 以上低コストです。1 このモデルは、拡張された 128K コンテキスト ウィンドウを提供し、GPT-4o の強化された多言語機能を統合し、世界中の言語に対してより高い品質をもたらします。
Azure OpenAI Service の新機能 - Azure AI services | Microsoft Learn
また、GPT-3.5 Turboの後継にもなっており、推奨される置き換えとしての記載があります。
Azure OpenAI Service model retirements - Azure OpenAI | Microsoft Learn *1
対応しているリージョンは、2024年8月19日現在はEastUSとSwedenCentralのみとなっており、どちらもglobal standardとstandardのデプロイをサポートしています。
料金
非常に安く設定されており、GPT-4oはもちろんですが、GPT-3.5 Turboよりも安い料金設定になっています。
Model | Context | Input (per 1,000 tokens) | Output (per 1,000 tokens) |
---|---|---|---|
GPT-4o-mini global standard | 128K | $0.00015 | $0.0006 |
GPT-4o-mini standard | 128K | $0.000165 | $0.00066 |
GPT-4o global standard | 128K | $0.005 | $0.015 |
GPT-4o standard | 128K | $0.005 | $0.015 |
GPT-3.5-Turbo-0613 | 4K | $0.0015 | $0.002 |
GPT-3.5-Turbo-0613 | 16K | $0.003 | $0.004 |
OpenAI’s GPT-4o mini Now Available in API with Vision Capabilities on Azure AI
デプロイ
通常のデプロイと同様に、EastUSもしくはSwedenCentralにデプロイしたAzure OpenAIのリソースでデプロイ可能です。
速度比較
前回と同様に、こちらのGitHubで公開されているベンチマークツールを使用して、ベンチマークを比較しました。
GitHub - Azure/azure-openai-benchmark: Azure OpenAI benchmarking tool
モデル比較
モデルバージョン | GPT-4o global standard | GPT-4o standard | GPT-4o mini global standard | GPT-4o mini standard |
---|---|---|---|---|
リージョン | EastUS | EastUS | EastUS | EastUS |
指標
ベンチマークツールのttft_avg:リクエストの開始から、最初のトークンが受信されるまでの平均時間(秒) で比較しました。
テスト項目と結果
各モデルにbalancedとcontextの2つを使いテストしました。
GPT-4o global standard balanced | GPT-4o global standard context | GPT-4o mini global standard balanced | GPT-4o mini global standard context | GPT-4o standard balanced | GPT-4o standard context | GPT-4o mini standard balanced | GPT-4o mini standard context | |
---|---|---|---|---|---|---|---|---|
リージョン | EastUS | EastUS | EastUS | EastUS | EastUS | EastUS | ||
context tokens | 500 | 2000 | 500 | 2000 | 500 | 2000 | 500 | 2000 |
max tokens | 500 | 200 | 500 | 200 | 500 | 200 | 500 | 200 |
時間帯 | 18時ごろ | 18時ごろ | 18時ごろ | 18時ごろ | 18時ごろ | 18時ごろ | 18時ごろ | 18時ごろ |
リクエスト数 | 49 | 51 | 51 | 52 | 50 | 51 | 50 | 52 |
失敗リクエスト数 | 0 | 25 | 0 | 19 | 0 | 10 | 2 | 13 |
平均時間(秒) | 0.53 | 0.81 | 1.2 | 1.063 | 0.417 | 0.71 | 0.602 | 0.906 |
エラー率 | 0% | 49.01% | 0% | 36.53% | 0% | 20% | 4% | 25% |
箱ひげ図
アーリーアクセスの時はかなり早かったのですが、多くの人が使っているせいかあまりGPT-4o miniは速くないという結果になりました。ただこの結果は、今後リージョンが増えることで解決するのではないかと思われます。
まとめ
速度はリージョンの混み具合などもあり不安定ですが、料金のメリットはかなり大きいと考えます。
また、GPT-3.5 Turboの推奨される置き換えモデルにもなっており、現在東日本リージョンで提供されているモデルはすべてリタイアが発表されています。GPT-4o miniが東日本リージョンでもstandardでデプロイできるようになることを期待しています。
*1:日本語のページはまだ更新がないので英語のページをリンクしています
上田 英治(日本ビジネスシステムズ株式会社)
エンジニアとしてインフラ構築、システム開発やIoT基盤構築等を経験し、現在はクラウドアーキテクトとして先端技術の活用提案や新規サービスの立ち上げを担当。
担当記事一覧