マルチモーダルAI

Google Cloud Platform(GCP)でナレッジ検索の基盤を構築する

本記事では、Google Cloud Platform(GCP)を利用して、資料を格納し、それを検索するアプリケーションを構築する手順をご紹介します。具体的には、Cloud Storageを使用してCSVファイルをアップロードし、Agent Builderを活用して検索機能を実装します。

Google Gemini APIを使ってみる

本記事ではGoogle CloudのGemini APIを使用して、Pythonを通じて生成AIを活用する方法について説明します。具体的には、APIキーの取得方法や必要なパッケージのインストール、基本的なリクエストの構造、システムプロンプトの使用、会話履歴の保持方法、さら…

GPT-4oモデルのOCR性能を検証してみる

本記事では、新しくリリースされたGPT-4o、GA版がリリースされたGPT-4 Turbo with Vision、およびAzure AI Document Intelligenceを使用した日本語文書のOCR性能を比較検証しています。AIモデルを通じた画像からの文字抽出テストを行い、文字一致率の計算方…

Azure AI Speech Service+ChatGPTを使って、入出力が音声のみのアシスタントサービスを作成する

Azure AI ServiceのAIとChatGPTを使用した音声チャットボットを構築します。また発声からレスポンスまでのユーザーの待機時間がどの程度になるのかを検証します。

GPT-4 Turbo with Vision: Azure OpenAI Service マルチモーダルな新モデルの概要と使用方法

OpenAI DevDayで発表されたGPT-4のマルチモーダルモデルであるGPT-4 Turbo VisionがAzure OpenAIでもプレビュー機能として使用できるようになりました。今回の記事ではその概要と、簡単な使用方法に触れていきます。

GPT-4VとUnreal Engineの融合:マルチモーダルAIによる仮想空間でのアプリ検証とメタバースの新たな可能性

最新のマルチモーダルAIモデルGPT-4Vの可能性を探るべく、OpenAIのAPIを活用し、Unreal Engine 5.2で構築された3D環境での画像解析能力を検証しました。この記事では、仮想空間内を歩き回りながらリアルタイムで分析結果を取得するプロセスを通じて、AIの視…