マルチモーダルAI

2025-06-11

Azure AI SearchのカスタムスキルでマルチモーダルRAGを実現してみた

本記事ではAzure AI Searchを使ってマルチモーダルRAG基盤を作成します。実際のPDFを題材に、テキストだけでなく画像（図表）からの情報も活用して質問に答える仕組みを解説します。

#Azure AI Foundry #Azure AI Search #Azure Open AI Service #マルチモーダル検索 #マルチモーダルデータ活用

2024-11-27

Google Cloud Platform（GCP）でナレッジ検索の基盤を構築する

Google Cloud Python マルチモーダルAI 大規模言語モデル生成AI

本記事では、Google Cloud Platform（GCP）を利用して、資料を格納し、それを検索するアプリケーションを構築する手順をご紹介します。具体的には、Cloud Storageを使用してCSVファイルをアップロードし、Agent Builderを活用して検索機能を実装します。

#GCP #Google Cloud #マルチモーダルAI #Python

2024-11-20

Google Gemini APIを使ってみる

Google Cloud Gemini マルチモーダルAI 大規模言語モデル生成AI 自然言語

本記事ではGoogle CloudのGemini APIを使用して、Pythonを通じて生成AIを活用する方法について説明します。具体的には、APIキーの取得方法や必要なパッケージのインストール、基本的なリクエストの構造、システムプロンプトの使用、会話履歴の保持方法、さら…

#gemini #GCP #大規模言語モデル #AI

2024-06-12

GPT-4oモデルのOCR性能を検証してみる

Azure Cognitive Services Azure Document Intelligence Azure OpenAI GPT-4o GPT-4 Turbo with Vision マルチモーダルAI 大規模言語モデル生成AI

本記事では、新しくリリースされたGPT-4o、GA版がリリースされたGPT-4 Turbo with Vision、およびAzure AI Document Intelligenceを使用した日本語文書のOCR性能を比較検証しています。AIモデルを通じた画像からの文字抽出テストを行い、文字一致率の計算方…