【Microsoft×生成AI連載】【Copilot Studio】エージェントの評価機能を使ってみた

【Microsoft×生成AI連載】原田です。今回は、Copilot Studioの評価機能(エージェントの回答品質を測定・テストする機能)を試してみました。

従来、エージェントの回答品質をテストするためには、一回一回時間をかけて行う必要があり、改善のためにプロンプトを修正しても、他の回答に悪影響が出ていないかを把握するのは困難でした。

こうした悩みを解決するのが、Copilot Studioの評価機能です。回答品質を定量的に測定・テストできるこの機能を活用すれば、精度の高い運用が実現します。

今回は、「AIによるテストセットの自動作成から、回答精度の評価まで」の一連の手順を試してみました。

※ この記事の情報は2026/02/24時点のものです。

これまでの連載

これまでの連載記事一覧はこちらの記事にまとめておりますので、過去の連載を確認されたい方はこちらの記載をご参照ください。

blog.jbs.co.jp

評価機能の概要

Copilot Studioの評価機能は、作成したエージェントがユーザーの質問に対してどの程度正確に、かつ安全に回答できているかを定量的に測定する機能です。

具体的な評価指標や、バックエンドで動作するAIオーケストレーターの仕組みなどの詳細な仕様については、以下の公式ドキュメントで定義されています。

learn.microsoft.com

前提条件

評価機能を使用するための条件は下記の通りです。

  • Microsoft Copilot Studioのライセンス
  • 評価対象となる生成AI(ナレッジベースや生成の回答)が設定されたエージェント

機能

評価機能を使用すると下記が可能です。

  • 一括テストの実行(数十〜数百の質問を自動でテスト)
  • 評価の算出(正確性、関連性、有害性のスコアリングなど)
  • 失敗した回答の特定とログの出力

今回はこの中から、基本的なテストセットのアップロードと評価の実行を試してみます。

実装

エージェントの準備

まずは、テストの対象となるエージェントを用意します。

今回は、Copilot Studioに標準で用意されているエージェントテンプレート【Web サイトについてよくあるご質問】をベースに評価を行います。

  1. Microsoft Copilot Studio を開き、左タブの【エージェント】を選択します。

    Copilot Studioのホーム画面

    Copilot Studioのホーム画面
  2. 【エージェント テンプレートで開始する】の中から、【Web サイトについてよくあるご質問】を選択します。

    エージェントテンプレートの選択

    エージェントテンプレートの選択
  3. エージェントの設定が表示されたら、変更せずに【作成】を選択します。

    エージェントの設定

    エージェントの設定
  4. エージェントの編集画面が開いたら、テストセットの準備は終了です。

    エージェントの編集画面

    エージェントの編集画面

テストセットの作成・実行

テストセットの準備には、主に以下の3つのアプローチがあります。

  • 手動での作成
    • 既存のFAQ集や想定問答を元に、担当者がExcel等で1件ずつ作成する方法です。
    • 回答の精度は最も高くなりますが、テスト件数が多いと多大な労力がかかります。
  • 既存のFAQデータ(CSV等)の活用
    • 社内ですでに管理しているFAQのリストや、Webサイトに掲載しているQ&Aの元データ(CSVやExcelファイル)がある場合、それを評価機能で読み込める構成に整形して流用する方法です。
  • 実際のチャットログの活用
    • すでに本番運用しているエージェントがある場合、過去のユーザーとの実際の会話ログを抽出する方法です。
    • 「あるべき正しい回答」を紐付けてデータ化し、より実践的な品質チェックに向いています。
  • AIを用いた自動作成
    • 対象となるエージェントの指示文やナレッジの内容を基に、想定されるQ&Aを自動で大量に作成させる方法です。

エージェントを評価・テストする場合、1から手動で作るのは非常に骨が折れます。そこで今回は、最も手軽で効率的な「AIを用いた自動作成」の手順をご紹介します。

  1. エージェントの編集画面上に上タブから、【評価】を選択します。

    評価の選択

    評価の選択
  2. 【テスト セットを作成する】を選択します。

    テストセットの作成

    テストセットの作成
  3. 【質問を10件作成します】を選択します。

    自動で評価を作成する

    自動で評価を作成する
  4. エージェントのテストセットが作成されました。次は、テストの方法について設定を行うため、【全般的な品質】を選択します。

    テストセットの表示

    テストセットの表示
  5. テストの方法が5通り表示されます。任意のテスト方法を選択して、【OK】を押します。

    テストメソッドの選択

    テストメソッドの選択
  6. テスト メソッドの追加が終了したら、【評価】を選択します。(選択後、テストセットは自動で保存されます。)

    テスト メソッドの設定完了

    テスト メソッドの設定完了
  7. 接続の管理が表示されます。この機能を設定すると、作成者のアカウント権限を基に、ナレッジの閲覧やアクションの実行が行われます。今回は設定せず、そのまま【実行】を選択します。

    接続の管理

    接続の管理

なお、テスト メソッドは複数の種類を選択可能となっております。もし、テスト メソッドを複数追加する際は、手順5の後に【テスト メソッドの追加】を選択することで、追加することが出来ます。

テスト メソッドの追加

テスト メソッドの追加

実行結果

評価が完了すると、テスト実行結果のダッシュボードが表示されます。

ダッシュボードを確認すると、左ペインにあるテストケース(質問)10個に対して、【全般的な品質】が問題ない(Pass)かを、AIが確認している事が分かります。

テスト結果

テスト結果

更に、テストケースの1つを選択すると、全般的な品質をチェックするために用いられた評価項目と、実際にエージェントが出力した内容を確認できます。

全般的な品質のテスト結果

全般的な品質のテスト結果

利用シーンとメリット、注意点

利用シーン

これまで、エージェントの回答精度を確認するには、テスト画面で手動で一つずつチャットを入力して検証する必要がありました。しかし、評価機能を使用することで、下記のようなシーンで効率的にテストを実施できます。

  • 公開前のチェック: ユーザーに公開する前に、想定される質問に対して一定水準の回答ができるかを確認。
  • 継続的なテスト: 新しいナレッジを追加・更新した際や、システムプロンプトを変更した際に、既存の回答精度が落ちていないかの確認。
  • UXの課題洗い出し: 「内容は合っているが、意図しない言語(英語など)で出力されていないか」といった、実際の運用に向けたチューニングポイントの発見。

メリット

評価機能を利用する最大のメリットは、網羅的なテストにかかる人的コストの削減と、品質改善サイクルの高速化です。

  • テストの自動化と定量評価が可能
    • 数十〜数百件のテストケースを一括で自動実行できます。
    • 「関連性」や「完全性」といった客観的な指標でスコア化し、品質を可視化できます。
  • ハルシネーションの特定が容易
    • 詳細なログから、エージェントがどのナレッジソースを参照して回答を生成したかをトレース可能です。
    • 誤答の原因究明がスムーズになり、迅速な修正につなげられます。
  • 効率的に機能の改善が可能
    • プロンプトの修正、テストの実行、スコアでの評価というサイクルを素早く回せます。
    • 短期間でエージェントの回答精度を継続的に向上させることが可能です。

注意点

評価機能は本格的なエージェント運用に不可欠な強力なツールですが、実践においては以下の点に注意が必要です。

  • AIによる自動判定の限界(目視確認の重要性)
    • 今回のテスト結果でも見られたように、日本語の質問に対して英語で回答した場合でも、AIの判定ロジックとしては「関連性と完全性を満たしている」として「パス(正解)」になることがあります。
    • スコアを鵜呑みにせず、実際の応答ログを目視で確認し、チューニングが必要です。
  • 実行回数の制限
    • 評価機能は一問一答形式でテストを行います。
    • トピックやシステムプロンプトによる会話の分岐については、テストが難しい可能性があります。
  • リソース(クレジット)の消費
    • 大量のテストを頻繁に実行すると、それに比例してバックエンドの生成AIリソース(メッセージクレジット等)を消費する点に留意が必要です。

まとめ

今回はMicrosoft Copilot Studioの評価機能を試してみました。

トピックのシナリオテストができないなどの制限はあるものの、エージェントの回答精度を定量的に測り、品質改善のサイクルを回す上で非常に強力なツールです。

本格的な業務利用に向けたエージェントを作成する際は、ぜひ組み込んでみてください。

おまけ(Copilot Chatによる本記事の要約)

記事要約

本記事では、Microsoft Copilot Studioの評価機能を使って、生成AIエージェントの回答品質を定量的に測定・テストする方法を解説しています。あらかじめ用意した「質問」と「期待される回答」のテストセットを用い、エージェントの正確性や安全性を評価する手順を、実際の操作画面に沿って紹介しています。

評価機能の概要

Copilot Studioの評価機能は、エージェントがユーザーの質問に対してどの程度適切に回答できているかを、一括テスト・スコアリング・ログ確認を通じて可視化する仕組みです。数十〜数百件の質問を自動実行し、正確性・関連性・有害性などの観点で評価できます。

実施手順のポイント

  • 標準テンプレート「Web サイトについてよくあるご質問」を使って評価対象エージェントを作成
  • テストセットはCSV形式で用意し、質問と期待回答をペアで定義
  • テストセットの作成方法として、手動作成や既存FAQ流用、チャットログ活用に加え、AIによる自動生成が最も効率的な方法として紹介
  • 評価画面からテストセットを自動生成し、テストメソッド(全般的な品質など)を選択して実行
  • 実行後はダッシュボードで全体スコアを確認し、個別ケースの回答内容や評価項目を詳細に確認可能

利用シーンとメリット

  • 公開前チェックナレッジ更新後の品質確認を効率化
  • 手動検証を減らし、テスト自動化と定量評価により品質改善サイクルを高速化
  • ログを活用してハルシネーションの原因特定が容易
  • プロンプト修正→評価→改善のアジャイルな運用が可能

注意点

  • AIによる自動判定には限界があり、言語違い(日本語質問に英語回答など)でも高評価になる場合があるため、目視確認が重要
  • 会話の分岐を含むシナリオテストには制約がある
  • 大量実行時には生成AIのクレジット消費に注意が必要

まとめ

Copilot Studioの評価機能は、制約はあるものの、エージェントの回答品質を客観的に測定し、継続的に改善するための非常に有効なツールであり、本格的な業務利用に向けて積極的に活用すべき機能であると結論づけています。

執筆担当者プロフィール
原田 幸典

原田 幸典(日本ビジネスシステムズ株式会社)

沖縄事業所スマートテクノロジーグループに所属。Copilot プロンプトトレーニングの実施など、お客さまへ Copilot を推進する活動を主に行っています。趣味は沖縄事業所近くの海岸線の散歩

担当記事一覧