Microsoft Syntex事前構築済みモデルで請求書情報をExcelに出力する

Microsoft Syntexモデルを1から構築する手順については、以前ご紹介させていただきました。

blog.jbs.co.jp

今回は、事前構築済みモデルとして提供されているMicrosoft Syntexモデルを使って、PDFファイル等で展開されることの多い請求書情報を、SharePoint Onlineのドキュメントライブラリにプロパティ情報として追加し、データとして加工のしやすいExcel形式で出力する方法をご紹介します。

1から構築する場合はトレーニング用サンプルファイルを5つ以上用意してモデルをトレーニングする必要がありますが、本手順ではその手間を省くことができます。

ただし、2023年9月時点では、日本語(もとい漢字)対応が十分でないモデルを適用することになります。とはいえ、一度事前構築済みモデルを展開してドキュメントライブラリに適用してしまえば、運用結果に応じて、モデルのリトレーニングを事後的に実施することもできます。

本記事では、実運用に足る事前構築済みモデルの汎用性をご紹介させていただければと思います。

前提条件

前提条件については、下記のとおりです。

  1. 想定ユーザーはSPO運用担当者とし、「SharePoint Syntex」ライセンスが付与されているものとします。
  2. SPO運用担当ユーザーは、「グローバル管理者」の役割を付与されているものとします。

準備

ドキュメントサンプル

今回の対象ドキュメントは、Microsoft Office公式テンプレートのWordファイルを元に作成した請求書のPDFドキュメントを使用します。*1

モデル適用(抽出子選択)まで

前回同様、「コンテンツ センター」にアクセスし、画面左上の「+新規」>「モデル」をクリックします。

「モデル作成のオプション」画面で、今回は、「事前構築済みモデルを設定する」>「請求書処理」を選択します。

「請求書処理: 詳細」画面では、「次へ」を選択します。

「請求書処理モデルを作成する」画面では、入力必須の「モデル名*2」と任意の「説明」を入力後、「作成」をクリックします。

画面遷移後、左上の「ファイルの追加」をクリックし、左上の「+追加」をクリックします。

「トレーニング ファイル ライブラリからファイルを追加する」画面では、サンプルファイルを1つアップロードし、「追加」をクリックします。

「モデルを分析する」画面上では、「次へ」をクリックします。

すると、事前構築済みのモデルが、サンプルファイル上で抽出可能な抽出子(抽出器)の候補一覧を出力してくれるので、必要なデータ項目を取捨選択します。

選択完了後、画面右下の「保存して終了する」をクリックします。

すると、先ほどの「請求書処理モデル」画面内の「抽出器」内に、選択した抽出器が表示されることが確認できます。

実行

モデル適用

「請求書処理モデル」画面内の「モデルを適用」をクリックします。

モデルを適用するドキュメントライブラリを選択後、「追加する」をクリックすると、モデルが適用されます。

適用先のドキュメントライブラリに遷移後、サンプルファイルと同じひな形ファイルから作成したPDFファイルを、5ファイルほどアップロードします。

アップロード完了後、ドキュメントライブラリ画面右上の「すべてのドキュメント」ビューから、先ほど作成した「請求書処理モデル」のビューをクリックします。

画面が切り替わり、モデルの分析が完了すると、選択した抽出器に対応するドキュメントの請求書情報が自動的に出力されました。*3*4

Excel出力

ドキュメントライブラリ画面の右上にある「Excelにエクスポート」を選択します。

iqyファイルがダウンロードされるので、Excelを起動して表示します。

すると、ドキュメントライブラリに表示されていた請求書情報がExcelファイルに出力されていることが確認できます。

おわりに

本検証は事前の検証を含めて3回実施しましたが、感覚的な精度で言うと、脚注で示した一部日本語未対応箇所を除き、請求書番号や合計金額等の英数字については、いずれも正しく出力できていることが確認できました。

ただ、事前構築済みモデルの抽出器における実際の精度評価まではできていないため、評価手法の確立を含めて、今後の課題としたいと思います。

*1:https://templates.office.com/ja-jp/%E8%AB%8B%E6%B1%82%E6%9B%B8-tm10072676

*2:この名前が、モデル適用先のドキュメントライブラリ上のビュー名となります。

*3:「CustomerName」の抽出器については、現状の事前構築モデルが日本語未対応なこともあり、やはり会社名以外の情報を一部抽出してしまいましたが、必要に応じてドキュメントライブラリ上で列情報を修正するか、モデルをリトレーニングすることで改善が見込めます。

*4:「InvoiceDate」の抽出器についても、記載のない「16:00」の情報が追加されてしまったので、必要に応じて列情報の修正を行います。

執筆担当者プロフィール
色部 晟洋

色部 晟洋(日本ビジネスシステムズ株式会社)

SharePoint Onlineサイト構築・Microsoft365移行等でプリセールス・PMを経験後、AI等の先端技術を扱う部門に異動。好きな映画は『風立ちぬ』です。

担当記事一覧