日々の業務で作成されるマニュアルや問い合わせ対応の記録、製品の仕様書など、社内には多くの有用なドキュメントが存在します。
しかし、それらが部門ごとに分散していると、必要な情報を探すのに時間がかかり、同じ質問や対応が繰り返されてしまうことがあります。
このような課題に対応する手段として有効なのが、Difyのナレッジパイプラインです。
ナレッジパイプラインを使うと、社内ドキュメントを自動的に整理し、検索やQ&A応答に活用できる形で蓄積できます。
この記事では、その基本的な仕組みを理解するために、Q&A形式のデータを自動生成する例を紹介します。
実際の構成や処理の流れを見ながら、どのようにナレッジベースを構築できるのかを順を追って説明します。
ナレッジパイプラインとは?
ナレッジパイプラインとは、単なる生データを “検索可能な知識ベース” に変換するための、ドキュメント処理のワークフローです。
ワークフローを組み立てるように、様々な処理ノードやツールを視覚的に組み合わせて設定し、データの構造化、インデックス化、検索精度、関連性の最適化を行います。
※ナレッジパイプラインの詳細は以下のリンクを参照ください。
ナレッジパイプラインの動作結果
以下のような処理の流れを構築することで、ドキュメントをインポートし、Q&A形式のナレッジベースを自動生成できます。

各ブロックの役割は次の通りです。
- FILE:元となるドキュメントファイル(PDFやWordなど)をアップロードします。
- テキスト抽出:ファイル内のテキストを抽出します。
- LLM(大規模言語モデル):抽出したテキストから、質問と回答のペアを生成します。
- MARKDOWN TO CSV FILE:生成されたQ&AをCSV形式で保存します。
- QA CHUNK:CSVデータをチャンク(小分け)に分けて扱えるようにします。
- 知識ベース:チャンク化されたQ&Aをナレッジベースに登録します。
以下の会話例をインポートし、処理結果を確認しました。
[顧客]:あ、すみません。えっと、来週の…あの、大ホールでやるキッズイベント?に行く予定なんですけど、当日ってベビーカーって、そのまま入れるんですかね……?
[オペレーター]:お問い合わせありがとうございます。来週のキッズフェスタですね。ベビーカーでの入場について確認いたします。まず、お子さまの年齢と、ベビーカーの大きさは普通のタイプでよろしいですか?
[顧客]:あ、はい、1歳です。で、あの、よくある…折りたためるやつで、特に大きいとかじゃないと思います。たぶん…。
[オペレーター]:ありがとうございます。イベント当日は、入口でスタッフが誘導しますが、基本的にはベビーカーのまま入れます。ただ、会場内は混む時間もあって、歩く場所が少しせまくなることがあります。
[顧客]:ああ、やっぱり混むんですね……。えっと、たたんで持ちこむってのもできるんですか?荷物置き場みたいなのって……。
[オペレーター]:はい。入り口の横に「ベビーカー置き場」があります。そこで折りたたんで預けることもできますし、そのまま使っていただくこともできます。
[顧客]:なるほど…。あ、あと、すみません、会場にエレベーターあります?前に別のイベントで、階段しかなくてたいへんだったので……。
[オペレーター]:ございます。入り口を入ってすぐ右手にあります。スタッフも案内できますので、ご安心ください。
[顧客]:あ、よかった……。じゃあ、当日はベビーカーで行きます。あ、でも混んでたら、そのとき考えます。ありがとう…ございます。
[オペレーター]:どうぞお気をつけてお越しください。また何かあればどうぞ。
[顧客]:あ、すみません、もう一つだけ…えっと、もし子どもが急に熱出しちゃったとかで行けなくなった場合、チケットって払い戻しってできます?
[オペレーター]:払い戻しについてですね。今回のイベントは、基本は払い戻しなしですが、医師の診断書など「やむを得ない理由」の場合は、事務局で個別に確認しています。
[顧客]:あ、そうなんですね……。じゃあ、もし本当に行けないってなったら、また電話すればいいんですか?
[オペレーター]:はい。来られないことが分かった時点でご連絡いただければ、必要な手続きをご案内します。
[顧客]:わかりました…。すみません、次から次へと聞いちゃって。助かりました。
[オペレーター]:いえ、大丈夫です。また何かあれば、いつでもどうぞ。
結果は以下の通りです。
ドキュメントをインポートし、Q&A形式のナレッジベースへ変換できています。

環境
検証したDifyのバージョンは下記です。
- 1.9.2
作業手順
ナレッジパイプラインの構築手順を説明します。
ナレッジパイプラインの作成
Difyのナレッジから、知識パイプラインを選択します。

空白のナレッジパイプラインを選択します。

ナレッジパイプラインの画面が表示されます。

データソースを追加
Fileを選択します。

テキスト抽出ノードを追加
テキスト抽出ノードを選択します。

入力変数に、fileを設定します。

LLMノードを追加
LLMノードを追加します。

LLMノードは下記の内容で設定しました。

使用したプロンプト文は下記です。
【目的】
会話から質問を整理し、あとでFAQとして使いやすい形にまとめるためです。
【ルール】
最初に必ず下のヘッダー2行だけを出す
| Index | Question | Answer |
|-------|-----------|--------|
Indexは「1,2,3…」と続けてください。
質問文は短く書きます。
答えは、会話に出てきた情報の範囲で書きます。想像で話を広げすぎないでください。
表は1つだけにします。途中で分けません。
表以外の文章は出しません。
セルの中には「|」を入れません。
無関係な語句(nan、テストなど)は入れません。
【出力例(最初の2行は必ず出す)】
IndexQuestionAnswer
このあとに、会話から作ったFAQの行を追加してください。
【指示】
入力された会話データを読んで、上の形式にしたがってMarkdown表1つだけを出力してください。
前後に説明文を入れず、表だけ出してください。
MARKDOWN TO CSV FILEノードを追加
MARKDOWN TO CSV FILEノードを追加します。

入力変数に、LLMノードのテキスト出力を設定します。

QA CHUNKノードを追加
QA CHUNKノードを追加します。

Input FileにMARKDOWN TO CSV FILEの出力を設定します。
Column number for questionに1、Column number for answerに2を設定します。

知識ベースへ接続
知識ベースへ接続します。

チャンク構造で、Q&Aを選択します。

チャンクの項目に、QA CHUNKノードを設定します。

埋め込みモデルや、検索設定は任意に設定してください。
今回はハイブリッド検索でウェイト設定を選択しました。

まとめ
ナレッジパイプラインを使うと、社内にあるドキュメントを自動的にQ&A形式に整理し、検索や応答に使える形で蓄積できます。Dify上でノードを組み合わせるだけで構築できるため、特別な開発作業は不要です。
LLMノードを加えることで、データの内容を柔軟に加工できます。たとえば、個人情報を含むデータであれば自動でマスク処理を行ってから保存したり、製品情報などが正確かどうかをWeb検索などで確認してからナレッジに登録したりすることも可能です。
こうした処理を組み込むことで、安全性と正確性を両立したナレッジベースを構築できます。
今回は、Q&A形式のデータを自動生成する例を紹介しましたが、ナレッジパイプラインではこのほかにもさまざまな形式の情報を作成できます。目的に応じてノードを組み合わせることで、柔軟に知識の蓄積と活用を進められます。
まずは小さめのデータから試して、動きや使いやすさを確かめながら、皆さんの環境に合った知識管理の方法を検討してみたください。