ファイルベースのナレッジマートの作成

ファイルベースのナレッジマートを使用すると、非構造化データをベクターデータベースに埋め込んで保存できます。この操作により、拡張コンテキストをセマンティック検索機能で取得し、検索拡張生成 (RAG) アプリケーションのコンテキストとして使用できるようになります。

サポートされている入力形式は、PDF、TXT、Word DOCX です。

要件

Qlik Talend Cloud Enterprise サブスクリプションが必要です。
Snowflake および Databricks プラットフォームでサポートされています。Snowflake Iceberg には対応していません。
顧客が管理するデータゲートウェイが必要です。

Databricks には、Qlik Data Gateway - Data Movement バージョン 2024.11.95 以降が必要です。

Qlik Data Gateway - Data Movement のインストール

ファイルベースのナレッジマートを作成する前に、特定の Qlik Data Gateway - Data Movement をインストールする必要があります。詳細については、「ナレッジマート用の Qlik Data Gateway - Data Movement の設定」を参照してください。

サポートされている接続

サポートされる内容については、次を参照してください。

ベクターデータベースについては、「ベクターデータベースへの接続」を参照してください。
LLM 接続については、「LLM 接続への接続」を参照してください。
ファイルストレージについては、「ファイルストレージへの接続」を参照してください。
クラウドストレージ (Amazon S3、Google Cloud Storage、Azure Data Lake Storage) については、「クラウドストレージへの接続」を参照してください。

ファイルの作成

左メニューの [パイプラインプロジェクト] をクリックし、プロジェクトを開きます。
[パイプラインプロジェクト] ページから、ファイルベースのナレッジマートを作成できます。以下のいずれかを行います:
- [新規作成] > [ファイルベースのナレッジマート] をクリックします。
- データタスク > [ファイルベースのナレッジマート] のをクリックします。
設定ウィンドウが開きます。
名前を入力します。
説明を入力してください。これはオプションです。
[ソース接続] を作成または選択します。
[ベクターの保存先] ドロップダウンリストから、ドキュメントを保存する場所を選択します。プロジェクトと一緒にドキュメントを保存するには、 [データプロジェクトプラットフォーム] を選択します。
[外部ベクターデータベース] を選択した場合は、 [ベクターデータベース接続] を作成または選択します。ドキュメントとベクターは、このベクターデータベースに保存されます。
[LLM 接続] を作成または選択します。セマンティック検索を使用するには、この接続が必要です。
[作成] をクリックします。
ナレッジマートが作成されたら、ドキュメントを追加します。

ファイルの追加

ドキュメントにはテキストのみが書き込まれます。図や画像からのテキストは抽出されません。

[データタスク] ページの [フォルダー] タブで、フォルダーを選択するか、 [フォルダーを選択] をクリックして新しいフォルダーを選択します。
フォルダーを参照し、フォルダーのチェックボックスを選択します。
フォルダー内のすべてのファイルは、フォルダーに追加された時期に関係なく、サポートされている形式のいずれかであれば読み取られます。
インデックスに既に存在するファイルをフォルダーから削除しても、データはインデックスに残ります。インデックスからデータを削除するには、同じファイルを使用しますが、中身は空です。
フォルダー内のファイルの一覧を表示するには、フォルダーを右クリックします。
[保存] をクリックして、 [フォルダーを選択] ウィンドウを閉じます。
チャンクサイズやチャンクのオーバーラップを編集するには、 [設定] > [実行時間] をクリックします。
インデックス名を編集するには、 [設定] > [ベクターデータベース設定] をクリックします。
詳細については、「インデックス名」を参照してください。
右側の > [準備] をクリックします。
準備が完了したら、 [実行] をクリックします。ドキュメントは埋め込まれ、転送されます。
[実行] ボタンがアクティブになると転送が完了します。
最初のフルロードの場合は、各ファイルのステータスを確認します。
1. メニューで [モニター] を選択します。
2. ページの下部にある [フルロードステータス] を選択します。
3. 一部のファイルが失敗した場合、すべてを再実行する前に、エラーを修正するかファイルを削除します。ファイルをエラーのままにしておくと、次回の実行は失敗します。
情報メモすべてのファイルをリロードすると、追加コストが発生する場合があります。

ファイルが正しい場合は、データについて質問できます。詳細については、「テストアシスタントの使用」を参照してください。

フルロードと変更データキャプチャ (CDC)

フルロードと CDC がサポートされています。

フルロード: ドキュメントインスタンスごとにドキュメントが生成され、ターゲットに送信されます。

CDC: 変更後にドキュメントが再生成されます。

ファイルが変更または追加されると、このファイルからドキュメントが読み取られます。ファイルは、チャンクサイズとオーバーラップに応じてチャンクのドキュメントに分割されます。

最初のフルロードの場合は、各ファイルのステータスを確認します。

メニューで [モニター] を選択します。
ページの下部にある [フルロードステータス] を選択します。
一部のファイルが失敗した場合、すべてを再実行する前に、エラーを修正するかファイルを削除します。ファイルをエラーのままにしておくと、次回の実行は失敗します。

すべてのファイルをリロードすると、追加コストが発生する場合があります。

入力データの更新

入力データを更新したら、データタスクを実行して変更をベクターデータベースまたはデータプラットフォームに転送する必要があります。

古いチャンクが削除され、新しいチャンクが挿入されるため、項目 hdr__operation は更新操作ではなく挿入操作に対応します。詳細については、「クラウドデータウェアハウスのデータセットアーキテクチャ」を参照してください。

インデックス名

各ナレッジマートには、セマンティック検索に使用されるインデックス名があります。

同じインデックスに書き込むようにタスクを構成する場合は、タスクに対して同じ LLM パラメーターを構成する必要があります。

ドキュメントを同じインデックスに配置する場合は、同じインデックス名を持つ必要があります。

インデックス名を編集するには、次を実行します。

[データタスク] ページで、 [設定] をクリックします。
[ベクターデータベース設定] タブを選択します。
[インデックス名] を編集します。
OKをクリックします。

インデックス名を編集した後、タスクを準備する必要があります。準備しないと、次回の実行時に変更が適用されません。

タスク情報の表示

メニューバーでをクリックして、次のようなタスク情報を表示します。

所有者
スペース
データプラットフォーム
プロジェクトID
データタスク実行 ID

設定

ナレッジマートの設定を表示および編集できます。

[データタスク] ページから、 > [設定] をクリックします。

設定はストレージ (Databricks、Snowflake など) に応じて異なるため、次の表では常に使用できる設定について説明します。それ以外の設定を使用できる場合もあります。

この表では、 [接続] タブの設定について説明します。
設定	説明
ソース接続	ソース接続。
ベクターの保存先	ドロップダウンリストから、次を選択します。外部ベクターデータベースデータプロジェクトプラットフォーム
ベクターデータベース接続この設定は、 [ベクターの保存先] で [外部ベクターデータベース] を選択した場合に使用できます。	ベクターデータベース接続。詳細については、「ベクターデータベースへの接続」を参照してください。
LLM 接続	LLM 接続。詳細については、「LLM 接続への接続」を参照してください。 Databricks を LLM 接続として使用する場合は、ナレッジマートの作成時に [Embedding model serving endpoint] (埋め込みモデル提供エンドポイント) と [Completion model serving endpoint] (完了モデル提供エンドポイント) を設定します。詳細については、「Databricks のドキュメンテーション」を参照してください。

この表では、 [プラットフォーム設定] タブの設定について説明します。
設定	説明
データタスクのスキーマ	データタスクのスキーマの名前です。
内部スキーマ	内部スキーマの名前です。
すべてのテーブルとビューのプレフィックス	複数のデータタスク間の競合を解決するためのプレフィックスです。

この表では、 [ベクターデータベース設定] タブの設定について説明します。
設定	説明
インデックススキーマこの設定は、 [ベクターの保存先] に [外部ベクターデータベース] を選択した場合は使用できません。	インデックススキーマの名前。
インデックス名	インデックスの名前。
インデックスがすでに存在する場合	複数のタスクが同じインデックスに書き込んでいる場合、インデックスを削除する必要があるかどうかを選択します。既存のインデックスを使用: インデックスは削除されません。インデックスをドロップして作成: インデックスは削除されます。
Databricks ベクター検索エンドポイント	Databricks で作成されたベクター検索エンドポイントの名前。詳細については、「ナレッジマートの Databricks を構成する」を参照してください。情報メモデータプラットフォームとして Databricks を使用するプロジェクトにのみ適用されます。

この表では、 [実行時間] タブの設定について説明します。
設定	説明
並列実行	データベース接続の最大数。 1 ～ 50 の値を入力します。
バルクサイズ	ナレッジマートの場合、バルクサイズは各バルクリクエストでロードされるドキュメントの数です。ファイルベースのナレッジマートの場合、バルクサイズは各バルクリクエストでロードされるファイルの数です。 Snowflake および Databricks では、すべてが 1 つのクエリでロードされるため、バルクサイズは必要ありません。
ロードするレコードの最大数	0 はすべてのレコードがロードされていることを意味します。

この表は、Snowflake の [表示] タブの設定について説明しています
設定	説明
標準ビュー	標準ビューを使用して、クエリの結果をテーブルのように表示します。
Snowflake セキュアビュー	基礎となるテーブルのすべてのユーザーに公開すべきではない機密データへのアクセスを制限するために作成されたビューなど、データのプライバシーまたは機密情報の保護のために指定されたビューには、Snowflake のセキュアビューを使用します。 Snowflake セキュアビューは、標準ビューよりも実行速度が遅くなる場合があります。

この表では、 [テストアシスタント] タブの設定について説明します。
設定	説明
コンテキスト内のドキュメント数	コンテキストとしてモデルに渡される関連ドキュメントの数です。
プロンプトテンプレート	含めるドキュメントをフィルタリングするために AI が従う必要のあるテンプレートを入力します。
[Filter] (フィルター)	含めるドキュメントをフィルターするための式を入力します。フィルターはメタデータに基づいており、ファイルベースのナレッジマートにはメタデータがないため、構成するフィルターについては慎重に検討してください。データを含めるのではなく、除外する方が適切な場合もあります。詳細については、「テストアシスタントの使用」を参照してください。
ドキュメント検索	ドロップダウンリストからオプションを選択します。取得したコンテキストを表示: テストアシスタントは、回答を生成するためのドキュメントを提供します。取得したコンテキストを表示しない: テストアシスタントは回答を生成しますが、ドキュメントは提供しません。
回答の生成	ドロップダウンリストからオプションを選択します。回答を生成: テストアシスタントはドキュメントに基づいて回答を生成します。回答を生成しない: テストアシスタントはドキュメントのみで回答します。

接続またはデータゲートウェイの変更

ソース接続、ベクトル接続、またはベクトルデータゲートウェイを変更した場合は、タスクを再度準備する必要があります。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

ファイルベースのナレッジ マートの作成

要件