ナレッジマートの作成

ナレッジマートを使用すると、構造化データをベクターデータベースに埋め込んで保存できます。この操作により、拡張コンテキストをセマンティック検索機能で取得し、検索拡張生成 (RAG) アプリケーションのコンテキストとして使用できるようになります。

出力は JSON 形式です。

Qlik Talend Cloud Enterprise サブスクリプションが必要です。

要件

Qlik Talend Cloud Enterprise サブスクリプションが必要です。
Snowflake および Databricks プラットフォームでサポートされています。Snowflake Iceberg には対応していません。
顧客が管理するデータゲートウェイが必要です。

Databricks には、Qlik データゲートウェイ - データ移動バージョン 2024.11.95 以降が必要です。

Qlik データゲートウェイ - データ移動のインストール

ナレッジマートを作成する前に、特定の Qlik データゲートウェイ - データ移動をインストールする必要があります。詳細については、「ナレッジマート用の Qlik データゲートウェイ - データ移動の設定」を参照してください。

サポートされている接続

サポートされる内容については、次を参照してください。

ベクターデータベースについては、「ベクターデータベースへの接続」を参照してください。
LLM 接続については、「LLM 接続への接続」を参照してください。
ファイルストレージについては、「ファイルストレージへの接続」を参照してください。

データの作成

左メニューの [パイプラインプロジェクト] をクリックし、プロジェクトを開きます。
[パイプラインプロジェクト] ページから、ベクターデータベースにドキュメントを生成して公開できます。以下のいずれかを行います:
- [新規作成] > [ナレッジマート] をクリックします。
- データタスク > [ナレッジマート] のをクリックします。
設定ウィンドウが開きます。
名前を入力します。
説明を入力してください。これはオプションです。
[ベクターの保存先] ドロップダウンリストから、ドキュメントを保存する場所を選択します。プロジェクトと一緒にドキュメントを保存するには、 [データプロジェクトプラットフォーム] を選択します。
[外部ベクターデータベース] を選択した場合は、 [ベクターデータベース接続] を作成または選択します。ドキュメントとベクターは、このベクターデータベースに保存されます。
[LLM 接続] を作成または選択します。セマンティック検索を使用するには、この接続が必要です。
[作成] をクリックします。
データが作成されたら、ドキュメントを追加します。

ドキュメントの追加

テキスト形式のみがサポートされます。たとえば、図や画像からテキストを抽出することはできません。

[データタスク] ページの [データセット] タブで、左側のパネルの [追加] をクリックします。
ドキュメントを生成する基本データセットを選択します。レコードごとにドキュメントが作成されます。たとえば、患者のリストの場合、患者ごとにドキュメントが作成されます。
[ドキュメントスキーマ名] 項目には、選択した基本データセットの名前が事前に入力されます。必要であれば名前を変更します。
説明を入力してください。これはオプションです。
ドキュメントを充実させるために含めるデータを選択します。
OKをクリックします。[ドキュメントスキーマ] タブに戻ります。
[データセット] タブを選択します。
左側のパネルで、先ほど基本データセットとして選択したデータセットを選択します。
ドキュメントに含めないデータを削除するには、チェックボックスをオンにして [削除] をクリックします。
メタデータとして定義するすべてのフィールドに対して、[メタデータ] を選択します。データをLLMに送信する前に、メタデータに基づいてフィルタリングできます。

情報メモDatabricksでは、メタデータは、選択されたメタデータフィールドのキーと値のJSON表現を含む単一のフィールドによって実装されます。
LLM によって実行されるセマンティック検索を改善するには、名前が明確でないデータの名前を変更します。
例: dt の名前を date に変更します。
必要に応じてデータを削除し、名前を変更したら、右側の > [準備] をクリックします。ドキュメントは JSON 形式で作成されます。
ドキュメントが生成されたら、次を実行します。
1. [データセット] タブを選択します。
2. タスクを実行する前にドキュメントを確認するには、 [データの表示] をクリックしてデータサンプルを表示します。
3. [Run] (実行)をクリックします。ドキュメントは、構成に応じてベクターデータベースまたはデータプラットフォームに転送されます。

[実行] ボタンがアクティブになると転送が完了します。

データについて質問すると、すべてが転送されたことを確認できます。詳細については、「テストアシスタントの使用」を参照してください。

フルロードと変更データキャプチャ (CDC)

フルロードと CDC がサポートされています。

フルロード: ドキュメントインスタンスごとにドキュメントが生成され、ターゲットに送信されます。

CDC: ベースまたは関連エンティティに変更があった後にドキュメントが再生成されます。

エントリが基本エンティティに追加されると、新しいドキュメントが作成されます。関連エンティティ内のエントリを基本エンティティに接続できない場合、それらのエントリはドキュメントに表示されません。

入力データの更新

入力データを更新したら、データタスクを実行して変更をベクターデータベースまたはデータプラットフォームに転送する必要があります。

インデックス名

各ナレッジマートには、セマンティック検索に使用されるインデックス名があります。

同じインデックスに書き込むようにタスクを構成する場合は、タスクに対して同じ LLM パラメーターを構成する必要があります。

ドキュメントを同じインデックスに配置する場合は、同じインデックス名を持つ必要があります。

インデックス名を編集するには、次を実行します。

[データタスク] ページで、 [設定] をクリックします。
[ベクターデータベース設定] タブを選択します。
[インデックス名] を編集します。
OKをクリックします。

タスク情報の表示

メニューバーでをクリックして、次のようなタスク情報を表示します。

所有者
スペース
データプラットフォーム
プロジェクトID
データタスク実行 ID

設定

ナレッジマートの設定を表示および編集できます。

[データタスク] ページから、 > [設定] をクリックします。

設定はストレージ (Databricks、Snowflake など) に応じて異なるため、次の表では常に使用できる設定について説明します。それ以外の設定を使用できる場合もあります。

この表では、 [接続] タブの設定について説明します。
設定	説明
ソース接続	ソース接続。
ベクターの保存先	ドロップダウンリストから、次を選択します。外部ベクターデータベースデータプロジェクトプラットフォーム
ベクターデータベース接続この設定は、 [ベクターの保存先] で [外部ベクターデータベース] を選択した場合に使用できます。	ベクターデータベース接続。詳細については、「ベクターデータベースへの接続」を参照してください。
LLM 接続	LLM 接続。詳細については、「LLM 接続への接続」を参照してください。 Databricks を LLM 接続として使用する場合は、ナレッジマートの作成時に [Embedding model serving endpoint] (埋め込みモデル提供エンドポイント) と [Completion model serving endpoint] (完了モデル提供エンドポイント) を設定します。詳細については、「Databricks のドキュメンテーション」を参照してください。

この表では、 [プラットフォーム設定] タブの設定について説明します。
設定	説明
データタスクのスキーマ	データタスクのスキーマの名前です。
内部スキーマ	内部スキーマの名前です。
すべてのテーブルとビューのプレフィックス	複数のデータタスク間の競合を解決するためのプレフィックスです。

この表では、 [ベクターデータベース設定] タブの設定について説明します。
設定	説明
インデックススキーマこの設定は、 [ベクターの保存先] に [外部ベクターデータベース] を選択した場合は使用できません。	インデックススキーマの名前。
インデックス名	インデックスの名前。
インデックスがすでに存在する場合	複数のタスクが同じインデックスに書き込んでいる場合、インデックスを削除する必要があるかどうかを選択します。既存のインデックスを使用: インデックスは削除されません。インデックスをドロップして作成: インデックスは削除されます。
Databricks ベクター検索エンドポイント	Databricks で作成されたベクター検索エンドポイントの名前。詳細については、「ナレッジマートの Databricks を構成する」を参照してください。情報メモデータプラットフォームとして Databricks を使用するプロジェクトにのみ適用されます。

この表では、 [実行時間] タブの設定について説明します。
設定	説明
並列実行	データベース接続の最大数。 1 ～ 50 の値を入力します。
バルクサイズ	ナレッジマートの場合、バルクサイズは各バルクリクエストでロードされるドキュメントの数です。ファイルベースのナレッジマートの場合、バルクサイズは各バルクリクエストでロードされるファイルの数です。 Snowflake および Databricks では、すべてが 1 つのクエリでロードされるため、バルクサイズは必要ありません。
ロードするレコードの最大数	0 はすべてのレコードがロードされていることを意味します。

この表は、Snowflake の [表示] タブの設定について説明しています
設定	説明
標準ビュー	標準ビューを使用して、クエリの結果をテーブルのように表示します。
Snowflake セキュアビュー	基礎となるテーブルのすべてのユーザーに公開すべきではない機密データへのアクセスを制限するために作成されたビューなど、データのプライバシーまたは機密情報の保護のために指定されたビューには、Snowflake のセキュアビューを使用します。 Snowflake セキュアビューは、標準ビューよりも実行速度が遅くなる場合があります。

この表では、 [テストアシスタント] タブの設定について説明します。
設定	説明
コンテキスト内のドキュメント数	コンテキストとしてモデルに渡される関連ドキュメントの数です。
プロンプトテンプレート	含めるドキュメントをフィルタリングするために AI が従う必要のあるテンプレートを入力します。
[Filter] (フィルター)	含めるドキュメントをフィルターするための式を入力します。フィルターはメタデータに基づいており、ファイルベースのナレッジマートにはメタデータがないため、構成するフィルターについては慎重に検討してください。データを含めるのではなく、除外する方が適切な場合もあります。詳細については、「テストアシスタントの使用」を参照してください。
ドキュメント検索	ドロップダウンリストからオプションを選択します。取得したコンテキストを表示: テストアシスタントは、回答を生成するためのドキュメントを提供します。取得したコンテキストを表示しない: テストアシスタントは回答を生成しますが、ドキュメントは提供しません。
回答の生成	ドロップダウンリストからオプションを選択します。回答を生成: テストアシスタントはドキュメントに基づいて回答を生成します。回答を生成しない: テストアシスタントはドキュメントのみで回答します。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

ナレッジ マートの作成

要件

Qlik データ ゲートウェイ - データ移動 のインストール