ナレッジ マートの作成
ナレッジ マートを使用すると、構造化データをベクター データベースに埋め込んで保存できます。この操作により、拡張コンテキストをセマンティック検索機能で取得し、検索拡張生成 (RAG) アプリケーションのコンテキストとして使用できるようになります。
出力は JSON 形式です。
要件
-
Qlik Talend Cloud Enterprise サブスクリプションが必要です。
-
Snowflake および Databricks プラットフォームでサポートされています。Snowflake Iceberg には対応していません。
-
顧客が管理するデータ ゲートウェイが必要です。
Databricks には、Qlik データ ゲートウェイ - データ移動 バージョン 2024.11.95 以降が必要です。
Qlik データ ゲートウェイ - データ移動 のインストール
ナレッジ マートを作成する前に、特定の Qlik データ ゲートウェイ - データ移動 をインストールする必要があります。詳細については、「ナレッジマート用の Qlik データ ゲートウェイ - データ移動 の設定」を参照してください。
サポートされている接続
サポートされる内容については、次を参照してください。
- ベクター データベースについては、「ベクター データベースへの接続」を参照してください。
- LLM 接続については、「LLM 接続への接続」を参照してください。
- ファイル ストレージについては、「ファイル ストレージへの接続」を参照してください。
データの作成
- 左メニューの [プロジェクト] をクリックし、プロジェクトを開きます。
- [プロジェクト] ページから、ベクター データベースにドキュメントを生成して公開できます。以下のいずれかを行います:
- [新規作成] > [ナレッジ マート] をクリックします。
- データ タスク > [ナレッジ マート] の
をクリックします。
設定ウィンドウが開きます。
- 名前を入力します。
- 説明を入力してください。これはオプションです。
- [ベクターの保存先] ドロップダウン リストから、ドキュメントを保存する場所を選択します。プロジェクトと一緒にドキュメントを保存するには、 [データ プロジェクト プラットフォーム] を選択します。
- [外部ベクター データベース] を選択した場合は、 [ベクター データベース接続] を作成または選択します。ドキュメントとベクターは、このベクター データベースに保存されます。
- [LLM 接続] を作成または選択します。セマンティック検索を使用するには、この接続が必要です。
- [作成] をクリックします。
- データが作成されたら、ドキュメントを追加します。
ドキュメントの追加
- [データ タスク] ページの [データセット] タブで、左側のパネルの [追加] をクリックします。
- ドキュメントを生成する基本データセットを選択します。レコードごとにドキュメントが作成されます。たとえば、患者のリストの場合、患者ごとにドキュメントが作成されます。
- [ドキュメント スキーマ名] 項目には、選択した基本データセットの名前が事前に入力されます。必要であれば名前を変更します。
- 説明を入力してください。これはオプションです。
- ドキュメントを充実させるために含めるデータを選択します。
- OKをクリックします。[ドキュメント スキーマ] タブに戻ります。
- [データセット] タブを選択します。
- 左側のパネルで、先ほど基本データセットとして選択したデータセットを選択します。
- ドキュメントに含めないデータを削除するには、チェックボックスをオンにして [削除] をクリックします。
- LLM によって実行されるセマンティック検索を改善するには、名前が明確でないデータの名前を変更します。
例: dt の名前を date に変更します。
- 必要に応じてデータを削除し、名前を変更したら、右側の
> [準備] をクリックします。ドキュメントは JSON形式で作成されます。 - ドキュメントが生成されたら、次を実行します。
- [データセット] タブを選択します。
- タスクを実行する前にドキュメントを確認するには、 [データの表示] をクリックしてデータ サンプルを表示します。
- [Run] (実行)をクリックします。ドキュメントは、構成に応じてベクター データベースまたはデータ プラットフォームに転送されます。
[実行] ボタンがアクティブになると転送が完了します。
データについて質問すると、すべてが転送されたことを確認できます。詳細については、「テスト アシスタントの使用」を参照してください。
フル ロードと変更データキャプチャ (CDC)
フルロードと CDC がサポートされています。
フル ロード: ドキュメント インスタンスごとにドキュメントが生成され、ターゲットに送信されます。
CDC: ベースまたは関連エンティティに変更があった後にドキュメントが再生成されます。
エントリが基本エンティティに追加されると、新しいドキュメントが作成されます。関連エンティティ内のエントリを基本エンティティに接続できない場合、それらのエントリはドキュメントに表示されません。
入力データの更新
入力データを更新したら、データ タスクを実行して変更をベクター データベースまたはデータ プラットフォームに転送する必要があります。
インデックス名
各ナレッジ マートには、セマンティック検索に使用されるインデックス名があります。
同じインデックスに書き込むようにタスクを構成する場合は、タスクに対して同じ LLM パラメーターを構成する必要があります。
ドキュメントを同じインデックスに配置する場合は、同じインデックス名を持つ必要があります。
インデックス名を編集するには、次を実行します。
- [データ タスク] ページで、 [設定] をクリックします。
- [ベクター データベース設定] タブを選択します。
- [インデックス名] を編集します。
- OKをクリックします。
設定
ナレッジ マートの設定を表示および編集できます。
[データ タスク] ページから、
> [設定] をクリックします。
| 設定 | 説明 |
| ソース接続 | ソース接続。 |
| ベクターの保存先 | ドロップダウン リストから、次を選択します。
|
| ベクター データベース接続 この設定は、 [ベクターの保存先] で [外部ベクターデータベース] を選択した場合に使用できます。 | ベクター データベース接続。 詳細については、「ベクター データベースへの接続」を参照してください。 |
| LLM 接続 | LLM 接続。 詳細については、「LLM 接続への接続」を参照してください。 Databricks を LLM 接続として使用する場合は、ナレッジ マートの作成時に [Embedding model serving endpoint] (埋め込みモデル提供エンドポイント) と [Completion model serving endpoint] (完了モデル提供エンドポイント) を設定します。詳細については、「Databricks のドキュメンテーション」を参照してください。 |
| 設定 | 説明 |
| データ タスクのスキーマ | データ タスクのスキーマの名前です。 |
| 内部スキーマ | 内部スキーマの名前です。 |
| すべてのテーブルとビューのプレフィックス | 複数のデータ タスク間の競合を解決するためのプレフィックスです。 |
| 設定 | 説明 |
| インデックス スキーマ この設定は、 [ベクターの保存先] に [外部ベクターデータベース] を選択した場合は使用できません。 | インデックス スキーマの名前。 |
| インデックス名 | インデックスの名前。 |
| インデックスがすでに存在する場合 | 複数のタスクが同じインデックスに書き込んでいる場合、インデックスを削除する必要があるかどうかを選択します。
|
| Databricks ベクター検索エンドポイント | Databricks で作成されたベクター検索エンドポイントの名前。詳細については、「ナレッジ マートの Databricks を構成する 」を参照してください。 情報メモデータ プラットフォームとして Databricks を使用するプロジェクトにのみ適用されます。 |
| 設定 | 説明 |
| 並列実行 | データベース接続の最大数。 1 ~ 50 の値を入力します。 |
| バルク サイズ | ナレッジ マートの場合、バルク サイズは各バルク リクエストでロードされるドキュメントの数です。 ファイルベースのナレッジ マートの場合、バルク サイズは各バルク リクエストでロードされるファイルの数です。 Snowflake および Databricks では、すべてが 1 つのクエリでロードされるため、バルク サイズは必要ありません。 |
| ロードするレコードの最大数 | 0 はすべてのレコードがロードされていることを意味します。 |
| 設定 | 説明 |
| 標準ビュー | 標準ビューを使用して、クエリの結果をテーブルのように表示します。 |
| Snowflake セキュア ビュー | 基礎となるテーブルのすべてのユーザーに公開すべきではない機密データへのアクセスを制限するために作成されたビューなど、データのプライバシーまたは機密情報の保護のために指定されたビューには、Snowflake のセキュア ビューを使用します。 Snowflake セキュアビューは、標準ビューよりも実行速度が遅くなる場合があります。 |
| 設定 | 説明 |
| コンテキスト内のドキュメント数 | コンテキストとしてモデルに渡される関連ドキュメントの数です。 |
| プロンプト テンプレート | 含めるドキュメントをフィルタリングするために AI が従う必要のあるテンプレートを入力します。 |
| [Filter] (フィルター) | 含めるドキュメントをフィルターするための式を入力します。 フィルターはメタデータに基づいており、ファイルベースのナレッジ マートにはメタデータがないため、構成するフィルターについては慎重に検討してください。データを含めるのではなく、除外する方が適切な場合もあります。 詳細については、「テスト アシスタントの使用」を参照してください。 |
| ドキュメント検索 | ドロップダウン リストからオプションを選択します。
|
| 回答の生成 | ドロップダウン リストからオプションを選択します。
|