ナレッジマートの作成

ナレッジマートを作成すると、構造化データと非構造化データをベクターデータベースに埋め込んで保存できます。この操作により、拡張コンテキストをセマンティック検索機能で取得し、検索拡張生成 (RAG) アプリケーションのコンテキストとして使用できるようになります。

RAG は、クエリを使用して LLM に追加のコンテキストを提供することで、LLM 出力を最適化します。

要件

Qlik Talend Cloud Enterprise サブスクリプションが必要です。
Snowflake および Databricks プラットフォームでサポートされています。Snowflake Iceberg には対応していません。
顧客が管理するデータゲートウェイが必要です。

Databricks には、Qlik データゲートウェイ - データ移動バージョン 2024.11.95 以降が必要です。

Qlik データゲートウェイ - データ移動のインストール

ナレッジマートを使用するには、ベクターデータベースと LLM 接続に接続する必要があり、接続には特定の Qlik データゲートウェイ - データ移動をインストールする必要があります。詳細については、「ナレッジマート用の Qlik データゲートウェイ - データ移動の設定」を参照してください。

ログの表示とダウンロード

ナレッジマートのログを表示およびダウンロードできます。詳細については、「トラブルシューティング Data Movement gateway」を参照してください。

前提条件

次のタイプのデータタスクをナレッジマートのソースとして使用できます。

ストレージ
変換

ナレッジマートを作成する前に、ソースデータタスクで次の操作を実行する必要があります。

ナレッジマートで使用するデータをデータセットに入力します。詳細については、「データウェアハウスへのデータのオンボーディング」を参照してください。
データセットリレーショナルモデルを作成して、ソースデータセット間の関係を定義します。詳細については、「データモデルの作成」を参照してください。

警告メモすべてのデータセットにはキーが必要です。

ナレッジマートの Databricks を構成する

Databricks をデータプラットフォームとして使用する場合、ナレッジマートを作成できるように Databricks でいくつかの構成を実行する必要があります。

Databricks で SQL ウェアハウスを作成します。サーバーレスコンピュートの使用をお勧めします。

ストレージ統合を有効にするには、SQL ウェアハウスとサーバーレスコンピュートのデータセキュリティも構成する必要があります。
[ベクター検索] でエンドポイントを作成します。ナレッジマートタスクの [ベクターデータベース設定] で、このエンドポイントの名前を参照します。

パフォーマンス要件に基づいて [タイプ] を選択します。ほとんどのユースケースでは [標準] が適しています。

必要に応じて、コスト配分のためのタグを関連付けるために [Serverless Usage Policy] (サーバーレス使用ポリシー) を定義します。
[Serving] (サービング) で Databricks モデルを構成します。

[Serving Endpoints] (サービングエンドポイント) で、Databricks で利用可能な [LLM Embeddings] (LLM 埋め込み) と [Chat Models] (チャットモデル) を使用できます。データパイプラインで使用する予定のモデルを必ず確認してください。

カスタムモデル用の [Serving Endpoint] (サービングエンドポイント) を作成することも、OpenAI や Azure OpenAI などの [Foundation Model] (基盤モデル) を使用することもできます。

埋め込みモデル: databricks-gte-large-en

チャット/補完モデル: databricks-meta-llama-3-1-405b-instruct

制限事項

次のすべての条件に一致するソースデータセットを使用する場合、制限事項があります。

SQL 変換または変換フローによって作成されたもの
非マテリアライズド
履歴データストア (タイプ 2) がオフになっている

これらのデータセットは実行ごとに更新されたとみなされるため、効率とコストに影響する可能性があります。これを軽減するには、次の操作を実行します。

マテリアライズするソースデータセットを変更します。
明示的なデータセット変換を使用します。
複数のデータセットを変換するグローバルルールを作成します。

サポートされているエンコード形式

ファイルは UTF-8 で適切にエンコードされている必要があります。他の形式は誤って解釈される可能性があります。

Qlik は、出力からすべてのバイナリコンテンツを削除する 2 つの変換ルールを追加します: QLIK__REMOVE_BLOB_COLUMNS と QLIK__REMOVE_BYTES_COLUMNS。

サポートされている文字

ファイル名およびフォルダー名には次の文字を使用できます。

[0-9]、 [a-Z]、 [A-Z］
! - _ . * ' ()

その他の特殊文字もサポートされている可能性がありますが、特殊文字の扱いは複雑であるため、上記のリストにある文字のみを使用することをお勧めします。

リレーションシップ

2 つのデータセットのデータを関連付けることはできません。データモデル内のリレーションシップを定義する変換タスクを作成し、その変換タスクをタスクのソースとして使用します。
データモデル内で 2 つのデータセットが関連している場合、データセットの 1 つだけを選択した場合でも、タスクでは両方のデータセットが使用可能になります。

タスクを削除する

データタスクが実行中でなく、同じプロジェクト内のダウンストリームタスクへの依存関係がない場合は、データタスクを削除できます。

プロジェクトの [パイプラインプロジェクト] ビューで、タスク上のをクリックし、 [削除] を選択します。

このタスクによって作成されたアーティファクト (テーブルおよびビュー) は、保持を選択しない限り削除されます。

保持するアーティファクトは、タスクによって更新されなくなることに留意してください。

タスクが [インデックスをドロップして作成] に設定されている場合、アーティファクトの削除を選択した場合にのみインデックスがドロップされます。アーティファクトの保持を選択した場合、インデックスは保持されます。

接続またはデータゲートウェイの変更

ベクトル接続、またはベクトルデータゲートウェイを変更した場合は、タスクを再度準備する必要があります。

トラブルシューティング

OneDrive に移動されたファイルがファイルナレッジマートで認識されない

考えられる原因

古いファイルの作成日や更新日を保持するオプションを使用してファイルを OneDrive に移動または同期した場合、そのファイルは新しいファイルとして認識されません。

提案されたアクション

ファイルの更新日を現在の日付に変更する。

Pinecone 使用時のランタイムエラー

考えられる原因

メタデータ列内の NULL 値は、Pinecone ではサポートされていません。結果として、実行時エラーが発生します。

提案されたアクション

ナレッジマートの前の変換処理で、NULL 値を空文字列や「NULL」などの別の値に変換する。
別のベクトルデータベースを使用する。
列をメタデータとして使用しない。

このページは役に立ちましたか?

このページまたはコンテンツにタイポ、ステップの省略、技術的エラーなどの問題が見つかった場合はお知らせください。

こちらにフィードバックをお寄せください

ナレッジ マートの作成

要件

Qlik データ ゲートウェイ - データ移動 のインストール