Erstellen von Wissens-Marts
Erstellen Sie Wissens-Marts, um Ihre strukturierten und unstrukturierten Daten in einer Vektordatenbank einzubetten und zu speichern. Dadurch kann der erweiterte Kontext mit semantischen Suchfunktionen abgerufen und als Kontext für RAG-Anwendungen (Retrieval Augmented Generation) verwendet werden.
RAG optimiert die LLM-Ausgabe, indem es dem LLM mit der Abfrage zusätzlichen Kontext bereitstellt.
Voraussetzungen
-
Sie benötigen ein Qlik Talend Cloud Enterprise-Abonnement.
-
Wird auf Snowflake- und Databricks-Plattformen unterstützt. Snowflake Iceberg wird nicht unterstützt.
-
Ein vom Kunden verwaltetes Datengateway ist erforderlich.
Databricks erfordert Qlik Data Gateway – Datenbewegung 2024.11.95 oder höher.
Installieren von Qlik Data Gateway – Datenbewegung
Um Wissens-Marts zu verwenden, müssen Sie eine Verbindung zu Vektordatenbanken und LLM-Verbindungen herstellen, was die Installation eines spezifischen Qlik Data Gateway – Datenbewegung erfordert. Weitere Informationen finden Sie unter Einrichten von Qlik Data Gateway – Datenbewegung für Wissens-Marts.
Anzeigen und Herunterladen der Protokolle
Sie können die Protokolle für die Wissens-Marts anzeigen und herunterladen. Weitere Informationen finden Sie unter Fehlerbehebung Data Movement Gateway.
Voraussetzungen
Sie können Datenaufgaben der folgenden Typen als Quelle für einen Wissens-Mart verwenden:
-
Speicher
-
Umwandeln
Bevor Sie einen Wissens-Mart erstellen können, müssen Sie in den Quelldatenaufgaben Folgendes tun:
- Füllen Sie die Datensätze mit Daten, die Sie im Wissens-Mart verwenden möchten. Weitere Informationen finden Sie unter Eingliedern von Daten in einem Data Warehouse.
-
Erstellen Sie ein relationales Datensatzmodell, um die Beziehungen zwischen den Quelldatensätzen zu definieren. Weitere Informationen finden Sie unter Erstellung eines Datenmodells.
WarnhinweisAlle Quelldatensätze müssen Schlüssel haben.
Konfigurieren von Databricks für Wissens-Marts
Wenn Sie Databricks als Datenplattform verwenden, müssen Sie in Databricks einige Konfigurationen vornehmen, um Wissens-Marts erstellen zu können.
-
Erstellen Sie ein SQL-Warehouse in Databricks. Es wird empfohlen, Serverless Compute zu verwenden.
Sie müssen auch Data Security für SQL Warehouses und Serverless Compute konfigurieren, um die Speicherintegration zu ermöglichen.
-
Erstellen Sie einen Endpunkt in Vector Search. Sie verweisen auf den Namen dieses Endpunkts in den Vektordatenbankeinstellungen in der Wissens-Mart-Aufgabe.
Wählen Sie den Typ basierend auf Ihren Leistungsanforderungen. Standard ist für die meisten Anwendungsfälle geeignet.
Definieren Sie bei Bedarf eine Serverless Usage Policy, um Tags für die Kostenzuweisung zuzuordnen.
-
Konfigurieren Sie Databricks-Modelle in Serving.
Unter Serving Endpoints können Sie die in Databricks verfügbaren LLM Embeddings und Chat Models verwenden. Überprüfen Sie unbedingt die Modelle, die Sie in Ihrer Daten-Pipeline verwenden möchten.
Sie können auch einen Serving Endpoint für ein benutzerdefiniertes Modell erstellen oder ein Foundation Model verwenden, zum Beispiel OpenAI oder Azure OpenAI.
Beispiele:
Einbettungsmodell: databricks-gte-large-en
Chat-/Vervollständigungsmodell: databricks-meta-llama-3-1-405b-instruct
Beschränkungen
Es bestehen Einschränkungen, wenn Sie Quelldatensätze verwenden, die alle der folgenden Bedingungen erfüllen:
-
Durch eine SQL-Umwandlung oder einen Umwandlungsfluss erstellt
-
Nicht materialisiert
-
Verlaufsdatenspeicher (Typ 2) deaktiviert
Diese Datensätze gelten bei jeder Ausführung als aktualisiert, was sich auf die Effizienz und die Kosten auswirken kann. Sie können diese Einschränkungen umgehen, indem Sie:
-
die zu materialisierenden Quelldatensätze ändern
-
explizite Datensatzumwandlungen verwenden
-
globale Regeln zur Umwandlung mehrerer Datensätze erstellen
Unterstütztes Codierformat
Ihre Dateien müssen ordnungsgemäß in UTF-8 codiert sein. Andere Formate können falsch interpretiert werden.
Unterstützte Zeichen
Die Datei- und Ordnernamen können die folgenden Zeichen enthalten:
- [0-9], [a-Z], [A-Z]
- ! - _ . * ' ()
Es werden zwar auch andere Sonderzeichen unterstützt, aber aufgrund der Sonderzeichen mit besonderer Bedeutung wird empfohlen, nur die Zeichen aus der obigen Liste zu verwenden.
Beziehungen
-
Es ist nicht möglich, Daten aus zwei Datensätzen miteinander zu verbinden. Erstellen Sie eine Umwandlungsaufgabe, in der Sie die Beziehung im Datenmodell definieren, und verwenden Sie die Umwandlungsaufgabe als Quelle für die Aufgabe.
-
Wenn zwei Datensätze im Datenmodell miteinander verbunden sind, sind beide Datensätze in der Aufgabe verfügbar, auch wenn Sie nur einen der Datensätze ausgewählt haben.
Ändern der Verbindungen oder des Daten-Gateways
Wenn Sie die Vektorverbindung oder das Vektordaten-Gateway ändern, müssen Sie die Aufgabe erneut vorbereiten.
Fehlerbehebung
Auf OneDrive verschobene Dateien werden vom Datei-Wissens-Mart nicht erkannt
Mögliche Ursache
Wenn Dateien auf OneDrive verschoben oder synchronisiert werden und dabei Optionen verwendet werden, die das Erstellungs- und Änderungsdatum der alten Datei beibehalten, wird die Datei nicht als neue Datei erkannt.
Vorgeschlagene Aktion
Ändern Sie das Änderungsdatum der Datei in das aktuelle Datum.
Laufzeitfehler bei der Verwendung von Pinecone
Mögliche Ursache
NULL-Werte in Metadatenspalten werden von Pinecone nicht unterstützt. Das Ergebnis wäre ein Laufzeitfehler.
Vorgeschlagene Aktion
-
Wandeln Sie die NULL-Werte in einer Umwandlung vor dem Wissens-Mart in andere Werte um, zum Beispiel einen leeren String oder das Wort NULL.
-
Verwenden Sie eine andere Vektordatenbank.
-
Verwenden Sie die Spalte nicht als Metadaten.