Erstellen eines Wissens-Marts
Mit Wissens-Marts können Sie Ihre strukturierten Daten in einer Vektordatenbank einbetten und speichern. Dadurch kann der erweiterte Kontext mit semantischen Suchfunktionen abgerufen und als Kontext für RAG-Anwendungen (Retrieval Augmented Generation) verwendet werden.
Die Ausgabe erfolgt im JSON-Format.
Voraussetzungen
-
Sie benötigen ein Qlik Talend Cloud Enterprise-Abonnement.
-
Wird auf Snowflake- und Databricks-Plattformen unterstützt. Snowflake Iceberg wird nicht unterstützt.
-
Ein vom Kunden verwaltetes Datengateway ist erforderlich.
Databricks erfordert Qlik Data Gateway – Datenbewegung 2024.11.95 oder höher.
Installieren von Qlik Data Gateway – Datenbewegung
Bevor Sie einen Wissens-Mart erstellen, müssen Sie ein spezifisches Qlik Data Gateway – Datenbewegung installieren. Weitere Informationen finden Sie unter Einrichten von Qlik Data Gateway – Datenbewegung für Wissens-Marts.
Unterstützte Verbindungen
Für Informationen über unterstützte
- Vektordatenbanken, siehe Verbinden mit Vektordatenbanken.
- LLM-Verbindungen, siehe Verbinden mit LLM-Verbindungen.
- Dateispeicher, siehe Verbinden mit Dateispeicher.
Erstellen der Daten
- Klicken Sie im linken Menü auf Projekte und öffnen Sie ein Projekt.
- Über die Seite Projekt können Sie Dokumente in einer Vektordatenbank generieren und veröffentlichen. Wählen Sie eine der Optionen:
- Kicken Sie auf Neu erstellen > Wissens-Mart.
- Klicken Sie auf
der Datenaufgabe > Wissens-Mart.
Das Konfigurationsfenster wird geöffnet.
- Geben Sie einen Namen ein.
- Geben Sie eine Beschreibung ein. Dies ist optional.
- Wählen Sie aus der Dropdown-Liste Vektoren speichern in aus, wo die Dokumente gespeichert werden sollen. Um die Dokumente mit dem Projekt zu speichern, wählen Sie Datenprojektplattform aus.
- Wenn Sie Externe Vektordatenbank ausgewählt haben, erstellen oder wählen Sie eine Vektordatenbankverbindung aus. Die Dokumente und Vektoren werden in dieser Vektordatenbank gespeichert.
- Erstellen oder wählen Sie eine LLM-Verbindung aus. Diese Verbindung ist für die Verwendung der semantischen Suche erforderlich.
- Klicken Sie auf Erstellen.
- Wenn die Daten erstellt sind, fügen Sie Dokumente hinzu.
Hinzufügen von Dokumenten
- Klicken Sie auf der Seite Datenaufgabe auf der Registerkarte Datensätze im linken Fenster auf Hinzufügen.
- Wählen Sie den Basisdatensatz aus, aus dem das Dokument erstellt werden soll. Für jeden Datensatz wird ein Dokument erstellt. Beispielsweise wird für eine Liste von Patienten ein Dokument für jeden Patienten erstellt.
- Das Feld Dokumentschemaname ist bereits mit dem Namen des ausgewählten Basisdatensatzes ausgefüllt. Benennen Sie es bei Bedarf um.
- Geben Sie eine Beschreibung ein. Dies ist optional.
- Wählen Sie die Daten aus, die Sie zur Erweiterung des Dokuments verwenden möchten.
- Klicken Sie auf OK. Sie kehren zur Registerkarte Dokumentschemas zurück.
- Wählen Sie die Registerkarte Datensätze aus.
- Wählen Sie im linken Fenster den Datensatz aus, den Sie zuvor als Basisdatensatz ausgewählt haben.
- Um die Daten zu entfernen, die Sie nicht in die Dokumente einschließen möchten, aktivieren Sie das Kontrollkästchen und klicken Sie auf Entfernen.
- Um die vom LLM durchgeführte semantische Suche zu verbessern, benennen Sie Daten um, deren Namen nicht eindeutig genug sind.
Beispiel: Benennen Sie dt in date um.
- Nachdem Sie die Daten wie gewünscht entfernt und umbenannt haben, klicken Sie rechts auf
> Vorbereiten. Die Dokumente werden im JSON-Format erstellt. - Nachdem die Dokumente erstellt sind:
- Wählen Sie die Registerkarte Datensätze aus.
- Um die Dokumente zu überprüfen, bevor Sie die Aufgabe ausführen, klicken Sie auf Daten anzeigen, um ein Datenbeispiel anzuzeigen.
- Klicken Sie auf Ausführen. Die Dokumente werden je nach Konfiguration in die Vektordatenbank oder in die Datenplattform übertragen.
Die Übertragung ist abgeschlossen, wenn die Schaltfläche Ausführen aktiv ist.
Um sicherzustellen, dass alles übertragen wurde, können Sie Fragen zu Ihren Daten stellen. Weitere Informationen finden Sie unter Verwenden des Testassistenten.
Vollständiges Laden und Change Data Capture (CDC)
Vollständiges Laden und CDC werden unterstützt.
Vollständiges Laden: Für jede Dokumenteninstanz wird ein Dokument erstellt und an das Ziel gesendet.
CDC: Ein Dokument wird nach jeder Änderung an der Basis oder der zugehörigen Entität neu generiert.
Ein neues Dokument wird erstellt, wenn ein Eintrag zur Basisentität hinzugefügt wird. Wenn keine Einträge in den verwandten Entitäten mit einer Basisentität verbunden werden können, werden sie in den Dokumenten nicht angezeigt.
Aktualisieren der Eingabedaten
Wenn Sie die Eingabedaten aktualisieren, müssen Sie die Datenaufgabe ausführen, um die Änderungen an die Vektordatenbank oder Datenplattform zu übertragen.
Indexname
Jeder Wissens-Mart hat einen Indexnamen, der für die semantische Suche verwendet wird.
Wenn Sie Aufgaben so konfigurieren, dass sie in denselben Index schreiben, müssen Sie die gleichen LLM-Parameter für die Aufgaben konfigurieren.
Wenn Ihre Dokumente im selben Index enthalten sein sollen, müssen sie denselben Indexnamen haben.
So bearbeiten Sie den Indexnamen:
- Klicken Sie auf der Seite Datenaufgabe auf Einstellungen.
- Wählen Sie die Registerkarte Vektordatenbankeinstellungen aus.
- Bearbeiten Sie den Indexnamen.
- Klicken Sie auf OK.
Einstellungen
Sie können die Einstellungen eines Wissens-Marts anzeigen und bearbeiten.
Klicken Sie auf der Seite Datenaufgabe auf
> Einstellungen.
| Einstellungen | Beschreibung |
| Quellverbindung | Die Quellverbindung. |
| Vektoren speichern in | Wählen Sie in der Dropdown-Liste Folgendes aus:
|
| Vektordatenbankverbindung Diese Einstellung ist verfügbar, wenn für Vektoren speichern in die Option Externe Vektordatenbank ausgewählt ist. | Die Vektordatenbankverbindung. Weitere Informationen finden Sie unter Verbinden mit Vektordatenbanken. |
| LLM-Verbindung | Die LLM-Verbindung. Weitere Informationen finden Sie unter Verbinden mit LLM-Verbindungen. Wenn Sie Databricks als LLM-Verbindung verwenden möchten, konfigurieren Sie bei der Erstellung des Wissens-Marts den Endpunkt für das Einbettungsmodell und den Endpunkt für das Abschlussmodell. Weitere Informationen finden Sie in der Databricks-Dokumentation. |
| Einstellungen | Beschreibung |
| Datenaufgabenschema | Der Name des Datenaufgabenschemas. |
| Internes Schema | Der Name des internen Schemas. |
| Präfix für alle Tabellen und Ansichten | Das Präfix zum Beheben von Konflikten zwischen mehreren Datenaufgaben. |
| Einstellungen | Beschreibung |
| Indexschema Diese Einstellung ist nicht verfügbar, wenn für Vektoren speichern in die Option Externe Vektordatenbank ausgewählt ist. | Der Name des Indexschemas. |
| Indexname | Der Name des Index. |
| Wenn der Index bereits vorhanden ist | Wenn mehrere Aufgaben in denselben Index schreiben, wählen Sie aus, ob der Index gelöscht werden muss oder nicht:
|
| Endpunkt der Databricks-Vektorsuche | Der Name des Vektorsuch-Endpunkts, der in Databricks erstellt wurde. Weitere Informationen finden Sie unter Konfigurieren von Databricks für Wissens-Marts . InformationshinweisGilt nur für Projekte, die Databricks als Datenplattform verwenden. |
| Einstellungen | Beschreibung |
| Parallele Ausführung | Maximale Anzahl Datenbankverbindungen. Geben Sie einen Wert zwischen 1 und 50 ein. |
| Massengröße | Bei Wissens-Marts ist die Massengröße die Anzahl der Dokumente, die in jeder Massenanfrage geladen werden. Bei dateibasierten Wissens-Marts ist die Massengröße die Anzahl der Dateien, die in jeder Massenanfrage geladen werden. Bei Snowflake und Databricks ist die Massengröße nicht erforderlich, da alles in einer einzigen Abfrage geladen wird. |
| Maximale Anzahl zu ladender Datensätze | 0 bedeutet, dass alle Datensätze geladen werden. |
| Einstellungen | Beschreibung |
| Standardansichten | Verwenden Sie Standardansichten, um die Ergebnisse einer Abfrage in Tabellenform anzuzeigen. |
| Sichere Snowflake-Ansichten | Verwenden Sie sichere Snowflake-Ansichten für Ansichten, die für den Schutz von Daten oder sensiblen Informationen vorgesehen sind, z.B. Ansichten, die erstellt wurden, um den Zugriff auf sensible Daten zu beschränken, die nicht für alle Benutzer der zugrunde liegenden Tabellen zugänglich sein sollen. Sichere Snowflake- Ansichten können langsamer ausgeführt werden als Standardansichten. |
| Einstellungen | Beschreibung |
| Anzahl der Dokumente im Kontext | Die Anzahl der relevanten Dokumente, die als Kontext an das Modell übergeben werden. |
| Eingabevorlage | Geben Sie die Vorlage ein, der die KI folgen muss, um die einzuschließenden Dokumente zu filtern. |
| Filtern | Geben Sie die Formel ein, um die zu einzuschließenden Dokumente zu filtern. Da der Filter auf Metadaten basiert und die dateibasierten Wissens-Marts keine Metadaten enthalten, müssen Sie den zu konfigurierenden Filter sorgfältig planen. Es könnte sinnvoller sein, die Daten auszuschließen, anstatt sie einzuschließen. Weitere Informationen finden Sie unter Verwenden des Testassistenten. |
| Dokumentabruf | Wählen Sie die Option in der Dropdown-Liste aus:
|
| Antwortgenerierung | Wählen Sie die Option in der Dropdown-Liste aus:
|