Erstellen eines Wissens-Marts

Mit Wissens-Marts können Sie Ihre strukturierten Daten in einer Vektordatenbank einbetten und speichern. Dadurch kann der erweiterte Kontext mit semantischen Suchfunktionen abgerufen und als Kontext für RAG-Anwendungen (Retrieval Augmented Generation) verwendet werden.

Die Ausgabe erfolgt im JSON-Format.

Sie benötigen ein Qlik Talend Cloud Enterprise-Abonnement.

Voraussetzungen

Sie benötigen ein Qlik Talend Cloud Enterprise-Abonnement.
Wird auf Snowflake- und Databricks-Plattformen unterstützt. Snowflake Iceberg wird nicht unterstützt.
Ein vom Kunden verwaltetes Datengateway ist erforderlich.

Databricks erfordert Qlik Data Gateway – Datenbewegung 2024.11.95 oder höher.

Installieren von Qlik Data Gateway – Datenbewegung

Bevor Sie einen Wissens-Mart erstellen, müssen Sie ein spezifisches Qlik Data Gateway – Datenbewegung installieren. Weitere Informationen finden Sie unter Einrichten von Qlik Data Gateway – Datenbewegung für Wissens-Marts.

Unterstützte Verbindungen

Für Informationen über unterstützte

Vektordatenbanken, siehe Verbinden mit Vektordatenbanken.
LLM-Verbindungen, siehe Verbinden mit LLM-Verbindungen.
Dateispeicher, siehe Verbinden mit Dateispeicher.

Erstellen der Daten

Klicken Sie im linken Menü auf Pipeline-Projekte und öffnen Sie ein Projekt.
Über die Seite Pipeline-Projekt können Sie Dokumente in einer Vektordatenbank generieren und veröffentlichen. Wählen Sie eine der Optionen:
- Kicken Sie auf Neu erstellen > Wissens-Mart.
- Klicken Sie auf der Datenaufgabe > Wissens-Mart.
Das Konfigurationsfenster wird geöffnet.
Geben Sie einen Namen ein.
Geben Sie eine Beschreibung ein. Dies ist optional.
Wählen Sie aus der Dropdown-Liste Vektoren speichern in aus, wo die Dokumente gespeichert werden sollen. Um die Dokumente mit dem Projekt zu speichern, wählen Sie Datenprojektplattform aus.
Wenn Sie Externe Vektordatenbank ausgewählt haben, erstellen oder wählen Sie eine Vektordatenbankverbindung aus. Die Dokumente und Vektoren werden in dieser Vektordatenbank gespeichert.
Erstellen oder wählen Sie eine LLM-Verbindung aus. Diese Verbindung ist für die Verwendung der semantischen Suche erforderlich.
Klicken Sie auf Erstellen.
Wenn die Daten erstellt sind, fügen Sie Dokumente hinzu.

Hinzufügen von Dokumenten

Es wird nur das Textformat unterstützt. Zum Beispiel kann kein Text aus Diagrammen oder Bildern extrahiert werden.

Klicken Sie auf der Seite Datenaufgabe auf der Registerkarte Datensätze im linken Fenster auf Hinzufügen.
Wählen Sie den Basisdatensatz aus, aus dem das Dokument erstellt werden soll. Für jeden Datensatz wird ein Dokument erstellt. Beispielsweise wird für eine Liste von Patienten ein Dokument für jeden Patienten erstellt.
Das Feld Dokumentschemaname ist bereits mit dem Namen des ausgewählten Basisdatensatzes ausgefüllt. Benennen Sie es bei Bedarf um.
Geben Sie eine Beschreibung ein. Dies ist optional.
Wählen Sie die Daten aus, die Sie zur Erweiterung des Dokuments verwenden möchten.
Klicken Sie auf OK. Sie kehren zur Registerkarte Dokumentschemas zurück.
Wählen Sie die Registerkarte Datensätze aus.
Wählen Sie im linken Fenster den Datensatz aus, den Sie zuvor als Basisdatensatz ausgewählt haben.
Um die Daten zu entfernen, die Sie nicht in die Dokumente einschließen möchten, aktivieren Sie das Kontrollkästchen und klicken Sie auf Entfernen.
Wählen Sie Metadaten für alle Felder aus, die Sie als Metadaten definieren möchten. Sie können nach Metadaten filtern, bevor Sie die Daten an das LLM senden.

InformationshinweisAuf Databricks werden die Metadaten durch ein einziges Feld implementiert, das eine JSON-Darstellung der Schlüssel und Werte ausgewählter Metadatenfelder enthält.
Um die vom LLM durchgeführte semantische Suche zu verbessern, benennen Sie Daten um, deren Namen nicht eindeutig genug sind.
Beispiel: Benennen Sie dt in date um.
Nachdem Sie die Daten wie gewünscht entfernt und umbenannt haben, klicken Sie rechts auf > Vorbereiten. Die Dokumente werden im JSON-Format erstellt.
Nachdem die Dokumente erstellt sind:
1. Wählen Sie die Registerkarte Datensätze aus.
2. Um die Dokumente zu überprüfen, bevor Sie die Aufgabe ausführen, klicken Sie auf Daten anzeigen, um ein Datenbeispiel anzuzeigen.
3. Klicken Sie auf Ausführen. Die Dokumente werden je nach Konfiguration in die Vektordatenbank oder in die Datenplattform übertragen.

Die Übertragung ist abgeschlossen, wenn die Schaltfläche Ausführen aktiv ist.

Um sicherzustellen, dass alles übertragen wurde, können Sie Fragen zu Ihren Daten stellen. Weitere Informationen finden Sie unter Verwenden des Testassistenten.

Vollständiges Laden und Change Data Capture (CDC)

Vollständiges Laden und CDC werden unterstützt.

Vollständiges Laden: Für jede Dokumenteninstanz wird ein Dokument erstellt und an das Ziel gesendet.

CDC: Ein Dokument wird nach jeder Änderung an der Basis oder der zugehörigen Entität neu generiert.

Ein neues Dokument wird erstellt, wenn ein Eintrag zur Basisentität hinzugefügt wird. Wenn keine Einträge in den verwandten Entitäten mit einer Basisentität verbunden werden können, werden sie in den Dokumenten nicht angezeigt.

Aktualisieren der Eingabedaten

Wenn Sie die Eingabedaten aktualisieren, müssen Sie die Datenaufgabe ausführen, um die Änderungen an die Vektordatenbank oder Datenplattform zu übertragen.

Indexname

Jeder Wissens-Mart hat einen Indexnamen, der für die semantische Suche verwendet wird.

Wenn Sie Aufgaben so konfigurieren, dass sie in denselben Index schreiben, müssen Sie die gleichen LLM-Parameter für die Aufgaben konfigurieren.

Wenn Ihre Dokumente im selben Index enthalten sein sollen, müssen sie denselben Indexnamen haben.

So bearbeiten Sie den Indexnamen:

Klicken Sie auf der Seite Datenaufgabe auf Einstellungen.
Wählen Sie die Registerkarte Vektordatenbankeinstellungen aus.
Bearbeiten Sie den Indexnamen.
Klicken Sie auf OK.

Einstellungen

Sie können die Einstellungen eines Wissens-Marts anzeigen und bearbeiten.

Klicken Sie auf der Seite Datenaufgabe auf > Einstellungen.

Da die Einstellungen vom Speicher (Databricks, Snowflake usw.) abhängen, werden in den folgenden Tabellen die Einstellungen beschrieben, die immer verfügbar sind. Weitere Einstellungen können verfügbar sein.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Verbindungen beschrieben.
Einstellungen	Beschreibung
Quellverbindung	Die Quellverbindung.
Vektoren speichern in	Wählen Sie in der Dropdown-Liste Folgendes aus: Externe Vektordatenbank Datenprojektplattform
Vektordatenbankverbindung Diese Einstellung ist verfügbar, wenn für Vektoren speichern in die Option Externe Vektordatenbank ausgewählt ist.	Die Vektordatenbankverbindung. Weitere Informationen finden Sie unter Verbinden mit Vektordatenbanken.
LLM-Verbindung	Die LLM-Verbindung. Weitere Informationen finden Sie unter Verbinden mit LLM-Verbindungen. Wenn Sie Databricks als LLM-Verbindung verwenden möchten, konfigurieren Sie bei der Erstellung des Wissens-Marts den Endpunkt für das Einbettungsmodell und den Endpunkt für das Abschlussmodell. Weitere Informationen finden Sie in der Databricks-Dokumentation.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Plattformeinstellungen beschrieben.
Einstellungen	Beschreibung
Datenaufgabenschema	Der Name des Datenaufgabenschemas.
Internes Schema	Der Name des internen Schemas.
Präfix für alle Tabellen und Ansichten	Das Präfix zum Beheben von Konflikten zwischen mehreren Datenaufgaben.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Vektordatenbankeinstellungen beschrieben.
Einstellungen	Beschreibung
Indexschema Diese Einstellung ist nicht verfügbar, wenn für Vektoren speichern in die Option Externe Vektordatenbank ausgewählt ist.	Der Name des Indexschemas.
Indexname	Der Name des Index.
Wenn der Index bereits vorhanden ist	Wenn mehrere Aufgaben in denselben Index schreiben, wählen Sie aus, ob der Index gelöscht werden muss oder nicht: Vorhandenen Index verwenden: Der Index wird nicht gelöscht. Löschen und Index erstellen: Der Index wird gelöscht.
Endpunkt der Databricks-Vektorsuche	Der Name des Vektorsuch-Endpunkts, der in Databricks erstellt wurde. Weitere Informationen finden Sie unter Konfigurieren von Databricks für Wissens-Marts . InformationshinweisGilt nur für Projekte, die Databricks als Datenplattform verwenden.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Laufzeit beschrieben.
Einstellungen	Beschreibung
Parallele Ausführung	Maximale Anzahl Datenbankverbindungen. Geben Sie einen Wert zwischen 1 und 50 ein.
Massengröße	Bei Wissens-Marts ist die Massengröße die Anzahl der Dokumente, die in jeder Massenanfrage geladen werden. Bei dateibasierten Wissens-Marts ist die Massengröße die Anzahl der Dateien, die in jeder Massenanfrage geladen werden. Bei Snowflake und Databricks ist die Massengröße nicht erforderlich, da alles in einer einzigen Abfrage geladen wird.
Maximale Anzahl zu ladender Datensätze	0 bedeutet, dass alle Datensätze geladen werden.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Ansichten für Snowflake beschrieben
Einstellungen	Beschreibung
Standardansichten	Verwenden Sie Standardansichten, um die Ergebnisse einer Abfrage in Tabellenform anzuzeigen.
Sichere Snowflake-Ansichten	Verwenden Sie sichere Snowflake-Ansichten für Ansichten, die für den Schutz von Daten oder sensiblen Informationen vorgesehen sind, z.B. Ansichten, die erstellt wurden, um den Zugriff auf sensible Daten zu beschränken, die nicht für alle Benutzer der zugrunde liegenden Tabellen zugänglich sein sollen. Sichere Snowflake- Ansichten können langsamer ausgeführt werden als Standardansichten.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Testassistent beschrieben.
Einstellungen	Beschreibung
Anzahl der Dokumente im Kontext	Die Anzahl der relevanten Dokumente, die als Kontext an das Modell übergeben werden.
Eingabevorlage	Geben Sie die Vorlage ein, der die KI folgen muss, um die einzuschließenden Dokumente zu filtern.
Filtern	Geben Sie die Formel ein, um die zu einzuschließenden Dokumente zu filtern. Da der Filter auf Metadaten basiert und die dateibasierten Wissens-Marts keine Metadaten enthalten, müssen Sie den zu konfigurierenden Filter sorgfältig planen. Es könnte sinnvoller sein, die Daten auszuschließen, anstatt sie einzuschließen. Weitere Informationen finden Sie unter Verwenden des Testassistenten.
Dokumentabruf	Wählen Sie die Option in der Dropdown-Liste aus: Abgerufenen Kontext anzeigen: Der Testassistent gibt die Dokumente an, aus denen er die Antwort generiert. Abgerufenen Kontext nicht anzeigen: Der Testassistent generiert eine Antwort, gibt aber die Dokumente nicht an.
Antwortgenerierung	Wählen Sie die Option in der Dropdown-Liste aus: Antworten generieren: Der Testassistent generiert eine Antwort auf der Grundlage der Dokumente. Keine Antworten generieren: Der Testassistent antwortet nur mit Dokumenten.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!

Geben Sie hier Ihr Feedback ab