Erstellen eines dateibasierten Wissens-Marts

Mit dateibasierten Wissens-Marts können Sie Ihre unstrukturierten Daten in einer Vektordatenbank einbetten und speichern. Dadurch kann der erweiterte Kontext mit semantischen Suchfunktionen abgerufen und als Kontext für RAG-Anwendungen (Retrieval Augmented Generation) verwendet werden.

Die unterstützten Eingabeformate sind: PDF, TXT und Word DOCX.

Voraussetzungen

Sie benötigen ein Qlik Talend Cloud Enterprise-Abonnement.
Wird auf Snowflake- und Databricks-Plattformen unterstützt. Snowflake Iceberg wird nicht unterstützt.
Ein vom Kunden verwaltetes Datengateway ist erforderlich.

Databricks erfordert Qlik Data Gateway – Datenbewegung 2024.11.95 oder höher.

Installieren von Qlik Data Gateway – Datenbewegung

Bevor Sie einen dateibasierten Wissens-Mart erstellen, müssen Sie ein spezifisches Qlik Data Gateway – Datenbewegung installieren. Weitere Informationen finden Sie unter Einrichten von Qlik Data Gateway – Datenbewegung für Wissens-Marts.

Unterstützte Verbindungen

Für Informationen über unterstützte

Vektordatenbanken, siehe Verbinden mit Vektordatenbanken.
LLM-Verbindungen, siehe Verbinden mit LLM-Verbindungen.
Dateispeicher, siehe Verbinden mit Dateispeicher.
Cloud-Speicher (Amazon S3, Google Cloud Storage, Azure Data Lake Storage), siehe Verbinden mit Cloud-Speicher.

Erstellen der Dateien

Klicken Sie im linken Menü auf Pipeline-Projekte und öffnen Sie ein Projekt.
Auf der Seite Pipeline-Projekt können Sie einen dateibasierten Wissens-Mart erstellen. Wählen Sie eine der Optionen:
- Kicken Sie auf Neu erstellen > Dateibasierter Wissens-Mart.
- Klicken Sie auf der Datenaufgabe > Dateibasierter Wissens-Mart.
Das Konfigurationsfenster wird geöffnet.
Geben Sie einen Namen ein.
Geben Sie eine Beschreibung ein. Dies ist optional.
Erstellen oder wählen Sie eine Quellverbindung aus.
Wählen Sie aus der Dropdown-Liste Vektoren speichern in aus, wo die Dokumente gespeichert werden sollen. Um die Dokumente mit dem Projekt zu speichern, wählen Sie Datenprojektplattform aus.
Wenn Sie Externe Vektordatenbank ausgewählt haben, erstellen oder wählen Sie eine Vektordatenbankverbindung aus. Die Dokumente und Vektoren werden in dieser Vektordatenbank gespeichert.
Erstellen oder wählen Sie eine LLM-Verbindung aus. Diese Verbindung ist für die Verwendung der semantischen Suche erforderlich.
Klicken Sie auf Erstellen.
Nachdem der Wissens-Mart erstellt wurde, fügen Sie Dokumente hinzu.

Hinzufügen von Dateien

In Dokumente wird nur Text geschrieben. Text aus Diagrammen oder Bildern wird nicht extrahiert.

Wählen Sie auf der Seite Datenaufgabe der Registerkarte Ordner einen Ordner aus oder klicken Sie auf Ordner auswählen, um einen neuen Ordner auszuwählen.
Navigieren Sie zu dem Ordner und aktivieren Sie das Kontrollkästchen des Ordners.
Alle Dateien in den Ordnern werden gelesen, wenn sie in einem der unterstützten Formate vorliegen, unabhängig davon, wann sie dem Ordner hinzugefügt wurden.
Wenn Sie eine Datei, die bereits im Index vorhanden ist, aus einem Ordner löschen, befinden sich die Daten weiterhin im Index. Um die Daten aus dem Index zu entfernen, verwenden Sie die gleiche Datei, aber leer.
Um die Liste der Dateien im Ordner anzuzeigen, klicken Sie mit der rechten Maustaste auf den Ordner.
Klicken Sie auf Speichern, um das Fenster Ordner auswählen zu schließen.
Um die Blockgröße und die Blocküberlappung zu bearbeiten, klicken Sie auf Einstellungen > Laufzeit.
Um den Indexnamen zu bearbeiten, klicken Sie auf Einstellungen > Vektordatenbankeinstellungen.
Weitere Informationen finden Sie unter Indexname.
Klicken Sie auf auf der rechten Seite > Vorbereiten.
Wenn die Vorbereitung abgeschlossen ist, klicken Sie auf Ausführen. Die Dokumente werden eingebettet und übertragen.
Die Übertragung ist abgeschlossen, wenn die Schaltfläche Ausführen aktiv ist.
Wenn es sich um das erste vollständige Laden handelt, überprüfen Sie den Status der einzelnen Dateien:
1. Wählen Sie im Menü Überwachen aus.
2. Wählen Sie Status der vollständigen Ladung am unteren Rand der Seite aus.
3. Wenn einige Dateien fehlgeschlagen sind, beheben Sie die Fehler oder löschen Sie die Dateien, bevor Sie alles neu starten. Wenn Sie die fehlerhaften Dateien beibehalten, schlagen die nächsten Ausführungen fehl.
InformationshinweisDas Neuladen aller Dateien könnte zusätzliche Kosten verursachen.

Wenn Ihre Dateien korrekt sind, können Sie Fragen zu Ihren Daten stellen. Weitere Informationen finden Sie unter Verwenden des Testassistenten.

Vollständiges Laden und Change Data Capture (CDC)

Vollständiges Laden und CDC werden unterstützt.

Vollständiges Laden: Für jede Dokumenteninstanz wird ein Dokument erstellt und an das Ziel gesendet.

CDC: Ein Dokument wird nach jeder Änderung neu generiert.

Wenn eine Datei geändert oder hinzugefügt wird, werden die Dokumente aus dieser Datei gelesen. Die Datei wird entsprechend der Größe der Blöcke und der Überlappung in Dokumente mit Blöcken aufgeteilt.

Wenn es sich um das erste vollständige Laden handelt, überprüfen Sie den Status der einzelnen Dateien:

Wählen Sie im Menü Überwachen aus.
Wählen Sie Status der vollständigen Ladung am unteren Rand der Seite aus.
Wenn einige Dateien fehlgeschlagen sind, beheben Sie die Fehler oder löschen Sie die Dateien, bevor Sie alles neu starten. Wenn Sie die fehlerhaften Dateien beibehalten, schlagen die nächsten Ausführungen fehl.

Das Neuladen aller Dateien könnte zusätzliche Kosten verursachen.

Aktualisieren der Eingabedaten

Wenn Sie die Eingabedaten aktualisieren, müssen Sie die Datenaufgabe ausführen, um die Änderungen an die Vektordatenbank oder Datenplattform zu übertragen.

Da alte Blöcke gelöscht und neue Blöcke eingefügt werden, entspricht das Feld hdr__operation einem Einfügevorgang, nicht einem Aktualisierungsvorgang. Weitere Informationen finden Sie unter Dataset-Architektur in einem Cloud Data Warehouse.

Indexname

Jeder Wissens-Mart hat einen Indexnamen, der für die semantische Suche verwendet wird.

Wenn Sie Aufgaben so konfigurieren, dass sie in denselben Index schreiben, müssen Sie die gleichen LLM-Parameter für die Aufgaben konfigurieren.

Wenn Ihre Dokumente im selben Index enthalten sein sollen, müssen sie denselben Indexnamen haben.

So bearbeiten Sie den Indexnamen:

Klicken Sie auf der Seite Datenaufgabe auf Einstellungen.
Wählen Sie die Registerkarte Vektordatenbankeinstellungen aus.
Bearbeiten Sie den Indexnamen.
Klicken Sie auf OK.

Nachdem Sie den Indexnamen bearbeitet haben, müssen Sie die Aufgabe vorbereiten. Andernfalls werden Ihre Änderungen bei den nächsten Ausführungen nicht übernommen.

Anzeigen von Aufgabeninformationen

Klicken Sie in der Menüleiste auf Info , um Aufgabeninformationen anzuzeigen, wie zum Beispiel:

Besitzer
Bereich
Datenplattform
Projekt-ID
Datenaufgaben-Laufzeit-ID

Einstellungen

Sie können die Einstellungen eines Wissens-Marts anzeigen und bearbeiten.

Klicken Sie auf der Seite Datenaufgabe auf > Einstellungen.

Da die Einstellungen vom Speicher (Databricks, Snowflake usw.) abhängen, werden in den folgenden Tabellen die Einstellungen beschrieben, die immer verfügbar sind. Weitere Einstellungen können verfügbar sein.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Verbindungen beschrieben.
Einstellungen	Beschreibung
Quellverbindung	Die Quellverbindung.
Vektoren speichern in	Wählen Sie in der Dropdown-Liste Folgendes aus: Externe Vektordatenbank Datenprojektplattform
Vektordatenbankverbindung Diese Einstellung ist verfügbar, wenn für Vektoren speichern in die Option Externe Vektordatenbank ausgewählt ist.	Die Vektordatenbankverbindung. Weitere Informationen finden Sie unter Verbinden mit Vektordatenbanken.
LLM-Verbindung	Die LLM-Verbindung. Weitere Informationen finden Sie unter Verbinden mit LLM-Verbindungen. Wenn Sie Databricks als LLM-Verbindung verwenden möchten, konfigurieren Sie bei der Erstellung des Wissens-Marts den Endpunkt für das Einbettungsmodell und den Endpunkt für das Abschlussmodell. Weitere Informationen finden Sie in der Databricks-Dokumentation.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Plattformeinstellungen beschrieben.
Einstellungen	Beschreibung
Datenaufgabenschema	Der Name des Datenaufgabenschemas.
Internes Schema	Der Name des internen Schemas.
Präfix für alle Tabellen und Ansichten	Das Präfix zum Beheben von Konflikten zwischen mehreren Datenaufgaben.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Vektordatenbankeinstellungen beschrieben.
Einstellungen	Beschreibung
Indexschema Diese Einstellung ist nicht verfügbar, wenn für Vektoren speichern in die Option Externe Vektordatenbank ausgewählt ist.	Der Name des Indexschemas.
Indexname	Der Name des Index.
Wenn der Index bereits vorhanden ist	Wenn mehrere Aufgaben in denselben Index schreiben, wählen Sie aus, ob der Index gelöscht werden muss oder nicht: Vorhandenen Index verwenden: Der Index wird nicht gelöscht. Löschen und Index erstellen: Der Index wird gelöscht.
Endpunkt der Databricks-Vektorsuche	Der Name des Vektorsuch-Endpunkts, der in Databricks erstellt wurde. Weitere Informationen finden Sie unter Konfigurieren von Databricks für Wissens-Marts . InformationshinweisGilt nur für Projekte, die Databricks als Datenplattform verwenden.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Laufzeit beschrieben.
Einstellungen	Beschreibung
Parallele Ausführung	Maximale Anzahl Datenbankverbindungen. Geben Sie einen Wert zwischen 1 und 50 ein.
Massengröße	Bei Wissens-Marts ist die Massengröße die Anzahl der Dokumente, die in jeder Massenanfrage geladen werden. Bei dateibasierten Wissens-Marts ist die Massengröße die Anzahl der Dateien, die in jeder Massenanfrage geladen werden. Bei Snowflake und Databricks ist die Massengröße nicht erforderlich, da alles in einer einzigen Abfrage geladen wird.
Maximale Anzahl zu ladender Datensätze	0 bedeutet, dass alle Datensätze geladen werden.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Ansichten für Snowflake beschrieben
Einstellungen	Beschreibung
Standardansichten	Verwenden Sie Standardansichten, um die Ergebnisse einer Abfrage in Tabellenform anzuzeigen.
Sichere Snowflake-Ansichten	Verwenden Sie sichere Snowflake-Ansichten für Ansichten, die für den Schutz von Daten oder sensiblen Informationen vorgesehen sind, z.B. Ansichten, die erstellt wurden, um den Zugriff auf sensible Daten zu beschränken, die nicht für alle Benutzer der zugrunde liegenden Tabellen zugänglich sein sollen. Sichere Snowflake- Ansichten können langsamer ausgeführt werden als Standardansichten.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Testassistent beschrieben.
Einstellungen	Beschreibung
Anzahl der Dokumente im Kontext	Die Anzahl der relevanten Dokumente, die als Kontext an das Modell übergeben werden.
Eingabevorlage	Geben Sie die Vorlage ein, der die KI folgen muss, um die einzuschließenden Dokumente zu filtern.
Filtern	Geben Sie die Formel ein, um die zu einzuschließenden Dokumente zu filtern. Da der Filter auf Metadaten basiert und die dateibasierten Wissens-Marts keine Metadaten enthalten, müssen Sie den zu konfigurierenden Filter sorgfältig planen. Es könnte sinnvoller sein, die Daten auszuschließen, anstatt sie einzuschließen. Weitere Informationen finden Sie unter Verwenden des Testassistenten.
Dokumentabruf	Wählen Sie die Option in der Dropdown-Liste aus: Abgerufenen Kontext anzeigen: Der Testassistent gibt die Dokumente an, aus denen er die Antwort generiert. Abgerufenen Kontext nicht anzeigen: Der Testassistent generiert eine Antwort, gibt aber die Dokumente nicht an.
Antwortgenerierung	Wählen Sie die Option in der Dropdown-Liste aus: Antworten generieren: Der Testassistent generiert eine Antwort auf der Grundlage der Dokumente. Keine Antworten generieren: Der Testassistent antwortet nur mit Dokumenten.

Ändern der Verbindungen oder des Daten-Gateways

Wenn Sie die Quellverbindung, die Vektorverbindung oder das Vektordaten-Gateway ändern, müssen Sie die Aufgabe erneut vorbereiten.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!

Geben Sie hier Ihr Feedback ab