Erstellen eines dateibasierten Wissens-Marts
Mit dateibasierten Wissens-Marts können Sie Ihre unstrukturierten Daten in einer Vektordatenbank einbetten und speichern. Dadurch kann der erweiterte Kontext mit semantischen Suchfunktionen abgerufen und als Kontext für RAG-Anwendungen (Retrieval Augmented Generation) verwendet werden.
Die unterstützten Eingabeformate sind: PDF
, TXT
und Word DOCX
.
Installieren von Qlik Data Gateway - Data Movement
Bevor Sie einen dateibasierten Wissens-Mart erstellen, müssen Sie ein spezifisches Qlik Data Gateway - Data Movement installieren. Weitere Informationen finden Sie unter Einrichten von Qlik Data Gateway - Data Movement für Wissens-Marts.
Unterstützte Verbindungen
Für Informationen über unterstützte
- Vektordatenbanken, siehe Verbinden mit Vektordatenbanken.
- LLM-Verbindungen, siehe Verbinden mit LLM-Verbindungen.
- Dateispeicher, siehe Verbinden mit Dateispeicher.
Erstellen der Dateien
- Klicken Sie im linken Menü auf Projekte und öffnen Sie ein Projekt.
- Auf der Seite Projekt können Sie einen dateibasierten Wissens-Mart erstellen. Wählen Sie eine der Optionen:
- Kicken Sie auf Neu erstellen > Dateibasierter Wissens-Mart.
- Klicken Sie auf
der Datenaufgabe > Dateibasierter Wissens-Mart.
Das Konfigurationsfenster wird geöffnet.
- Geben Sie einen Namen ein.
- Geben Sie eine Beschreibung ein. Dies ist optional.
- Erstellen oder wählen Sie eine Quellverbindung aus.
-
Wählen Sie aus der Dropdown-Liste Vektoren speichern in aus, wo die Dokumente gespeichert werden sollen. Um die Dokumente mit dem Projekt zu speichern, wählen Sie Datenprojektplattform aus.
- Wenn Sie Externe Vektordatenbank ausgewählt haben, erstellen oder wählen Sie eine Vektordatenbankverbindung aus. Die Dokumente und Vektoren werden in dieser Vektordatenbank gespeichert.
- Erstellen oder wählen Sie eine LLM-Verbindung aus. Diese Verbindung ist für die Verwendung der semantischen Suche erforderlich.
- Klicken Sie auf Erstellen.
- Nachdem der Wissens-Mart erstellt wurde, fügen Sie Dokumente hinzu.
Hinzufügen von Dateien
- Wählen Sie auf der Seite Datenaufgabe der Registerkarte Ordner einen Ordner aus oder klicken Sie auf Ordner auswählen, um einen neuen Ordner auszuwählen.
- Navigieren Sie zu dem Ordner und aktivieren Sie das Kontrollkästchen des Ordners.
Alle Dateien in den Ordnern werden gelesen, wenn sie in einem der unterstützten Formate vorliegen, unabhängig davon, wann sie dem Ordner hinzugefügt wurden.
Wenn Sie eine Datei, die bereits im Index vorhanden ist, aus einem Ordner löschen, befinden sich die Daten weiterhin im Index. Um die Daten aus dem Index zu entfernen, verwenden Sie die gleiche Datei, aber leer.
Um die Liste der Dateien im Ordner anzuzeigen, klicken Sie mit der rechten Maustaste auf den Ordner.
- Klicken Sie auf Speichern, um das Fenster Ordner auswählen zu schließen.
- Um die Blockgröße und die Blocküberlappung zu bearbeiten, klicken Sie auf Einstellungen > Laufzeit.
- Um den Indexnamen zu bearbeiten, klicken Sie auf Einstellungen > Vektordatenbankeinstellungen.
Weitere Informationen finden Sie unter Indexname.
- Klicken Sie auf
auf der rechten Seite > Vorbereiten.
- Wenn die Vorbereitung abgeschlossen ist, klicken Sie auf Ausführen. Die Dokumente werden eingebettet und übertragen.
Die Übertragung ist abgeschlossen, wenn die Schaltfläche Ausführen aktiv ist.
- Wenn es sich um das erste vollständige Laden handelt, überprüfen Sie den Status der einzelnen Dateien:
- Wählen Sie im Menü Überwachen aus.
- Wählen Sie Status der vollständigen Ladung am unteren Rand der Seite aus.
- Wenn einige Dateien fehlgeschlagen sind, beheben Sie die Fehler oder löschen Sie die Dateien, bevor Sie alles neu starten. Wenn Sie die fehlerhaften Dateien beibehalten, schlagen die nächsten Ausführungen fehl.
InformationshinweisDas Neuladen aller Dateien könnte zusätzliche Kosten verursachen.
Wenn Ihre Dateien korrekt sind, können Sie Fragen zu Ihren Daten stellen. Weitere Informationen finden Sie unter Verwenden des Testassistenten.
Vollständiges Laden und Change Data Capture (CDC)
Vollständiges Laden und CDC werden unterstützt.
Vollständiges Laden: Für jede Dokumenteninstanz wird ein Dokument erstellt und an das Ziel gesendet.
CDC: Ein Dokument wird nach jeder Änderung neu generiert.
Wenn eine Datei geändert oder hinzugefügt wird, werden die Dokumente aus dieser Datei gelesen. Die Datei wird entsprechend der Größe der Blöcke und der Überlappung in Dokumente mit Blöcken aufgeteilt.
Wenn es sich um das erste vollständige Laden handelt, überprüfen Sie den Status der einzelnen Dateien:
- Wählen Sie im Menü Überwachen aus.
- Wählen Sie Status der vollständigen Ladung am unteren Rand der Seite aus.
- Wenn einige Dateien fehlgeschlagen sind, beheben Sie die Fehler oder löschen Sie die Dateien, bevor Sie alles neu starten. Wenn Sie die fehlerhaften Dateien beibehalten, schlagen die nächsten Ausführungen fehl.
Aktualisieren der Eingabedaten
Wenn Sie die Eingabedaten aktualisieren, müssen Sie die Datenaufgabe ausführen, um die Änderungen an die Vektordatenbank oder Datenplattform zu übertragen.
Da alte Blöcke gelöscht und neue Blöcke eingefügt werden, entspricht das Feld hdr__operation
einem Einfügevorgang, nicht einem Aktualisierungsvorgang. Weitere Informationen finden Sie unter Dataset-Architektur in einem Cloud Data Warehouse.
Indexname
Jeder Wissens-Mart hat einen Indexnamen, der für die semantische Suche verwendet wird.
Wenn Sie Aufgaben so konfigurieren, dass sie in denselben Index schreiben, müssen Sie die gleichen LLM-Parameter für die Aufgaben konfigurieren.
Wenn Ihre Dokumente im selben Index enthalten sein sollen, müssen sie denselben Indexnamen haben.
So bearbeiten Sie den Indexnamen:
- Klicken Sie auf der Seite Datenaufgabe auf Einstellungen.
- Wählen Sie die Registerkarte Vektordatenbankeinstellungen aus.
- Bearbeiten Sie den Indexnamen.
- Klicken Sie auf OK.
Nachdem Sie den Indexnamen bearbeitet haben, müssen Sie die Aufgabe vorbereiten. Andernfalls werden Ihre Änderungen bei den nächsten Ausführungen nicht übernommen.
Einstellungen
Sie können die Einstellungen eines Wissens-Marts anzeigen und bearbeiten.
Klicken Sie auf der Seite Datenaufgabe auf > Einstellungen.
Einstellungen | Beschreibung |
Quellverbindung | Die Quellverbindung. |
Vektoren speichern in | Wählen Sie in der Dropdown-Liste Folgendes aus:
|
Vektordatenbankverbindung Diese Einstellung ist verfügbar, wenn für Vektoren speichern in die Option Externe Vektordatenbank ausgewählt ist. | Die Vektordatenbankverbindung. Weitere Informationen finden Sie unter Verbinden mit Vektordatenbanken. |
LLM-Verbindung | Die LLM-Verbindung. Weitere Informationen finden Sie unter Verbinden mit LLM-Verbindungen. Wenn Sie Databricks als LLM-Verbindung verwenden möchten, konfigurieren Sie bei der Erstellung des Wissens-Marts den Endpunkt für das Einbettungsmodell und den Endpunkt für das Abschlussmodell. Weitere Informationen finden Sie in der Databricks-Dokumentation. |
Einstellungen | Beschreibung |
Datenaufgabenschema | Der Name des Datenaufgabenschemas. |
Internes Schema | Der Name des internen Schemas. |
Präfix für alle Tabellen und Ansichten | Das Präfix zum Beheben von Konflikten zwischen mehreren Datenaufgaben. |
Einstellungen | Beschreibung |
Indexschema Diese Einstellung ist nicht verfügbar, wenn für Vektoren speichern in die Option Externe Vektordatenbank ausgewählt ist. | Der Name des Indexschemas. |
Indexname | Der Name des Index. |
Wenn der Index bereits vorhanden ist | Wenn mehrere Aufgaben in denselben Index schreiben, wählen Sie aus, ob der Index gelöscht werden muss oder nicht:
|
Einstellungen | Beschreibung |
Parallele Ausführung | Maximale Anzahl Datenbankverbindungen. Geben Sie einen Wert zwischen 1 und 50 ein. |
Massengröße | Bei Wissens-Marts ist die Massengröße die Anzahl der Dokumente, die in jeder Massenanfrage geladen werden. Bei dateibasierten Wissens-Marts ist die Massengröße die Anzahl der Dateien, die in jeder Massenanfrage geladen werden. Bei Snowflake ist die Massengröße nicht erforderlich, da alles in einer einzigen Abfrage geladen wird. |
Maximale Anzahl zu ladender Datensätze | 0 bedeutet, dass alle Datensätze geladen werden. |
Einstellungen | Beschreibung |
Standardansichten | Verwenden Sie Standardansichten, um die Ergebnisse einer Abfrage in Tabellenform anzuzeigen. |
Sichere Snowflake-Ansichten | Verwenden Sie sichere Snowflake-Ansichten für Ansichten, die für den Schutz von Daten oder sensiblen Informationen vorgesehen sind, z.B. Ansichten, die erstellt wurden, um den Zugriff auf sensible Daten zu beschränken, die nicht für alle Benutzer der zugrunde liegenden Tabellen zugänglich sein sollen. Sichere Snowflake- Ansichten können langsamer ausgeführt werden als Standardansichten. |
Einstellungen | Beschreibung |
Anzahl der Dokumente im Kontext | Die Anzahl der relevanten Dokumente, die als Kontext an das Modell übergeben werden. |
Eingabevorlage | Geben Sie die Vorlage ein, der die KI folgen muss, um die einzuschließenden Dokumente zu filtern. |
Filtern | Geben Sie die Formel ein, um die zu einzuschließenden Dokumente zu filtern. Da der Filter auf Metadaten basiert und die dateibasierten Wissens-Marts keine Metadaten enthalten, müssen Sie den zu konfigurierenden Filter sorgfältig planen. Es könnte sinnvoller sein, die Daten auszuschließen, anstatt sie einzuschließen. Weitere Informationen finden Sie unter Verwenden des Testassistenten. |
Dokumentabruf | Wählen Sie die Option in der Dropdown-Liste aus:
|
Antwortgenerierung | Wählen Sie die Option in der Dropdown-Liste aus:
|