Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Erstellen eines dateibasierten Wissens-Marts

Mit dateibasierten Wissens-Marts können Sie Ihre unstrukturierten Daten in einer Vektordatenbank einbetten und speichern. Dadurch kann der erweiterte Kontext mit semantischen Suchfunktionen abgerufen und als Kontext für RAG-Anwendungen (Retrieval Augmented Generation) verwendet werden.

Die unterstützten Eingabeformate sind: PDF, TXT und Word DOCX.

InformationshinweisSie benötigen ein Qlik Talend Cloud Enterprise-Abonnement.
InformationshinweisDiese Funktion wird nur auf Snowflake-Plattformen und für kundenverwaltete Daten-Gateways unterstützt.

Installieren von Qlik Data Gateway - Data Movement

Bevor Sie einen dateibasierten Wissens-Mart erstellen, müssen Sie ein spezifisches Qlik Data Gateway - Data Movement installieren. Weitere Informationen finden Sie unter Einrichten von Qlik Data Gateway - Data Movement für Wissens-Marts.

Unterstützte Verbindungen

Für Informationen über unterstützte

Erstellen der Dateien

  1. Klicken Sie im linken Menü auf Projekte und öffnen Sie ein Projekt.
  2. Auf der Seite Projekt können Sie einen dateibasierten Wissens-Mart erstellen. Wählen Sie eine der Optionen:
    • Kicken Sie auf Neu erstellen > Dateibasierter Wissens-Mart.
    • Klicken Sie auf Aktionssymbol der Datenaufgabe > Dateibasierter Wissens-Mart.

    Das Konfigurationsfenster wird geöffnet.

  3. Geben Sie einen Namen ein.
  4. Geben Sie eine Beschreibung ein. Dies ist optional.
  5. Erstellen oder wählen Sie eine Quellverbindung aus.
  6. Wählen Sie aus der Dropdown-Liste Vektoren speichern in aus, wo die Dokumente gespeichert werden sollen. Um die Dokumente mit dem Projekt zu speichern, wählen Sie Datenprojektplattform aus.

  7. Wenn Sie Externe Vektordatenbank ausgewählt haben, erstellen oder wählen Sie eine Vektordatenbankverbindung aus. Die Dokumente und Vektoren werden in dieser Vektordatenbank gespeichert.
  8. Erstellen oder wählen Sie eine LLM-Verbindung aus. Diese Verbindung ist für die Verwendung der semantischen Suche erforderlich.
  9. Klicken Sie auf Erstellen.
  10. Nachdem der Wissens-Mart erstellt wurde, fügen Sie Dokumente hinzu.

Hinzufügen von Dateien

InformationshinweisIn Dokumente wird nur Text geschrieben. Text aus Diagrammen oder Bildern wird nicht extrahiert.
  1. Wählen Sie auf der Seite Datenaufgabe der Registerkarte Ordner einen Ordner aus oder klicken Sie auf Ordner auswählen, um einen neuen Ordner auszuwählen.
  2. Navigieren Sie zu dem Ordner und aktivieren Sie das Kontrollkästchen des Ordners.

    Alle Dateien in den Ordnern werden gelesen, wenn sie in einem der unterstützten Formate vorliegen, unabhängig davon, wann sie dem Ordner hinzugefügt wurden.

    Wenn Sie eine Datei, die bereits im Index vorhanden ist, aus einem Ordner löschen, befinden sich die Daten weiterhin im Index. Um die Daten aus dem Index zu entfernen, verwenden Sie die gleiche Datei, aber leer.

    Um die Liste der Dateien im Ordner anzuzeigen, klicken Sie mit der rechten Maustaste auf den Ordner.

  3. Klicken Sie auf Speichern, um das Fenster Ordner auswählen zu schließen.
  4. Um die Blockgröße und die Blocküberlappung zu bearbeiten, klicken Sie auf Einstellungen > Laufzeit.
  5. Um den Indexnamen zu bearbeiten, klicken Sie auf Einstellungen > Vektordatenbankeinstellungen.

    Weitere Informationen finden Sie unter Indexname.

  6. Klicken Sie auf Aktionssymbol auf der rechten Seite > Vorbereiten.
  7. Wenn die Vorbereitung abgeschlossen ist, klicken Sie auf Ausführen. Die Dokumente werden eingebettet und übertragen.

    Die Übertragung ist abgeschlossen, wenn die Schaltfläche Ausführen aktiv ist.

  8. Wenn es sich um das erste vollständige Laden handelt, überprüfen Sie den Status der einzelnen Dateien:
    1. Wählen Sie im Menü Überwachen aus.
    2. Wählen Sie Status der vollständigen Ladung am unteren Rand der Seite aus.

      Status der vollständigen Ladung in der Überwachung

    3. Wenn einige Dateien fehlgeschlagen sind, beheben Sie die Fehler oder löschen Sie die Dateien, bevor Sie alles neu starten. Wenn Sie die fehlerhaften Dateien beibehalten, schlagen die nächsten Ausführungen fehl.
    InformationshinweisDas Neuladen aller Dateien könnte zusätzliche Kosten verursachen.

Wenn Ihre Dateien korrekt sind, können Sie Fragen zu Ihren Daten stellen. Weitere Informationen finden Sie unter Verwenden des Testassistenten.

Vollständiges Laden und Change Data Capture (CDC)

Vollständiges Laden und CDC werden unterstützt.

Vollständiges Laden: Für jede Dokumenteninstanz wird ein Dokument erstellt und an das Ziel gesendet.

CDC: Ein Dokument wird nach jeder Änderung neu generiert.

Wenn eine Datei geändert oder hinzugefügt wird, werden die Dokumente aus dieser Datei gelesen. Die Datei wird entsprechend der Größe der Blöcke und der Überlappung in Dokumente mit Blöcken aufgeteilt.

Wenn es sich um das erste vollständige Laden handelt, überprüfen Sie den Status der einzelnen Dateien:

  1. Wählen Sie im Menü Überwachen aus.
  2. Wählen Sie Status der vollständigen Ladung am unteren Rand der Seite aus.

    Status der vollständigen Ladung in der Überwachung

  3. Wenn einige Dateien fehlgeschlagen sind, beheben Sie die Fehler oder löschen Sie die Dateien, bevor Sie alles neu starten. Wenn Sie die fehlerhaften Dateien beibehalten, schlagen die nächsten Ausführungen fehl.
InformationshinweisDas Neuladen aller Dateien könnte zusätzliche Kosten verursachen.

Aktualisieren der Eingabedaten

Wenn Sie die Eingabedaten aktualisieren, müssen Sie die Datenaufgabe ausführen, um die Änderungen an die Vektordatenbank oder Datenplattform zu übertragen.

Da alte Blöcke gelöscht und neue Blöcke eingefügt werden, entspricht das Feld hdr__operation einem Einfügevorgang, nicht einem Aktualisierungsvorgang. Weitere Informationen finden Sie unter Dataset-Architektur in einem Cloud Data Warehouse.

Indexname

Jeder Wissens-Mart hat einen Indexnamen, der für die semantische Suche verwendet wird.

Wenn Sie Aufgaben so konfigurieren, dass sie in denselben Index schreiben, müssen Sie die gleichen LLM-Parameter für die Aufgaben konfigurieren.

Wenn Ihre Dokumente im selben Index enthalten sein sollen, müssen sie denselben Indexnamen haben.

So bearbeiten Sie den Indexnamen:

  1. Klicken Sie auf der Seite Datenaufgabe auf Einstellungen.
  2. Wählen Sie die Registerkarte Vektordatenbankeinstellungen aus.
  3. Bearbeiten Sie den Indexnamen.
  4. Klicken Sie auf OK.

Nachdem Sie den Indexnamen bearbeitet haben, müssen Sie die Aufgabe vorbereiten. Andernfalls werden Ihre Änderungen bei den nächsten Ausführungen nicht übernommen.

Einstellungen

Sie können die Einstellungen eines Wissens-Marts anzeigen und bearbeiten.

Klicken Sie auf der Seite Datenaufgabe auf > Einstellungen.

InformationshinweisDa die Einstellungen vom Speicher (Databricks, Snowflake usw.) abhängen, werden in den folgenden Tabellen die Einstellungen beschrieben, die immer verfügbar sind. Weitere Einstellungen können verfügbar sein.
In dieser Tabelle werden die Einstellungen auf der Registerkarte Verbindungen beschrieben.
EinstellungenBeschreibung
Quellverbindung

Die Quellverbindung.

Vektoren speichern in

Wählen Sie in der Dropdown-Liste Folgendes aus:

  • Externe Vektordatenbank
  • Datenprojektplattform
Vektordatenbankverbindung

Diese Einstellung ist verfügbar, wenn für Vektoren speichern in die Option Externe Vektordatenbank ausgewählt ist.

Die Vektordatenbankverbindung.

Weitere Informationen finden Sie unter Verbinden mit Vektordatenbanken.

LLM-VerbindungDie LLM-Verbindung.

Weitere Informationen finden Sie unter Verbinden mit LLM-Verbindungen.

Wenn Sie Databricks als LLM-Verbindung verwenden möchten, konfigurieren Sie bei der Erstellung des Wissens-Marts den Endpunkt für das Einbettungsmodell und den Endpunkt für das Abschlussmodell. Weitere Informationen finden Sie in der Databricks-Dokumentation.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Plattformeinstellungen beschrieben.
EinstellungenBeschreibung
DatenaufgabenschemaDer Name des Datenaufgabenschemas.
Internes SchemaDer Name des internen Schemas.
Präfix für alle Tabellen und AnsichtenDas Präfix zum Beheben von Konflikten zwischen mehreren Datenaufgaben.
In dieser Tabelle werden die Einstellungen auf der Registerkarte Vektordatenbankeinstellungen beschrieben.
EinstellungenBeschreibung
Indexschema

Diese Einstellung ist nicht verfügbar, wenn für Vektoren speichern in die Option Externe Vektordatenbank ausgewählt ist.

Der Name des Indexschemas.
IndexnameDer Name des Index.
Wenn der Index bereits vorhanden istWenn mehrere Aufgaben in denselben Index schreiben, wählen Sie aus, ob der Index gelöscht werden muss oder nicht:
  • Vorhandenen Index verwenden: Der Index wird nicht gelöscht.
  • Löschen und Index erstellen: Der Index wird gelöscht.
In dieser Tabelle werden die Einstellungen auf der Registerkarte Laufzeit beschrieben.
EinstellungenBeschreibung
Parallele Ausführung

Maximale Anzahl Datenbankverbindungen. 

Geben Sie einen Wert zwischen 1 und 50 ein.

MassengrößeBei Wissens-Marts ist die Massengröße die Anzahl der Dokumente, die in jeder Massenanfrage geladen werden.

Bei dateibasierten Wissens-Marts ist die Massengröße die Anzahl der Dateien, die in jeder Massenanfrage geladen werden.

Bei Snowflake ist die Massengröße nicht erforderlich, da alles in einer einzigen Abfrage geladen wird.

Maximale Anzahl zu ladender Datensätze0 bedeutet, dass alle Datensätze geladen werden.
In dieser Tabelle werden die Einstellungen auf der Registerkarte Ansichten beschrieben.
Einstellungen Beschreibung
Standardansichten Verwenden Sie Standardansichten, um die Ergebnisse einer Abfrage in Tabellenform anzuzeigen.
Sichere Snowflake-Ansichten Verwenden Sie sichere Snowflake-Ansichten für Ansichten, die für den Schutz von Daten oder sensiblen Informationen vorgesehen sind, z.B. Ansichten, die erstellt wurden, um den Zugriff auf sensible Daten zu beschränken, die nicht für alle Benutzer der zugrunde liegenden Tabellen zugänglich sein sollen.

Sichere Snowflake- Ansichten können langsamer ausgeführt werden als Standardansichten.

In dieser Tabelle werden die Einstellungen auf der Registerkarte Testassistent beschrieben.
EinstellungenBeschreibung
Anzahl der Dokumente im KontextDie Anzahl der relevanten Dokumente, die als Kontext an das Modell übergeben werden.
EingabevorlageGeben Sie die Vorlage ein, der die KI folgen muss, um die einzuschließenden Dokumente zu filtern.
FilternGeben Sie die Formel ein, um die zu einzuschließenden Dokumente zu filtern.

Da der Filter auf Metadaten basiert und die dateibasierten Wissens-Marts keine Metadaten enthalten, müssen Sie den zu konfigurierenden Filter sorgfältig planen. Es könnte sinnvoller sein, die Daten auszuschließen, anstatt sie einzuschließen.

Weitere Informationen finden Sie unter Verwenden des Testassistenten.

DokumentabrufWählen Sie die Option in der Dropdown-Liste aus:
  • Abgerufenen Kontext anzeigen: Der Testassistent gibt die Dokumente an, aus denen er die Antwort generiert.
  • Abgerufenen Kontext nicht anzeigen: Der Testassistent generiert eine Antwort, gibt aber die Dokumente nicht an.
AntwortgenerierungWählen Sie die Option in der Dropdown-Liste aus:
  • Antworten generieren: Der Testassistent generiert eine Antwort auf der Grundlage der Dokumente.
  • Keine Antworten generieren: Der Testassistent antwortet nur mit Dokumenten.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!