Een op bestanden gebaseerde knowledgemart maken
Met op bestanden gebaseerde knowledgemarts kunt u uw ongestructureerde gegevens insluiten en opslaan in een vectordatabase. Hierdoor kan de uitgebreide context worden opgehaald met semantische zoekfuncties om te worden gebruikt als context voor Retrieval Augmented Generation (RAG)-toepassingen.
De ondersteunde invoerformaten zijn: PDF
, TXT
en Word DOCX
.
Het Qlik Data Gateway - Data Movement installeren
Voordat u op bestanden gebaseerde knowledgemarts kunt maken, moet u een specifieke Qlik Data Gateway - Data Movement installeren. Ga voor meer informatie naar Qlik Data Gateway - Data Movement instellen voor knowledgemarts.
Ondersteunde verbindingen
Voor informatie over de ondersteunde:
- Vectordatabases, zie Verbinding maken met vectordatabases.
- LLM-verbindingen, zie Verbinding maken met LLM-verbindingen.
- Bestandsopslag, zie Verbinding maken met bestandsopslag.
De bestanden maken
- Klik op Projecten in het linkermenu en open een project.
- Op de pagina Project kunt u een op bestanden gebaseerde knowledgemart maken. Ofwel:
- Klik op Nieuwe maken > Op bestanden gebaseerde knowledgemart.
- Klik op
van de gegevenstaak > Op bestanden gebaseerde knowledgemart.
Er wordt een configuratievenster geopend.
- Voer een naam in.
- Voer een beschrijving in. Dit is optioneel.
- Maak of selecteer een bronverbinding.
-
Selecteer waar u de documenten wilt opslaan in de vervolgkeuzelijst Vectoren opslaan in. Om de documenten bij het project op te slaan, selecteert u Gegevensprojectplatform.
- Als u Externe vectordatabase hebt geselecteerd, maak of selecteer dan een Verbinding vectordatabase. De documenten en vectoren worden in deze vectordatabase opgeslagen.
- Maak of selecteer een LLM-verbinding. Deze verbinding is nodig voor het gebruik van de semantische zoekfunctie.
- Klik op Maken.
- Wanneer de knowledgemart is aangemaakt, voegt u documenten toe.
Bestanden toevoegen
- Selecteer op het tabblad Mappen van de pagina Gegevenstaak een map of klik op Mappen selecteren om een nieuwe map te selecteren.
- Blader naar de map, schakel het selectievakje van de map in.
Alle bestanden in de mappen worden gelezen als ze in een van de ondersteunde formaten staan, ongeacht wanneer ze aan de map zijn toegevoegd.
Wanneer u een bestand dat al in de index bestaat uit een map verwijdert, blijven de gegevens in de index staan. Om de gegevens uit de index te verwijderen, gebruikt u hetzelfde bestand, maar dan leeg.
Om de lijst met bestanden in de map weer te geven, klikt u er met de rechtermuisknop op.
- Klik op Opslaan om het venster Mappen selecteren te sluiten.
- Om de grootte van de chunk en de chunk overlapping te bewerken, klikt u op Instellingen > Runtime.
- Om de indexnaam te bewerken, klikt u op Instellingen > Instellingen vectordatabase.
Ga voor meer informatie naar Indexnaam.
- Klik rechts op
> Voorbereiden.
- Wanneer de voorbereiding voltooid is, klikt u op Uitvoeren. De documenten worden ingesloten en overgedragen.
De overdracht is voltooid wanneer de knop Uitvoeren actief is.
- Als het de eerste volledige lading is, controleert u de status van elk bestand:
- Selecteer Bewaken in het menu.
- Selecteer Status volledige lading onder aan de pagina.
- Wanneer sommige bestanden mislukt zijn, dient u de fouten te herstellen of verwijdert u de bestanden voordat u het proces nogmaals uitvoert. Als de bestanden fouten blijven bevatten, zullen de volgende runs mislukken.
InformatieHet opnieuw laden van alle bestanden kan extra kosten met zich meebrengen.
Als uw bestanden correct zijn, kunt u vragen stellen over uw gegevens. Ga voor meer informatie naar De testassistent gebruiken.
Volledige lading en het vastleggen van wijzigingsgegevens (CDC)
Volledige lading en CDC worden ondersteund.
Volledige lading: voor elk documentexemplaar wordt een document gegenereerd en naar het doel gestuurd.
CDC: een document wordt gegenereerd na elke wijziging.
Wanneer een bestand wordt gewijzigd of toegevoegd, worden documenten uit dit bestand gelezen. Het bestand wordt opgesplitst in documenten met chunks volgens de grootte en overlapping van de chunk.
Als het de eerste volledige lading is, controleert u de status van elk bestand:
- Selecteer Bewaken in het menu.
- Selecteer Status volledige lading onder aan de pagina.
- Wanneer sommige bestanden mislukt zijn, dient u de fouten te herstellen of verwijdert u de bestanden voordat u het proces nogmaals uitvoert. Als de bestanden fouten blijven bevatten, zullen de volgende runs mislukken.
De invoergegevens bijwerken
Wanneer u de invoergegevens bijwerkt, moet u de gegevenstaak uitvoeren om de wijzigingen naar de vectordatabase of het gegevensplatform over te brengen.
Aangezien oude chunks worden verwijderd en nieuwe chunks worden ingevoegd, komt het veld hdr__operation
overeen met een invoegbewerking, niet met een updatebewerking. Ga voor meer informatie naar Gegevensverzamelingarchitectuur in een clouddatawarehouse.
Indexnaam
Elke knowledgemart heeft een indexnaam die voor de semantische zoekfunctie wordt gebruikt.
Wanneer u taken configureert om naar dezelfde index te schrijven, moet u dezelfde LLM-parameters voor de taken configureren.
Als u wilt dat uw documenten in dezelfde index staan, moeten ze dezelfde indexnaam hebben.
De indexnaam bewerken:
- Klik op Instellingen op de Gegevenstaak-pagina.
- Selecteer het tabblad Vector database-instellingen.
- Bewerk de Indexnaam.
- Klik op OK.
Nadat u de indexnaam hebt bewerkt, moet u de taak voorbereiden. Anders worden uw wijzigingen niet toegepast bij de volgende runs.
Instellingen
U kunt de instellingen van een knowledgemart bekijken en bewerken.
Klik vanuit de pagina Gegevenstaak op > Instellingen.
Instellingen | Beschrijving |
Bronverbinding | De bronverbinding. |
Vectoren opslaan in | Selecteer in de vervolgkeuzelijst:
|
Verbinding van vectordatabase Deze instelling is beschikbaar wanneer Externe vectordatabase is geselecteerd voor Vectoren opslaan in. | De verbinding van de vectordatabase. Ga voor meer informatie naar Verbinding maken met vectordatabases. |
LLM-verbinding | De LLM-verbinding. Ga voor meer informatie naar Verbinding maken met LLM-verbindingen. Als u Databricks wilt gebruiken als een LLM-verbinding, configureer dan het Insluitmodel als eindpunt en Voltooiingsmodel als eindpunt bij het maken van de knowledgemart. Raadpleeg de Databricks-documentatie voor meer informatie. |
Instellingen | Beschrijving |
Schema van gegevenstaak | De naam van het gegevenstaakschema. |
Intern schema | De naam van het interne schema. |
Prefix voor alle tabellen en weergaven | Gebruik dit prefix als u conflicten tussen meerdere gegevenstaken wilt oplossen |
Instellingen | Beschrijving |
Indexschema Deze instelling is niet beschikbaar wanneer Externe vectordatabase is geselecteerd voor Vectoren opslaan in. | De naam van het indexschema. |
Indexnaam | De naam van de index. |
Als de index al bestaat | Wanneer meerdere taken naar dezelfde index schrijven, selecteert u of de index moet worden verwijderd of niet:
|
Instellingen | Beschrijving |
Parallelle uitvoering | Het maximumaantal databaseverbindingen. Voer een waarde in van 1 tot 50. |
Bulkgrootte | Voor knowledgemarts is de bulkgrootte het aantal documenten dat in elk bulkverzoek wordt geladen. Voor op bestanden gebaseerde knowledgemarts is de bulkgrootte het aantal bestanden dat in elk bulkverzoek wordt geladen. Voor Snowflake is de bulkgrootte niet nodig omdat alles in één query wordt geladen. |
Maximumaantal records om te laden | 0 betekent dat alle records geladen zijn. |
Instellingen | Beschrijving |
Standaardweergaven | Gebruik standaardweergaven om de resultaten van een query weer te geven alsof het een tabel is. |
Snowflake beveiligde weergaven | Gebruik beveiligde Snowflake-weergaven voor weergaven die zijn aangewezen voor de bescherming van gegevensprivacy of gevoelige informatie, zoals weergaven die zijn gemaakt om de toegang te beperken tot gevoelige gegevens die niet mogen worden blootgesteld aan alle gebruikers van de onderliggende tabellen. Beveiligde Snowflake-weergaven kunnen langzamer worden uitgevoerd dan standaardweergaven. |
Instellingen | Beschrijving |
Aantal documenten in context | Het aantal relevante documenten dat als context aan het model wordt doorgegeven. |
Promptsjabloon | Voer de sjabloon in die de AI moet volgen om de op te nemen documenten te filteren. |
Filteren | Voer de expressie in om de op te nemen documenten te filteren. Aangezien het filter is gebaseerd op de metadata en de op bestanden gebaseerde kennis-marts geen metadata hebben, denk goed na over het filter dat u configureert. Het kan relevanter zijn om gegevens uit te sluiten in plaats van ze op te nemen. Ga voor meer informatie naar De testassistent gebruiken. |
Document ophalen | Selecteer de optie in de vervolgkeuzelijst:
|
Antwoorden genereren | Selecteer de optie in de vervolgkeuzelijst:
|