Een kennis-mart maken
Met kennis-marts kunt u uw gestructureerde gegevens insluiten en opslaan in een vectordatabase. Hierdoor kan de uitgebreide context worden opgehaald met semantische zoekfuncties om te worden gebruikt als context voor Retrieval Augmented Generation (RAG)-apps.
De uitvoer is in het JSON-formaat.
Vereisten
-
U hebt een Qlik Talend Cloud Enterprise-abonnement nodig.
-
Ondersteund op Snowflake- en Databricks-platformen. Snowflake Iceberg wordt niet ondersteund.
-
Een door de klant beheerde gegevensgateway is vereist.
Databricks vereist Qlik Gegevensgateway - Gegevensverplaatsing versie 2024.11.95 of hoger.
De Qlik Gegevensgateway - Gegevensverplaatsing installeren
Voordat u een kennis-mart maakt, moet u een specifieke Qlik Gegevensgateway - Gegevensverplaatsing installeren. Ga voor meer informatie naar Qlik Gegevensgateway - Gegevensverplaatsing instellen voor knowledgemarts.
Ondersteunde verbindingen
Voor informatie over de ondersteunde:
- Vectordatabases, zie Verbinding maken met vectordatabases.
- LLM-verbindingen, zie Verbinding maken met LLM-verbindingen.
- Bestandsopslag, zie Verbinding maken met bestandsopslag.
Gegevens maken
- Klik op Projecten in het linkermenu en open een project.
- Vanaf de Projectpagina kunt u documenten genereren en publiceren naar een vectordatabase. Ofwel:
- Klik op Nieuwe maken > Knowledge mart.
- Klik op
van de gegevenstaak > Knowledge mart.
Er wordt een configuratievenster geopend.
- Voer een naam in.
- Voer een beschrijving in. Dit is optioneel.
- Selecteer waar de documenten moeten worden opgeslagen in de vervolgkeuzelijst Vectoren opslaan in. Om de documenten bij het project op te slaan, selecteert u Gegevensprojectplatform.
- Als u Externe vectordatabase hebt geselecteerd, maak of selecteer dan een Verbinding vectordatabase. De documenten en vectoren worden in deze vectordatabase opgeslagen.
- Maak of selecteer een LLM-verbinding. Deze verbinding is nodig voor het gebruik van de semantische zoekfunctie.
- Klik op Maken.
- Wanneer de gegevens zijn gemaakt, voegt u documenten toe.
Documenten toevoegen
- Klik op Toevoegen in het linkerdeelvenster op het tabblad Datasets van de pagina Gegevenstaak.
- Selecteer de basisdataset waaruit het document wordt gegenereerd. Er wordt een document gemaakt voor elke record. Voor een lijst met patiënten wordt bijvoorbeeld voor elke patiënt een document gemaakt.
- Het veld Naam documentschema is vooraf ingevuld met de naam van de geselecteerde basisdataset. Wijzig de naam indien nodig.
- Voer een beschrijving in. Dit is optioneel.
- Selecteer de gegevens die u wilt opnemen om het document te verrijken.
- Klik op OK. U bent terug op het tabblad Documentschema's.
- Selecteer het tabblad Datasets.
- Selecteer in het linkerdeelvenster de dataset die u eerder als basisdataset hebt gekozen.
- Als u de gegevens wilt verwijderen die u niet in de documenten wilt opnemen, schakelt u het selectievakje in en klikt u op Verwijderen.
- Om de semantische zoekopdracht van de LLM te verbeteren, wijzigt u de naam van gegevens waarvan de namen niet wissen genoeg zijn.
Voorbeeld: Hernoem dt naar date.
- Nadat u gegevens hebt verwijderd en hernoemd zoals nodig, klikt u op
rechts > Prepare. De documenten worden gegenereerd in JSONindeling. - Wanneer de documenten zijn gegenereerd:
- Selecteer het Datasets-tabblad.
- Om uw documenten te controleren voordat u de taak uitvoert, klikt u op View data om een gegevensvoorbeeld weer te geven.
- Klik op Uitvoeren. De documenten worden overgedragen naar de vectordatabase of het dataplatform, afhankelijk van de configuratie.
De overdracht is voltooid wanneer de Run-knop actief is.
Om er zeker van te zijn dat alles is overgedragen, kunt u vragen stellen over uw gegevens. Ga voor meer informatie naar De testassistent gebruiken.
Volledige lading en het vastleggen van wijzigingsgegevens (CDC)
Volledige belasting en CDC worden ondersteund.
Volledige belasting: Er wordt een document gegenereerd voor elke documentinstantie en dit wordt naar het doel verzonden.
CDC: Een document wordt opnieuw gegenereerd na elke wijziging in de basis- of gerelateerde entiteit.
Er wordt een nieuw document gemaakt wanneer een vermelding wordt toegevoegd aan de basisentiteit. Als er geen vermeldingen in de gerelateerde entiteiten kunnen worden gekoppeld aan een basisentiteit, verschijnen deze niet in de documenten.
De invoergegevens bijwerken
Wanneer u de invoergegevens bijwerkt, moet u de gegevenstaak uitvoeren om de wijzigingen over te dragen naar de vectordatabase of het gegevensplatform.
Indexnaam
Elke knowledgemart heeft een indexnaam die voor de semantische zoekfunctie wordt gebruikt.
Wanneer u taken configureert om naar dezelfde index te schrijven, moet u dezelfde LLM-parameters voor de taken configureren.
Als u wilt dat uw documenten in dezelfde index staan, moeten ze dezelfde indexnaam hebben.
De indexnaam bewerken:
- Klik op Instellingen op de Gegevenstaak-pagina.
- Selecteer het tabblad Vector database-instellingen.
- Bewerk de Indexnaam.
- Klik op OK.
Instellingen
U kunt de instellingen van een knowledgemart bekijken en bewerken.
Klik vanuit de pagina Gegevenstaak op
> Instellingen.
| Instellingen | Beschrijving |
| Bronverbinding | De bronverbinding. |
| Vectoren opslaan in | Selecteer in de vervolgkeuzelijst:
|
| Verbinding van vectordatabase Deze instelling is beschikbaar wanneer Externe vectordatabase is geselecteerd voor Vectoren opslaan in. | De verbinding van de vectordatabase. Ga voor meer informatie naar Verbinding maken met vectordatabases. |
| LLM-verbinding | De LLM-verbinding. Ga voor meer informatie naar Verbinding maken met LLM-verbindingen. Als u Databricks wilt gebruiken als een LLM-verbinding, configureer dan het Insluitmodel als eindpunt en Voltooiingsmodel als eindpunt bij het maken van de knowledgemart. Raadpleeg de Databricks-documentatie voor meer informatie. |
| Instellingen | Beschrijving |
| Schema van gegevenstaak | De naam van het gegevenstaakschema. |
| Intern schema | De naam van het interne schema. |
| Prefix voor alle tabellen en weergaven | Gebruik dit prefix als u conflicten tussen meerdere gegevenstaken wilt oplossen |
| Instellingen | Beschrijving |
| Indexschema Deze instelling is niet beschikbaar wanneer Externe vectordatabase is geselecteerd voor Vectoren opslaan in. | De naam van het indexschema. |
| Indexnaam | De naam van de index. |
| Als de index al bestaat | Wanneer meerdere taken naar dezelfde index schrijven, selecteert u of de index moet worden verwijderd of niet:
|
| Zoekeindpunt Databricks-vector | De naam van het vectorzoek-eindpunt dat is gemaakt in Databricks. Ga voor meer informatie naar Databricks configureren voor knowledgemarts . InformatieAlleen van toepassing op projecten die Databricks als dataplatform gebruiken. |
| Instellingen | Beschrijving |
| Parallelle uitvoering | Het maximumaantal databaseverbindingen. Voer een waarde in van 1 tot 50. |
| Bulkgrootte | Voor knowledgemarts is de bulkgrootte het aantal documenten dat in elk bulkverzoek wordt geladen. Voor op bestanden gebaseerde knowledgemarts is de bulkgrootte het aantal bestanden dat in elk bulkverzoek wordt geladen. Voor Snowflake en Databricks is de bulkgrootte niet nodig omdat alles in één query wordt geladen. |
| Maximumaantal records om te laden | 0 betekent dat alle records geladen zijn. |
| Instellingen | Beschrijving |
| Standaardweergaven | Gebruik standaardweergaven om de resultaten van een query weer te geven alsof het een tabel is. |
| Snowflake beveiligde weergaven | Gebruik beveiligde Snowflake-weergaven voor weergaven die zijn aangewezen voor de bescherming van gegevensprivacy of gevoelige informatie, zoals weergaven die zijn gemaakt om de toegang te beperken tot gevoelige gegevens die niet mogen worden blootgesteld aan alle gebruikers van de onderliggende tabellen. Beveiligde Snowflake-weergaven kunnen langzamer worden uitgevoerd dan standaardweergaven. |
| Instellingen | Beschrijving |
| Aantal documenten in context | Het aantal relevante documenten dat als context aan het model wordt doorgegeven. |
| Promptsjabloon | Voer de sjabloon in die de AI moet volgen om de op te nemen documenten te filteren. |
| Filteren | Voer de expressie in om de op te nemen documenten te filteren. Aangezien het filter is gebaseerd op de metadata en de op bestanden gebaseerde kennis-marts geen metadata hebben, denk goed na over het filter dat u configureert. Het kan relevanter zijn om gegevens uit te sluiten in plaats van ze op te nemen. Ga voor meer informatie naar De testassistent gebruiken. |
| Document ophalen | Selecteer de optie in de vervolgkeuzelijst:
|
| Antwoorden genereren | Selecteer de optie in de vervolgkeuzelijst:
|