Skapa en kunskapsmart

Kunskapsmartar låter dig bädda in och lagra din strukturerade data i en vektordatabas. Detta gör att den utökade kontexten kan hämtas med semantiska sökfunktioner för att användas som en kontext för Retrieval Augmented Generation (RAG)-applikationer.

Utdata är i JSON format.

Du behöver en Qlik Talend Cloud Enterprise-prenumeration.

Krav

Du behöver en Qlik Talend Cloud Enterprise-prenumeration.
Stöds på Snowflake- och Databricks-plattformar. Snowflake Iceberg stöds inte.
En kundhanterad datagateway krävs.

Databricks kräver Qlik Data Gateway – dataflytt version 2024.11.95 eller högre.

Installera Qlik Data Gateway – dataflytt

Innan du skapar en kunskapsmart måste du installera en specifik Qlik Data Gateway – dataflytt. Mer information finns i Ställa in Qlik Data Gateway – dataflytt för kunskapsmarter.

Kopplingar som stöds

För information om stöd:

Vektordatabaser, se Koppling till vektordatabaser.
LLM-kopplingar, se Ansluta till LLM-kopplingar.
Filutrymme, se Ansluta till fillagring.

Skapa data

Klicka på Pipelineprojekt i vänstermenyn och öppna ett projekt.
Från Pipelineprojekt-sidan kan du generera och publicera dokument till en vektordatabas. Gör något av följande:
- Klicka på Skapa ny > Kunskapsmart.
- Klicka på för datauppgiften > Kunskapsmart.
Konfigurationsfönstret öppnas.
Ange ett namn.
Ange en beskrivning. Detta är valfritt.
Välj var dokumenten ska lagras från rullgardinslistan Lagra vektorer i. Om du vill lagra dokumenten med projektet väljer du Plattform för dataprojekt.
Om du valde Extern vektordatabas, skapa eller välj en koppling till en vektordatabaskoppling. Dokumenten och vektorerna kommer att lagras i denna vektordatabas.
Skapa eller välj en LLM-koppling. Denna koppling krävs för att använda den semantiska sökningen.
Klicka på Skapa.
När data har skapats, lägg till dokument.

Lägga till dokument

Endast textformat stöds. Till exempel kan text från diagram eller bilder inte extraheras.

På fliken Datasets på sidan Datauppgift klickar du på Lägg till i den vänstra panelen.
Välj den basdatauppsättning från vilken dokumentet ska genereras. Ett dokument kommer att skapas för varje post. Till exempel, för en lista med patienter, kommer ett dokument att skapas för varje patient.
Fältet Dokumentschemanamn är förifyllt med namnet på den valda basdatamängden. Byt namn på det vid behov.
Ange en beskrivning. Detta är valfritt.
Välj de data du vill inkludera för att berika dokumentet.
Klicka på OK. Du är tillbaka på fliken Dokumentscheman.
Välj fliken Datamängder.
I den vänstra panelen väljer du den datamängd du tidigare valde som basdatamängd.
För att ta bort de data du inte vill inkludera i dokumenten, markera kryssrutan och klicka på Ta bort.
Välj Metadata för alla fält som du vill definiera som metadata. Du kan filtrera enligt metadata innan du skickar data till LLM.

Anteckning om informationPå Databricks implementeras metadata av ett enda fält som innehåller en JSON-representation av nyckeln och värdena för valda metadatafält.
För att förbättra den semantiska sökningen som utförs av LLM, byt namn på data vars namn inte är tydliga nog.
Exempel: Byt namn på dt till date.
När du har tagit bort och bytt namn på data efter behov, klickar du på till höger > Prepare. Dokumenten genereras i JSON format.
När dokumenten har genererats:
1. Välj fliken Datasets.
2. För att verifiera dina dokument innan du kör uppgiften, klickar du på View data för att visa ett dataexempel.
3. Klicka på Kör. Dokumenten överförs till vektordatabasen eller dataplattformen beroende på konfigurationen.

Överföringen är klar när knappen Run är aktiv.

För att säkerställa att allt har överförts, kan du ställa frågor om dina data. Mer information finns i Använda testassistenten.

Fullständig laddning och sammanställning av ändringsdata

Fullständig laddning och CDC stöds.

Fullständig laddning: Ett dokument genereras för varje dokumentinstans och skickas till målet.

CDC: Ett dokument återskapas efter varje ändring i basentiteten eller relaterad entitet.

Ett nytt dokument skapas när en post läggs till i basentiteten. Om inga poster i de relaterade entiteterna kan kopplas till en basentitet, visas de inte i dokumenten.

Uppdatera indata

När du uppdaterar indata måste du köra datauppgiften för att överföra ändringarna till vektordatabasen eller dataplattformen.

Indexnamn

Varje kunskapsmart har ett indexnamn som används för den semantiska sökningen.

När du konfigurerar uppgifter att skriva till samma index måste du konfigurera samma LLM-parametrar för uppgifterna.

Om du vill att dina dokument ska finnas i samma index måste de ha samma indexnamn.

Så här redigerar du indexnamnet:

På datakörningssidan klickar du på Inställningar.
Välj fliken Inställningar för vektordatabas.
Redigera indexnamnet.
Klicka på OK.

Visa uppgiftsinformation

Klicka på i menyraden för att visa uppgiftsinformation, till exempel:

Ägare
Utrymme
Dataplattform
Projekt-id
Körnings-ID för datauppgift

Inställningar

Du kan visa och redigera inställningarna för en kunskapsmart.

På sidan Datauppgift klickar du på > Inställningar.

Eftersom inställningarna beror på lagringen (Databricks, Snowflake osv.), följer i tabellerna nedan en beskrivning av de inställningar som alltid är tillgängliga. Fler inställningar kan vara tillgängliga.

I den här tabellen beskrivs inställningarna på fliken Kopplingar.
Inställningar	Beskrivning
Källkoppling	Källkopplingen.
Lagra vektorer i	Från listrutan, välj: Extern vektordatabas Dataprojektplattform
Koppling till vektordatabas Denna inställning är tillgänglig när Extern vektordatabas har valts för Lagra vektorer i.	Vektordatabaskopplingen. Mer information finns i Koppling till vektordatabaser.
LLM-koppling	LLM-kopplingen. Mer information finns i Ansluta till LLM-kopplingar. När du vill använda Databricks som en LLM-koppling konfigurerar du Slutpunkt som används för inbäddningsmodell och Slutpunkt som används för slutförandemodell när du skapar en kunskapsmart. Se Databriks-dokumentationen för mer information.

I den här tabellen beskrivs inställningarna på fliken Plattformsinställningar.
Inställningar	Beskrivning
Datauppgiftsschema	Namn på schemat för datauppgiften.
Internt schema	Namnet på det interna schemat.
Prefix för alla tabeller och vyer	Prefixet för att lösa konflikter mellan flera datauppgifter.

I den här tabellen beskrivs inställningarna på fliken Vektordatabasinställningar.
Inställningar	Beskrivning
Indexschema Denna inställning är tillgänglig när Extern vektordatabas har valts för Lagra vektorer i.	Namnet på det indexschemat.
Indexnamn	Namnet på det indexet.
Om indexet redan finns	När flera uppgifter skriver till samma index väljer du om indexet måste raderas eller inte: Använd befintligt index: Indexet tas inte bort. Släpp och skapa indexet: Indexet raderas.
Slutpunkt för Databricks vektorsökning	Namnet på vektorsökningens slutpunkt som skapats i Databricks. Mer information finns i Konfigurera Databricks för kunskapsmartar . Anteckning om informationGäller endast projekt som använder Databricks som dataplattform.

I den här tabellen beskrivs inställningarna på fliken Körning.
Inställningar	Beskrivning
Parallell körning	Maximalt antal databaskopplingar. Ange ett värde från 1 till 50.
Bulkstorlek	För kunskapsmarter är bulkstorleken det antal dokument som laddas i varje bulkbegäran. För filbaserade kunskapsmarter är bulkstorleken det antal filer som laddas i varje bulkbegäran. På Snowflake och Databricks krävs inte bulkstorleken eftersom allt laddas i en fråga.
Maximalt antal poster att läsa in	0 betyder att alla poster är inlästa.

I den här tabellen beskrivs inställningarna på fliken Visningar för Snowflake
Inställningar	Beskrivning
Standardvyer	Använd standardvyer för att visa resultatet av en fråga som om det vore en tabell.
Snowflake säkra vyer	Använd säkra vyer i Snowflake för vyer som är avsedda för skydd av dataintegritet eller känslig information, t.ex. vyer som skapats för att begränsa åtkomsten till känsliga data som inte bör exponeras för alla användare av de underliggande datatabellerna. Snowflake säkra vyer kan köras långsammare än standardvyer.

Den här tabellen beskriver inställningarna för fliken Testassistenten.
Inställningar	Beskrivning
Antal dokument i kontext	Antalet relevanta dokument som kommer att skickas till modellen som kontext.
Promptmall	Ange mallen som AI:n måste följa för att filtrera de dokument som ska inkluderas.
Filtrera	Ange uttrycket för att filtrera de dokument som ska inkluderas. Eftersom filtret baseras på metadata och de filbaserade kunskapsmartarna inte har metadata, tänk noga på det filter du konfigurerar. Det kan vara mer relevant att exkludera data istället för att inkludera dem. Mer information finns i Använda testassistenten.
Dokumenthämtning	Välj alternativet från listrutan: Visa hämtad kontext: Testassistenten tillhandahåller de dokument från vilka den genererar svaret. Visa inte hämtad kontext: Testassistenten genererar ett svar men tillhandahåller inte dokumenten.
Generering av svar	Välj alternativet från listrutan: Generera svar: Testassistenten genererar ett svar baserat på dokumenten. Generera inte svar: Testassistenten svarar endast med dokument.

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!

Lämna din feedback här