Skapa en kunskapsmart
Med filbaserade kunskapsmarter kan du bädda in och lagra ostrukturerade data i en vektordatabas. Detta gör att den förstärkta kontexten kan hämtas med semantiska sökfunktioner för att användas som ett sammanhang för RAG-applikationer (Retrieval Augmented Generation).
De inmatningsformat som stöds är: PDF
, TXT
och Word-DOCX
.
Installera Qlik Data Gateway - Data Movement
Innan du skapar filbaserade kunskapsmarter måste du installera en specifik Qlik Data Gateway - Data Movement. Mer information finns i Ställa in Qlik Data Gateway - Data Movement för kunskapsmarter.
Kopplingar som stöds
För information om stöd:
- Vektordatabaser, se Koppling till vektordatabaser.
- LLM-kopplingar, se Ansluta till LLM-kopplingar.
- Filutrymme, se Ansluta till fillagring.
Skapa filerna
- Klicka på Projekt i vänstermenyn och öppna ett projekt.
- Från sidan Projekt kan du skapa en filbaserad kunskapsmart. Gör något av följande:
- Klicka på Skapa ny > Filbaserad kunskapsmart.
- Klicka på
för datauppgiften > Filbaserad kunskapsmart.
Konfigurationsfönstret öppnas.
- Ange ett namn.
- Ange en beskrivning. Detta är valfritt.
- Skapa eller välj en källkoppling.
-
Välj var du vill lagra dokumenten i listrutan Lagra vektorer i . Om du vill lagra dokumenten med projektet väljer du Plattform för dataprojekt.
- Om du valde Extern vektordatabas, skapa eller välj en koppling till en vektordatabaskoppling. Dokumenten och vektorerna kommer att lagras i denna vektordatabas.
- Skapa eller välj en LLM-koppling. Denna koppling krävs för att använda den semantiska sökningen.
- Klicka på Skapa.
- När kunskapsmarten har skapats lägger du till dokument.
Lägga till filer
- På fliken Mappar på sidan Datauppgift väljer du en mapp eller klickar på Välj mappar för att välja en ny mapp.
- Bläddra till mappen, markera kryssrutan för mappen.
Alla filer i mapparna kommer att läsas om de är i något av de format som stöds, oavsett när de läggs till i mappen.
När du tar bort en fil som redan finns i indexet från en mapp finns data kvar i indexet. Om du vill ta bort data från indexet använder du samma fil, men tom.
Om du vill visa en lista över filerna i mappen högerklickar du på den.
- Klicka på Spara för att stänga fönstret Välj mappar.
- Om du vill redigera chunkstorleken, chunköverlappningen klickar du på Inställningar > Körning.
- Om du vill redigera indexnamnet klickar du på Inställningar > Vektordatabasinställningar.
Mer information finns i Indexnamn.
- Klicka på
till höger > Förbered.
- När förberedelserna är klara klickar du på Kör. Dokumenten bäddas in och överförs.
Överföringen är klar när Kör-knappen är aktiv.
- Vid den första fullständiga laddningen, kontrollera statusen för varje fil:
- Välj Övervaka i menyn.
- Välj status för fullständig laddning längst ner på sidan.
- När vissa filer misslyckades och innan du kör allt igen, åtgärda felen eller radera filerna. Om du håller filerna felaktiga kommer nästa körning att misslyckas.
Anteckning om informationOmladdning av alla filer kan leda till extra kostnader.
När dina filer är korrekta kan du ställa frågor om dina data. Mer information finns i Använda testassistenten.
Fullständig laddning och sammanställning av ändringsdata (CDC)
Stöd för fullständig laddning och CDC.
Fullständig laddning: Ett dokument genereras för varje dokumentinstans och skickas till målet.
CDC: Ett dokument återskapas efter varje ändring.
När en fil ändras eller läggs till läses dokumenten från denna fil. Filen kommer att delas upp i dokument av bitar enligt bitstorleken och överlappningen.
Vid den första fullständiga laddningen, kontrollera statusen för varje fil:
- Välj Övervaka i menyn.
- Välj status för fullständig laddning längst ner på sidan.
- När vissa filer misslyckades och innan du kör allt igen, åtgärda felen eller radera filerna. Om du håller filerna felaktiga kommer nästa körning att misslyckas.
Uppdatering av indata
När du uppdaterar indata måste du köra datauppgiften för att överföra ändringarna till vektordatabasen eller dataplattformen.
Eftersom gamla chunks raderas och nya chunks infogas motsvarar fältet hdr__operation
en INSERT-åtgärd, inte en UPDATE-åtgärd. Se Arkitektur för datauppsättningar i molndatalager för mer information
Indexnamn
Varje kunskapsmart har ett indexnamn som används för den semantiska sökningen.
När du konfigurerar uppgifter för att skriva till samma index måste du konfigurera samma LLM-parametrar för uppgifterna.
Om du vill att dina dokument ska finnas i samma index måste de ha samma indexnamn.
Så här redigerar du indexnamnet:
- På datakörningssidan klickar du på Inställningar.
- Välj fliken Inställningar för vektordatabas.
- Redigera indexnamnet.
- Klicka på OK.
När du har redigerat indexnamnet måste du förbereda uppgiften. Annars kommer dina ändringar inte att gälla i nästa körning.
Inställningar
Du kan visa och redigera inställningarna för en kunskapsmart.
På sidan Datauppgift klickar du på > Inställningar.
Inställningar | Beskrivning |
Källkoppling | Källkopplingen. |
Lagra vektorer i | Från listrutan, välj:
|
Koppling till vektordatabas Denna inställning är tillgänglig när Extern vektordatabas har valts för Lagra vektorer i. | Vektordatabaskopplingen. Mer information finns i Koppling till vektordatabaser. |
LLM-koppling | LLM-kopplingen. Mer information finns i Ansluta till LLM-kopplingar. När du vill använda Databricks som en LLM-koppling konfigurerar du Slutpunkt som används för inbäddningsmodell och Slutpunkt som används för slutförandemodell när du skapar en kunskapsmart. Se Databriks-dokumentationen för mer information. |
Inställningar | Beskrivning |
Datauppgiftsschema | Namn på schemat för datauppgiften. |
Internt schema | Namnet på det interna schemat. |
Prefix för alla tabeller och vyer | Prefixet för att lösa konflikter mellan flera datauppgifter. |
Inställningar | Beskrivning |
Indexschema Denna inställning är tillgänglig när Extern vektordatabas har valts för Lagra vektorer i. | Namnet på det indexschemat. |
Indexnamn | Namnet på det indexet. |
Om indexet redan finns | När flera uppgifter skriver till samma index väljer du om indexet måste raderas eller inte:
|
Inställningar | Beskrivning |
Parallell körning | Maximalt antal databaskopplingar. Ange ett värde från 1 till 50. |
Bulkstorlek | För kunskapsmarter är bulkstorleken det antal dokument som laddas i varje bulkbegäran. För filbaserade kunskapsmarter är bulkstorleken det antal filer som laddas i varje bulkbegäran. På Snowflake krävs inte bulkstorleken eftersom allt laddas i en fråga. |
Maximalt antal poster att läsa in | 0 betyder att alla poster är inlästa. |
Inställningar | Beskrivning |
Standardvyer | Använd standardvyer för att visa resultatet av en fråga som om det vore en tabell. |
Snowflake säkra vyer | Använd säkra vyer i Snowflake för vyer som är avsedda för skydd av dataintegritet eller känslig information, t.ex. vyer som skapats för att begränsa åtkomsten till känsliga data som inte bör exponeras för alla användare av de underliggande datatabellerna. Snowflake säkra vyer kan köras långsammare än standardvyer. |
Inställningar | Beskrivning |
Antal dokument i kontext | Antalet relevanta dokument som kommer att skickas till modellen som kontext. |
Promptmall | Ange mallen som AI:n måste följa för att filtrera de dokument som ska inkluderas. |
Filtrera | Ange uttrycket för att filtrera de dokument som ska inkluderas. Eftersom filtret baseras på metadata och de filbaserade kunskapsmartarna inte har metadata, tänk noga på det filter du konfigurerar. Det kan vara mer relevant att exkludera data istället för att inkludera dem. Mer information finns i Använda testassistenten. |
Dokumenthämtning | Välj alternativet från listrutan:
|
Generering av svar | Välj alternativet från listrutan:
|