Gå till huvudinnehåll Gå till ytterligare innehåll

Hantering av fritextdata

För fritext (exempelvis textsträngsdata som fylls i i formulär) krävs särskild bearbetning av maskininlärningsalgoritmer för att den ska vara användbar i en modell. I Qlik Predict är bearbetning av fritext en form av automatisk funktionsgenerering. Tekniskt sätt använder denna bearbetning TFT-IDF-metoden (term frequency - inverse document frequency).

Qlik Predict har stöd för separat bearbetning av funktioner med fritextdata på engelska.

Om en kolumn i dina träningsdata innehåller fritext tilldelas den funktionstypen fritext. Den kan också användas som en kategorisk funktion, men vi avråder starkt från detta om den har en hög kardinalitet (för många unika värden).

Du kan maximalt välja att använda tre kolumner som fritextfunktioner i ett experiment.

Anteckning om informationVi rekommenderar att modeller som tränats före 23 januari 2024 tränas om, om de använder fält som består av fritextdata.

Krav för fritextkodning

För att en kolumn som innehåller fritext ska kodas som fritext måste den uppfylla två krav. Dessa krav kontrolleras vid olika tidpunkter när experimentet skapas.

Kraven är:

  • Kolumnen måste ha en genomsnittlig teckenlängd på 50 eller fler tecken.

  • Kolumnen måste ha en genomsnittlig ordlängd på fem eller fler ord.

Behandla en funktion som fritext

Processen att behandla en funktion som fritext är som följer:

  1. När du väljer dina träningsdata identifierar Qlik Predict funktioner som eventuellt kan bearbetas som fritext. De markeras med insikten Möjlig fritext i schemavyn och kommer att ha typen fritext.

  2. När du har kört v1 av experimentet slutförs ytterligare analys. Här kan det hända att funktioner som ursprungligen markerats som möjlig fritext konstateras vara oanvändbara som fritextfunktioner.

    Om funktionerna som är oanvändbara som fritext har hög kardinalitet rekommenderar vi att du väljer bort dem från experimentet. De här funktionerna tillför inget värde till modellens prestanda när de behandlas som kategoriska.

    Om funktionerna som är oanvändbara som fritext inte har hög kardinalitet kan du inkludera dem i dina experiment genom att klicka på Behandla som kategorisk, eller genom att växla deras Funktionstyp från fritext till kategorisk. Om du lämnar funktionstypen som fritext kommer den att bearbetas som kategorisk även internt, och kommer att effektkodas.

Fullständig information om förbearbetning, se Automatisk förberedelse och omvandling av data.

Mer information om de insikter som visas i schemavyn finns i Visa insikter om dina träningsdata.

Använda en fritextfunktion som experimentmål

I sällsynta fall kan en fritextfunktion kan väljas som mål. Om funktionen uppfyller alla krav för fritextkodning och innehåller mellan två och tio unika värden kan den användas som mål. I de här scenarierna definieras experimentet som ett normalt binärt eller multiklassklassificeringsproblem.

Fritextfunktioner i prognoser

För att lära dig mer om kraven för att köra förutsägelser med en distribuerad modell tränad med fritextfunktioner, se Arbeta med fritextfunktioner i prognoser.

Överväganden

Att inkludera fritextfunktioner i ditt experiment ökar komplexiteten hos experimentet och de processer som krävs för att köra det. Det kan hända att Permutationsbetydelse-diagram inte är tillgängliga för de resulterande modellerna om dina fritextdata är tillräckligt komplexa.

Felsökning

Att använda fritextdata för att träna en modell kan vara en resursintensiv process. Det kan inträffa ett fel när du inkluderar fritextkolumner som innehåller ett stort antal unika ord som funktioner.

Här är några riktlinjer för att åtgärda de här felen:

  • Minska datadelmängden i din träningsdatauppsättning så att den innehåller färre rader med fritext.

  • Ta bort fritextfunktioner du inte behöver ta med i modellträningen.

  • Behandla en eller flera fritextkolumner som kategoriska snarare än fritextfunktioner. Observera att detta inte rekommenderas om de här textfunktionerna innehåller hög kardinalitet.

Begränsningar

Var den här sidan till hjälp för dig?

Om du stöter på några problem med den här sidan eller innehållet på den, t.ex. ett stavfel, ett saknat steg eller ett tekniskt fel – meddela oss!