Hantering van vrijetekstgegevens
Voor vrije tekst (bijvoorbeeld tekenreeksgegevens in tekstvorm die in formulieren zijn ingevoerd) is een speciale verwerking vereist om machinelearning-algoritmen toe te passen op een model. In Qlik Predict is de verwerking van vrije tekst een vorm van automatische functie-ontwikkeling. Technisch gezien wordt bij deze verwerking de methode TF-IDF (term frequency - inverse document frequency) gebruikt.
Qlik Predict ondersteunt de afzonderlijke verwerking van functies met vrijetekstgegevens in het Engels.
Als een kolom in uw trainingsgegevens vrije tekst bevat, wordt hieraan het kenmerktype Vrije tekst toegewezen. Het kan ook als een categorische functie worden gebruikt, al wordt dit sterk afgeraden bij hoge kardinaliteit (te veel unieke waarden).
U kunt maximaal drie kolommen selecteren om te gebruiken als vrijetekstfuncties in een experiment.
Vereiste voor vrijetekstcodering
Om een kolom met vrije tekst succesvol te coderen als vrije tekst, moet deze kolom aan twee vereisten voldoen. Deze vereisten worden gecontroleerd gedurende twee verschillende fasen van het maken van het experiment.
De vereisten zijn:
-
De kolom moet een gemiddelde tekenlengte van vijftig of meer tekens hebben.
-
De kolom moet een gemiddelde woordlengte van vijf of meer woorden hebben.
Een functie als vrije tekst behandelen
Het proces voor het behandelen van een kenmerk als vrije tekst is als volgt:
-
Bij het selecteren van uw trainingsgegevens identificeert Qlik Predict functies die mogelijk als vrije tekst verwerkt kunnen worden. Ze worden gemarkeerd met het inzicht Mogelijke vrije tekst in de schemaweergave en ze beschikken over het kenmerktype Vrije tekst.
-
Nadat u v1 van het experiment hebt uitgevoerd, wordt een aanvullende analyse voltooid. Vanaf dit punt zijn functies die eerder als mogelijke vrije tekst zijn gemarkeerd mogelijk niet bruikbaar als vrijetekstfuncties.
Als de functies die niet bruikbaar zijn een hoge cardinaliteit hebben, wordt aanbevolen om deze functies te deselecteren van het experiment. Deze functies voegen geen waarde toe aan de prestaties van het model als ze categorisch worden behandeld.
Als de functies die niet bruikbaar zijn als vrije tekst geen hoge cardinaliteit hebben, kunt u ze opnemen in uw experiment. Klik hiervoor op Behandelen als categorisch of door het functietype te wijzigen van Vrije tekst in Categorisch. Als u het functietype als Vrije tekst laat staan, wordt dit intern als categorisch behandeld en wordt impact encoding toegepast.
Voor meer informatie over voorbewerking gaat u naar Geautomatiseerde voorbereiding en transformatie.
Raadpleeg Inzichten over uw trainingsgegevens voor meer informatie over elk van de inzichten die in de schemaweergave worden getoond.
Vrijetekstfunctie gebruiken als het doel van het experiment
In zeldzame gevallen kunt u een vrijetekstfunctie als doel selecteren. Als de functie voldoet aan alle vereisten voor codering van vrije tekst, en tussen twee en tien unieke waarden bevat, kan deze als doel worden gebruikt. In deze scenario's wordt het experiment gedefinieerd als een standaard binaire classificatie of multiclass-classificatieprobleem.
Vrijetekstfuncties in voorspellingen
Om meer te weten te komen over de vereisten voor het uitvoeren van voorspellingen met een geïmplementeerd model dat is getraind met vrije tekstfuncties, zie Werken met vrijetekstfuncties in voorspellingen.
Overwegingen
Door vrije-tekstkenmerken toe te voegen aan uw experiment, wordt de complexiteit vergroot van het experiment en de processen die nodig zijn om dit experiment uit te voeren. Het is mogelijk dat Permutation importance-diagrammen niet beschikbaar zijn voor de resulterende modellen als uw vrijetekstgegevens complex genoeg zijn.
Problemen oplossen
Het gebruik van vrijetekstgegevens om een model te trainen kan een proces zijn waarbij veel hulpbronnen worden gebruikt. Er treedt mogelijk een fout op als u vrijetekstkolommen met grote aantallen unieke woorden als functies opneemt.
Hier volgen enkele richtlijnen om deze problemen op te lossen:
-
Verlaag het aantal rijen met vrije tekst in de gegevens-subset van uw trainingsgegevensverzameling.
-
Verwijder vrijetekstfuncties die u niet in uw modeltraining nodig hebt.
-
Behandel één of meer vrijetekstkolommen als categorische functies, in plaats van als vrije tekst. Dit wordt echter niet aanbevolen als de vrijetekstfuncties een hoge kardinaliteit hebben.
Beperkingen
-
Automatische vrije tekst functie-engineering is alleen beschikbaar voor trainingsdatasets binnen bepaalde groottelimieten. Ga voor meer informatie naar Beperkingen voor trainingsdatasets en profilering.
-
Automatische functiegeneratie van vrije tekst is niet beschikbaar voor tijdreeks-experimenten.