Automatische kenmerkontwikkeling
Met automatische kenmerkontwikkeling kan Qlik AutoML bestaande kenmerken van uw trainingsgegevens gebruiken om nieuwe kenmerken te maken. Deze nieuwe automatisch ontwikkelde kenmerken stellen u in staat nieuwe patronen in uw gegevens te ontdekken en kunnen de prestatie van uw machine learning-modellen enorm verbeteren.
Kenmerkontwikkeling is het proces waarbij nieuwe kenmerkkolommen worden gemaakt vanuit bestaande kolommen. AutoML kan automatisch kenmerken ontwikkelen voor verbeterde afhandeling van bepaalde soorten gegevens. Voor algemene informatie over het ontwikkelen van kenmerken, raadpleegt u Nieuwe kenmerkkolommen maken.
Automatisch ontwikkelde gegevenskenmerken en de bovenliggende kenmerken waarvan ze zijn afgeleid, worden gemarkeerd met een -pictogram.
Nadat u een gegevensverzameling hebt geselecteerd voor gebruik in uw experiment, wordt de gegevensverzameling geanalyseerd en worden de kolommen erin geïdentificeerd als kolommen met een bepaald type gegevens. Deze gegevenstypen maken het voor AutoML mogelijk om een kenmerktype aan iedere kolom in de gegevensverzameling toe te wijzen. Aan iedere kolom wordt een van de volgende kenmerktypen toegewezen:
-
Categorisch
-
Numeriek
-
Datum
-
Vrije tekst
Waar mogelijk geeft AutoML een lijst met automatisch ontwikkelde kenmerken weer die kunnen worden gemaakt vanuit geschikte bovenliggende kenmerken. Deze lijst met automatisch ontwikkelde kenmerken wordt verder verfijnd en verkleind wanneer de voorbewerking start. Automatisch ontwikkelde kenmerken toevoegen aan uw experiment wordt aanbevolen maar is optioneel. U kunt afzonderlijke, automatisch ontwikkelde kenmerken verwijderen voordat u de training start en wanneer u iedere nieuwe experimentversie configureert.
Voor meer informatie over de processen die worden uitgevoerd voordat de experimenttraining begint, raadpleegt u Geautomatiseerde voorbereiding en transformatie.
Ontwikkeling van datumkenmerken
AutoML genereert automatisch ontwikkelde kenmerken vanuit daarvoor geschikte kolommen met het datumkenmerktype, die zijn geïdentificeerd als kolommen met datum- en tijdinformatie. Automatisch ontwikkelde kenmerken en de bovenliggende kenmerken waarvan ze zijn afgeleid, worden gemarkeerd met een -pictogram.
Wanneer Qlik Cloud Analyse de trainingsgegevensverzameling profileert die u hebt geselecteerd voor gebruik in AutoML, worden bepaalde gegevenstypen gekoppeld aan het datumkenmerktype. Dit geldt tevens voor de volgende gegevenstypen:
-
Datum
-
Datum/tijd
-
Tijd
-
Tijdstempel
Kenmerken die aan een van deze gegevenstypen zijn toegewezen tijdens de profilering, krijgen dit gegevenskenmerktype. Voor informatie over de beschikbare profielstatistieken die voor uw gegevensvelden kunnen worden bekeken, raadpleegt u Weergave profiellijst.
Waar mogelijk geeft AutoML een lijst met automatisch ontwikkelde kenmerken weer die kunnen worden gemaakt vanuit geschikte bovenliggende kenmerken die het datumkenmerktype hebben. Automatisch ontwikkelde datumkenmerken zijn standaard onderdeel van het experiment. Als u ervoor kiest ze te gebruiken, worden de nieuwe kenmerken na v1 van het experiment gegenereerd.
Automatisch ontwikkelde datumkenmerken zijn van het numerieke kenmerktype. Ze zijn standaard opgenomen in het experiment, maar zijn optioneel. U kunt er een paar of u kunt ze allemaal verwijderen voordat u begint met de experimenttraining of wanneer u de volgende experimentversie configureert. Wanneer de automatisch ontwikkelde datumkenmerken worden opgenomen, wordt het oorspronkelijke, bovenliggende datumkenmerk verwijderd uit het experiment.
U kunt in plaats daarvan het bovenliggende datumkenmerk opnemen in het experiment. Als u ervoor kiest dit te doen, wordt het kenmerktype van het bovenliggende kenmerk overgezet van datum naar categorie en kunnen de automatisch ontwikkelde datumkenmerken niet meer worden gebruikt. Het wordt aanbevolen om beschikbare, automatisch ontwikkelde kenmerken in uw experiment te gebruiken, omdat uw machine learning-modellen daar beter mee presteren.
Automatisch ontwikkelde datumkenmerken worden niet meegerekend in de grootte van de AutoML-gegevensverzameling (maximumaantal cellen in de trainingsgegevensverzamelingen en toegepaste gegevensverzamelingen) die is gespecificeerd in uw Qlik Cloud-abonnement. Alleen de oorspronkelijke datumkolomcellen worden meegerekend.
Datumkenmerken gebruiken als het doel van het experiment
In het zeldzame geval dat u een kenmerk met datum- en tijdinformatie wilt gebruiken als het doel van uw experiment, wordt het kenmerktype van de kolom overgezet van datum naar categorisch en worden de automatisch ontwikkelde kenmerken verwijderd. Als u nog een doel selecteert en later het datum- en tijdkenmerk als normaal kenmerk wilt toevoegen, moet u het kenmerktype zo nodig handmatig weer op het datumkenmerktype instellen. Als u het kenmerk weer op het datumkenmerktype instelt, worden de automatisch ontwikkelde datumkenmerken opnieuw gegenereerd.
Voor meer informatie over hoe u kenmerktypen kunt wijzigen, raadpleegt u Functietypen wijzigen.
Beschikbare automatisch ontwikkelde kenmerken
Wanneer er automatisch ontwikkelde datumkenmerken worden gegenereerd op basis van een kolom in uw gegevensverzameling, extraheert en berekent AutoML specifieke componenten van elke datum- en datum/tijd-waarde en wordt iedere component in een eigen kolom geïsoleerd. De onderstaande tabel toont de automatisch ontwikkelde kenmerken die door AutoML kunnen worden gegeneerd.
Automatisch gegenereerd kenmerk | Gegevenstype | Kenmerktype | Beschrijving |
YEAR | Geheel getal | Numeriek | Het veld Year wordt rechtstreeks vanuit de brondatum of -tijdstempel geparseerd. |
MONTH | Geheel getal | Numeriek | Het veld Month wordt rechtstreeks vanuit de brondatum of -tijdstempel geparseerd. |
DAY | Geheel getal | Numeriek | Het veld Day wordt rechtstreeks vanuit de brondatum of -tijdstempel geparseerd. |
HOUR | Geheel getal | Numeriek | Het veld Hour wordt rechtstreeks vanuit de brontijdstempel geparseerd. |
MINUTE | Geheel getal | Numeriek | Het veld Minute wordt rechtstreeks vanuit de brontijdstempel geparseerd. |
SECOND | Geheel getal | Numeriek | Het veld Second wordt rechtstreeks vanuit de brontijdstempel geparseerd. |
DAYOFWEEK | Geheel getal | Numeriek | Het veld Day of the week wordt berekend op basis van de brondag, de bronmaand en het bronjaar. |
WEEK | Geheel getal | Numeriek | Het veld Week of the year wordt berekend op basis van de brondag, de bronmaand en het bronjaar. |
Voor elk nieuw kenmerk dat wordt gemaakt, krijgt de oorspronkelijke kolomnaam een suffix met het van toepassing zijnde, automatisch ontwikkelde kenmerk.
Automatisch ontwikkelde datumkenmerken in voorspellingen
Automatisch ontwikkelde datumkenmerken worden gegenereerd wanneer de trainingsgegevensverzameling wordt gebruikt om een model te maken, dat wordt geïmplementeerd en gebruikt als een ML-implementatie om voorspellingen te doen over nieuwe gegevens (de toegepaste gegevensverzameling).
Wanneer een model dat is getraind op basis van automatisch ontwikkelde datumkenmerken, wordt geïmplementeerd voor het doen van voorspellingen, hoeft de toegepaste gegevensverzameling waarmee u voorspellingen genereert de automatisch ontwikkelde datumkenmerken niet te bevatten. AutoML genereert de automatisch ontwikkelde kenmerken voor de toepasselijke gegevensverzameling voorafgaand aan de voorspelling. Maar de toegepaste gegevensverzameling moet het bovenliggende datumkenmerk bevatten en er moet zijn vastgesteld dat de kolom van het type datum, datum/tijd, tijdstempel of tijd is.
De gegevensverzamelingen voor voorspelling die zijn gemaakt door een ML-implementatie, waaronder SHAP en toegepaste gegevensverzamelingen, omvatten de automatisch ontwikkelde datumkenmerken.
Automatisch ontwikkelde datumkenmerken in realtime voorspellingen
De API voor realtime voorspellingen kan uw datum- en tijdstempelvelden pas verwerken als de JSON-nettolading die u naar de API voor realtime voorspellingen stuurt aan de volgende vereisten voldoet:
-
Datum- en datum/tijd-waarden moeten tekenreeksen zijn die zijn opgemaakt overeenkomstig ISO 8601-standaarden
-
Datums in iedere kolom moeten dezelfde tijdzone hebben
Hantering van vrijetekstgegevens
Voor vrije tekst (bijvoorbeeld tekenreeksgegevens in tekstvorm die in formulieren zijn ingevoerd) is een speciale verwerking vereist om machinelearning-algoritmen toe te passen op een model. In Qlik AutoML is de verwerking van vrije tekst een vorm van automatische kenmerkontwikkeling. Technisch gezien wordt bij deze verwerking de methode TF-IDF (term frequency - inverse document frequency) gebruikt.
AutoML ondersteunt de afzonderlijke verwerking van kenmerken met vrijetekstgegevens in het Engels.
Als een kolom in uw trainingsgegevens vrije tekst bevat, wordt hieraan het kenmerktype Vrije tekst toegewezen. Het kan ook als een categorisch kenmerk worden gebruikt, al wordt dit sterk afgeraden bij hoge cardinaliteit (te veel unieke waarden).
U kunt maximaal drie kolommen selecteren om te gebruiken als vrijetekstkenmerken in een experiment.
Vereiste voor vrijetekstcodering
Om een kolom met vrije tekst succesvol te coderen als vrije tekst, moet deze kolom aan twee vereisten voldoen. Deze vereisten worden gecontroleerd gedurende twee verschillende fasen van het maken van het experiment.
De vereisten zijn:
-
De kolom moet een gemiddelde tekenlengte van vijftig of meer tekens hebben.
-
De kolom moet een gemiddelde woordlengte van vijf of meer woorden hebben.
Een kenmerk als vrije tekst behandelen
Het proces voor het behandelen van een kenmerk als vrije tekst is als volgt:
-
Bij het selecteren van uw trainingsgegevens identificeert Qlik AutoML kenmerken die mogelijk als vrije tekst verwerkt kunnen worden. Ze worden gemarkeerd met het inzicht Mogelijke vrije tekst in de schemaweergave en ze beschikken over het kenmerktype Vrije tekst.
-
Nadat u v1 van het experiment hebt uitgevoerd, wordt een aanvullende analyse voltooid. Vanaf dit punt zijn kenmerken die eerder als mogelijke vrije tekst zijn gemarkeerd mogelijk niet bruikbaar als vrijetekstkenmerken.
Als de kenmerken die niet bruikbaar zijn een hoge cardinaliteit hebben, wordt aanbevolen om deze kenmerken te deselecteren van het experiment. Deze kenmerken voegen geen waarde toe aan de prestaties van het model als ze categorisch worden behandeld.
Als de kenmerken die niet bruikbaar zijn als vrije tekst geen hoge cardinaliteit hebben, kunt u ze opnemen in uw experiment. Klik hiervoor op Behandelen als categorisch of door het kenmerktype te wijzigen van Vrije tekst in Categorisch. Als u het kenmerktype als Vrije tekst laat staan, wordt dit intern als categorisch behandeld en wordt impact encoding toegepast.
Voor meer informatie over voorbewerking gaat u naar Geautomatiseerde voorbereiding en transformatie.
Raadpleeg Inzichten over de trainingsgegevens weergeven voor meer informatie over elk van de inzichten die in de schemaweergave worden getoond.
Vrijetekstkenmerk gebruiken als het doel van het experiment
In zeldzame gevallen kunt u een vrijetekstkenmerk als doel selecteren. Als het kenmerk voldoet aan alle vereisten voor codering van vrije tekst, en tussen twee en tien unieke waarden bevat, kan het als doel worden gebruikt. In deze scenario's wordt het experiment gedefinieerd als een standaard binaire classificatie of multiclass-classificatieprobleem.
Vrijetekstkenmerken in voorspellingen
Als u een model implementeert dat met een vrijetekstkenmerk is getraind, kan de resulterende ML-implementatie voorspellingen genereren zolang er aan de volgende vereisten is voldaan voor de toe te passen gegevensverzameling:
-
De kolomnamen van het kenmerk komen overeen met de gegevensverzameling van de training en de toe te passen gegevensverzameling.
-
De kolom in de toegepaste gegevensverzameling, die overeenkomt met het vrijetekstkenmerk in de trainingsgegevens, bevat tekenreeksgegevens.
Overwegingen
Door vrije-tekstkenmerken toe te voegen aan uw experiment, wordt de complexiteit vergroot van het experiment en de processen die nodig zijn om dit experiment uit te voeren. Het is mogelijk dat Permutation importance-diagrammen niet beschikbaar zijn voor de resulterende modellen als uw vrijetekstgegevens complex genoeg zijn.
Problemen oplossen
Het gebruik van vrijetekstgegevens om een model te trainen kan een proces zijn waarbij veel hulpbronnen worden gebruikt. Er treedt mogelijk een fout op als u vrijetekstkolommen met grote aantallen unieke woorden als kenmerken opneemt.
Hier volgen enkele richtlijnen om deze problemen op te lossen:
-
Verlaag het aantal rijen met vrije tekst in de gegevens-subset van uw trainingsgegevensverzameling.
-
Verwijder vrijetekstkenmerken die u niet in uw modeltraining nodig hebt.
-
Behandel één of meer vrijetekstkolommen als categorische kenmerken, in plaats van als vrije tekst. Dit wordt echter niet aanbeolen als de vrijetekstkenmerken een hoge cardinaliteit hebben.