Automatische functieontwikkeling
Met automatische functieontwikkeling kan Qlik Predict bestaande functies van uw trainingsgegevens gebruiken om nieuwe functies te maken. Deze nieuwe automatisch ontwikkelde functies stellen u in staat nieuwe patronen in uw gegevens te ontdekken en kunnen de prestatie van uw machine learning-modellen enorm verbeteren.
Functieontwikkeling is het proces waarbij nieuwe functiekolommen worden gemaakt vanuit bestaande kolommen. Qlik Predict kan automatisch functies ontwikkelen voor verbeterde afhandeling van bepaalde soorten gegevens. Voor algemene informatie over het ontwikkelen van functies, raadpleegt u Nieuwe functiekolommen maken.
Automatisch ontwikkelde gegevensfuncties en de bovenliggende functies waarvan ze zijn afgeleid, worden gemarkeerd met een -pictogram.
Nadat u een gegevensverzameling hebt geselecteerd voor gebruik in uw experiment, wordt de gegevensverzameling geanalyseerd en worden de kolommen erin geïdentificeerd als kolommen met een bepaald type gegevens. Deze gegevenstypen maken het voor Qlik Predict mogelijk om een functietype aan iedere kolom in de gegevensverzameling toe te wijzen. Aan iedere kolom wordt een van de volgende functietypen toegewezen:
-
Categorisch
-
Numeriek
-
Datum
-
Vrije tekst
Waar mogelijk geeft Qlik Predict een lijst met automatisch ontwikkelde functies weer die kunnen worden gemaakt vanuit geschikte bovenliggende functies. Deze lijst met automatisch ontwikkelde functies wordt verder verfijnd en verkleind wanneer de voorbewerking start. Automatisch ontwikkelde functies toevoegen aan uw experiment wordt aanbevolen maar is optioneel. U kunt afzonderlijke, automatisch ontwikkelde functies verwijderen voordat u de training start en wanneer u iedere nieuwe experimentversie configureert.
Voor meer informatie over de processen die worden uitgevoerd voordat de experimenttraining begint, raadpleegt u Geautomatiseerde voorbereiding en transformatie.
Ontwikkeling van datumfuncties
Qlik Predict genereert automatisch ontwikkelde functies vanuit daarvoor geschikte kolommen met het datumfunctietype, die zijn geïdentificeerd als kolommen met datum- en tijdinformatie. Automatisch ontwikkelde functies en de bovenliggende functies waarvan ze zijn afgeleid, worden gemarkeerd met een -pictogram.
Wanneer Qlik Cloud Analyse de trainingsgegevensverzameling profileert die u hebt geselecteerd voor gebruik in Qlik Predict, worden bepaalde gegevenstypen gekoppeld aan het datumfunctietype. Dit geldt tevens voor de volgende gegevenstypen:
-
Datum
-
Datum/tijd
-
Tijd
-
Tijdstempel
functies die aan een van deze gegevenstypen zijn toegewezen tijdens de profilering, krijgen dit gegevensfunctietype. Voor informatie over de beschikbare profielstatistieken die voor uw gegevensvelden kunnen worden bekeken, raadpleegt u Lijstweergave.
Waar mogelijk geeft Qlik Predict een lijst met automatisch ontwikkelde functies weer die kunnen worden gemaakt vanuit geschikte bovenliggende functies die het datumfunctietype hebben. Automatisch ontwikkelde datumfuncties zijn standaard onderdeel van het experiment. Als u ervoor kiest ze te gebruiken, worden de nieuwe functies na v1 van het experiment gegenereerd.
Automatisch ontwikkelde datumfuncties zijn van het numerieke functietype. Ze zijn standaard opgenomen in het experiment, maar zijn optioneel. U kunt er een paar of u kunt ze allemaal verwijderen voordat u begint met de experimenttraining of wanneer u de volgende experimentversie configureert. Wanneer de automatisch ontwikkelde datumfuncties worden opgenomen, wordt de oorspronkelijke, bovenliggende datumfunctie verwijderd uit het experiment.
In plaats daarvan kunt u de bovenliggende datumfunctie opnemen als een categorische of numerieke functie. Als u dit doet, zijn de automatisch ontworpen datumfuncties niet langer bruikbaar. In de meeste gevallen wordt aanbevolen om beschikbare, automatisch ontwikkelde functies in uw experiment te gebruiken, omdat uw machine learning-modellen daar beter mee presteren. Er kunnen zich echter scenario's voordoen waarbij een kolom wordt geïdentificeerd als een datumfunctie, maar u wilt dat deze als categorisch of numeriek wordt behandeld. In deze gevallen kunt u het functietype handmatig wijzigen.
Automatisch ontwikkelde datumfuncties worden niet meegerekend in de grootte van de Qlik Predict-gegevensverzameling (maximumaantal cellen in de trainingsgegevensverzamelingen en toegepaste gegevensverzamelingen) die is gespecificeerd in uw Qlik Cloud-abonnement. Alleen de oorspronkelijke datumkolomcellen worden meegerekend.
Schemaweergave toont automatisch ontwikkelde functies die kunnen worden gegeneerd vanuit een bovenliggend datumfunctie, 'Invoice Date'. Let op het verschil tussen het datumtype en het functietype van elke functie.

Datumfuncties gebruiken als het doel van het experiment
In het zeldzame geval dat u een functie met datum- en tijdinformatie wilt gebruiken als het doel van uw experiment, wordt het functietype van de kolom overgezet van datum naar categorisch en worden de automatisch ontwikkelde functies verwijderd. Als u nog een doel selecteert en later de datum- en tijdfunctie als normale functie wilt toevoegen, moet u het functietype zo nodig handmatig weer op het datumfunctietype instellen. Als u de functie weer op het datumfunctietype instelt, worden de automatisch ontwikkelde datumfuncties opnieuw gegenereerd.
Voor meer informatie over hoe u functietypen kunt wijzigen, raadpleegt u Functietypen wijzigen.
Beschikbare automatisch ontwikkelde functies
Wanneer er automatisch ontwikkelde datumfuncties worden gegenereerd op basis van een kolom in uw gegevensverzameling, extraheert en berekent Qlik Predict specifieke componenten van elke datum- en datum/tijd-waarde en wordt iedere component in een eigen kolom geïsoleerd. De onderstaande tabel toont de automatisch ontwikkelde functies die door Qlik Predict kunnen worden gegenereerd.
Automatisch gegenereerd functie | Gegevenstype | Functietype | Beschrijving |
---|---|---|---|
YEAR | Geheel getal | Numeriek | Het veld Year wordt rechtstreeks vanuit de brondatum of -tijdstempel geparseerd. |
MONTH | Geheel getal | Numeriek | Het veld Month wordt rechtstreeks vanuit de brondatum of -tijdstempel geparseerd. |
DAY | Geheel getal | Numeriek | Het veld Day wordt rechtstreeks vanuit de brondatum of -tijdstempel geparseerd. |
HOUR | Geheel getal | Numeriek | Het veld Hour wordt rechtstreeks vanuit de brontijdstempel geparseerd. |
MINUTE | Geheel getal | Numeriek | Het veld Minute wordt rechtstreeks vanuit de brontijdstempel geparseerd. |
SECOND | Geheel getal | Numeriek | Het veld Second wordt rechtstreeks vanuit de brontijdstempel geparseerd. |
DAYOFWEEK | Geheel getal | Numeriek | Het veld Day of the week wordt berekend op basis van de brondag, de bronmaand en het bronjaar. |
WEEK | Geheel getal | Numeriek | Het veld Week of the year wordt berekend op basis van de brondag, de bronmaand en het bronjaar. |
Voor elk nieuwe functie die wordt gemaakt, krijgt de oorspronkelijke kolomnaam een suffix met de van toepassing zijnde, automatisch ontwikkelde functie.
Automatisch ontwikkelde datumfuncties op het experimentconfiguratievenster

Automatisch ontwikkelde datumfuncties in voorspellingen
Automatisch ontwikkelde datumfuncties worden gegenereerd wanneer de trainingsgegevensverzameling wordt gebruikt om een model te maken, dat wordt geïmplementeerd en gebruikt als een ML-implementatie om voorspellingen te doen over nieuwe gegevens (de toegepaste gegevensverzameling).
Wanneer een model dat is getraind op basis van automatisch ontwikkelde datumfuncties, wordt geïmplementeerd voor het doen van voorspellingen, hoeft de toegepaste gegevensverzameling waarmee u voorspellingen genereert de automatisch ontwikkelde datumfuncties niet te bevatten. Qlik Predict genereert de automatisch ontwikkelde functies voor de toepasselijke gegevensverzameling voorafgaand aan de voorspelling. Maar de toegepaste gegevensverzameling moet de bovenliggende datumfunctie bevatten en er moet zijn vastgesteld dat de kolom van het type datum, datum/tijd, tijdstempel of tijd is.
De gegevensverzamelingen voor voorspelling die zijn gemaakt door een ML-implementatie, waaronder SHAP en toegepaste gegevensverzamelingen, omvatten de automatisch ontwikkelde datumfuncties.
Automatisch ontwikkelde datumfuncties in realtime voorspellingen
Om het eindpunt voor realtime voorspellingen in de Machine Learning API in staat te stellen om uw datum- en tijdstempelvelden te verwerken, moet de JSON-nettolading die u naar het eindpunt stuurt aan de volgende vereisten voldoen:
-
Datum- en datum/tijd-waarden moeten tekenreeksen zijn die zijn opgemaakt overeenkomstig ISO 8601-standaarden
-
Datums in iedere kolom moeten dezelfde tijdzone hebben
-
Datum- en datum/tijd-waarden moeten tekenreeksen zijn die zijn opgemaakt in overeenstemming met de ISO 8601-standaarden
-
Datums in iedere kolom moeten dezelfde tijdzone hebben
De API voor realtime voorspellingen is afgeschaft en vervangen door het eindpunt voor realtime voorspellingen in de Machine Learning API. De functionaliteit zelf wordt niet afgeschaft. Gebruik voor toekomstige realtime voorspellingen het eindpunt voor realtime voorspellingen in de Machine Learning API.
Hantering van vrijetekstgegevens
Voor vrije tekst (bijvoorbeeld tekenreeksgegevens in tekstvorm die in formulieren zijn ingevoerd) is een speciale verwerking vereist om machinelearning-algoritmen toe te passen op een model. In Qlik Predict is de verwerking van vrije tekst een vorm van automatische functie-ontwikkeling. Technisch gezien wordt bij deze verwerking de methode TF-IDF (term frequency - inverse document frequency) gebruikt.
Qlik Predict ondersteunt de afzonderlijke verwerking van functies met vrijetekstgegevens in het Engels.
Als een kolom in uw trainingsgegevens vrije tekst bevat, wordt hieraan het functietype Vrije tekst toegewezen. Het kan ook als een categorische functie worden gebruikt, al wordt dit sterk afgeraden bij hoge kardinaliteit (te veel unieke waarden).
U kunt maximaal drie kolommen selecteren om te gebruiken als vrijetekstfuncties in een experiment.
Vereiste voor vrijetekstcodering
Om een kolom met vrije tekst succesvol te coderen als vrije tekst, moet deze kolom aan twee vereisten voldoen. Deze vereisten worden gecontroleerd gedurende twee verschillende fasen van het maken van het experiment.
De vereisten zijn:
-
De kolom moet een gemiddelde tekenlengte van vijftig of meer tekens hebben.
-
De kolom moet een gemiddelde woordlengte van vijf of meer woorden hebben.
Een functie als vrije tekst behandelen
Het proces voor het behandelen van een functie als vrije tekst is als volgt:
-
Bij het selecteren van uw trainingsgegevens identificeert Qlik Predict functies die mogelijk als vrije tekst verwerkt kunnen worden. Ze worden gemarkeerd met het inzicht Mogelijke vrije tekst in de schemaweergave en ze beschikken over het functietype Vrije tekst.
-
Nadat u v1 van het experiment hebt uitgevoerd, wordt een aanvullende analyse voltooid. Vanaf dit punt zijn functies die eerder als mogelijke vrije tekst zijn gemarkeerd mogelijk niet bruikbaar als vrijetekstfuncties.
Als de functies die niet bruikbaar zijn een hoge cardinaliteit hebben, wordt aanbevolen om deze functies te deselecteren van het experiment. Deze functies voegen geen waarde toe aan de prestaties van het model als ze categorisch worden behandeld.
Als de functies die niet bruikbaar zijn als vrije tekst geen hoge cardinaliteit hebben, kunt u ze opnemen in uw experiment. Klik hiervoor op Behandelen als categorisch of door het functietype te wijzigen van Vrije tekst in Categorisch. Als u het functietype als Vrije tekst laat staan, wordt dit intern als categorisch behandeld en wordt impact encoding toegepast.
Voor meer informatie over voorbewerking gaat u naar Geautomatiseerde voorbereiding en transformatie.
Raadpleeg Inzichten over de trainingsgegevens weergeven voor meer informatie over elk van de inzichten die in de schemaweergave worden getoond.
Vrijetekstfunctie gebruiken als het doel van het experiment
In zeldzame gevallen kunt u een vrijetekstfunctie als doel selecteren. Als de functie voldoet aan alle vereisten voor codering van vrije tekst, en tussen twee en tien unieke waarden bevat, kan deze als doel worden gebruikt. In deze scenario's wordt het experiment gedefinieerd als een standaard binaire classificatie of multiclass-classificatieprobleem.
Vrijetekstfuncties in voorspellingen
Als u een model implementeert dat met een vrijetekstfunctie is getraind, kan de resulterende ML-implementatie voorspellingen genereren zolang er aan de volgende vereisten is voldaan voor de toegepaste gegevensverzameling:
-
De kolomnamen van het functie komen overeen met de gegevensverzameling van de training en de toegepaste gegevensverzameling.
-
De kolom in de toegepaste gegevensverzameling, die overeenkomt met de vrijetekstfunctie in de trainingsgegevens, bevat tekenreeksgegevens.
Overwegingen
Door vrije-tekstkenmerken toe te voegen aan uw experiment, wordt de complexiteit vergroot van het experiment en de processen die nodig zijn om dit experiment uit te voeren. Het is mogelijk dat Permutation importance-diagrammen niet beschikbaar zijn voor de resulterende modellen als uw vrijetekstgegevens complex genoeg zijn.
Problemen oplossen
Het gebruik van vrijetekstgegevens om een model te trainen kan een proces zijn waarbij veel hulpbronnen worden gebruikt. Er treedt mogelijk een fout op als u vrijetekstkolommen met grote aantallen unieke woorden als functies opneemt.
Hier volgen enkele richtlijnen om deze problemen op te lossen:
-
Verlaag het aantal rijen met vrije tekst in de gegevens-subset van uw trainingsgegevensverzameling.
-
Verwijder vrijetekstfuncties die u niet in uw modeltraining nodig hebt.
-
Behandel één of meer vrijetekstkolommen als categorische functies, in plaats van als vrije tekst. Dit wordt echter niet aanbevolen als de vrijetekstfuncties een hoge kardinaliteit hebben.