Geautomatiseerde voorbereiding en transformatie

De gegevensverzameling die u hebt geselecteerd voor uw experiment wordt automatisch voorbewerkt voor modeltraining. De voorbewerkingsstappen omvatten voorbereiding en transformatie van gegevens. Dit verhoogt de kwaliteit van de gegevens om een model te genereren dat nauwkeurige resultaten oplevert.

Er worden verschillende gegevenswetenschapstechnieken gebruikt om de gegevens voor te bewerken. De meeste stappen worden standaard uitgevoerd en werken in de meeste use cases prima. Als u weet wat deze standaardstappen zijn en u de achterliggende concepten begrijpt, weet u ook wat u voor uw specifieke use case met de gegevens moet doen, voordat u ze gebruikt om een model te trainen.

Experimentset-up

Voordat de voorverwerking begint, voert Qlik Predict verschillende voorbereidende stappen uit en biedt het een voorbeeld van hoe uw gegevens zullen worden verwerkt. Sommige stappen zijn afhankelijk van uw experimenttype en andere factoren. De volgende stappen kunnen van toepassing zijn:

Classificeer kolommen in de gegevensverzameling met het functietype Categorisch, Numeriek, Datum of Vrije tekst.
- De gegevenstypen float, dubbel en decimaal worden altijd behandeld als numeriek.
- Kolommen met het gegevenstype Tekenreeks, die gemiddeld 50 of minder tekens bevatten, worden als Categorisch geclassificeerd.
- Kolommen met het gegevenstype Tekenreeks, die gemiddeld 50 of meer tekens bevatten, worden als Vrije tekst geclassificeerd. In deze fase kan niet gegarandeerd worden dat u deze kolommen kunt gebruiken als vrijetekstfuncties. Tijdens de voorbewerking worden aanvullende vereisten gecontroleerd. Zie: Voorbewerkingsstappen.
- Gegevenstypen met geheel getal worden altijd beschouwd als numeriek.
- De gegevenstypen datum en tijdstempel worden altijd beschouwd als het datumgegevenstype. Tijdens de experimentset-up geeft Qlik Predict een voorbeeld weer van de automatisch ontwikkelde kenmerken die zouden kunnen worden afgeleid van het bovenliggende datumkenmerk.
Controleer iedere kolom op schaarsheid, beperkingen en hoge kardinaliteit. Sluit de kolom uit als:
- De kolom 50 procent of meer null-waarden bevat. Als u records met een null-waarde voor een functie verwijdert, kan het zijn dat er ook andere, nuttige trainingsvoorbeelden worden verwijderd. Het alternatief is imputatie van waarden om het voorbeeld te redden, maar de record is dan een benadering van de werkelijkheid. Daarom is het vaak beter om functies met een hoog aantal null-waarden (meer dan 50 procent) uit te sluiten. Opmerking: 0 wordt nooit beschouwd als een null-waarde.
- De kolom heeft dezelfde waarde in iedere rij (constant). Met andere woorden: de kolom heeft lage kardinaliteit. Kenmerken met slechts één waarde hebben geen voorspellende waarde.
- De kolom is categorisch en heeft 90 procent of meer unieke waarden (hoge kardinaliteit). Te veel unieke waarden maakt het moeilijk voor het model om te generaliseren voor gegevens buiten de gegevensverzameling voor training.

Hoe de gegevens worden verwerkt nadat de voorverwerking is begonnen, kan worden aangepast.

Voorbewerkingsstappen

Nadat u een doelkolom hebt geselecteerd, zijn de volgende stappen afhankelijk van het experimenttype. Voor classificatie- en regressie-experimenten worden rijen waarin de doelwaarde null is, geïdentificeerd en apart gehouden. Zo blijven er alleen rijen over met een bekend doel als de trainingsverzameling. Voor tijdreeks-experimenten worden ontbrekende doelwaarden geïnterpoleerd.

Alleen gegevens uit de gegevensverzameling voor training worden gebruikt om de beslissingen in de volgende stappen te maken. De stappen en de metadata worden opgeslagen en toegepast op nieuwe gegevens waarvoor het model voorspellingen moet maken.

De voorbewerking wordt uitgevoerd voor opgenomen functies als u een nieuwe experimentversie uitvoert. Sommige stappen zijn afhankelijk van uw experimenttype en andere factoren.

Bereken het gemiddelde voor numerieke waarden en de modus voor categorische waarden en sla ze op.
Vul ontbrekende waarden in. Ga voor meer informatie naar Imputatie van null-waarden.
Codeer categorische waarden.
Voor tijdreeksmodellen worden een aantal stappen uitgevoerd om door de gebruiker geconfigureerde experimenteigenschappen te valideren en om de gebruiker aanvullende informatie te verstrekken nadat de training is voltooid:
- Het maximale voorspellingsvenster wordt bepaald.
- De tijdstap van de datumindex wordt bevestigd.
- Door de gebruiker geselecteerde doelgroeperingen worden gevalideerd of, indien niet gespecificeerd, worden geïdentificeerd indien aanwezig uit de opgenomen categorische functies.
Genereer nieuwe functies vanuit bestaande kolommen in de gegevensverzameling. Deze nieuwe automatisch ontwikkelde kenmerken kunnen de prestaties en de voorspellende capaciteit van de modellen die u maakt verbeteren.

Bij kolommen die zijn geïdentificeerd als mogelijke vrije tekst wordt de gemiddelde woordlengte gecontroleerd. Als de kolom een gemiddelde woordlengte van meer dan vijf woorden heeft, kan het met behulp van automatische functieontwikkeling als vrijetekstfunctie worden gecodeerd. Is dit niet het geval, wordt er een waarschuwing getoond. Als het functie niet als vrije tekst kan worden gebruikt en een hoge cardinaliteit heeft, moet het gedeselecteerd worden.
Bereken de samenvattende statistieken en sla ze op voor iedere kolom die moet worden gebruikt voor het schalen van kenmerken.
Standaardiseer iedere kolom met functieschaal.
Voer analyse uit op functies die zijn geselecteerd voor biasdetectie, waarbij databiasstatistieken en bijbehorende inzichten worden geretourneerd. Ga voor meer informatie naar Bias detecteren in machine learning-modellen.
Gebruik automatische afscheiding van evaluatiegegevens voor training (holdout) en kruisvalidatie met vijf folds. Ga voor meer informatie naar Evaluatiegegevens en kruisvalidatie.
Bereken verschillende statistieken over de dataset met verhoogde zekerheid. Bijvoorbeeld, nieuwe informatie kan beschikbaar komen over de grootte van de dataset, rij- en celaantallen, en verhoudingen van null-waarden. Ga voor meer informatie naar Beperkingen voor trainingsdatasets en profilering.

Meer informatie

Automatische functieontwikkeling

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!

Geef hier uw feedback