Geautomatiseerde voorbereiding en transformatie
De gegevensverzameling die u hebt geselecteerd voor uw experiment wordt automatisch voorbewerkt voor modeltraining. De voorbewerkingsstappen omvatten voorbereiding en transformatie van gegevens. Dit verhoogt de kwaliteit van de gegevens om een model te genereren dat nauwkeurige resultaten oplevert.
Er worden verschillende gegevenswetenschapstechnieken gebruikt om de gegevens voor te bewerken. De meeste stappen worden standaard uitgevoerd en werken in de meeste use cases prima. Als u weet wat deze standaardstappen zijn en u de achterliggende concepten begrijpt, weet u ook wat u voor uw specifieke use case met de gegevens moet doen, voordat u ze gebruikt om een model te trainen.
Experimentset-up
Voordat de voorverwerking begint, voert AutoML verschillende voorbereidende stappen uit en biedt het een voorbeeld van hoe uw gegevens zullen worden verwerkt. De volgende stappen worden toegepast:
-
Classificeer kolommen in de gegevensverzameling met het kenmerktype Categorisch, Numeriek, Datum of Vrije tekst.
-
De gegevenstypen float, dubbel en decimaal worden altijd behandeld als numeriek.
-
Kolommen met het gegevenstype Tekenreeks, die gemiddeld 50 of minder tekens bevatten, worden als Categorisch geclassificeerd.
-
Kolommen met het gegevenstype Tekenreeks, die gemiddeld 50 of meer tekens bevatten, worden als Vrije tekst geclassificeerd. In deze fase kan niet gegarandeerd worden dat u deze kolommen kunt gebruiken als vrijetekstkenmerken. Tijdens de voorbewerking worden aanvullende vereisten gecontroleerd. Zie: Voorbewerkingsstappen.
-
Gegevenstypen met geheel getal worden altijd beschouwd als numeriek.
-
De gegevenstypen datum en tijdstempel worden altijd beschouwd als het datumgegevenstype. Tijdens de experimentset-up geeft AutoML een voorbeeld weer van de automatisch ontwikkelde kenmerken die zouden kunnen worden afgeleid van het bovenliggende datumkenmerk.
-
-
Controleer iedere kolom op schaarsheid, beperkingen en hoge kardinaliteit. Sluit de kolom uit als:
-
De kolom 50 procent of meer null-waarden bevat. Als u records met een null-waarde voor een kenmerk verwijdert, kan het zijn dat er ook andere, nuttige trainingsvoorbeelden worden verwijderd. Het alternatief is imputatie van waarden om het voorbeeld te redden, maar de record is dan een benadering van de werkelijkheid. Daarom is het vaak beter om kenmerken met een hoog aantal null-waarden (meer dan 50 procent) uit te sluiten. Opmerking: 0 wordt nooit beschouwd als een null-waarde.
-
De kolom heeft dezelfde waarde in iedere rij (constant). Met andere woorden: de kolom heeft lage kardinaliteit. Kenmerken met slechts één waarde hebben geen voorspellende waarde.
-
De kolom is categorisch en heeft 90 procent of meer unieke waarden (hoge kardinaliteit). Te veel unieke waarden maakt het moeilijk voor het model om te generaliseren voor gegevens buiten de gegevensverzameling voor training.
-
Hoe de gegevens worden verwerkt nadat de voorverwerking is begonnen, kan worden aangepast.
Voorbewerkingsstappen
Nadat u een doelkolom hebt geselecteerd, worden rijen waarin de doelwaarde null is, geïdentificeerd en apart gehouden. Zo blijven er alleen rijen over met een bekend doel als de trainingsverzameling. Alleen gegevens uit de gegevensverzameling voor training worden gebruikt om de beslissingen in de volgende stappen te maken. De stappen en de metadata worden opgeslagen en toegepast op nieuwe gegevens waarvoor het model voorspellingen moet maken.
De voorbewerking wordt uitgevoerd voor opgenomen kenmerken als u een nieuwe experimentversie uitvoert.
-
Bereken het gemiddelde voor numerieke waarden en de modus voor categorische waarden en sla ze op.
-
Vul ontbrekende waarden in.Ga voor meer informatie naar Imputatie van null-waarden.
-
Codeer categorische waarden.
-
Genereer nieuwe kenmerken vanuit bestaande kolommen in de gegevensverzameling. Deze nieuwe automatisch ontwikkelde kenmerken kunnen de prestaties en de voorspellende capaciteit van de modellen die u maakt verbeteren.
Bij kolommen die zijn geïdentificeerd als mogelijke vrije tekst wordt de gemiddelde woordlengte gecontroleerd. Als de kolom een gemiddelde woordlengte van meer dan vijf woorden heeft, kan het met behulp van automatische kenmerkontwikkeling als vrijetekstkenmerk worden gecodeerd. Is dit niet het geval, wordt er een waarschuwing getoond. Als het kenmerk niet als vrije tekst kan worden gebruikt en een hoge cardinaliteit heeft, moet het gedeselecteerd worden.
-
Bereken de samenvattende statistieken en sla ze op voor iedere kolom die moet worden gebruikt voor het schalen van kenmerken.
-
Standaardiseer iedere kolom met kenmerkschaal.
-
Gebruik automatische afscheiding van evaluatiegegevens voor training (holdout) en kruisvalidatie met vijf folds.Ga voor meer informatie naar Evaluatiegegevens en kruisvalidatie.