Automatische Datenvorbereitung und -umwandlung
Der Datensatz, den Sie für Ihr Experiment ausgewählt haben, wird automatisch vorverarbeitet, um ihn auf Modelltraining vorzubereiten. Zu den Vorverarbeitungsschritten gehört Datenvorbereitung und -umwandlung. Das erhöht die Datenqualität, damit Sie ein Modell erhalten, das genaue Ergebnisse erbringt.
Für die Vorverarbeitung der Daten werden verschiedene Data Science-Techniken verwendet. Die meisten Schritte werden standardmäßig durchgeführt und funktionieren in den meisten Anwendungsfällen gut. Wenn Sie diese Standardschritte und die zugrunde liegenden Konzepte kennen, können Sie besser verstehen, was Sie mit den Daten für Ihren spezifischen Anwendungsfall tun müssen, bevor Sie sie zum Trainieren eines Modells verwenden können.
Experimentaufbau
Bevor die Vorverarbeitung beginnt, führt AutoML verschiedene Vorbereitungsschritte durch und bietet eine Vorschau davon, wie Ihre Daten verarbeitet werden. Es gelten folgende Schritte:
-
Klassifizieren Sie Spalten im Datensatz als Feature-Typ „kategorial“, „numerisch“, „Datum“ oder „Freitext“.
-
Die Datentypen „float“, „double“ und „decimal“ werden immer als numerisch betrachtet.
-
Spalten mit einem String-Datentyp, die im Durchschnitt weniger als 50 Zeichen enthalten, werden als kategorial klassifiziert.
-
Spalten mit einem String-Datentyp, die im Durchschnitt 50 oder mehr Zeichen enthalten, werden als Freitext klassifiziert. Zu diesem Zeitpunkt ist aber nicht garantiert, dass die Spalten als Freitext-Features verwendbar sind. Zusätzliche Anforderungen werden während der Vorverarbeitung geprüft. Weitere Informationen finden Sie unter Vorverarbeitungsschritte.
-
„integer“-Datentypen werden immer als numerisch betrachtet.
-
„date“- und „timestamp“-Datentypen werden immer als Datums-Feature-Typ betrachtet. Während des Experimentaufbaus erstellt AutoML eine Vorschau der automatisch erstellten Features, die möglicherweise vom übergeordneten Datums-Feature abgeleitet werden können.
-
-
Überprüfen Sie jede Spalte auf geringe Datendichte, Konstanten und hohe Kardinalität. Schließen Sie die Spalte in folgenden Fällen aus:
-
Die Spalte enthält 50 Prozent oder mehr Nullwerte. Wenn Datensätze gelöscht werden, die einen Nullwert für ein Feature enthalten, kann es vorkommen, dass anderweitig nützliche Trainingsbeispiele verworfen werden. Wenn dagegen Werte imputiert werden, bleibt das Beispiel erhalten, aber der Datensatz ist nur noch eine Annäherung der Realität. Daher ist es oft besser, Features mit einer hohen Anzahl (über 50 Prozent) von Nullwerten auszuschließen. Beachten Sie, dass 0 nie als Nullwert betrachtet wird.
-
Die Spalte hat denselben Wert in jeder Zeile (Konstante). Anders ausgedrückt, hat die Spalte eine geringe Kardinalität. Features mit nur einem einzigen Wert haben keinen Vorhersagewert.
-
Die Spalte ist kategorial und enthält 90 Prozent oder mehr eindeutige Werte (hohe Kardinalität). Bei zu vielen eindeutigen Werten ist es für das Modell schwer, über den Trainingsdatensatz hinaus zu generalisieren.
-
Es können Anpassungen vorgenommen werden, wie die Daten verarbeitet werden sollen, nachdem die Vorverarbeitung begonnen hat.
Vorverarbeitungsschritte
Nachdem Sie eine Zielspalte ausgewählt haben, werden die Zeilen identifiziert und entfernt, deren Zielwert Null ist. Die Zeilen, deren Ziel bekannt ist, bleiben als Trainingsdatensatz zurück. Nur Daten aus dem Trainingsdatensatz werden in den folgenden Schritten zum Treffen von Entscheidungen verwendet. Die Schritte werden zusammen mit den Metadaten gespeichert und auf alle neuen Daten für das Modell angewendet, um Vorhersagen zu treffen.
Die Vorverarbeitung wird für eingeschlossene Features durchgeführt, sooft Sie eine neue Experimentversion ausführen.
-
Berechnen und speichern Sie das Mittel für numerische Werte und den Modus für kategoriale Werte.
-
Imputieren Sie fehlende Werte. Weitere Informationen finden Sie unter Imputation von Nullwerten.
-
Codieren Sie kategoriale Variablen.
-
Erzeugen Sie neue Features aus bestehenden Spalten im Datensatz. Diese neuen, automatisch erstellten Features können die Leistung und Prognosegenauigkeit der Modelle verbessern, die Sie erstellen.
Als möglicher Freitext identifizierte Spalten werden auf ihre durchschnittliche Wortlänge geprüft. Wenn die Spalte eine durchschnittliche Wortlänge von mehr als fünf Wörtern enthält, kann sie mit Feature Engineering als Freitext-Feature codiert werden. Andernfalls wird eine Warnung angezeigt. Wenn sie nicht als Freitext verwendbar ist, sollte das Feature abgewählt werden, wenn es eine hohe Kardinalität aufweist.
-
Berechnen und speichern Sie Zusammenfassungsstatistiken für jede Spalte, um sie für die Featureskalierung zu verwenden.
-
Standardisieren Sie jede Spalte mit Featureskalierung.
-
Verwenden Sie automatisches Holdout von Trainingsdaten und fünffache Kreuzvalidierung. Weitere Informationen finden Sie unter Holdout-Daten und Kreuzvalidierung.