Kategoriale Codierung
Für die meisten Algorithmen für maschinelles Lernen müssen die Variablen numerisch sein. Da ein kategorialer Wert keine klar messbare Beziehung zu den anderen Werten in der gleichen Spalte hat, muss er zuerst in eine Zahlendarstellung konvertiert werden, um mathematisch gemessen werden zu können. AutoML verwendet kategoriale Codierung, um kategoriale Werte in Featurespalten in numerische Werte zu konvertieren, die von Algorithmen für maschinelles Lernen verstanden werden können.
AutoML verwendet zwei Codiermethoden: Impact Encoding und One-hot Encoding. Die für ein bestimmtes Feature verwendete Methode hängt von der Datensatzgröße und der Anzahl der eindeutigen kategorialen Werte ab.
-
Für Datensätze mit 100 oder weniger Spalten:
-
Für kategoriale Features mit 13 oder weniger eindeutigen Werten wird One-hot Encoding verwendet.
-
Für kategoriale Features mit mehr als 13 eindeutigen Werten wird Impact Encoding verwendet.
-
-
Für Datensätze mit mehr als 100 Spalten wird für alle kategorialen Spalten Impact Encoding verwendet.
In der Schemaansicht können Sie anzeigen, welche Features in Ihrem Datensatz anhand von kategorialer Codierung verarbeitet werden, während Sie Ihr ML-Experiment konfigurieren. Weitere Informationen finden Sie unter Konfigurieren von Experimenten.
Wie funktioniert kategoriale Codierung
Eine häufig verwendete Technik zur mathematischen Darstellung einer Kategorie ist One-hot Encoding. Mit One-hot Encoding wird die kategoriale Spalte in n Spalten pivotiert, wobei n der Anzahl der eindeutigen Werte in der Spalte entspricht. Die Zahl 1 wird der entsprechenden Spalte für jede Zeile zugewiesen, und 0 den anderen Spalten, die für die Kategorie erstellt wurden. Mit kategorialer Codierung kann jede eindeutige Variable unabhängig von den anderen ausgewertet werden, anders als ein numerischer Wert, der relativ zu den anderen Werten in der Spalte ausgewertet wird.
Das Beispiel in der Tabelle zeigt, wie auf die kategoriale Spalte „MarketingSource“ One-hot Encoding angewandt wurde. Das Ergebnis sind vier neue Spalten – eine für jede eindeutige Marketing-Quelle. In der ersten Zeile hat „Person_1“ die Marketing-Quelle „Facebook“. Dies wird durch 1 in der Spalte „Facebook“ und 0 in den anderen Spalten dargestellt.