Kodowanie kategorialne
Większość algorytmów uczenia maszynowego wymaga, aby zmienne były liczbowe. Ponieważ wartość kategorialna nie ma wyraźnie mierzalnej relacji z innymi wartościami w tej samej kolumnie, musi najpierw zostać przekonwertowana na reprezentację liczbową, która ma być mierzona matematycznie. AutoML używa kodowania kategorialnego do przekształcania wartości kategorialnych w kolumnach cech na wartości liczbowe zrozumiałe dla algorytmów uczenia maszynowego.
AutoML wykorzystuje dwie metody kodowania: impact encoding i one-hot encoding. Metoda zastosowana w przypadku określonej cechy zależy od rozmiaru zestawu danych i liczby unikatowych wartości kategorialnych.
-
W przypadku zestawów danych zawierających maksymalnie 100 kolumn:
-
Cechy kategorialne z maksymalnie 13 unikatowymi wartościami są kodowane przy użyciu one-hot encoding.
-
Cechy kategorialne z ponad 13 unikatowymi wartościami są kodowane przy użyciu impact encoding.
-
-
W przypadku zestawów danych zawierających więcej niż 100 kolumn wszystkie kolumny kategorialne są kodowane przy użyciu impact encoding.
Aby sprawdzić, które cechy w zestawie danych są przetwarzane przy użyciu kodowania kategorialnego, wyświetl widok schematu podczas konfigurowania eksperymentu uczenia maszynowego. Więcej informacji zawiera temat Konfigurowanie eksperymentów.
Jak działa kodowanie kategorialne
Powszechną techniką nadawania kategorii matematycznej reprezentacji jest kodowanie one-hot encoding. Kodowanie one-hot encoding przestawia kolumnę kategorialną, tworząc n kolumn, gdzie n jest równe liczbie unikatowych wartości w kolumnie. Liczba 1 jest przypisywana do odpowiedniej kolumny dla każdego wiersza, a 0 do pozostałych kolumn, które zostały wygenerowane dla kategorii. Kodowanie kategorialne umożliwia ocenę każdej unikatowej zmiennej niezależnie od innych, w przeciwieństwie do wartości liczbowej, która jest oceniana w kategoriach względnych w stosunku do innych wartości w kolumnie.
Przykład w tabeli pokazuje, jak kolumna kategorialna MarketingSource została zakodowana metodą one-hot encoding. Rezultatem są cztery nowe kolumny — po jednej dla każdego unikatowego źródła danych marketingowych. W pierwszym wierszu Person_1 ma źródło danych marketingowych „Facebook”. Jest to reprezentowane przez 1 w nowej kolumnie Facebook i 0 w pozostałych kolumnach.