Kodowanie kategorialne
Większość algorytmów uczenia maszynowego wymaga, aby zmienne były liczbowe. Ponieważ wartość kategorialna nie ma wyraźnie mierzalnej relacji z innymi wartościami w tej samej kolumnie, musi najpierw zostać przekonwertowana na reprezentację liczbową, która ma być mierzona matematycznie. Qlik Predict używa kodowania kategorialnego do przekształcania wartości kategorialnych w kolumnach cech na wartości liczbowe zrozumiałe dla algorytmów uczenia maszynowego.
Qlik Predict wykorzystuje dwie metody kodowania: impact encoding i one-hot encoding. Metoda zastosowana w przypadku określonej cechy zależy od rozmiaru zestawu danych i liczby unikatowych wartości kategorialnych.
Aby sprawdzić, które cechy w zestawie danych są przetwarzane przy użyciu kodowania kategorialnego, wyświetl widok schematu podczas konfigurowania eksperymentu uczenia maszynowego. Więcej informacji zawiera temat Konfigurowanie eksperymentów.
Jak działa kodowanie kategorialne
Powszechną techniką nadawania kategorii matematycznej reprezentacji jest kodowanie one-hot encoding. Kodowanie one-hot encoding przestawia kolumnę kategorialną, tworząc n kolumn, gdzie n jest równe liczbie unikatowych wartości w kolumnie. Liczba 1 jest przypisywana do odpowiedniej kolumny dla każdego wiersza, a 0 do pozostałych kolumn, które zostały wygenerowane dla kategorii. Kodowanie kategorialne umożliwia ocenę każdej unikatowej zmiennej niezależnie od innych, w przeciwieństwie do wartości liczbowej, która jest oceniana w kategoriach względnych w stosunku do innych wartości w kolumnie.
Przykład w tabeli pokazuje, jak kolumna kategorialna MarketingSource została zakodowana metodą one-hot encoding. Rezultatem są cztery nowe kolumny — po jednej dla każdego unikatowego źródła danych marketingowych. W pierwszym wierszu Person_1 ma źródło danych marketingowych „Facebook”. Jest to reprezentowane przez 1 w nowej kolumnie Facebook i 0 w pozostałych kolumnach.
Kodowanie kategorialne kolumny MarketingSource
