Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Kodowanie kategorialne

Większość algorytmów uczenia maszynowego wymaga, aby zmienne były liczbowe. Ponieważ wartość kategorialna nie ma wyraźnie mierzalnej relacji z innymi wartościami w tej samej kolumnie, musi najpierw zostać przekonwertowana na reprezentację liczbową, która ma być mierzona matematycznie. Qlik Predict używa kodowania kategorialnego do przekształcania wartości kategorialnych w kolumnach cech na wartości liczbowe zrozumiałe dla algorytmów uczenia maszynowego.

Qlik Predict wykorzystuje trzy metody kodowania: impact encoding, one-hot encoding i ordinal encoding. Metoda zastosowana w przypadku określonej cechy zależy od charakterystyki danych, liczby unikatowych wartości kategorialnych i typu eksperymentu.

  • W przypadku problemów klasyfikacji i regresji:

    • W przypadku zestawów danych zawierających maksymalnie 100 kolumn:

      • Cechy kategorialne z maksymalnie 13 unikatowymi wartościami są kodowane przy użyciu one-hot encoding.

      • Cechy kategorialne z ponad 13 unikatowymi wartościami są kodowane przy użyciu impact encoding.

    • W przypadku zestawów danych zawierających więcej niż 100 kolumn wszystkie kolumny kategorialne są kodowane przy użyciu impact encoding.

  • W przypadku problemów szeregów czasowych kolumny kategorialne są kodowane przy użyciu kodowania porządkowego.

Aby sprawdzić, które cechy w zestawie danych są przetwarzane przy użyciu kodowania kategorialnego, wyświetl widok schematu podczas konfigurowania eksperymentu uczenia maszynowego. Więcej informacji zawiera temat Konfigurowanie eksperymentów.

Jak działa kodowanie kategorialne

Powszechną techniką nadawania kategorii matematycznej reprezentacji jest kodowanie one-hot encoding. Kodowanie one-hot encoding przestawia kolumnę kategorialną, tworząc n kolumn, gdzie n jest równe liczbie unikatowych wartości w kolumnie. Liczba 1 jest przypisywana do odpowiedniej kolumny dla każdego wiersza, a 0 do pozostałych kolumn, które zostały wygenerowane dla kategorii. Kodowanie kategorialne umożliwia ocenę każdej unikatowej zmiennej niezależnie od innych, w przeciwieństwie do wartości liczbowej, która jest oceniana w kategoriach względnych w stosunku do innych wartości w kolumnie.

Przykład w tabeli pokazuje, jak kolumna kategorialna MarketingSource została zakodowana metodą one-hot encoding. Rezultatem są cztery nowe kolumny — po jednej dla każdego unikatowego źródła danych marketingowych. W pierwszym wierszu Person_1 ma źródło danych marketingowych „Facebook”. Jest to reprezentowane przez 1 w nowej kolumnie Facebook i 0 w pozostałych kolumnach.

Kodowanie kategorialne kolumny MarketingSource

Tabela z danymi przykładowymi.
POWIĄZANE MATERIAŁY EDUKACYJNE:

Dowiedz się więcej

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!