Tworzenie nowych kolumn cech
Inżynieria cech to proces tworzenia nowych kolumn cech z bieżących. Może ona pomóc w uzyskaniu dodatkowego potencjału predykcyjnego z danych źródłowych zebranych w celu udzielenia odpowiedzi na pytanie biznesowe.
Na przykład adres klienta zostałby wykluczony z danych do uczenia ze względu na dużą kardynalność. Zamiast używać adresu, moglibyśmy zastosować inżynierię cech do utworzenia kolumny odległości. Znając adres klienta oraz różne lokalizacje sklepów, można obliczyć odległości do sklepów. Nowe kolumny będą miały wartość liczbową, której można użyć do odkrycia mierzalnych wzorców w danych.
Możesz przeprowadzić inżynierię cech na swoim zestawie danych w ramach przygotowań do użycia w AutoML. Dodatkowo AutoML sugeruje nowe cechy, które mogą być generowane automatycznie z istniejących cech.
Przejrzyj cechy w swoim zestawie danych, aby ustalić możliwe problemy lub ulepszenia do wprowadzenia. Dobra inżynieria cech wymaga umiejętności i doświadczenia biznesowego. Cechy powinny być wyrażane w sposób bezpośrednio powiązany z kolumną celu.
Co należy wziąć pod uwagę:
-
Czy czas powinien być uwzględniany w cesze?
-
Czy ma znaczenie tempo zmian?
-
Czy należy znormalizować cechę, aby uwzględniać różnice między podzestawami danych?
-
Czy wartości null coś oznaczają?
Cechy poddane automatycznej inżynierii
Dzięki automatycznej inżynierii nowe cechy są automatycznie tworzone na podstawie już istniejących.
AutoML generuje cechy poddane inżynierii automatycznej na podstawie kolumn zawierających informacje o dacie i godzinie. Te nowe cechy rozdzielają każdy składnik wartości kolumn na osobne cechy.
Ponadto w przypadku kolumn zawierających dowolny tekst można zastosować specjalne przetwarzanie. Oryginalne cechy typu dowolny tekst są przekształcane w nowe cechy w celu usprawnienia uczenia modeli.
Cechy poddane inżynierii automatycznej poprawiają wartość predykcyjną i analityczną modeli podczas ich uczenia. Więcej informacji zawiera temat Automatyczna inżynieria cech.
Przykłady: inżynieria cech
Skorzystaj z poniższych przykładów, aby rozpocząć burzę mózgów na temat inżynierii cech, które mogą ulepszyć predykcyjny charakter danych.
Czy szansa na sprzedaż zostanie wykorzystana?
Kolumna celu określa, czy szansa sprzedaży została wykorzystana (Tak lub Nie).
-
Pierwotna cecha: liczba spotkań
-
Alternatywne cechy: liczba spotkań w miesiącu lub liczba spotkań na danym etapie
Przekształcenie miary na częstotliwość spotkań umożliwia lepsze uwzględnienie zmian. Mierzenie spotkań na określonym etapie procesu sprzedaży lepiej oddaje dynamikę sprzedaży i umożliwia uwzględnienie cyklu.
Predykcja kwoty przyszłej transakcji
Kolumna celu to kwota następnej transakcji.
-
Pierwotna cecha: kwota ostatniego zamówienia
-
Alternatywne cechy: średnia kwota zamówienia lub procentowa zmiana kwoty zamówienia
Średnia kwota daje szerszy obraz zachowania związanego ze składaniem zamówień. Zmiana wzorca zakupów zapewnia znormalizowaną wartość.
Czy klient odejdzie?
Kolumna celu określa, czy klient odejdzie (Tak czy Nie).
-
Pierwotna cecha: nastawienie klienta
-
Alternatywne cechy: zmiana nastawienia klienta lub liczba dni z obecnym nastawieniem
Mierzenie zmiany nastawienia z większym prawdopodobieństwem doprowadzi do działania. Liczba dni określa czas trwania obecnego stanu.
Czy pracownik dobrowolnie odejdzie?
Kolumna celu wskazuje, czy pracownik zrezygnuje z pracy (Tak lub Nie).
-
Pierwotna cecha: wynagrodzenie
-
Alternatywne cechy: wynagrodzenie w porównaniu do osób na tym samym stanowisku lub w porównaniu do średniej w branży
Porównanie wynagrodzenia z osobami na tym samym stanowisku lepiej pasuje do doświadczenia lub nastawienia pracownika. Porównanie ze średnim wynagrodzeniem w branży lepiej odpowiada kosztowi alternatywnemu pracownika.
Czy nastąpi konwersja leada na szansę sprzedaży?
Kolumna celu określa, czy lead dokonuje konwersji (Tak lub Nie).
-
Pierwotna cecha: jak udało Ci się nas znaleźć?
-
Alternatywne cechy: odpowiedziano (Tak lub Nie)
W tym przypadku liczy się działanie, a nie jaka była odpowiedź. Zauważ, że w tym przypadku wartości null oznaczają coś konkretnego: brak działania.
Daty
Dzięki funkcji inżynierii automatycznej cech AutoML składniki dat i znaczników czasu są automatycznie analizowane w oddzielnych kolumnach.
Użyć można też wielu sposobów inżynierii dat, aby utworzyć kilka cech w jednym zestawie danych, na przykład:
-
Połącz daty w sezony, kwartały lub semestry.
-
Oblicz różnicę między datami, na przykład liczbę dni od ostatniego zakupu.