Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Automatyczne przygotowanie i przekształcanie danych

Zestaw danych wybrany do eksperymentu jest automatycznie przetwarzany wstępnie w celu przygotowania go do uczenia modelu. Etapy przetwarzania wstępnego obejmują przygotowanie i transformację danych. Zwiększa to jakość danych, dzięki czemu model może generować dokładne wyniki.

Do wstępnego przetwarzania danych stosuje się różne techniki nauki o danych. Większość kroków jest wykonywana domyślnie i dobrze sprawdza się w wielu przypadkach. Znajomość tych domyślnych kroków — oraz koncepcji, na których się opierają — może pomóc w zrozumieniu, co należy zrobić z danymi w konkretnym przypadku, zanim użyje się ich do uczenia modelu.

Informacje o krokach przetwarzania wstępnego są wyświetlane w panelu Konfiguracja eksperymentu

Sekcja przetwarzania wstępnego AutoML.

Konfiguracja eksperymentu

Przed rozpoczęciem przetwarzania wstępnego AutoML wykonuje kilka kroków przygotowawczych i oferuje podgląd sposobu postępowania z danymi. Stosowane są następujące kroki:

  1. Klasyfikacja kolumn w zestawie danych jako mających cechę typu kategorialnego, liczbowego, daty lub tekstu dowolnego.

    • Zmiennoprzecinkowe, podwójne i dziesiętne typy danych są zawsze uważane za liczbowe.

    • Kolumny z danymi typu ciąg, zawierające średnio mniej niż 50 znaków, są klasyfikowane jako kategorialne.

    • Kolumny z danymi typu ciąg, zawierające średnio 50 lub więcej znaków, są klasyfikowane jako dowolny tekst. Na tym etapie nie można jednak zagwarantować, że kolumny te nadadzą się do wykorzystania jako cechy typu dowolny tekst. Dodatkowe wymagania są sprawdzane podczas przetwarzania wstępnego. Zob. Kroki przetwarzania wstępnego.

    • Dane typu liczba całkowita są zawsze uważane za liczbowe.

    • Przyjmuje się, że typy danych daty i znacznika czasu zawsze mają typ cechy data. Podczas konfiguracji eksperymentu AutoML wyświetla podgląd cech poddanych inżynierii automatycznej, które można ewentualnie wyprowadzić z nadrzędnej cechy daty.

  2. Sprawdź każdą kolumnę pod kątem rzadkości, stałych i wysokiej kardynalności. Wyklucz kolumnę, jeśli:

    • Kolumna ma 50 procent lub więcej wartości null. Usunięcie rekordów zawierających wartość null dla cechy może prowadzić do usunięcia przydatnych przykładów do uczenia. Przykład może uratować imputacja wartości, ale rekord staje się jedynie przybliżeniem rzeczywistości. Dlatego często lepiej jest wykluczyć cechy z dużą liczbą (ponad 50 procent) wartości pustych. Zauważ, że 0 nigdy nie jest uważane za null.

    • Kolumna ma tę samą wartość w każdym wierszu (stałą). Innymi słowy, kolumna ma niską kardynalność. Cechy z tylko jedną wartością nie mają wartości predykcyjnej.

    • Kolumna jest kategorialna i zawiera co najmniej 90 procent lub więcej unikatowych wartości (wysoka kardynalność). Zbyt wiele unikatowych wartości utrudnia modelowi uogólnianie poza zestawem danych do uczenia.

Po rozpoczęciu przetwarzania wstępnego można wprowadzić zmiany w sposobie postępowania z danymi.

Kroki przetwarzania wstępnego

Po wybraniu kolumny docelowej identyfikowane i separowane są wiersze, w których wartość celu ma wartość null, a pozostawiane są wiersze, w których cel jest znany jako zestaw do uczenia. Do podejmowania decyzji w dalszych krokach wykorzystywane są wyłącznie dane z zestawu do uczenia. Kroki wraz z metadanymi zostaną zapisane i zastosowane do wszelkich nowych danych, na podstawie których model będzie mógł dokonywać predykcji.

Przetwarzanie wstępne jest przeprowadzane na uwzględnionych cechach za każdym razem, gdy uruchamia się nową wersję eksperymentu.

  1. Oblicz i zapisz średnią wartości liczbowych oraz dominantę dla wartości kategorialnych.

  2. Imputuj brakujące wartości. Więcej informacji zawiera temat Imputacja wartości null.

  3. Zakoduj zmienne kategorialne.

  4. Wygeneruj nowe funkcje na podstawie istniejących kolumn w zestawie danych. Te nowe cechy poddane inżynierii automatycznej mogą poprawić wydajność i możliwości predykcyjne tworzonych modeli.

    Kolumny zidentyfikowane jako możliwy dowolny tekst są sprawdzane pod kątem średniej długości w słowach. Jeśli kolumna ma średnią długość w słowach przekraczającą pięć słów, może zostać zakodowana jako cecha typu dowolny tekst przy użyciu automatycznej inżynierii cech. W przeciwnym razie wyświetli się ostrzeżenie. Jeśli cechy nie można używać jako dowolnego tekstu i ma wysoką kardynalność, należy ją odznaczyć.

  5. Oblicz i zapisz statystyki podsumowujące dla każdej kolumny, aby użyć ich do skalowania cech.

  6. Ustandaryzuj każdą kolumnę za pomocą skalowania cech.

  7. Użyj automatycznego wstrzymania danych do uczenia i pięciokrotnej walidacji krzyżowej. Więcej informacji zawiera temat Dane wstrzymania i walidacja krzyżowa.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać, co możemy poprawić!