Przeskocz do zawartości głównej Przejdź do treści uzupełniającej

Procesor Próbka

Zachowuje tylko pierwsze wiersze lub losowy podzbiór wierszy.

Procesor Próbka umożliwia wybranie określonej liczby lub procentu rekordów z przepływu wejściowego, dzięki czemu próbka danych będzie bardziej reprezentatywna dla całego zbioru danych.

Użycie

  • Procesor Próbka wymaga jednego przepływu wejściowego i może generować tylko jeden przepływ wyjściowy.

  • Użycie tego procesora spowoduje cofnięcie sortowania danych, jeśli w przepływie wejściowym użyto procesora Sortuj.

Właściwości

Właściwości do skonfigurowania w celu wybrania podzbioru rekordów z danych wejściowych.

Konfiguracja
Właściwość Konfiguracja
Metoda próbkowania

Wybierz, czy chcesz wyodrębnić stałą liczbę wierszy, czy procent wszystkich wierszy z przepływu wejściowego:

  • Losowe wiersze: zachowuje procent wierszy z całego zestawu danych.

  • Pierwsze wiersze: zachowuje stałą liczbę wierszy, zaczynając od początku zestawu danych.

  • Stała liczba losowych wierszy: zachowuje losowo stałą liczbę wierszy z całego zestawu danych.

  • Losowe próbkowanie warstwowe: zachowuje wybrany procent wierszy dla każdej wartości pola warstwy.

    InformacjaZe względu na zaokrąglenie użycie tej metody może prowadzić do znaczących odchyleń od oczekiwanej całkowitej liczby wierszy, zwłaszcza przy wyborze małych warstw. Dodatkowo warstwy zawierające tylko jeden wiersz mogą w ogóle nie być reprezentowane w danych wyjściowych, jeśli procent wierszy do próbkowania jest niski.
Liczba wierszy do wyodrębnienia Wprowadź liczbę wierszy do zachowania.
Współczynnik próbkowania (%) Wprowadź procent wierszy do zachowania.
Pole warstwy Z listy rozwijanej wybierz pole, które ma być użyte jako warstwa.

Aby zmienić nazwę procesora lub edytować jego opis, wskaż kursorem myszy nazwę lub opis do zmiany w panelu Właściwości i kliknij ikonę Edytuj Edytuj.

Przykład

W tym przykładzie pracujesz na zbiorze danych zawierającym informacje o transakcjach sprzedaży z trzech regionów: East, West i Central.

Zestaw danych zawierający informacje o klientach

Obecnie próbka zawiera 20 wierszy, ale chcesz zmniejszyć jej rozmiar, jednocześnie dbając o to, by każdy region był równomiernie reprezentowany w próbkowanych danych. Użyjesz procesora Próbka, aby zmienić rozmiar próbki.

We właściwościach procesora wybierz Losowe próbkowanie warstwowe jako metodę próbkowania, ustaw Współczynnik próbkowania (%) na 50 i wybierz Region jako pole warstwy.

Ustawienie próbkowania warstwowego na 50% oznacza, że próbka będzie zawierać około połowy wierszy z każdego regionu po zaokrągleniu.

konfiguracja przepływu danych do próbkowania zbioru danych według regionu

W wynikach procesora próbka zawiera teraz tylko około połowy wierszy oryginalnego zestawu, zachowując jednocześnie ten sam rozkład regionów.

Czy ta strona była pomocna?

Jeżeli natkniesz się na problemy z tą stroną lub jej zawartością — literówkę, brakujący krok lub błąd techniczny — daj nam znać!