Procesor Próbka
Zachowuje tylko pierwsze wiersze lub losowy podzbiór wierszy.
Procesor Próbka umożliwia wybranie określonej liczby lub procentu rekordów z przepływu wejściowego, dzięki czemu próbka danych będzie bardziej reprezentatywna dla całego zbioru danych.
Użycie
-
Procesor Próbka wymaga jednego przepływu wejściowego i może generować tylko jeden przepływ wyjściowy.
-
Użycie tego procesora spowoduje cofnięcie sortowania danych, jeśli w przepływie wejściowym użyto procesora Sortuj.
Właściwości
Właściwości do skonfigurowania w celu wybrania podzbioru rekordów z danych wejściowych.
| Właściwość | Konfiguracja |
|---|---|
| Metoda próbkowania |
Wybierz, czy chcesz wyodrębnić stałą liczbę wierszy, czy procent wszystkich wierszy z przepływu wejściowego:
|
| Liczba wierszy do wyodrębnienia | Wprowadź liczbę wierszy do zachowania. |
| Współczynnik próbkowania (%) | Wprowadź procent wierszy do zachowania. |
| Pole warstwy | Z listy rozwijanej wybierz pole, które ma być użyte jako warstwa. |
Aby zmienić nazwę procesora lub edytować jego opis, wskaż kursorem myszy nazwę lub opis do zmiany w panelu Właściwości i kliknij ikonę Edytuj.
Przykład
W tym przykładzie pracujesz na zbiorze danych zawierającym informacje o transakcjach sprzedaży z trzech regionów: East, West i Central.
Obecnie próbka zawiera 20 wierszy, ale chcesz zmniejszyć jej rozmiar, jednocześnie dbając o to, by każdy region był równomiernie reprezentowany w próbkowanych danych. Użyjesz procesora Próbka, aby zmienić rozmiar próbki.
We właściwościach procesora wybierz Losowe próbkowanie warstwowe jako metodę próbkowania, ustaw Współczynnik próbkowania (%) na 50 i wybierz Region jako pole warstwy.
Ustawienie próbkowania warstwowego na 50% oznacza, że próbka będzie zawierać około połowy wierszy z każdego regionu po zaokrągleniu.
W wynikach procesora próbka zawiera teraz tylko około połowy wierszy oryginalnego zestawu, zachowując jednocześnie ten sam rozkład regionów.