Stichproben-Prozessor
Behält nur die ersten Zeilen oder einen zufälligen Teilsatz der Zeilen bei.
Der Stichproben-Prozessor ermöglicht es Ihnen, eine bestimmte Anzahl oder einen Prozentsatz von Datensätzen aus Ihrem Eingabefluss auszuwählen und die Datenstichprobe repräsentativer für den gesamten Datensatz zu gestalten.
Nutzung
-
Der Stichproben-Prozessor benötigt einen Eingabefluss und kann nur einen Ausgabefluss generieren.
-
Die Verwendung dieses Prozessors hebt die Sortierung der Daten auf, wenn zuvor ein Sortieren-Prozessor im Eingabefluss verwendet wurde.
Eigenschaften
Zu konfigurierende Eigenschaften, um eine Teilmenge von Datensatzeinträgen aus der Eingabe auszuwählen.
| Eigenschaft | Konfiguration |
|---|---|
| Stichprobenmethode |
Wählen Sie aus, ob Sie eine feste Anzahl von Zeilen oder einen Prozentsatz der Gesamtzeilen aus dem Eingabefluss extrahieren möchten:
|
| Anzahl zu extrahierender Zeilen | Geben Sie die Anzahl der beizubehaltenden Zeilen ein. |
| Stichprobenanteil (%) | Geben Sie den Prozentsatz der beizubehaltenden Zeilen ein. |
| Schichtmerkmal | Wählen Sie aus der Dropdown-Liste das Feld aus, das als Schicht verwendet werden soll. |
Um den Prozessor umzubenennen oder seine Beschreibung zu bearbeiten, positionieren Sie den Mauszeiger über dem zu ändernden Namen oder der Beschreibung im Eigenschaftsfenster und klicken Sie auf das Symbol Bearbeiten .
Beispiel
In diesem Beispiel arbeiten Sie mit einem Datensatz, der Informationen zu Verkaufstransaktionen aus drei Regionen enthält: Ost, West und Mitte.
Derzeit enthält die Stichprobe 20 Zeilen, aber Sie möchten ihre Größe reduzieren und gleichzeitig sicherstellen, dass jede Region in den Stichprobendaten gleichmäßig vertreten ist. Sie verwenden den Stichproben-Prozessor, um die Größe der Stichprobe zu ändern.
Wählen Sie in den Prozessoreigenschaften Zufällige geschichtete Stichprobenziehung als Stichprobenmethode aus, legen Sie den Stichprobenanteil (%) auf 50 fest und wählen Sie Region als Schichtmerkmal aus.
Das Festlegen der geschichteten Stichprobenziehung auf 50 % bedeutet, dass die Stichprobe nach dem Runden ungefähr die Hälfte der Zeilen aus jeder Region enthält.
In der Ausgabe des Prozessors enthält die Stichprobe jetzt nur noch ungefähr die Hälfte der Zeilen des Originals, wobei die gleiche Verteilung über die Regionen hinweg beibehalten wird.