Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Stichproben-Prozessor

Behält nur die ersten Zeilen oder einen zufälligen Teilsatz der Zeilen bei.

Der Stichproben-Prozessor ermöglicht es Ihnen, eine bestimmte Anzahl oder einen Prozentsatz von Datensätzen aus Ihrem Eingabefluss auszuwählen und die Datenstichprobe repräsentativer für den gesamten Datensatz zu gestalten.

Nutzung

  • Der Stichproben-Prozessor benötigt einen Eingabefluss und kann nur einen Ausgabefluss generieren.

  • Die Verwendung dieses Prozessors hebt die Sortierung der Daten auf, wenn zuvor ein Sortieren-Prozessor im Eingabefluss verwendet wurde.

Eigenschaften

Zu konfigurierende Eigenschaften, um eine Teilmenge von Datensatzeinträgen aus der Eingabe auszuwählen.

Konfiguration
Eigenschaft Konfiguration
Stichprobenmethode

Wählen Sie aus, ob Sie eine feste Anzahl von Zeilen oder einen Prozentsatz der Gesamtzeilen aus dem Eingabefluss extrahieren möchten:

  • Zufällige Zeilen: Behält einen Prozentsatz der Zeilen aus dem Datensatz bei.

  • Erste Zeilen: Behält eine feste Anzahl von Zeilen bei, beginnend am Anfang des Datensatzes.

  • Feste Anzahl zufälliger Zeilen: Behält eine feste Anzahl von zufällig aus dem Datensatz ausgewählten Zeilen bei.

  • Zufällige geschichtete Stichprobenziehung: Behält den gewählten Prozentsatz der Zeilen für jeden Wert des Schichtfeldes bei.

    InformationshinweisAufgrund von Rundungen kann die Verwendung dieser Methode zu erheblichen Abweichungen von der erwarteten Gesamtzahl der Zeilen führen, insbesondere bei der Auswahl kleiner Schichten. Zusätzlich werden Schichten mit nur einer Zeile möglicherweise überhaupt nicht in der Ausgabe dargestellt, wenn der Prozentsatz der Zeilen für die Stichprobe niedrig ist.
Anzahl zu extrahierender Zeilen Geben Sie die Anzahl der beizubehaltenden Zeilen ein.
Stichprobenanteil (%) Geben Sie den Prozentsatz der beizubehaltenden Zeilen ein.
Schichtmerkmal Wählen Sie aus der Dropdown-Liste das Feld aus, das als Schicht verwendet werden soll.

Um den Prozessor umzubenennen oder seine Beschreibung zu bearbeiten, positionieren Sie den Mauszeiger über dem zu ändernden Namen oder der Beschreibung im Eigenschaftsfenster und klicken Sie auf das Symbol Bearbeiten .

Beispiel

In diesem Beispiel arbeiten Sie mit einem Datensatz, der Informationen zu Verkaufstransaktionen aus drei Regionen enthält: Ost, West und Mitte.

Datensatz mit Kundeninformationen

Derzeit enthält die Stichprobe 20 Zeilen, aber Sie möchten ihre Größe reduzieren und gleichzeitig sicherstellen, dass jede Region in den Stichprobendaten gleichmäßig vertreten ist. Sie verwenden den Stichproben-Prozessor, um die Größe der Stichprobe zu ändern.

Wählen Sie in den Prozessoreigenschaften Zufällige geschichtete Stichprobenziehung als Stichprobenmethode aus, legen Sie den Stichprobenanteil (%) auf 50 fest und wählen Sie Region als Schichtmerkmal aus.

Das Festlegen der geschichteten Stichprobenziehung auf 50 % bedeutet, dass die Stichprobe nach dem Runden ungefähr die Hälfte der Zeilen aus jeder Region enthält.

eine Datenflusskonfiguration, um eine Stichprobe des Datensatzes nach Region zu ziehen

In der Ausgabe des Prozessors enthält die Stichprobe jetzt nur noch ungefähr die Hälfte der Zeilen des Originals, wobei die gleiche Verteilung über die Regionen hinweg beibehalten wird.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!