Processeur Sample
Conserver uniquement les premières lignes ou un sous-échantillon aléatoire de lignes.
Le processeur Sample vous permet de sélectionner un nombre ou un pourcentage spécifique d'enregistrements de votre flux d'entrée et de rendre l'échantillon de données plus représentatif de l'ensemble du jeu de données.
Utilisation
-
Le processeur Sample nécessite un flux d'entrée et ne peut générer qu'un seul flux de sortie.
-
L'utilisation de ce processeur annulera le tri des données si un processeur Sort a été utilisé dans le flux d'entrée.
Propriétés
Propriétés à configurer pour sélectionner un sous-ensemble d'enregistrements de l'entrée.
| Propriété | Configuration |
|---|---|
| Méthode d'échantillonnage |
Décidez si vous souhaitez extraire un nombre fixe de lignes ou un pourcentage du nombre total de lignes du flux d'entrée :
|
| Nombre de lignes à extraire | Saisissez le nombre de lignes à conserver. |
| Ratio d'échantillonnage (%) | Saisissez le pourcentage de lignes à conserver. |
| Champ de strate | Dans la liste déroulante, sélectionnez le champ à utiliser comme strate. |
Pour renommer le processeur ou modifier sa description, pointez la souris sur le nom ou la description à modifier dans le panneau des Propriétés et cliquez sur l'icône Modifier.
Exemple
Dans cet exemple, vous travaillez sur un jeu de données contenant des informations sur des transactions commerciales provenant de trois régions : East, West et Central.
Actuellement, l'échantillon contient 20 lignes, mais vous souhaitez en réduire la taille, tout en vous assurant que chaque région est équitablement représentée dans les données échantillonnées. Vous allez utiliser le processeur Sample pour modifier la taille de l'échantillon.
Dans les propriétés du processeur, sélectionnez Échantillonnage stratifié aléatoire comme méthode d'échantillonnage, définissez le Ratio d'échantillonnage (%) sur 50 et sélectionnez Region comme champ de strate.
Le fait de définir l'échantillonnage stratifié sur 50 % signifie que l'échantillon contiendra environ la moitié des lignes de chaque région après l'arrondi.
Dans la sortie du processeur, l'échantillon ne contient désormais plus qu'environ la moitié des lignes de l'original, tout en conservant la même distribution de régions.