Accéder au contenu principal Passer au contenu complémentaire

Processeur Sample

Conserver uniquement les premières lignes ou un sous-échantillon aléatoire de lignes.

Le processeur Sample vous permet de sélectionner un nombre ou un pourcentage spécifique d'enregistrements de votre flux d'entrée et de rendre l'échantillon de données plus représentatif de l'ensemble du jeu de données.

Utilisation

  • Le processeur Sample nécessite un flux d'entrée et ne peut générer qu'un seul flux de sortie.

  • L'utilisation de ce processeur annulera le tri des données si un processeur Sort a été utilisé dans le flux d'entrée.

Propriétés

Propriétés à configurer pour sélectionner un sous-ensemble d'enregistrements de l'entrée.

Configuration
Propriété Configuration
Méthode d'échantillonnage

Décidez si vous souhaitez extraire un nombre fixe de lignes ou un pourcentage du nombre total de lignes du flux d'entrée :

  • Lignes aléatoires : conserve un pourcentage de lignes de l'ensemble de votre jeu de données.

  • Premières lignes : conserve un nombre fixe de lignes à partir du début de votre jeu de données.

  • Nombre fixe de lignes aléatoires : conserve un nombre fixe de lignes de manière aléatoire provenant de l'ensemble de votre jeu de données.

  • Échantillonnage stratifié aléatoire : conserve le pourcentage de lignes sélectionné pour chaque valeur du champ de strate.

    Note InformationsEn raison de l'arrondi, l'utilisation de cette méthode peut entraîner des écarts significatifs par rapport au nombre total de lignes prévu, en particulier lors de la sélection de petites strates. De plus, il se peut que les strates ne contenant qu'une seule ligne ne soient pas du tout représentées dans la sortie si le pourcentage de lignes à échantillonner est faible.
Nombre de lignes à extraire Saisissez le nombre de lignes à conserver.
Ratio d'échantillonnage (%) Saisissez le pourcentage de lignes à conserver.
Champ de strate Dans la liste déroulante, sélectionnez le champ à utiliser comme strate.

Pour renommer le processeur ou modifier sa description, pointez la souris sur le nom ou la description à modifier dans le panneau des Propriétés et cliquez sur l'icône Modifier Modifier.

Exemple

Dans cet exemple, vous travaillez sur un jeu de données contenant des informations sur des transactions commerciales provenant de trois régions : East, West et Central.

Jeu de données contenant des informations client

Actuellement, l'échantillon contient 20 lignes, mais vous souhaitez en réduire la taille, tout en vous assurant que chaque région est équitablement représentée dans les données échantillonnées. Vous allez utiliser le processeur Sample pour modifier la taille de l'échantillon.

Dans les propriétés du processeur, sélectionnez Échantillonnage stratifié aléatoire comme méthode d'échantillonnage, définissez le Ratio d'échantillonnage (%) sur 50 et sélectionnez Region comme champ de strate.

Le fait de définir l'échantillonnage stratifié sur 50 % signifie que l'échantillon contiendra environ la moitié des lignes de chaque région après l'arrondi.

Configuration d'un flux de données pour échantillonner le jeu de données par région

Dans la sortie du processeur, l'échantillon ne contient désormais plus qu'environ la moitié des lignes de l'original, tout en conservant la même distribution de régions.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.