SUR CETTE PAGE

Accéder au contenu principal

CETTE PAGE VOUS A-T-ELLE AIDÉ ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Propriétés du tReservoirSampling Standard

Ces propriétés sont utilisées pour configurer le tReservoirSampling s'exécutant dans le framework de Jobs Standard.

Le composant tReservoirSampling Standard appartient à la famille Qualité de données.

Le composant de ce framework est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend Data Services Platform et Talend Data Fabric.

Basic settings

Propriétés	Description
Schema et Edit schema	Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé `line` lors du nommage des champs. Cliquez sur Sync columns pour récupérer le schéma du composant précédent. Built-in : le schéma est créé et conservé localement pour ce composant seulement. Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.
Sample Size	Définissez le nombre de lignes à prélever du flux d'entrée et à utiliser comme échantillon.

Propriétés

Description

Schema et Edit schema

Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent.
Built-in : le schéma est créé et conservé localement pour ce composant seulement.
Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.

Sample Size

Définissez le nombre de lignes à prélever du flux d'entrée et à utiliser comme échantillon.

Advanced settings

Propriétés	Description
Seed for random generator	Saisissez un nombre aléatoire si vous souhaitez extraire les mêmes échantillons pour différentes exécutions du Job. Répéter l'exécution avec une valeur différente pour la graine permet de générer différents doublons. Laissez ce champ vide si vous souhaitez générer des doublons différents à chaque fois que vous exécutez le Job.
tStat Catcher Statistics	Cochez cette case afin de collecter les données de log au niveau du composant.

Propriétés

Description

Seed for random generator

Saisissez un nombre aléatoire si vous souhaitez extraire les mêmes échantillons pour différentes exécutions du Job.

Répéter l'exécution avec une valeur différente pour la graine permet de générer différents doublons.

Laissez ce champ vide si vous souhaitez générer des doublons différents à chaque fois que vous exécutez le Job.

tStat Catcher Statistics

Cochez cette case afin de collecter les données de log au niveau du composant.

Utilisation

Conseils d'utilisation	Description
Règle d'utilisation	Ce composant vous permet de tester des analyses de profiling sur un échantillon de données et d'avoir des résultats similaires aux résultats obtenus sur l'intégralité du jeu de données. Le tReservoirSampling ne peut pas être utilisé dans les Jobs Map/Reduce.

Conseils d'utilisation

Description

Règle d'utilisation

Ce composant vous permet de tester des analyses de profiling sur un échantillon de données et d'avoir des résultats similaires aux résultats obtenus sur l'intégralité du jeu de données.

Le tReservoirSampling ne peut pas être utilisé dans les Jobs Map/Reduce.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici