Propriétés du tReservoirSampling Standard
Ces propriétés sont utilisées pour configurer le tReservoirSampling s'exécutant dans le framework de Jobs Standard.
Le composant tReservoirSampling Standard appartient à la famille Qualité de données.
Le composant de ce framework est disponible dans Talend Data Management Platform, Talend Big Data Platform, Talend Real-Time Big Data Platform, Talend Data Services Platform et Talend Data Fabric.
Basic settings
Schema et Edit schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Cliquez sur Sync columns pour récupérer le schéma du composant précédent. |
|
Built-in : le schéma est créé et conservé localement pour ce composant seulement. |
|
Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. |
Sample Size |
Définissez le nombre de lignes à prélever du flux d'entrée et à utiliser comme échantillon. |
Advanced settings
Seed for random generator |
Saisissez un nombre aléatoire si vous souhaitez extraire les mêmes échantillons pour différentes exécutions du Job. Répéter l'exécution avec une valeur différente pour la graine permet de générer différents doublons. Laissez ce champ vide si vous souhaitez générer des doublons différents à chaque fois que vous exécutez le Job. |
tStat Catcher Statistics |
Cochez cette case afin de collecter les données de log au niveau du composant. |
Utilisation
Règle d'utilisation |
Ce composant vous permet de tester des analyses de profiling sur un échantillon de données et d'avoir des résultats similaires aux résultats obtenus sur l'intégralité du jeu de données. Le tReservoirSampling ne peut pas être utilisé dans les Jobs Map/Reduce. |