Propriétés du tPartition pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tPartition s'exécutant dans le framework de Jobs Spark Batch.
Le composant tPartition Spark Batch appartient à la famille Processus en cours.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.
Basic settings
Schema et Edit Schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job. |
Number of partitions |
Définissez en combien de partitions vous souhaitez diviser le jeu de données d'entrée. |
Repartition by range |
Cochez cette case pour scinder le jeu de données en plusieurs partitions. Pour plus d'informations, consultez la documentation Spark officielle (en anglais). Cette option est uniquement disponible en mode Dataset. Note InformationsRemarque : Le composant tPartition supporte Spark Dataset API uniquement lorsque :
|
Use coalesce |
Cochez cette case pour réduire le nombre de partitions retournées. Pour plus d'informations, consultez la documentation officielle Spark. Cette option est uniquement disponible en mode Dataset. Note InformationsRemarque : Le composant tPartition supporte Spark Dataset API uniquement lorsque :
|
Clé de partition |
Renseignez cette table pour définir la clé à utiliser pour le partitionnement. Dans la table Partition key, les colonnes du schéma sont automatiquement ajoutées dans la colonne Column. Dans la colonne Partition column, vous devez cocher les cases correspondant aux colonnes que vous devez utiliser en tant que clé du partitionnement. Le partitionnement traite les données en mode Hash, c'est-à-dire que les enregistrements répondant aux mêmes critères (la clé) sont répartis dans la même partition. |
Use custom partitioner |
Cochez cette case pour utiliser un partitionner Spark à importer de l'extérieur du Studio Talend. par exemple, un partitionner développé par vos soins. Dans cette situation, vous devez fournir les informations suivantes :
|
Sort within partitions |
Cochez cette case pour trier les enregistrements au sein de chaque partition. Cette fonctionnalité est utile lorsqu'une partition contient différentes valeurs clés distinctes.
|
Utilisation
Règle d'utilisation |
Ce composant est utilisé comme étape intermédiaire. Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |