Propriétés du tManagePartitions pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tManagePartitions s'exécutant dans le framework de Jobs Spark Batch.
Le composant tManagePartitions Spark Batch appartient à la famille Processus en cours.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.
Basic settings
Nombre de partitions | Définissez en combien de partitions vous souhaitez diviser le jeu de données d'entrée. |
Partitioning strategy | Sélectionnez la stratégie de partitionnement à appliquer sur le jeu de données, dans la liste déroulante :
|
Partitioning with range | Cochez cette case pour appliquer une partition sur le jeu de données, en se basant sur une plage des valeurs de colonnes. Vous devez spécifier au moins une colonne pour utiliser ce paramètre. |
Use custom partitioner | Cochez cette case pour utiliser un partitionner Spark à importer de l'extérieur du Studio Talend. par exemple, un partitionner développé par vos soins. Dans cette situation, vous devez fournir les informations suivantes :
Ce paramètre est disponible uniquement lorsque vous sélectionnez Repartition dans la liste déroulante Partitioning strategy. |
Use column(s) as key(s) for partitioning | Sélectionnez la colonne à utiliser comme clé pour le partitionnement. Ce paramètre est disponible uniquement lorsque vous sélectionnez Repartition dans la liste déroulante Partitioning strategy. Ce paramètre n'est pas disponible lorsque vous cochez la case Use a custom partitioner. |
Sort within partitions | Cochez cette case pour trier les enregistrements au sein de chaque partition :
Cette fonctionnalité est utile lorsqu'une partition contient différentes valeurs clés distinctes. |
Variables globales
ERROR_MESSAGE |
Message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé comme étape intermédiaire. Ce composant, ainsi que la Palette Spark Batch à laquelle il appartient, ne s'affiche que lorsque vous créez un Job Spark Batch. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données. |