Partitionner le flux de données d'entrée

À la fin de ce lien, le Studio Talend collecte automatiquement les process partitionnés afin de réaliser l'étape de collecte.

Configurer le flux d'entrée

Procedure

Double-cliquez sur le tFileInputDelimited pour ouvrir sa vue Component.
Dans le champ File name/Stream, parcourez votre système, ou saisissez le chemin d'accès au fichier contenant les enregistrements clients à lire.
Cliquez sur le bouton pour ouvrir l'éditeur de schéma dans lequel créer le schéma reflétant la structure des données client·es.
Cliquez cinq fois sur le bouton pour ajouter cinq lignes et renommez-les comme suit : FirstName, LastName, City, Address et ZipCode.
Dans ce scénario, laissez la valeur par défaut des types de données, String. Dans un cas d'utilisation réelle, vous pouvez modifier les types selon les données à traiter.
Cliquez sur OK pour valider ces modifications et acceptez la propagation proposée par la boîte de dialogue qui s'ouvre.
Si nécessaire, renseignez les autres champs dans la vue Component avec les valeurs correspondant aux données à traiter. Dans ce scénario, laissez les paramètres tels qu'ils sont.

Configurer l'étape de partitionnement

Procedure

Cliquez sur le lien représentant l'étape de partitionnement pour ouvrir sa vue Component. Cliquez ensuite sur l'onglet Parallelization.

L'option Partition row a été automatiquement sélectionnée dans la zone Type. Si vous sélectionnez None, vous désactivez la parallélisation du flux de données sur ce lien. Notez que selon le lien que vous configurez, une option Repartition row peut être disponible dans la zone Type afin de re-partitionner un flux de données déjà dé-partitionné.

Dans cette vue Parallelization, vous devez définir les propriétés suivantes :
- Number of Child Threads : le nombre de process que vous souhaitez obtenir en divisant les enregistrements d'entrée. Il est recommandé de saisir un nombre N-1 où N est le nombre total de CPU ou cœurs de la machine traitant les données.
- Buffer Size : le nombre de lignes à mettre en cache pour chacun des process générés.
- Use a key hash for partitions : cela vous permet d'utiliser le mode Hash pour répartir les enregistrements dans les process.
  Une fois la case cochée, la table Key Columns s'affiche. Vous pouvez y configurer les colonnes sur lesquelles appliquer le mode Hash. Vous pouvez y configurer les colonnes sur lesquelles appliquer le mode Hash.
  
  Si vous laissez cette case décochée le mode de répartition est Round-robin, ce qui signifie que les enregistrements sont répartis un par un dans chaque process, de manière circulaire, jusqu'à ce que le dernier enregistrement soit distribué. Ce mode ne peut garantir que les enregistrements répondant aux critères vont bien dans les mêmes process.
Dans le champ Number of Child Threads, saisissez le nombre de process (threads) que vous souhaitez obtenir en divisant les enregistrements d'entrée. Dans cet exemple, saisissez 3 car quatre processeurs sont utilisés pour exécuter le Job.
Si nécessaire, modifiez la valeur dans le champ Buffer Size afin d'adapter la capacité de la mémoire. Dans cet exemple, laissez la valeur par défaut.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici