- Rapprochement de données à l'aide des outils Talend
- Composants de consolidation
- Scénarios
- Créer un jeu de données nettoyées à partir des paires suspectes libellées par le tMatchPredict et les enregistrements uniques calculés par le tMatchPairing
- Créer des représentants uniques à partir des paires suspectes libellées par le tMatchPredict
- Configurer le composant d'entrée
Sélectionner le mode Spark
Selon le cluster Spark à utiliser, sélectionnez un mode Spark pour votre Job.
La documentation Spark fournit une liste exhaustive des propriétés Spark et de leurs valeurs par défaut dans Spark Configuration. Un Job Spark conçu dans le Studio Talend utilise cette configuration par défaut, sauf pour les propriétés que vous avez explicitement définies dans l'onglet Spark Configuration ou les composants utilisés dans votre Job.
Procédure
- Cliquez sur Run pour ouvrir cette vue et cliquez sur l'onglet Spark Configuration pour ouvrir cette vue et configurer la connexion à Spark.
-
Cochez la case Use local mode pour tester localement votre Job.
En mode local, le Studio Talend construit l'environnement Spark en lui-même à la volée pour exécuter le Job dedans. Chaque processeur de la machine locale est utilisé comme worker Spark pour effectuer les calculs.
Dans ce mode, votre système de fichiers local est utilisé. Désactivez les composants de configuration comme le tS3Configuration ou le tAzureConfiguration fournissant les informations de connexion à un système de fichiers distant, si vous avez placé ces composants dans votre Job.
Vous pouvez exécuter votre Job sans configuration supplémentaire.
-
Décochez la case Use local mode pour afficher la liste des distributions Hadoop disponibles et, dans cette liste, sélectionnez la distribution correspondant au cluster Spark cluster à utiliser.
La distribution peut être :
-
Pour cette distribution, Talend supporte les modes :
-
Yarn client
-
Yarn cluster
Note InformationsImportant : Delta Lake n'est pas supporté sur Amazon EMR. -
-
Pour cette distribution, Talend supporte les modes :
-
Standalone
-
Yarn client
-
Yarn cluster
-
-
Pour cette distribution, Talend supporte les modes :
-
Yarn client
-
-
Pour cette distribution, Talend supporte les modes :
-
Yarn client
-
Yarn cluster
-
-
Pour cette distribution, Talend supporte les modes :
-
Standalone
-
Yarn client
-
Yarn cluster
-
-
Pour cette distribution, Talend supporte les modes :
-
Yarn cluster
-
-
Configurer les paramètres de connexion à Cloudera Altus
Pour cette distribution, Talend supporte les modes :-
Yarn cluster
Votre cluster Altus doit être exécuté sur les fournisseurs de Cloud suivants :-
Azure
Le support pour Altus sur Azure est une fonctionnalité de prévisualisation technique.
-
AWS
-
-
Lorsqu'un Job utilise Avro pour déplacer des données à travers ses composants, il est recommandé de configurer votre cluster pour utiliser Kryo afin de gérer les types Avro. Cela permet non seulement d'éviter ce problème Avro connu mais également d'améliorer les performances. La propriété Spark à configurer dans votre cluster est :spark.serializer org.apache.spark.serializer.KryoSerializer
Si vous ne trouvez pas votre distribution dans la liste déroulante, cela signifie que la distribution à laquelle vous souhaitez vous connecter n'est pas officiellement supportée par Talend . Dans ce cas, vous pouvez sélectionner Custom puis la version de Spark, dans la liste Spark version, du cluster auquel vous connecter. Cliquez sur le bouton [...] pour afficher une boîte de dialogue dans laquelle vous pouvez :
-
Sélectionner Import from existing version pour importer une distribution de base officiellement supportée et ajouter manuellement les autres Jars requis non fournis par cette distribution.
-
Sélectionner Import from zip pour importer le fichier .zip de configuration pour la distribution personnalisée à utiliser. Ce fichier .zip doit contenir les bibliothèques des différents éléments Hadoop/Spark et le fichier d'index de ces bibliothèques.
Notez que les versions personnalisées ne sont pas officiellement supportées par Talend. Talend et sa Communauté vous permettent de vous connecter à des versions personnalisées depuis le Studio Talend, mais ne peuvent pas garantir que la configuration de la version sélectionnée sera facile. Il est recommandé de configurer ces connexions si vous avez une expérience suffisante de Hadoop et de Spark pour gérer par vous-même les problèmes pouvant survenir.
Pour un exemple étape par étape expliquant comment se connecter à une distribution personnalisée et partager cette connexion, consultez Hortonworks.
Cette page vous a-t-elle aidé ?
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.