Propriétés du tSqoopMerge Standard
Ces propriétés sont utilisées pour configurer le tSqoopMerge s'exécutant dans le framework de Jobs Standard.
Le composant tSqoopMerge Standard appartient aux familles Big Data et Fichier.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.
Basic settings
mode |
Sélectionnez le mode dans lequel Sqoop est appelé dans l'exécution du Job. Use Commandline : l'interpréteur de commandes Sqoop est utilisé pour appeler Sqoop. Vous pouvez lire des donnés depuis HDFS ou HCatalog. Dans ce mode, vous devez déployer et exécuter le Job dans l'hôte où Sqoop est installé. Si vous êtes un utilisateur ou une utilisatrice avec souscription, il est recommandé d'installer et d'utiliser un Talend JobServer fourni par Talend dans cet hôte, pour exécuter le Job. Si vous utilisez l'une des solutions Talend avec Big Data, vous devez vous assurer que le Studio Talend et Sqoop sont bien sur la même machine. Use Java API : l'API Java est utilisée pour appeler Sqoop. Dans ce mode, le Job peut être exécuté localement dans le Studio Talend mais vous devez configurer la connexion à la distribution Hadoop à utiliser. Notez que JDK est requis pour l'exécution du Job en mode API Java et que les versions des kits JDK installés sur les deux machines doivent être compatibles entre elles. Par exemple, les versions sont les mêmes ou la version JDK de la machine Hadoop est plus récente. |
Hadoop Properties |
Peut être Built-in ou Repository:
|
Distribution |
Sélectionnez dans la liste le cluster que vous utilisez. Les options de la liste varient selon le composant que vous utilisez. Parmi ces options, les suivantes nécessitent une configuration spécifique :
|
Hadoop version |
Sélectionnez la version de la distribution Hadoop que vous utilisez. Les options disponibles dépendent du composant que vous utilisez. |
NameNode URI |
Saisissez l'URI du NameNode Hadoop, nœud maître d'un système Hadoop. Par exemple, si vous avez choisi une machine nommée mastermode comme NameMode, son emplacement est hdfs://masternode:portnumber. Si vous utilisez WebHDFS, l'emplacement doit être webhdfs://masternode:portnumber ; WebHDFS avec SSL n'est pas supporté. |
JobTracker Host |
Cochez cette case et, dans le champ qui s'affiche, saisissez l'emplacement du ResourceManager de votre distribution. Par exemple tal-qa114.talend.lan:8050. Cette propriété est requise lorsque la requête que vous souhaitez utiliser est exécutée dans Windows et est une requête Select. Par exemple, SELECT your_column_name FROM your_table_name Vous pouvez continuer à configurer les paramètres suivants selon la configuration du cluster Hadoop à utiliser (si vous ne cochez pas la case d'un paramètre, alors la configuration de ce paramètre dans le cluster Hadoop à utiliser sera ignorée lors de l'exécution) :
Pour plus d'informations concernant le framework Hadoop Map/Reduce, consultez le tutoriel Map/Reduce dans la documentation de Apache Hadoop (en anglais). |
Use kerberos authentication |
Si vous accédez au cluster Hadoop fonctionnant avec la sécurité Kerberos, cochez cette case, puis saisissez le Principal Name de Kerberos pour le NameNode dans le champ affiché. Cela vous permet d'utiliser votre nom d'utilisateur ou d'utilisatrice pour vous authentifier, en les comparant aux informations stockées dans Kerberos. De plus, comme ce composant effectue des calculs Map/Reduce, vous devez également authentifier les services associés, comme le serveur de l'historique des Jobs et le gestionnaire de ressources ou le JobTracker, selon votre distribution, dans le champ correspondant. Ces principaux se trouvent dans les fichiers de configuration de votre distribution. Par exemple, dans une distribution CDH4, le Principal du Resource Manager est configuré dans le fichier yarn-site.xml et le Principal de Job History dans le fichier mapred-site.xml. Cette case est disponible ou non selon la distribution Hadoop à laquelle vous vous connectez. |
Use a keytab to authenticate |
Cochez la case Use a keytab to authenticate pour vous connecter à un système utilisant Kerberos à l'aide d'un fichier keytab. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un Talend JobServer. l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier Keytab à utiliser. |
Hadoop user name |
Saisissez le nom de l'utilisateur ou de l'utilisatrice avec lequel vous souhaitez exécuter le Job. Puisque les fichiers et répertoires dans Hadoop ont un auteur spécifique avec les droits appropriés de lecture ou d'écriture, ce champ vous permet d'exécuter le Job directement avec l'utilisateur ou l'utilisatrice ayant les droits d'accès appropriés au fichier ou répertoire à traiter. Notez que ce champ peut n'être pas disponible selon la distribution que vous utilisez. |
Old data directory |
Saisissez le chemin d'accès à l'ancien jeu de données à fusionner. |
New data directory |
Saisissez le chemin d'accès au nouveau jeu de données à fusionner. |
Target directory |
Saisissez le répertoire dans lequel écrire en sortie le résultat de la fusion. |
Merge key |
Saisissez le nom de la colonne utilisée comme clé de chaque enregistrement pour la fusion. La clé primaire doit être unique. |
Need to generate the JAR file |
Cochez cette case pour générer le fichier Jar de fusion et la classe de fusion (merge) requis pour analyser les jeux de données à fusionner. Le nom par défaut du fichier jar et de la classe est SqoopMerge_component_ID. Ce component_ID est l'identifiant du composant tSqoopMerge qui génère le fichier jar et la classe, par exemple tSqoopMerge_1 ou tSqoopMerge_2. Ce fichier jar est généré de la table source des données importées. Cocher cette case permet d'afficher les paramètres à configurer pour se connecter à la table. |
JDBC property |
Peut être Built-in ou Repository:
|
Connexion |
Saisissez l'URL JDBC utilisée pour vous connecter à la base de données dans laquelle les données source sont stockées. |
User Name et Password |
Saisissez les informations d'authentification utilisées pour vous connecter à la base de données source. Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres. |
Table Name |
Saisissez le nom de la table source. Ce nom est utilisé pour nommer le fichier Jar généré. |
Jar du pilote |
Quel que soit le mode, Use Commandline ou Java API, vous devez ajouter le fichier du pilote de la base de données à utiliser, dans le dossier lib de la distribution Hadoop que vous utilisez. Pour ce faire, utilisez la table Driver JAR afin d'ajouter ce fichier de pilote pour le Job en cours de construction. Le Jar de ce pilote est requis uniquement lorsque vous devez vous connecter à la base de données à utiliser pour générer le fichier Jar de fusion. Cette table Driver JAR est disponible uniquement lorsque vous avez coché la case Need to generate the JAR file. |
JAR file |
Si la classe de fusion (merge) requise existe déjà et est disponible, saisissez le chemin d'accès vers le fichier jar qui contient cette classe afin de la réutiliser. Dans ce cas, vous devez saisir le nom de la classe dans le champ Class name de l'onglet Advanced settings. |
Print log |
Cochez cette case pour activer la case Verbose. |
Verbose |
Cochez cette case pour afficher plus d'informations pendant que vous travaillez, par exemple des informations de débogage. |
Advanced settings
Custom class name |
Cochez cette case pour afficher le champ Class name et saisissez le nom de la classe de fusion (merge) que vous souhaitez utiliser. Cette case doit être décochée si vous souhaitez utiliser l'option Generate the JAR file dans l'onglet Basic settings. |
Additional arguments |
Complétez ce tableau pour utiliser des arguments supplémentaires, si nécessaire. En ajoutant des arguments supplémentaires, vous pouvez effectuer de multiples opérations en une seule transaction. Par exemple, vous pouvez utiliser --hive-import et --hive-table en mode Talend CommandLine ou hive.import et hive.table.name en mode Java API pour créer une table Hive et écrire des données dans cette table lors de l'exécution de la transaction écrivant des données dans HDFS. Pour plus d'informations concernant les arguments Sqoop disponibles en mode Talend CommandLine et en mode API Java, consultez Arguments supplémentaires. |
Hadoop Properties |
Le Studio Talend utilise une configuration par défaut pour son moteur, afin d'effectuer des opérations dans une distribution Hadoop. Si vous devez utiliser une configuration personnalisée dans une situation spécifique, renseignez dans cette table la ou les propriété(s) à personnaliser. Lors de l'exécution, la ou les propriété(s) personnalisée(s) va (vont) écraser celle(s) par défaut.
Pour plus d'informations concernant les propriétés requises par Hadoop et ses systèmes associés, tels que HDFS et Hive, consultez la documentation de la distribution Hadoop utilisée ou consultez la documentation Apache Hadoop (en anglais) en sélectionnant la version de la documentation souhaitée. À titre d'exemple, les liens vers certaines propriétés sont listés ci-après :
|
Mapred job map memory mb et Mapred job reduce memory mb |
Vous pouvez personnaliser les opérations map et reduce en cochant la case Set memory, pour configurer les allocations de mémoire pour ces opérations à effectuer par le système Hadoop. Dans ce cas, vous devez saisir les valeurs que vous souhaitez utiliser pour la mémoire allouée aux opérations map et reduce dans les champs Mapred job map memory mb et Mapred job reduce memory mb, respectivement. Par défaut, les valeurs sont toutes les deux 1024, ce qui est normalement adapté pour l'exécution de ces opérations. Les paramètres de mémoire à définir sont Map (in Mb), Reduce (in Mb) et ApplicationMaster (in Mb). Ces champs permettent d'allouer dynamiquement de la mémoire aux opérations map et reduce et à l'ApplicationMaster de YARN. |
Path separator in server |
Laissez le champ Path separator in server tel quel, sauf si vous changez le séparateur utilisé par la machine hôte de votre distribution Hadoop pour sa variable PATH. En d'autres termes, changez le séparateur si celui-ci n'est pas le signe deux points (:). Dans ce cas, vous devez remplacer cette valeur par celle utilisée dans votre hôte. |
tStatCatcher Statistics |
Cochez cette case pour collecter les données de log au niveau des composants. |
Variables globales
Variables globales |
ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. EXIT_CODE : code de sortie de la commande distante. Cette variable est une variable After et retourne un entier. Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez Utiliser les contextes et les variables. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé en standalone. Il respecte les prérequis Sqoop. Vous devez connaître Sqoop pour l'utiliser. Talend vous recommande d'utiliser une version 1.4+ de Sqoop afin de tirer entièrement parti des fonctionnalités des composants. Pour plus d'informations concernant Sqoop, consultez (en anglais) le manuel de Sqoop sur le site : http://sqoop.apache.org/docs/. |
Prérequis |
La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend . La liste suivante présente des informations d'exemple relatives à MapR.
Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez. |
Limitation |
Si vous avez sélectionné le mode Use Commandline, vous devez utiliser l'hôte où Sqoop est installé pour exécuter le Job à l'aide de ce composant. |
Connections |
Liens de sortie (de ce composant à un autre) : Trigger : Run if, On Subjob Ok, On Subjob Error, On Component Ok, On Component Error.
Liens d'entrée (d'un autre composant à celui-ci) : Row : Iterate Trigger : Run if, On Subjob Ok, On Subjob Error, On Component Ok, On Component Error.
Pour plus d'informations concernant les connexions, consultez Utilisation des connexions dans un Job. |