Propriétés du tSqoopExport Standard
Ces propriétés sont utilisées pour configurer le tSqoopExport s'exécutant dans le framework de Jobs Standard.
Le composant tSqoopExport Standard appartient aux familles Big Data et Fichier.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.
Basic settings
mode |
Sélectionnez le mode dans lequel Sqoop est appelé dans l'exécution du Job. Use Commandline : l'interpréteur de commandes Sqoop est utilisé pour appeler Sqoop. Vous pouvez lire des donnés depuis HDFS ou HCatalog. Dans ce mode, vous devez déployer et exécuter le Job dans l'hôte où Sqoop est installé. Si vous êtes un utilisateur ou une utilisatrice avec souscription, il est recommandé d'installer et d'utiliser un Talend JobServer fourni par Talend dans cet hôte, pour exécuter le Job. Si vous utilisez l'une des solutions Talend avec Big Data, vous devez vous assurer que le Studio Talend et Sqoop sont bien sur la même machine. Use Java API : l'API Java est utilisée pour appeler Sqoop. Dans ce mode, le Job peut être exécuté localement dans le Studio Talend mais vous devez configurer la connexion à la distribution Hadoop à utiliser. Notez que JDK est requis pour l'exécution du Job en mode API Java et que les versions des kits JDK installés sur les deux machines doivent être compatibles entre elles. Par exemple, les versions sont les mêmes ou la version JDK de la machine Hadoop est plus récente. |
Hadoop Properties |
Peut être Built-in ou Repository:
|
Distribution |
Sélectionnez dans la liste le cluster que vous utilisez. Les options de la liste varient selon le composant que vous utilisez. Parmi ces options, les suivantes nécessitent une configuration spécifique :
|
Hadoop version |
Sélectionnez la version de la distribution Hadoop que vous utilisez. Les options disponibles dépendent du composant que vous utilisez. |
NameNode URI |
Saisissez l'URI du NameNode Hadoop, nœud maître d'un système Hadoop. Par exemple, si vous avez choisi une machine nommée mastermode comme NameMode, son emplacement est hdfs://masternode:portnumber. Si vous utilisez WebHDFS, l'emplacement doit être webhdfs://masternode:portnumber ; WebHDFS avec SSL n'est pas supporté. |
JobTracker Host |
Cochez cette case et, dans le champ qui s'affiche, saisissez l'emplacement du ResourceManager de votre distribution. Par exemple tal-qa114.talend.lan:8050. Cette propriété est requise lorsque la requête que vous souhaitez utiliser est exécutée dans Windows et est une requête Select. Par exemple, SELECT your_column_name FROM your_table_name Vous pouvez continuer à configurer les paramètres suivants selon la configuration du cluster Hadoop à utiliser (si vous ne cochez pas la case d'un paramètre, alors la configuration de ce paramètre dans le cluster Hadoop à utiliser sera ignorée lors de l'exécution) :
Pour plus d'informations concernant le framework Hadoop Map/Reduce, consultez le tutoriel Map/Reduce dans la documentation de Apache Hadoop (en anglais). |
Use kerberos authentication |
Si vous accédez au cluster Hadoop fonctionnant avec la sécurité Kerberos, cochez cette case, puis saisissez le Principal Name de Kerberos pour le NameNode dans le champ affiché. Cela vous permet d'utiliser votre nom d'utilisateur ou d'utilisatrice pour vous authentifier, en les comparant aux informations stockées dans Kerberos. De plus, comme ce composant effectue des calculs Map/Reduce, vous devez également authentifier les services associés, comme le serveur de l'historique des Jobs et le gestionnaire de ressources ou le JobTracker, selon votre distribution, dans le champ correspondant. Ces principaux se trouvent dans les fichiers de configuration de votre distribution. Par exemple, dans une distribution CDH4, le Principal du Resource Manager est configuré dans le fichier yarn-site.xml et le Principal de Job History dans le fichier mapred-site.xml. Cette case est disponible ou non selon la distribution Hadoop à laquelle vous vous connectez. |
Use a keytab to authenticate |
Cochez la case Use a keytab to authenticate pour vous connecter à un système utilisant Kerberos à l'aide d'un fichier keytab. Un fichier Keytab contient les paires des Principaux et clés cryptées Kerberos. Vous devez saisir le principal à utiliser dans le champ Principal et le chemin d'accès au fichier keytab dans le champ Keytab. Ce fichier keytab doit être stocké sur la machine où s'exécute votre Job, par exemple, sur un Talend JobServer. l'utilisateur ou l'utilisatrice exécutant un Job utilisant un fichier Keytab n'est pas nécessairement celui désigné par un Principal mais doit avoir le droit de lire le fichier Keytab utilisé. Par exemple, le nom d'utilisateur ou d'utilisatrice que vous utilisez pour exécuter le Job est user1 et le principal à utiliser est guest. Dans cette situation, assurez-vous que user1 a les droits de lecture pour le fichier Keytab à utiliser. |
Hadoop user name |
Saisissez le nom de l'utilisateur ou de l'utilisatrice avec lequel vous souhaitez exécuter le Job. Puisque les fichiers et répertoires dans Hadoop ont un auteur spécifique avec les droits appropriés de lecture ou d'écriture, ce champ vous permet d'exécuter le Job directement avec l'utilisateur ou l'utilisatrice ayant les droits d'accès appropriés au fichier ou répertoire à traiter. Notez que ce champ peut n'être pas disponible selon la distribution que vous utilisez. |
JDBC property |
Peut être Built-in ou Repository:
|
Connexion |
Saisissez l'URL JDBC utilisée pour vous connecter à la base de données cible. |
User name et Password |
Saisissez les informations d'authentification à la base de données cible. Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres. Si votre mot de passe est stocké dans un fichier, cochez la case The password is stored in a file et saisissez le chemin d'accès à ce fichier dans le champ File path qui s'affiche.
|
Jar du pilote |
Quel que soit le mode, Use Commandline ou Java API, vous devez ajouter le fichier du pilote de la base de données à utiliser, dans le dossier lib de la distribution Hadoop que vous utilisez. Pour ce faire, utilisez la table Driver JAR afin d'ajouter ce fichier de pilote pour le Job en cours de construction. |
Driver class name |
Saisissez entre guillemets doubles le nom de la classe pour le pilote spécifié. Par exemple, pour le pilote RedshiftJDBC41-1.1.13.1013.jar, le nom à saisir est com.amazon.redshift.jdbc41.Driver. |
Table Name |
Saisissez le nom de la table cible dans laquelle les données sont transférées depuis HDFS ou HCatalog. Cette table doit déjà exister dans la base de données cible. Les fichiers d'entrée sont lus et parsés en un ensemble d'enregistrements selon les séparateurs personnalisés. |
Input source | Sélectionnez le type de système source duquel sont lues les données. Ce système peut être :
|
Direct |
Cochez cette case pour utiliser le chemin d'export rapide. |
Specify Number of Mappers |
Cochez cette case afin de préciser le nombre de tâches de "map" (processus parallèles) utilisé pour effectuer le transfert des données. Si vous ne souhaitez pas que Sqoop travaille en parallèle, saisissez 1 dans le champ affiché. |
Call a stored procedure |
Cochez cette case pour permettre au composant d'appeler une procédure stockée spécifique pour écrire des données dans la base de données cible. Vous devez saisir le nom de la procédure stockée à utiliser dans le champ affiché. Il est donc recommandé de consultez la documentation de la base de données que vous souhaitez utiliser, pour plus d'informations au sujet de la procédure stockée que vous souhaitez appeler. |
Use batch mode |
Cochez cette case pour exécuter les instructions par lots et non en exécutant une instruction d'insertion (INSERT) multiligne pour écrire différents enregistrements dans une base de données cible. |
Clear staging table |
Si vous utilisez une table de préparation spécifique pour le transfert de données souhaité, cochez cette case pour vous assurer que la table de préparation est vide lorsque le transfert de données s'exécute. |
Define a staging table |
Cochez cette case pour créer une table de préparation pour les données à transférer. Les données sont transférées dans cette table avant d'être écrites dans la table cible, afin d'éviter que seule une partie des données soit commitée dans la table cible si le transfert échoue Pour plus d'informations concernant le support d'une table de préparation pour un transfert de données, consultez la documentation Apache pour Sqoop. |
Specify how updates are performed when new rows are found with non-match keys in database |
Cochez cette case pour déterminer l'action à effectuer lorsqu'une clé de mise à jour ne correspond à aucun enregistrement dans la table cible. Vous pouvez sélectionner l'une des options suivantes :
|
Use column for update |
Cochez cette case et, dans la table qui s'affiche, ajoutez les colonnes à utiliser comme clés de mise à jour. |
Print Log |
Cochez cette case pour activer la case Verbose. |
Verbose |
Cochez cette case pour afficher plus d'informations pendant que vous travaillez, par exemple des informations de débogage. |
Advanced settings
Use MySQL default delimiters |
Cochez cette case pour utiliser les séparateurs MySQL par défaut. Cette case est disponible uniquement en mode Talend CommandLine. |
Define Java mapping |
Sqoop fournit une configuration par défaut, mappant la plupart des types SQL aux types Java correspondants. Si vous devez utiliser votre mapping personnalisé, pour écraser les mappings par défaut au moment de l'exécution, cochez cette case et définissez les mappings à utiliser dans la table qui apparaît. |
Arguments supplémentaires |
Complétez ce tableau pour utiliser des arguments supplémentaires, si nécessaire. En ajoutant des arguments supplémentaires, vous pouvez effectuer de multiples opérations en une seule transaction. Par exemple, vous pouvez utiliser --hive-import et --hive-table en mode Talend CommandLine ou hive.import et hive.table.name en mode Java API pour créer une table Hive et écrire des données dans cette table lors de l'exécution de la transaction écrivant des données dans HDFS. Pour plus d'informations concernant les arguments Sqoop disponibles en mode Talend CommandLine et en mode API Java, consultez Arguments supplémentaires. En mode Talend CommandLine, vous pouvez utiliser des arguments génériques en renseignant cette table dans un format correct (par exemple, -D org.apache.sqoop.splitter.allow_text_splitter).
Note InformationsRemarque : Vous ne devez pas utiliser d'arguments spécifiques aux outils avec un tiret au début (par exemple, -m ou -e), utilisez le nom complet de l'argument (par exemple, --num-mappers ou --query).
En mode Java API, vous pouvez utiliser des arguments génériques en utilisant les propriétés Hadoop dans un format correct (par exemple, org.apache.sqoop.splitter.allow_text_splitter).
Note InformationsRemarque : Notez que certains arguments peuvent ne pas être supportés en mode Java API à cause de certaines limites d'API.
Pour plus d'informations concernant les arguments génériques et spécifiques, consultez Using Generic and Specific Arguments (en anglais) dans la documentation Sqoop officielle. |
Use speed parallel data transfers |
Cochez cette case pour permettre des transferts de données rapides et parallèles entre la base de données Teradata et la distribution Hadoop Hortonworks. La table Specific params et la case Use additional params apparaissent vous permettant de spécifier les paramètres requis pour les transferts parallèles.
Cette option est disponible uniquement un mode Use Commandline. |
Hadoop Properties |
Le Studio Talend utilise une configuration par défaut pour son moteur, afin d'effectuer des opérations dans une distribution Hadoop. Si vous devez utiliser une configuration personnalisée dans une situation spécifique, renseignez dans cette table la ou les propriété(s) à personnaliser. Lors de l'exécution, la ou les propriété(s) personnalisée(s) va (vont) écraser celle(s) par défaut.
Pour plus d'informations concernant les propriétés requises par Hadoop et ses systèmes associés, tels que HDFS et Hive, consultez la documentation de la distribution Hadoop utilisée ou consultez la documentation Apache Hadoop (en anglais) en sélectionnant la version de la documentation souhaitée. À titre d'exemple, les liens vers certaines propriétés sont listés ci-après :
|
Mapred job map memory mb et Mapred job reduce memory mb |
Vous pouvez personnaliser les opérations map et reduce en cochant la case Set memory, pour configurer les allocations de mémoire pour ces opérations à effectuer par le système Hadoop. Dans ce cas, vous devez saisir les valeurs que vous souhaitez utiliser pour la mémoire allouée aux opérations map et reduce dans les champs Mapred job map memory mb et Mapred job reduce memory mb, respectivement. Par défaut, les valeurs sont toutes les deux 1024, ce qui est normalement adapté pour l'exécution de ces opérations. Les paramètres de mémoire à définir sont Map (in Mb), Reduce (in Mb) et ApplicationMaster (in Mb). Ces champs permettent d'allouer dynamiquement de la mémoire aux opérations map et reduce et à l'ApplicationMaster de YARN. |
Path separator in server |
Laissez le champ Path separator in server tel quel, sauf si vous changez le séparateur utilisé par la machine hôte de votre distribution Hadoop pour sa variable PATH. En d'autres termes, changez le séparateur si celui-ci n'est pas le signe deux points (:). Dans ce cas, vous devez remplacer cette valeur par celle utilisée dans votre hôte. |
tStatCatcher Statistics |
Cochez cette case pour collecter les données de log au niveau des composants. |
Variables globales
Variables globales |
ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. EXIT_CODE : code de sortie de la commande distante. Cette variable est une variable After et retourne un entier. Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez Utiliser les contextes et les variables. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé en standalone. Il respecte les prérequis Sqoop. Vous devez connaître Sqoop pour l'utiliser. Talend vous recommande d'utiliser une version 1.4+ de Sqoop afin de tirer entièrement parti des fonctionnalités des composants. Pour plus d'informations concernant Sqoop, consultez (en anglais) le manuel de Sqoop sur le site : http://sqoop.apache.org/docs/. |
Prérequis |
La distribution Hadoop doit être correctement installée afin de garantir les interactions avec le Studio Talend . La liste suivante présente des informations d'exemple relatives à MapR.
Pour plus d'informations concernant l'installation d'une distribution Hadoop, consultez le manuel correspondant à la distribution Hadoop que vous utilisez. |
Limitation |
Si vous avez sélectionné le mode Use Commandline, vous devez utiliser l'hôte où Sqoop est installé pour exécuter le Job à l'aide de ce composant. |
Connections |
Liens de sortie (de ce composant à un autre) : Trigger : Run if, On Subjob Ok, On Subjob Error.
Liens d'entrée (d'un autre composant à celui-ci) : Row : Iterate Trigger : Run if, On Subjob Ok, On Subjob Error, On Component Ok, On Component Error.
Pour plus d'informations concernant les connexions, consultez Utilisation des connexions dans un Job. |