Propriétés du tFileOutputXML MapReduce (déprécié)
Ces propriétés sont utilisées pour configurer le tFileOutputXML s'exécutant dans le framework de Jobs MapReduce.
Le composant tFileOutputXML MapReduce appartient à la famille MapReduce.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.
Le framework MapReduce est déprécié à partir de la version 7.3 de Talend. Utilisez des Jobs Talend pour Apache Spark afin d'accomplir vos tâches d'intégration.Dans un Job Map/Reduce Talend , le tFileOutputXML, ainsi que le Job Map/Reduce l'utilisant, génèrent nativement du code Map/Reduce. Cette section présente les propriétés spécifiques du tFileOutputXML lorsqu'il est utilisé dans cette situation. Pour plus d'informations concernant la création d'un Job Map/Reduce Talend , consultez le Guide de prise en main de Talend Big Data .
Basic settings
Property type |
Peut être Built-In ou Repository. |
|
Built-In : aucune propriété n'est stockée de manière centrale. |
Cliquez sur cette icône pour ouvrir l'assistant de configuration de connexion à la base de données et enregistrer les paramètres de connexion que vous avez définis dans la vue Basic settings du composant. Pour plus d'informations concernant la configuration et le stockage des paramètres de connexion à la base de données, consultez le Guide d'utilisation du Studio Talend. |
|
|
Repository : Sélectionnez le fichier dans lequel sont stockées les propriétés du composant. Les propriétés sont stockées centralement sous le nœud Hadoop Cluster de la vue Repository. Les champs suivants sont alors pré-remplis à l'aide des données collectées. Pour plus d'informations concernant le nœud Hadoop Cluster, consultez le Guide de prise en main. |
Marqueur de ligne |
Spécifiez la balise entourant les données et la structure de chaque ligne. |
Schema et Edit Schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
|
|
Built-in : le schéma est créé et conservé localement pour ce composant seulement. |
|
Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. |
Folder |
Parcourez votre système ou saisissez le chemin d'accès aux données à utiliser dans le système de fichiers. Ce chemin d'accès doit pointer vers un dossier et non vers un fichier, car un Job Talend Map/Reduce doit écrire dans ce dossier cible le résultat final mais aussi différents fichiers part- générés durant l'exécution des calculs Map/Reduce. Assurez-vous que la connexion à la distribution Hadoop utilisée est correctement configurée dans l'onglet Hadoop configuration de la vue Run. |
Action |
Sélectionnez une opération pour l'écriture des données : Create : créer un fichier et écrire les données dedans. Overwrite : écraser le fichier existant dans le répertoire spécifié dans le champ Folder. |
Advanced settings
Balises racine |
Spécifiez une ou plusieurs balise(s) racine pour entourer la structure du fichier de sortie ainsi que les données. La balise racine par défaut est root. |
Output format |
Définissez le format de sortie.
Note InformationsRemarque :
Si la même colonne est sélectionnée dans la table Output format en tant qu'attribut et dans le paramètre Use dynamic grouping pour le regroupement dynamique, seul le paramètre de regroupement dynamique est pris en compte pour cette colonne. Use schema column name : par défaut, cette case est cochée pour toutes les colonnes, afin que les libellés des colonnes du schéma d'entrée soient utilisés comme balises pour entourer les données. Si vous souhaitez utiliser une balise différente de celle du schéma d'entrée pour une colonne, décochez cette case pour cette colonne et spécifiez un libellé de balise entre guillemets, dans le champ Label. |
Utiliser le regroupement dynamique |
Cochez cette case si vous souhaitez regrouper dynamiquement les colonnes de sortie. Cliquez sur le bouton [+] pour ajouter un critère de regroupement dans la table Group by. Column : sélectionnez une colonne à utiliser comme élément pour entourer les lignes de sortie groupées. Attribute label : saisissez entre guillemets un attribut de libellé pour l'élément entourant le groupe. |
Encoding |
Sélectionnez l'encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. Ce champ est obligatoire pour la manipulation des données de base de données. Les encodages supportés dépendent de la JVM que vous utilisez. Pour plus d'informations, consultez https://docs.oracle.com (uniquement en anglais). |
Use local timezone for date | Cochez cette case pour utiliser la date locale de la machine sur laquelle votre Job est exécuté. Si vous ne cochez pas cette case, UTC est automatiquement utilisé pour formater les données de type Date. |
Variables globales
Variables globales |
ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. Une variable Flow fonctionne durant l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend. |
Utilisation
Règle d'utilisation |
Dans un Job Map/Reduce Talend, ce composant est utilisé en tant que composant de fin et requiert un composant de transformation comme lien d'entrée. Les autres composants utilisés avec lui doivent également être des composants Map/Reduce. Ils génèrent nativement du code Map/Reduce pouvant être exécuté directement dans Hadoop. Lorsqu'un Job Map/Reduce est ouvert dans l'espace de modélisation graphique, le tFileInputXML et la famille MapReduce s'affichent dans la Palette du Studio. Notez que, dans cette documentation, sauf mention contraire, un scénario présente uniquement des Jobs Standard, c'est-à-dire des Jobs Talend traditionnels d'intégration de données et non des Jobs Map/Reduce. |
Connexion à Hadoop |
Vous devez utiliser l'onglet Hadoop Configuration de la vue Run afin de définir la connexion à une distribution Hadoop donnée pour le Job complet. Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |