Propriétés du tDataprepRun pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tDataprepRun s'exécutant dans le framework de Jobs Spark Batch.
Le composant tDataprepRun Spark Batch appartient à la famille Préparation de données Talend.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data et dans Talend Data Fabric.
Basic settings
URL |
Saisissez, entre guillemets doubles, l'URL de l'application Web Talend Data Preparation. Si vous utilisez Talend Cloud Data Preparation, utilisez l'URL du centre de données correspondant pour accéder à l'application, par exemple, https://tdp.us.cloud.talend.com pour le centre de données AWS US. Pour la liste des URL des centres de données disponibles, consultez URL et régions de Talend Cloud. |
|
Saisissez, entre guillemets doubles, l'adresse e-mail que vous utilisez pour vous connecter à l'application Web Talend Data Preparation. |
Password |
Cliquez sur le bouton [...] et saisissez, entre guillemets doubles, votre mot de passe pour l'application Web Talend Data Preparation. Si vous utilisez Talend Cloud Data Preparation et que :
|
Lorsque vous utilisez les propriétés de sélection de préparation par défaut :
Preparation |
Pour renseigner le champ Preparation, cliquez sur Choose an existing preparation et sélectionnez l'une des préparations précédemment créées, dans la boîte de dialogue. Cette boîte de dialogue affiche le nom, le chemin, l'auteur et la date de dernière modification de chacune des préparations. |
|
Cliquez sur ce bouton afin de modifier dans Talend Data Preparation la préparation correspondant à l'identifiant défini dans Preparation. |
Version |
Si vous avez créé plusieurs versions de votre préparation, vous pouvez choisir laquelle utiliser dans le Job. Pour remplir le champ Version, cliquez sur Choose a Version et choisissez parmi les versions existantes, y compris la version actuelle de la préparation. |
Schema et Edit Schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job. |
Fetch Schema |
Cliquez sur ce bouton pour récupérer le schéma à partir de la préparation définie dans le champ Preparation. |
Lorsque vous utilisez la sélection dynamique de préparation :
Dynamic preparation selection |
Cochez cette case pour définir le chemin d'une préparation ainsi que sa version en utilisant des variables de contexte. La préparation sera sélectionnée dynamiquement au moment de l’exécution du Job. |
Preparation path |
Utilisez une variable de contexte pour définir le chemin de la préparation. Les chemins avec ou sans le / en début de ligne sont supportés. |
Preparation version |
Utilisez une variable de contexte pour définir la version à utiliser pour la préparation. Les version de préparation sont référencées par leur numéro. En conséquence, pour exécuter la version #2 d'une préparation par exemple, la valeur attendue est "2". Pour exécuter la version actuelle d'une préparation, la valeur attendue est "Current state". |
Schema et Edit Schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job. |
Fetch Schema |
Cliquez sur ce bouton pour récupérer dynamiquement le schéma de la préparation définie par la variable de contexte dans le champ Preparation path. Si la récupération du schéma est réussie, tout schéma précédemment configuré sera écrasé. Si la récupération échoue, alors le schéma actuel est conservé. |
Advanced settings
Encoding |
Sélectionnez l'encodage à partir de la liste ou sélectionnez Custom et définissez-le manuellement. |
Variables globales
Variables globales |
ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. Une variable Flow fonctionne durant l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez le Guide d'utilisation du Studio Talend. |
Utilisation
Règle d'utilisation |
Ce composant est un composant intermédiaire. Il requiert un flux d'entrée et un flux de sortie. |
Limitations |
|
Mode Yarn cluster |
Lorsque le mode Yarn cluster mode est sélectionné, le pilote du Job est exécuté sur l'une des machines du cluster Hadoop et non pas sur une machine locale. Puisqu'il n'est pas possible de connaître à l'avance le nœud du cluster sur lequel le Job sera exécuté, vous devez vous assurer que tous les nœuds du cluster sont accessibles depuis le serveur de Talend Data Preparation. |