Propriétés du tGreenplumGPLoad Standard
Ces propriétés sont utilisées pour configurer le tGreenplumGPLoad s'exécutant dans le framework de Jobs Standard.
Le composant tGreenplumGPLoad Standard appartient à la famille Bases de données.
Le composant de ce framework est disponible dans tous les produits Talend.
Basic settings
Property type |
Peut-être Built-In ou Repository.
|
Host |
Adresse IP du serveur de base de données. |
Port |
Numéro du port d'écoute du serveur de base de données. |
Database |
Nom de la base de données Greenplum. |
Schema |
Nom du schéma. |
Username et Password |
Données d'authentification de l’utilisateur ou l'utilisatrice de la base de données. Pour saisir le mot de passe, cliquez sur le bouton [...] à côté du champ Password, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles et cliquez sur OK afin de sauvegarder les paramètres. |
Table |
Nom de la table dans laquelle les données doivent être insérées. |
Action on table |
Vous pouvez effectuer l'une des opérations suivantes sur les données de la table sélectionnée : None : n'effectuer aucune opération de table. Clear a table : supprimer le contenu de la table. Create table : créer une table qui n'existe pas encore. Create table if not exists : créer la table si nécessaire. Drop and create table : supprimer la table, puis en créer une nouvelle. Drop table if exists and create : supprimer la table si elle existe déjà, puis en créer une nouvelle. Truncate table : supprimer le contenu de la table. Vous ne pouvez pas annuler l'opération (rollback). |
Action on data |
Sélectionnez l'opération que vous voulez effectuer : Insert : ajoute de nouvelles entrées à la table. Le Job s'arrête lorsque des doublons sont trouvés. Update : mettre à jour les entrées existantes. Merge : mettre à jour ou ajouter des données dans la table. Note InformationsAvertissement :
Il est nécessaire de spécifier au moins une colonne comme étant une clé primaire sur laquelle baser les opérations Update et Merge. Vous pouvez faire ceci en cliquant sur Edit Schema et en cochant la case correspondant à la colonne (aux colonnes) que vous souhaitez définir comme clé primaire. Pour configurer les options des opérations Update et Merge, cochez les cases de la colonne Match Column correspondant aux noms des colonnes que vous souhaitez utiliser comme base pour les opérations Update et Merge. Ensuite, cochez les cases de la colonne Update Column correspondant aux noms des colonnes que vous souhaitez mettre à jour. Pour configurer le champ Update condition, saisissez la condition qui sera utilisée pour mettre à jour les données. |
Schema et Edit schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs.
Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
|
Data file |
Chemin d'accès complet au fichier de données à utiliser. Si ce composant est utilisé seul (non connecté à un autre composant par un flux d'entrée), alors saisissez le nom d'un fichier existant à charger dans la base de données. S'il est connecté à un autre composant par un flux d'entrée, saisissez le nom du fichier à générer et à écrire avec les données d'entrée, afin de l'utiliser plus tard avec gpload pour charger dans la base de données. Ce champ est masqué lorsque la case Use named-pipe est cochée. |
Populate column list based on the schema |
Sélectionnez cette option pour ajouter au fichier YAML les colonnes définies dans le schéma. Cela est très utile si la table cible contient des colonnes supplémentaires (par exemple, pour charger uniquement les clés primaires dans une table de préparation). Sélectionner cette option génère la section COLUMNS: dans le fichier YAML. |
Use named-pipe |
Cochez cette case afin d'utiliser un tube nommé à la place d'un fichier de données. Cette option ne peut être utilisée que lorsque le composant est connecté à un autre composant par un flux d'entrée. Quand la case est cochée, aucun fichier de données n'est généré, et les données sont transférées à l'utilitaire gpload via un tube nommé. Cette option améliore grandement les performances sous Linux et Windows. Note InformationsRemarque :
Ce composant, en mode tube nommé, utilise une interface JNI pour créer un tube nommé et écrire dedans, dans toute plateforme Windows. Le chemin d'accès associé au fichier DLL JNI doit être configuré dans le chemin d'accès à la bibliothèque Java. Le composant est automatiquement fourni dans le Studio Talend avec deux DLL pour les systèmes d'exploitation de 32 et 64 bits. |
Named-pipe name |
Spécifiez un nom pour le tube nommé à utiliser. Vérifiez que le nom saisi est valide. |
Die on error |
Cette case est cochée par défaut. Décochez cette case pour terminer le traitement avec les lignes sans erreur, et ignorer les lignes en erreur. Si nécessaire, vous pouvez récupérer les lignes en erreur en utilisant un lien de type Row > Rejects. |
Paramètres avancés
DB driver |
Sélectionnez le pilote de base de données à utiliser dans la liste déroulante, pouvant être Greenplum et PostgreSQL. La valeur par défaut est Greenplum. |
Paramètres supplémentaires |
Spécifiez des paramètres supplémentaires pour la connexion à la base de données. |
Use existing control file (YAML formatted) |
Cochez cette case pour fournir un fichier de contrôle à utiliser avec l'utilitaire gpload au lieu de spécifier explicitement toutes les options dans le composant. Lorsque cette case est cochée, l'option Data file ainsi que les autres options liées à l'utilitaire gpload ne s'appliquent plus. Veuillez vous référer au manuel du gpload de Greenplum pour plus d'informations concernant la création d'un fichier de contrôle. |
Control file |
Saisissez le chemin d'accès au fichier de contrôle à utiliser, entre guillemets doubles, ou cliquez sur le bouton [...] afin de parcourir votre répertoire jusqu'au fichier de contrôle. Cette option est passée à l'utilitaire gpload via l'argument -f. |
CSV mode |
Cochez cette case pour inclure des paramètres spécifiques au format CSV, tels que Escape char et Text enclosure. |
Field separator |
Caractère, chaîne de caractères ou expression régulière utilisé pour séparer les champs. Note InformationsAvertissement :
Argument delim de l'utilitaire gpload. La valeur par défaut est |. Pour améliorer les performances, utilisez la valeur par défaut. |
Escape char |
Caractère d'échappement de la ligne. |
Text enclosure |
Caractères utilisés pour entourer le texte. |
Header (skips the first row of data file) |
Cochez cette case pour ignorer la première ligne du fichier de données. |
Additional options |
Définissez les arguments gpload dans le tableau correspondant. Cliquez sur le bouton [+] autant de fois que nécessaire afin d'ajouter les arguments au tableau. Cliquez sur le champ Parameter et choisissez l'argument souhaité dans la liste, puis cliquez sur le champ Value correspondant et saisissez une valeur entre guillemets.
|
Log file |
Saisissez le chemin d'accès à votre fichier de log, ou parcourez votre répertoire. |
Encoding |
Saisissez le type d'encodage manuellement dans le champ. |
Specify gpload path |
Cochez cette case afin de spécifier le chemin d'accès complet à l'exécutable gpload. Vous devez cocher cette case si le chemin d'accès n'est pas spécifié dans la variable d'environnement PATH. |
Full path to gpload executable |
Chemin d'accès complet à l'exécutable gpload sur la machine en cours d'utilisation. Il est recommandé de spécifier le chemin d'accès dans la variable d'environnement PATH au lieu de sélectionner cette option. |
Remove datafile on successful execution |
Sélectionnez cette option pour supprimer le fichier de données généré si l'opération se termine correctement. |
Gzip compress the datafile |
Sélectionnez cette option pour compresser le fichier de données avec Gzip, ce qui économise l'espace disque d'environ 50-90 % de la taille originale. Cependant, cela augmente l'utilisation du processeur. |
Statistiques du tStatCatcher |
Cochez cette case pour collecter les données de log au niveau des composants. |
Variables globales
Global Variables |
NB_LINE : nombre de lignes traitées. Cette variable est une variable After et retourne un entier. GPLOAD_OUTPUT : les informations de sortie lors de l'exécution de l'utilitaire gpload. Cette variable est une variable After et retourne une chaîne de caractères. ERROR_MESSAGE : message d'erreur généré par le composant lorsqu'une erreur survient. Cette variable est une variable After et retourne une chaîne de caractères. Cette variable fonctionne uniquement si la case Die on error est décochée, lorsque le composant contient cette case. NB_LINE_INSERTED : nombre de lignes insérées. Cette variable est une variable After et retourne un entier. NB_LINE_UPDATED : nombre de lignes mises à jour. Cette variable est une variable After et retourne un entier. NB_DATA_ERRORS : nombre d'erreurs survenues. Cette variable est une variable After et retourne un entier. GPLOAD_STATUS : statut de l'opération de chargement. Cette variable est une variable After et retourne une chaîne de caractères. GPLOAD_RUNTIME : coût en temps (en ms) de l'opération de chargement. Cette variable est une variable After de type long. Une variable Flow fonctionne durant l'exécution d'un composant. Une variable After fonctionne après l'exécution d'un composant. Pour renseigner un champ ou une expression à l'aide d'une variable, appuyez sur les touches Ctrl+Espace pour accéder à la liste des variables. À partir de cette liste, vous pouvez choisir la variable que vous souhaitez utiliser. Pour plus d'informations concernant les variables, consultez Utiliser les contextes et les variables. |
Utilisation
Règle d'utilisation |
Ce composant est principalement utilisé lorsque des transformations particulières ne sont pas requises sur les données à charger dans la base de données. Ce composant peut être utilisé en standalone ou en tant que composant de sortie. |
Limitation |
Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les JAR manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre Studio Talend. Pour plus d'informations, consultez la page Installation de modules externes. |