Propriétés du tSnowflakeInput pour Apache Spark Batch (aperçu technique)
Ces propriétés sont utilisées pour configurer le tSnowflakeInput s'exécutant dans le framework de Jobs Spark Batch.
Le composant tSnowflakeInput Spark Batch appartient à la famille Bases de données.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data nécessitant une souscription et dans Talend Data Fabric.
Basic settings
Use an existing configuration |
Cochez cette case et sélectionnez le composant de connexion adéquat dans la liste Component list pour réutiliser les paramètres d'une connexion que vous avez déjà définie. |
Account |
Dans le champ Account, saisissez, entre guillemets doubles, le nom qui vous a été assigné par Snowflake. |
Region |
Sélectionnez une région AWS ou Azure dans la liste déroulante. |
Authentication method |
Sélectionnez la méthode d'authentification.
Note InformationsRemarque : Avant de sélectionner l'option Key Pair, assurez-vous de configurer les données d'authentification par paire de clés dans la vue Basic settings du composant tSetKeystore, comme suit.
Note InformationsRemarque : L'option Key Pair est disponible uniquement avec les distributions EMR 5.29 et CDH 6.1 lorsque vous utilisez Spark v2.4 ou supérieure en mode Spark local.
|
Username et Password |
Saisissez entre guillemets doubles, vos informations d'authentification à Snowflake.
|
Database |
Saisissez, entre guillemets doubles, le nom de la base de données Snowflake à utiliser. Ce nom est sensible à la casse et est normalement en lettres capitales dans Snowflake. |
Warehouse |
Saisissez, entre guillemets doubles, le nom de l'entrepôt Snowflake à utiliser. Ce nom est sensible à la casse et est normalement en lettres capitales dans Snowflake. |
Schema et Edit Schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Built-in : le schéma est créé et conservé localement pour ce composant seulement. Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. Si le type de données Snowflake à gérer est VARIANT, OBJECT ou ARRAY, lorsque vous définissez le schéma dans le composant, sélectionnez String pour les données correspondantes dans la colonne Type de l'éditeur de schéma. Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
Notez que, si la valeur d'entrée d'un champ primitif non nullable est nulle, la ligne de données comprenant ce champ sera rejetée. Ce composant offre la fonction de schéma dynamique. Cela vous permet de récupérer des colonnes inconnues de fichiers sources ou de copier des lots de colonnes d'une source sans avoir à mapper chaque colonne individuellement. Pour plus d'informations concernant les schémas dynamiques, consultez Schéma dynamique. Cette fonctionnalité de schéma dynamique est conçue pour permettre de récupérer des colonnes inconnues d'une table. Il est recommandé de l'utiliser uniquement à cet effet et non pour créer des tables. |
Table Name | Saisissez, entre guillemets doubles, le nom de la table Snowflake à utiliser. Ce nom est sensible à la casse et est normalement en majuscules dans Snowflake. |
Read from | Sélectionnez Table ou Query dans la liste déroulante. |
Propriétés de la connexion |
Saisissez, entre guillemets doubles, une propriété de connexion et sa valeur associée dans les colonnes correspondantes. Vous pouvez trouver les propriétés disponibles dans Setting Configuration Options for the Connector, dans la documentation officielle de Snowflake. |
Paramètres avancés
Allow Snowflake to convert columns and tables to uppercase | Cochez cette case pour passer les minuscules en majuscules, dans le nom de la table et des colonnes du schéma définies. Notez que les identifiants doivent correspondre à la syntaxe des identifiants Snowflake. Lorsque cette case est décochée, tous les identifiants sont automatiquement placés entre guillemets. Cette propriété est disponible uniquement lorsque la case Manual Query est cochée. Pour plus d'informations concernant la syntaxe des identifiants Snowflake, consultez Identifier Syntax (en anglais). |
Use Custom Region | Cochez cette case pour utiliser les régions Snowflake personnalisées. |
Custom Region | Saisissez, entre guillemets doubles, le nom de la région à utiliser. Ce nom est sensible à la casse et est normalement en majuscules dans Snowflake. |
Trim all the String/Char columns |
Cochez cette case pour supprimer les espaces en début et en fin de champ dans toutes les colonnes contenant des chaînes de caractères. |
Trim columns | Supprimez les espaces en début et en fin de champ dans les colonnes sélectionnées. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé en tant que composant de début et nécessite un lien de sortie. Utilisez un composant tSnowflakeConfiguration : mettez à jour le composant du même Job pour vous connecter à Snowflake. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |