Propriétés du tSnowflakeOutput pour Apache Spark Batch (aperçu technique)
Ces propriétés sont utilisées pour configurer le tSnowflakeOutput s'exécutant dans le framework de Jobs Spark Batch.
Le composant tSnowflakeOutput Spark Batch appartient à la famille Bases de données.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data nécessitant une souscription et dans Talend Data Fabric.
Basic settings
Use an existing configuration |
Cochez cette case et sélectionnez le composant de connexion adéquat dans la liste Component list pour réutiliser les paramètres d'une connexion que vous avez déjà définie. |
Account |
Dans le champ Account, saisissez, entre guillemets doubles, le nom qui vous a été assigné par Snowflake. |
Snowflake Region |
Sélectionnez une région AWS ou Azure dans la liste Snowflake Region. |
Authentication method |
Sélectionnez la méthode d'authentification.
Note InformationsRemarque : Avant de sélectionner l'option Key Pair, assurez-vous de configurer les données d'authentification par paire de clés dans la vue Basic settings du composant tSetKeystore, comme suit.
Note InformationsRemarque : L'option Key Pair est disponible uniquement avec les distributions EMR 5.29 et CDH 6.1 lorsque vous utilisez Spark v2.4 ou supérieure en mode Spark local.
|
User Id et Password |
Saisissez entre guillemets doubles, vos informations d'authentification à Snowflake.
|
Warehouse |
Saisissez, entre guillemets doubles, le nom de l'entrepôt Snowflake à utiliser. Ce nom est sensible à la casse et est normalement en lettres capitales dans Snowflake. |
Schema |
Saisissez, entre guillemets doubles, le nom du schéma de la base de données à utiliser. Ce nom est sensible à la casse et est normalement en lettres capitales dans Snowflake. |
Database |
Saisissez, entre guillemets doubles, le nom de la base de données Snowflake à utiliser. Ce nom est sensible à la casse et est normalement en lettres capitales dans Snowflake. |
Table |
Cliquez sur le bouton [...] et, dans l'assistant qui s'affiche, sélectionnez la table Snowflake à utiliser. |
Schema et Edit Schema |
Un schéma est une description de lignes. Il définit le nombre de champs (colonnes) à traiter et à passer au composant suivant. Lorsque vous créez un Job Spark, évitez le mot réservé line lors du nommage des champs. Built-in : le schéma est créé et conservé localement pour ce composant seulement. Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets. Si le type de données Snowflake à gérer est VARIANT, OBJECT ou ARRAY, lorsque vous définissez le schéma dans le composant, sélectionnez String pour les données correspondantes dans la colonne Type de l'éditeur de schéma. Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :
Notez que, si la valeur d'entrée d'un champ primitif non nullable est nulle, la ligne de données comprenant ce champ sera rejetée. |
Output Action |
Seule l'action Insert est supportée par le Snowflake dans Spark. |
Propriétés de la connexion |
Saisissez, entre guillemets doubles, une propriété de connexion et sa valeur associée dans les colonnes correspondantes. Vous pouvez trouver les propriétés disponibles dans Setting Configuration Options for the Connector, dans la documentation officielle de Snowflake. |
Utilisation
Règle d'utilisation |
Ce composant est utilisé en tant que composant de fin et requiert un lien d'entrée. Utilisez un composant tSnowflakeConfiguration : mettez à jour le composant du même Job pour vous connecter à Snowflake. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |