Propriétés du tS3Configuration pour Apache Spark Batch
Ces propriétés sont utilisées pour configurer le tS3Configuration s'exécutant dans le framework de Jobs Spark Batch.
Le composant tS3Configuration Spark Batch appartient à la famille Stockage.
Le composant de ce framework est disponible dans tous les produits Talend avec Big Data nécessitant une souscription et dans Talend Data Fabric.
Basic settings
Access Key |
Saisissez l'ID de la clé d'accès identifiant de manière unique un compte AWS. Pour plus d'informations concernant l'obtention de vos Access Key et Secret Key, consultez Obtention de vos clés d'accès AWS. |
Secret Key |
La Secret Access Key, combinée à la clé d'accès, constitue votre accès sécurisé à Amazon S3. Pour saisir la clé secrète, cliquez sur le bouton [...] à côté du champ Secret key, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles puis cliquez sur OK afin de sauvegarder les paramètres. |
Hadoop S3 version | Sélectionnez dans la liste déroulante la version de Hadoop que vous utilisez. Si le cluster a des bibliothèques S3, sélectionnez l'option Use cluster's libraries pour éviter les conflits par chargement de dépendances non alignées. Si le cluster n'a pas de bibliothèque S3, sélectionnez la version correspondant aux bibliothèques Hadoop dans le cluster. Ce paramètre n'est pas disponible lorsque les Jobs Spark s'exécutent sur Spark Universal en mode Databricks, Local ou Standalone. |
Use EMRFS consistent view | Cochez cette case pour utiliser la vue EMR File System (EMRFS) consistent view. Cette option permet aux clusters EMR de vérifier la liste et la cohérence de lecture après écriture pour les objets Amazon S3 écrits par ou synchronisés avec EMRFS. Note InformationsRemarque : Évitez d'aller dans cette vue et d'en sortir régulièrement pour un bucket, cela peut créer des erreurs d'incohérence. Si ce problème survient, vous pouvez corriger les incohérences à l'aide de la commande sync dans l'invite de commande EMRFS. Pour plus d'informations, consultez Référence de l'interface de ligne de commande EMRFS.
Cette fonctionnalité est disponible avec la distribution Amazon EMR 5.29. |
EMRFS metadata table | Saisissez le nom de la table de métadonnées DynamoDB à utiliser. Note InformationsRemarque : Le nom de la table de métadonnées par défaut est EmrFSMetadata.
Ce champ est disponible uniquement lorsque vous avez coché la case Use EMRFS consistent view. |
Bucket name |
Saisissez le nom du bucket et celui du dossier à utiliser. Vous devez séparer le nom du bucket et le nom du dossier par une barre oblique (/). |
Temp folder |
Saisissez l'emplacement du dossier temporaire dans S3. Ce dossier sera automatiquement créé s'il n’existe pas lors de l'exécution. |
Inherit credentials from AWS (Récupérer les identifiants depuis AWS) | Cochez cette case pour obtenir les identifiants de sécurité AWS depuis votre rôle IAM. Cette option est disponible pour les clusters Amazon EMR et Databricks sur AWS. Pour utiliser cette option, le cluster doit être démarré et votre Job doit s'exécuter sur ce cluster. Pour plus d'informations, consultez Utilisation d'un rôle IAM pour accorder des autorisations à des applications s'exécutant sur des instances Amazon EC2 . Cette option vous permet de développer votre Job sans avoir à mettre de clé AWS dans le Job et ainsi satisfaire à la politique de sécurité de votre entreprise. |
Use SSE encryption | Cochez cette case pour utiliser le service de chiffrement SSE-KMS activé dans AWS afin de lire ou écrire les données chiffrées dans S3. Du côté EMR, le service SSE-KMS doit avoir été activé avec la fonctionnalité Default encryption (Chiffrement par défaut) et une clé CMK spécifiée pour le chiffrement. Pour plus d'informations concernant le chiffrement côté serveur, consultez Protection des données à l'aide d'un chiffrement côté serveur. Pour plus d'informations concernant l'activation de la fonctionnalité Default Encryption pour un bucket Amazon S3, consultez Chiffrement par défaut dans la documentation AWS. Cette propriété est disponible lorsque vous utilisez des distributions Amazon EMR. |
Bucket encryption |
Sélectionnez le chiffrement par défaut utilisé pour votre bucket dans la liste déroulante :
Cette propriété est disponible lorsque vous utilisez des distributions Amazon EMR. |
Use 'in-transit' encryption |
Cochez cette case pour activer le chiffrement des données en transit. Note InformationsRemarque : Le chiffrement en transit est sélectionné par défaut. Si vous désactivez cette option, vous n'avez pas besoin de configurer de cluster EMS chiffré KMS.
Cette propriété est disponible uniquement lorsque vous utilisez des distributions Amazon EMR avec chiffrement SSE-KMS. |
Assume Role (Endosser un rôle) |
Cochez cette case pour que votre Job agisse temporairement avec un rôle et les droits associés à ce rôle. Assurez-vous que l'accès à ce rôle a été octroyé à votre compte d'utilisateur ou d'utilisatrice par la politique de sécurité associée à ce rôle. En cas de doute, adressez-vous au propriétaire de ce rôle ou à votre administrateur AWS. Une fois cette case cochée, spécifiez les paramètres à utiliser que l'administrateur du système AWS a défini pour ce rôle.
Le paramètre External ID est requis uniquement si votre administrateur·trice AWS ou le propriétaire de ce rôle a défini un identifiant externe lors de la configuration de la politique de sécurité de ce rôle.
De plus, si l'administrateur·trice AWS a activé les endpoints STS pour des régions que vous souhaitez utiliser pour de meilleures performances de réponse, cochez la case Set STS region ou Set STS endpoint dans l'onglet Advanced settings. Cette case est disponible uniquement pour les distributions suivantes que Talend supporte :
Cette case est également disponible lorsque vous utilisez Spark V1.6 et supérieures en mode Spark Local dans l'onglet Spark configuration. |
KMS key id |
Sasissez l'ID de la CMK gérée par le client à utiliser pour le chiffrement.
Note InformationsRemarque : Vous pouvez utiliser l'un des formats suivants :
Le champ KMS key id est uniquement disponible lorsque vous cochez la case Use SSE encryption. Cette fonctionnalité est disponible lorsque vous utilisez une distribution Amazon avec Spark. |
Set region |
Cochez cette case et sélectionnez la région à laquelle vous connecter. Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
|
Set endpoint |
Cochez cette case et, dans le champ Endpoint qui s'affiche, saisissez l'endpoint de région Amazon à utiliser. Pour une liste d'endpoints disponibles, consultez Régions et points de terminaison AWS. Cette case n'est pas disponible lorsque vous avez coché la case Set region et, dans ce cas, la valeur sélectionnée dans la liste Set region est utilisée. Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
|
Advanced settings
Set region et Set endpoint |
De plus, si l'administrateur·trice AWS a activé les endpoints STS pour des régions que vous souhaitez utiliser pour de meilleures performances de réponse, cochez la case Set region et sélectionnez l'endpoint de région à utiliser. Si l'endpoint à utiliser n'est pas disponible dans la liste des endpoints de régions, décochez la case Set region (Définir la région), puis cochez la case Set endpoint (Définir l'endpoint) et saisissez l'endpoint à utiliser. Ce service vous permet d'effectuer une requête pour obtenir des identifiants temporaires, avec des droits limités, pour l'authentification utilisateur·rice à AWS. Vous devez fournit la clé d'accès et la clé secrète pour vous authentifier au compte AWS à utiliser. Pour la liste des endpoints STS que vous pouvez utiliser, consultez AWS Security Token Service. Pour plus d'informations concernant les identifiants STS temporaires, consultez Temporary Security Credentials. Ces deux articles proviennent de la documentation AWS. |
Utilisation
Usage rule |
Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants. Plusieurs composants tS3Configuration sont autorisés par Job. Déposez un composant tS3Configuration avec le sous-Job relatif au système de fichiers à exécuter au sein du même Job afin que la configuration soit utilisée par le Job complet lors de l'exécution. |
Connexion à Spark |
Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie. |
Limitation |
Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les JAR manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre Studio Talend. Pour plus d'informations, consultez la page Installation de modules externes. |