Accéder au contenu principal Passer au contenu complémentaire

Propriétés du tS3Configuration pour Apache Spark Batch

Ces propriétés sont utilisées pour configurer le tS3Configuration s'exécutant dans le framework de Jobs Spark Batch.

Le composant tS3Configuration Spark Batch appartient à la famille Stockage.

Le composant de ce framework est disponible dans tous les produits Talend avec Big Data nécessitant une souscription et dans Talend Data Fabric.

Basic settings

Access Key

Saisissez l'ID de la clé d'accès identifiant de manière unique un compte AWS. Pour plus d'informations concernant l'obtention de vos Access Key et Secret Key, consultez Obtention de vos clés d'accès AWS.

Secret Key

La Secret Access Key, combinée à la clé d'accès, constitue votre accès sécurisé à Amazon S3.

Pour saisir la clé secrète, cliquez sur le bouton [...] à côté du champ Secret key, puis, dans la boîte de dialogue qui s'ouvre, saisissez le mot de passe entre guillemets doubles puis cliquez sur OK afin de sauvegarder les paramètres.

Hadoop S3 version Sélectionnez dans la liste déroulante la version de Hadoop que vous utilisez.

Si le cluster a des bibliothèques S3, sélectionnez l'option Use cluster's libraries pour éviter les conflits par chargement de dépendances non alignées. Si le cluster n'a pas de bibliothèque S3, sélectionnez la version correspondant aux bibliothèques Hadoop dans le cluster.

Ce paramètre n'est pas disponible lorsque les Jobs Spark s'exécutent sur Spark Universal en mode Databricks, Local ou Standalone.

Use EMRFS consistent view Cochez cette case pour utiliser la vue EMR File System (EMRFS) consistent view. Cette option permet aux clusters EMR de vérifier la liste et la cohérence de lecture après écriture pour les objets Amazon S3 écrits par ou synchronisés avec EMRFS.
Note InformationsRemarque : Évitez d'aller dans cette vue et d'en sortir régulièrement pour un bucket, cela peut créer des erreurs d'incohérence. Si ce problème survient, vous pouvez corriger les incohérences à l'aide de la commande sync dans l'invite de commande EMRFS. Pour plus d'informations, consultez Référence de l'interface de ligne de commande EMRFS.

Cette fonctionnalité est disponible avec la distribution Amazon EMR 5.29.

EMRFS metadata table Saisissez le nom de la table de métadonnées DynamoDB à utiliser.
Note InformationsRemarque : Le nom de la table de métadonnées par défaut est EmrFSMetadata.

Ce champ est disponible uniquement lorsque vous avez coché la case Use EMRFS consistent view.

Bucket name

Saisissez le nom du bucket et celui du dossier à utiliser. Vous devez séparer le nom du bucket et le nom du dossier par une barre oblique (/).

Temp folder

Saisissez l'emplacement du dossier temporaire dans S3. Ce dossier sera automatiquement créé s'il n’existe pas lors de l'exécution.

Inherit credentials from AWS (Récupérer les identifiants depuis AWS) Cochez cette case pour obtenir les identifiants de sécurité AWS depuis votre rôle IAM. Cette option est disponible pour les clusters Amazon EMR et Databricks sur AWS. Pour utiliser cette option, le cluster doit être démarré et votre Job doit s'exécuter sur ce cluster. Pour plus d'informations, consultez Utilisation d'un rôle IAM pour accorder des autorisations à des applications s'exécutant sur des instances Amazon EC2 .

Cette option vous permet de développer votre Job sans avoir à mettre de clé AWS dans le Job et ainsi satisfaire à la politique de sécurité de votre entreprise.

Use SSE encryption Cochez cette case pour utiliser le service de chiffrement SSE-KMS activé dans AWS afin de lire ou écrire les données chiffrées dans S3.

Du côté EMR, le service SSE-KMS doit avoir été activé avec la fonctionnalité Default encryption (Chiffrement par défaut) et une clé CMK spécifiée pour le chiffrement.

Pour plus d'informations concernant le chiffrement côté serveur, consultez Protection des données à l'aide d'un chiffrement côté serveur.

Pour plus d'informations concernant l'activation de la fonctionnalité Default Encryption pour un bucket Amazon S3, consultez Chiffrement par défaut dans la documentation AWS.

Cette propriété est disponible lorsque vous utilisez des distributions Amazon EMR.

Bucket encryption
Sélectionnez le chiffrement par défaut utilisé pour votre bucket dans la liste déroulante :
  • aws:kms : chiffrement côté serveur avec AWS KMS-Managed Keys (SSE-KMS)
  • SSE-S3 : chiffrement côté serveur avec des clés gérées par Amazon S3 (SSE-S3)

Cette propriété est disponible lorsque vous utilisez des distributions Amazon EMR.

Use 'in-transit' encryption

Cochez cette case pour activer le chiffrement des données en transit.

Note InformationsRemarque : Le chiffrement en transit est sélectionné par défaut. Si vous désactivez cette option, vous n'avez pas besoin de configurer de cluster EMS chiffré KMS.

Cette propriété est disponible uniquement lorsque vous utilisez des distributions Amazon EMR avec chiffrement SSE-KMS.

Assume Role (Endosser un rôle)

Cochez cette case pour que votre Job agisse temporairement avec un rôle et les droits associés à ce rôle.

Assurez-vous que l'accès à ce rôle a été octroyé à votre compte d'utilisateur ou d'utilisatrice par la politique de sécurité associée à ce rôle. En cas de doute, adressez-vous au propriétaire de ce rôle ou à votre administrateur AWS.

Une fois cette case cochée, spécifiez les paramètres à utiliser que l'administrateur du système AWS a défini pour ce rôle.
  • Role ARN : nom Amazon Resource Name (ARN) du rôle. Vous pouvez trouver ce nom ARN sur la page Summary du rôle à utiliser sur votre portail AWS. Ce ARN de rôle pourrait être par exemple am:aws:iam::[aws_account_number]:role/[role_name].

    Role session name : saisissez le nom que vous souhaitez utiliser pour identifier de façon unique votre session de rôle. Ce nom peut être composé de caractères alphanumériques en majuscules ou en minuscules, sans espaces. Vous pouvez également inclure des tirets bas ou les caractères suivants : =,.@-.
  • Session duration (minutes) : durée (en minutes) pour laquelle vous souhaitez que la session du rôle soit active. Cette durée ne peut pas être supérieure à la durée maximale définie par votre administrateur AWS. La durée par défaut est de 3 600 secondes si vous ne configurez pas de valeur.

Le paramètre External ID est requis uniquement si votre administrateur·trice AWS ou le propriétaire de ce rôle a défini un identifiant externe lors de la configuration de la politique de sécurité de ce rôle.

  • Policy : saisissez une politique IAM au format JSON, à utiliser comme politique de session. Utilisez les politiques de session afin de limiter les autorisations de la session. Les autorisations de la session sont au croisement de la stratégie des rôles basée sur l'identité et des stratégies de sessions.
  • Policy ARNs : saisissez les noms ARN (Amazon Resource Names) des stratégies gérées par IAM que vous souhaitez utiliser comme stratégies de sessions gérées. Utiliser les stratégies de sessions gérées afin de limiter les autorisations de la session. Les politiques doivent exister dans le même compte que le rôle. Les autorisations de la session sont au croisement de la stratégie des rôles basée sur l'identité et des stratégies de sessions.
  • Serial Number : lorsque vous avez un rôle attribué, la politique de confiance de ce rôle peut nécessiter une authentification multifacteur. Dans ce cas, vous devez indiquer le numéro d'identification du matériel ou de l'appareil d'authentification multifacteur virtuel associé à l'utilisateur ou l'utilisatrice ayant ce rôle.
  • Tags : liste les balises de session sous forme de paires clé-valeur. Vous pouvez utiliser ces balises de session dans des politiques afin de permettre d'autoriser ou l'accès aux requêtes.
  • Token Code : lorsque vous avez un rôle attribué, la politique de confiance de ce rôle peut nécessiter une authentification multifacteur. Dans ce cas, vous devez indiquer un code de jeton. Ce code de jeton est un mot de passe à utilisation unique produit par l'appareil d'authentification multifacteur.
  • Transitive Tag Keys : liste les balises de session sous forme de paires clé-valeur à faire persister dans le rôle suivant dans une chaîne de rôles.

De plus, si l'administrateur·trice AWS a activé les endpoints STS pour des régions que vous souhaitez utiliser pour de meilleures performances de réponse, cochez la case Set STS region ou Set STS endpoint dans l'onglet Advanced settings.

Cette case est disponible uniquement pour les distributions suivantes que Talend supporte :
  • CDH 5.10 et supérieures (y compris le support dynamique des dernières distributions Cloudera)

  • HDP 2.5 et supérieures

  • EMR 5.15 et supérieures

  • CDP Private Cloud Base 7.1.x

Cette case est également disponible lorsque vous utilisez Spark V1.6 et supérieures en mode Spark Local dans l'onglet Spark configuration.

KMS key id
Sasissez l'ID de la CMK gérée par le client à utiliser pour le chiffrement.
Note InformationsRemarque : Vous pouvez utiliser l'un des formats suivants :
  • arn:aws:kms:region:account-id:key/key-id
  • key-id

Le champ KMS key id est uniquement disponible lorsque vous cochez la case Use SSE encryption. Cette fonctionnalité est disponible lorsque vous utilisez une distribution Amazon avec Spark.

Set region

Cochez cette case et sélectionnez la région à laquelle vous connecter.

Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
  • Amazon EMR V4.5 jusqu'à V5.15. EMR utilise EMRFS à partir de la version 5.29

  • MapR à partir de la version 5.0

  • Hortonworks Data Platform à partir de la version 2.4

  • Cloudera à partir de la version 5.8. Pour Cloudera V5.8, la version de Spark doit être 2.0.

  • Cloudera Altus

Set endpoint

Cochez cette case et, dans le champ Endpoint qui s'affiche, saisissez l'endpoint de région Amazon à utiliser. Pour une liste d'endpoints disponibles, consultez Régions et points de terminaison AWS.

Cette case n'est pas disponible lorsque vous avez coché la case Set region et, dans ce cas, la valeur sélectionnée dans la liste Set region est utilisée.

Cette fonctionnalité est disponible lorsque vous utilisez l'une des distributions suivantes avec Spark :
  • Amazon EMR V4.5 jusqu'à V5.15. EMR utilise EMRFS à partir de la version 5.29

  • MapR à partir de la version 5.0

  • Hortonworks Data Platform à partir de la version 2.4

  • Cloudera à partir de la version 5.8. Pour Cloudera V5.8, la version de Spark doit être 2.0.

  • Cloudera Altus

Advanced settings

Set region et Set endpoint

De plus, si l'administrateur·trice AWS a activé les endpoints STS pour des régions que vous souhaitez utiliser pour de meilleures performances de réponse, cochez la case Set region et sélectionnez l'endpoint de région à utiliser.

Si l'endpoint à utiliser n'est pas disponible dans la liste des endpoints de régions, décochez la case Set region (Définir la région), puis cochez la case Set endpoint (Définir l'endpoint) et saisissez l'endpoint à utiliser.

Ce service vous permet d'effectuer une requête pour obtenir des identifiants temporaires, avec des droits limités, pour l'authentification utilisateur·rice à AWS. Vous devez fournit la clé d'accès et la clé secrète pour vous authentifier au compte AWS à utiliser.

Pour la liste des endpoints STS que vous pouvez utiliser, consultez AWS Security Token Service. Pour plus d'informations concernant les identifiants STS temporaires, consultez Temporary Security Credentials. Ces deux articles proviennent de la documentation AWS.

Utilisation

Usage rule

Ce composant est utilisé sans avoir besoin d'être connecté à d'autres composants.

Plusieurs composants tS3Configuration sont autorisés par Job.

Déposez un composant tS3Configuration avec le sous-Job relatif au système de fichiers à exécuter au sein du même Job afin que la configuration soit utilisée par le Job complet lors de l'exécution.

Connexion à Spark

Dans l'onglet Spark Configuration de la vue Run, définissez la connexion à un cluster Spark donné pour le Job complet. De plus, puisque le Job attend ses fichiers .jar dépendants pour l'exécution, vous devez spécifier le répertoire du système de fichiers dans lequel ces fichiers .jar sont transférés afin que Spark puisse accéder à ces fichiers :
  • Yarn mode (Yarn Client ou Yarn Cluster) :
    • Lorsque vous utilisez Google Dataproc, spécifiez un bucket dans le champ Google Storage staging bucket de l'onglet Spark configuration.

    • Lorsque vous utilisez HDInsight, spécifiez le blob à utiliser pour le déploiement du Job, dans la zone Windows Azure Storage configuration de l'onglet Spark configuration.

    • Lorsque vous utilisez Altus, spécifiez le bucket S3 ou le stockage Azure Data Lake Storage (aperçu technique) pour le déploiement du Job, dans l'onglet Spark configuration.
    • Lorsque vous utilisez des distributions sur site (on-premises), utilisez le composant de configuration correspondant au système de fichiers utilisé par votre cluster. Généralement, ce système est HDFS et vous devez utiliser le tHDFSConfiguration.

  • Standalone mode : utilisez le composant de configuration correspondant au système de fichiers que votre cluster utilise, comme le tHDFSConfiguration Apache Spark Batch ou le tS3Configuration Apache Spark Batch.

    Si vous utilisez Databricks sans composant de configuration dans votre Job, vos données métier sont écrites directement dans DBFS (Databricks Filesystem).

Cette connexion fonctionne uniquement pour le Job dans lequel vous l'avez définie.

Limitation

Du fait d'une incompatibilité de licence, un ou plusieurs Jar requis pour utiliser ce composant ne sont pas fournis. Vous pouvez installer les Jar manquants pour ce composant en cliquant sur le bouton Install dans l'onglet Component. Vous pouvez également trouver les JAR manquants et les ajouter dans l'onglet Modules de la perspective Integration de votre Studio Talend. Pour plus d'informations, consultez la page Installation de modules externes.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.