Accéder au contenu principal

Écriture côté serveur de données chiffrées KMS sur EMR

Si le service de chiffrement AWS SSE-KMS (chiffrement au repos) permet de configurer la propriété Default encryption pour protéger les données du système S3A de votre cluster EMR, sélectionnez l'option SSE-KMS dans tS3Configurationlors de l'écriture des données dans ce système S3A.

L'échantillon de données utilisé dans ce scénario porte sur différents types d'incidents rapportés par des clients, survenus dans Paris pendant la même journée.
1;226 rue marcadet, 75018 Paris;abandoned object;garbage on the street
2;2 rue marcadet, 75018 Paris;shift and damage;direction sign damaged
3;45 boulevard de la villette, 75010 Paris; abandoned object; suspicious package
4;10 rue emile lepeu, 75011 Paris;graffiti and improper poster;graffiti
5;27 avenue emile zola, 75015 Paris;shift and damage;deformed road
Cet échantillon de données est utilisé uniquement à des fins de démonstration.

Le Job calcule l'occurrence de chaque type d'incident.

Voici l'image du Job conçu pour écrire les données chiffrées sur EMR.

Pour plus de technologies supportées par Talend, consultez Composants Talend.

Prérequis :
  • Le système S3 à utiliser est S3A.
  • Le service de chiffrement SSE-KMS sur AWS doit être activé avec la fonctionnalité Default encryption et une clé CMK gérée par le client doit avoir été spécifiée.
  • Le cluster EMR à utiliser est créé avec SSE-KMS et le rôle EMR_EC2_DefaultRole a été ajouté à la CMK mentionnée ci-dessus.
  • L'administrateur de votre cluster EMR a attribué les droits et permissions appropriés au compte AWS utilisé dans vos Jobs.
  • Votre cluster EMR a été correctement configuré et est en cours d'exécution.
  • Un JobServer Talend a été déployé sur une instance au sein du réseau de votre cluster EMR, comme l'instance pour le maître de votre cluster.
Toutes ces opérations sont effectuées côté AWS.
  • Dans le Studio ou sur Talend Administration Center, définissez ce JobServer comme serveur d'exécution de vos Jobs.

Vérifiez que la machine cliente sur laquelle les Jobs Talend sont exécutés peut reconnaître les noms d'hôtes des nœuds du cluster Hadoop à utiliser. Dans cet objectif, ajoutez les mappings des entrées adresse IP/nom d'hôte pour les services de ce cluster Hadoop dans le fichier hosts de la machine cliente.

Si c'est la première fois que votre cluster EMR est configuré pour s'exécuter avec des Jobs Talend, recherchez Amazon EMR - Getting Started (en anglais) sur Talend Help Center (https://help.talend.com (uniquement en anglais)) pour vérifier votre configuration afin de permettre à vos Jobs de mieux fonctionner avec EMR.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.