Écrire les données d'agrégation sur les incidents de rue dans EMR

Procédure

Double-cliquez sur le composant tFileOutputParquet pour ouvrir sa vue Component.
Exemple
Cochez la case Define a storage configuration component et sélectionnez le composant tS3Configuration configuré au cours des étapes précédentes.
Cliquez sur Sync columns pour vous assurer que le tFileOutputParquet retrouve le schéma du côté de sortie de tAggregateRow.
Dans le champ Folder/File, saisissez le nom du dossier à utiliser pour stocker les données d'agrégation dans le bucket S3 spécifié dans tS3Configuration. Par exemple, saisissez /sample_user afin que le dossier appelé sample_user à la racine du bucket soit utilisé lors de l'exécution pour stocker la sortie de votre Job.
Dans la liste Action, sélectionnez Create si ce dossier n'existe pas encore dans le bucket à utiliser. Si ce dossier existe déjà, sélectionnez Overwrite.
Cliquez sur Run pour ouvrir cette vue et cliquez sur l'onglet Spark Configuration pour ouvrir cette vue et configurer la connexion à Spark.
Cochez la case Use local mode pour tester votre Job localement avant d'éventuellement le soumettre au cluster distant Spark.

En mode local, le Studio construit l'environnement Spark en lui-même à la volée pour exécuter le Job dedans. Chaque processeur de la machine locale est utilisé comme worker Spark pour effectuer les calculs.
Dans ce mode, votre système de fichiers local est utilisé. Désactivez les composants de configuration comme le tS3Configuration ou le tHDFSConfiguration fournissant les informations de connexion à un système de fichiers distant, si vous avez placé ces composants dans votre Job.
Dans la vue Component du tFileOutputParquet, dans le champ Folder/File, changez le chemin du fichier en un répertoire local et ajustez l'action à exécuter dans la liste déroulante Action, à savoir créer un dossier ou écraser le dossier existant.
Dans l'onglet Run, cliquez sur Basic Run puis cliquez sur Run pour exécuter localement votre Job afin de tester la logique du modèle.
Lorsque votre Job s'exécute correctement, décochez la case Use local mode dans la vue Spark Configuration de l'onglet Run puis, dans l'espace de modélisation graphique de votre Job, activez les composants de configuration et annulez les modifications que vous venez de faire dans le tFileOutputParquet pour le test local.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici

Écrire les données d'agrégation sur les incidents de rue dans EMR

Procédure

Exemple

Cette page vous a-t-elle aidé ?