Accéder au contenu principal Passer au contenu complémentaire

Ajout d'un jeu de données depuis HDFS

Vous pouvez accéder aux données stockées dans HDFS (Hadoop File System), directement depuis l'interface de Talend Data Preparation et les importer sous forme d'un jeu de données.

Procédure

  1. Dans la vue Datasets de la page d'accueil de Talend Data Preparation, cliquez sur la flèche blanche près du bouton Add Dataset.
  2. Sélectionnez HDFS.

    Le formulaire Add an HDFS dataset s'ouvre.

  3. Dans le champ Dataset name, saisissez le nom à donner à votre jeu de données.
  4. Dans le champ User name, saisissez votre nom d'utilisateur ou d'utilisatrice Linux.

    cet·te utilisateur·rice doit avoir les droits de lecture sur le fichier à importer.

  5. Pour activer l'authentification Kerberos, cochez la case Use Kerberos.
  6. Dans Principal
  7. Dans le champ Keytab file, saisissez l'emplacement de votre fichier Keytab.
    Vous pouvez configurer manuellement Talend Data Preparation pour afficher une valeur par défaut dans ces champs.
  8. Dans le champ Format, sélectionnez le format correspondant au fichier à importer.
    Pour les fichiers HDFS, Talend Data Preparation supporte les formats CSV, AVRO et PARQUET.
    Note InformationsAvertissement : Talend Data Preparation ne supporte pas l'import de fichiers PARQUET avec des données de type INT96. Dans ce cas, nous vous recommandons d'ajuster le fichier source.

    Si vous choisissez le format CSV, sélectionnez le séparateur d'enregistrements et le séparateur de champs, le caractère pour entourer le texte et le caractère d'échappement, ainsi que l'encodage pour le fichier que vous souhaitez importer.

  9. Dans le champ Path, saisissez l'URL complète de votre fichier dans le cluster Hadoop.
  10. Cliquez sur le bouton Add Dataset.

Résultats

Les données extraites du cluster s'ouvrent directement. Vous pouvez commencer à travailler sur votre préparation.

Les données sont toujours stockées dans votre cluster et ne l'ont pas quitté. Talend Data Preparation récupère uniquement un échantillon à la demande.

Votre jeu de données est disponible dans la vue Datasets de la page d'accueil de l'application.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.