Charger des fichiers dans DBFS (Databricks File System)

Charger un fichier dans DBFS permet à des Jobs Big Data de lire et traiter ce fichier. DBFS est le système de fichiers Big Data à utiliser dans cet exemple.

Dans cette procédure, vous allez créer un Job qui écrit des données dans votre système DBFS. Pour obtenir les fichiers requis pour ce scénario, téléchargez gettingstarted_source_files.zip.

Avant de commencer

Vous avez démarré le Studio Talend et ouvert la perspective Integration .

Procédure

Dans la vue Repository, développez le nœud Job Designs, cliquez-droit sur le nœud Standard, et sélectionnez Create folder dans le menu contextuel.
Dans l'assistant New Folder, nommez le dossier de Jobs getting_started, puis cliquez sur Finish pour créer le dossier.
Cliquez-droit sur le dossier getting_started et sélectionnez Create Standard Job dans le menu contextuel.
Dans l'assistant New Job, saisissez un nom pour le Job à créer, ainsi que d'autres informations utiles.

Par exemple, saisissez write_to_dbfs dans le champ Name.

Dans cette étape de l'assistant, Name est le seul champ obligatoire. Les informations que vous fournissez dans le champ Description s'affichent en tant qu'info-bulle lorsque vous passez votre curseur sur le Job dans la vue Repository.
Cliquez sur Finish pour créer votre Job.

Un Job est ouvert dans le Studio Talend.
Dans l'espace de modélisation graphique de ce Job vide, saisissez dbfs pour rechercher les composants associés à DBFS. Dans la liste de composants qui s'affiche, double-cliquez sur tDBFSConnection pour le sélectionner. Le tDBFSConnection est ajouté à l'espace de modélisation graphique.
Répétez l'opération pour ajouter tDBFSPut à l'espace de modélisation graphique.
Cliquez-droit sur le tDBFSConnection et, dans le menu contextuel qui s'affiche, sélectionnez Trigger > On Subjob Ok.
Exemple
Cliquez sur le tDBFSPut pour relier le tDBFSConnection au tDBFSPut.
Double-cliquez sur le tDBFSConnection pour ouvrir sa vue Component.
Exemple
Dans le champ Endpoint, saisissez l'adresse URL de votre espace de travail Azure Databricks. Vous pouvez trouver cette URL dans la Palette Overview de votre espace de travail Databricks sur votre portail Azure. Par exemple, cette URL peut se présenter comme ceci https://adb-$workspaceId.$random.azuredatabricks.net.
Cliquez sur le bouton [...] à côté du champ Token pour saisir le jeton d'authentification généré pour votre compte utilisateur·trice Databricks. Vous pouvez générer ou trouver ce jeton sur la page User settings de votre espace de travail Databricks. Pour plus d'informations, consultez Personal access tokens dans la documentation Azure (en anglais).
Double-cliquez sur le tDBFSPut pour ouvrir sa vue Component.
Exemple
Sélectionnez Use an existing connection pour utiliser les informations de connexion définies dans le tDBFSConnection.
Dans le champ Local directory, saisissez le chemin d'accès ou parcourez votre système jusqu'au dossier dans lequel les fichiers à copier dans DBFS sont stockés.
Dans le champ DBFS directory, saisissez le chemin d'accès au répertoire cible du DBFS dans lequel seront stockés les fichiers. L'emplacement recommandé est le dossier FileStore, comme conseillé dans la section FileStore de la documentation Databricks.

Ce répertoire est créé à la volée s'il n'existe pas.
Dans la liste déroulante Overwrite file, sélectionnez always pour écraser les fichiers s'ils existent déjà dans le répertoire cible, dans DBFS.
Dans la table Files, ajoutez une ligne en cliquant sur le bouton [+] afin de définir les critères de sélection des fichiers à copier.
Dans la colonne Filemask, saisissez un astérisque (*) entre guillemets doubles, pour que le tDBFSPut sélectionne tous les fichiers stockés dans le dossier spécifié dans le champ Local directory.
Laissez la colonne New name vide, c'est-à-dire, laissez les guillemets doubles par défaut pour ne pas modifier le nom des fichiers après chargement.
Appuyez sur F6 pour exécuter le Job.

Les fichiers concernant les films et leurs cinéastes sont stockés dans ce répertoire et ouverts automatiquement. Elle affiche l'avancement de l'exécution du Job.

Résultats

Lorsque le Job est terminé, les fichiers chargés se trouvent dans DBFS, dans le répertoire spécifié.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.

Laissez vos commentaires ici

Charger des fichiers dans DBFS (Databricks File System)

Avant de commencer

Procédure

Exemple

Exemple

Exemple

Résultats

Cette page vous a-t-elle aidé ?