Accéder au contenu principal Passer au contenu complémentaire

Lire le delta des données depuis le système de fichiers

Configurez le tDeltaLakeInput pour lire les différents snapshots des données relatives aux vols des États-Unis afin que votre Job calcule facilement l'évolution des vols.

Chaque snapshot a une version pour son écriture dans le jeu de données Delta Lake à utiliser.

Procédure

  1. Sélectionnez le composant de configuration de stockage à utiliser pour fournir les informations de connexion au système de fichiers. Dans cet exemple, le composant est un tS3Configuration
  2. Double-cliquez sur le composant tDeltaLakeInput nommé flights_latest_version pour ouvrir sa vue Component.
  3. Cochez la case Select a storage configuration component et sélectionnez le tS3Configuration pour réutiliser ses informations de connexion.
  4. Cliquez sur Edit schema pour ouvrir l'éditeur de schéma. Dans cet éditeur, définissez le schéma des données d'entrée.
  5. Dans le champ Folder/File, saisissez le chemin du répertoire où est stocké le jeu de données des vols, dans le bucket S3 spécifié dans le tS3Configuration.
  6. Répétez l'oépration pour configurer l'autre composant tDeltaLakeInput, mais cochez la case Specify time travel version et saisissez 0 entre guillemets doubles, dans le champ Version qui s'affiche, dans ce scénario, pour lire la première version des données relatives aux vols des États-Unis.
    Sans utiliser la fonctionnalité Time travel (voyage temporel), le tDeltaLakeInput lit le dernier snapshot de vos données. La fonctionnalité de voyage temporel vous permet de spécifier le snapshot à lire.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.