Accéder au contenu principal Passer au contenu complémentaire

Créer un jeu de données

Créer un jeu de données à partir de zéro.

Procédure

  1. Allez dans Datasets > Add dataset.
  2. Dans le panneau Add a new dataset, donnez un nom à votre jeu de données et sélectionnez la connexion dans laquelle vous souhaitez créer votre jeu de données.
    Si vous souhaitez ajouter un jeu de données à partir d'une connexion qui n'existe pas encore, vous pouvez créer cette connexion directement depuis la liste déroulante connection.
  3. Ajoutez une description si nécessaire et renseignez les propriétés requises du jeu de données.
    • Pour les connexions aux stockages de fichiers S3 et HDFS, un bouton Auto detect (Détection automatique) vous permet de détecter et renseigner automatiquement le format de vos données (CSV, Excel, Avro ou Parquet).

    • La requête de la base de données et les types de tables ne sont pas compatibles, parce que vous ne pouvez utiliser de base de données de type requête comme jeu de données de destination. Si vous tentez de modifier la configuration de la base de données à un autre type après sa sauvegarde, une vérification est déclenchée sur votre pipeline afin de voir si l'opération est possible.

  4. (Facultatif) Cliquez sur View sample (Voir un échantillon) pour voir un aperçu des premiers enregistrements de l'échantillon du jeu de données.
  5. Cliquez sur Validate (Valider) pour sauvegarder votre jeu de données.

Résultats

Le nouveau jeu de données est ajouté à la liste de la page Datasets et est prêt à être utilisé.
Une fois créé, vous pouvez aller dans la vue détaillée du jeu de données pour afficher un échantillon de vos données dans différents formats :
  • Grid : dans cette vue, vous pouvez afficher les 10 000 premiers enregistrements de vos données sous forme de tableau ;
  • Hierarchy : dans cette vue, vous pouvez afficher les 10 000 premiers enregistrements de vos données sous forme d'arborescence ;
  • Raw : dans cette vue, vous pouvez afficher une version non modifiée et non filtrée des 10 000 premiers enregistrements de vos données.

Créer un jeu de données local

Importez un fichier CSV, Excel, Avro, ou Parquet local directement dans votre inventaire. Les jeux de données des différentes connexions peuvent être ajoutés via le bouton Add dataset (Ajouter un jeu de données), mais, si vous souhaitez simplement importer un de vos fichiers locaux, vous pouvez le faire facilement à l'aide du bouton Drag a file or browse (Glisser un fichier ou parcourir).

Procedure

Pour importer directement un jeu de données local, vous pouvez :
  • glisser-déposer le fichier n'importe où sur l'écran du jeu de données, ou,
    Écran pour le glisser-déposer
    Écran vous permettant de déposer votre fichier local dans votre application Cloud.
  • cliquer sur le bouton Drag a file or browse (Glisser un fichier ou parcourir) afin d'ouvrir l'explorateur de fichiers et sélectionner le fichier depuis son emplacement.
    Bouton 'Drop a file or browse (Déposez un fichier ou parcourez)' sur lequel vous pouvez cliquer pour sélectionner le fichier à importer.

Votre fichier est chargé et le jeu de données local est créé. La page Overview s'ouvre directement. Si aucune connexion locale n'a été configurée, elle sera créée à la volée.

Cette nouvelle connexion s'appuie sur le Moteur Cloud pour le design lorsque cela est possible et utilise un Moteur distant Gen2 existant si c'est le seul disponible.

Si vous avez déjà une connexion locale, l'import local s'appuie de préférence sur le moteur le plus ancien créé sur le Moteur Cloud pour le design et utilise celui créé sur un Moteur distant Gen2 si nécessaire.

Cependant, si aucun moteur n'est disponible au moment de l'import, l'import local est désactivé.

Les informations concernant les propriétés du fichier csv, comme le caractère d'échappement ou le séparateur de champs ont été détectées automatiquement, mais vous pouvez les modifier à tout moment dans les propriétés du jeu de données.

Results

Votre fichier local est ajouté à la liste des jeux de données et une connexion locale (Local connection) est créée si aucune connexion locale n'existait.

Créer un jeu de données de test

Créer un jeu de données se basant sur un schéma saisi manuellement.

Les jeux de données de test sont utiles pour fournir un jeu de valeurs fixe sans avoir besoin d'un real-life record store, ce qui facilite l'essai du produit.

Procedure

  1. Allez dans Datasets (Jeux de données) > Add dataset (Ajouter un jeu de données).
  2. Dans le panneau Add a new dataset, nommez votre jeu de données de test.
  3. Sélectionnez la connexion de Test précédemment créée dans laquelle ajouter vos données.
  4. Sélectionnez le format de vos données :
    • CSV : dans ce cas, le format attendu pour les champs du schéma est le suivant :
      • doit commencer par des caractères [A-Za-z_]
      • ne peut contenir que des caractères [A-Za-z0-9_]
      • ne peut être séparé que par des points-virgules
      Exemple : First_Name;Last_Name;Phone1;Phone2;Address;State;Company
      Note InformationsNote: Si vous ne spécifiez pas un format, un format générique sera créé par défaut.
    • JSON : dans ce cas, vous devez respecter un format spécifique pour vos valeurs JSON et faire preuve de cohérence : une séquence d'enregistrements, l'un après l'autre, séparés, ou non, par un saut de ligne. Chaque enregistrement ne doit pas être sur une seule ligne. À la fin, les données dans la zone de texte ne sont pas un document JSON typique avec des crochets.

      Exemple :

        {
          "Id": 3146717,
          "PosTime": 1525097499899,
          "Latitude": 48.8585,
          "Longitude": 2.4921,
          "Operator": "Air France"
        }
        {
          "Id": 3757865,
          "PosTime": 1525097474634,
          "Latitude": 48.5018,
          "Longitude": 2.2246,
          "Operator": "Lufthansa"
        }
    • AVRO : dans ce cas, vous devez également renseigner le schéma de vos enregistrements Avro, qui est un document JSON avec une syntaxe spécifique décrite dans la documentation Avro Apache.
  5. Dans la zone Values, saisissez ou collez vos données.
    La taille de vos données ne peut dépasser 32 kilooctets.
    Nouvelle page de configuration des jeux de données avec des valeurs JSON saisies manuellement.
  6. (Facultatif) Cliquez sur View sample (Voir l'échantillon) afin de vérifier que vos données sont valides.
  7. Cliquez sur Validate (Valider) pour sauvegarder votre jeu de données.

Results

Vous êtes redirigé·e vers le panneau de vue d'ensemble du jeu de données, dans lequel sont affichées des informations et les métadonnées.

Pour visualiser et comprendre le contenu d'un jeu de données, ouvrez le panneau Sample. Vous pouvez ensuite vérifier que vos données sont valides.

Panneau d'échantillon du jeu de données
Panneau d'échantillon affichant une vue tabulaire des valeurs JSON du jeu de données.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.