Accéder au contenu principal Passer au contenu complémentaire

Définir un modèle de données pour la campagne Grouping

Dans cet exemple, vous créez un modèle de données pour déterminer la structure des données à gérer dans la campagne Site deduplication. Cette campagne permet aux data stewards de libeller les doublons proches dans un échantillon de données extrait par un Job Talend.

Talend Data Stewardship permet de gérer des modèles de données, rendant possible la validation syntaxique et sémantique des données. Vous pouvez définir les attributs dans le modèle de données et sélectionner leurs types parmi des types standards ou sémantiques prédéfinis.

Procédure

  1. Sélectionnez Data models (Modèles de données) > Add data model (Ajouter un modèle de données).
  2. Saisissez un nom et une description pour le nouveau modèle de données, dans les champs Name et Description respectivement. Les champs facultatifs ont un * à côté de leur nom.
  3. Dans la zone Attributes, définissez les colonnes à avoir dans le modèle de données, comme suit :
    1. Dans le champ Identifier (Identifiant), saisissez l'identifiant technique pour la première colonne.
    2. Saisissez un nom et une description pour la colonne dans les champs correspondants, si nécessaire.
      Ce que vous avez saisi dans le champ Name (Nom) est le nom affiché dans la liste des tâches. Si aucun nom n'est configuré, l'identifiant technique sera affiché.
    3. Dans la liste des types d'attributs, sélectionnez le type de la colonne.

      Les types standard et sémantiques sont intégrés dans l'application par défaut.

      • Pour les types standards, les champs supplémentaires s'affichent selon le type sélectionné. Ces champs sont facultatifs et vous permettent de définir certaines contraintes sur l'attribut, comme une longueur minimale et/ou maximale ou définir un modèle par rapport auquel valider l'attribut.

        Pour vous assurer que la valeur entière corresponde à votre modèle de validation, il est recommandé d'entourer le modèle de validation de ^ et de $.

        Quelques exemples :
        • [A-Z] correspond à A et ABC.
        • ^[A-Z]$ correspond à A mais ne correspond pas à ABC.

        Pour les colonnes Date et Timestamp, vous avez accès à un sélecteur de date et heure permettant de configurer la date et l'heure automatiquement dans le bon format.

      • Pour les types sémantiques, vous pouvez utiliser Talend Dictionary Service pour gérer les types sémantiques. Cependant, la disponibilité de ce service dépend de votre licence.
  4. De manière facultative, activez l'option Allow empty values (Autoriser les valeurs vides) pour désactiver le chargement des champs vides. Cette option est activée par défaut.
  5. Cliquez sur Add attribute (Ajouter un attribut) et répétez les étapes ci-dessus pour créer toutes les colonnes nécessaires dans le modèle de données.
    Les colonnes définies pour la campagne Site deduplication utilisées dans cet exemple contiennent des informations relatives aux centres d'éducation de la petite enfance de Chicago.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.