Accéder au contenu principal Passer au contenu complémentaire

Ajout d'un type sémantique basé sur un dictionnaire

Vous pouvez créer un type sémantique basé sur un dictionnaire Talend Dictionary Service et l'ajouter à la liste des types de données reconnus dans Talend Data Stewardship. Cependant, les valeurs en doublon ne sont pas autorisées dans un type sémantique basé sur un dictionnaire, car elles sont inutiles et peuvent ralentir le processus.

Dans Talend Data Stewardship, tous les types de données sont actuellement mis en correspondance avec l'un des types sémantiques prédéfinis. Les comtés du Royaume-Uni, par exemple, ne sont pas reconnus comme tels.

Pourquoi et quand exécuter cette tâche

Imaginez que vous travaillez pour une entreprise britannique, avec des clients vivant uniquement au Royaume-Uni. Dans cet exemple, vous devez gérer des données clients, comme les noms, adresses e-mail, ou le pays de résidence. Vous pouvez vous demander quel type sémantique utiliser pour la colonne contenant les comtés, lorsque vous définissez le modèle de données dans Talend Data Stewardship. Vous souhaitez ajouter un type sémantique spécifique à vos données : le type sémantique UK_counties, dans cet exemple.

Vous allez créer ce nouveau type sémantique dans Talend Dictionary Service, il sera automatiquement disponible dans Talend Data Stewardship, pour que vos données puissent être rapprochées par rapport à un type correct de données.

Procédure

  1. Créez un fichier texte dans lequel vous listez les comtés du Royaume-Uni.
    Le fichier peut avoir une ou plusieurs valeur(s) par ligne. La longueur maximale d'une valeur est de 255 caractères.

    Lorsque vous utilisez plusieurs valeurs sur la même ligne, séparez-les par une virgule. Dans ce cas, toutes les valeurs sont considérées comme des synonymes. Vous devez mettre entre guillemets les valeurs non alphabétiques, sinon le fichier sera rejeté.

  2. Sélectionnez Semantic types (Types sémantiques) > Add semantic type (Ajouter un type sémantique).
  3. Saisissez un nom et une description pour le nouveau type sémantique.
  4. Sélectionnez le type sémantique dans la liste Type.
  5. Laissez l'option Use for validation (Utiliser pour la validation) activée.

    Utiliser une expression régulière, un dictionnaire ou un type composé pour la validation signifie que cet élément sera utilisé pour définir quelles valeurs sont considérées comme bonnes ou mauvaises dans une colonne donnée. Le résultat de ce processus de validation peut être vu dans la barre de statistiques de chaque colonne de vos jeux de données.

    Dans tous les cas, les expressions régulières ou les dictionnaires de valeurs sont utilisés pour l'exploration de données, qui calcule le pourcentage de correspondance entre les valeurs de référence et vos données, afin de définir le type sémantique de chaque colonne.

    Dans cet exemple, si vous choisissez de désactiver l'option Use for validation, le dictionnaire ne sera utilisé que pour l'exploration de données, et aucune valeur ne sera considérée comme invalide.

  6. Dans la liste Validation criterion (Critère de validation), sélectionnez la règle à utiliser tout en rapprochant les données par rapport aux valeurs dans le dictionnaire :
    Option Description
    Texte simplifié La ponctuation, les espaces, la casse et les accents sont ignorés durant la validation et les données sont considérées comme valides. Par exemple, si Pâté-en-croûte est la valeur de référence dans le dictionnaire, alors pate-en-croute et PATE--EN CROUTE sont deux valeurs considérées comme valides, mais Pâté n croûte n'est pas considérée comme une valeur valide.
    Ignorer la casse et les accents La casse et les accents sont ignorés durant la validation et les données sont considérées comme valides. Par exemple, si Pâté-en-croûte est la valeur de référence dans le dictionnaire, alors pate-en-croute est une valeur considérée comme valide (malgré les différences de casse et d'accents), mais pate en croute n'est pas considérée comme une valeur valide, car les traits d'union ont été remplacés par des espaces.
    Valeur exacte Très restrictif. Les données sont considérées comme valides uniquement si la correspondance avec la valeur est exacte.
  7. Cliquez sur le bouton , à droite de Values et importez le fichier texte des comtés du Royaume-Uni.
    Vous pouvez utiliser le bouton pour ajouter manuellement des valeurs et l'icône de recherche pour chercher des valeurs dans la liste.
  8. Cliquez sur Save and publish (Sauvegarder et publier) pour envoyer le type sémantique au serveur de Talend Dictionary Service et le rendre disponible à l'utilisation par Talend Data Stewardship.
    Cliquer sur Save as draft (Sauvegarder comme brouillon) stocke le nouveau type sur le serveur sans le propager au système. Le nouveau type n'est pas utilisable, sauf s'il est publié. Pour un exemple d'utilisation de cette option, imaginez que vous avez de nouveaux types sémantiques à déployer en tant que partie d'un nouveau projet. Vous pouvez préparer le travail en créant les types sémantiques et en les sauvegardant en tant que brouillon avant la mise en production du projet, puis vous pouvez déployer les types sémantiques le jour de la mise en production.
  9. Dans la page Data models (Modèles de données), créez un modèle de données pour les données client·es du Royaume-Uni.
    UK_counties est disponible dans la liste des types sémantiques et vous pouvez l'utiliser pour la colonne County.

Résultats

Lorsque vous chargez dans Talend Data Stewardship des données contenant les comtés du Royaume-Uni, elles sont automatiquement rapprochées et validées par rapport au type sémantique UK_counties manuellement créé dans Talend Dictionary Service.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.