Accéder au contenu principal Passer au contenu complémentaire

Ajouter un nouveau type sémantique basé sur une expression régulière

Vous pouvez créer un type sémantique basé sur une expression régulière dans Talend Dictionary Service et l'ajouter à la liste des types reconnus dans Talend Data Stewardship.

Dans Talend Dictionary Service, il n'est pas possible de rapprocher et valider tous les types de données par rapport aux types sémantiques prédéfinis. Les numéros de Sécurité Sociale italiens, aussi connus sous le nom de codice fiscale, ne sont pas reconnus pour le moment.

Pourquoi et quand exécuter cette tâche

Imaginez que vous travaillez pour une entreprise italienne, ne traitant qu'avec des clients italiens. Dans cet exemple, vous devez nettoyer des données clients, comme les noms, les adresses e-mail ou les numéros de Sécurité Sociale. Lorsque vous définissez le modèle de données dans Talend Data Stewardship, vous êtes obligé(e) de configurer le type sémantique de la colonne contenant le numéro de Sécurité Sociale à text, car il n'y a pas de type sémantique prédéfini pour les numéros de Sécurité Sociale italiens. Il serait plus approprié de créer une catégorie spécifique pour faire correspondre ce type de données : un type sémantique codice_fiscale dans cet exemple.

Vous allez créer ce nouveau type sémantique dans Talend Dictionary Service, il sera automatiquement disponible dans Talend Data Stewardship, pour que vos données puissent être rapprochées par rapport à un type correct de données.

Note InformationsImportant : Pour des raisons de sécurité, quelques expressions régulières ne peuvent être utilisées, notamment les références arrière. Pour plus d'informations, consultez la documentation RE2/J (en anglais).

Procédure

  1. Sélectionnez Semantic types (Types sémantiques) > Add semantic type (Ajouter un type sémantique).
  2. Saisissez un nom et une description pour le nouveau type sémantique.
  3. Sélectionnez le type sémantique dans la liste Type.
  4. Laissez l'option Use for validation (Utiliser pour la validation) activée.

    Utiliser une expression régulière, un dictionnaire ou un type composé pour la validation signifie que cet élément sera utilisé pour définir quelles valeurs sont considérées comme bonnes ou mauvaises dans une colonne donnée. Le résultat de ce processus de validation peut être vu dans la barre de statistiques de chaque colonne de vos jeux de données.

    Dans tous les cas, les expressions régulières ou les dictionnaires de valeurs sont utilisés pour l'exploration de données, qui calcule le pourcentage de correspondance entre les valeurs de référence et vos données, afin de définir le type sémantique de chaque colonne.

    Dans cet exemple, si vous choisissez de désactiver l'option Use for validation, l'expression régulière ne sera utilisée que pour l'exploration de données, et aucune valeur ne sera considérée comme invalide.

  5. Dans la liste Content (Contenu), sélectionnez le type de contenu à valider.
    Cette option permet d'optimiser les performances. Seules les données correspondant au type sélectionné sont validées.
    Option Description
    Tout caractère La chaîne de caractères complète est validée par rapport à l'expression régulière.
    Alphabétique Chaînes de caractères contenant des caractères alphabétiques. Aucun caractère numérique n'est validé par rapport à l'expression régulière.
    Numérique Chaînes de caractères contenant des caractères numériques. Aucun caractère alphabétique n'est validé par rapport à l'expression régulière.
  6. Saisissez la syntaxe d'expression régulière dans le champ Validation pattern (Modèle de validation).
    Cette expression régulière est conçue pour rapprocher les codes fiscaux italiens, composés d'un code alphanumérique de 16 caractères.
    Configuration pour ajouter un type sémantique basé sur une expression.
  7. Cliquez sur Save and publish (Sauvegarder et publier) pour envoyer le type sémantique au serveur de Talend Dictionary Service et le rendre disponible à l'utilisation par Talend Data Stewardship.
    Cliquer sur Save as draft (Sauvegarder comme brouillon) stocke le nouveau type sur le serveur sans le propager au système. Le nouveau type n'est pas utilisable, sauf s'il est publié. Pour un exemple d'utilisation de cette option, imaginez que vous avez de nouveaux types sémantiques à déployer en tant que partie d'un nouveau projet. Vous pouvez préparer le travail en créant les types sémantiques et en les sauvegardant en tant que brouillon avant la mise en production du projet, puis vous pouvez déployer les types sémantiques le jour de la mise en production.
  8. Retournez dans Talend Cloud Data Stewardship et créez le modèle de données pour les données des clients italiens.
    La nouvelle catégorie sémantique codice_fiscale est disponible dans la liste des types sémantiques et vous pouvez la choisir pour la colonne contenant les numéros de Sécurité Sociale.

Résultats

Lorsque vous chargez les données clients dans Talend Cloud Data Stewardship, les données sont rapprochées et validées par rapport au type sémantique codice_fiscale, créé dans Talend Dictionary Service.
Rapprochement de données avec le type sémantique codice fiscale.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.