Accéder au contenu principal Passer au contenu complémentaire

tDataQualityRules

Ce composant valide des données à l'aide de règles de qualité de données en connectant le Studio Talend à :

Une règle de qualité de données est un ensemble de prérequis métier définissant les valeurs auxquelles vos données doivent être conformes.

Pour récupérer les règles de qualité de données dans un fichier JAR, le tDataQualityRules conencte le Studio Talend à l'une des applications listées ci-dessus. Le Studio Talend utilise la bibliothèque récupérée pour que vous puissiez appliquer les règles de qualité de données à vos données. Pour plus d'informations concernant le fonctionnement du composant, consultez Processus local, hybride et Cloud pour le tDataQualityRules.

Le composant retourne les données dans des catégories et sous-catégories :
  • Valide :
    • Valide : Les données sont conformes à la condition et à l'expression de validation ou les données sont conformes uniquement à l'expression de validation alternative.
    • Non applicable (NA) : les données ne remplissent pas la condition. La règle ne peut être appliquée aux données.

    Ces données suivent le flux Main.

  • Invalide :
    • Invalide : Les données sont conformes à la condition mais pas à l'expression de validation.
    • Non exécutable (NE) : La règle ne peut être exécutée sur les données.

    Ces données suivent le flux Reject.

Ce composant n'est pas intégré par défaut à votre Studio Talend. Vous devez l'installer à l'aide du gestionnaire des fonctionnalités. Pour plus d'informations, consultez Installer les fonctionnalités à l'aide du Gestionnaire des fonctionnalités.

Vous avez besoin de Qlik Talend Cloud Enterprise Edition pour utiliser le composant tDataQualityRules.

Le tDataQualityRules supporte :
  • En mode local, Apache Spark 3.0 et supérieures.
  • Le service Cloudera Data Engineering avec Apache Spark 3.1 ou 3.2.

Propriétés du tDataQualityRules Standard

Ces propriétés sont utilisées pour configurer le tDataQualityRules s'exécutant dans le framework de Jobs Standard.

Le composant tDataQualityRules Standard appartient à la famille Qualité de données.

Paramètres simples

Output Schema et Edit schema

Un schéma est une description de lignes, il définit le nombre de champs (colonnes) qui sont traités et passés au composant suivant.

Cliquez sur Sync columns pour récupérer le schéma du composant précédent dans le Job.

Sélectionnez le type de schéma dans la liste Schema :
  • Built-in : le schéma est créé et conservé localement pour ce composant seulement.

  • Repository : le schéma existe déjà et est stocké dans le Repository. Ainsi, il peut être réutilisé dans des Jobs et projets.

Créez le schéma en cliquant sur le bouton Edit Schema. Si le schéma est en mode Repository, trois options sont disponibles :

View schema : sélectionnez cette option afin de voir uniquement le schéma.

Change to built-in property : sélectionnez cette option pour passer le schéma en mode Built-In et effectuer des modifications locales.

Update repository connection : sélectionnez cette option afin de modifier le schéma stocké dans le référentiel et décider de propager ou non les modifications à tous les Jobs.

Les types supportés sont : Boolean, Date, Double, Dynamic, Float, Integer, Long, Short et String.

Application Sélectionnez l'application de laquelle vous souhaitez récupérer les règles de qualité de données.

Cette option est disponible à partir de la version 8.0 R2024-01 du Studio Talend.

URL
Note InformationsImportant : Vous avez besoin de l'autorisation Rules - View (Règles - Visualisation) pour récupérer les règles. Pour plus d'informations, consultez les Rôles utilisateur·trices prédéfinis relatifs à l'application que vous utilisez.
Saisissez l'URL de l'application sélectionnée dans la liste déroulante Application. Lorsque l'URL ne correspond pas à l'application sélectionnée, le Job peut échouer. Les URL suivantes sont supportées :
  • Talend Cloud Data Stewardship, ou la version hybride de Talend Data Stewardship 8.0 R2022-07 ou une version supérieure :
    https://tds.<env>.cloud.talend.com/rulerepository/api/v1
    https://tds.<env>.cloud.talend.com/rulerepository/api/v1/
    https://tds.<env>.cloud.talend.com/rulerepository
    https://tds.<env>.cloud.talend.com/rulerepository/
    https://tds.<env>.cloud.talend.com (Only for Talend Cloud Data Stewardship)
    https://tds.<env>.cloud.talend.com/ (Only for Talend Cloud Data Stewardship)

    Lorsque vous utilisez la version hybride, vous pouvez utiliser une URL avec l'adresse IP ou le nom d'hôte :

    https://ip:19999/rulerepository/api/v1
    https://ip:19999/rulerepository/api/v1/
    https://ip:19999/rulerepository
    https://ip:19999/rulerepository/
    https://hostname:19999/rulerepository/api/v1
    https://hostname:19999/rulerepository/api/v1/         
    https://hostname:19999/rulerepository
    https://hostname:19999/rulerepository/
  • Talend Cloud Data Inventory, à partir de la version 8.0 R2023-06 du Studio Talend :
    https://tdc.<env>.cloud.talend.com/rulerepository/api/v1
    https://tdc.<env>.cloud.talend.com/rulerepository/api/v1/
    https://tdc.<env>.cloud.talend.com/rulerepository
    https://tdc.<env>.cloud.talend.com/rulerepository/
    https://tdc.<env>.cloud.talend.com
    https://tdc.<env>.cloud.talend.com/ 
où <env> est le nom de votre région Cloud. Consultez Accéder aux applications Talend Cloud.
Token Saisissez votre jeton d'accès personnel. Pour en générer un, consultez https://help.talend.com/r/fr-FR/Cloud/management-console-user-guide/cloud-access-token.
DQ rule library timestamp Après avoir saisi l'URL et le jeton, cliquez sur Refresh.

Si l'URL et le jeton sont corrects, les règles de qualité de données sont récupérées dans le Studio Talend : yyyy-MM-dd hh:mm:ss (library_number).

Lorsque vous mettez à jour les règles de qualité de données dans une application Cloud ou hybride, cliquez sur Refresh (Actualiser) pour récupérer la dernière version.

Configure DQ rules Associez les variables de la règle aux données d'entrée.
Les règles sont récupérées depuis la bibliothèque :
  • DQ Rule : sélectionnez la règle.
  • Rule variable : les variables de la règle sont automatiquement récupérées.
  • Input column : sélectionnez la colonne contenant les valeurs devant remplacer la variable.
  • Dynamic column selection:  lorsque vous avez sélectionné une colonne dynamique comme colonne d'entrée (Input column), saisissez le nom de la colonne entre guillemets doubles.
    Note InformationsRestriction : Vous pouvez associer une variable de règle à une colonne uniquement. Saisissez une colonne uniquement dans Dynamic column selection.
Si aucune règle ou colonne d'entrée n'est disponible, vérifiez que :
  • Les règles de qualité de données ont été récupérées dans DQ rule library timestamp (Horodatage des bibliothèques de règles DQ).
  • Le schéma d'entrée est correct.

Vous pouvez associer les types de données du Studio Talend à certains types de données de Talend Cloud Data Stewardship ou de Talend Data Stewardship hybride. Consultez Associer des types de données.

Pour appliquer plus de règles, cliquez sur .

Associer des types de données

Le tableau suivant décrit les types de données que vous pouvez associer.
Variable de règle provenant de l'application* Colonne d'entrée (depuis Studio Talend)
Nombre Double, Float, Integer, Long, Short et String
Booléen Booléen
Text Chaîne de caractères
Date Date
N'importe quel type de données supporté dans l'application Dynamic
* Vous pouvez saisir l'URL de :
  • Talend Cloud Data Stewardship,
  • la version hybride 8.0 R2022-07 ou supérieure de Talend Data Stewardship,
  • Talend Cloud Data Inventory, à partir de la version 8.0 R2023-06 du Studio Talend.

Paramètres avancés

tStatCatcher Statistics

Cochez cette case pour collecter les métadonnées de traitement du Job, aussi bien au niveau du Job qu'au niveau de chaque composant.

Cette page vous a-t-elle aidé ?

Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – faites-le-nous savoir.