Datamart de qualité des données
Le datamart de qualité des données Talend contient les analyses et les rapports exécutés dans le Studio Talend. Les données sont stockées dans un schéma en étoile, composés de tables de faits et de tables de dimension associées.
Vous pouvez utiliser le Modèle Physique des Données (MPD) de Talend Data Quality pour créer vos propres rapports spécifiques avec l'outil JasperReports, et les utiliser lorsque vous créez des rapports personnalisés dans le Studio Talend.
Vous pouvez également connecter ce datamart à vos propres outils de reporting, comme Tableau Software, et trouver les informations relatives à la qualité des données dans votre propre environnement de Business Intelligence.
L'interface de la solution de Talend Data Quality inclut des tables de faits et de dimension.
Tables de faits :
- TDQ_INDICATOR_VALUE : valeur de l'indicateur.
- TDQ_OVERVIEW_INDVALUE : analyses de vue d'ensemble.
- TDQ_MATCH_INDVALUE : analyses de comparaison.
- TDQ_SET_INDVALUE : analyses d'un ensemble de colonnes.
- TDQ_MATCHING_INDVALUE : analyses de rapprochement.
- TDQ_GROUP_STATISTICS : table stockant les statistiques de groupe de l'analyse de rapprochement.
- TDQ_BLOCKING_KEY : table stockant la définition de la clé de bloc de l'analyse de rapprochement.
- TDQ_MATCHING_KEY : table stockant la définition de la clé de rapprochement de l'analyse de rapprochement.
Les tables de faits doivent contenir des colonnes ayant les valeurs suivantes : NULL (TALEND), N/A (TDQ) et EMTPY (TDQ). La valeur NULL (TALEND) indique que les données analysées sont nulles. La valeur N/A (TDQ) indique que ça n'a pas de sens d'avoir une valeur dans cette colonne. La valeur EMPTY (TDQ) indique que les données analysées sont vides (une chaîne de caractères vide est différente d'une valeur nulle dans la plupart des bases de données).
Tables de dimension :
-
TDQ_ANALYSIS : instance d'analyse dans un rapport (ce qui signifie que la clé fonctionnelle est formée de l'ID du rapport et de l'ID de l'analyse).
TDQ_INDICATOR_DEFINITION : définition d'indicateur (nombre de lignes, table de fréquence...). TDQ_ANALYZED_ELEMENT : élément analysé (généralement une colonne). Pour plus d'informations, consultez Slowly changing dimension (en anglais).
Les tables de dimension doivent contenir des colonnes ayant les valeurs suivantes : NULL (TALEND), N/A (TDQ) et EMTPY (TDQ). La valeur NULL (TALEND) indique que les données analysées sont nulles. La valeur N/A (TDQ) indique que ça n'a pas de sens d'avoir une valeur dans cette colonne. La valeur EMPTY (TDQ) indique que les données analysées sont vides (une chaîne de caractères vide est différente d'une valeur nulle dans la plupart des bases de données).
La capture d'écran ci-dessous vous montre la manière dont est conçu le MPD de la solution de Talend Data Quality. TDQ_OVERVIEW_INDValue : table de faits pour les indicateurs de vue d'ensemble des tables, schémas et catalogues.
TDQ_PRODUCT : informations concernant la plateforme TDQ utilisée.