Par quoi commencer ?
Le Studio Talend vous permet d'examiner des données et de collecter des statistiques et des informations concernant les données disponibles dans les colonnes des bases de données et dans des fichiers délimités.
Dans la perspective Profiling , vous pouvez :
- créer une analyse de colonnes à partir de rien et configurer manuellement ses paramètres,
- créer automatiquement des analyses de colonnes préconfigurées avec les indicateurs appropriés au type sélectionné,
- utiliser l'assistant d'exploration sémantique (Semantic-aware Analysis Wizard) pour configurer automatiquement une analyse de colonnes à partir des informations rassemblées dans le référentiel sémantique. Pour plus d'informations, consultez Étapes d'utilisation de l'analyse sémantique.
Procédure
-
Créez une analyse de colonnes :
- Dans la vue DQ Repository, développez le nœud Data Profiling.
- Cliquez-droit sur le dossier Analysis et sélectionnez New Analysis.
-
Dans le dossier Column Analysis, sélectionnez :
Option
Pour...
Basic Column Analysis
générer une analyse de colonnes vide dans laquelle vous pouvez sélectionner les colonnes à analyser et leur attribuer manuellement les indicateurs.
Pour plus d'informations, consultez Créer une analyse simple sur une colonne d'une base de données.
Discrete Data Analysis
créer une analyse de colonnes sur des données numériques préconfigurées avec les indicateurs Bin Frequency et Simple Statistics. Vous pouvez configurer plus l'analyse ou la modifier afin de convertir des données continues en données discrètes (écarts) selon vos besoins.
Pour plus d'informations, consultez Analyse de données discrètes.
Nominal Values Analysis (analyse de valeurs nominales)
créer une analyse de colonnes sur des données nominales préconfigurées avec des indicateurs appropriés pour les données nominales, les indicateurs Value Frequency, Simple Statistics et Text Statistics.
Pour des exemples de résultats sur ces statistiques, consultez Finaliser et exécuter l'analyse de colonnes.
Pattern Frequency Analysis
créer une analyse de colonnes préconfigurée avec les indicateurs Pattern Frequency, Pattern Low Frequency, ainsi que les comptes de lignes et de nulls.
Cette analyse peut acquérir des connaissances au sujet des modèles dans vos données. Elle montre les modèles fréquents et les modèles rares, afin que vous puissiez identifier les problèmes de qualité de données plus facilement.
Pour des exemples de résultats sur ces statistiques, consultez Finaliser et exécuter l'analyse de colonnes.
Semantic Discovery Analysis (analyse d'exploration sémantique)
créer une analyse de colonnes préconfigurée avec des indicateurs et modèles convenant aux données après exploration des catégories sémantiques des colonnes de données et utilisation de concepts associés du référentiel sémantique.
Pour plus d'informations, consultez Étapes d'utilisation de l'analyse sémantique.
Summary Statistics Analysis (analyse de résumé statistique)
créer une analyse de colonnes sur des données numériques préconfigurées avec l'indicateur Summary Statistics et les comptes des lignes et des nulls.
Cela vous permet d'avoir une bonne idée de la forme de vos données numériques en calculant l'écart, l'écart interquartile et les valeurs médiane et moyenne.
Pour un exemple d'utilisation de Summary Statistics, consultez Définir des indicateurs système ou personnalisés et Finaliser et exécuter l'analyse de colonnes.
-
Les étapes du profiling de données d'une ou plusieurs colonnes sont les suivantes :
Que faire ensuite
La section Créer une analyse simple sur une colonne d'une base de données explique les procédures d'analyse de contenu d'une ou de plusieurs colonnes dans une base de données.
La section Création d'une analyse de colonnes simple dans un fichier explique les procédures d'analyse de colonnes dans des fichiers délimités.
Studio Talend Le Studio vous propose des modes de verrouillage vous permettant, si vous êtes le·a premier·ère utilisateur·rice à ouvrir un élément et de le verrouiller. les autres utilisateurs et utilisatrices·rices qui ouvrent simultanément le même élément n'ont qu'un accès en lecture seule. Pour plus d'informations, consultez Principe de verrouillage.