À propos du Talend Trust Score™ avec Snowflake
Le calcul natif de la qualité de données dans Snowflake est un outil assurant la précision et la fiabilité de vos données.
Il effectue une analyse complète de votre jeu de données et en vérifie la validité et la complétude. La vérification de la qualité des données est effectuée sur la table complète dans Snowflake.La vérification de la validité comprend les règles de qualité de données. Pour plus d'informations concernant les règles, consultez Qu'est-ce qu'une règle de qualité de données ?.
À partir de Talend Cloud Data Inventory, l'évolution du Talend Trust Score™ vous permet de visualiser la qualité de vos jeux de données au fil du temps.- Talend Cloud Data Inventory est compatible avec Snowflake sur AWS, GCP et Microsoft Azure.
- Certains droits sont nécessaires pour utiliser Snowflake. Consultez la documentation Snowflake.
- Utiliser Snowflake avec Talend Cloud Data Inventory affecte les frais Snowflake de calcul.
- Lorsque vous ajoutez un jeu de données à partir d'une connexion à Snowflake, une copie des bibliothèques DQ Java et du dictionnaire sémantique est envoyée à Snowflake, pour vérifier les vérifications de validité.Vérifiez que le paramètre pushdown est bien dans l'URL JDBC de la connexion à Snowflake. Par exemple :Pour plus d'informations, consultez Ajouter le paramètre pushdown à une connexion Snowflake.
jdbc:snowflake://account.snowflakecomputing.com/?db=MY_DB&schema=PUBLIC&warehouse=MY_WAREHOUSE_WH&runProfile=sql
Note InformationsConseil : Vous pouvez utiliser le crawler pour récupérer plusieurs tables et vues. À l'aide des API de Talend, vous pouvez également automatiser le calcul de qualité de . Pour plus d'informations, consultez Scheduling a crawler run (en anglais). - Les bibliothèques DQ Java snt définies comme des fonctions personnalisées Java (UDF).
Si vous appliquez des règles de qualité de données à un jeu de données à partir de Talend Cloud Data Inventory, ces règles sont également prises en compte dans Snowflake à l'aide des fonctions personnalisées.
- Pour calculer le Talend Trust Score™ dans Snowflake, les étapes suivantes se succèdent :
-
L'exploration sémantique définit la nature et le format des données. Le type sémantique de chaque colonne du jeu de données est vérifié par l'analyse d'un échantillon de données contenant jusqu'à 10 000 lignes. Par défaut, l'échantillon contient les premières lignes. Il est appelé Head sample (Début du jeu de données). Les lignes peuvent également être choisies de manière aléatoire. L'échantillon est appelé Random sample (Échantillon aléatoire).
- Validité et complétude des données : les enregistrements sont vérifiés par rapport aux types sémantiques, afin de déterminer si les champs sont valides ou non. Si les champs ne correspondent pas à un type sémantique, ils sont vérifiés par rapport aux types natifs.
À l'aide de l'URL JDBC provenant de Talend Cloud Data Inventory, la validité et la complétude des données sont calculées sur la table complète dans Snowflake.
Depuis la vue d'ensemble du jeu de données dans Talend Cloud Data Inventory, vous pouvez prévisualiser un échantillon de la table Snowflake et récupérer les enregistrements valides et invalides. Cet échantillon peut contenir jusqu'à 10 000 enregistrements.
Les barres de statistiques dans la colonne et dans les en-têtes des jeux de données représentent la qualité de la table entière.
- Talend Trust Score™ : la validité et la complétude sont calculées pour le jeu de données entier dans Snowflake. Vous pouvez trouver l'historique dans Talend Cloud Data Inventory, ainsi que l'évolution du Talend Trust Score™, dans la vue d'ensemble du jeu de données.
Vous pouvez également récupérer le Talend Trust Score™ depuis la liste des jeux de données et la console de données.
-
- L'échantillon est envoyé à Talend Cloud Data Inventory et le Talend Trust Score™ du jeu de données complet est calculé comme suit :
- La validité et la complétude sont nativement calculées dans Snowflake, sur la table entière. Le calcul de la conformité des règles de qualité de données est également effectué sur la table entière.
- La popularité, l'explorabilité et l'utilisation sont calculées dans Talend Cloud Data Inventory. Pour plus d'informations concernant les axes, consultez Consulter le Talend Trust Score™.
Vous avez un Talend Trust Score™ comprenant cinq axes pour votre jeu de données.