Qualité des données des jeux de données basés sur des fichiers
Pour bénéficier de la découverte des types sémantiques et des relevés de qualité des données sur vos jeux de données basés sur des fichiers, vous devez charger vos fichiers dans votre Catalogue.
Pour le moment, les types de fichier supportés pour le calcul de la qualité sont CSV, TXT, QVD, XLS et XLSX. Si votre fichier Excel contient plusieurs feuilles, le calcul de la qualité sera effectué uniquement sur la première feuille.
Création de jeux de données basés sur des fichiers
Pour pouvoir créer des jeux de données à partir d'un fichier et avoir accès ultérieurement à leur schéma et à leur qualité dans les vues d'ensemble des jeux de données et des produits de données, vous devez les charger dans Qlik Talend Data Integration.
-
Dans Qlik Talend Data Integration > Catalogue, cliquez sur Créer, puis sur Jeu de données.
-
Cliquez sur Charger un fichier de données.
-
Accédez au fichier à charger, sélectionnez l'espace dans lequel le charger et cliquez sur Charger.
Si vous cliquez sur Charger et analyser, un jeu de données et une application analytique seront créés à partir de ce fichier.
Le nouveau jeu de données est ajouté au Catalogue et vous pourrez accéder aux indicateurs de qualité et à davantage de détails sur son contenu. Cette configuration permet aussi d'utiliser le jeu de données basé sur des fichiers comme source pour des applications analytiques.
Étant donné que le Catalogue est accessible depuis le hub Qlik Talend Data Integration et depuis le hub Services d'analyse Qlik, vous pouvez ouvrir vos jeux de données à l'emplacement de votre choix et la bonne connexion sera utilisée suivant le contexte.
Calcul de la qualité
L'utilisation du bouton Calculer ou Actualiser dans la Vue d'ensemble de votre jeu de données déclenche un calcul de qualité sur un échantillon de 1 000 lignes de la base de données. Cette opération s'effectue en mode pullup pour les jeux de données basés sur des fichiers.
Un échantillon de 100 lignes est récupéré et affiché sous forme d'aperçu avec des types sémantiques et des statistiques de validité et de complétude à jour. Cet échantillon est ensuite stocké sur MongoDB.