Datenqualität für dateibasierte Datensätze
Um von der Erkennung semantischer Typen und der Ermittlung der Datenqualität Ihrer dateibasierten Datensätze zu profitieren, müssen Sie die Dateien in den Katalog hochladen.
Ab sofort sind die unterstützten Dateitypen für die Qualitätsberechnung CSV, TXT, QVD, XLS und XLSX. Wenn Ihre Excel-Datei mehrere Arbeitsblätter enthält, wird die Qualitätsberechnung nur auf dem ersten Arbeitsblatt durchgeführt.
Erstellen von dateibasierten Datensätzen
Damit Sie Datensätze über eine Datei erstellen können und später Zugriff auf deren Schema und Qualität in der Datensatzübersicht und in der Datenproduktübersicht haben, müssen Sie sie in Qlik Talend Data Integration hochladen.
-
Klicken Sie unter Qlik Talend Data Integration > Katalog auf Erstellen und dann auf Datensatz.
-
Klicken Sie auf Datendatei hochladen.
-
Suchen Sie die Datei, die Sie hochladen möchten, wählen Sie den Bereich aus, in den Sie die Datei hochladen möchten, und klicken Sie auf Hochladen.
Wenn Sie auf Hochladen und analysieren klicken, werden sowohl ein Datensatz als auch eine Analyse-App aus dieser Datei erstellt.
Der neue Datensatz wird zum Katalog hinzugefügt, und Sie können auf Qualitätsindikatoren und weitere Inhaltsdetails zugreifen. Diese Konfiguration ermöglicht auch die Verwendung von dateibasierten Datensätzen als Quelle für Analyse-Apps.
Da auf den Katalog sowohl vom Qlik Talend Data Integration Hub als auch vom Qlik Analytics Services Hub aus zugegriffen werden kann, können Sie Ihre Datensätze am gewünschten Ort öffnen, und abhängig vom Kontext wird die richtige Verbindung verwendet.
Qualitätsberechnung
Verwenden Sie die Schaltfläche Berechnen oder Aktualisieren in der Übersicht Ihres Datensatzes, um eine Qualitätsberechnung für eine Stichprobe von 1.000 Zeilen der Datenbank auszulösen. Dieser Vorgang erfolgt im Pullup-Modus für dateibasierte Datensätze.
Eine Stichprobe von 100 Zeilen wird abgerufen und als Vorschau mit aktuellen semantischen Typen sowie Gültigkeits- und Vollständigkeitsstatistiken angezeigt. Diese Stichprobe wird dann in MongoDB gespeichert.