Konfigurieren der Datenqualität
Nachdem Sie die Datenqualität eines Datensatzes erstmals berechnet haben, besteht die Möglichkeit, diese Berechnung zu aktualisieren und an Ihre Anforderungen anzupassen.
- Qlik Talend Cloud Enterprise
- Qlik Talend Cloud Premium
- Qlik Cloud Analytics Premium
- Qlik Cloud Analytics Enterprise
- Qlik Sense Enterprise SaaS
Auswählen der Stichprobengröße und des Verarbeitungsmodus
Um die Stichprobengröße für die Qualitätsberechnung anpassen zu können, müssen Sie zuvor ein Mal auf Berechnen im Datensatz geklickt haben.
-
Öffnen Sie den Datensatz über Qlik Talend Data Integration > Katalog.
-
Je nachdem, wie Sie die Datenqualität berechnen möchten:
-
Klicken Sie auf Aktualisieren, um die Datenqualität unter Verwendung der zuvor angewendeten Parameter neu zu berechnen.
-
Klicken Sie auf den Abwärtspfeil neben der Schaltfläche Aktualisieren, um das Fenster Qualität und Profilerstellung zu erweitern und die Neuberechnung anzupassen.
-
-
Geben Sie in Stichprobengröße die Größe der Stichprobe ein, auf deren Grundlage Sie die Datenqualität berechnen möchten:
-
Zeilenanzahl: Geben Sie die Anzahl der Zeilen ein, für die Sie die Datenqualität berechnen möchten. Der maximale Wert beträgt 100000 Zeilen im Pullup-Modus; im Pushdown-Modus ist kein maximaler Wert vorhanden.
-
Prozentsatz des Datensatzes: Geben Sie alternativ den Prozentsatz des Datensatzes ein, auf dessen Grundlage Sie die Datenqualität berechnen möchten. Dezimalwerte sind nicht zulässig. Bei großen Datensätzen wird diese Option nicht angezeigt, wenn 1 % des Datensatzes mehr als der maximal zulässigen Anzahl von Zeilen (100000 Zeilen) entspricht.
-
-
Wählen Sie in Verarbeitungsmodus den Verarbeitungsmodus aus, der bei der Berechnung der Datenqualität verwendet werden soll:
-
Pushdown: aktuell nur für Snowflake- und Databricks-Datensätze verfügbar. Damit wird die Qualitätsberechnung auf Datenbankseite ausgelöst, was Snowflake-Guthaben oder Databricks-Einheiten (DBUs) kostet.
-
Pullup: verfügbar für alle Datensätze. Damit wird die Qualitätsberechnung in Qlik Cloud ausgelöst.
-
-
Klicken Sie auf Aktualisieren, um die Datenqualität entsprechend Ihren Einstellungen neu zu berechnen.
Die Indikatoren für die Datenqualität sowie die Stichprobengröße werden in der Übersicht angezeigt. Die Verarbeitungszeit variiert je nach Stichprobengröße. Beachten Sie, dass in der Datenvorschau immer nur 100 Datensätze angezeigt werden.
Die Berechnung der Datenqualität kann auch über die entsprechende Qlik Public API ausgelöst und angepasst werden.
Für die Planung der Datenqualität kann die Qlik Automate-Vorlage Datenqualitätsberechnungen planen verwendet werden. Weitere Informationen finden Sie unter All templates.
Filtern der Datensatzvorschau nach Qualitätsstatus
Wenn Sie den Datensatz auf der Registerkarte Datenvorschau anzeigen, werden die Qualitätsergebnisse visuell durch eine Farbleiste in den Spaltenüberschriften sowie im rechten Bereich für Datentypen und Validierungsregeln dargestellt.
Jedes Segment der Qualitätsleiste entspricht einer der Ergebniskategorien. In der Spaltenüberschrift werden die folgenden Indikatoren angezeigt:
-
Ungültig (rot): Zeigt den Prozentsatz der Werte in der Stichprobe an, die als ungültig betrachtet werden.
-
Leer oder null (schwarz): Zeigt den Prozentsatz der Werte in der Stichprobe an, die leer oder null sind.
-
Gültig (grün): Zeigt den Prozentsatz der gültigen Werte in der Stichprobe an. Der Prozentsatz berücksichtigt keine leeren Werte.
Durch Klicken auf eine Spaltenüberschrift wird der rechte Bereich geöffnet, in dem Sie dieselben Indikatoren für die Datentypen sehen können.
Zusätzlich wird die Qualitätsleiste für Validierungsregeln im rechten Bereich angezeigt:
- Nicht ausführbar (hellrot): Die Regel kann für diese Werte nicht ausgeführt werden.
- Ungültig (rot): Wählen Sie eine der Optionen:
- Sie erfüllen die Bedingung if, aber nicht den Validierungsausdruck (then), und es wurde kein alternativer Validierungsausdruck (else) definiert.
- Sie erfüllen weder die Bedingung (if) noch den alternativen Validierungsausdruck (else).
- Nicht anwendbar (hellgrün): Die Werte erfüllen die Bedingung (if) nicht und es wurde kein alternativer Validierungsausdruck (else) definiert.
- Gültig (grün): Die Werte erfüllen alle Regelanweisungen.
Weitere Informationen zu Validierungsregeln finden Sie unter Arbeiten mit Validierungsregeln.
Sie können die Datensatzvorschau filtern, indem Sie auf ein beliebiges Segment der Qualitätsleiste klicken, entweder in der Spaltenüberschrift oder in den Abschnitten für Regeln und Datentypen im rechten Bereich. Wenn Sie auf ein farbiges Segment klicken:
- Ein Filter wird auf die aktuelle Vorschau angewendet, um nur die Zeilen anzuzeigen, die diesem Datenqualitätsergebnis entsprechen (für die ausgewählte Spalte oder Spaltengruppe) und um Qualitätsprobleme zu isolieren.
- Der Filter kann entfernt werden, um zur vollständigen Stichprobenvorschau zurückzukehren. Um Filter zu entfernen, klicken Sie auf Alle Filter löschen.
Diese Filterung hilft Ihnen, schnell nur die Werte von Interesse in Ihrem Datensatz zu überprüfen, was die Überprüfung und Untersuchung von Datensätzen nach ihrem Datenqualitätsstatus vereinfacht.