Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Datenqualität und Datenerkennung

Nach dem Öffnen eines Datensatzes können Sie sich die verschiedenen Teile der Übersicht ansehen, um mehr über die allgemeine Qualität, das Schema, die Qualitätsstatistiken und die semantischen Typen der einzelnen Spalten zu erfahren.

Qualitätsindikatoren des Datensatzes

Wenn Sie die Übersicht eines gerade registrierten Datensatzes öffnen, sind die meisten Informationen ausgegraut. Um die Datenqualität erstmals zu berechnen, klicken Sie auf Berechnen. Wenn die Qualität schon einmal berechnet wurde, Sie sich aber vergewissern möchten, dass die Daten aktuell sind, klicken Sie auf Aktualisieren.

Jede Berechnung oder Aktualisierung im Pushdown kostet Snowflake-Guthaben. Weitere Informationen finden Sie unter Data quality for connection-based datasets.

Es gibt zwei Hauptabschnitte, in denen die Qualität angezeigt wird.

  • Der Bereich Datenqualität umfasst Folgendes:

    • Die Verteilung der gültigen, ungültigen und leeren Werte im ganzen Datensatz in Form einer Qualitätsleiste in drei Farben mit den entsprechenden Prozentsätzen

    • Einen Gültigkeits-Score, der den Prozentsatz der gültigen Werte ausdrückt, ohne leere Werte zu berücksichtigen

    • Einen Vollständigkeits-Score, der den Prozentsatz der nicht leeren Werte ausdrückt

    • Eine Uhrzeit für die Frische, die die letzte Aktualisierung der Datenquelle angibt Weitere Informationen finden Sie unter Aktualität der Daten.

  • Der Bereich Schema zeigt die verschiedenen Felder des Datensatzes, den angewendeten Datentyp oder semantischen Typ und eine Qualitätsleiste für jedes Feld des Datensatzes.

TipphinweisFür verbindungsbasierte Datensätze gilt: Wenn das Schema und die Qualität des Datensatzes nicht abgerufen werden können, prüfen Sie, ob für die Verbindung, die Sie im Qlik Analytics Services Hub eingerichtet haben, das Feld Rolle ordnungsgemäß ausgefüllt ist, oder ob die Rolle selbst die erforderlichen Berechtigungen für die Datenbanktabelle gewährt.

Erkennung der semantischen Typen

Jedem Feld eines Datensatzes wird automatisch ein semantischer Typ zugewiesen, um den Inhalt besser zu beschreiben. Im Hintergrund erfolgt ein Datenerkennungsvorgang, der bestimmt, welcher Typ zugewiesen werden soll.

Die Datenerkennung berechnet, wie viele Werte in einer Spalte mit jedem semantischen Typ übereinstimmen, und wenn das Ergebnis größer als 40 % ist, weist sie den semantischen Typ zur Spalte zu.

Wie wird der Prozentsatz berechnet?

Dieser Prozentsatz ist die Summe zweier Prozentsätze:

  • Ein Prozentsatz stellt die Anzahl der Werte dar, die dem semantischen Typ entsprechen; bis zu 100 % werden zugewiesen. Bei der Bestimmung, ob ein Wert mit einem semantischen Typ übereinstimmt, stützt sich die Datenerkennung auf den Typ des semantischen Typs:

    • Wörterbuch: Stimmt der Wert mit einem Wert aus dem Wörterbuch überein? Satzzeichen, Groß- und Kleinschreibung, Leerzeichen und Akzente werden ignoriert.

    • Regulärer Ausdruck: Stimmt der Wert mit dem regulären Ausdruck überein?

    • Verbund: Wird der Wert in mindestens einem untergeordneten Element erkannt?

      Ein Verbundtyp ist eine Gruppe vorhandener semantischer Typen, die als untergeordnete Typen bezeichnet werden.

    Wenn die Antwort positiv ist, wird der Wert als gültig betrachtet.

  • Der andere Prozentsatz stellt die Ähnlichkeit zwischen dem Spaltennamen und dem Namen des semantischen Typs dar; bis zu 10 % werden zugewiesen.

    Zum Vergleichen der Namen:

    • Der Levenshtein-Algorithmus wird verwendet. Er berechnet die Mindestanzahl Bearbeitungen (Einfügung, Löschung oder Ersetzung), die zum Umwandeln einer Zeichenfolge in eine andere erforderlich sind.

    • Die Groß- und Kleinschreibung und Akzente werden ignoriert.

    • Wenn die Zeichenfolgen Leerzeichen enthalten, wird die Wortreihenfolge ignoriert. Beispielsweise werden „US Phone“ und „Phone US“ als identisch betrachtet.

    Der maximale Prozentsatz ist 100 %. Wenn alle Werte einem semantischen Typ entsprechen und der Spaltenname mit dem Namen des semantischen Typs identisch ist, beträgt das Ergebnis immer noch 100 %.

Erkennung von Datentypen

Anstelle von semantischen Typen können auch native Datentypen zugewiesen werden. Wenn kein semantischer Typ mehr als 40 % erhält, weist die Datenerkennung automatisch einen Datentyp zu.

Um zu bestimmen, von welchem Typ ein Wert ist, befolgt die Datenerkennung eine Reihenfolge:

  1. Ist der Wert leer?

  2. Ist der Wert vom Typ „Boolesch“? „true“ und „false“ sind die einzigen Werte, die als Typ „Boolesch“ gelten.

  3. Ist der Wert vom Typ „Ganzzahl“?

  4. Ist der Wert vom Typ „Dezimalzahl“?

  5. Ist der Wert vom Typ „Datum“?

  6. Wenn der Wert nicht von einem der obigen Typen ist, wird er als Textwert betrachtet.

Da die Verifizierung inkrementell ist, hat ein Wert nur einen Typ. Beispielsweise ist der Wert 5 vom Typ „Ganzzahl“. Er wird nicht als Typ „Text“ betrachtet.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!