Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Erkennen semantischer Typen

Die Datenerkennung berechnet die Anzahl der Werte, die jedem semantischen Typ entsprechen, und weist bei einem Ergebnis über 40 % dann den betreffenden semantischen Typ der Spalte zu.

Wenn kein semantischer Typ einen Wert über 40 % erreicht, weist die Datenerkennung einen Datentyp (data type) zu.

Um den Prozentsatz für jeden semantischen Typ anzuzeigen, klicken Sie in der Sample-Ansicht Ihres Datensatzes auf das Symbol Drei Punkte.

Prozentsatz für einen semantischen Typ in der Sample-Ansicht

Diese Funktion ist auch in der Hierarchieansicht (Hierarchy) verfügbar.

Prozentsatz für einen semantischen Typ in der Hierarchieansicht

Wie wird der Prozentsatz berechnet?

Der Prozentsatz ist die Summe aus zwei Prozentsätzen:
  • Ein Prozentsatz entspricht der Anzahl der Werte, die mit dem semantischen Typ übereinstimmen. Max. zugewiesener Wert: 100 %.

    Um zu bestimmen, ob ein Wert einem semantischen Typ entspricht, greift die Datenerkennung auf den Typ des semantischen Typs zurück:

    • Wörterbuch: Entspricht der Wert einem Wert aus dem Wörterbuch? Satzzeichen, Groß-/Kleinschreibung, Leerzeichen und Akzente werden ignoriert.
    • Regular expression (Regulärer Ausdruck): Entspricht der Wert dem regulären Ausdruck?
    • Compound (Zusammengesetzter Wert): Wird der Wert in mindestens einem untergeordneten Element erkannt?
      Ein zusammengesetzter Typ entspricht einer Gruppe vorhandener semantischer Typen, die als untergeordnete Elemente bezeichnet werden.

    Bei einer positiven Antwort wird der Wert als gültig eingestuft.

  • Der andere Prozentsatz verweist auf die Ähnlichkeit zwischen Spaltenname und Name des semantischen Typs. Max. zugewiesener Wert: 10 %.
    Für den Vergleich der Namen:
    • Wird der Levenshtein-Algorithmus verwendet. Wird die Mindestanzahl an Bearbeitungen (Einfügen, Löschen oder Ersetzen) berechnet, die für die Transformation einer Zeichenfolge in eine andere erforderlich ist.
    • Werden Groß-/Kleinschreibung und Akzente ignoriert.
    • Wenn die Zeichenfolgen Leerzeichen enthalten, wird die Wortreihenfolge ignoriert. Beispiel: US Phone und Phone US werden als identisch eingestuft.
    Der maximale Prozentsatz ist 100 %. Wenn alle Werte einem semantischen Typ entsprechen und der Spaltenname mit dem Namen des semantischen Typs übereinstimmt, ist das Ergebnis ebenfalls 100 %.

Anzeigen der Qualitätsleiste

In der Qualitätsleiste wird die Anzahl der ungültigen, leeren und gültigen Werte je nach zugewiesenem semantischem Typ angegeben. Um die Leiste anzuzeigen, aktivieren Sie die Einstellung Use for validation (Für Validierung verwenden) in der Konfiguration des semantischen Typs.

  • In der Rasteransicht (Grid):
    Qualitätsleiste in der Rasteransicht
  • In der Hierarchieansicht (Hierarchy):
    Qualitätsleiste in der Hierarchieansicht

Der Prozentsatz der gültigen Werte kann unter dem Ergebnis der Datenerkennung liegen. Das kann in folgenden Fällen vorkommen:

  • Die Validierungsregel ist einschränkender als der semantische Typ. In diesem Fall entsprechen die Werte denjenigen des semantischen Typs, aber gemäß der Validierungsregel stimmen die Werte nicht überein, beispielsweise in Bezug auf die Groß-/Kleinschreibung oder Satzzeichensetzung.
  • Die Übereinstimmung des Spaltennamens und des Namens des semantischen Typs ergibt 100 % für den semantischen Typ. In diesem Fall werden in der Qualitätsleiste 90 % und 100 % gültiger Werte angegeben.

Erkennen von Datentypen

Anstelle von semantischen Typen können Datentypen zugewiesen werden. Wenn kein semantischer Typ einen Wert über 40 % erreicht, weist die Datenerkennung einen Datentyp zu.

Zur Bestimmung des Typs eines Werts durchläuft die Datenerkennung eine bestimmte Reihenfolge:
  1. Ist der Wert leer?
  2. Ist der Wert vom Typ „Boolean“ (Boolescher Wert)? True und False sind die einzigen Werte, die als boolescher Wert eingestuft werden.
  3. Ist der Wert vom Typ „Integer“ (Ganzzahl)?
  4. Ist der Wert vom Typ „Decimal“ (Dezimalwert)?
  5. Ist der Wert vom Typ „Date“ (Datum)?
  6. Wenn der Wert keinen der oben genannten Typen aufweist, wird er als Text-Wert eingestuft.

Da die Prüfung ein inkrementaler Prozess ist, weist ein Wert nur jeweils einen Typ auf. Beispiel: Der Wert 5 ist vom Typ Integer (Ganzzahl). Er wird nicht als Text eingestuft.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!