Erkennen von Datentypen und semantischen Typen

Beim Hinzufügen von Datensätzen schlägt Talend Data Preparation automatisch für jede Spalte die Datentypen bzw. semantischen Typen vor, die den Daten jeweils am besten entsprechen.

Erkennen semantischer Typen

Die Datenerkennung berechnet die Anzahl der Werte, die jedem semantischen Typ entsprechen, und weist bei einem Ergebnis über 40 % dann den betreffenden semantischen Typ der Spalte zu.

Um den Prozentsatz für jeden semantischen Typ anzuzeigen, klicken Sie in der Sample-Ansicht Ihres Datensatzes auf das Symbol menu (Menü) .

Für die Adresszeile angezeigter semantischer Typ

Diese Funktion ist auch in der Hierarchieansicht (Hierarchy) verfügbar.

Wie wird der Prozentsatz berechnet?

Der Prozentsatz ist die Summe aus zwei Prozentsätzen:

Ein Prozentsatz entspricht der Anzahl der Werte, die mit dem semantischen Typ übereinstimmen. Max. zugewiesener Wert: 100 %.
Um zu bestimmen, ob ein Wert einem semantischen Typ entspricht, greift die Datenerkennung auf den Typ des semantischen Typs zurück:
- Wörterbuch: Entspricht der Wert einem Wert aus dem Wörterbuch? Satzzeichen, Groß-/Kleinschreibung, Leerzeichen und Akzente werden ignoriert.
- Regular expression (Regulärer Ausdruck): Entspricht der Wert dem regulären Ausdruck?
- Compound (Zusammengesetzter Wert): Wird der Wert in mindestens einem untergeordneten Element erkannt?
  Ein zusammengesetzter Typ entspricht einer Gruppe vorhandener semantischer Typen, die als untergeordnete Elemente bezeichnet werden.
Bei einer positiven Antwort wird der Wert als gültig eingestuft.
Der andere Prozentsatz verweist auf die Ähnlichkeit zwischen Spaltenname und Name des semantischen Typs. Max. zugewiesener Wert: 10 %.
Für den Vergleich der Namen:
- Wird der Levenshtein-Algorithmus verwendet. Wird die Mindestanzahl an Bearbeitungen (Einfügen, Löschen oder Ersetzen) berechnet, die für die Transformation einer Zeichenfolge in eine andere erforderlich ist.
- Werden Groß-/Kleinschreibung und Akzente ignoriert.
- Wenn die Zeichenfolgen Leerzeichen enthalten, wird die Wortreihenfolge ignoriert. Beispiel: US Phone und Phone US werden als identisch eingestuft.
Der maximale Prozentsatz ist 100 %. Wenn alle Werte einem semantischen Typ entsprechen und der Spaltenname mit dem Namen des semantischen Typs übereinstimmt, ist das Ergebnis ebenfalls 100 %.

Anzeigen der Qualitätsleiste

In der Qualitätsleiste wird die Anzahl der ungültigen, leeren und gültigen Werte je nach zugewiesenem semantischem Typ angegeben. Um die Leiste anzuzeigen, aktivieren Sie die Einstellung Use for validation (Für Validierung verwenden) in der Konfiguration des semantischen Typs.

In der Rasteransicht angezeigte Qualitätsleiste

In der Hierarchieansicht angezeigte Qualitätsleiste

Erkennen nativer Datentypen

Wenn kein semantischer Typ einen Wert über 40 % erreicht, weist die Datenerkennung einen Datentyp zu.

Liste der verschiedenen nativen Datentypen
Nativer Datentyp	Beschreibung	Beispiel
Text	Zeichenfolgentext	`username`
Integer (Ganzzahl)	Numerischer Wert	`123`
Decimal (Dezimalwert)	Numerischer Dezimalwert	`1.26`
Date (Datum)	Datum, einschließlich Tag, Monat und Jahr	`11/08/2022`
Time (Uhrzeit)	Tageszeit	`11am`
Timestamps (Zeitstempel)	Datum und Uhrzeit	`11/08 11:00`
Boolean (Boolescher Wert)	Antworten mit dem Wert True oder False	`True`

Zur Bestimmung des Typs eines Werts durchläuft die Datenerkennung eine bestimmte Reihenfolge:

Ist der Wert leer?
Ist der Wert vom Typ „Boolean“ (Boolescher Wert)? True und False sind die einzigen Werte, die als boolescher Wert eingestuft werden.
Ist der Wert vom Typ „Integer“ (Ganzzahl)?
Ist der Wert vom Typ „Decimal“ (Dezimalwert)?
Ist der Wert vom Typ „Date“ (Datum)?
Wenn der Wert keinen der oben genannten Typen aufweist, wird er als Text-Wert eingestuft.
Da die Prüfung ein inkrementaler Prozess ist, weist ein Wert nur jeweils einen Typ auf. Beispiel: Der Wert 5 ist vom Typ Integer (Ganzzahl). Er wird nicht als Text eingestuft.

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!

Geben Sie hier Ihr Feedback ab