Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Data-Profiling-Bereich

In einer Datenaufbereitung bieten Ihnen verschiedene Registerkarten Einblicke in Ihren Datensatz.
Die verschiedenen Registerkarten einer Datenaufbereitung hervorgehoben

Registerkarte „Chart (Diagramm)“

Die Registerkarte Chart (Diagramm) enthält eine grafische Darstellung Ihrer Daten. Auf dieser Registerkarte können Sie darüber hinaus Ihre Daten ganz einfach und schnell filtern.

Geöffnete Registerkarte „Chart (Diagramm)“

Je nach dem von Ihnen ausgewählten Datentyp oder semantischen Typ, fällt die grafische Darstellung der Werteverteilung auf der Registerkarte unterschiedlich aus:

  • Vertikale Balkendiagramme für numerische Daten
  • Horizontale Balkendiagramme für Textdaten
  • Weltkarte für Continent (Kontinent)und Continent Code (Kontinentcode), Country (Land), Country Code ISO2 (ISO2-Ländercode) und Country Code ISO3 (ISO3-Ländercode)
  • Karte Nordamerikas für North American state (Bundesstaat Nordamerika) und North American state code (Bundesstaatencode Nordamerika)
  • USA-Karte für US State (US-Bundesstaat) und US State Code (Code für US-Bundesstaat)
  • Karte Mexikos für MX Estado und MX Estado Code (Code für MX Estado)
  • Karte Kanadas für CA Province Territory (CA Provinz/Territorium) und CA Province Territory Code (Code für CA Provinz/Territorium)
  • Karte Frankreichs für FR Departement, FR Region and FR Region Legacy (FR DOM/TOM)

Weitere Informationen und Beispiele finden Sie unter Filtern von Werten über Diagramme.

Registerkarte „Value (Wert)“

Auf der Registerkarte Value (Wert) finden Sie verschiedene Übersichtsstatistiken für die jeweils ausgewählte Spalte. Diese Statistiken sind nur für Spalten mit numerischen Werten verfügbar.

Geöffnete Registerkarte „Value (Wert)“

  • Count (Anzahl): Anzahl der Werte in der Spalte
  • Distinct (Unterschiedlich): Anzahl an unterschiedlichen Werten in der Spalte
  • Duplicate (Duplikat): Anzahl an identischen Werten in der Spalte
  • Valid (Gültig): Anzahl an gültigen Werten in der Spalte
  • Empty (Leer): Anzahl an leeren Datenelementen in der Spalte
  • Invalid (Ungültig): Anzahl an ungültigen Werten in der Spalte
  • Avg length (Durchschnittl. Länge): Durchschnittliche Länge der Zeichenfolgenwerte auf der Grundlage der Zeichenanzahl in den Datenelementen der Spalte
  • Min length (Min. Länge): Mindestlänge der Zeichenfolgenwerte auf der Grundlage der Zeichenanzahl in den Datenelementen der Spalte
  • Max length (Max. Länge): Höchstlänge der Zeichenfolgenwerte auf der Grundlage der Zeichenanzahl in den Datenelementen der Spalte
  • Min (Min.): Niedrigster Wert in der Spalte
  • Max (Max.): Höchster Wert in der Spalte
  • Mean (Mittelwert): Durchschnittswert der Spalte
  • Variance (Varianz): Verteilung der Werte im Vergleich zum Mittelwert. Mathematisch als Durchschnitt der Abweichungen vom Mittelwert im Quadrat definiert.

Registerkarte „Pattern (Muster)“

Die Registerkarte Pattern (Muster) enthält eine grafische Darstellung des Typs Ihrer Daten und der Anzahl der Zeichen, aus denen Ihre Daten bestehen.

Sie zeigt Ihnen, wie die Datensätze strukturiert sind, entweder über ein Wort oder über die Zeichengranularität. Auf dieser Registerkarte können Sie darüber hinaus Ihre Daten ganz einfach und schnell filtern.

Wenn Sie den Inhalt einer Spalte auswählen, wird der jeweilige Anteil der verschiedenen verwendeten Muster in einem horizontalen Balkendiagramm ausgewiesen. Je nach Typ der von Ihnen ausgewählten Daten wird ein anderes Standardmuster angezeigt:

  • Wortbasiert für den Spaltentyp text (Text) oder boolean (Boolesch)
  • Zeichenbasiert für den Spaltentyp date (Datum) oder number (Zahl)

Aber ungeachtet des jeweiligen Datentyps können Sie auf der Registerkarte Pattern (Muster) zwischen den zeichen- und den wortbasierten Mustern umschalten.

Die Analyse wortbasierter Muster ist eine Möglichkeit, auf effiziente Weise Probleme bei der Datenqualität beispielsweise in Bezug auf Vor- oder Nachnamen zu erfassen. Namen, die nicht ausschließlich aus Wörtern bestehen, sondern auch Satzzeichen oder Zahlen enthalten, sind direkt erkennbar. Zeichenbasierte Muster andererseits eignen sich eher für strukturierte Daten, z. B. Kunden-IDs oder Kontonummern. Dem Diagramm können Sie direkt entnehmen, ob die Anzahl an Buchstaben oder Zahlen nicht die richtige ist.

Geöffnete Registerkarte „Pattern (Muster)“

Weitere Informationen und Beispiele finden Sie unter Filtern von Werten über Muster.

Registerkarte „Advanced (Erweitert)“

Die Registerkarte Advanced (Erweitert) ist nur für numerische Werte verfügbar. Ein Boxplot bietet Ihnen einen Überblick über die Verteilung der Datenelemente einer Spalte. Das Boxplot enthält folgende Informationen:
In einem Boxplot angezeigte Informationen
  • Maximum: Höchstwert der Datenelemente in der Spalte
  • Minimum: Mindestwert der Datenelemente in der Spalte
  • Mean (Mittelwert): Mittelwert der Datenelemente in der Spalte
  • Median: Medianwert der Datenelemente in der Spalte
  • Upper quartile (Oberes Quartil): Medianwert zwischen Median und Höchstwert (Maximum) der Datenelemente in der Spalte
  • Lower quartile (Unteres Quartil): Medianwert zwischen Mindestwert (Minimum) und Medianwert der Datenelemente in der Spalte

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!