Data-Profiling-Bereich
Registerkarte „Chart (Diagramm)“
Die Registerkarte Chart (Diagramm) enthält eine grafische Darstellung Ihrer Daten. Auf dieser Registerkarte können Sie darüber hinaus Ihre Daten ganz einfach und schnell filtern.
Je nach dem von Ihnen ausgewählten Datentyp oder semantischen Typ, fällt die grafische Darstellung der Werteverteilung auf der Registerkarte unterschiedlich aus:
- Vertikale Balkendiagramme für numerische Daten
- Horizontale Balkendiagramme für Textdaten
- Weltkarte für Continent (Kontinent)und Continent Code (Kontinentcode), Country (Land), Country Code ISO2 (ISO2-Ländercode) und Country Code ISO3 (ISO3-Ländercode)
- Karte Nordamerikas für North American state (Bundesstaat Nordamerika) und North American state code (Bundesstaatencode Nordamerika)
- USA-Karte für US State (US-Bundesstaat) und US State Code (Code für US-Bundesstaat)
- Karte Mexikos für MX Estado und MX Estado Code (Code für MX Estado)
- Karte Kanadas für CA Province Territory (CA Provinz/Territorium) und CA Province Territory Code (Code für CA Provinz/Territorium)
- Karte Frankreichs für FR Departement, FR Region and FR Region Legacy (FR DOM/TOM)
Weitere Informationen und Beispiele finden Sie unter Filtern von Werten über Diagramme.
Registerkarte „Value (Wert)“
- Count (Anzahl): Anzahl der Werte in der Spalte
- Distinct (Unterschiedlich): Anzahl an unterschiedlichen Werten in der Spalte
- Duplicate (Duplikat): Anzahl an identischen Werten in der Spalte
- Valid (Gültig): Anzahl an gültigen Werten in der Spalte
- Empty (Leer): Anzahl an leeren Datenelementen in der Spalte
- Invalid (Ungültig): Anzahl an ungültigen Werten in der Spalte
- Avg length (Durchschnittl. Länge): Durchschnittliche Länge der Zeichenfolgenwerte auf der Grundlage der Zeichenanzahl in den Datenelementen der Spalte
- Min length (Min. Länge): Mindestlänge der Zeichenfolgenwerte auf der Grundlage der Zeichenanzahl in den Datenelementen der Spalte
- Max length (Max. Länge): Höchstlänge der Zeichenfolgenwerte auf der Grundlage der Zeichenanzahl in den Datenelementen der Spalte
- Min (Min.): Niedrigster Wert in der Spalte
- Max (Max.): Höchster Wert in der Spalte
- Mean (Mittelwert): Durchschnittswert der Spalte
- Variance (Varianz): Verteilung der Werte im Vergleich zum Mittelwert. Mathematisch als Durchschnitt der Abweichungen vom Mittelwert im Quadrat definiert.
Registerkarte „Pattern (Muster)“
Sie zeigt Ihnen, wie die Datensätze strukturiert sind, entweder über ein Wort oder über die Zeichengranularität. Auf dieser Registerkarte können Sie darüber hinaus Ihre Daten ganz einfach und schnell filtern.
Wenn Sie den Inhalt einer Spalte auswählen, wird der jeweilige Anteil der verschiedenen verwendeten Muster in einem horizontalen Balkendiagramm ausgewiesen. Je nach Typ der von Ihnen ausgewählten Daten wird ein anderes Standardmuster angezeigt:
- Wortbasiert für den Spaltentyp text (Text) oder boolean (Boolesch)
- Zeichenbasiert für den Spaltentyp date (Datum) oder number (Zahl)
Aber ungeachtet des jeweiligen Datentyps können Sie auf der Registerkarte Pattern (Muster) zwischen den zeichen- und den wortbasierten Mustern umschalten.
Die Analyse wortbasierter Muster ist eine Möglichkeit, auf effiziente Weise Probleme bei der Datenqualität beispielsweise in Bezug auf Vor- oder Nachnamen zu erfassen. Namen, die nicht ausschließlich aus Wörtern bestehen, sondern auch Satzzeichen oder Zahlen enthalten, sind direkt erkennbar. Zeichenbasierte Muster andererseits eignen sich eher für strukturierte Daten, z. B. Kunden-IDs oder Kontonummern. Dem Diagramm können Sie direkt entnehmen, ob die Anzahl an Buchstaben oder Zahlen nicht die richtige ist.
Weitere Informationen und Beispiele finden Sie unter Filtern von Werten über Muster.
Registerkarte „Advanced (Erweitert)“
- Maximum: Höchstwert der Datenelemente in der Spalte
- Minimum: Mindestwert der Datenelemente in der Spalte
- Mean (Mittelwert): Mittelwert der Datenelemente in der Spalte
- Median: Medianwert der Datenelemente in der Spalte
- Upper quartile (Oberes Quartil): Medianwert zwischen Median und Höchstwert (Maximum) der Datenelemente in der Spalte
- Lower quartile (Unteres Quartil): Medianwert zwischen Mindestwert (Minimum) und Medianwert der Datenelemente in der Spalte