KMeans2D() wertet die Zeilen des Diagramms aus, indem K-means-Clustering angewandt wird. Für jede Diagrammzeile wird die Cluster-ID des Clusters angezeigt, dem dieser Datenpunkt zugewiesen wurde. Die vom Clustering-Algorithmus verwendeten Spalten werden von den Parametern coordinate_1 bzw. coordinate_2 festgelegt. Es handelt sich bei beiden um Aggregierungen. Die Anzahl der erstellten Cluster wird durch den Parameter num_clusters bestimmt. Daten können optional mit dem Normparameter normalisiert werden.
KMeans2D gibt einen Wert pro Datenpunkt zurück. Der zurückgegebene Wert ist ein dualer Wert und ein Ganzzahlwert, der dem Cluster entspricht, dem der jeweilige Datenpunkt zugewiesen wurde.
Die Aggregierung, die die erste Koordinate berechnet, in der Regel die x-Achse des Punktdiagramms, das anhand des Diagramms erstellt werden kann. Der weitere Parameter, coordinate_2, berechnet die zweite Koordinate.
norm
Die optionale Normalisierungsmethode wird vor dem KMeans-Clustering auf Datensätze angewendet.
Mögliche Werte:
0 oder „none“ für keine Normalisierung.
1 oder „zscore“ für z-score-Normalisierung
2 oder „minmax“ für min-max-Normalisierung
Wenn kein Parameter bereitgestellt wird oder wenn der bereitgestellte Parameter falsch ist, wird keine Normalisierung angewendet.
z-score normalisiert Daten gestützt auf Funktionsmittel und Standardabweichung. z-score stellt nicht sicher, dass jede Funktion die gleiche Skala hat, ist aber im Fall von Ausreißern eine besser geeignete Option als min-max.
Min-max-Normalisierung sorgt dafür, dass die Funktionen die gleiche Skala haben, indem jeder Mindest- und Höchstwert erfasst und jeder Datenpunkt neu berechnet wird.
In diesem Beispiel erstellen wir ein Punktdiagramm anhand des Datensatzes Iris und verwenden dann KMeans, um die Daten nach Formel farblich zu kennzeichnen.
Daneben erstellen wir eine Variable für das Argument num_clusters und verwenden dann ein Variableneingabefeld, um die Anzahl der Cluster zu ändern.
Der Datensatz Iris ist in verschiedenen Formaten öffentlich verfügbar. Die Daten wurden als Inline-Tabelle bereitgestellt, die mit dem Dateneditor in Qlik Sense geladen werden kann. Beachten Sie, dass für dieses Beispiel der Datentabelle eine Spalte ID hinzugefügt wurde.
Nach dem Laden von Daten in Qlik Sense gehen wir wie folgt vor:
Ziehen Sie ein Punktdiagramm auf ein neues Arbeitsblatt. Geben Sie dem Diagramm den Namen Blütenblatt (Farbige Kennzeichnung nach Formel).
Erstellen Sie eine Variable, um die Anzahl der Cluster anzugeben. Geben Sie für die Variable NameKmeansPetalClusters ein. Geben Sie für die Variable Definition=2 ein.
Konfigurieren Sie Daten für das Diagramm:
Wählen Sie unter Dimensionen die Option ID für das Feld für Blase. Geben Sie als Bezeichnung die Cluster-ID ein.
Wählen Sie unter Kennzahlen die Option Sum([petal.length]) als Formel für X-Achse.
Wählen Sie unter Kennzahlen die Option Sum([petal.width]) als Formel für Y-Achse.
Dateneinstellungen für das Diagramm Blütenblatt (Farbige Kennzeichnung nach Formel)
Die Datenpunkte werden im Diagramm aufgetragen.
Datenpunkte im Diagramm Blütenblatt (Farbige Kennzeichnung nach Formel)
Konfigurieren Sie die Darstellung für das Diagramm:
Wählen Sie unter Farben und Legenden die Option Benutzerdefiniert für Farben.
Wählen Sie, die Farben des Diagramms Nach Formel festzulegen.
Geben Sie für Formel Folgendes ein: kmeans2d($(KmeansPetalClusters), Sum([petal.length]), Sum([petal.width]))
Beachten Sie, dass KmeansPetalClusters die Variable ist, die wir auf 2 festlegen.
Geben Sie alternativ Folgendes ein: kmeans2d(2, Sum([petal.length]), Sum([petal.width]))
Deaktivieren Sie das Kontrollkästchen für Die Formel ist ein Farbcode.
Geben Sie Folgendes für Bezeichnung ein: Cluster-ID
Darstellungseinstellungen für das Diagramm Blütenblatt (Farbige Kennzeichnung nach Formel)
Die beiden Cluster im Diagramm erhalten ihre Farbe entsprechend der KMeans-Formel.
Cluster mit Farbgebung nach Formel im Diagramm Blütenblatt (Farbige Kennzeichnung nach Formel)
Fügen Sie ein Variableneingabenfeld für die Anzahl der Cluster hinzu.
Wählen Sie unter Benutzerdefinierte Objekte im Extras-Fenster die Option Qlik Dashboard Bundle. Wenn kein Zugriff auf das Dashboard Bundle besteht, kann die Anzahl der Cluster dennoch mithilfe der erstellten Variable oder direkt als ganze Zahl in der Formel geändert werden.
Ziehen Sie ein Variableneingabenfeld auf das Arbeitsblatt.
Klicken Sie unter Darstellung auf Allgemein.
Geben Sie Folgendes als Titel ein: Cluster
Klicken Sie auf Variable.
Wählen Sie die folgende Variable für Name: KmeansPetalClusters.
Wählen Sie Schieberegler für Anzeigen als.
Wählen Sie Werte und konfigurieren Sie die Einstellungen wie erforderlich.
Darstellung für das Variableneingabefeld Cluster
Nach Abschluss der Bearbeitung kann die Anzahl der Cluster anhand des Schiebereglers im Variableneingabefeld Cluster geändert werden.
Cluster mit Farbgebung nach Formel im Diagramm Blütenblatt (Farbige Kennzeichnung nach Formel)
Automatisches Clustering
KMeans-Funktionen unterstützen automatisches Clustering mit einer Methode, die als Tiefendifferenz bezeichnet wird. Wenn ein Benutzer 0 für die Anzahl der Cluster festlegt, wird eine optimale Anzahl Cluster für diesen Datensatz bestimmt. Beachten Sie, dass eine Ganzzahl für die Anzahl der Cluster (k) nicht explizit zurückgegeben, sondern im Rahmen des KMeans-Algorithmus berechnet wird. Wenn beispielsweise 0 in der Funktion für den Wert von KmeansPetalClusters oder über ein Variableneingabefeld festgelegt wird, werden Clusterzuweisungen automatisch für den Datensatz gestützt auf eine optimale Anzahl Cluster berechnet.
Die KMeans-Tiefendifferenzmethode bestimmt die optimale Anzahl an Clustern, wenn (k) auf 0 festgelegt wird.
Iris-Datensatz: Inline-Ladevorgang für Dateneditor in Qlik Sense
Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!