Zu Hauptinhalt springen

KMeans2D - Diagrammfunktion

KMeans2D() wertet die Zeilen des Diagramms aus, indem K-means-Clustering angewandt wird. Für jede Diagrammzeile wird die Cluster-ID des Clusters angezeigt, dem dieser Datenpunkt zugewiesen wurde. Die vom Clustering-Algorithmus verwendeten Spalten werden von den Parametern coordinate_1 bzw. coordinate_2 festgelegt. Es handelt sich bei beiden um Aggregierungen. Die Anzahl der erstellten Cluster wird durch den Parameter num_clusters bestimmt. Daten können optional mit dem Normparameter normalisiert werden.

KMeans2D gibt einen Wert pro Datenpunkt zurück. Der zurückgegebene Wert ist ein dualer Wert und ein Ganzzahlwert, der dem Cluster entspricht, dem der jeweilige Datenpunkt zugewiesen wurde.

Syntax:  

KMeans2D(num_clusters, coordinate_1, coordinate_2 [, norm])

Return data type: dual

Arguments:  

Argumente
Argument Beschreibung
num_clusters Ganze Zahl, die die Anzahl der Cluster angibt
coordinate_1 Die Aggregierung, die die erste Koordinate berechnet, in der Regel die x-Achse des Punktdiagramms, das anhand des Diagramms erstellt werden kann. Der weitere Parameter, coordinate_2, berechnet die zweite Koordinate.
norm

Die optionale Normalisierungsmethode wird vor dem KMeans-Clustering auf Datensätze angewendet.

Mögliche Werte:

0 oder „none“ für keine Normalisierung.

1 oder „zscore“ für z-score-Normalisierung

2 oder „minmax“ für min-max-Normalisierung

Wenn kein Parameter bereitgestellt wird oder wenn der bereitgestellte Parameter falsch ist, wird keine Normalisierung angewendet.

z-score normalisiert Daten gestützt auf Funktionsmittel und Standardabweichung. z-score stellt nicht sicher, dass jede Funktion die gleiche Skala hat, ist aber im Fall von Ausreißern eine besser geeignete Option als min-max.

Min-max-Normalisierung sorgt dafür, dass die Funktionen die gleiche Skala haben, indem jeder Mindest- und Höchstwert erfasst und jeder Datenpunkt neu berechnet wird.