KMeans2D - fonction de graphique
KMeans2D() évalue les lignes du graphique en appliquant un algorithme des k-moyennes, et, pour chaque ligne du graphique, il évalue l'id du cluster auquel ce point de données a été affecté. Les colonnes utilisées par l'agorithme sont déterminées par les paramètres coordinate_1, et coordinate_2, respectivement. Ces deux paramètres sont des agrégations. Le nombre de clusters créés est déterminé par le paramètre num_clusters. En option, les données peuvent être normalisées par le paramètre de norme.
KMeans2D renvoie une valeur par point de données. La valeur renvoyée est une valeur double et est la valeur d'entier correspondant au cluster auquel chaque point de données a été affecté.
KMeans2D(num_clusters, coordinate_1, coordinate_2 [, norm])
double
Argument | Description |
---|---|
num_clusters | Entier qui spécifie le nombre de clusters. |
coordinate_1 | L'agrégation calcule la première coordonnée, généralement l'axe x du nuage de points qui peut être obtenu à partir du graphique. Le paramètre supplémentaire, coordinate_2, calcule la deuxième coordonnée. |
norm |
La méthode de normalisation optionnelle est appliquée aux ensembles de données avant le clustering KMeans. Valeurs possibles : 0 ou ‘none’ pour aucune normalisation 1 ou ‘zscore’ pour la normalisation z-score 2 ou ‘minmax’ pour la normalisation min-max Si aucun paramètre n'est fourni ou si le paramètre fourni est incorrect, aucune normalisation n'est appliquée. Z-score normalise les données en fonction d'une moyenne des fonctions et d'un écart-type standard. Z-score ne garantit pas que chaque fonction a la même échelle, mais il s'agit d'une meilleure approche que min-max pour traiter les valeurs hors norme. La normalisation min-max garantit que les fonctions ont la même échelle en prenant les valeurs minimale et maximale et chacune et en recalculant chaque point de données. |
Regroupement automatique
Les fonctions K-moyennes prennent en charge le clustering automatique via une méthode dite Différence de profondeur (DeD - Depth Difference). Quand un utilisateur définit 0 comme nombre de clusters, un nombre optimal de clusters est déterminé pour cet ensemble de données. Notez que même si entier n'est pas explicitement renvoyé pour le nombre de clusters (k), il est calculé dans l'algorithme K-moyennes. Par exemple, si 0 est spécifié dans la fonction pour la valeur de KmeansPetalClusters ou défini via une zone d'entrée de variable, les affectations de clusters sont automatiquement calculées pour l'ensemble de données en fonction d'un nombre optimal de clusters.