KMeansND() évalue les lignes du graphique en appliquant un algorithme des k-moyennes, et, pour chaque ligne du graphique, il évalue l'id du cluster auquel ce point de données a été affecté. Les colonnes utilisées par l’algorithme sont déterminées par les paramètres coordinate_1, coordinate_2, etc., jusqu'à n colonnes. Ces paramètres sont tous des agrégations. Le nombre de clusters créés est déterminé par le paramètre num_clusters.
KMeansND renvoie une valeur par point de données. La valeur renvoyée est une valeur double et est la valeur d'entier correspondant au cluster auquel chaque point de données a été affecté.
Le nombre d'itérations de clustering avec des centres de cluster réinitialisés.
coordinate_1
L'agrégation calcule la première coordonnée, généralement l'axe x (d'un nuage de points qui peut être obtenu à partir du graphique). Les paramètres supplémentaires calculent les deuxième, troisième et quatrième coordonnées, etc.
Dans cet exemple, nous créons un graphique Nuage de points à l'aide de l'ensemble de données Iris, puis nous utilisons KMeans pour colorer les données par expression.
Nous créons également une variable pour l'argument num_clusters, puis nous utilisons une zone d'entrée de variable pour modifier le nombre de clusters.
Nous créons également une variable pour l'argument num_iter, puis nous utilisons une deuxième zone d'entrée de variable pour modifier le nombre d'itérations.
L'ensemble de données Iris est publiquement disponible dans une variété de formats. Nous avons fourni les données sous forme de tableau intégré à charger via l'éditeur de chargement de données dans Qlik Sense. Notez que nous avons ajouté une colonne Id à la table de données pour cet exemple.
Après avoir chargé les données dans Qlik Sense, procédez comme suit :
Glissez un graphique Nuage de points sur une nouvelle feuille. Nommez le graphique Pétale (expression de la couleur).
Créez une variable pour spécifier le nombre de clusters. Pour la variable Nom, saisissez KmeansPetalClusters. Pour la variable Définition, saisissez =2.
Créez une variable pour spécifier le nombre d'itérations. Pour la variable Nom, saisissez KmeansNumberIterations. Pour la variable Définition, saisissez =1.
Configurez Données pour le graphique :
sous Dimensions, sélectionnez id pour le champ Bulle. Saisissez l'Id de cluster de l'Étiquette.
Sous Mesures, sélectionnez Sum([petal.length]) pour l'expression Axe X.
Sous Mesures, sélectionnez Sum([petal.width]) pour l'expression Axe Y.
Paramètres des données pour le graphique Pétale (expression de la couleur)
Les points de données sont tracés sur le graphique.
Points de données sur le graphique Pétale (expression de la couleur)
Configurez Aspect pour le graphique :
Sous Couleurs et légende, sélectionnez Personnaliser pour Couleurs.
Choisissez de colorer le graphique Par expression.
Saisissez la valeur suivante pour Expression : kmeansnd($(KmeansPetalClusters),$(KmeansNumberIterations), Sum([petal.length]), Sum([petal.width]),Sum([sepal.length]), Sum([sepal.width]))
Notez que KmeansPetalClusters est la variable définie sur 2. KmeansNumberIterations est la variable définie sur 1.
Décochez la case Expression sous forme de code couleur.
Saisissez la valeur suivante pour Étiquette : Id de cluster
Paramètres d'aspect pour le graphique Pétale (expression de la couleur)
Les deux clusters du graphique sont colorés par l'expression KMeans.
Clusters colorés par expression sur le graphique Pétale (expression de la couleur)
Ajoutez une zone Entrée de variable pour le nombre de clusters.
Sous Objets personnalisés dans le panneau des Ressources, sélectionnez Qlik Dashboard bundle. Si nous n'avions pas accès au Dashboard bundle, nous pourrions tout de même modifier le nombre de clusters à l'aide de la variable créée, ou directement sous forme d'entier dans l'expression.
Glissez une zone Entrée de variable sur la feuille.
Sous Aspect, cliquez sur Général.
Saisissez la valeur suivante pour Titre : Clusters
Cliquez sur Variable.
Sélectionnez la variable suivante pour Nom : KmeansPetalClusters.
Sélectionnez Curseur pour Afficher comme.
Sélectionnez Valeurs et configurez les paramètres selon les besoins.
Aspect pour la zone d'entrée de variable Clusters
Ajoutez une zone Entrée de variable pour le nombre d'itérations.
Glissez une zone Entrée de variable sur la feuille.
Sous Aspect, sélectionnez Général.
Saisissez la valeur suivante pour Titre : Itérations
Sous Aspect, sélectionnez Variable.
Sélectionnez la variable suivante sous Nom : KmeansNumberIterations.
Configurez les paramètres supplémentaires selon les besoins.
À présent, nous pouvons modifier le nombre de clusters et d'itérations à l'aide des curseurs des zones d'entrée de variable.
Clusters colorés par expression sur le graphique Pétale (expression de la couleur)
Clustering automatique
Les fonctions K-moyennes prennent en charge le clustering automatique via une méthode dite Différence de profondeur (DeD - Depth Difference). Quand un utilisateur définit 0 comme nombre de clusters, un nombre optimal de clusters est déterminé pour cet ensemble de données. Notez que même si entier n'est pas explicitement renvoyé pour le nombre de clusters (k), il est calculé dans l'algorithme K-moyennes. Par exemple, si 0 est spécifié dans la fonction pour la valeur de KmeansPetalClusters ou défini via une zone d'entrée de variable, les affectations de clusters sont automatiquement calculées pour l'ensemble de données en fonction d'un nombre optimal de clusters. Étant donné l'ensemble de données Iris, si 0 est sélectionné comme nombre de clusters, l'algorithme déterminera un nombre optimal de clusters (3) pour cet ensemble de données (c'est ce qu'on appelle le clustering automatique).
La méthode Différence de profondeur de K-moyennes détermine le nombre optimal de clusters quand (k) est défini sur 0.
Ensemble de données Iris : Chargement intégré de l'éditeur de chargement de données dans Qlik Sense
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !