KMeans2D() évalue les lignes du graphique en appliquant un algorithme des k-moyennes, et, pour chaque ligne du graphique, il évalue l'id du cluster auquel ce point de données a été affecté. Les colonnes utilisées par l'agorithme sont déterminées par les paramètres coordinate_1, et coordinate_2, respectivement. Ces deux paramètres sont des agrégations. Le nombre de clusters créés est déterminé par le paramètre num_clusters. En option, les données peuvent être normalisées par le paramètre de norme.
KMeans2D renvoie une valeur par point de données. La valeur renvoyée est une valeur double et est la valeur d'entier correspondant au cluster auquel chaque point de données a été affecté.
L'agrégation calcule la première coordonnée, généralement l'axe x du nuage de points qui peut être obtenu à partir du graphique. Le paramètre supplémentaire, coordinate_2, calcule la deuxième coordonnée.
norm
La méthode de normalisation optionnelle est appliquée aux ensembles de données avant le clustering KMeans.
Valeurs possibles :
0 ou ‘none’ pour aucune normalisation
1 ou ‘zscore’ pour la normalisation z-score
2 ou ‘minmax’ pour la normalisation min-max
Si aucun paramètre n'est fourni ou si le paramètre fourni est incorrect, aucune normalisation n'est appliquée.
Z-score normalise les données en fonction d'une moyenne des fonctions et d'un écart-type standard. Z-score ne garantit pas que chaque fonction a la même échelle, mais il s'agit d'une meilleure approche que min-max pour traiter les valeurs hors norme.
La normalisation min-max garantit que les fonctions ont la même échelle en prenant les valeurs minimale et maximale et chacune et en recalculant chaque point de données.
Dans cet exemple, nous créons un graphique Nuage de points à l'aide de l'ensemble de données Iris, puis nous utilisons KMeans pour colorer les données par expression.
Nous créons également une variable pour l'argument num_clusters, puis nous utilisons une zone d'entrée de variable pour modifier le nombre de clusters.
L'ensemble de données Iris est publiquement disponible dans une variété de formats. Nous avons fourni les données sous forme de tableau intégré à charger via l'éditeur de chargement de données dans Qlik Sense. Notez que nous avons ajouté une colonne Id à la table de données pour cet exemple.
Après avoir chargé les données dans Qlik Sense, procédez comme suit :
Glissez un graphique Nuage de points sur une nouvelle feuille. Nommez le graphique Pétale (expression de la couleur).
Créez une variable pour spécifier le nombre de clusters. Pour la variable Nom, saisissez KmeansPetalClusters. Pour la variable Définition, saisissez =2.
Configurez Données pour le graphique :
sous Dimensions, sélectionnez id pour le champ Bulle. Saisissez l'Id de cluster de l'Étiquette.
Sous Mesures, sélectionnez Sum([petal.length]) pour l'expression Axe X.
Sous Mesures, sélectionnez Sum([petal.width]) pour l'expression Axe Y.
Paramètres des données pour le graphique Pétale (expression de la couleur)
Les points de données sont tracés sur le graphique.
Points de données sur le graphique Pétale (expression de la couleur)
Configurez Aspect pour le graphique :
Sous Couleurs et légende, sélectionnez Personnaliser pour Couleurs.
Choisissez de colorer le graphique Par expression.
Saisissez la valeur suivante pour Expression : kmeans2d($(KmeansPetalClusters), Sum([petal.length]), Sum([petal.width]))
Notez que KmeansPetalClusters est la variable définie sur 2.
Sinon, saisissez la valeur suivante : kmeans2d(2, Sum([petal.length]), Sum([petal.width]))
Décochez la case Expression sous forme de code couleur.
Saisissez la valeur suivante pour Étiquette : Id de cluster
Paramètres d'aspect pour le graphique Pétale (expression de la couleur)
Les deux clusters du graphique sont colorés par l'expression KMeans.
Clusters colorés par expression sur le graphique Pétale (expression de la couleur)
Ajoutez une zone Entrée de variable pour le nombre de clusters.
Sous Objets personnalisés dans le panneau des Ressources, sélectionnez Qlik Dashboard bundle. Si nous n'avions pas accès au Dashboard bundle, nous pourrions tout de même modifier le nombre de clusters à l'aide de la variable créée, ou directement sous forme d'entier dans l'expression.
Glissez une zone Entrée de variable sur la feuille.
Sous Aspect, cliquez sur Général.
Saisissez la valeur suivante pour Titre : Clusters
Cliquez sur Variable.
Sélectionnez la variable suivante pour Nom : KmeansPetalClusters.
Sélectionnez Curseur pour Afficher comme.
Sélectionnez Valeurs et configurez les paramètres selon les besoins.
Aspect pour la zone d'entrée de variable Clusters
Une fois l'édition terminée, nous pouvons modifier le nombre de clusters à l'aide du curseur de la zone d'entrée de la variable Clusters.
Clusters colorés par expression sur le graphique Pétale (expression de la couleur)
Clustering automatique
Les fonctions K-moyennes prennent en charge le clustering automatique via une méthode dite Différence de profondeur (DeD - Depth Difference). Quand un utilisateur définit 0 comme nombre de clusters, un nombre optimal de clusters est déterminé pour cet ensemble de données. Notez que même si entier n'est pas explicitement renvoyé pour le nombre de clusters (k), il est calculé dans l'algorithme K-moyennes. Par exemple, si 0 est spécifié dans la fonction pour la valeur de KmeansPetalClusters ou défini via une zone d'entrée de variable, les affectations de clusters sont automatiquement calculées pour l'ensemble de données en fonction d'un nombre optimal de clusters.
La méthode Différence de profondeur de K-moyennes détermine le nombre optimal de clusters quand (k) est défini sur 0.
Ensemble de données Iris : Chargement intégré de l'éditeur de chargement de données dans Qlik Sense
Si vous rencontrez des problèmes sur cette page ou dans son contenu – une faute de frappe, une étape manquante ou une erreur technique – dites-nous comment nous améliorer !