KMeans2D() valuta le righe del grafico applicando il clustering K-means, e per ciascuna riga del grafico visualizza l'id cluster del cluster a cui è stato assegnato questo punto dati. Le colonne utilizzate dall'algoritmo di clustering sono determinate rispettivamente dai parametri coordinate_1 e coordinate_2. Sono entrambe aggregazioni. Il numero di cluster creati è determinato dal parametro num_clusters. I dati possono essere normalizzati in via opzionale dal parametro norm.
KMeans2D restituisce un valore per punto dati. Il valore restituito è duale ed è un valore intero corrispondente al cluster a cui ciascun punto dati è stato assegnato.
L'aggregazione che calcola la prima coordinata, in genere l'asse x del grafico a dispersione che può essere effettuato dal grafico. Il parametro aggiuntivo, coordinate_2, calcola la seconda coordinata.
norm
Il metodo di normalizzazione opzionale applicato alle serie di dati prima del clustering K-means.
Possibili valori:
0 o ‘nessuno’ per l'assenza di normalizzazione
1 o ‘zscore’ per la normalizzazione z-score
2 o ‘minmax’ per la normalizzazione min-max
Se non viene fornito alcun parametro o se il parametro fornito risulta errato, non viene applicata alcuna normalizzazione.
Z-score normalizza i dati in base alla deviazione standard e media della funzionalità. Z-score non assicura che ciascuna funzionalità abbia la stessa scala, ma rappresenta un approccio migliore a min-max quando si ha a che fare con outlier.
La normalizzazione min-max assicura che le funzionalità abbiano la stessa scala prelevando i valori minimo e massimo di ciascuna di esse e ricalcolando ciascun datapoint.
In questo esempio, creiamo un grafico a dispersione usando la serie di dati Iris, quindi utilizziamo KMeans per colorare i dati per espressione.
Creiamo inoltre una variabile per l'argomento num_clusters, quindi utilizziamo una casella di input variabile per modificare il numero di cluster.
La serie di dati Iris è disponibile pubblicamente in una serie di formati. I dati sono stati forniti come tabella inline da caricare usando l'editor caricamento dati in Qlik Sense. Notare che è stata aggiunta una colonna Id alla tabella dati per questo esempio.
Dopo il caricamento dei dati in Qlik Sense, è possibile compiere le seguenti operazioni:
Trascinare un Grafico a dispersione in un nuovo foglio. Denominare il grafico Petal (colore per espressione).
Creare una variabile per specificare il numero di cluster. Per la variabile Nome, inserire KmeansPetalClusters. Per la variabile Definizione, inserire =2.
Configurare Dati per il grafico:
Sotto Dimensioni, scegliere id per il campo per Bolla. Inserire Id cluster per l'etichetta.
Sotto Misure, scegliere Sum([petal.length]) per l'espressione per asse X.
Sotto Misure, scegliere Sum([petal.width]) per l'espressione per asse Y.
Impostazioni dati per il grafico Petal (colore per espressione)
I punti dati vengono riportati sul grafico.
Punti dati sul grafico Petal (colore per espressione)
Configurare Aspetto per il grafico:
Sotto Colori e legenda, scegliere Personalizzato per Colori.
Scegliere di colorare il grafico Per espressione.
Inserire quanto segue per Espressione: kmeans2d($(KmeansPetalClusters), Sum([petal.length]), Sum([petal.width]))
Notare che KmeansPetalClusters è la variabile che impostiamo a 2.
In alternativa, inserire quanto segue: kmeans2d(2, Sum([petal.length]), Sum([petal.width]))
Deselezionare la casella di controllo per L'espressione è un codice cromatico.
Inserire quanto segue per Etichetta: Id cluster
Impostazioni aspetto per il grafico Petal (colore per espressione)
I due cluster sul grafico sono colorati in base all'espressione KMeans.
Cluster colorati per espressione sul grafico Petal (colore per espressione)
Aggiungere una casella Input variabile per il numero di cluster.
Sotto Oggetti personalizzati nel pannello Asset, scegliere Qlik Dashboard bundle. Se non si ha accesso al dashboard bundle, è comunque possibile modificare il numero di cluster utilizzando la variabile che abbiamo creato, oppure direttamente come intero nell'espressione.
Trascinare una casella Input variabile sul foglio.
Sotto Aspetto, fare clic su Generale.
Inserire quanto segue per Titolo: Cluster
Fare clic su Variabile.
Scegliere la seguente variabile per Nome: KmeansPetalClusters.
Scegliere Cursore per Mostra come.
Scegliere Valori, quindi configurare le impostazioni come richiesto.
Aspetto per la casella di input variabile Cluster
Al termine della modifica, è possibile modificare il numero di cluster usando il cursore nella casella di input variabile Cluster.
Cluster colorati per espressione sul grafico Petal (colore per espressione)
Clustering automatico
Le funzioni KMeans supportano il clustering automatico mediante un metodo chiamato differenza di profondità (DeD, Depth Difference). Quando un utente imposta lo 0 per il numero di cluster, viene determinato un numero ottimale di cluster per tale set di dati. Notare che mentre un valore intero per il numero di cluster (k) non viene restituito esplicitamente, viene calcolato all'interno dell'algoritmo KMeans. Ad esempio, se viene specificato 0 nella funzione del valore di KmeansPetalClusters o se viene impostato mediante una casella di input variabile, le assegnazioni cluster vengono calcolate automaticamente per il set di dati in base a un numero ottimale di cluster.
Il metodo di differenza di profondità KMeans determina il numero ottimale di cluster quando (k) viene impostato a 0
Serie di dati Iris: Caricamento inline per l'editor caricamento dati in Qlik Sense
Se riscontri problemi con questa pagina o con il suo contenuto – un errore di battitura, un passaggio mancante o un errore tecnico – facci sapere come possiamo migliorare!