KMeans2D() utvärderar raderna i diagrammet genom att tillämpa k-medelvärdesklustring, och för varje diagramrad visas kluster-ID för klustret som den datapunkten tilldelats till. Kolumnerna som används av klusteralgoritmen avgörs av parametrarna coordinate_1 respektive coordinate_2. Dessa är båda aggregeringar. Antalet kluster som skapas avgörs av parametern num_clusters. Data normaliseras med normparametern (valfritt).
KMeans2D returnerar ett värde per datapunkt. Det returnerade värdet är en dual och är det heltalsvärde som motsvarar klustret varje datapunkt har tilldelats till.
Aggregeringen som beräknar den första koordinaten, vanligtvis x-axeln på spridningsdiagrammet som kan skapas från diagrammet. Den ytterligare parametern, coordinate_2, beräknar den andra koordinaten.
norm
Den valfria normaliseringsmetoden tillämpas på datauppsättningen före k-medelvärdesklustring.
Möjliga värden:
0 eller ”none” för ingen normalisering
1 eller ”zscore” för z-poängsnormalisering
2 eller ”minmax” för min-max-normalisering
Om ingen parameter anges eller om den angivna parametern är felaktig används ingen normalisering.
Z-poäng normaliserar data baserat på funktionens median och standardavvikelse. Z-poäng säkerställer inte att varje funktion har samma skala men det fungerar bättre än min-max för behandling av outliers.
Min-max-normalisering säkerställer att funktionerna har samma skala genom att ta de minsta och största värdena för varje och räkna om varje datapunkt.
I det här exemplet skapar vi ett spridningsdiagram med datauppsättningen Iris, och använder sedan KMeans för att färglägga data efter uttryck.
Vi skapar även en variabel för argumentet num_clusters, och sedan använder vi en variabelinmatningsruta för att ändra antalet kluster.
Datauppsättningen Iris finns offentligt tillgänglig i en mängd format. Vi tillhandahåller dessa data som en inline-tabell som laddas med Skriptredigeraren i Qlik Sense. Observera att vi lagt till en ID-kolumn i datatabellen i det här exemplet.
Dra ett spridningsdiagram till ett nytt ark. Döp diagrammet till Kronblad (färg per uttryck).
Skapa en variabel för att ange antalet kluster. För variabeln Namn anger du KmeansPetalClusters. För variabeln Definition anger du =2.
Konfigurera Data för diagrammet:
Under Dimensioner väljer du id för fältet Bubbla. Ange ett kluster-ID för Etikett.
Under Mått väljer du Sum([petal.length]) för uttrycket för X-axel.
Under Mått väljer du Sum([petal.width]) för uttrycket för Y-axel.
Datainställningar för diagrammet Kronblad (färg per uttryck)
Datapunkterna ritas ut på diagrammet.
Datapunkter på diagrammet Kronblad (färg per uttryck)
Konfigurera Utseende för diagrammet:
Under Färger och teckenförklaring väljer du Anpassad för Färger.
Välj att färglägga diagrammetPer uttryck.
Ange följande för Uttryck: kmeans2d($(KmeansPetalClusters), Sum([petal.length]), Sum([petal.width]))
Observera att KmeansPetalClusters är variabeln vi angav som 2.
Eller ange följande: kmeans2d(2, Sum([petal.length]), Sum([petal.width]))
Avmarkera kryssrutan Uttrycket är en färgkod.
Ange följande för Etikett: Kluster-ID
Utseendeinställningar för diagrammet Kronblad (färg per uttryck)
De två klustren i diagrammet färgläggs per KMeans-uttrycket.
Klustren färglagda per uttryck i diagrammet Kronblad (färg per uttryck)
Lägg till en ruta för Variabelinmatning för antalet kluster.
Under Anpassade objekt i panelen Resurser väljer du Qliks instrumentpanelspaket. Om vi inte hade tillgång till instrumentpanelspaketet kunde vi ändå ändra antalet kluster med variabeln vi skapat, eller direkt som ett heltal i uttrycket.
Dra en ruta för Variabelinmatning till arket.
Under Utseende klickar du på Allmänt.
Ange följande för Rubrik: Kluster
Klicka på Variabel.
Välj följande variabel för Namn: KmeansPetalClusters.
Välj Skjutreglage för Visa som.
Välj Värden och konfigurera inställningarna efter behov,
Utseende för variabelinmatningsrutan Kluster
När vi är klara med redigeringen kan vi ändra antalet kluster med hjälp av skjutreglaget i inmatningsrutan för Kluster-variabeln.
Klustren färglagda per uttryck i diagrammet Kronblad (färg per uttryck)
Automatisk klustring
KMeans-funktioner stöder automatisk klustring med en metod som kallas djupskillnad (depth difference, DeD). När användaren anger 0 som antal kluster bestäms ett optimalt antal kluster för den datauppsättningen. Observera att medan ett heltal som anges för antalet kluster (k) inte returneras explicit, beräknas det inom KMeans-algoritmen. Om till exempel 0 specificeras i funktionen för värdet av KmeansPetalClusters eller anges via en variabelindataruta, beräknas klustertilldelningar automatiskt för datauppsättningen baserat på ett optimalt antal kluster.
Metoden KMeans-djupskillnad avgör det optimala antalet kluster när (k) är inställt på 0
Iris-datauppsättning: Inline-laddning för Skriptredigeraren i Qlik Sense
Om du hittar några fel på denna sida eller i innehållet – ett stavfel, ett steg som saknas eller ett tekniskt fel – berätta för oss så att vi kan blir bättre!