KMeans2D() evalúa las filas del gráfico aplicando agrupación en clústeres k-means, y para cada fila del gráfico muestra el ID del grupo al que se ha asignado este punto de datos. Las columnas que utiliza el algoritmo de agrupamiento están determinadas por los parámetros coordinate_1 y coordinate_2, respectivamente. Ambas son agregaciones. El número de clústeres que se crea viene determinado por el parámetro num_clusters. Los datos se pueden normalizar opcionalmente mediante el parámetro norma.
KMeans2D devuelve un valor por punto de datos. El valor que devuelve es dual y es el valor del entero correspondiente al clúster al que se ha asignado cada punto de datos.
La agregación que calcula la primera coordenada, generalmente el eje x del gráfico de dispersión que se puede hacer a partir del gráfico. El parámetro adicional, coordenada_2, calcula la segunda coordenada.
norm
El método de normalización opcional aplicado a los conjuntos de datos antes de la agrupación en clústeres KMeans.
Valores posibles:
0 o "ninguno" para ninguna normalización
1 o "zscore" para una normalización de puntuación z
2 o "minmax" para la normalización mínima-máxima
Si no se proporciona ningún parámetro o si el parámetro proporcionado es incorrecto, no se aplica ninguna normalización.
Z-score normaliza los datos según la media de la característica y la desviación estándar. Z-score no asegura que cada característica tenga la misma escala, pero es un mejor enfoque que min-max cuando se trata de valores atípicos.
La normalización mínimo-máximo asegura que las entidades tengan la misma escala tomando los valores mínimo y máximo de cada uno y recalculando cada punto de datos.
En este ejemplo, creamos un gráfico de diagrama de dispersión utilizando el conjunto de datos Iris y luego usamos KMeans para colorear los datos por expresión.
También creamos una variable para el argumento num_clusters y luego usamos un cuadro de entrada de variable para cambiar el número de clústeres.
El conjunto de datos Iris está disponible públicamente en una variedad de formatos. Hemos proporcionado los datos como una tabla inline para cargarla usando el editor de carga de datos de Qlik Sense. Tenga en cuenta que agregamos una columna Id a la tabla de datos para este ejemplo.
Tras cargar los datos en Qlik Sense, hacemos lo siguiente:
Arrastre un Gráfico de dispersión a una nueva hoja. Denomine el gráfico Pétalo (colorear por expresión).
Cree una variable para especificar el número de clústeres. Para la variable Nombre, escriba KmeansPetalClusters. Para la variable Definición, escriba =2.
Configurar Datos para el gráfico:
En Dimensiones, elija ID para el campo de Burbuja. Escriba el ID del clúster para la etiqueta.
En Medidas, elija Sum([petal.length]) para la expresión para el eje X.
En Medidas, elija Sum([petal.width]) para la expresión para el eje Y.
Configuraciones de datos para el gráfico Pétalo (Colorear por expresión)
Los puntos de datos se trazan en el gráfico.
Puntos de datos en el gráfico Pétalo (Colorear por expresión)
Configurar Aspecto para el gráfico:
En Colores y leyenda, elija Personalizado para Colores.
Elija colorear el gráfico Por expresión.
Inserte lo siguiente para Expresión: kmeans2d($(KmeansPetalClusters), Sum([petal.length]), Sum([petal.width]))
Observe que KmeansPetalClusters es la variable que configuramos en 2.
Alternativamente, inserte lo siguiente: kmeans2d(2, Sum([petal.length]), Sum([petal.width]))
Desmarque la casilla de verificación para La expresión es un código de color.
Escriba lo siguiente para Etiqueta: Cluster ID
Configuraciones de aspecto para el gráfico Pétalo (colorear por expresión)
Los dos grupos del gráfico están coloreados por la expresión KMeans.
Clústeres coloreados por expresión en el gráfico Pétalo (colorear por expresión)
Agregue un cuadro de Entrada de variable para el número de clústeres.
En Objetos personalizados en el panel de Activos, elija Qlik Dashboard bundle. Si no tuviéramos acceso al paquete Dashboard bundle, todavía podemos cambiar el número de clústeres usando la variable que creamos o directamente introduciendo un número entero en la expresión.
Arrastre un cuadro de Entrada de variable a la hoja.
En Aspecto, haga clic en General.
Escriba lo siguiente como Título: Clústeres
Haga clic en Variable.
Elija la siguiente variable como Nombre: KmeansPetalClusters.
Elija Deslizador en Mostrar como.
Elija Valores y configure los ajustes según sea necesario.
Aspecto del cuadro de entrada de variable Clústeres
Cuando termine de editar, puede cambiar el número de clústeres usando el control deslizante en el cuadro de entrada de la variable Clústeres.
Clústeres coloreados por expresión en el gráfico Pétalo (colorear por expresión)
Agrupamiento automático
Las funciones KMeans admiten la agrupación automática mediante un método llamado diferencia de profundidad (DeD). Cuando un usuario define 0 como el número de clústeres, se determina un número óptimo de clústeres para ese conjunto de datos. Tenga en cuenta que, si bien no se devuelve explícitamente un número entero para el número de clústeres (k), se calcula dentro del algoritmo KMeans. Por ejemplo, si se especifica 0 en la función para el valor de KmeansPetalClusters o se establece a través de un cuadro de entrada variable, las asignaciones de clústeres se calculan automáticamente para el conjunto de datos en función de un número óptimo de clústeres.
El método de diferencia de profundidad de Kmeans determina el número óptimo de grupos cuando (k) se establece en 0
Conjunto de datos Iris de : Carga inline para el editor de carga de datos en Qlik Sense
No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.