O KMeans2D() avalia as linhas do gráfico por meio da aplicação do agrupamento de k-means e, para cada linha do gráfico, exibe o ID do agrupamento ao qual esse ponto de dados foi atribuído. As colunas que são usadas pelo algoritmo de agrupamento são determinadas pelos parâmetros coordinate_1 e coordinate_2, respectivamente. Ambas são agregações. O número de agrupamentos criados é determinado pelo parâmetro num_clusters. Os dados podem ser normalizados opcionalmente pelo parâmetro norm.
KMeans2D retorna um valor por ponto de dados. O valor retornado é duplo e é o valor inteiro correspondente ao agrupamento ao qual cada ponto de dados foi atribuído.
A agregação que calcula a primeira coordenada, geralmente o eixo X do gráfico de dispersão que pode ser criado a partir do gráfico. O parâmetro adicional, coordinate_2, calcula a segunda coordenada.
norm
O método de normalização opcional aplicado a conjuntos de dados antes do agrupamento KMeans.
Valores possíveis:
0 ou "none" para nenhuma normalização
1 ou "zscore" para normalização z-ponto
2 ou "minmax" para normalização mín-máx
Se nenhum parâmetro for fornecido ou se o parâmetro fornecido estiver incorreto, nenhuma normalização será aplicada.
Z-ponto normaliza os dados com base na média e no desvio padrão do recurso. Z-ponto não garante que cada recurso tenha a mesma escala, mas é uma abordagem melhor que mín-máx ao se lidar com discrepâncias.
A normalização mín-máx garante que os recursos tenham a mesma escala, usando os valores mínimo e máximo de cada um e recalculando cada ponto de dados.
Neste exemplo, criamos um gráfico de dispersão usando o conjunto de dados Iris e, em seguida, usamos KMeans para colorir os dados por expressão.
Também criamos uma variável para o argumento num_clusters e, em seguida, usamos uma caixa de entrada de variável para alterar o número de agrupamentos.
O conjunto de dados Iris está disponível publicamente em uma variedade de formatos. Fornecemos os dados como uma tabela inline para carregar usando o editor de carregamento de dados no Qlik Sense. Observe que adicionamos uma coluna Id à tabela de dados para este exemplo.
Depois de carregar os dados no Qlik Sense, faremos o seguinte:
Arraste um Gráfico de dispersão até uma nova pasta. Especifique o nome Petal (expressão de cor) para o gráfico.
Crie uma variável para especificar o número de agrupamentos. Para a variável Nome, insira KmeansPetalClusters. Para a variável Definição, insira =2.
Configure Dados para o gráfico:
Em Dimensões, escolha id para o campo de Bolha. Insira ID do Agrupamento para o Rótulo.
Em Medidas, escolha Sum([petal.length]) para a expressão do Eixo X.
Em Medidas, escolha Sum([petal.width]) para a expressão do Eixo Y.
Os pontos de dados são plotados no gráfico.
Configure a Aparência do gráfico:
Em Cores e legendas, escolha Personalizado para Cores.
Escolha colorir o gráfico Por expressão.
Insira o seguinte para Expressão: kmeans2d($(KmeansPetalClusters), Sum([petal.length]), Sum([petal.width]))
Observe que KmeansPetalClusters é a variável que definimos como 2.
Como alternativa, insira o seguinte: kmeans2d(2, Sum([petal.length]), Sum([petal.width]))
Desmarque a caixa de seleção para A expressão é um código de cor.
Insira o seguinte para Rótulo: ID do agrupamento
Os dois agrupamentos no gráfico são coloridos pela expressão KMeans.
Adicione uma caixa de Entrada variável para o número de agrupamentos.
Em Objetos personalizados no painel Ativos, escolha Pacote Dashboard da Qlik. Se não tivéssemos acesso ao pacote dashboard, ainda poderíamos alterar o número de agrupamentos usando a variável que criamos ou diretamente como um inteiro na expressão.
Arraste uma caixa de Entrada variável até a pasta.
Em Aparência, clique em Geral.
Insira o seguinte para Título: Agrupamentos
Clique em Variável.
Escolha a seguinte variável para Nome: KmeansPetalClusters.
Escolha Controle Deslizante para Mostrar como.
Escolha Valores e defina as configurações conforme necessário,
Quando terminamos de editar, podemos alterar o número de agrupamentos usando o controle deslizante na caixa de entrada variável Agrupamentos.
Agrupamento automático
Funções KMeans oferecem suporte para agrupamento automático usando um método chamado de diferença de profundidade (DeD). Quando um usuário define 0 para o número de agrupamentos, um número ideal de agrupamentos para esse conjunto de dados é determinado. Observe que, embora um número inteiro para o número de agrupamentos (k) não seja retornado explicitamente, ele é calculado dentro do algoritmo KMeans. Por exemplo, se 0 for especificado na função para o valor deKmeansPetalClusters ou definido por meio de uma caixa de entrada de variável, atribuições de agrupamentos serão calculadas automaticamente para o conjunto de dados com base em um número ideal de agrupamentos.
Conjunto de dados Iris: Carregamento inline para o editor de carregamento de dados no Qlik Sense
Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!