KMeans2D — функция диаграммы
KMeans2D() вычисляет строки диаграммы путем применения кластеризации методом k-средних; для каждой строки диаграммы отображается идентификатор кластера, которому была назначена эта точка диаграммы. Столбцы, используемые алгоритмом кластеризации, определены соответственно параметрами coordinate_1 и coordinate_2. Они оба являются агрегированиями. Количество созданных кластеров определяется параметром num_clusters. Данные могут быть при необходимости нормализованы с помощью параметра нормы.
KMeans2D возвращает одно значение на точку диаграммы. Возвращенное значение — двойное и является целочисленным значением, соответствующим кластеру, которому была назначена каждая точка диаграммы.
Синтаксис:
KMeans2D(num_clusters, coordinate_1, coordinate_2 [, norm])
Возвращаемые типы данных: двойное значение
Аргументы:
Аргумент | Описание |
---|---|
num_clusters | Целое число, которое указывает количество кластеров. |
coordinate_1 | Агрегирование, вычисляющее первую координату, обычно ось X точечной диаграммы, которая может быть сделана из диаграммы. Дополнительный параметр coordinate_2 вычисляет вторую координату. |
norm |
Дополнительный метод нормализации применяется к наборам данных перед кластеризацией методом k-средних. Возможные значения: 0 или 'нет' при отсутствии нормализации 1 или ‘zscore’ для нормализации с помощью z-оценки 2 или ‘minmax’ для нормализации с помощью мин./макс. Если параметры не предоставлены или предоставленный параметр неправильный, нормализация не применяется. Z-оценка нормализует данные на основе среднего и стандартного отклонения признака. Z-оценка не гарантирует, что у каждого признака будет одинаковый масштаб, но при выбросах этот подход лучше, чем мин./макс. Нормализация с помощью мин./макс. гарантирует, что признаки имеют одинаковый масштаб; для этого берутся минимальное и максимальное значения каждого признака и каждая точка данных вычисляется заново. |
Автоматическая кластеризация
Функции метода k-средних поддерживают автоматическую кластеризацию с помощью метода, называемого разницей глубины (DeD). Когда пользователь задает количество кластеров равным 0, оптимальное количество кластеров определяется для набора данных. Обратите внимание, что хотя целое число для количества кластеров (k) явно не возвращается, оно вычисляется в алгоритме k-средних. Например, если 0 указан в функции для значения KmeansPetalClusters или установлен через поле ввода переменной, назначения кластеров автоматически вычисляются для набора данных на основе оптимального количества кластеров.