Общее представление об алгоритмах модели

Алгоритм — это математический инструмент, с помощью которого создается модель. Он берет входные данные (ваш набор данных) и возвращает выходные данные — модель. Каждый алгоритм имеет свои преимущества и недостатки.

При выборе цели AutoML автоматически выбирает оптимальные алгоритмы для конкретного сценария использования. Цель определяет, какие алгоритмы будут использоваться.

Алгоритмы, которые лучше всего подходят для решения задач двоичной и многоклассовой классификации, используются в следующих случаях.

Цель имеет только два уникальных значения, например, при прогнозировании, отменит ли клиент свою подписку, это значения «Да» или «Нет».
Целью является строковое значение, содержащее от трех до десяти уникальных значений. К примеру, определение оптимального сочетания кампаний, когда цель — одно из следующих значений: «Красный», «Синий», «Зеленый» или «Желтый».

Если целью является столбец с числовыми значениями, используются алгоритмы, которые лучше всего подходят для решения задач регрессии. Примером задачи регрессии является прогнозирование того, сколько клиент купит.

Алгоритмы для решения задач двоичной и многоклассовой классификации

AutoML использует алгоритмы, перечисленные ниже, для решения задач двоичной и многоклассовой классификации.

Классификация методом CatBoost
Регрессия методом эластичной сети
Упрощенный гауссовский алгоритм Байеса
Регрессия методом лассо
Классификация методом LightGBM
Логистическая регрессия
Классификация методом случайного леса
Классификация методом XGBoost

Алгоритмы для решения задач регрессии

AutoML использует следующие алгоритмы для решения задач регрессии.

Регрессия методом CatBoost
Регрессия методом LightGBM
Линейная регрессия
Регрессия методом случайного леса
Регрессия методом SGD
Регрессия методом XGBoost

Различные типы моделей

Типы моделей можно разделить на регрессионные модели, ансамбли и другие типы моделей машинного обучения.

Регрессионные модели

Регрессионные модели или общие линейные модели — это модели, которые выявляют тренды вдоль области каждой переменной независимо от другой переменной. Подобно алгебраическому уравнению y = mx+b, алгоритм подбирает такие значения m и b, которые в среднем обеспечат максимальную точность для каждого значения x и y. Как правило, эта же концепция используется при наличии более чем одной переменной. Линейная регрессия и логистическая регрессия являются примерами регрессионных моделей для решения задач регрессии и классификации, соответственно.

В задачах классификации результатом регрессионной модели является вероятность того, что образец будет относиться к положительному классу. Это означает, что значение y равно значению вероятности, а не фактическому значению.

Регрессии хорошо подходят для выявления линейных трендов в данных, но иногда встречаются зависимости, которые не являются линейными. Чтобы регрессию хорошо подогнать к нелинейной модели, перед обучением модели необходимо преобразовать данные. Преимущество линейных зависимостей заключается в том, что они, как правило, лучше всего подходят для экстраполяции. В таблице ниже перечислены преимущества и недостатки регрессионных моделей.

Преимущества	Недостатки
Хорошо подходят для экстраполяции Хорошо находят линейные тренды для независимых переменных Хорошо подходят для работы с большими объемами данных из одной совокупности Просты для понимания	Плохо подходят для выявления закономерностей между переменными Плохо подгоняются к нелинейным трендам Иногда слишком упрощены

Ансамбли

Ансамбли получаются при объединении нескольких моделей. Это можно сравнить с голосованием, в котором принимает участие группа людей разного происхождения, и использованием показателя среднего числа голосов для принятия решения. Примерами ансамблей являются модели случайного леса и XGBoost.

Ансамбли могут решать как задачи регрессии, так и задачи классификации. Они хорошо подгоняются к нелинейным моделям и подходят для выявления влияния взаимодействий между переменными на цель. Несмотря на то что ансамбли хорошо подходят для выявления закономерностей в пределах диапазона данных, на основе которых происходит их обучение, они плохо подходят для прогнозирования значений, находящихся за пределами этого диапазона данных. В таблице ниже перечислены преимущества и недостатки ансамблей.

Преимущества	Недостатки
Хорошо подходят для выявления закономерностей между переменными Хорошо находят нелинейные тренды Хорошо подходят для работы с большими объемами данных из одной совокупности	Плохо подходят для экстраполяции Не так просто интерпретируются

Другие типы моделей

Другие типы моделей включают все остальные типы моделей. Примерами являются модели ближайших соседей и упрощенного гауссовского алгоритма Байеса. Эти типы моделей обычно пытаются создать новое пространственное представление данных, часто это делается путем создания какой-либо метрики расстояния, которая измеряет, насколько различаются две записи. Они хорошо подходят для выявления нелинейных трендов, но при увеличении размера набора данных требуют больших вычислительных мощностей. В таблице ниже перечислены преимущества и недостатки других типов моделей.

Преимущества	Недостатки
Хорошо подходят для выявления закономерностей между переменными Хорошо находят нелинейные тренды	Плохо подходят для экстраполяции Требуют больших вычислительных мощностей при увеличении размера набора данных

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!

Оставьте свой отзыв здесь