Перейти к основному содержимому Перейти к дополнительному содержимому

Алгоритмы

Алгоритм — это математический инструмент, с помощью которого создается модель. Он берет входные данные (ваш набор данных) и возвращает выходные данные — модель. Каждый алгоритм имеет свои преимущества и недостатки.

При выборе цели AutoML автоматически выбирает оптимальные алгоритмы для конкретного сценария использования. Цель определяет, какие алгоритмы будут использоваться.

Алгоритмы, которые лучше всего подходят для решения задач двоичной и многоклассовой классификации, используются в следующих случаях.

  • Цель имеет только два уникальных значения, например, при прогнозировании, отменит ли клиент свою подписку, это значения «Да» или «Нет».

  • Целью является строковое значение, содержащее от трех до десяти уникальных значений. К примеру, определение оптимального сочетания кампаний, когда цель — одно из следующих значений: «Красный», «Синий», «Зеленый» или «Желтый».

Если целью является столбец с числовыми значениями, используются алгоритмы, которые лучше всего подходят для решения задач регрессии. Примером задачи регрессии является прогнозирование того, сколько клиент купит.

Алгоритмы для решения задач двоичной и многоклассовой классификации

AutoML использует алгоритмы, перечисленные ниже, для решения задач двоичной и многоклассовой классификации.

  • Классификация методом CatBoost

  • Регрессия методом эластичной сети

  • Упрощенный гауссовский алгоритм Байеса

  • Регрессия методом лассо

  • Классификация методом LightGBM

  • Логистическая регрессия

  • Классификация методом случайного леса

  • Классификация методом XGBoost

Алгоритмы для решения задач регрессии

AutoML использует следующие алгоритмы для решения задач регрессии.

  • Регрессия методом CatBoost

  • Регрессия методом LightGBM

  • Линейная регрессия

  • Регрессия методом случайного леса

  • Регрессия методом SGD

  • Регрессия методом XGBoost

Различные типы моделей

Типы моделей можно разделить на регрессионные модели, ансамбли и другие типы моделей машинного обучения.

Регрессионные модели

Регрессионные модели или общие линейные модели — это модели, которые выявляют тренды вдоль области каждой переменной независимо от другой переменной. Подобно алгебраическому уравнению y = mx+b, алгоритм подбирает такие значения m и b, которые в среднем обеспечат максимальную точность для каждого значения x и y. Как правило, эта же концепция используется при наличии более чем одной переменной. Линейная регрессия и логистическая регрессия являются примерами регрессионных моделей для решения задач регрессии и классификации, соответственно.

В задачах классификации результатом регрессионной модели является вероятность того, что образец будет относиться к положительному классу. Это означает, что значение y равно значению вероятности, а не фактическому значению.

Регрессии хорошо подходят для выявления линейных трендов в данных, но иногда встречаются зависимости, которые не являются линейными. Чтобы регрессию хорошо подогнать к нелинейной модели, перед обучением модели необходимо преобразовать данные. Преимущество линейных зависимостей заключается в том, что они, как правило, лучше всего подходят для экстраполяции. В таблице ниже перечислены преимущества и недостатки регрессионных моделей.

Преимущества Недостатки
  • Хорошо подходят для экстраполяции

  • Хорошо находят линейные тренды для независимых переменных

  • Хорошо подходят для работы с большими объемами данных из одной совокупности

  • Просты для понимания

  • Плохо подходят для выявления закономерностей между переменными

  • Плохо подгоняются к нелинейным трендам

  • Иногда слишком упрощены

Ансамбли

Ансамбли получаются при объединении нескольких моделей. Это можно сравнить с голосованием, в котором принимает участие группа людей разного происхождения, и использованием показателя среднего числа голосов для принятия решения. Примерами ансамблей являются модели случайного леса и XGBoost.

Ансамбли могут решать как задачи регрессии, так и задачи классификации. Они хорошо подгоняются к нелинейным моделям и подходят для выявления влияния взаимодействий между переменными на цель. Несмотря на то что ансамбли хорошо подходят для выявления закономерностей в пределах диапазона данных, на основе которых происходит их обучение, они плохо подходят для прогнозирования значений, находящихся за пределами этого диапазона данных. В таблице ниже перечислены преимущества и недостатки ансамблей.

Преимущества Недостатки
  • Хорошо подходят для выявления закономерностей между переменными

  • Хорошо находят нелинейные тренды

  • Хорошо подходят для работы с большими объемами данных из одной совокупности

  • Плохо подходят для экстраполяции

  • Не так просто интерпретируются

Другие типы моделей

Другие типы моделей включают все остальные типы моделей. Примерами являются модели ближайших соседей и упрощенного гауссовского алгоритма Байеса. Эти типы моделей обычно пытаются создать новое пространственное представление данных, часто это делается путем создания какой-либо метрики расстояния, которая измеряет, насколько различаются две записи. Они хорошо подходят для выявления нелинейных трендов, но при увеличении размера набора данных требуют больших вычислительных мощностей. В таблице ниже перечислены преимущества и недостатки других типов моделей.

Преимущества Недостатки
  • Хорошо подходят для выявления закономерностей между переменными

  • Хорошо находят нелинейные тренды

  • Плохо подходят для экстраполяции

  • Требуют больших вычислительных мощностей при увеличении размера набора данных

Подробнее

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!