Перейти к основному содержимому Перейти к дополнительному содержимому

Корреляция

Корреляция измеряет степень взаимосвязи между признаками в данных. В какой зависимости находятся признаки по отношения друг к другу: в прямой или обратной? Есть ли вообще связь между ними?

Корреляция варьируется в диапазоне от -1,0 до 1,0. Считается, что две переменные имеют идеальную положительную корреляцию, если коэффициент равен 1,0, при этом обе переменные всегда изменяются в одном и том же направлении. Если коэффициент корреляции равен 0,0, то это означает, что корреляционная связь между переменными отсутствует и они изменяются случайным образом. Переменные с коэффициентом корреляции -1,0 изменяются одновременно, но в противоположных направлениях.

Примером признаков с положительной корреляцией является температура и использование кондиционера. Чем выше температура, тем чаще используется кондиционер. В то же время температура имеет отрицательную корреляцию с потреблением тепла. Чем выше температура, тем меньше тепла расходуется.

Признаки, которые сильно коррелируют между собой, скорее всего, являются избыточными. Как правило, не рекомендуется включать в модель два признака с такой сильной взаимосвязью.

Корреляция не является причинно-следственной связью

При выявлении сильных корреляций — как положительных, так и отрицательных — можно прийти к ложному выводу о наличии причинно-следственной связи. Причинно-следственная связь – это когда изменение одной переменной вызывает изменение другой переменной. Однако корреляция не подразумевает причинно-следственную связь, и важно учитывать базовую логическую взаимосвязь между двумя переменными.

Корреляция, не основанная на логике, считается ложной. Ложную корреляцию легко обнаружить, так как в ней отсутствует логика, связывающая две переменные между собой. Чаще всего восприятие причинно-следственной связи происходит, когда переменная скрывает основную причину.

Допустим, нам нужно понять, что стимулирует продажи купальников в сети розничных магазинов. Мы обнаруживаем неожиданную взаимосвязь между энергопотреблением и продажами купальников, как показано на графике. На основе этого можно непреднамеренно предположить, что продажи купальников зависят от энергопотребления на душу населения.

Энергопотребление по отношению к продажам купальников

График показывает корреляцию между энергопотреблением и продажами купальников.

На самом деле, за энергопотреблением скрывается другой признак — температура. При повышении температуры возрастает потребность в кондиционерах, что увеличивает энергопотребление. Поэтому спрос на купальники зависит не от энергопотребления, а от температуры.

Температура по отношению к продажам купальников

График показывает корреляцию между температурой и продажами купальников.

Помогла ли вам эта страница?

Если вы обнаружили какую-либо проблему на этой странице и с ее содержанием — будь то опечатка, пропущенный шаг или техническая ошибка, сообщите нам об этом, чтобы мы смогли ее исправить!