Ir para conteúdo principal Pular para conteúdo complementar

Entendendo a importância do recurso

A importância do recurso mede quanto impacto cada recurso tem no alvo. Isso pode ajudá-lo a identificar problemas de conjunto de dados e melhorar o modelo. A importância do recurso é composta por duas visualizações distintas: permutation importance e SHAP importance.

A interpretação simplista da importância do recurso é que alterar a variável mais importante do recurso alterará a variável alvo mais do que qualquer outra variável. Alterar duas das variáveis mais importantes do recurso provavelmente terá um impacto maior do que alterar apenas uma, mas o princípio é que algo com importância de recurso muito baixa provavelmente não tem muito poder preditivo. Controlá-la ou alterá-la pode não fazer diferença.

Usando a importância do recurso

A importância do recurso pode ser útil na identificação de problemas com os dados usados para treinar o modelo. Por exemplo, digamos que estamos tentando prever se uma oportunidade de venda será encerrada ou não e esquecemos de excluir uma coluna contendo a data de fechamento da venda. Essa provavelmente seria a coluna mais preditiva e, portanto, teria a maior importância do recurso. Incluí-la faria com que o modelo tivesse um desempenho melhor do que na vida real, porque, quando tentarmos prever o resultado binário de se uma venda será ou não fechada, não teremos acesso à data de fechamento.

A importância do recurso também pode ajudá-lo a encontrar maneiras de melhorar um modelo iterativamente. Os valores mais importantes do recurso às vezes podem ser uma boa base para segmentar. Por exemplo, talvez um sinalizador de pagamento automático seja um recurso muito importante. Poderíamos usar esse recurso para segmentar os dados e treinar um modelo para clientes configurados para pagamento automático e outro modelo para clientes sem pagamento automático. Os dois modelos podem ser capazes de fazer um trabalho melhor do que nosso primeiro modelo.

Em outros casos, você pode capturar ou projetar recursos que representam melhor o que uma variável mais importante do recurso descreve, sem adicionar redundância. Por exemplo, uma variável muito importante pode ser a família de produtos que uma empresa está produzindo. Dividir a família de produtos em alguns recursos mais descritivos sobre os produtos pode ser mais significativo.

Comparando permutation importance e SHAP importance

Permutation importance e SHAP importance são formas alternativas de medir a importância do recurso. A principal diferença é que a permutation importance é baseada na diminuição do desempenho do modelo, enquanto a SHAP importance é baseada na magnitude das atribuições de recursos.

Como usar os valores

A permutation importance pode ser usada para:

  • Entender quais recursos manter e quais excluir.

  • Verificar se há vazamento de dados.

  • Entender quais recursos são mais importantes para a exatidão do modelo.

  • Guiar a engenharia de recursos adicionais.

A SHAP importance pode ser usada para:

  • Entender quais recursos mais influenciam o resultado previsto.

  • Mergulhar em um recurso e entender como os diferentes valores desse recurso afetam a previsão.

  • Entender o que é mais influente em linhas ou subconjuntos individuais nos dados.

Nível de dados

A permutation importance é calculada em todo o conjunto de dados. Especificamente, quanto a exatidão de todo o conjunto de dados muda ao eliminar um recurso. Não pode ser usada para entender a influência em linhas individuais.

A SHAP importance é calculada no nível da linha e pode ser usada para entender o que é importante para uma linha específica. Os valores representam como um recurso influencia a previsão de uma única linha em relação ao resultado médio no conjunto de dados.

Influência dos valores dos recursos

A permutation importance não pode ser usada para entender quais valores dentro de um recurso são mais importantes.

Os valores da SHAP importance podem ser usados para entender como os valores dentro de um recurso específico influenciam o resultado.

Direção

A permutation importance não inclui uma direção.

Os valores da SHAP importance são direcionais. Podem ser positivos ou negativos, dependendo da direção em que influenciaram o resultado previsto.

Magnitude

A magnitude da permutation importance mede a importância do recurso para a previsão geral do modelo.

A magnitude da SHAP importance é o quanto um recurso específico influencia a previsão de uma linha para ser diferente da previsão média do conjunto de dados.

Saiba mais

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!