Entendendo a importância da permutação
Permutation importance é uma medida da importância de um recurso para a previsão geral de um modelo. Em outras palavras, como o modelo seria afetado se você removesse sua capacidade de aprender com esse recurso. A métrica pode ajudá-lo a refinar um modelo alterando quais recursos e algoritmos incluir.
A permutation importance é calculada usando a permutation importance scikit-learn. Isso mede a diminuição na pontuação do modelo depois de permutar o recurso.
-
Um recurso é "importante" se embaralhar seus valores diminuir a pontuação do modelo, porque nesse caso o modelo depende do recurso para a previsão.
-
Um recurso é "sem importância" se embaralhar seus valores deixa o desempenho do modelo inalterado, porque nesse caso o modelo ignorou o recurso para a previsão.
No gráfico de permutation importance, os recursos são exibidos em ordem de maior influência (maior impacto no desempenho do modelo) para menor influência (menor impacto no desempenho do modelo). O tamanho da barra representa a importância de cada recurso.
Um gráfico de importância de permutação é gerado automaticamente para cada modelo treinado durante um experimento. O gráfico é exibido na guia Modelos.
Usando a permutation importance para escolher colunas de recursos
Ao iterar o treinamento do modelo, você pode observar a permutation importance para determinar quais colunas manter e quais excluir. Observe quais recursos são mais importantes para vários modelos. Esses são provavelmente os recursos com maior valor preditivo e bons candidatos para manter enquanto você refina seu modelo. Da mesma forma, os recursos que estão consistentemente no final da lista provavelmente não têm muito valor preditivo e são bons candidatos a serem excluídos.
Se um algoritmo obtiver uma pontuação significativamente melhor do que os outros, concentre-se no gráfico de permutation importance para esse algoritmo. Se vários algoritmos tiverem pontuações semelhantes, você poderá comparar os gráficos de permutation importance para esses algoritmos.
Usando a permutation importance para escolher algoritmos
Cada algoritmo tem uma abordagem única para aprender padrões a partir dos dados de treinamento. Os experimentos são treinados com vários algoritmos para ver qual abordagem funciona melhor para o conjunto de dados específico. As diferentes abordagens são refletidas por variações na permutation importance para diferentes algoritmos. Por exemplo, o recurso A pode ser mais importante para o modelo de regressão logística, enquanto o recurso B é mais importante com a abordagem do classificador XGBoost para os mesmos dados. Em geral, espera-se que os recursos com muito poder preditivo sejam os principais recursos nos algoritmos, mas é comum ver variação.
Você pode usar essa variação na permutation importance ao escolher entre algoritmos com pontuações semelhantes. Selecione o algoritmo com os principais recursos que são mais intuitivos de acordo com seu conhecimento específico do negócio.
Disponibilidade de importância de permutação
A inclusão de recursos de texto livre em seu experimento aumenta a complexidade do experimento e dos processos necessários para executá-lo. É possível que os gráficos de Importância de permutação não estejam disponíveis para os modelos resultantes se seus dados de texto livre forem complexos o suficiente.