Entendendo a importância de SHAP no treinamento de experimento
A SHAP importance oferece insights importantes sobre as previsões criadas nos experimentos. Ela pode ajudar você a entender quais recursos são os mais importantes para a previsão.
Os valores SHAP representam o quanto cada recurso contribui para o valor previsto do alvo, dados todos os outros recursos daquela linha.
Depois de treinar uma versão de experimento, selecione um modelo. O gráfico Importância de SHAP na guia Modelos abaixo da tabela visualiza os dados de SHAP das previsões do modelo criadas nos dados de retenção (teste).
Este tópico de ajuda concentra-se na importância de SHAP no treinamento experimental. Para obter informações sobre conjuntos de dados de importância de SHAP gerados durante uma previsão, consulte Gerando conjuntos de dados SHAP durante previsões.
Visão geral
A SHAP importance é medida no nível da linha. Ele representa como um recurso influencia a previsão de uma única linha em relação aos outros recursos nessa linha e ao resultado médio no conjunto de dados. O valor tem direção e magnitude, mas para o treinamento do modelo, a importância de SHAP é representada na forma de valor absoluto.
No gráfico de SHAP importance, os valores em nível de linha são agregados. Isso permite que você entenda a influência do recurso em subconjuntos de dados.
Experimentos de classificação binária e regressão
Em um experimento de classificação binária ou regressão, o gráfico de importância SHAP para cada versão do modelo é um gráfico de barras que exibe o valor médio absoluto do SHAP para cada recurso no experimento. A importância SHAP é classificada do maior para o menor valor. O gráfico indica quais recursos estão exercendo maior e menor influência sobre o resultado previsto da meta, independentemente do resultado determinado.
Experimentos de classificação multiclasse
Em um experimento de classificação multiclasse, há várias opções para a apresentação do gráfico de importância SHAP. Há as seguintes opções:
Funcionalidade SHAP apresentada como um total
Valores SHAP do recurso separados por classe
Gráficos de importância SHAP de classe única
Funcionalidade SHAP apresentada como um total
Por padrão, o gráfico de importância de SHAP será definido na configuração Todas as classes: SHAP de recurso médio.
Essa configuração mostra a importância de SHAP de cada recurso, independentemente do resultado previsto do alvo. Os recursos no gráfico são classificadas pelo valor médio total absoluto do SHAP e não são separadas por classe.
Valores de SHAP do recurso separados por classe
Para mostrar quanta influência cada recurso tem sobre o resultado do alvo ser um valor de cada classe no experimento, selecione a configuração SHAP de recurso por classe. A configuração pode ser definida como Agrupada ou Empilhada. Os valores SHAP médios absolutos para cada classe no experimento são apresentados com cores diferentes para permitir a comparação por classe.
Por exemplo, digamos que o campo alvo em seu experimento tenha quatro classes ou resultados possíveis (plano roxo, plano verde, plano azul ou plano vermelho). A barra multicolorida de cada recurso detalhará a influência que ele exerceu sobre cada um dos quatro resultados possíveis do experimento. Se você observar o comprimento total da barra, verá a influência total que o recurso exerceu sobre a previsão do alvo, independentemente do resultado previsto.
Gráficos de importância SHAP de classe única
Você também tem a opção de visualizar um gráfico de importância SHAP para cada um dos resultados possíveis da previsão da meta. Os valores médios absolutos dk SHAP para resultados previstos de uma única classe são apresentados.
Por exemplo, se a meta do seu experimento tiver quatro resultados possíveis, você poderá visualizar quatro gráficos separados detalhando os recursos mais influentes das previsões que resultam em cada um dos quatro resultados possíveis.
Cálculo dos valores SHAP
Os valores SHAP são calculados para uma variedade de algoritmos. A SHAP importance é calculada usando dois métodos distintos.
SHAP em árvore: Um método rápido e exato para estimar valores SHAP para modelos de árvores
SHAP linear: Um método para calcular valores SHAP para modelos lineares
Algoritmo | Tipos de modelo compatíveis | Método de cálculo SHAP |
---|---|---|
Classificação por floresta aleatória | Classificação binária, classificação multiclasse | SHAP em árvore |
Classificação XGBoost | Classificação binária, classificação multiclasse | SHAP em árvore |
Classificação do LightGBM | Classificação binária, classificação multiclasse | SHAP em árvore |
Classificação Catboost | Classificação binária, classificação multiclasse | SHAP em árvore |
Regressão logística | Classificação binária, classificação multiclasse | SHAP linear |
Regressão lasso | Classificação binária, classificação multiclasse | SHAP linear |
Regressão de rede elástica | Classificação binária, classificação multiclasse | SHAP linear |
Gaussiano Naive Bayes | Classificação binária, classificação multiclasse | SHAP não calculado |
Regressão Catboost | Regressão | SHAP em árvore |
Regressão do LightGBM | Regressão | SHAP em árvore |
Regressão linear | Regressão | SHAP linear |
Regressão por floresta aleatória | Regressão | SHAP em árvore |
Regressão SGD | Regressão | SHAP linear |
Regressão XGBoost | Regressão | SHAP em árvore |
Análise de determinante chave
Você pode criar análises de determinante chave diretamente em um Qlik Sense Qlik Cloud para comparar a importância de fatores específicos na determinação de dados observados para uma determinada métrica de negócios ou desempenho. A análise de determinante chave funciona calculando os valores SHAP no nível da linha para cada fator considerado e exibindo-os de forma agregada. Isso apresenta uma visão de alto nível do que está impulsionando as tendências e o comportamento nos dados do aplicativo. Você pode usar os resultados de análises de determinante chave para aprimorar a alfabetização em dados da sua organização e tomar decisões mais informadas e eficazes.
Para obter mais informações, consulte Descobrindo os determinantes chave por trás de seus dados usando a análise de determinante chave.