Exibindo ideias sobre seus dados de treinamento
Conforme você adiciona seus dados de treinamento e executa versões do treinamento, você pode acessar ideias sobre como seus dados estão sendo manipulados. As Ideias fornecem informações sobre o alvo e os recursos em seu experimento, como recursos que foram descartados, estão indisponíveis ou serão codificados com processamento especial.
A coluna Ideias é encontrada na guia Dados quando você está naExibição de esquema. Ideias abreviadas também estão disponíveis na Exibição de dados. As ideias são criadas individualmente para cada modelo treinado dentro do experimento.
As ideias são geradas:
-
Depois de adicionar ou alterar os dados de treinamento, mas ainda não ter executado nenhuma versão do experimento.
-
Após cada versão do experimento ter sido executada. Um conjunto separado de ideias é criado para cada modelo treinado.
As ideias podem ser diferentes antes e depois da execução de uma versão. Isso ocorre porque, conforme o treinamento começa, o AutoML consegue pré-processar seus dados e diagnosticar ainda mais problemas com os dados. Para obter mais informações, consulte Preparação e transformação automática de dados.
Exibindo ideias antes do treinamento
Antes de executar uma versão do experimento, você pode analisar as Ideias para ver como os dados de treinamento atuais estão sendo interpretados. Essas ideias podem mudar depois que você executar a versão.
Faça o seguinte:
Em um experimento, certifique-se de ter adicionado os dados de treinamento que deseja usar para a versão do experimento.
Abra a guia Dados.
Certifique-se de estar na Exibição de esquema.
Analise a coluna Ideias. As dicas de ferramentas fornecem contexto adicional por trás das ideias. Para obter mais explicações sobre o que cada ideia significa, consulte Interpretando ideias do conjunto de dados.
Exibindo as ideias para um modelo
Após os modelos concluírem o treinamento para uma versão de experimento, selecione um modelo e inspecione como os dados foram manipulados.
Faça o seguinte:
Execute uma versão de experimento e abra a guia Dados.
Selecione um modelo na lista suspensa na barra de ferramentas.
Certifique-se de estar na Exibição de esquema.
Analise a coluna Ideias. As dicas de ferramentas fornecem contexto adicional por trás das ideias. Para obter mais explicações sobre o que cada ideia significa, consulte Interpretando ideias do conjunto de dados.
Interpretando ideias do conjunto de dados
A tabela a seguir fornece mais detalhes sobre os possíveis ideias que podem ser exibidos no esquema.
Insight | Significado | Impacto na configuração | Quando a ideia é determinada | Referências adicionais |
---|---|---|---|---|
Constante | A coluna tem o mesmo valor para todas as linhas. | A coluna não pode ser usada como alvo ou recurso incluído. | Antes e depois de executar a versão | Cardinalidade |
Codificação one-hot | O tipo de recurso é categórico e a coluna tem menos de 14 valores exclusivos. | Nenhum efeito na configuração. | Antes e depois de executar a versão | Codificação categórica |
Impacto codificado | O tipo de recurso é categórico e a coluna tem 14 ou mais valores exclusivos. | Nenhum efeito na configuração. | Antes e depois de executar a versão | Codificação categórica |
Alta cardinalidade | A coluna tem muitos valores exclusivos e pode afetar negativamente o desempenho do modelo se for usada como um recurso. | A coluna não pode ser usada como alvo. Ela será excluída automaticamente como um recurso, mas ainda poderá ser incluída, se necessário. | Antes e depois de executar a versão | Cardinalidade |
Dados esparsos | A coluna tem muitos valores nulos. | A coluna não pode ser usada como alvo ou recurso incluído. | Antes e depois de executar a versão | Inferência de nulos |
Classe sub-representada | A coluna tem uma classe com menos de 10 linhas. | A coluna não pode ser usada como um alvo, mas pode ser incluída como um recurso. | Antes e depois de executar a versão | - |
<número de> recursos de engenharia automática | A coluna é o recurso pai que pode ser usado para gerar recursos de engenharia automática. | Se esse recurso pai for interpretado como um recurso de data, ele será automaticamente removido da configuração. É recomendável que você use os recursos de data de engenharia automática que podem ser gerados a partir dele. É possível substituir essa configuração e incluir o recurso em vez dos recursos de engenharia automática. | Antes e depois de executar a versão | Engenharia automática de recursos |
Recurso de engenharia automática | A coluna é um recurso de engenharia automática que pode, ou foi, gerada a partir de um recurso de data pai. Ela não apareceu no conjunto de dados original. | Você pode remover um ou vários desses recursos de engenharia automática durante o treinamento experimental. Se você alterar o tipo de recurso do recurso pai para categórico, todos os recursos de engenharia automática serão removidos. | Antes e depois de executar a versão | Engenharia automática de recursos |
Não foi possível processar como data | A coluna possivelmente inclui informações de data e hora, mas não pode ser usada para criar recursos de data com engenharia automática. | O recurso foi eliminado da configuração. Se recursos de engenharia automática foram gerados anteriormente a partir desse recurso pai, eles serão removidos de futuras versões experimentais. Você ainda pode usar o recurso no experimento, mas deve mudar seu tipo de recurso para categórico. | Após executar a versão | Engenharia de recursos de data |
Possível texto livre | A coluna poderia estar disponível para uso como um recurso de texto livre. | O tipo de recurso de texto livre é atribuído à coluna. Você deve executar uma versão experimental para confirmar se o recurso pode ser processado como texto livre. | Antes de executar a versão | Tratamento de dados de texto livre |
Texto livre | A coluna foi confirmada como contendo texto livre. Pode ser processada como texto livre. | Nenhuma configuração adicional é necessária para o recurso. | Após executar a versão | Tratamento de dados de texto livre |
Não foi possível processar como texto livre | Após uma análise mais aprofundada, a coluna não pode ser processada como texto livre. | Você precisa desmarcar o recurso da configuração para a próxima versão do experimento. Se o recurso não tiver alta cardinalidade, você poderá alterar o tipo de recurso para categórico. | Após executar a versão | Tratamento de dados de texto livre |
Vazamento de alvo | Suspeita-se que o recurso seja afetado por vazamento de alvo. Nesse caso, ele inclui informações sobre a coluna de destino que você está tentando prever. Recursos com vazamento de alvo podem dar a você uma falsa sensação de segurança sobre o desempenho do modelo. Em previsões do mundo real, elas fazem com que o modelo tenha um desempenho muito ruim. | O recurso não foi usado para treinar o modelo. | Após executar a versão | Vazamento de dados |
Baixa importância de permutação | O recurso não tem muita, se é que tem, influência nas previsões do modelo. A remoção desses recursos melhora o desempenho do modelo reduzindo o ruído estatístico. | O recurso não foi usado para treinar o modelo. | Após executar a versão | Entendendo a importância da permutação |
Altamente correlacionado | O recurso é altamente correlacionado com um ou mais outros recursos no experimento. Ter recursos altamente correlacionados entre si diminui o desempenho do modelo. | O recurso não foi usado para treinar o modelo. O recurso com o qual ele é altamente correlacionado não foi descartado devido à alta correlação, mas poderia ter sido descartado por outro motivo, como baixa importância de permutação. | Após executar a versão | Correlação |