Configurando experimentos
A configuração dos experimentos consiste em selecionar o alvo e os recursos que o modelo usará para predizer o alvo. Você também pode definir várias configurações opcionais.
Para apoiá-lo na seleção de um alvo, o conjunto de dados históricos é analisado e estatísticas resumidas são exibidas sobre cada coluna no conjunto de dados. Várias etapas de pré-processamento automático são aplicadas ao conjunto de dados para garantir que apenas os dados adequados sejam incluídos. Para obter mais detalhes sobre o pré-processamento de dados, consulte Preparação e transformação automática de dados.
Depois de executar a v1, você poderá criar novas versões de experimento, se necessário, para refinar ainda mais o treinamento do modelo. Para obter mais informações, consulte Refinando modelos.
Requisitos e permissões
Para saber mais sobre os requisitos do usuário para trabalhar com experimentos de ML, consulte Trabalhando com experimentos.
A interface
As seções a seguir descrevem como navegar na interface do experimento para configurar seu experimento. Para obter mais informações sobre a interface, consulte Navegando pela interface do experimento.
Navegação por guias
Quando você cria um experimento, a guia Dados é aberta. É aqui que você pode configurar o alvo e os recursos para o experimento.
Depois de executar pelo menos uma versão do experimento, outras guias ficam disponíveis. Essas outras guias permitem que você analise os modelos que você acabou de treinar na versão. Se precisar configurar versões subsequentes com diferentes seleções de recursos, você pode retornar à guia Dados.
Exibição de esquema e Exibição de dados
Na guia Dados, você pode alternar entre as seguintes visualizações:
-
Exibição de esquema: a exibição padrão. Nessa exibição, cada coluna em seu conjunto de dados é representada por uma linha no esquema com informações e estatísticas.
-
Exibição de dados: uma exibição alternativa que você pode usar para acessar mais informações e dados de amostra para cada coluna.
Painel Configuração do experimento
Clique em Exibir configuração para abrir um painel onde você pode personalizar ainda mais o treinamento do experimento. O painel pode ser aberto independentemente da guia que você estiver exibindo. Este painel fornece várias opções de configuração adicionais.
Com o painel de configuração do experimento, você pode:
-
Selecione um alvo antes de treinar a primeira versão
-
Adicionar ou remover recursos
-
Configurar uma nova versão do experimento
-
Selecione para alterar ou atualizar o conjunto de dados de treinamento
-
Adicionar ou remover algoritmos
-
Alterar configurações de otimização do modelo
Selecionando um alvo
A coluna alvo contém os valores que você deseja que o modelo de aprendizado de máquina preveja. Você pode alterar a coluna alvo até iniciar o primeiro treinamento. Depois disso, ela é bloqueada para edição.
Faça o seguinte:
Na Exibição de esquema ou Exibição de dados, passe o mouse sobre a coluna.
Clique no ícone que é exibido.
A coluna alvo agora é indicada por e as outras colunas disponíveis são selecionadas automaticamente como recursos.
O alvo pode ser selecionado como alternativa no painel de configuração de treinamento.
Quando o alvo for selecionado, você poderá começar a executar a primeira versão experimental. Leia mais em Experimentos de treinamento. Você pode fazer configurações adicionais neste ponto — descrito abaixo — ou ajustar a configuração depois de revisar os resultados do treinamento.
Explicações de como seus dados estão sendo interpretados e processados são mostradas à medida que o treinamento do experimento continua. Para obter mais informações, consulte Interpretando ideias do conjunto de dados.
Determinando o tipo de modelo criado
A coluna selecionada como destino determina o tipo de modelo que seu experimento cria. Isso, por sua vez, desempenha um papel na determinação de quais algoritmos são usados para treinar o modelo. Certas colunas em seu conjunto de dados podem não ser selecionáveis como alvo para seu experimento ou podem ter um processamento específico aplicado a elas.
Os tipos de modelo são:
Modelo de classificação binária
Modelo de classificação multiclasse
Modelo de regressão
A tabela abaixo resume os fatores do seu destino que determinam o tipo de modelo usado.
Tipo de modelo | Número de valores distintos na coluna | Tipo de recurso necessário | Informações adicionais |
---|---|---|---|
Classificação binária | 2 | Qualquer | - |
Classificação multiclasse | 3-10 | Qualquer | Uma coluna com mais de 10 classes distintas e não numéricas não pode ser selecionada como alvo. |
Regressão | Mais de 10 | Numérico | - |
Para saber que tipo de modelos seu experimento treina, clique em Exibir configuração e expanda Algoritmos. O tipo de modelo é visível no título da seção.
Selecionando colunas de recursos
Com o alvo definido, você pode escolher qual das outras colunas disponíveis incluir no treinamento do modelo. Exclua quaisquer recursos que você não deseja que façam parte do modelo. Observe que a coluna permanecerá no conjunto de dados, mas não será usada pelo algoritmo de treinamento.
Na parte superior do painel de configuração do experimento, você pode ver o número de células em seu conjunto de dados. Se o número exceder o limite do conjunto de dados, você poderá excluir recursos para ficar abaixo do limite.
Você pode selecionar as colunas de recursos de várias maneiras:
Na Exibição de esquema e Exibição de dados
Nas exibições principais, você pode:
Desmarque Incluir todos os recursos disponíveis e selecione apenas aqueles que deseja incluir.
Desmarque manualmente as caixas de seleção dos recursos que você não deseja incluir.
Faça uma pesquisa e exclua ou inclua todos os recursos em seu resultado de pesquisa filtrado.
No painel de personalização de treinamento
Ao expandir o painel de configuração do experimento, você pode:
Desmarque manualmente as caixas de seleção dos recursos que você não deseja incluir.
Depois de executar a primeira versão experimental, você pode definir o Número dos principais recursos a serem incluídos.
Quando você seleciona recursos, eles recebem automaticamente um tipo de recurso. Os possíveis tipos de recursos são:
Categórico
Numérico
Data
Texto livre
O tipo de recurso é atribuído com base nos dados contidos na coluna de recurso. Se um recurso atender a determinados critérios, ele poderá ser preparado para se tornar a base para recursos de engenharia automática. Se desejar, você pode alterar se o recurso será usado para engenharia automática de recursos. Para obter detalhes completos sobre engenharia automática de recursos, consulte Engenharia automática de recursos.
Certas colunas em seu conjunto de dados podem não ser selecionáveis como recursos para seu experimento ou podem ter um processamento específico aplicado a elas. Explicações sobre como seus dados estão sendo interpretados e processados são mostradas à medida que você navega no treinamento experimental. Para obter mais informações, consulte Interpretando ideias do conjunto de dados.
Selecionando algoritmos
Todos os algoritmos disponíveis são incluídos por padrão, e você pode excluir qualquer algoritmo que não queira usar. Normalmente, você faria isso como parte do refinamento do modelo quando visse os primeiros resultados do treinamento. Leia mais em Refinando modelos.
Alterando os tipos de recursos
Quando um conjunto de dados é carregado, as colunas são tratadas como categóricas, numéricas, de data ou de texto livre com base no tipo de dados e outras características. Em alguns casos, você pode alterar essa configuração.
Por exemplo, se os dias da semana forem representados pelos números de 1 a 7, cada número representará um valor categórico. Por padrão, ele é tratado como um valor numérico classificado contínuo, portanto, você precisa alterar manualmente a configuração para tratá-lo como categórico.
Quando uma coluna é identificada como contendo informações de data e hora, ela é usada como base para novos recursos de engenharia automática gerados. Quando isso acontece, a coluna original (o recurso pai) é tratada como tendo o tipo de recurso de data.
Você pode alterar o recurso pai de um recurso de data para um recurso categórico ou numérico. Por exemplo, isso é útil quando um recurso é identificado como uma data, mas você precisa que ele seja tratado como uma sequência de caracteres ou número. Ao fazer isso, você não pode mais usar seus recursos de engenharia automática no treinamento de experimentos.
Faça o seguinte:
Em Visualização do esquema, localize o recurso.
Na coluna Tipo de recurso desse recurso, clique em .
Selecione um valor na lista.
Como alternativa, você pode alterar os tipos de recurso na Exibição de dados. Localize o recurso e clique em ao lado do tipo de recurso atual. Selecione um valor na lista.
Você pode ver todas as colunas que têm um tipo de recurso alterado no painel de configuração do experimento em Tratamento de dados.
Impacto nas previsões
Quando você altera manualmente o tipo de um recurso e, em seguida, implementa um modelo resultante, as substituições do tipo de recurso são aplicadas ao recurso no conjunto de dados de aplicação usado em previsões feitas com esse modelo.
Alterando o conjunto de dados
Você pode alterar o conjunto de dados de treinamento antes de executar a primeira versão do experimento, bem como depois de executar qualquer versão.
Se você alterar o conjunto de dados antes de executar a primeira versão, perderá qualquer configuração feita antes de alterar o conjunto de dados.
Faça o seguinte:
No painel de configuração do experimento em Dados de treinamento, clique em Alterar conjunto de dados.
Selecione um novo conjunto de dados.
Para obter mais informações sobre como alterar e atualizar o conjunto de dados durante o refinamento do modelo (após executar uma versão experimental), consulte Alterando e atualizando o conjunto de dados.
Configurando a otimização do modelo
As seguintes configurações podem ser personalizadas para otimizar seus modelos:
Ativar ou desativar a otimização inteligente de modelos
Ativar ou desativar a otimização de hiperparâmetros
Ativando ou desativando o treinamento com reconhecimento de tempo
Essas opções podem ser ativadas ou desativadas para cada versão do experimento que você executar.
Configurando a otimização inteligente
Por padrão, o experimento usa otimização de modelo inteligente. Com a otimização inteligente de modelos, o AutoML cuida do processo de refinamento do modelo para você, iterando a seleção de recursos e aplicando transformações avançadas aos seus dados.
Para obter mais informações sobre otimização inteligente, consulte Otimização de modelo inteligente.
Você pode desativar essa configuração para refinar manualmente os modelos que treina. Por exemplo, você pode querer iniciar o treinamento do seu modelo com a otimização inteligente de modelos e, em seguida, alternar para o refinamento manual para a v2 para ajustar ainda mais a configuração.
Faça o seguinte:
Clique em Exibir configuração.
Se você já executou pelo menos uma versão do experimento, clique em Nova versão.
No painel, expanda Otimização do modelo.
Alterne de Inteligente para Manual.
Usando o controle deslizante, defina a duração máxima da execução do treinamento.
Configuração da otimização de hiperparâmetros
Você pode otimizar os modelos usando a otimização de hiperparâmetros. Observe que esta é uma opção avançada que pode aumentar significativamente o tempo de treinamento. A otimização de hiperparâmetros estará disponível se você desativar a otimização inteligente.
Para obter mais informações, consulte Otimização de hiperparâmetros.
Faça o seguinte:
Clique em Exibir configuração.
Se você já executou pelo menos uma versão do experimento, clique em Nova versão.
No painel, expanda Otimização do modelo.
Alterne de Inteligente para Manual.
Marque a caixa de seleção Otimização de hiperparâmetros.
Opcionalmente, defina um limite de tempo para sua otimização. O limite de tempo padrão é uma hora.
Configurando o treinamento com reconhecimento de tempo
Se quiser que seus modelos sejam treinados levando em consideração uma dimensão de série temporal, ative o treinamento com reconhecimento de tempo para a versão do experimento. Para usar essa opção, você deve ter uma coluna em seu conjunto de dados que contenha as informações relevantes da série temporal.
Quando o treinamento com reconhecimento de tempo está ativado, o AutoML usa processos especializados de validação cruzada e imputação nula para treinar os modelos.
Para obter mais informações, consulte Criando modelos com reconhecimento de tempo e Validação cruzada baseada em tempo.
Faça o seguinte:
Clique em Exibir configuração.
Se você já executou pelo menos uma versão do experimento, clique em Nova versão.
No painel, expanda Otimização do modelo.
Em Divisão do treinamento de teste baseada em tempo, selecione o Índice de dados a ser usado para classificar os dados.
Exibindo ideias sobre os dados de treinamento
Na guia Dados do experimento, você pode visualizar ideias sobre o tratamento dos dados de treinamento. Essas informações estão disponíveis na coluna Ideias na Exibição de esquema. As informações mostradas dependem se você executou ou não uma versão com os dados de treinamento atuais. As alterações na coluna Ideias podem ajudar a identificar por que os recursos podem estar indisponíveis para uso ou por que foram descartados automaticamente.
Para obter mais informações sobre o que cada ideia significa, consulte Interpretando ideias do conjunto de dados.