Ir para conteúdo principal Pular para conteúdo complementar

Configurando experimentos

A configuração dos experimentos consiste em selecionar o alvo e os recursos que o modelo usará para predizer o alvo. Você também pode definir várias configurações opcionais.

Para apoiá-lo na seleção de um alvo, o conjunto de dados históricos é analisado e estatísticas resumidas são exibidas sobre cada coluna no conjunto de dados. Várias etapas de pré-processamento automático são aplicadas ao conjunto de dados para garantir que apenas os dados adequados sejam incluídos. Para obter mais detalhes sobre o pré-processamento de dados, consulte Preparação e transformação automática de dados.

Depois de executar a v1, você poderá criar novas versões de experimento, se necessário, para refinar ainda mais o treinamento do modelo. Para obter mais informações, consulte Refinando modelos.

Requisitos e permissões

Para saber mais sobre os requisitos do usuário para trabalhar com experimentos de ML, consulte Trabalhando com experimentos.

Exibições

A exibição padrão é a exibição do esquema, em que cada coluna em seu conjunto de dados é representada por uma linha no esquema com informações e estatísticas. Para obter mais informações e dados de amostra para cada coluna, você também tem a exibição de dados Clique em Colunas e em Exibição de dados para alternar entre as exibições.

Uma visualização do conjunto de dados mostrado na exibição de esquema

A exibição de esquema do AutoML.

Uma visualização do conjunto de dados mostrado na exibição de dados

A exibição de dados do AutoML.

Clique em Painel de configuração para abrir ou fechar o painel lateral Configuração do experimento. Aqui você encontra informações sobre seu experimento e a configuração atual.

O painel lateral mostra a configuração do experimento para a versão atual

O painel lateral de configuração de Experimento do AutoML.

Selecionando um alvo

A coluna alvo contém os valores que você deseja que o modelo de aprendizado de máquina preveja. Você pode alterar a coluna alvo até iniciar o primeiro treinamento. Depois disso, ela é bloqueada para edição.

  • Passe o mouse sobre a coluna e clique no ícone Alvo que aparece.

    A coluna alvo agora é indicada por Alvo e as outras colunas disponíveis são selecionadas automaticamente como recursos.

Selecionando o alvo

Coluna do conjunto de dados com símbolo de alvo.

Quando o alvo for selecionado, você poderá começar a executar a primeira versão experimental. Leia mais em Experimentos de treinamento. Você pode fazer configurações adicionais neste ponto — descrito abaixo — ou ajustar a configuração depois de revisar os resultados do treinamento.

Explicações sobre como seus dados estão sendo interpretados e processados são mostradas à medida que você navega no treinamento experimental. Para obter mais informações, consulte Insights comuns encontrados em dados de treinamento.

Determinando o tipo de modelo criado

A coluna selecionada como destino determina o tipo de modelo que seu experimento cria. Isso, por sua vez, desempenha um papel na determinação de quais algoritmos são usados para treinar o modelo. Certas colunas em seu conjunto de dados podem não ser selecionáveis como alvo para seu experimento ou podem ter um processamento específico aplicado a elas.

Os tipos de modelo são:

  • Modelo de classificação binária

  • Modelo de classificação multiclasse

  • Modelo de regressão

A tabela abaixo resume os fatores do seu destino que determinam o tipo de modelo usado.

Características da coluna de destino que determinam o tipo de modelo
Tipo de modelo Número de valores distintos na coluna Tipo de recurso necessário Informações adicionais
Classificação binária 2 Qualquer -
Classificação multiclasse 3-10 Qualquer Uma coluna com mais de 10 classes distintas e não numéricas não pode ser selecionada como alvo.
Regressão Mais de 10 Numérico -

Selecionando colunas de recursos

Com o alvo definido, você pode escolher qual das outras colunas disponíveis incluir no treinamento do modelo. Exclua quaisquer recursos que você não deseja que façam parte do modelo. Observe que a coluna permanecerá no conjunto de dados, mas não será usada pelo algoritmo de treinamento.

Na parte superior do painel Configuração do experimento, você pode ver o número de células em seu conjunto de dados. Se o número exceder o limite do conjunto de dados, você poderá excluir recursos para ficar abaixo do limite.

Você pode selecionar as colunas de recursos de várias maneiras:

  • Desmarque manualmente as caixas de seleção dos recursos que você não deseja incluir.

  • Clique em Excluir todos os recursos e selecione apenas os que deseja incluir.

  • Faça uma pesquisa e exclua ou inclua todos os recursos em seu resultado de pesquisa filtrado.

  • Depois de executar a primeira versão experimental, você pode definir o Número dos principais recursos a serem incluídos.

Seção de recursos na configuração do experimento

Seção de recursos no painel lateral de configuração de Experimento do AutoML.

Quando você seleciona recursos, eles recebem automaticamente um tipo de recurso. Os possíveis tipos de recursos são:

  • Categórico

  • Numérico

  • Data

  • Texto livre

O tipo de recurso é atribuído com base nos dados contidos na coluna de recurso. Se um recurso atender a determinados critérios, ele poderá ser preparado para se tornar a base para recursos de engenharia automática. Se desejar, você pode alterar se o recurso será usado para engenharia automática de recursos. Para obter detalhes completos sobre engenharia automática de recursos, consulte Engenharia automática de recursos.

Certas colunas em seu conjunto de dados podem não ser selecionáveis como recursos para seu experimento ou podem ter um processamento específico aplicado a elas. Explicações sobre como seus dados estão sendo interpretados e processados são mostradas à medida que você navega no treinamento experimental. Para obter mais informações, consulte Insights comuns encontrados em dados de treinamento.

Selecionando algoritmos

Todos os algoritmos disponíveis são incluídos por padrão, e você pode excluir qualquer algoritmo que não queira usar. Normalmente, você faria isso como parte do refinamento do modelo quando visse os primeiros resultados do treinamento. Leia mais em Refinando modelos.

Seção de algoritmos na configuração do experimento

Seção de algoritmos no painel lateral de configuração de Experimento do AutoML.

Alterando os tipos de recursos

Quando um conjunto de dados é carregado, as colunas são tratadas como categóricas, numéricas, de data ou texto livre com base no tipo de dados e outras características. Em alguns casos, talvez você queira alterar essa configuração.

Por exemplo, se os dias da semana forem representados pelos números de 1 a 7, cada número representará um valor categórico. Por padrão, ele é tratado como um valor numérico classificado contínuo, portanto, você precisa alterar manualmente a configuração para tratá-lo como categórico. Você também pode converter um tipo de recurso categórico em um tipo de recurso numérico.

Quando uma coluna é identificada como contendo informações de data e hora, ela é usada como base para novos recursos de engenharia automática gerados. Quando isso acontece, a coluna original (o recurso pai) é tratada como tendo o tipo de recurso de data. Você pode alterar o recurso pai de um tipo de recurso de data para um tipo de recurso categórico. No entanto, se você fizer isso, não poderá mais usar seus recursos de engenharia automática no treinamento experimental.

  1. Na coluna Tipo de recurso, clique em .

  2. Selecione um valor na lista.

Você pode ver todas as colunas que têm um tipo de recurso alterado no painel Configuração do experimento, em Tratamento de dados.

Alterando o conjunto de dados

Você pode alterar o conjunto de dados de treinamento antes de executar a primeira versão do experimento, bem como depois de executar qualquer versão.

Se você alterar o conjunto de dados antes de executar a primeira versão, perderá qualquer configuração feita antes de alterar o conjunto de dados.

  1. No painel Configuração do experimento em Dados de treinamento, clique em Alterar conjunto de dados.

  2. Selecione um novo conjunto de dados.

Para obter mais informações sobre como alterar e atualizar o conjunto de dados durante o refinamento do modelo (após executar uma versão experimental), consulte Alterando e atualizando o conjunto de dados.

Configuração da otimização de hiperparâmetros

Você pode otimizar o modelo usando a otimização de hiperparâmetros. Observe que esta é uma opção avançada que pode aumentar significativamente o tempo de treinamento. Para obter mais informações, consulte Otimização de hiperparâmetros.

Seção de otimização de modelos na configuração do experimento

Seção de otimização de modelos no painel lateral de configuração do Experimento do AutoML.
  1. No painel Configuração do experimento, expanda a seção Otimização de modelos.

  2. Marque a caixa de seleção Otimização de hiperparâmetros.

  3. Opcionalmente, defina um limite de tempo para sua otimização. O limite de tempo padrão é uma hora.

Insights comuns encontrados em dados de treinamento

Dependendo da qualidade do seu conjunto de dados, pode haver limitações sobre como você pode usar partes específicas dos dados na configuração do seu experimento. A coluna Insights na exibição de esquema é útil para identificar características específicas de campos de dados e como eles serão processados por algoritmos de aprendizado de máquina.

A tabela a seguir mostra possíveis insights que podem ser exibidos no esquema:

Insights do conjunto de dados na exibição do esquema
InsightSignificadoImpacto na configuração
ConstanteA coluna tem o mesmo valor para todas as linhas.A coluna não pode ser usada como alvo ou recurso incluído.
Codificação one-hotO tipo de recurso é categórico e a coluna tem menos de 14 valores exclusivos.Nenhum efeito na configuração.
Impacto codificadoO tipo de recurso é categórico e a coluna tem 14 ou mais valores exclusivos.Nenhum efeito na configuração.
Alta cardinalidadeA coluna tem muitos valores exclusivos e pode afetar negativamente o desempenho do modelo se for usada como um recurso.A coluna não pode ser usada como alvo. Ela será excluída automaticamente como um recurso, mas ainda poderá ser incluída, se necessário.
Dados esparsosA coluna tem muitos valores nulos.A coluna não pode ser usada como alvo ou recurso incluído.
Classe sub-representadaA coluna tem uma classe com menos de 10 linhas.A coluna não pode ser usada como um alvo, mas pode ser incluída como um recurso.
<número de> recursos de engenharia automáticaA coluna é o recurso pai que pode ser usado para gerar recursos de engenharia automática.Se esse recurso pai for interpretado como um recurso de data, ele será automaticamente removido da configuração. É recomendável que você use os recursos de data de engenharia automática que podem ser gerados a partir dele. É possível substituir essa configuração e incluir o recurso em vez dos recursos de engenharia automática.
Recurso de engenharia automáticaA coluna é um recurso de engenharia automática que pode, ou foi, gerada a partir de um recurso de data pai. Ela não apareceu no conjunto de dados original.Você pode remover um ou vários desses recursos de engenharia automática durante o treinamento experimental. Se você alterar o tipo de recurso do recurso pai para categórico, todos os recursos de engenharia automática serão removidos.
Não foi possível processar como dataA coluna possivelmente inclui informações de data e hora, mas não pode ser usada para criar recursos de data com engenharia automática.O recurso foi eliminado da configuração. Se recursos de engenharia automática foram gerados anteriormente a partir desse recurso pai, eles serão removidos de futuras versões experimentais. Você ainda pode usar o recurso no experimento, mas deve mudar seu tipo de recurso para categórico.
Possível texto livreA coluna poderia estar disponível para uso como um recurso de texto livre.O tipo de recurso de texto livre é atribuído à coluna. Você deve executar uma versão experimental para confirmar se o recurso pode ser processado como texto livre.
Texto livreA coluna foi confirmada como contendo texto livre. Pode ser processada como texto livre.Nenhuma configuração adicional é necessária para o recurso.
Não foi possível processar como texto livreApós uma análise mais aprofundada, a coluna não pode ser processada como texto livre.Você precisa desmarcar o recurso da configuração para a próxima versão do experimento. Se o recurso não tiver alta cardinalidade, você poderá alterar o tipo de recurso para categórico.

Saiba mais

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!