Tratamento de dados de texto livre

Texto livre (por exemplo, dados de strings textuais inseridos em formulários) requer processamento especial por algoritmos de aprendizado de máquina para ser útil em um modelo. No Qlik Predict, o processamento de texto livre é uma forma de engenharia automática de recursos. Tecnicamente falando, esse processamento utiliza o método TF-IDF (frequência de termo - frequência inversa de documento).

O Qlik Predict oferece suporte ao processamento separado para recursos com dados de texto livre em inglês.

Se uma coluna em seus dados de treinamento contiver texto livre, será atribuído a ela o tipo de recurso de texto livre. Também pode ser usado como um recurso categórico, embora isso seja fortemente desencorajado se tiver alta cardinalidade (muitos valores únicos).

Você pode selecionar no máximo três colunas para serem usadas como recursos de texto livre em um experimento.

Recomenda-se que os modelos treinados antes de 23 de janeiro de 2024 sejam treinados novamente se utilizarem campos que consistem em dados de texto livre.

Requisitos para codificação de texto livre

Para que uma coluna contendo texto livre seja codificada com sucesso como texto livre, ela deve atender a dois requisitos. Esses requisitos são verificados em diferentes estágios da criação do experimento.

Os requisitos são:

A coluna deve ter um comprimento médio de 50 caracteres ou mais.
A coluna deve ter um comprimento médio de palavras de cinco ou mais palavras.

Tratando um recurso como texto livre

O processo de tratar um recurso como texto livre é o seguinte:

Quando você seleciona seus dados de treinamento, o Qlik Predict identifica recursos que podem ser processados como texto livre. Eles são marcados com o insight Possível texto livre na exibição do esquema e terão o tipo de recurso de texto livre.
Depois de executar a v1 do experimento, a análise adicional será concluída. Neste ponto, os recursos inicialmente marcados como possível texto livre podem ser considerados inutilizáveis como recursos de texto livre.

Se os recursos que não podem ser utilizados como texto livre tiverem alta cardinalidade, é recomendável desmarcá-los do experimento. Esses recursos, quando tratados como categóricos, não agregam valor ao desempenho do modelo.

Se os recursos que não podem ser usados como texto livre não tiverem alta cardinalidade, você poderá incluí-los em seu experimento clicando em Tratar como categórico ou alterando seu Tipo de recurso de texto livre para categórico. Se você deixar o tipo de recurso como texto livre, ele também será tratado internamente como categórico e terá codificação de impacto.

Para obter detalhes completos sobre o pré-processamento, consulte Preparação e transformação automática de dados.

Para obter mais informações sobre cada um dos insights mostrados na visualização de esquema, consulte Exibindo ideias sobre seus dados de treinamento.

Usando um recurso de texto livre como alvo do experimento

Em casos raros, um recurso de texto livre pode ser selecionado como destino. Se o recurso atender a todos os requisitos para codificação de texto livre e contiver entre dois e dez valores exclusivos, ele poderá ser usado como destino. Nestes cenários, o experimento é definido como um problema de classificação binária padrão ou de classificação multiclasse.

Recursos de texto livre em previsões

Para saber mais sobre os requisitos para executar previsões com um modelo implementado treinado com recursos de texto livre, consulte Trabalhando com recursos de texto livre em previsões.

Considerações

A inclusão de recursos de texto livre em seu experimento aumenta a complexidade do experimento e dos processos necessários para executá-lo. É possível que os gráficos de Importância de permutação não estejam disponíveis para os modelos resultantes se seus dados de texto livre forem complexos o suficiente.

Solução de problemas

Usar dados de texto livre para treinar um modelo pode ser um processo que consome muitos recursos. Você pode encontrar um erro ao incluir colunas de texto livre contendo um grande número de palavras exclusivas como recursos.

Aqui estão algumas diretrizes para resolver esses erros:

Reduza o subconjunto de dados no seu conjunto de dados de treinamento para incluir menos linhas de texto livre.
Remova recursos de texto livre que você não precisa incluir no treinamento do modelo.
Trate uma ou mais colunas de texto livre como recursos categóricos, em vez de texto livre. Observe que isso não é recomendado se esses recursos de texto livre contiverem alta cardinalidade.

Limitações

A engenharia de recursos de texto livre automático está disponível apenas para conjuntos de dados de treinamento dentro de certos limites de tamanho. Para obter mais informações, consulte Limitações do conjunto de dados de treinamento e de criação de perfil.
A engenharia automática de recursos de texto livre não está disponível para experimentos de séries temporais.

Saiba mais

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo – um erro de digitação, uma etapa ausente ou um erro técnico – avise-nos!

Deixe seu feedback aqui