Problemas de regressão
Problemas de regressão são problemas de aprendizado de máquina com uma coluna de destino numérica. O exemplo a seguir mostrará como enquadrar uma questão de negócios de maneira precisa e, em seguida, agregar um conjunto de dados de treinamento em que todos os recursos estejam em pé de igualdade. Isso fornece uma boa base para gerar um modelo de regressão preditivo.
Exemplo de regressão: Valor vitalício do cliente
Começamos assumindo que um modelo de aprendizado de máquina treinado em clientes históricos aprenderá a prever o valor vitalício do cliente usando vários recursos que influenciam essa previsão. Coletamos um conjunto de dados com informações históricas sobre todos os clientes antigos e atuais. Há uma linha para cada cliente e as colunas representam os recursos que descrevem o cliente: ID do cliente, sexo, idade, data em que se tornou cliente, CEP, número de compras que fez e gasto monetário total.
Poderíamos definir o valor vitalício do cliente como o gasto monetário total, alimentar o conjunto de dados para um algoritmo de aprendizado de máquina e aprender a prever o gasto monetário total. À medida que novos clientes são adquiridos no futuro, podemos usar o algoritmo treinado para prever quanto valor monetário eles fornecerão durante a vida do cliente. No entanto, existem vários problemas com esta abordagem:
-
O conjunto de dados pode incluir pessoas que são clientes há um dia, um mês ou um ano. O valor do gasto monetário total não reflete quanto um cliente gastará, mas sim o total que ele gastou até o momento.
-
Um cliente cuja conta tem um dia pode ter as características de um cliente com alto retorno. Mas, como se tornaram clientes ontem, eles fizeram apenas uma compra e não gastaram muito dinheiro. Ao incluí-los no conjunto de dados de treinamento, estamos ensinando incorretamente ao algoritmo de aprendizado de máquina que eles são o tipo de cliente que não gera muito dinheiro.
-
Podemos ter um novo cliente que no primeiro mês faz pedidos de produtos três vezes por semana, totalizando 12 compras. Outra pessoa que é cliente há um ano e compra uma vez por mês pode ter gasto a mesma quantia. O algoritmo de aprendizado de máquina colocaria esses dois clientes em pé de igualdade em termos de valor vitalício do cliente, quando, na realidade, o cliente de um mês pode ser significativamente mais valioso a longo prazo.
Para evitar essas armadilhas, precisamos ser precisos sobre como definir o valor vitalício do cliente e sobre como preparar um conjunto de dados para o problema. Uma boa maneira de conseguir isso é incluir o tempo como um fator na definição do problema.
Incluindo um fator de tempo
Para incluir um fator de tempo, começamos definindo o valor do primeiro ano como o dinheiro total que um cliente gasta em seu primeiro ano como cliente. Poderíamos então usar o comportamento de um cliente durante seus primeiros três meses como recursos para prever seu gasto total durante o primeiro ano. O valor do primeiro ano é uma definição precisa de uma métrica de interesse que incorpora um período de tempo. A vantagem de criar uma métrica definida com precisão é que ela coloca todos os exemplos de nosso conjunto de dados de treinamento em pé de igualdade.
Observe que, como agora estamos analisando o dinheiro total que as pessoas gastaram durante o primeiro ano como clientes, devemos limitar o conjunto de dados de treinamento aos clientes que já existem há pelo menos um ano. Poderíamos preparar um conjunto de dados como este:
Aqui, cada linha representa uma pessoa que é cliente há pelo menos um ano. As colunas incluem recursos que descrevem o cliente no momento em que ele se tornou um cliente, bem como recursos que representam a atividade do cliente durante o período escolhido.
A atividade é medida pelo número de compras feitas nos primeiros três meses e o gasto monetário total nos primeiros três meses. A coluna alvo representa o dinheiro total gasto no primeiro ano. Esse é o valor do primeiro ano que ensinaremos o algoritmo de aprendizado de máquina a prever.
Observe como agora estamos fazendo uma pergunta muito precisa que é definida dentro de um período: "Preveja quanto dinheiro um cliente trará durante o primeiro ano, com base em seu comportamento durante os primeiros três meses."