Problemas de classificação
Problemas em que a coluna alvo é uma coluna categórica são chamados de problemas de classificação. Os problemas de classificação binária têm duas categorias possíveis, como Sim ou Não, enquanto os problemas de classificação multiclasse têm mais de duas categorias possíveis.
Os exemplos a seguir explicam os dois tipos de problemas de classificação. Eles também discutem algumas das considerações ao definir uma questão de aprendizado de máquina.
Exemplo de classificação binária: Rotatividade de clientes
Neste exemplo, uma empresa oferece um modelo baseado em assinatura. Foram coletados dados sobre todos os clientes antigos e atuais. Os clientes foram rotulados como tendo cancelado sua assinatura (mudado) ou não.
A tabela a seguir mostra os dados coletados. Cada linha representa um cliente exclusivo e as colunas representam diferentes recursos que descrevem esse cliente. A última coluna é o nosso alvo. Esta é uma coluna binária que especifica se o cliente cancelou sua assinatura (Sim ou Não).
Poderíamos usar esse conjunto de dados para treinar um algoritmo de aprendizado de máquina para prever se um determinado cliente irá cancelar. No entanto, há alguns problemas com esta abordagem:
-
O conjunto de dados compara clientes novos e antigos e não há informações sobre se os clientes que ainda não cancelaram cancelarão no futuro.
-
Os clientes recém-adquiridos podem ter características que indicam que podem cancelar (talvez saibamos que homens na faixa dos 20 anos que não compram muito no primeiro mês tendem a cancelar a assinatura logo depois). No entanto, como são novos e ainda não cancelaram, estamos treinando o algoritmo de aprendizado de máquina para associar essas características a um cliente fiel que não cancela.
Evite essas armadilhas sendo preciso sobre como definir rotatividade e como preparar um conjunto de dados para o problema. Ter uma noção de como fazer perguntas de negócios de maneira precisa e apropriada para que possam ser abordadas pelo aprendizado de máquina é algo que vem com a prática. Ver exemplos bons e ruins de como fazer isso é útil ao começar a usar o aprendizado de máquina para aplicativos de negócios. Se você não tiver certeza sobre como enquadrar suas questões de negócios para aprendizado de máquina, considere incorporar um período de tempo na definição de suas métricas de negócios. Essa estratégia geralmente percorre um longo caminho.
Incluindo um fator de tempo
Vamos considerar a incorporação de tempo na questão. Poderíamos estudar quais clientes vão cancelar seus serviços nos primeiros seis meses. Por exemplo, poderíamos usar o comportamento deles durante o primeiro mês do cliente para prever se eles irão cancelar nos primeiros seis meses. Agora temos uma forma precisa de definir a rotatividade de clientes, uma forma que incorpora um período. Poderíamos agregar um conjunto de dados como este:
Aqui, cada linha representa um cliente, mas agora incluímos apenas clientes que historicamente duraram pelo menos seis meses. Para cada um deles, o número de compras e o gasto total durante o primeiro mês são usados para prever se eles cancelaram após seis meses. Para esta questão, tornou-se irrelevante se eles cancelaram após os primeiros seis meses. A coluna alvo informa apenas se eles cancelaram a assinatura nos primeiros seis meses.
Agora, temos um conjunto de dados de treinamento onde as linhas podem ser comparadas entre si. Assim que treinarmos um modelo neste conjunto de dados, podemos pegar qualquer novo cliente que tenha assinado por pelo menos um mês e usar seu comportamento durante o primeiro mês e nosso modelo treinado para prever se eles irão cancelar durante os primeiros seis meses.
Exemplo de classificação multiclasse: Pétalas de íris
Neste exemplo, temos dados sobre uma grande amostra de flores de íris. Para cada flor, registramos o comprimento e a largura de suas pétalas e sépalas, bem como o tipo de íris a que pertence. No futuro, quando encontrarmos uma nova flor de íris, gostaríamos de poder prever que tipo de espécie de íris é com base no comprimento da sépala, largura da sépala, comprimento da pétala e largura da pétala.
Podemos alimentar os dados coletados para um algoritmo de aprendizado de máquina que ajusta uma função aos dados históricos. Essa função produziria um tipo de espécie previsto com base nos valores das outras quatro variáveis. A saída é uma categoria de um conjunto discreto de categorias.
Observe que trabalhamos com a suposição de que os dados sobre os quais fazemos previsões no futuro serão estatisticamente semelhantes aos dados nos quais treinamos o algoritmo. Se houver apenas três espécies diferentes de íris presentes no conjunto de dados de treinamento, podemos usar apenas esse algoritmo treinado para fazer previsões sobre as flores dessas espécies. Não podemos esperar que um algoritmo de aprendizado de máquina faça previsões sobre padrões que não foram treinados para reconhecer no conjunto de dados de treinamento.