Ir para conteúdo principal Pular para conteúdo complementar

Escala de recursos

Recursos são as colunas em seu conjunto de dados usadas para prever um valor alvo. Os valores de dados dos recursos geralmente têm intervalos variados. A escala de recursos padroniza o intervalo de valores em colunas numéricas para distribuir os valores uniformemente. Isso possibilita relacionar valores de outra forma não relacionáveis.

Digamos que estamos tentando prever se o proprietário de uma casa não pagará sua hipoteca. Nesse caso, a taxa de juros e o valor da casa terão intervalos e magnitudes muito diferentes. A padronização de cada um desses valores em relação a si mesmos permite que sejam representados matematicamente ao longo do mesmo plano. Isso pode aumentar a exatidão e a velocidade do treinamento do modelo.

Como funciona a escala de recursos

Uma prática comum para a escala de recursos é calcular a média e o desvio padrão para cada coluna. Em seguida, para cada linha, calcule o número de desvios padrão da média.

Para ilustrar esse conceito e prática, temos uma tabela com as colunas InitialOrderValue e DaysToConvert.

Tabela com dados originais. Há uma grande diferença entre os intervalos nas duas colunas.

Tabela com dados de amostra.

O valor médio e o desvio padrão são calculados para as colunas. Podemos usar esses valores para dimensionar os valores originais. O valor com escala de recursos é a diferença entre o valor original e a média dividida pelo desvio padrão.

Valor médio e desvio padrão

Tabela com a média e o desvio padrão para as colunas Initial_order_value e Days_to_convert.

Para o primeiro registro em nossa tabela, Person_1, o valor inicial do pedido é US$ 45,37. A média para o valor inicial do pedido é US$ 32,81 e o desvio padrão é US$ 13,58. Isso nos dá o valor em escala de recursos: (US$ 45,37 - US$ 32,81)/$ US$ 13,58 = US$ 0,925

Observe que as unidades (US$) são anuladas pela divisão. Isso significa que 0,925 não é mais medido em dólares, mas em desvios padrão relativos da média. Quando aplicamos isso a ambas as colunas, elas agora estão no mesmo plano descritivo. A tabela a seguir mostra os valores em escala de recursos.

Tabela com dados em escala de recursos

Tabela com dados de amostra.

A diferença entre os valores originais e os valores em escala de recursos é visualizada nos gráficos de caixa a seguir.

Gráficos de caixa dos dados originais

Gráficos de caixa.

Gráficos de caixa dos dados em escala de recursos

Gráficos de caixa.

Saiba mais

Esta página ajudou?

Se você encontrar algum problema com esta página ou seu conteúdo - um erro de digitação, uma etapa ausente ou um erro técnico - informe-nos como podemos melhorar!