Escala de recursos
Recursos são as colunas em seu conjunto de dados usadas para prever um valor alvo. Os valores de dados dos recursos geralmente têm intervalos variados. A escala de recursos padroniza o intervalo de valores em colunas numéricas para distribuir os valores uniformemente. Isso possibilita relacionar valores de outra forma não relacionáveis.
Digamos que estamos tentando prever se o proprietário de uma casa não pagará sua hipoteca. Nesse caso, a taxa de juros e o valor da casa terão intervalos e magnitudes muito diferentes. A padronização de cada um desses valores em relação a si mesmos permite que sejam representados matematicamente ao longo do mesmo plano. Isso pode aumentar a exatidão e a velocidade do treinamento do modelo.
Como funciona a escala de recursos
Uma prática comum para a escala de recursos é calcular a média e o desvio padrão para cada coluna. Em seguida, para cada linha, calcule o número de desvios padrão da média.
Para ilustrar esse conceito e prática, temos uma tabela com as colunas InitialOrderValue e DaysToConvert.
O valor médio e o desvio padrão são calculados para as colunas. Podemos usar esses valores para dimensionar os valores originais. O valor com escala de recursos é a diferença entre o valor original e a média dividida pelo desvio padrão.
Para o primeiro registro em nossa tabela, Person_1, o valor inicial do pedido é US$ 45,37. A média para o valor inicial do pedido é US$ 32,81 e o desvio padrão é US$ 13,58. Isso nos dá o valor em escala de recursos: (US$ 45,37 - US$ 32,81)/$ US$ 13,58 = US$ 0,925
Observe que as unidades (US$) são anuladas pela divisão. Isso significa que 0,925 não é mais medido em dólares, mas em desvios padrão relativos da média. Quando aplicamos isso a ambas as colunas, elas agora estão no mesmo plano descritivo. A tabela a seguir mostra os valores em escala de recursos.
A diferença entre os valores originais e os valores em escala de recursos é visualizada nos gráficos de caixa a seguir.