Saltar al contenido principal Saltar al contenido complementario

Cómo preparar su conjunto de datos para el entrenamiento

Entrenamos un conjunto de datos para responder a una pregunta de aprendizaje automático. El conjunto de datos de entrenamiento incluye una columna por cada característica, así como otra columna que contiene el objetivo. Los algoritmos de aprendizaje automático aprenden patrones generales de estas filas de datos para generar un modelo que puede predecir el objetivo.

Para que el conjunto de datos esté listo para el aprendizaje automático, debe comprender sus datos y recopilar los puntos de datos necesarios. Es posible que también deba transformar algunos de los datos y eliminar datos que no sean relevantes para su caso de uso.

¿Qué datos debería recopilar?

Defina su pregunta de aprendizaje automático con precisión y decida exactamente qué debe agregarse para abordar esa pregunta:

  • Si desea predecir qué clientes abandonarán, debe agregar un conjunto de datos en el que cada fila represente un cliente, cada columna de características represente una característica que describa a ese cliente y la columna objetivo representa si ese cliente abandonó en un período de tiempo determinado.

  • Si desea predecir cuáles serán las ventas para un mes y una región determinados, debe agregar un conjunto de datos en el que cada fila represente un mes determinado para una región determinada, cada columna de características represente una característica que describa el volumen de negocio de ese mes en esa región y la columna objetivo son los ingresos por ventas de esa región en ese mes.

Intente averiguar qué cosas podrían influir en el objetivo y ver si se pueden recopilar esos datos. Recuerde que los algoritmos predictivos solo pueden identificar patrones que están ahí presentes. ¿Tal vez necesite recopilar o crear características adicionales para extraer información adicional?

También debe determinar cuántos datos necesita acumular antes de poder predecir con precisión. ¿Cuánto tiempo pasa antes de que el evento se vuelva representativo? Considere los siguientes ejemplos:

  • Los clientes deben haber sido miembros durante 60 días antes de poder predecir si se irán antes del día 90.

  • El coste de las reclamaciones de seguros no se conocerá durante algunos meses, por lo que puede excluir las reclamaciones de menos de seis meses.

Distinga entre datos variables en el tiempo y datos que no varían en el tiempo. Con los datos que varían en el tiempo, ¿los datos tienen una marca de tiempo (fecha-hora) para agregarse adecuadamente?

¿Estarán disponibles los datos en el momento de la predicción?

Asegúrese de que todas las características que incluya en el conjunto de datos de entrenamiento también estén disponibles para futuras predicciones. Es un error muy habitual entrenar el modelo con características que tiene disponibles para datos históricos, pero que no estarán disponibles en el momento en que haga una predicción en el futuro. Cuando haga predicciones sobre nuevos datos, el algoritmo de aprendizaje automático debe tener valores para todas las características que estaban disponibles en el conjunto de datos de entrenamiento.

¿Es mejor tener más datos?

Tamaño de muestra

Un mayor volumen de datos tiende a producir modelos más fiables. Cualquier punto de datos relevante adicional ayudará, ya sean observaciones nuevas o históricas.

Número de características

Puede ser tentador incluir todas las variables posibles en el modelo sin importar la relevancia para el resultado deseado. Cuanto más simple mejor. Por lo general, es mejor utilizar un número menor de características en el modelo.

Cuando hay más características, puede haber más riesgo de encubrir potencialmente la verdadera relación subyacente que desea descubrir. El modelo predictivo puede usar todas las características para generar una serie de reglas complicadas que funcionan bien con los datos utilizados para entrenar el modelo. Pero el objetivo predicho en realidad solo podría estar influenciado por una o dos características. Es posible que el modelo no sea bueno para generalizar datos fuera de lo que se usó en el entrenamiento, lo que daría como resultado un rendimiento predictivo deficiente cuando se aplicara a datos nuevos.

Sobreajuste

El sobreajuste significa que un modelo es demasiado complejo y, como resultado, no es fiable para predecir nuevos datos. El sobreajuste tiende a ocurrir cuando hay demasiadas características en relación con la cantidad de puntos de datos disponibles. Por ejemplo, es posible que solo tenga 50 filas de datos y 100 columnas de características en el conjunto de datos.

¿Son relevantes sus datos de entrenamiento?

Un algoritmo de aprendizaje automático encuentra patrones en los datos que le proporcionamos y utiliza esos patrones para hacer predicciones sobre los datos en el futuro. Cuando hace predicciones sobre nuevos datos, asume que son similares a los datos de entrenamiento. Por este motivo, es importante que el conjunto de datos de entrenamiento se asemeje estadísticamente a los datos sobre los que hará predicciones.

Si el mercado o la empresa ha cambiado significativamente respecto a lo que describe su conjunto de datos de capacitación, probablemente esté utilizando un conjunto de datos desactualizado que conducirá a predicciones inexactas. Es posible que deba crear un nuevo conjunto de datos de entrenamiento y usar solo los datos recopilados después de que se produzca el cambio.

Considere el ejemplo relativo a las predicciones de ventas en Comprender el aprendizaje automático. Supongamos que insertamos datos en nuestro algoritmo que representan el gasto publicitario en televisión, radio y periódicos, así como los ingresos por ventas de los trimestres comerciales históricos. No obstante, los datos se recopilaron en la década de los 80. Ahora ya no anunciamos ese producto en la radio y lo anunciamos casi exclusivamente online. Nuestro algoritmo entrenado tendría un rendimiento deficiente en la predicción de ventas para el trimestre comercial actual porque los datos de capacitación no son representativos del negocio en la actualidad.

Explorar los datos

Utilice su conocimiento empresarial para comprender y validar los datos. Si los datos no se alinean con sus suposiciones, ¿podría significar problemas de datos o podría significar que sus suposiciones están equivocadas?

Elimine características no fiables

Considere excluir columnas del conjunto de datos en las que:

  • Hay una alta concentración de un valor (baja cardinalidad). Por ejemplo, una columna con los valores "rojo", "verde", "azul" donde el 90 por ciento de los valores sean "rojo".

  • Hay muchos valores únicos (alta cardinalidad).

  • La mayoría de los valores son nulos.

Abordar características correlacionadas

Elimine las características redundantes, como las características altamente correlacionadas que proporcionan la misma información o información muy similar. Considere seleccionar una sola característica de los grupos que parecen capturar los mismos comportamientos en los datos. Trate de determinar si hay una característica que está afectando a otra.

Reemplazar valores nulos

Explore sus datos para averiguar si faltan valores en puntos de datos clave, como el objetivo o las características clave. Para usar valores de una columna dispersa, puede reemplazar los valores nulos por "Otros" o "Desconocido". O tal vez necesite volver a evaluar la recopilación de datos.

Alcance el objetivo

Observe la distribución de los datos. Si la distribución de sus datos objetivo está demasiado dispersa en relación con el tamaño de su muestra, puede ser difícil encontrar algún patrón en sus datos.

¿Cuál es el rango de valores de los datos? Hay algunos desafíos en cuanto a la predicción de valores de datos fuera del rango. Más información en Extrapolación e interpolación.

¿Hay anomalías en la distribución? Las formas sesgadas, de colas y multimodales en sus datos pueden requerir una transformación de datos adicional o una mayor ingeniería de características. Trate de agrupar categorías de bajo volumen y redondear o eliminar colas en características numéricas.

Elimine valores atípicos

Considere eliminar las observaciones con valores atípicos en las columnas de características. Los valores atípicos pueden impedir la capacidad de un algoritmo para discernir patrones generales en los datos. Sería mejor observar un subconjunto de datos más pequeño que tenga una distribución más estrecha en la columna de destino.

Agrupación de datos

Puede mejorar sus resultados dividiendo los datos en diferentes conjuntos de datos y usarlos para entrenar modelos separados. Base la agrupación de datos en una o más características.

Fuga de datos

La fuga de datos significa que los datos utilizados para entrenar un algoritmo de aprendizaje automático incluyen la información que intenta predecir.

Más información

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.