Datos retenidos y validación cruzada

Uno de los mayores desafíos en el análisis predictivo está en saber cómo se desempeñará un modelo entrenado con unos datos que no ha visto nunca antes. Dicho de otra manera, cómo podemos saber qué tal ha aprendido el modelo patrones verdaderos en comparación con simplemente haber memorizado los datos de entrenamiento. Los datos reservados y la validación cruzada son técnicas efectivas para asegurarse de que su modelo no solo esté memorizando, sino que de verdad esté aprendiendo patrones generalizados.

Cuando configure su experimento, puede elegir si los datos de entrenamiento y los datos retenidos se dividirán de forma aleatoria o con un método específico utilizado para crear modelos en función del tiempo.

Modelos de prueba para memorización versus generalización

Preguntar qué tal funcionará un modelo en el mundo real es equivalente a preguntar si el modelo memoriza o generaliza. La memorización es la capacidad de recordar perfectamente lo que sucedió en el pasado. Si bien un modelo que memoriza puede tener puntuaciones altas cuando se entrena inicialmente, la precisión predictiva disminuirá significativamente cuando se aplique a nuevos datos. En cambio, queremos un modelo que generalice. La generalización es la capacidad de aprender y aplicar patrones generales. Al aprender los verdaderos patrones más amplios de los datos de entrenamiento, un modelo generalizado podrá hacer predicciones de la misma calidad sobre nuevos datos que no ha visto antes.

Datos reservados o de retención automática

Es un dato que se "oculta" al modelo mientras se está entrenando y después se utiliza para puntuar el modelo La retención simula cómo se desempeñará el modelo en predicciones futuras mediante la generación de métricas de precisión sobre datos que no se usaron en el entrenamiento. Es como si construyéramos un modelo, lo implementáramos y estuviéramos supervisando sus predicciones en relación con lo que realmente sucedió, sin tener que esperar para observar esas predicciones.

En Qlik Predict, existen dos métodos para seleccionar los datos de reserva: el método predeterminado y el método basado en el tiempo.

Método predeterminado de selección de los datos retenidos

A menos que active el entrenamiento de modelos basado en el tiempo, los datos retenidos se seleccionarán aleatoriamente antes de que comience el entrenamiento del modelo.

Proporción de datos de entrenamiento y datos retenidos en el método predeterminado de retención y validación cruzada. — De manera predeterminada, el conjunto de datos se divide aleatoriamente en Datos de entrenamiento y Datos retenidos.

Método de selección de datos retenidos basado en el tiempo

Con el método basado en el tiempo, todo el conjunto de datos de entrenamiento se ordena primero según una columna de índice de fechas que usted selecciona. Una vez ordenados, los datos retenidos se separan del resto de los datos de entrenamiento. Estos datos retenidos contienen los datos más recientes con respecto a su índice seleccionado.

El método basado en el tiempo se utiliza al entrenar modelos conscientes del tiempo y modelos de series temporales. Para más información sobre estas opciones de modelo, vea Crear modelos basados en el tiempo y Trabajar con experimentos de series temporales.

Validación cruzada

La validación cruzada es un proceso que prueba la capacidad de un modelo de aprendizaje automático para predecir valores futuros en datos que aún no ha visto. En la validación cruzada, los datos de entrenamiento de un modelo se dividen en varios segmentos, llamados pliegues. En cada iteración del entrenamiento, el modelo se entrena en uno o más pliegues, y siempre se evita que al menos uno de los pliegues se use para el entrenamiento. Después de cada iteración, se evalúa el rendimiento utilizando uno de los pliegues que se impidió utilizar en el entrenamiento.

El resultado de la validación cruzada es un conjunto de métricas de prueba que brindan un pronóstico razonable de la precisión con la que el modelo entrenado podrá predecir datos que nunca antes había visto.

En Qlik Predict, existen dos métodos de validación cruzada: el método predeterminado y el método basado en el tiempo.

Validación cruzada predeterminada

A menos que configure el entrenamiento para utilizar la validación cruzada basada en el tiempo, Qlik Predict utiliza el método de validación cruzada predeterminado. El método predeterminado de validación cruzada es adecuado para modelos que no dependen de una dimensión de serie temporal, es decir, no es necesario que el modelo realice predicciones teniendo en cuenta una columna específica basada en el tiempo en los datos de entrenamiento.

En el método predeterminado de validación cruzada, el conjunto de datos se divide aleatoriamente en una cantidad de segmentos pares llamados pliegues. El algoritmo de aprendizaje automático entrena el modelo en todos los pliegues menos uno. A continuación, la validación cruzada prueba cada pliegue contra un modelo entrenado en todos los demás pliegues. Esto significa que cada modelo entrenado se prueba en un segmento de los datos que nunca antes se había visto. El proceso se repite con un pliegue diferente que se oculta durante el entrenamiento y luego se prueba hasta que todos los pliegues se hayan usado exactamente una vez como prueba y se hayan entrenado durante cada iteración.

Retención automática y validación cruzada predeterminada

De forma predeterminada, Qlik Predict utiliza una validación cruzada cinco veces durante el entrenamiento del modelo para simular el rendimiento del modelo. Luego, el modelo se prueba con una retención aparte, distinta de los datos de entrenamiento. Esto genera métricas de puntuación que le permiten evaluar y comparar qué tal funcionan los diferentes algoritmos.

Antes de que comience el entrenamiento de su experimento, todos los datos en su conjunto de datos que tienen un objetivo no nulo se mezclan aleatoriamente. El 20 por ciento de su conjunto de datos se extrae como datos retenidos. El 80 por ciento restante del conjunto de datos se utiliza para entrenar el modelo con validación cruzada.
Para preparar la validación cruzada, el conjunto de datos se divide en cinco partes (pliegues) al azar. Luego, el modelo se entrena cinco veces, reteniendo (ocultando) cada vez una quinta parte diferente de los datos, para probar cómo funciona el modelo. Las métricas de entrenamiento se generan durante la validación cruzada y son el promedio de los valores calculados.
Después del entrenamiento, el modelo se aplica a los datos retenidos. Debido a que el modelo no ha visto los datos reservados o retenidos durante el entrenamiento, a diferencia de los datos de validación cruzada, es ideal para validar el rendimiento del entrenamiento del modelo. Las métricas de retención se generan durante esta evaluación final del modelo.

Para obtener más información sobre las métricas utilizadas para analizar el rendimiento del modelo, consulte Revisar los modelos.

Diagrama que muestra el método predeterminado de retención y validación cruzada, destacando un proceso de cinco pasos. — En el método predeterminado, los datos de entrenamiento se utilizan durante una validación cruzada de cinco pasos para generar un modelo. Después del entrenamiento, el modelo se evalúa utilizando los datos reservados.

Validación cruzada basada en el tiempo

La validación cruzada basada en el tiempo es adecuada para entrenar su modelo para predecir datos a lo largo de una dimensión de series temporales. Por ejemplo, supongamos que desea predecir las ventas de su empresa para el mes siguiente, dado un conjunto de datos que contiene datos de ventas anteriores. Para utilizar la validación cruzada basada en el tiempo, tiene que haber una columna en sus datos de entrenamiento que contenga información sobre la fecha o la hora.

La validación cruzada basada en el tiempo se utiliza para crear modelos que tienen en cuenta el tiempo. El entrenamiento en tiempo real se activa en Optimización del modelo en el panel de configuración del experimento. Para más información, vea Configurar experimentos.

Con la validación cruzada basada en el tiempo, los modelos se entrenan para comprender mejor que están prediciendo datos de fechas futuras.

Al igual que el método predeterminado, la validación cruzada basada en el tiempo implica separar los datos de entrenamiento en pliegues que se utilizan tanto para el entrenamiento como para las pruebas. En ambos métodos, los modelos también se entrenan a lo largo de un número de iteraciones. Sin embargo, el método basado en el tiempo tiene varias diferencias con respecto al método predeterminado:

Los datos del entrenamiento se ordenan y organizan en pliegues a lo largo del índice de fechas que usted elija. Por el contrario, la validación cruzada predeterminada selecciona aleatoriamente qué filas se incluirán en un pliegue determinado.
La cantidad de pliegues que se utilizan como datos de entrenamiento aumenta gradualmente con cada iteración del entrenamiento. Esto significa que durante la primera iteración solo se puede utilizar el primer pliegue (el más antiguo) y las iteraciones posteriores contendrán gradualmente un mayor volumen de datos de entrenamiento, incluidos datos más recientes. El pliegue que se utiliza como datos de prueba varía con cada iteración.

Esto contrasta con el método predeterminado de validación cruzada, que utiliza un volumen fijo de datos para las divisiones de entrenamiento y prueba en cada iteración (es decir, cuatro pliegues para el entrenamiento y un pliegue para la prueba).
Como todo el conjunto de datos de entrenamiento se ordena según el índice seleccionado, los datos que se utilizan para probar el modelo entrenado son siempre más recientes (o igual de recientes) que los datos utilizados para entrenar el modelo. Los datos de retención automática que se utilizan para realizar las pruebas finales de rendimiento del modelo son siempre más recientes (o igual de recientes) que el resto del conjunto de datos de entrenamiento.

Por el contrario, la validación cruzada predeterminada puede provocar que los modelos se prueben en datos más antiguos que los datos de entrenamiento, lo que genera una fuga de datos.

Retención automática y validación cruzada basada en el tiempo

Este procedimiento muestra cómo se entrenan los modelos temporales. El proceso presenta diferencias y similitudes en comparación con el proceso predeterminado de validación cruzada.

Todos los datos de su conjunto de datos se ordenan según el índice de fechas que haya seleccionado. Incluye los datos de entrenamiento y los datos retenidos.
Antes de que comience el entrenamiento de su experimento, el 20% de su conjunto de datos se extrae como datos de reserva. Estos datos retenidos son los más recientes, o igual a, que el resto del conjunto de datos. El 80 por ciento restante del conjunto de datos se utiliza para entrenar el modelo con validación cruzada.
Para preparar la validación cruzada, los datos de entrenamiento ordenados se dividen en un número de pliegues. Con respecto al índice de fechas que seleccione, el primer pliegue contendría los registros más antiguos y el último los más recientes.
El modelo se entrena entonces a lo largo de cinco iteraciones. En cada iteración, la cantidad de datos de entrenamiento aumenta gradualmente. Con cada iteración, también aumenta la actualidad de los datos de entrenamiento incluidos. Las métricas de entrenamiento se generan durante la validación cruzada y son el promedio de los valores calculados.
Después del entrenamiento, el modelo se aplica a los datos retenidos. Dado que el modelo no ha visto los datos que se retuvieron o reservaron durante el entrenamiento, son ideales para validar el rendimiento del entrenamiento del modelo. Las métricas de retención se generan durante esta evaluación final del modelo.

Retención y validación cruzada para modelos de series temporales

Un modelo de series temporales es un tipo específico de modelo que realiza pronósticos específicos en el tiempo. El proceso de entrenamiento para estos modelos tiene algunas similitudes y diferencias en comparación con otros modelos:

Al igual que con otros modelos, el conjunto de datos de entrenamiento todavía se divide en 80 por ciento (entrenamiento) y 20 por ciento (prueba). Se utiliza el método de división basado en el tiempo.

El conjunto de prueba se utiliza para evaluar el rendimiento del modelo. Este conjunto se muestra en la pestaña Analizar del experimento, donde puede explorar cómo se generaliza el modelo más allá de su ventana de entrenamiento.
No se utiliza la validación cruzada quíntuple. Se realiza cierta validación durante el propio proceso de entrenamiento, a medida que los datos se ejecutan a través de una red neuronal.

Para más información sobre la previsión de series temporales con Qlik Predict, vea Trabajar con experimentos de series temporales.

¿Esta página le ha sido útil?

Si encuentra algún problema con esta página o su contenido (errores tipográficos, pasos que faltan o errores técnicos), no dude en ponerse en contacto con nosotros.

Deje aquí sus comentarios