Datos retenidos y validación cruzada
Uno de los mayores desafíos en el análisis predictivo está en saber cómo se desempeñará un modelo entrenado con unos datos que no ha visto nunca antes. Dicho de otra manera, cómo podemos saber qué tal ha aprendido el modelo patrones verdaderos en comparación con simplemente haber memorizado los datos de entrenamiento. Los datos retenidos (o reservados) y la validación cruzada son técnicas efectivas para asegurarse de que su modelo no solo esté memorizando, sino que de verdad esté aprendiendo patrones generalizados.
Cuando configure su experimento, puede elegir si los datos de entrenamiento y los datos retenidos se dividirán de forma aleatoria o con un método específico utilizado para crear modelos en función del tiempo.
Modelos de prueba para memorización versus generalización
Preguntar qué tal funcionará un modelo en el mundo real es equivalente a preguntar si el modelo memoriza o generaliza. La memorización es la capacidad de recordar perfectamente lo que sucedió en el pasado. Si bien un modelo que memoriza puede tener puntuaciones altas cuando se entrena inicialmente, la precisión predictiva disminuirá significativamente cuando se aplique a nuevos datos. En cambio, queremos un modelo que generalice. La generalización es la capacidad de aprender y aplicar patrones generales. Al aprender los verdaderos patrones más amplios de los datos de entrenamiento, un modelo generalizado podrá hacer predicciones de la misma calidad sobre nuevos datos que no ha visto antes.
Datos reservados de retención automática
Es un dato que se "oculta" al modelo mientras se está entrenando y después se utiliza para puntuar el modelo La retención simula cómo se desempeñará el modelo en predicciones futuras mediante la generación de métricas de precisión sobre datos que no se usaron en el entrenamiento. Es como si construyéramos un modelo, lo implementáramos y estuviéramos supervisando sus predicciones en relación con lo que realmente sucedió, sin tener que esperar para observar esas predicciones.
En Qlik AutoML, existen dos métodos para seleccionar los datos de reserva: el método predeterminado y el método basado en el tiempo.
Método predeterminado de selección de los datos retenidos
A menos que active el entrenamiento de modelos basado en el tiempo, los datos retenidos se seleccionarán aleatoriamente antes de que comience el entrenamiento del modelo.
Método de selección de datos retenidos basado en el tiempo
Con el método basado en el tiempo, todo el conjunto de datos de entrenamiento se ordena primero según una columna de índice de fechas que usted selecciona. Una vez ordenados, los datos retenidos se separan del resto de los datos de entrenamiento. Estos datos retenidos contienen los datos más recientes con respecto a su índice seleccionado.
El método basado en el tiempo se utiliza para crear modelos que tienen en cuenta el tiempo. El entrenamiento en tiempo real se activa en Optimización del modelo en el panel de configuración del experimento. Para más información, vea Configurar experimentos.
Validación cruzada
La validación cruzada es un proceso que prueba la capacidad de un modelo de aprendizaje automático para predecir valores futuros en datos que aún no ha visto. En la validación cruzada, los datos de entrenamiento de un modelo se dividen en varios segmentos, llamados pliegues. En cada iteración del entrenamiento, el modelo se entrena en uno o más pliegues, y siempre se evita que al menos uno de los pliegues se use para el entrenamiento. Después de cada iteración, se evalúa el rendimiento utilizando uno de los pliegues que se impidió utilizar en el entrenamiento.
El resultado de la validación cruzada es un conjunto de métricas de prueba que brindan un pronóstico razonable de la precisión con la que el modelo entrenado podrá predecir datos que nunca antes había visto.
En Qlik AutoML, existen dos métodos de validación cruzada: el método predeterminado y el método basado en el tiempo.
Validación cruzada predeterminada
A menos que configure el entrenamiento para utilizar la validación cruzada basada en el tiempo, Qlik AutoML utiliza el método predeterminado de validación cruzada. El método predeterminado de validación cruzada es adecuado para modelos que no dependen de una dimensión de serie temporal, es decir, no es necesario que el modelo realice predicciones teniendo en cuenta una columna específica basada en el tiempo en los datos de entrenamiento.
En el método predeterminado de validación cruzada, el conjunto de datos se divide aleatoriamente en una cantidad de segmentos pares llamados pliegues. El algoritmo de aprendizaje automático entrena el modelo en todos los pliegues menos uno. A continuación, la validación cruzada prueba cada pliegue contra un modelo entrenado en todos los demás pliegues. Esto significa que cada modelo entrenado se prueba en un segmento de los datos que nunca antes se había visto. El proceso se repite con un pliegue diferente que se oculta durante el entrenamiento y luego se prueba hasta que todos los pliegues se hayan usado exactamente una vez como prueba y se hayan entrenado durante cada iteración.
Retención automática y validación cruzada predeterminada
De forma predeterminada, AutoML utiliza una validación cruzada cinco veces durante el entrenamiento del modelo para simular el rendimiento del modelo. Luego, el modelo se prueba con una retención aparte, distinta de los datos de entrenamiento. Esto genera métricas de puntuación que le permiten evaluar y comparar qué tal funcionan los diferentes algoritmos.
Antes de que comience el entrenamiento de su experimento, todos los datos en su conjunto de datos que tienen un objetivo no nulo se mezclan aleatoriamente. El 20 por ciento de su conjunto de datos se extrae como datos retenidos. El 80 por ciento restante del conjunto de datos se utiliza para entrenar el modelo con validación cruzada.
Para preparar la validación cruzada, el conjunto de datos se divide en cinco partes (pliegues) al azar. Luego, el modelo se entrena cinco veces, reteniendo (ocultando) cada vez una quinta parte diferente de los datos, para probar cómo funciona el modelo. Las métricas de entrenamiento se generan durante la validación cruzada y son el promedio de los valores calculados.
Después del entrenamiento, el modelo se aplica a los datos retenidos. Debido a que el modelo no ha visto los datos reservados o retenidos durante el entrenamiento, a diferencia de los datos de validación cruzada, es ideal para validar el rendimiento del entrenamiento del modelo. Las métricas de retención se generan durante esta evaluación final del modelo.
Para obtener más información sobre las métricas utilizadas para analizar el rendimiento del modelo, consulte Revisar los modelos.
Validación cruzada basada en el tiempo
La validación cruzada basada en el tiempo es adecuada para entrenar su modelo para predecir datos a lo largo de una dimensión de series temporales. Por ejemplo, supongamos que desea predecir las ventas de su empresa para el mes siguiente, dado un conjunto de datos que contiene datos de ventas anteriores. Para utilizar la validación cruzada basada en el tiempo, tiene que haber una columna en sus datos de entrenamiento que contenga información sobre la fecha o la hora.
La validación cruzada basada en el tiempo se utiliza para crear modelos que tienen en cuenta el tiempo. El entrenamiento en tiempo real se activa en Optimización del modelo en el panel de configuración del experimento. Para más información, vea Configurar experimentos.
Con la validación cruzada basada en el tiempo, los modelos se entrenan para comprender mejor que están prediciendo datos de fechas futuras.
Al igual que el método predeterminado, la validación cruzada basada en el tiempo implica separar los datos de entrenamiento en pliegues que se utilizan tanto para el entrenamiento como para las pruebas. En ambos métodos, los modelos también se entrenan a lo largo de un número de iteraciones. Sin embargo, el método basado en el tiempo tiene varias diferencias con respecto al método predeterminado:
Los datos del entrenamiento se ordenan y organizan en pliegues a lo largo del índice de fechas que usted elija. Por el contrario, la validación cruzada predeterminada selecciona aleatoriamente qué filas se incluirán en un pliegue determinado.
La cantidad de pliegues que se utilizan como datos de entrenamiento aumenta gradualmente con cada iteración del entrenamiento. Esto significa que durante la primera iteración solo se puede utilizar el primer pliegue (el más antiguo) y las iteraciones posteriores contendrán gradualmente un mayor volumen de datos de entrenamiento, incluidos datos más recientes. El pliegue que se utiliza como datos de prueba varía con cada iteración.
Esto contrasta con el método predeterminado de validación cruzada, que utiliza un volumen fijo de datos para las divisiones de entrenamiento y prueba en cada iteración (es decir, cuatro pliegues para el entrenamiento y un pliegue para la prueba).
Como todo el conjunto de datos de entrenamiento se ordena según el índice seleccionado, los datos que se utilizan para probar el modelo entrenado son siempre más recientes (o igual de recientes) que los datos utilizados para entrenar el modelo. Los datos de retención automática que se utilizan para realizar las pruebas finales de rendimiento del modelo son siempre más recientes (o igual de recientes) que el resto del conjunto de datos de entrenamiento.
Por el contrario, la validación cruzada predeterminada puede provocar que los modelos se prueben en datos más antiguos que los datos de entrenamiento, lo que genera una fuga de datos.
Retención automática y validación cruzada basada en el tiempo
Este procedimiento muestra cómo se entrenan los modelos temporales. El proceso presenta diferencias y similitudes en comparación con el proceso predeterminado de validación cruzada.
Todos los datos de su conjunto de datos se ordenan según el índice de fechas que haya seleccionado. Incluye los datos de entrenamiento y los datos retenidos.
Antes de que comience el entrenamiento de su experimento, el 20% de su conjunto de datos se extrae como datos de reserva. Estos datos retenidos son los más recientes, o igual a, que el resto del conjunto de datos. El 80 por ciento restante del conjunto de datos se utiliza para entrenar el modelo con validación cruzada.
Para preparar la validación cruzada, los datos de entrenamiento ordenados se dividen en un número de pliegues. Con respecto al índice de fechas que seleccione, el primer pliegue contendría los registros más antiguos y el último los más recientes.
El modelo se entrena entonces a lo largo de cinco iteraciones. En cada iteración, la cantidad de datos de entrenamiento aumenta gradualmente. Con cada iteración, también aumenta la actualidad de los datos de entrenamiento incluidos. Las métricas de entrenamiento se generan durante la validación cruzada y son el promedio de los valores calculados.
Después del entrenamiento, el modelo se aplica a los datos retenidos. Dado que el modelo no ha visto los datos que se retuvieron o reservaron durante el entrenamiento, son ideales para validar el rendimiento del entrenamiento del modelo. Las métricas de retención se generan durante esta evaluación final del modelo.