Saltar al contenido principal Saltar al contenido complementario

Crear modelos en función del tiempo

Con el entrenamiento en función del tiempo, puede crear modelos que estén equipados para predecir datos a lo largo de una columna basada en el tiempo que existe en sus datos de entrenamiento. Active el entrenamiento en función del tiempo si necesita realizar predicciones sobre un objetivo que se sabe que se verá afectado por esta columna basada en el tiempo.

El entrenamiento en función del tiempo ayuda a reducir la fuga de datos aplicando un procesamiento de datos especializado a los datos del entrenamiento. Este procesamiento permite a los algoritmos de aprendizaje automático interpretar mejor los datos y el contexto predictivo, como dependientes de una dimensión específica de fecha u hora.

Para entrenar modelos que tengan en cuenta el tiempo, se necesita una columna en el conjunto de datos de entrenamiento que contenga datos de fecha o fecha-hora. Esta columna es el índice de fechas que se utiliza para ordenar el conjunto de datos antes del entrenamiento. Para más información sobre el índice de fechas, consulte Requisitos del índice de fechas.

Cuándo se utiliza

El entrenamiento de modelos basado en el tiempo es ideal para modelos que prevén cambios en una métrica temporal que ya está presente en el entrenamiento. Por ejemplo:

  • Desea predecir las ventas del mes que viene y tiene una columna de Fecha de transacción en el conjunto de datos.

  • Le gustaría predecir métricas sobre entrega tardía de pedidos y tiene una columna Fecha de entrega en su conjunto de datos.

Consideraciones

Dependiendo de su caso de uso, el entrenamiento de modelos basado en el tiempo podría ayudarle a crear mejores modelos. En otros casos, es posible que obtenga mejores resultados con el proceso de el entrenamiento predeterminado proporcionado por AutoML. Generalmente, si sus datos dependen de una columna específica basada en el tiempo de forma significativa, se recomienda que utilice el entrenamiento de modelos basado en el tiempo.

En Qlik AutoML, el entrenamiento basado en el tiempo no realiza ingeniería automatizada de características para generar características de retardo para problemas de series temporales. Para los casos de uso basados en el tiempo que requieren ingeniería de características, se recomienda realizar cualquier ingeniería de características necesaria durante la etapa de preparación del conjunto de datos.

¿Cómo funciona el entrenamiento basado en el tiempo?

Un problema común en el aprendizaje automático es encontrar una manera de asegurarse de que los modelos se entrenan solo en la información que estaría disponible en el momento del entrenamiento. Si sus datos del entrenamiento contienen información destacada sobre la fecha y hora, esta información puede utilizarse para prevenir la fuga de datos.

Requisitos del índice de fechas

Para activar el entrenamiento basado en el tiempo, debe tener una columna en su conjunto de datos que contenga la información de fecha y hora de la que depende el entrenamiento del modelo. Seleccione la columna al configurar la optimización del modelo para el entrenamiento.

Para utilizar una columna como índice de fechas en su entrenamiento, la columna debe tener todo lo siguiente:

  • Fechas completas. Por ejemplo, no se pueden utilizar columnas formadas por valores de meses o días.

  • Tipo de datos de fecha u hora.

  • Tipo de función de fecha.

Retención y validación cruzada

Al elegir cómo se separan los datos para el proceso de retención y validación cruzada, los métodos de selección aleatoria pueden introducir datos futuros en el entrenamiento del modelo. Al activar el entrenamiento basado en el tiempo, AutoML utiliza en su lugar el siguiente proceso:

  • El conjunto de datos de entrenamiento se ordena a lo largo de la columna de índice seleccionada antes de separarse en datos de entrenamiento y datos retenidos.

  • En cada iteración del entrenamiento se utiliza un tamaño de prueba fijo y un tamaño de entrenamiento que aumenta gradualmente. Con cada iteración, los datos son cada vez más recientes.

Para ver los detalles completos, consulte Validación cruzada basada en el tiempo.

Otro procesamiento

El entrenamiento del modelo basado en el tiempo también utiliza otros procesos que son diferentes de los procesos de entrenamiento predeterminados. Por ejemplo, el entrenamiento basado en el tiempo utiliza un proceso modificado para la imputación de nulos. Para más información, vea Imputación de nulos.

Activar el entrenamiento basado en el tiempo

El entrenamiento del modelo basado en el tiempo puede activarse o desactivarse, o reconfigurarse, para cada versión que se ejecute en un experimento.

  1. En un experimento, haga clic en Esquema Ver configuración.

  2. Si ya ha realizado al menos una versión del experimento, haga clic en Nueva versión.

  3. En el panel, expanda Optimización del modelo.

  4. En la División prueba-entrenamiento basada en el tiempo, seleccione el índice de fechas que se utilizará para ordenar los datos.

Puede cambiar el entrenamiento basado en el tiempo durante el perfeccionamiento del modelo. Por ejemplo, puede desactivar la configuración o seleccionar una nueva columna como índice de fechas. Para más información, vea Perfeccionamiento de los modelos.

¿Esta página le ha sido útil?

No dude en indicarnos en qué podemos mejorar si encuentra algún problema en esta página o su contenido, como, por ejemplo, errores tipográficos, pasos que falta o errores técnicos.