Création de modèles temporels
Grâce à l'apprentissage temporel, vous pouvez créer des modèles capables de prédire des données en fonction d'une colonne basée sur le temps qui existe dans vos données d'apprentissage. Activez l'apprentissage temporel si vous devez faire des prédictions sur une cible connue pour être impactée par cette colonne basée sur le temps.
L'apprentissage temporel permet de réduire les fuites de données en appliquant un traitement de données spécialisé aux données d'apprentissage. Ce traitement permet aux algorithmes d'apprentissage automatique de mieux interpréter les données et le contexte prédictif en fonction d'une dimension de date ou d'heure spécifique.
Pour effectuer l'apprentissage de modèles temporels, vous devez avoir dans votre jeu de données une colonne contenant des données de date ou d'horodatage. Cette colonne est l'index de date utilisé pour trier le jeu de données avant l'apprentissage. Pour plus d'informations sur l'index de date, consultez Exigences en matière d'index de date.
Cas d'utilisation
L'apprentissage de modèles temporel est idéal pour les modèles qui projettent des changements sur une métrique temporelle déjà présente dans l'apprentissage. Par exemple :
-
Vous souhaitez prédire vos ventes pour le mois prochain et vous disposez d'une colonne Transaction Date (Date de transaction) dans votre jeu de données.
-
Vous souhaitez prédire des métriques sur les livraisons en retard et vous disposez d'une colonne Delivery Date (Date de livraison) dans votre jeu de données.
Considérations
Suivant votre cas d'utilisation, l'apprentissage de modèles temporel peut vous aider à créer de meilleurs modèles. Dans d'autres cas, vous obtiendrez peut-être de meilleurs résultats avec le processus d'apprentissage par défaut fourni par AutoML. De manière générale, si vos données dépendent en grande partie d'une colonne spécifique basée sur le temps, il est recommandé d'utiliser l'apprentissage de modèles temporel.
Dans Qlik AutoML, l'apprentissage temporel n'effectue pas d'ingénierie automatique des caractéristiques pour générer des caractéristiques tardives pour les problèmes de série chronologique. Pour les cas d'utilisation basés sur le temps qui nécessitent l'ingénierie des caractéristiques, il est recommandé d'effectuer toute ingénierie des caractéristiques requise lors de la phase de préparation du jeu de données.
Fonctionnement de l'apprentissage temporel
Un problème souvent rencontré lors de l'apprentissage automatique consiste à trouver un moyen de s'assurer que l'apprentissage des modèles est effectué uniquement sur des informations disponibles au moment de l'apprentissage. Si vos données d'apprentissage contiennent des informations de date et d'heure importantes, ces informations peuvent être utilisées pour aider à prévenir les fuites de données.
Exigences en matière d'index de date
Pour activer l'apprentissage temporel, vous devez disposer dans votre jeu de données d'une colonne contenant les informations de date et d'heure dont dépend l'apprentissage du modèle. Vous sélectionnez la colonne lors de la configuration de l'optimisation du modèle pour l'apprentissage.
Pour pouvoir utiliser une colonne comme index de date lors de l'apprentissage, il faut que la colonne remplisse l'ensemble des conditions suivantes :
-
Dates complètes. Par exemple, les colonnes composées de valeurs de mois ou de jour ne peuvent pas être utilisées.
-
Données de type Date ou Horodatage.
-
Caractéristique de type Date.
Rétention et validation croisée
Lors du choix de la manière dont les données sont séparées pour le processus de rétention et de validation croisée, les méthodes de sélection aléatoire peuvent introduire des données futures dans l'apprentissage du modèle. Lorsque vous activez l'apprentissage temporel, AutoML utilise à la place le processus suivant :
-
Le jeu des données d'apprentissage est trié en fonction de la colonne d'index sélectionnée avant d'être séparé en données d'apprentissage et de rétention.
-
Chaque itération de l'apprentissage utilise une taille de test fixe et une taille d'apprentissage en augmentation progressive. À chaque itération, les données deviennent de plus en plus récentes.
Pour des détails complets, consultez Validation croisée basée sur le temps.
Autre traitement
L'apprentissage de modèles temporel utilise également d'autres processus qui sont différents des processus d'apprentissage par défaut. Par exemple, l'apprentissage temporel utilise un processus modifié pour l'imputation des valeurs nulles. Pour plus d'informations, consultez Imputation des valeurs nulles.
Activation de l'apprentissage temporel
L'apprentissage de modèles temporel peut être activé ou désactivé, ou encore reconfiguré, pour chaque version exécutée dans une expérimentation.
Procédez comme suit :
-
Dans une expérimentation, cliquez sur Afficher la configuration.
-
Si vous avez déjà exécuté au moins une version de l'expérimentation, cliquez sur Nouvelle version.
-
Dans le panneau, développez Optimisation du modèle.
-
Sous Test-train split basé sur le temps, sélectionnez l'Index de date à utiliser pour trier les données.
Vous pouvez modifier l'apprentissage temporel lors de l'affinement du modèle. Vous pouvez, par exemple, désactiver le paramètre ou sélectionner une nouvelle colonne comme index de date. Pour plus d'informations, consultez Affinement des modèles.