Erstellen von zeitbezogenen Modellen
Mit zeitbezogenem Training können Sie Modelle erstellen, die in der Lage sind, Daten entsprechend einer zeitbasierten Spalte in Ihren Trainingsdaten vorherzusagen. Aktivieren Sie das zeitbezogene Training, wenn Sie Vorhersagen für ein Ziel treffen müssen, von dem bekannt ist, dass es von dieser zeitbezogenen Spalte beeinflusst wird.
Zeitbezogenes Training hilft, Datenlecks zu reduzieren, indem spezielle Datenverarbeitung auf die Trainingsdaten angewendet wird. Diese Verarbeitung ermöglicht es den Algorithmen für maschinelles Lernen, die Daten und den Vorhersagekontext in Abhängigkeit von einer bestimmten Datums- oder Zeitdimension besser zu interpretieren.
Um zeitbezogene Modelle zu trainieren, benötigen Sie eine Spalte im Trainingsdatensatz, die Daten für Datum oder Zeitstempel enthält. Diese Spalte ist der Datumsindex, der zum Sortieren des Datensatzes vor dem Training verwendet wird. Weitere Informationen zum Datumsindex finden Sie unter Anforderungen an den Datumsindex.
Verwendung
Zeitbezogenes Modelltraining ist ideal für Modelle, die Änderungen über eine Zeitmetrik hinweg vorhersagen, die bereits im Training vorhanden ist. Zum Beispiel:
-
Sie möchten Ihre Umsätze für den nächsten Monat vorhersagen und haben eine Spalte mit dem Transaktionsdatum in Ihrem Datensatz.
-
Sie möchten Metriken zu verspäteten Zustellungen vorhersagen und haben eine Spalte Zustelldatum in Ihrem Datensatz.
Überlegungen
Je nach Anwendungsfall kann Ihnen das zeitbezogene Modelltraining helfen, bessere Modelle zu erstellen. In anderen Fällen können Sie mit dem von AutoML bereitgestellten Standard-Trainingsprozess bessere Ergebnisse erzielen. Wenn Ihre Daten in erheblichem Maße von einer bestimmten zeitbasierten Spalte abhängen, wird im Allgemeinen empfohlen, zeitbezogenes Modelltraining zu verwenden.
In Qlik AutoML führt das zeitbezogene Training keine automatisierte Feature-Entwicklung („Feature Engineering“) durch, um verzögerte Features für Zeitreihenprobleme zu generieren. Für zeitbasierte Anwendungsfälle, die Feature-Entwicklung erfordern, wird empfohlen, die erforderliche Feature-Entwicklung in der Phase der Datensatzvorbereitung durchzuführen.
Wie funktioniert zeitbezogenes Training?
Ein häufiges Problem beim maschinellen Lernen besteht darin, sicherzustellen, dass Modelle nur mit Informationen trainiert werden, die zum Zeitpunkt des Trainings verfügbar sind. Wenn Ihre Trainingsdaten prominente Datums- und Uhrzeitinformationen enthalten, können diese Informationen dazu beitragen, Datenlecks zu vermeiden.
Anforderungen an den Datumsindex
Um das zeitbezogene Training zu aktivieren, benötigen Sie eine Spalte in Ihrem Datensatz, die die Informationen zu Datum und Uhrzeit enthält, von denen das Modelltraining abhängt. Sie wählen die Spalte beim Konfigurieren der Modelloptimierung für das Training aus.
Um eine Spalte als Datumsindex im Training zu verwenden, muss die Spalte alle der folgenden Merkmale aufweisen:
-
Vollständige Datumsangaben. Sie können beispielsweise keine Spalten verwenden, die aus Monats- oder Tageswerten bestehen.
-
Datentyp des Datums oder des Zeitstempels.
-
Datums-Feature-Typ.
Holdout und Kreuzvalidierung
Bei der Auswahl, wie die Daten für den Holdout- und Kreuzvalidierungsprozess getrennt werden, können bei Methoden mit zufälliger Auswahl zukünftige Daten in das Modelltraining einbezogen werden. Wenn Sie das zeitbezogene Training aktivieren, verwendet AutoML stattdessen den folgenden Prozess:
-
Der Datensatz wird gemäß der von Ihnen ausgewählten Indexspalte sortiert, bevor er in Trainings- und Holdout-Daten unterteilt wird.
-
Bei jeder Iteration des Trainings wird eine feste Testgröße und eine allmählich ansteigende Trainingsgröße verwendet. Mit jeder Iteration werden die Daten aktueller.
Alle Einzelheiten finden Sie unter Zeitbasierte Kreuzvalidierung.
Weitere Verarbeitung
Beim zeitbezogenen Modelltraining werden noch weitere Prozesse verwendet, die sich von den Standardtrainingsprozessen unterscheiden. Zum Beispiel wird beim zeitbezogenen Training ein modifiziertes Verfahren für die Null-Imputation verwendet. Weitere Informationen finden Sie unter Imputation von Nullwerten.
Aktivieren des zeitbezogenen Trainings
Das zeitbezogene Modelltraining kann für jede Version, die Sie in einem Experiment ausführen, aktiviert, deaktiviert oder neu konfiguriert werden.
Gehen Sie folgendermaßen vor:
-
Klicken Sie in einem Experiment auf Konfiguration anzeigen.
-
Falls Sie bereits mindestens eine Version des Experiments ausgeführt haben, klicken Sie auf Neue Version.
-
Erweitern Sie im Fensterbereich die Option Modelloptimierung.
-
Wählen Sie unter Zeitbasierter Test-Train-Split den Datumsindex aus, der für die Sortierung der Daten verwendet werden soll.
Sie können das zeitbezogene Training während der Modellverfeinerung ändern. Sie können die Einstellung zum Beispiel deaktivieren oder eine neue Spalte als Datumsindex auswählen. Weitere Informationen finden Sie unter Verfeinern von Modellen.