Automatische technische Planung von Features
Mit der automatischen technischen Planung von Features („Feature Engineering“) kann Qlik AutoML vorhandene Features in Ihren Trainingsdaten zum Erstellen neuer Features nutzen. Diese automatisch erstellten neuen Features ermöglichen es Ihnen, neue Muster in Ihren Daten zu ausfindig zu machen, und können die Leistung Ihrer Modelle für maschinelles Lernen deutlich steigern.
Feature Engineering ist der Prozess der Erstellung neuer Featurespalten anhand aktueller Spalten. AutoML kann Feature Engineering für eine verbesserte Bearbeitung bestimmter Datentypen automatisch durchführen. Allgemeine Informationen zum Feature Engineering finden Sie unter Erstellen neuer Featurespalten.
Automatisch erstellte Datums-Features und die übergeordneten Features, aus denen sie abgeleitet sind, werden mit einem -Symbol gekennzeichnet.
Nachdem Sie einen Datensatz ausgewählt haben, der in Ihrem Experiment verwendet werden soll, wird der Datensatz analysiert und die Spalten darin werden als Spalten mit bestimmten Datentypen identifiziert. Mit diesen Datentypen kann AutoML jeder Spalte im Datensatz einen Feature-Typ zuweisen. Jede Spalte erhält einen der folgenden Feature-Typen:
-
Kategorial
-
Numerisch
-
Datum
-
Freitext
Nach Möglichkeit zeigt AutoML eine Liste automatisch erstellter Features an, die aus berechtigten übergeordneten Features erstellt werden können. Diese Liste automatisch erstellter Features wird weiter verfeinert und reduziert, sobald die Vorverarbeitung beginnt. Die Einbeziehung automatisch erstellter Features in Ihrem Experiment ist empfohlen, aber nicht zwingend notwendig. Sie können individuelle, automatisch erstellte Features entfernen, bevor Sie das Training beginnen und während die Konfiguration jeder neuen Experimentversion läuft.
Weitere Informationen zu Vorgängen, die vor Beginn des Experimenttrainings abgeschlossen werden, finden Sie unter Automatische Datenvorbereitung und -umwandlung.
Technische Planung des Datums-Features
AutoML erstellt automatisch erstellte Features aus berechtigten Spalten mit dem Feature-Typ „Datum“, die als Spalten mit Datums- und Uhrzeitinformationen identifiziert wurden. Automatisch erstellte Datums-Features und die übergeordneten Features, aus denen sie abgeleitet sind, werden mit einem -Symbol gekennzeichnet.
Wenn Qlik Cloud Analytics den Trainings-Datensatz profiliert, den Sie für die Nutzung in AutoML ausgewählt haben, verknüpft es bestimmte Datentypen mit dem Feature-Typ „Datum“. Dies umfasst folgende Datentypen:
-
Datum
-
Datum und Uhrzeit
-
Uhrzeit
-
Zeitstempel
Features, die beliebigen dieser Datentypen während der Profilerstellung zugewiesen werden, erhalten den Feature-Typ „Datum“. Informationen zu den verfügbaren Profilstatistiken, die für Ihre Datenfelder angezeigt werden können, finden Sie unter Listenansicht des Profils.
Nach Möglichkeit zeigt AutoML eine Liste automatisch erstellter Datums-Features an, die aus berechtigten übergeordneten Features erstellt werden können, welche den Feature-Typ „Datum“ besitzen. Automatisch erstellte Datums-Features sind im Experiment standardmäßig enthalten. Wenn Sie sich dafür entscheiden, sie miteinzubeziehen, werden die neuen Features nach v1 des Experiments erzeugt.
Automatisch erstellte Datums-Features haben den Feature-Typ „Numerisch“. Sie sind standardmäßig im Experiment enthalten, sind jedoch optional. Sie können einige oder alle davon entfernen, bevor Sie das Experimenttraining beginnen oder wenn Sie die nächste Experimentversion konfigurieren. Wenn automatisch erstellte Datums-Features miteinbezogen werden, wird das ursprüngliche übergeordnete Datums-Feature aus dem Experiment entfernt.
Stattdessen können Sie das übergeordnete Datums-Feature als kategoriales oder numerisches Feature einschließen. Wenn Sie dies tun, sind die automatisch erstellten Datums-Features nicht mehr nutzbar. In den meisten Fällen wird empfohlen, verfügbare automatisch erstellte Features in Ihrem Experiment zu nutzen, da sie die Leistung Ihrer Modelle für maschinelles Lernen steigern. Es kann jedoch Szenarien geben, in denen eine Spalte als Datums-Feature identifiziert wird, aber als kategoriales oder numerisches Feature behandelt werden muss. In diesen Fällen können Sie den Featuretyp manuell ändern.
Automatisch erstellte Datums-Features zählen nicht zur AutoML-Datensatzgröße (maximale Zellenanzahl in Trainingsdatensätzen und Anwendungsdatensätzen), die in Ihrem Qlik Cloud-Abonnement angegeben ist. Es werden nur die ursprünglichen Datums-Spaltenzellen gezählt.
Nutzung von Datums-Features als Experimentziel
In dem seltenen Fall, in dem Sie ein Feature mit Datums- und Uhrzeitinformationen als Ziel Ihres Experiments nutzen möchten, wird der Feature-Typ der Spalte von „Datum“ auf „Kategorial“ umgestellt, und die automatisch erstellten Features werden entfernt. Wenn Sie ein anderes Ziel auswählen und dann später das Datums- und Uhrzeit-Feature als reguläres Feature hinzufügen möchten, müssen Sie es, falls nötig, manuell wieder auf den Feature-Typ „Datum“ umstellen. Falls Sie das Feature wieder auf den Feature-Typ „Datum“ umstellen, werden die automatisch erstellten Datums-Features erneut erzeugt.
Weitere Informationen zum Ändern der Feature-Typen finden Sie unter Ändern der Feature-Typen.
Verfügbare automatisch erstellte Datums-Features
Beim Erzeugen von automatisch erstellten Datums-Features von einer Spalte in Ihrem Datensatz extrahiert und berechnet AutoML spezifische Komponenten jedes Datums- und Datum-Uhrzeit-Werts und isoliert dabei jede Komponente in ihrer eigenen Spalte. Die Tabelle unten listet die automatisch erstellten Features auf, die von AutoML erzeugt werden können.
Automatisch erstelltes Feature | Datentyp | Feature-Typ | Beschreibung |
---|---|---|---|
YEAR | Ganze Zahl | Numerisch | Jahresfeld, das direkt aus dem Quelldatum- oder -zeitstempel analysiert wird. |
MONTH | Ganze Zahl | Numerisch | Monatsfeld, das direkt aus dem Quelldatum- oder -zeitstempel analysiert wird. |
DAY | Ganze Zahl | Numerisch | Tagesfeld, das direkt aus dem Quelldatum- oder -zeitstempel analysiert wird. |
HOUR | Ganze Zahl | Numerisch | Stundenfeld, das direkt aus dem Quelldatum- oder -zeitstempel analysiert wird. |
MINUTE | Ganze Zahl | Numerisch | Minutenfeld, das direkt aus dem Quelldatum- oder -zeitstempel analysiert wird. |
SECOND | Ganze Zahl | Numerisch | Sekundenfeld, das direkt aus dem Quelldatum- oder -zeitstempel analysiert wird. |
DAYOFWEEK | Ganze Zahl | Numerisch | Wochentag, der aus dem Quelltag, -monat und -jahr errechnet wird. |
WEEK | Ganze Zahl | Numerisch | Kalenderwoche, die aus dem Quelltag, -monat und -jahr errechnet wird. |
Für jedes neue Feature, das erstellt wird, wird dem ursprünglichen Spaltennamen das anwendbare, automatisch erstellte Feature angehängt.
Automatisch erstellte Datums-Features in Prognosen
Automatisch erstellte Datums-Features werden erzeugt, wenn der Trainings-Datensatz zur Erstellung eines Modells genutzt wird, das bereitgestellt und als ML-Bereitstellung zur Erstellung von Prognosen für neue Daten (dem Anwendungsdatensatz) verwendet wird.
Wenn ein Modell, das mit automatisch erstellten Datums-Features trainiert wurde, für die Erstellung von Prognosen bereitgestellt wird, muss der Anwendungsdatensatz, anhand dessen Sie Prognosen erzeugen, die automatisch erstellten Datums-Features nicht enthalten. AutoML erzeugt die automatische erstellten Features für den Anwendungsdatensatz vor der Prognose. Jedoch muss der Anwendungsdatensatz das übergeordnete Datums-Feature enthalten, und die Spalte muss so profiliert worden sein, dass sie den Datentyp Datum, Datum/Uhrzeit, Zeitstempel oder Uhrzeit haben.
Die Prognosedatensätze, die von einer ML-Bereitstellung erstellt wurden, einschließlich SHAP und Anwendungsdatensätze, enthalten die automatisch erstellten Datums-Features.
Automatisch erstellte Datums-Features in Echtzeit-Prognosen
Damit die Echtzeit-Prognose-API Ihre Datums- und Zeitstempel-Felder verarbeiten kann, muss die JSON-Nutzlast, die Sie an die Echtzeit-Prognose-API senden, die folgenden Anforderungen erfüllen:
-
Datums- und Datum-/Uhrzeit-Werte müssen Zeichenketten sein, die nach den ISO 8601-Standards formatiert sind.
-
Daten in jeder Spalte müssen aus derselben Zeitzone stammen.
Handhabung von Freitextdaten
Freitext (z. B. in Formulare eingegebene Textstringdaten) erfordert eine besondere Verarbeitung durch ML-Algorithmen, um in einem Modell sinnvoll verwendet werden zu können. In Qlik AutoML ist die Freitextverarbeitung eine Art des automatischen Feature Engineering. In technischer Hinsicht nutzt diese Verarbeitung die TF-IDF-Methode (Term Frequency – Inverse Document Frequency).
AutoML unterstützt die separate Verarbeitung von Features mit Freitextdaten auf Englisch.
Wenn eine Spalte in Ihren Trainingsdaten Freitext enthält, wird ihr der Feature-Typ „Freitext“ zugewiesen. Sie kann auch als kategoriales Feature verwendet werden, wovon aber dringend abgeraten wird, wenn sie eine hohe Kardinalität aufweist (zu viele eindeutige Werte).
In einem Experiment können Sie maximal drei Spalten als Freitext-Features auswählen.
Anforderung für die Freitext-Codierung
Damit eine Spalte mit Freitext erfolgreich als Freitext codiert werden kann, muss sie zwei Anforderungen erfüllen. Diese Anforderungen werden in verschiedenen Phasen der Experimenterstellung geprüft.
Die Voraussetzungen sind:
-
Die Spalte muss eine durchschnittliche Zeichenlänge von 50 oder mehr Zeichen haben.
-
Die Spalte muss eine durchschnittliche Wortlänge von fünf oder mehr Wörtern haben.
Behandlung eines Features als Freitext
Der Prozess der Behandlung eines Features als Freitext läuft wie folgt ab:
-
Wenn Sie Ihre Trainingsdaten auswählen, identifiziert Qlik AutoML Features, die möglicherweise als Freitext verarbeitet werden können. Sie sind in der Schemaansicht mit dem Einblick Möglicher Freitext markiert und weisen den Freitext-Feature-Typ auf.
-
Nachdem Sie v1 des Experiments ausgeführt haben, werden zusätzliche Analysen vorgenommen. Zu diesem Zeitpunkt kann sich herausstellen, dass Features, die anfänglich als möglicher Freitext markiert wurden, nicht als Freitext-Features geeignet sind.
Wenn Features, die nicht als Freitext geeignet sind, eine hohe Kardinalität aufweisen, wird empfohlen, sie für das Experiment abzuwählen. Wenn diese Features als kategorial behandelt werden, tragen sie nichts zur Modellleistung bei.
Wenn die Features, die nicht als Freitext geeignet sind, keine hohe Kardinalität aufweisen, können Sie sie in das Experiment einschließen, indem Sie auf Als kategorial behandeln klicken oder ihren Feature-Typ von „Freitext“ zu „Kategorial“ ändern. Wenn Sie den Feature-Typ als Freitext belassen, wird er intern auch als kategorial behandelt und es wird Impact Encoding darauf angewendet.
Genaue Einzelheiten zur Vorverarbeitung finden Sie unter Automatische Datenvorbereitung und -umwandlung.
Weitere Informationen zu den einzelnen in der Schemaansicht gezeigten Einblicken finden Sie unter Anzeigen von Einblicken in die Trainingsdaten.
Nutzung von Freitext-Features als Experimentziel
In seltenen Fällen kann ein Freitext-Feature als Ziel ausgewählt werden. Wenn das Feature alle Anforderungen für Freitext-Codierung erfüllt und zwei bis zehn eindeutige Werte enthält, kann es als Ziel verwendet werden. In diesen Szenarios ist das Experiment als Standard-Binärklassifikations- oder als Mehrklassen-Klassifikationsaufgabe definiert.
Freitext-Features in Vorhersagen
Wenn Sie ein Modell bereitstellen, das mit einem Freitext-Feature trainiert wurde, kann die daraus entstandene ML-Bereitstellung Vorhersagen generieren, vorausgesetzt, die folgenden Voraussetzungen sind für den Anwendungsdatensatz erfüllt:
-
Die Spaltennamen des Features stimmen zwischen dem Trainingsdatensatz und dem Anwendungsdatensatz überein.
-
Die Spalte im Anwendungsdatensatz, die dem Freitext-Feature in den Trainingsdaten entspricht, enthält Stringdaten.
Überlegungen
Wenn Sie Freitext-Features in das Experiment einschließen, erhöht sich die Komplexität des Experiments und der für die Ausführung erforderlichen Prozesse. Es kann vorkommen, dass für die daraus entstandenen Modelle keine Permutation Importance-Diagramme verfügbar sind, wenn Ihre Freitextdaten entsprechend komplex sind.
Fehlerbehebung
Die Verwendung von Freitextdaten zum Trainieren eines Modells kann sehr ressourcenintensiv sein. Möglicherweise tritt ein Fehler auf, wenn Sie Freitextspalten mit einer großen Anzahl eindeutiger Wörter als Features einschließen.
Beachten Sie die folgenden Richtlinien für die Behebung dieser Fehler:
-
Reduzieren Sie den Datenteilsatz in Ihrem Trainingsdatensatz auf weniger Zeilen Freitext.
-
Entfernen Sie Freitext-Features, die im Modelltraining nicht benötigt werden.
-
Behandeln Sie eine oder mehrere Freitextspalten als kategoriale anstelle von Freitext-Features. Beachten Sie, dass dieses Vorgehen nicht empfohlen wird, wenn die betreffenden Freitext-Features hohe Kardinalität aufweisen.