Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Automatische technische Planung von Features

Mit der automatischen technischen Planung von Features („Feature Engineering“) kann Qlik AutoML vorhandene Features in Ihren Trainingsdaten zum Erstellen neuer Features nutzen. Diese automatisch erstellten neuen Features ermöglichen es Ihnen, neue Muster in Ihren Daten zu ausfindig zu machen, und können die Leistung Ihrer Modelle für maschinelles Lernen deutlich steigern.

Feature Engineering ist der Prozess der Erstellung neuer Featurespalten anhand aktueller Spalten. AutoML kann Feature Engineering für eine verbesserte Bearbeitung bestimmter Datentypen automatisch durchführen. Allgemeine Informationen zum Feature Engineering finden Sie unter Erstellen neuer Featurespalten.

Automatisch erstellte Datums-Features und die übergeordneten Features, aus denen sie abgeleitet sind, werden mit einem Automatisch erstellt-Symbol gekennzeichnet.

Nachdem Sie einen Datensatz ausgewählt haben, der in Ihrem Experiment verwendet werden soll, wird der Datensatz analysiert und die Spalten darin werden als Spalten mit bestimmten Datentypen identifiziert. Mit diesen Datentypen kann AutoML jeder Spalte im Datensatz einen Feature-Typ zuweisen. Jede Spalte erhält einen der folgenden Feature-Typen:

  • Kategorial

  • Numerisch

  • Datum

  • Freitext

Nach Möglichkeit zeigt AutoML eine Liste automatisch erstellter Features an, die aus berechtigten übergeordneten Features erstellt werden können. Diese Liste automatisch erstellter Features wird weiter verfeinert und reduziert, sobald die Vorverarbeitung beginnt. Die Einbeziehung automatisch erstellter Features in Ihrem Experiment ist empfohlen, aber nicht zwingend notwendig. Sie können individuelle, automatisch erstellte Features entfernen, bevor Sie das Training beginnen und während die Konfiguration jeder neuen Experimentversion läuft.

Weitere Informationen zu Vorgängen, die vor Beginn des Experimenttrainings abgeschlossen werden, finden Sie unter Automatische Datenvorbereitung und -umwandlung.

Technische Planung des Datums-Features

AutoML erstellt automatisch erstellte Features aus berechtigten Spalten mit dem Feature-Typ „Datum“, die als Spalten mit Datums- und Uhrzeitinformationen identifiziert wurden. Automatisch erstellte Datums-Features und die übergeordneten Features, aus denen sie abgeleitet sind, werden mit einem Automatisch erstellt-Symbol gekennzeichnet.

Wenn Qlik Cloud Analytics den Trainings-Datensatz profiliert, den Sie für die Nutzung in AutoML ausgewählt haben, verknüpft es bestimmte Datentypen mit dem Feature-Typ „Datum“. Dies umfasst folgende Datentypen:

  • Datum

  • Datum und Uhrzeit

  • Uhrzeit

  • Zeitstempel

Features, die beliebigen dieser Datentypen während der Profilerstellung zugewiesen werden, erhalten den Feature-Typ „Datum“. Informationen zu den verfügbaren Profilstatistiken, die für Ihre Datenfelder angezeigt werden können, finden Sie unter Listenansicht des Profils.

Nach Möglichkeit zeigt AutoML eine Liste automatisch erstellter Datums-Features an, die aus berechtigten übergeordneten Features erstellt werden können, welche den Feature-Typ „Datum“ besitzen. Automatisch erstellte Datums-Features sind im Experiment standardmäßig enthalten. Wenn Sie sich dafür entscheiden, sie miteinzubeziehen, werden die neuen Features nach v1 des Experiments erzeugt.

InformationshinweisEs wird empfohlen, die vor dem 29. August 2023 trainierten Modelle neu zu trainieren, falls sie Features mit Daten oder Zeitstempeln enthalten.

Automatisch erstellte Datums-Features haben den Feature-Typ „Numerisch“. Sie sind standardmäßig im Experiment enthalten, sind jedoch optional. Sie können einige oder alle davon entfernen, bevor Sie das Experimenttraining beginnen oder wenn Sie die nächste Experimentversion konfigurieren. Wenn automatisch erstellte Datums-Features miteinbezogen werden, wird das ursprüngliche übergeordnete Datums-Feature aus dem Experiment entfernt.

Sie können stattdessen das übergeordnete Datums-Feature in das Experiment einbeziehen. Wenn Sie sich dafür entscheiden, wird der Feature-Typ des übergeordneten Features von „Datum“ auf „Kategorial“ umgestellt, und die automatisch erstellten Datums-Features sind nicht mehr nutzbar. Es wird empfohlen, verfügbare, automatisch erstellte Features in Ihrem Experiment zu nutzen, da sie über eine verbesserte Leistung in Ihren Modellen für maschinelles Lernen verfügen.

Automatisch erstellte Datums-Features zählen nicht zur AutoML-Datensatzgröße (maximale Zellenanzahl in Trainingsdatensätzen und Anwendungsdatensätzen), die in Ihrem Qlik Cloud-Abonnement angegeben ist. Es werden nur die ursprünglichen Datums-Spaltenzellen gezählt.

Schemaansicht mit automatisch erstellten Features, die von einem übergeordneten Datums-Feature „Rechnungsdatum“ erzeugt werden können. Achten Sie auf den Unterschied zwischen dem Datentyp und dem Feature-Typ jedes Features.

Schemaansicht beim Experimenttraining, die das übergeordnete Feature zeigt, welches als Datums-Feature mit den möglichen, automatisch erstellten Features ermittelt wird, die davon erstellt werden können.

Nutzung von Datums-Features als Experimentziel

In dem seltenen Fall, in dem Sie ein Feature mit Datums- und Uhrzeitinformationen als Ziel Ihres Experiments nutzen möchten, wird der Feature-Typ der Spalte von „Datum“ auf „Kategorial“ umgestellt, und die automatisch erstellten Features werden entfernt. Wenn Sie ein anderes Ziel auswählen und dann später das Datums- und Uhrzeit-Feature als reguläres Feature hinzufügen möchten, müssen Sie es, falls nötig, manuell wieder auf den Feature-Typ „Datum“ umstellen. Falls Sie das Feature wieder auf den Feature-Typ „Datum“ umstellen, werden die automatisch erstellten Datums-Features erneut erzeugt.

Weitere Informationen zum Ändern der Feature-Typen finden Sie unter Ändern der Feature-Typen.

Verfügbare automatisch erstellte Datums-Features

Beim Erzeugen von automatisch erstellten Datums-Features von einer Spalte in Ihrem Datensatz extrahiert und berechnet AutoML spezifische Komponenten jedes Datums- und Datum-Uhrzeit-Werts und isoliert dabei jede Komponente in ihrer eigenen Spalte. Die Tabelle unten listet die automatisch erstellten Features auf, die von AutoML erzeugt werden können.

Liste der automatisch erstellten Features, die von einem Datums- und Uhrzeit-Features abgeleitet werden können
Automatisch erstelltes Feature Datentyp Feature-Typ Beschreibung
YEAR Ganze Zahl Numerisch Jahresfeld, das direkt aus dem Quelldatum- oder -zeitstempel analysiert wird.
MONTH Ganze Zahl Numerisch Monatsfeld, das direkt aus dem Quelldatum- oder -zeitstempel analysiert wird.
DAY Ganze Zahl Numerisch Tagesfeld, das direkt aus dem Quelldatum- oder -zeitstempel analysiert wird.
HOUR Ganze Zahl Numerisch Stundenfeld, das direkt aus dem Quelldatum- oder -zeitstempel analysiert wird.
MINUTE Ganze Zahl Numerisch Minutenfeld, das direkt aus dem Quelldatum- oder -zeitstempel analysiert wird.
SECOND Ganze Zahl Numerisch Sekundenfeld, das direkt aus dem Quelldatum- oder -zeitstempel analysiert wird.
DAYOFWEEK Ganze Zahl Numerisch Wochentag, der aus dem Quelltag, -monat und -jahr errechnet wird.
WEEK Ganze Zahl Numerisch Kalenderwoche, die aus dem Quelltag, -monat und -jahr errechnet wird.

Für jedes neue Feature, das erstellt wird, wird dem ursprünglichen Spaltennamen das anwendbare, automatisch erstellte Feature angehängt.

Automatisch erstellte Datums-Features im Fensterbereich für die Experimentkonfiguration

Abschnitt „Features“ im Fenster „Experimentkonfiguration“ mit automatisch erstellten Features.

Automatisch erstellte Datums-Features in Prognosen

Automatisch erstellte Datums-Features werden erzeugt, wenn der Trainings-Datensatz zur Erstellung eines Modells genutzt wird, das bereitgestellt und als ML-Bereitstellung zur Erstellung von Prognosen für neue Daten (dem Anwendungsdatensatz) verwendet wird.

Wenn ein Modell, das mit automatisch erstellten Datums-Features trainiert wurde, für die Erstellung von Prognosen bereitgestellt wird, muss der Anwendungsdatensatz, anhand dessen Sie Prognosen erzeugen, die automatisch erstellten Datums-Features nicht enthalten. AutoML erzeugt die automatische erstellten Features für den Anwendungsdatensatz vor der Prognose. Jedoch muss der Anwendungsdatensatz das übergeordnete Datums-Feature enthalten, und die Spalte muss so profiliert worden sein, dass sie den Datentyp Datum, Datum/Uhrzeit, Zeitstempel oder Uhrzeit haben.

Die Prognosedatensätze, die von einer ML-Bereitstellung erstellt wurden, einschließlich SHAP und Anwendungsdatensätze, enthalten die automatisch erstellten Datums-Features.

Automatisch erstellte Datums-Features in Echtzeit-Prognosen

Damit die Echtzeit-Prognose-API Ihre Datums- und Zeitstempel-Felder verarbeiten kann, muss die JSON-Nutzlast, die Sie an die Echtzeit-Prognose-API senden, die folgenden Anforderungen erfüllen:

  • Datums- und Datum-/Uhrzeit-Werte müssen Zeichenketten sein, die nach den ISO 8601-Standards formatiert sind.

  • Daten in jeder Spalte müssen aus derselben Zeitzone stammen.

InformationshinweisDie Daten, die Sie zum Trainieren Ihres Modells verwenden, müssen diese Anforderungen nicht erfüllen.

Handhabung von Freitextdaten

Freitext (z. B. in Formulare eingegebene Textstringdaten) erfordert eine besondere Verarbeitung durch ML-Algorithmen, um in einem Modell sinnvoll verwendet werden zu können. In Qlik AutoML ist die Freitextverarbeitung eine Art des automatischen Feature Engineering. In technischer Hinsicht nutzt diese Verarbeitung die TF-IDF-Methode (Term Frequency – Inverse Document Frequency).

AutoML unterstützt die separate Verarbeitung von Features mit Freitextdaten auf Englisch.

Wenn eine Spalte in Ihren Trainingsdaten Freitext enthält, wird ihr der Feature-Typ „Freitext“ zugewiesen. Sie kann auch als kategoriales Feature verwendet werden, wovon aber dringend abgeraten wird, wenn sie eine hohe Kardinalität aufweist (zu viele eindeutige Werte).

In einem Experiment können Sie maximal drei Spalten als Freitext-Features auswählen.

InformationshinweisFür Modelle, die vor dem 23. Januar 2024 trainiert wurden, wird ein erneutes Training empfohlen, wenn sie Felder mit Freitextdaten verwenden.

Anforderung für die Freitext-Codierung

Damit eine Spalte mit Freitext erfolgreich als Freitext codiert werden kann, muss sie zwei Anforderungen erfüllen. Diese Anforderungen werden in verschiedenen Phasen der Experimenterstellung geprüft.

Die Voraussetzungen sind:

  • Die Spalte muss eine durchschnittliche Zeichenlänge von 50 oder mehr Zeichen haben.

  • Die Spalte muss eine durchschnittliche Wortlänge von fünf oder mehr Wörtern haben.

Behandlung eines Features als Freitext

Der Prozess der Behandlung eines Features als Freitext läuft wie folgt ab:

  1. Wenn Sie Ihre Trainingsdaten auswählen, identifiziert Qlik AutoML Features, die möglicherweise als Freitext verarbeitet werden können. Sie sind in der Schemaansicht mit dem Einblick Möglicher Freitext markiert und weisen den Freitext-Feature-Typ auf.

  2. Nachdem Sie v1 des Experiments ausgeführt haben, werden zusätzliche Analysen vorgenommen. Zu diesem Zeitpunkt kann sich herausstellen, dass Features, die anfänglich als möglicher Freitext markiert wurden, nicht als Freitext-Features geeignet sind.

    Wenn Features, die nicht als Freitext geeignet sind, eine hohe Kardinalität aufweisen, wird empfohlen, sie für das Experiment abzuwählen. Wenn diese Features als kategorial behandelt werden, tragen sie nichts zur Modellleistung bei.

    Wenn die Features, die nicht als Freitext geeignet sind, keine hohe Kardinalität aufweisen, können Sie sie in das Experiment einschließen, indem Sie auf Als kategorial behandeln klicken oder ihren Feature-Typ von „Freitext“ zu „Kategorial“ ändern. Wenn Sie den Feature-Typ als Freitext belassen, wird er intern auch als kategorial behandelt und es wird Impact Encoding darauf angewendet.

Genaue Einzelheiten zur Vorverarbeitung finden Sie unter Automatische Datenvorbereitung und -umwandlung.

Weitere Informationen zu den einzelnen in der Schemaansicht gezeigten Einblicken finden Sie unter Anzeigen von Einblicken in die Trainingsdaten.

Nutzung von Freitext-Features als Experimentziel

In seltenen Fällen kann ein Freitext-Feature als Ziel ausgewählt werden. Wenn das Feature alle Anforderungen für Freitext-Codierung erfüllt und zwei bis zehn eindeutige Werte enthält, kann es als Ziel verwendet werden. In diesen Szenarios ist das Experiment als Standard-Binärklassifikations- oder als Mehrklassen-Klassifikationsaufgabe definiert.

Freitext-Features in Vorhersagen

Wenn Sie ein Modell bereitstellen, das mit einem Freitext-Feature trainiert wurde, kann die daraus entstandene ML-Bereitstellung Vorhersagen generieren, vorausgesetzt, die folgenden Voraussetzungen sind für den Anwendungsdatensatz erfüllt:

  • Die Spaltennamen des Features stimmen zwischen dem Trainingsdatensatz und dem Anwendungsdatensatz überein.

  • Die Spalte im Anwendungsdatensatz, die dem Freitext-Feature in den Trainingsdaten entspricht, enthält Stringdaten.

WarnhinweisSofern die obigen Voraussetzungen erfüllt sind, wird die Vorhersage erfolgreich ausgeführt. Das heißt, dass die Vorhersage erfolgreich ausgeführt wird, selbst wenn die entsprechende Spalte im Anwendungsdatensatz gar keinen Freitext enthält. Eine unter diesen Umständen generierte Vorhersage wird als unzuverlässig betrachtet. Vergewissern Sie sich immer, dass die Spalte in Ihrem Anwendungsdatensatz, die einem Freitext-Feature in den Trainingsdaten entspricht, tatsächlich Freitext enthält.

Überlegungen

Wenn Sie Freitext-Features in das Experiment einschließen, erhöht sich die Komplexität des Experiments und der für die Ausführung erforderlichen Prozesse. Es kann vorkommen, dass für die daraus entstandenen Modelle keine Permutation Importance-Diagramme verfügbar sind, wenn Ihre Freitextdaten entsprechend komplex sind.

Fehlerbehebung

Die Verwendung von Freitextdaten zum Trainieren eines Modells kann sehr ressourcenintensiv sein. Möglicherweise tritt ein Fehler auf, wenn Sie Freitextspalten mit einer großen Anzahl eindeutiger Wörter als Features einschließen.

Beachten Sie die folgenden Richtlinien für die Behebung dieser Fehler:

  • Reduzieren Sie den Datenteilsatz in Ihrem Trainingsdatensatz auf weniger Zeilen Freitext.

  • Entfernen Sie Freitext-Features, die im Modelltraining nicht benötigt werden.

  • Behandeln Sie eine oder mehrere Freitextspalten als kategoriale anstelle von Freitext-Features. Beachten Sie, dass dieses Vorgehen nicht empfohlen wird, wenn die betreffenden Freitext-Features hohe Kardinalität aufweisen.

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!