Handhabung von Freitextdaten
Freitext (z. B. in Formulare eingegebene Textstringdaten) erfordert eine besondere Verarbeitung durch ML-Algorithmen, um in einem Modell sinnvoll verwendet werden zu können. In Qlik Predict ist die Freitextverarbeitung eine Art des automatischen Feature Engineering. In technischer Hinsicht nutzt diese Verarbeitung die TF-IDF-Methode (Term Frequency – Inverse Document Frequency).
Qlik Predict unterstützt die separate Verarbeitung von Features mit Freitextdaten auf Englisch.
Wenn eine Spalte in Ihren Trainingsdaten Freitext enthält, wird ihr der Feature-Typ „Freitext“ zugewiesen. Sie kann auch als kategoriales Feature verwendet werden, wovon aber dringend abgeraten wird, wenn sie eine hohe Kardinalität aufweist (zu viele eindeutige Werte).
In einem Experiment können Sie maximal drei Spalten als Freitext-Features auswählen.
Anforderung für die Freitext-Codierung
Damit eine Spalte mit Freitext erfolgreich als Freitext codiert werden kann, muss sie zwei Anforderungen erfüllen. Diese Anforderungen werden in verschiedenen Phasen der Experimenterstellung geprüft.
Die Voraussetzungen sind:
-
Die Spalte muss eine durchschnittliche Zeichenlänge von 50 oder mehr Zeichen haben.
-
Die Spalte muss eine durchschnittliche Wortlänge von fünf oder mehr Wörtern haben.
Behandlung eines Features als Freitext
Der Prozess der Behandlung eines Features als Freitext läuft wie folgt ab:
-
Wenn Sie Ihre Trainingsdaten auswählen, identifiziert Qlik Predict Features, die möglicherweise als Freitext verarbeitet werden können. Sie sind in der Schemaansicht mit dem Einblick Möglicher Freitext markiert und weisen den Freitext-Feature-Typ auf.
-
Nachdem Sie v1 des Experiments ausgeführt haben, werden zusätzliche Analysen vorgenommen. Zu diesem Zeitpunkt kann sich herausstellen, dass Features, die anfänglich als möglicher Freitext markiert wurden, nicht als Freitext-Features geeignet sind.
Wenn Features, die nicht als Freitext geeignet sind, eine hohe Kardinalität aufweisen, wird empfohlen, sie für das Experiment abzuwählen. Wenn diese Features als kategorial behandelt werden, tragen sie nichts zur Modellleistung bei.
Wenn die Features, die nicht als Freitext geeignet sind, keine hohe Kardinalität aufweisen, können Sie sie in das Experiment einschließen, indem Sie auf Als kategorial behandeln klicken oder ihren Feature-Typ von „Freitext“ zu „Kategorial“ ändern. Wenn Sie den Feature-Typ als Freitext belassen, wird er intern auch als kategorial behandelt und es wird Impact Encoding darauf angewendet.
Genaue Einzelheiten zur Vorverarbeitung finden Sie unter Automatische Datenvorbereitung und -umwandlung.
Weitere Informationen zu den einzelnen in der Schemaansicht gezeigten Einblicken finden Sie unter Anzeigen von Einblicken in Ihre Trainingsdaten.
Nutzung von Freitext-Features als Experimentziel
In seltenen Fällen kann ein Freitext-Feature als Ziel ausgewählt werden. Wenn das Feature alle Anforderungen für Freitext-Codierung erfüllt und zwei bis zehn eindeutige Werte enthält, kann es als Ziel verwendet werden. In diesen Szenarios ist das Experiment als standardmäßige binäre Klassifizierungs- oder als Mehrklassen-Klassifizierungsaufgabe definiert.
Freitext-Features in Vorhersagen
Informationen zu den Anforderungen für die Ausführung von Vorhersagen mit einem bereitgestellten Modell, das mit Freitext-Features trainiert wurde, finden Sie unter Arbeiten mit Freitext-Features in Vorhersagen.
Überlegungen
Wenn Sie Freitext-Features in das Experiment einschließen, erhöht sich die Komplexität des Experiments und der für die Ausführung erforderlichen Prozesse. Es kann vorkommen, dass für die daraus entstandenen Modelle keine Permutation Importance-Diagramme verfügbar sind, wenn Ihre Freitextdaten entsprechend komplex sind.
Fehlerbehebung
Die Verwendung von Freitextdaten zum Trainieren eines Modells kann sehr ressourcenintensiv sein. Möglicherweise tritt ein Fehler auf, wenn Sie Freitextspalten mit einer großen Anzahl eindeutiger Wörter als Features einschließen.
Beachten Sie die folgenden Richtlinien für die Behebung dieser Fehler:
-
Reduzieren Sie den Datenteilsatz in Ihrem Trainingsdatensatz auf weniger Zeilen Freitext.
-
Entfernen Sie Freitext-Features, die im Modelltraining nicht benötigt werden.
-
Behandeln Sie eine oder mehrere Freitextspalten als kategoriale anstelle von Freitext-Features. Beachten Sie, dass dieses Vorgehen nicht empfohlen wird, wenn die betreffenden Freitext-Features hohe Kardinalität aufweisen.
Beschränkungen
-
Die automatische Freitext-Feature-Erstellung ist nur für Trainingsdatensätze innerhalb bestimmter Größenbeschränkungen verfügbar. Weitere Informationen finden Sie unter Einschränkungen für Trainingsdatensätze und Profilerstellung.
-
Automatische Merkmalsaufbereitung (Feature Engineering) für Freitext ist für Zeitreihenexperimente nicht verfügbar.