Handhabung von Freitextdaten

Freitext (z. B. in Formulare eingegebene Textstringdaten) erfordert eine besondere Verarbeitung durch ML-Algorithmen, um in einem Modell sinnvoll verwendet werden zu können. In Qlik Predict ist die Freitextverarbeitung eine Art des automatischen Feature Engineering. In technischer Hinsicht nutzt diese Verarbeitung die TF-IDF-Methode (Term Frequency – Inverse Document Frequency).

Qlik Predict unterstützt die separate Verarbeitung von Features mit Freitextdaten auf Englisch.

Wenn eine Spalte in Ihren Trainingsdaten Freitext enthält, wird ihr der Feature-Typ „Freitext“ zugewiesen. Sie kann auch als kategoriales Feature verwendet werden, wovon aber dringend abgeraten wird, wenn sie eine hohe Kardinalität aufweist (zu viele eindeutige Werte).

In einem Experiment können Sie maximal drei Spalten als Freitext-Features auswählen.

Für Modelle, die vor dem 23. Januar 2024 trainiert wurden, wird ein erneutes Training empfohlen, wenn sie Felder mit Freitextdaten verwenden.

Anforderung für die Freitext-Codierung

Damit eine Spalte mit Freitext erfolgreich als Freitext codiert werden kann, muss sie zwei Anforderungen erfüllen. Diese Anforderungen werden in verschiedenen Phasen der Experimenterstellung geprüft.

Die Voraussetzungen sind:

Die Spalte muss eine durchschnittliche Zeichenlänge von 50 oder mehr Zeichen haben.
Die Spalte muss eine durchschnittliche Wortlänge von fünf oder mehr Wörtern haben.

Behandlung eines Features als Freitext

Der Prozess der Behandlung eines Features als Freitext läuft wie folgt ab:

Wenn Sie Ihre Trainingsdaten auswählen, identifiziert Qlik Predict Features, die möglicherweise als Freitext verarbeitet werden können. Sie sind in der Schemaansicht mit dem Einblick Möglicher Freitext markiert und weisen den Freitext-Feature-Typ auf.
Nachdem Sie v1 des Experiments ausgeführt haben, werden zusätzliche Analysen vorgenommen. Zu diesem Zeitpunkt kann sich herausstellen, dass Features, die anfänglich als möglicher Freitext markiert wurden, nicht als Freitext-Features geeignet sind.

Wenn Features, die nicht als Freitext geeignet sind, eine hohe Kardinalität aufweisen, wird empfohlen, sie für das Experiment abzuwählen. Wenn diese Features als kategorial behandelt werden, tragen sie nichts zur Modellleistung bei.

Wenn die Features, die nicht als Freitext geeignet sind, keine hohe Kardinalität aufweisen, können Sie sie in das Experiment einschließen, indem Sie auf Als kategorial behandeln klicken oder ihren Feature-Typ von „Freitext“ zu „Kategorial“ ändern. Wenn Sie den Feature-Typ als Freitext belassen, wird er intern auch als kategorial behandelt und es wird Impact Encoding darauf angewendet.

Genaue Einzelheiten zur Vorverarbeitung finden Sie unter Automatische Datenvorbereitung und -umwandlung.

Weitere Informationen zu den einzelnen in der Schemaansicht gezeigten Einblicken finden Sie unter Anzeigen von Einblicken in Ihre Trainingsdaten.

Nutzung von Freitext-Features als Experimentziel

In seltenen Fällen kann ein Freitext-Feature als Ziel ausgewählt werden. Wenn das Feature alle Anforderungen für Freitext-Codierung erfüllt und zwei bis zehn eindeutige Werte enthält, kann es als Ziel verwendet werden. In diesen Szenarios ist das Experiment als standardmäßige binäre Klassifizierungs- oder als Mehrklassen-Klassifizierungsaufgabe definiert.

Freitext-Features in Vorhersagen

Informationen zu den Anforderungen für die Ausführung von Vorhersagen mit einem bereitgestellten Modell, das mit Freitext-Features trainiert wurde, finden Sie unter Arbeiten mit Freitext-Features in Vorhersagen.

Überlegungen

Wenn Sie Freitext-Features in das Experiment einschließen, erhöht sich die Komplexität des Experiments und der für die Ausführung erforderlichen Prozesse. Es kann vorkommen, dass für die daraus entstandenen Modelle keine Permutation Importance-Diagramme verfügbar sind, wenn Ihre Freitextdaten entsprechend komplex sind.

Fehlerbehebung

Die Verwendung von Freitextdaten zum Trainieren eines Modells kann sehr ressourcenintensiv sein. Möglicherweise tritt ein Fehler auf, wenn Sie Freitextspalten mit einer großen Anzahl eindeutiger Wörter als Features einschließen.

Beachten Sie die folgenden Richtlinien für die Behebung dieser Fehler:

Reduzieren Sie den Datenteilsatz in Ihrem Trainingsdatensatz auf weniger Zeilen Freitext.
Entfernen Sie Freitext-Features, die im Modelltraining nicht benötigt werden.
Behandeln Sie eine oder mehrere Freitextspalten als kategoriale anstelle von Freitext-Features. Beachten Sie, dass dieses Vorgehen nicht empfohlen wird, wenn die betreffenden Freitext-Features hohe Kardinalität aufweisen.

Beschränkungen

Die automatische Freitext-Feature-Erstellung ist nur für Trainingsdatensätze innerhalb bestimmter Größenbeschränkungen verfügbar. Weitere Informationen finden Sie unter Einschränkungen für Trainingsdatensätze und Profilerstellung.
Automatische Merkmalsaufbereitung (Feature Engineering) für Freitext ist für Zeitreihenexperimente nicht verfügbar.

Weitere Informationen

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!

Geben Sie hier Ihr Feedback ab