Automatische Datenvorbereitung und -umwandlung

Der Datensatz, den Sie für Ihr Experiment ausgewählt haben, wird automatisch vorverarbeitet, um ihn auf Modelltraining vorzubereiten. Zu den Vorverarbeitungsschritten gehört Datenvorbereitung und -umwandlung. Das erhöht die Datenqualität, damit Sie ein Modell erhalten, das genaue Ergebnisse erbringt.

Für die Vorverarbeitung der Daten werden verschiedene Data Science-Techniken verwendet. Die meisten Schritte werden standardmäßig durchgeführt und funktionieren in den meisten Anwendungsfällen gut. Wenn Sie diese Standardschritte und die zugrunde liegenden Konzepte kennen, können Sie besser verstehen, was Sie mit den Daten für Ihren spezifischen Anwendungsfall tun müssen, bevor Sie sie zum Trainieren eines Modells verwenden können.

Experimentaufbau

Bevor die Vorverarbeitung beginnt, führt Qlik Predict verschiedene Vorbereitungsschritte durch und bietet eine Vorschau davon, wie Ihre Daten verarbeitet werden. Einige Schritte hängen von Ihrem Experimenttyp und anderen Faktoren ab. Die folgenden Schritte können erforderlich sein:

Klassifizieren Sie Spalten im Datensatz als Feature-Typ „kategorial“, „numerisch“, „Datum“ oder „Freitext“.
- Die Datentypen „float“, „double“ und „decimal“ werden immer als numerisch betrachtet.
- Spalten mit einem String-Datentyp, die im Durchschnitt weniger als 50 Zeichen enthalten, werden als kategorial klassifiziert.
- Spalten mit einem String-Datentyp, die im Durchschnitt 50 oder mehr Zeichen enthalten, werden als Freitext klassifiziert. Zu diesem Zeitpunkt ist aber nicht garantiert, dass die Spalten als Freitext-Features verwendbar sind. Zusätzliche Anforderungen werden während der Vorverarbeitung geprüft. Weitere Informationen finden Sie unter Vorverarbeitungsschritte.
- „integer“-Datentypen werden immer als numerisch betrachtet.
- „date“- und „timestamp“-Datentypen werden immer als Datums-Feature-Typ betrachtet. Während des Experimentaufbaus zeigt Qlik Predict eine Vorschau der automatisch erstellten Features, die möglicherweise vom übergeordneten Datums-Feature abgeleitet werden können.
Überprüfen Sie jede Spalte auf geringe Datendichte, Konstanten und hohe Kardinalität. Schließen Sie die Spalte in folgenden Fällen aus:
- Die Spalte enthält 50 Prozent oder mehr Nullwerte. Wenn Datensätze gelöscht werden, die einen Nullwert für ein Feature enthalten, kann es vorkommen, dass anderweitig nützliche Trainingsbeispiele verworfen werden. Wenn dagegen Werte imputiert werden, bleibt das Beispiel erhalten, aber der Datensatz ist nur noch eine Annäherung der Realität. Daher ist es oft besser, Features mit einer hohen Anzahl (über 50 Prozent) von Nullwerten auszuschließen. Beachten Sie, dass 0 nie als Nullwert betrachtet wird.
- Die Spalte hat denselben Wert in jeder Zeile (Konstante). Anders ausgedrückt, hat die Spalte eine geringe Kardinalität. Features mit nur einem einzigen Wert haben keinen Vorhersagewert.
- Die Spalte ist kategorial und enthält 90 Prozent oder mehr eindeutige Werte (hohe Kardinalität). Bei zu vielen eindeutigen Werten ist es für das Modell schwer, über den Trainingsdatensatz hinaus zu generalisieren.

Es können Anpassungen vorgenommen werden, wie die Daten verarbeitet werden sollen, nachdem die Vorverarbeitung begonnen hat.

Vorverarbeitungsschritte

Nachdem Sie eine Zielspalte ausgewählt haben, hängen die nächsten Schritte vom Experimenttyp ab. Für Klassifizierungs- und Regressionsexperimente werden die Zeilen identifiziert und entfernt, deren Zielwert Null ist. Die Zeilen, deren Ziel bekannt ist, bleiben als Trainingsdatensatz zurück. Bei Zeitreihenexperimenten werden fehlende Zielwerte interpoliert.

Nur Daten aus dem Trainingsdatensatz werden in den folgenden Schritten zum Treffen von Entscheidungen verwendet. Die Schritte werden zusammen mit den Metadaten gespeichert und auf alle neuen Daten für das Modell angewendet, um Vorhersagen zu treffen.

Die Vorverarbeitung wird für eingeschlossene Features durchgeführt, sooft Sie eine neue Experimentversion ausführen.Einige Schritte hängen von Ihrem Experimenttyp und anderen Faktoren ab.

Berechnen und speichern Sie das Mittel für numerische Werte und den Modus für kategoriale Werte.
Imputieren Sie fehlende Werte. Weitere Informationen finden Sie unter Imputation von Nullwerten.
Codieren Sie kategoriale Variablen.
Für Zeitreihenmodelle wird eine Reihe von Schritten durchgeführt, um vom Benutzer konfigurierte Experimenteigenschaften zu validieren und dem Benutzer nach Abschluss des Trainings zusätzliche Informationen bereitzustellen:
- Das maximale Prognosefenster wird bestimmt.
- Der Zeitschritt des Datumsindex wird bestätigt.
- Vom Benutzer ausgewählte Zielgruppierungen werden validiert oder, falls nicht angegeben, identifiziert, wenn sie in den enthaltenen kategorialen Features vorhanden sind.
Erzeugen Sie neue Features aus bestehenden Spalten im Datensatz. Diese neuen, automatisch erstellten Features können die Leistung und Prognosegenauigkeit der Modelle verbessern, die Sie erstellen.

Als möglicher Freitext identifizierte Spalten werden auf ihre durchschnittliche Wortlänge geprüft. Wenn die Spalte eine durchschnittliche Wortlänge von mehr als fünf Wörtern enthält, kann sie mit Feature Engineering als Freitext-Feature codiert werden. Andernfalls wird eine Warnung angezeigt. Wenn sie nicht als Freitext verwendbar ist, sollte das Feature abgewählt werden, wenn es eine hohe Kardinalität aufweist.
Berechnen und speichern Sie Zusammenfassungsstatistiken für jede Spalte, um sie für die Featureskalierung zu verwenden.
Standardisieren Sie jede Spalte mit Featureskalierung.
Führen Sie eine Analyse der Features durch, die für die Verzerrungserkennung ausgewählt wurden, wodurch Datenverzerrungsmetriken sowie entsprechende Einblicke zurückgegeben werden. Weitere Informationen finden Sie unter Verzerrungserkennung in Modellen für maschinelles Lernen.
Verwenden Sie automatisches Holdout von Trainingsdaten und fünffache Kreuzvalidierung. Weitere Informationen finden Sie unter Holdout-Daten und Kreuzvalidierung.
Berechnen Sie verschiedene Statistiken zum Datensatz mit erhöhter Sicherheit. Zum Beispiel können neue Informationen zur Datensatzgröße, Zeilen- und Zellenzahlen sowie zu Anteilen von Nullwerten verfügbar werden. Weitere Informationen finden Sie unter Einschränkungen für Trainingsdatensätze und Profilerstellung.

Weitere Informationen

Automatische technische Planung von Features

Hat diese Seite Ihnen geholfen?

Wenn Sie ein Problem mit dieser Seite oder ihrem Inhalt feststellen, sei es ein Tippfehler, ein ausgelassener Schritt oder ein technischer Fehler, informieren Sie uns bitte!

Geben Sie hier Ihr Feedback ab