Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Vorbereiten Ihres Datensatzes für das Training

Sie trainieren einen Datensatz für die Beantwortung Ihrer Frage für maschinelles Lernen. Der Trainingsdatensatz umfasst eine Spalte für jedes Feature sowie eine Spalte, die das Ziel enthält. Die Algorithmen für maschinelles Lernen lernen allgemeine Muster aus diesen Datenzeilen, um ein Modell zu generieren, das das Ziel vorhersagen kann.

Um den Datensatz auf das maschinelle Lernen vorzubereiten, müssen Sie Ihre Daten verstehen und die erforderlichen Datenpunkte erfassen. Möglicherweise müssen Sie auch einige der Daten umwandeln und Daten entfernen, die für Ihren Anwendungsfall nicht relevant sind.

Welche Daten sollten erfasst werden?

Definieren Sie Ihre Frage für maschinelles Lernen präzise und entscheiden Sie, was genau aggregiert werden muss, um diese Frage zu beantworten:

  • Wenn Sie vorhersagen möchten, welche Kunden kündigen werden, müssen Sie einen Datensatz aggregieren, in dem jede Zeile einen Kunden darstellt, jede Featurespalte ein Feature zur Beschreibung dieses Kunden darstellt und die Zielspalte angibt, ob dieser Kunde in einem bestimmten Zeitraum gekündigt hat.

  • Wenn Sie dem Umsatz für einen bestimmten Monat und eine bestimmte Region vorhersagen möchten, müssen Sie einen Datensatz aggregieren, in dem jede Zeile einen bestimmten Monat für eine bestimmte Region darstellt, jede Featurespalte ein Feature darstellt, das das Geschäft des Monats in der Region beschreibt, und die Zielspalte muss den Umsatz für die Region in diesem Monat enthalten.

Überlegen Sie, welche Umstände das Ziel beeinflussen könnten und prüfen Sie, ob die entsprechenden Daten erfasst werden können. Beachten Sie, dass prädiktive Algorithmen nur Muster identifizieren können, die auch vorhanden sind. Vielleicht müssen Sie zusätzliche Features erfassen oder erstellen, um weitere Informationen zu extrahieren?

Sie müssen auch bestimmen, wie viele Daten Sie ansammeln müssen, bevor Sie genaue Vorhersagen erstellen können. Wie lang dauert es, bis das Ereignis repräsentativ ist? Betrachten Sie die folgenden Beispiele:

  • Kunden müssen 60 Tage lang Mitglied gewesen sein, bevor Sie vorhersagen können, ob sie bis Tag 90 kündigen werden.

  • Die Kosten für Versicherungsansprüche werden einige Monate lang noch nicht bekannt sein. Daher können Sie Ansprüche ausschließen, die weniger als sechs Monate alt sind.

Unterscheiden Sie zwischen Zeitvariantendaten und Nicht-Zeitvariantendaten. Tragen Zeitvariantendaten einen Zeitstempel, damit sie korrekt aggregiert werden können?

Werden die Daten zum Vorhersagezeitpunkt verfügbar sein?

Vergewissern Sie sich, dass alle Features, die Sie in den Trainingsdatensatz einschließen, auch für zukünftige Vorhersagen verfügbar sein werden. Ein häufiger Fehler besteht darin, das Modell mit Features zu trainieren, die für Verlaufsdaten verfügbar sind, jedoch zum Zeitpunkt einer Vorhersage in der Zukunft nicht verfügbar sein werden. Wenn Vorhersagen für neue Daten erstellt werden, benötigt der Algorithmus für maschinelles Lernen Werte für alle Features, die im Trainingsdatensatz verfügbar waren.

Sind mehr Daten besser?

Stichprobengröße

Ein größeres Datenvolumen führt in der Regel zu zuverlässigeren Modellen. Alle zusätzlichen relevanten Datenpunkte können hilfreich sein, unabhängig davon, ob es sich um neue oder auf die Vergangenheit bezogene Beobachtungen handelt.

Anzahl Features

Die Versuchung kann groß sein, alle möglichen Variablen in das Modell aufzunehmen, unabhängig von ihrer Relevanz für das angestrebte Ergebnis. Weniger ist in der Regel mehr. Meist ist es besser, eine kleinere Anzahl Features im Modell zu verwenden.

Wenn mehr Features vorhanden sind, besteht ein größeres Risiko, dass die tatsächlich zugrunde liegende Beziehung, die Sie aufdecken möchten, stattdessen verdeckt wird. Das prädiktive Modell kann alle Feature verwenden, um komplizierte Regeln zu erstellen, die mit den Daten, die zum Trainieren des Modells verwendet wurden, gut funktionieren. Aber auf das vorhergesagte Ziel wirken sich vielleicht tatsächlich nur ein oder zwei Features aus. Möglicherweise ist das Modell nicht gut dafür geeignet, auf Daten außerhalb der Trainingsdaten verallgemeinert zu werden. In diesem Fall ist die Vorhersageleistung schlecht, wenn das Modell auf neue Daten angewendet wird.

Überanpassung

Überanpassung bedeutet, dass ein Modell zu komplex und somit bei der Vorhersage neuer Daten unzuverlässig ist. Zu Überanpassung kommt es häufig, wenn zu viele Features im Verhältnis zur Anzahl der verfügbaren Datenpunkte vorhanden sind. Das ist beispielsweise der Fall, wenn Sie nur 50 Datenzeilen und 100 Featurespalten im Datensatz haben.

Sind Ihre Trainingsdaten relevant?

Ein Algorithmus für maschinelles Lernen findet Muster in den eingegebenen Daten und verwendet diese Muster für Vorhersagen zu Daten in der Zukunft. Wenn Sie Vorhersagen für neue Daten erstellen, gehen Sie davon aus, dass die Daten den Trainingsdaten gleichen. Daher ist es wichtig, dass der Trainingsdatensatz statistisch den Daten gleicht, für die Sie Vorhersagen erstellen.

Wenn der Markt oder das Geschäft sich im Vergleich zum Trainingsdatensatz erheblich verändert hat, verwenden Sie wahrscheinlich einen veralteten Datensatz, was zu ungenauen Vorhersagen führt. Möglicherweise müssen Sie einen neuen Trainingsdatensatz erstellen und nur die Daten verwenden, die nach Eintreten der Änderungen erfasst wurden.

Betrachten Sie das Beispiel über Umsatzvorhersagen unter Verstehen von maschinellem Lernen. Angenommen, wir haben Daten in unseren Algorithmus eingegeben, die Werbeausgaben für Fernsehen, Radio und Zeitung sowie Umsätze in vergangenen Geschäftsquartalen darstellten. Die Daten wurden jedoch in den 1980er Jahren erfasst. Wir bewerben das Produkt jetzt aber nicht mehr über das Radio, sondern fast ausschließlich online. Unser trainierter Algorithmus würde beim Vorhersagen des Umsatzes für das laufende Geschäftsquartal eine schlechte Leistung erbringen, weil die Trainingsdaten für das aktuelle Geschäft nicht repräsentativ sind.

Daten untersuchen

Verwenden Sie Ihr geschäftliches Wissen, um die Daten zu verstehen und zu validieren. Wenn die Daten nicht zu Ihren Annahmen passen, weist dies auf Datenprobleme hin oder bedeutet es, dass Ihre Annahmen falsch sind?

Unzuverlässige Features entfernen

Erwägen Sie, Spalten in folgenden Fällen aus dem Datensatz zu entfernen:

  • Ein Wert überwiegt stark (niedrige Kardinalität). Beispiel: eine Spalte mit den Werten „rot“, „grün“ und „blau“, in der 90 Prozent der Werte „rot“ sind.

  • Sehr viele der Werte sind eindeutig (hohe Kardinalität).

  • Die meisten Werte sind Null.

Features mit hoher Korrelation entfernen

Entfernen Sie redundante Features, z. B. hochgradig korrelierte Features, die die gleichen oder sehr ähnliche Informationen bereitstellen. Wählen Sie ein Feature aus Gruppen aus, die das gleiche Datenverhalten zu erfassen scheinen. Prüfen Sie, ob ein Feature vorhanden ist, das die anderen antreibt.

Nullwerte ersetzen

Untersuchen Sie Ihre Daten, um herauszufinden, ob fehlende Werte bei wichtigen Datenpunkten vorliegen, z. B. dem Ziel oder wesentlichen Features. Um Werte aus einer Spalte mit geringer Dichte zu verwenden, können Sie Nullwerte durch „andere“ oder „unbekannt“ ersetzen. Möglicherweise müssen Sie auch die Datenerfassung überarbeiten.

Zielbereich

Betrachten Sie die Verteilung der Daten. Wenn Ihre Zieldaten im Vergleich zur Stichprobengröße zu breit verteilt sind, lassen sich möglicherweise nur schwer Muster in Ihren Daten finden.

Wie groß ist der Bereich der Datenwerte? Die Vorhersage von Datenwerten außerhalb des Bereichs wirft einige Probleme auf. Weitere Informationen finden Sie in Extrapolation und Interpolation.

Weist die Verteilung Anomalien auf? Im Fall von Verzerrungen, Einseitigkeiten und multimodalen Formen in Ihren Daten sind möglicherweise zusätzliche Datenumwandlungen oder weiteres Feature Engineering erforderlich. Versuchen Sie, Kategorien mit geringem Volumen zu gruppieren und Einseitigkeiten in numerischen Features zu runden oder zu entfernen.

Ausreißer beseitigen

Beachten Sie die folgenden Anmerkungen zu Ausreißerwerten in den Featurespalten. Ausreißer können verhindern, dass ein Algorithmus in der Lage ist, allgemeine Muster in den Daten zu erkennen. Stattdessen könnte es besser sein, einen kleineren Teilsatz der Daten zu betrachten, der in der Zielspalte enger zusammen liegt.

Datengruppierung

Sie können Ihre Ergebnisse verbessern, indem Sie die Daten in verschiedene Datensätze aufteilen und sie verwenden, um getrennte Modelle zu trainieren. Stützen Sie die Datengruppierung auf ein oder mehrere Features.

Datenleck

Ein Datenleck bedeutet, dass die Daten, die zum Trainieren eines Algorithmus für maschinelles Lernen verwendet werden, die Informationen enthalten, die Sie vorhersagen möchten.

Weitere Informationen

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!