Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Regressionsaufgaben

Regressionsaufgaben sind Aufgaben für maschinelles Lernen mit einer numerischen Zielspalte. Das folgende Beispiel zeigt, wie Sie eine geschäftliche Frage auf präzise Weise stellen und dann einen Trainingsdatensatz aggregieren, in dem alle Features gleich gewichtet sind. Dies gibt eine gute Grundlage für die Erstellung eines prädiktiven Regressionsmodells.

Regressionsbeispiel: Customer Lifetime Value

Wir nehmen zunächst an, dass ein Modell für maschinelles Lernen, das mit früheren Kunden trainiert wurde, lernt, den Customer Lifetime Value vorherzusagen, wobei mehrere Features genutzt werden, die sich auf diese Vorhersage auswirken. Wir erfassen einen Datensatz mit Verlaufsinformationen über alle früheren und aktuellen Kunden. Es ist eine Zeile für jeden Kunden vorhanden, und die Spalten stellen Features dar, die den Kunden beschreiben: Kunden-ID, Geschlecht, Alter, das Datum, an dem sie zu Kunden wurden, Postleitzahl, die Anzahl der getätigten Käufe und der ausgegebene Gesamtgeldbetrag.

Stichprobe der erfassten Daten

Tabelle mit einer Stichprobe von Trainingsdaten.

Wir können den Customer Lifetime Value als ausgegebenen Gesamtgeldbetrag definieren, den Datensatz in einen Algorithmus für maschinelles Lernen eingeben und ihn lernen lassen, den ausgegebenen Gesamtgeldbetrag vorherzusagen. Während in Zukunft neue Kunden hinzukommen, können wir den trainierten Algorithmus verwenden, um vorherzusagen, wie viel Geld sie während ihres Kundenlebens ausgeben werden. Dieser Ansatz weist aber mehrere Probleme auf:

  • Der Datensatz kann Personen enthalten, die für einen Tag, einen Monat oder ein Jahr Kunden waren. Der Wert für den ausgegebenen Gesamtgeldbetrag gibt nicht wieder, wie viel ein Kunde ausgeben wird, sondern wie viel er insgesamt bisher ausgegeben hat.

  • Ein Kunde, dessen Konto einen Tag alt ist, kann die Merkmale eines Kunden mit hohem Ertrag aufweisen. Aber da er erst gestern ein Kunde geworden ist, hat er erst einen Kauf getätigt und noch nicht viel Geld ausgegeben. Wenn wir ihn in den Trainingsdatensatz einschließen, bringen wir dem Algorithmus für maschinelles Lernen fälschlicherweise bei, dass er zu dem Typ Kunden gehört, die nicht viel Geld einbringen.

  • Wir können einen neuen Kunden haben, der in seinem ersten Monat dreimal wöchentlich Produkte bestellt und insgesamt 12 Käufe getätigt hat. Jemand anders, der seit einem Jahr Kunde ist und einmal im Monat etwas gekauft hat, könnte den gleichen Geldbetrag ausgegeben haben. Der Algorithmus für maschinelles Lernen würde diese beiden Kunden mit dem gleichen Customer Lifetime Value einstufen, obwohl der Einmonatskunde in Wahrheit langfristig wesentlich mehr Wert erbringen könnte.

Um diese Probleme zu vermeiden, müssen wir den Customer Lifetime Value präzise definieren und genau darauf achten, wie wir einen Datensatz auf die Aufgabe vorbereiten. Eine gute Möglichkeit besteht darin, Zeit als Faktor in die Aufgabendefinition einzubeziehen.

Einbinden eines Zeitfaktors

Um einen Zeitfaktor einzubeziehen, definieren wir zunächst einen Wert für das erste Jahr als Gesamtgeldbetrag, den ein Kunde in seinem ersten Jahr als Kunde ausgibt. Dann können wir das Kundenverhalten während der ersten drei Monate als Feature heranziehen, um die Gesamtausgaben im Lauf des ersten Jahres vorherzusagen. Der Wert im ersten Jahr ist eine präzise Definition einer relevanten Metrik, die einen Zeitrahmen umfasst. Der Vorteil beim Erstellen einer solchen präzise definierten Metrik besteht darin, dass alle Beispiele aus unserem Trainingsdatensatz gleichmäßig bewertet werden.

Da wir jetzt den Gesamtgeldbetrag betrachten, den die Kunden während ihres ersten Kundenjahres ausgegeben haben, müssen wir den Trainingsdatensatz auf Kunden beschränken, die seit mindestens einem Jahr Kunden sind. Wir können einen Datensatz wie den Folgenden vorbereiten:

Datensatz, der einen Zeitfaktor umfasst

Tabelle mit einer Stichprobe von Trainingsdaten.

Hier stellt jede Zeile eine Person dar, die seit mindestens einem Jahr Kunde ist. Die Spalten enthalten Features, die den Kunden zum Zeitpunkt seiner Erfassung als Kunde beschreiben, sowie Features, die die Kundenaktivität während des gewählten Zeitrahmens darstellen.

Die Aktivität wird anhand der Anzahl der Käufe in den ersten drei Monaten und des ausgegebenen Gesamtgeldbetrags in den ersten drei Monaten gemessen. Die Zielspalte stellt den ausgegebenen Gesamtgeldbetrag im ersten Jahr dar. Dies ist der Wert des ersten Jahres, dessen Vorhersage der Algorithmus für maschinelles Lernen erlernen soll.

Sie sehen, dass wir jetzt eine sehr präzise Frage stellen, die innerhalb eines Zeitrahmens definiert ist: „Vorhersagen, wie viel Geld ein Kunde in seinem ersten Jahr einbringt, gestützt auf sein Verhalten während der ersten drei Monate.“

Weitere Informationen

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!