Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Definieren von Fragen für maschinelles Lernen

Es kann herausfordernd sein, einen Geschäftsfall als spezifische und handlungsrelevante Frage für maschinelles Lernen zu formulieren. Folgen Sie einem strukturierten Framework, um häufige Fallstricke zu vermeiden und ein gutes Vorhersagemodell zu erstellen.

Das Framework beschreibt, wie Sie eine Frage für maschinelles Lernen definieren und wie Sie einen gut strukturierten, einsatzbereiten Datensatz zusammenstellen. Weitere Informationen zum Vorbereiten eines Datensatzes finden Sie unter Vorbereiten Ihres Datensatzes für das Training.

Das Framework besteht aus vier Teilen:

  • Ereignisauslöser

  • Ziel

  • Features

  • Vorhersagepunkt

Ereignisauslöser

Der Ereignisauslöser ist eine Aktion oder ein Ereignis, das die Erstellung neuer Vorhersagen auslöst. Jeder Ereignisauslöser entspricht einer einzelnen Datenzeile.

Ziel

Das Ziel ist der Wert, den Sie vorhersagen möchten. Es muss spezifisch sein; dies gilt sowohl für die Definition des Werts (Ergebnis) als auch für den Zeitrahmen, durch den der Wert bestimmt wird (Horizont). Wie das Ergebnis und der Horizont definiert werden, hängt vom Geschäftskontext und von den verfügbaren Daten ab. Vergewissern Sie sich, dass das Ziel für den Geschäftskontext relevant ist, und überlegen Sie, welche Maßnahmen Sie mit den vorhergesagten Werten durchführen möchten.

Das Ziel wird in einer einzelnen Spalte im Datensatz dargestellt, den Sie zum Trainieren des Algorithmus für maschinelles Lernen verwenden.

Features

Die Features sind die anderen Spalten in Ihrem Datensatz, die zum Vorhersagen eines Zielwerts verwendet werden. Sie sind Hypothesen dazu, welche Variablen das Ziel beeinflussen. Algorithmen für maschinelles Lernen verwenden die Features, um während des Trainings allgemeine Muster zu lernen und Vorhersagen für neue Datenzeilen zu treffen.

Die Featurespalten bilden den Hauptteil des Trainingsdatensatzes, wobei jedes Feature durch eine einzelne Spalte dargestellt wird. Features müssen auf Ebene des Ereignisauslösers oder höher aggregiert werden.

Features können fest sein, was bedeutet, dass sie zum Zeitpunkt des Ereignisauslösers bzw. davor bekannt sind, oder zeitfensterabhängig, was bedeutet, dass die Daten nach dem Ereignisauslöser, aber vor den Vorhersagepunkt erfasst werden.

Vorhersagepunkt

Der Vorhersagepunkt ist der festgelegte Zeitpunkt, zu dem Sie aufhören, Daten für Features zu erfassen und beginnen, das Ziel für jede Zeile vorherzusagen. Bei der Entscheidung, wo der Vorhersagepunkt liegt, wird zwischen der Genauigkeit und der Fähigkeit zum Ergreifen von Maßnahmen abgewogen. Für die Genauigkeit muss die Vorhersage spät genug erfolgen, damit genügend hochwertige Featuredaten erfasst wurden, und für die Fähigkeit zum Ergreifen von Maßnahmen früh genug, damit noch Maßnahmen ergriffen werden können, die sich auf das Ergebnis auswirken.

Der Zeitraum zwischen dem Ereignisauslöser und dem Vorhersagepunkt ist das Datenkumulationszeitfenster. Dies ist die Zeit, die zum Erfassen der Featuredaten aufgewendet wird. Die Zeit zwischen dem Vorhersagepunkt und dem Horizont ist das Maßnahmenzeitfenster, d. h. der Zeitraum für das Ergreifen von Maßnahmen aufgrund der Vorhersage. Der Vorhersagezeitpunkt kann an einem beliebigen Zeitpunkt zwischen dem Ereignisauslöser und dem Zielhorizont liegen.

Beispiele: Strukturiertes Framework

Die folgenden Beispiele zeigen, wie das strukturierte Framework in verschiedenen geschäftlichen Anwendungsfällen verwendet werden kann. Ein detailliertes Beispiel mit schrittweiser Anwendung des Frameworks finden Sie unter Anwenden des strukturierten Frameworks: Beispiel „Kundenabwanderung“.

Customer Lifetime Value

  • Ereignisauslöser: Ein Kunde gibt seine erste Bestellung auf

  • Ziel: Gesamtbestellbetrag für die ersten drei Jahre

    • Numerisches Ergebnis: Dollarbetrag

    • Der Horizont basiert auf der durchschnittlichen Länge des Kundenlebenszyklus.

  • Features: Lead-Quelle, Betrag der ersten Bestellung, Rabatt auf erste Bestellung angewendet (Ja oder Nein), Versandstatus, Versandregion, Anzahl der Produkte in der ersten Bestellung

  • Vorhersagepunkt: Drei Monate nach der ersten Bestellung

  • Frage für maschinelles Lernen: „Wie hoch ist bei einer Vorhersage drei Monate nach der ersten Bestellung des Kunden der Bestellungsgesamtbetrag in Dollar während der nächsten 33 Monate“

Erneuter Kauf des Kunden

  • Ereignisauslöser: Ein Kunde gibt eine Bestellung auf

  • Ziel: Innerhalb von sechs Monaten wird eine weitere Bestellung aufgegeben

    • Binäres Ergebnis: Ja oder Nein

    • Der Horizont wird durch die Daten bestimmt, die besagen, dass 90 Prozent der Kunden, die erneut kaufen, dies innerhalb von sechs Monaten tun

  • Features: Verkehrsquelle, Anzahl der vorherigen Bestelllungen, Verwendeter Rabatt, Versandstatus, Versandregion, Anzahl der bestellten Produkte, E-Mail mit Versandbenachrichtigung geöffnet (Ja oder Nein), Innerhalb von 10 Tagen zur Website zurückgekehrt, Marketing-E-Mails abonniert (Ja oder Nein)

  • Vorhersagepunkt: Eine Woche nach der Bestellung

  • Frage für maschinelles Lernen: „Vorhersage eine Woche nach der Bestellung durch den Kunden: Wird er innerhalb von sechs Monaten erneut bestellen?“

Lead-Konversion

  • Ereignisauslöser: Ein Lead wird erstellt

  • Ziel: Wird innerhalb von 12 Monaten nach der Erstellung zu „abgeschlossen“ konvertiert

    • Binäres Ergebnis: Ja oder Nein

    • Der Horizont basiert auf der Länge des Verkaufszyklus in der Vergangenheit

  • Features: Lead-Quelle, Branche, Unternehmensgröße, Anzahl der Berührungspunkte in den ersten 30 Tagen, Treffen innerhalb von 30 Tagen geplant (Ja oder Nein), Korrekte Telefonnummer (Ja oder Nein)

  • Vorhersagepunkt: 30 Tage nach Lead-Erstellung

  • Frage für maschinelles Lernen: „Vorhersage 30 Tage nach Lead-Erstellung: Wird dieser Lead innerhalb der nächsten 11 Monate in eine abgeschlossene erzielte Verkaufschance konvertiert werden?“

Studienabschluss

  • Ereignisauslöser: Ein Studierender erhält einen Studienplatz

  • Ziel: Der Studierende schließt das Studium innerhalb von sechs Jahren nach dem Programmstart ab

    • Binäres Ergebnis: Ja oder Nein

    • Der Horizont basiert auf der Länge der Studienzeit in der Vergangenheit

  • Features: Schultyp, Notendurchschnitt, Ergebnis des Eignungstests, Ergebnis der Aufnahmeprüfung, Entfernung von der Schule zum Campus, Stipendium, Ausbildungsniveau der Eltern, Notendurchschnitt im ersten Semester, Anzahl Kreditpunkte im ersten Semester

  • Vorhersagepunkt: Ende des ersten Semesters

  • Frage für maschinelles Lernen: „Vorhersage am Ende des ersten Semesters: Wird ein Studierender sein Studium nach sechs Jahren abgeschlossen haben?“

Umsatz pro Monat

  • Ereignisauslöser: Erster Tag des Monats

  • Ziel: Umsatz in Einheiten während des Monats

    • Numerisches Ergebnis: Anzahl der verkauften Einheiten

    • Der Horizont basiert auf dem Kalendermonat

  • Features: Produkttyp, Monatsname, Quartal, Vorjahresumsatz im gleichen Monat, Umsatz vor zwei Jahren im gleichen Monat, Umsatz im Vormonat, Durchschnittlicher Rabattprozentsatz, Marketing-Ausgaben

  • Vorhersagepunkt: Erster Tag des Monats

  • Frage für maschinelles Lernen: „Vorhersage am ersten Tag des Monats: Wie hoch ist der Gesamtumsatz in Einheiten am Ende des Monats?“

Weitere Informationen

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!