Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Klassifikationsaufgaben

Aufgaben, bei denen die Zielspalte eine kategoriale Spalte ist, werden als Klassifikationsaufgaben bezeichnet. Binärklassifikationsaufgaben haben zwei mögliche Kategorien, z. B. Ja oder Nein, während Mehrklassen-Klassifikationsaufgaben mehr als zwei mögliche Kategorien haben.

Die folgenden Beispiele erläutern die zwei Typen von Klassifikationsaufgaben. Sie gehen auch auf einige der Überlegungen beim Definieren einer Frage für maschinelles Lernen ein.

Beispiel für Binärklassifikation: Kundenabwanderung

In diesem Beispiel bietet ein Unternehmen ein abonnementbasiertes Modell an. Es wurden Daten über alle früheren und aktuellen Kunden erfasst. Kunden wurden beschriftet, je nachdem, ob sie ihr Abonnement gekündigt haben (abgewandert sind) oder nicht.

Die folgende Tabelle zeigt die erfassten Daten. Jede Zeile stellt einen eindeutigen Kunden dar, und die Spalten stellen verschiedene Features dar, die diesen Kunden beschreiben. Die letzte Spalte ist unser Ziel. Dabei handelt es sich um eine binäre Spalte, die angibt, ob der Kunde sein Abonnement gekündigt hat oder nicht (Ja oder Nein).

Stichprobe der erfassten Daten

Tabelle mit einer Stichprobe von Trainingsdaten.

Dieser Datensatz kann zum Trainieren eines Algorithmus für maschinelles Lernen verwendet werden, um vorherzusagen, ob ein bestimmter Kunde abwandern wird. Dieser Ansatz weist allerdings einige Probleme auf:

  • In dem Datensatz werden neue und alte Kunden verglichen, und er enthält keine Informationen dazu, ob Kunden, die nicht gekündigt haben, dies später doch noch tun werden.

  • Neue Kunden können Merkmale aufweisen, die darauf hinweisen, dass sie kündigen könnten (vielleicht ist bekannt, dass männliche Kunden Anfang zwanzig, die im ersten Monat nicht viel kaufen, oft kurz danach ihr Abonnement kündigen). Sie sind aber neue Kunden und haben noch nicht gekündigt. Also wird der Algorithmus für maschinelles Lernen so trainiert, dass er diese Merkmale mit treuen Kunden identifiziert, die nicht kündigen werden.

Vermeiden Sie diese Fallstricke, indem Sie präzise definieren, was Sie unter Kundenabwanderung verstehen und den Datensatz für die Aufgabe genau vorbereiten. Es ist eine Sache der Übung, ein Gefühl dafür zu entwickeln, wie geschäftliche Fragen präzise und angemessen gestellt werden, damit maschinelles Lernen damit umgehen kann. Bei den ersten Schritten mit maschinellen Lernen für Geschäftsanwendungen kann es hilfreich sein, sich gute und schlechte Beispiele dafür anzusehen. Wenn Sie sich nicht sicher sind, wie Sie Ihre geschäftlichen Fragen für maschinelles Lernen formulieren sollten, können Sie einen Zeitrahmen in die Definition Ihrer geschäftlichen Metriken aufnehmen. Diese Strategie hilft oft weiter.

Einbinden eines Zeitfaktors

Betrachten wir das Einbinden von Zeitangaben in die Frage. Wir könnten untersuchen, welche Kunden ihre Services innerhalb der ersten sechs Monate kündigen. Beispielsweise können wir ihr Verhalten während des ersten Monats als Kunden nutzen, um vorherzusagen, ob sie innerhalb von sechs Monaten abwandern werden. Jetzt haben wir eine genaue Möglichkeit, Kundenabwanderung zu definieren, die einen Zeitrahmen umfasst. Wir können einen Datensatz wie den folgenden aggregieren:

Datensatz, der einen Zeitfaktor umfasst

Tabelle mit einer Stichprobe von Trainingsdaten.

Hier stellt jede Zeile einen Kunden dar. Jetzt werden aber nur Kunden eingeschlossen, deren Verlaufsdaten zeigen, dass sie ihr Abonnement mindestens sechs Monate lang beibehielten. Für jeden von ihnen werden die Anzahl der Käufe und die Gesamtausgaben während des ersten Monats verwendet, um vorherzusagen, ob sie nach sechs Monaten kündigten. Zu Zwecken dieser Frage ist es jetzt irrelevant, ob sie nach den ersten sechs Monaten gekündigt haben. Die Zielspalte gibt nur an, ob sie ihr Abonnement innerhalb der ersten sechs Monate gekündigt haben.

Jetzt haben wir einen Trainingsdatensatz, dessen Zeilen miteinander verglichen werden können. Nachdem ein Modell mit diesem Datensatz trainiert wurde, können wir für jeden neuen Kunden, der seit mindestens einem Monat ein Abonnement abgeschlossen hat, das Verhalten während des ersten Monats und unser trainiertes Modell nutzen, um vorherzusagen, ob er während der ersten sechs Monate kündigen wird.

Beispiel für Mehrklassen-Klassifizierung: Irisblüten

In diesem Beispiel haben wir Daten über eine große Stichprobe von Irissen. Für jede Blume wurden die Länge und Breite der Blüten und Kelchblätter sowie die Iris-Sorte, zu der sie gehört, erfasst. Wenn wir in Zukunft auf eine neue Iris stoßen, möchten wir vorhersagen können, zu welcher Iris-Sorte sie gehört, gestützt auf die Länge und Breite der Kelchblätter und der Blüten.

Stichprobe der erfassten Daten

Tabelle mit einer Stichprobe von Trainingsdaten.

Wir können die erfassten Daten in einen Algorithmus für maschinelles Lernen mit einer passenden Funktion für die Verlaufsdaten eingeben. Mit einer solchen Funktion wird dann ein vorhergesagter Sortentyp basierend auf den Werten der anderen vier Variablen ausgegeben. Die Ausgabe ist eine Kategorie eines diskreten Satzes Kategorien.

Beachten Sie, dass wir mit der Annahme arbeiten, dass die Daten, für die wir zukünftig Vorhersagen treffen, statistisch den Daten ähneln, mit denen wir den Algorithmus trainiert haben Wenn der Trainingsdatensatz nur drei verschiedene Iris-Sorten enthält, können wir diesen trainierten Algorithmus nur für Vorhersagen zu Blumen dieser Sorten verwenden. Von einem Algorithmus für maschinelles Lernen können keine Vorhersagen zu Mustern erwartet werden, für deren Erkennung er nicht mit dem Trainingsdatensatz trainiert wurde.

Weitere Informationen

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!