Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Verstehen von Modellalgorithmen

Ein Algorithmus ist eine mathematische Anweisung, nach der ein Modell erstellt wird. Anhand einer Eingabe – Ihres Datensatzes – wird eine Ausgabe – das Modell – erstellt. Jeder Algorithmus hat seine eigenen Stärken und Schwächen.

Wenn Sie ein Ziel auswählen, wählt AutoML automatisch den besten Algorithmus für den Anwendungsfall. Das Ziel bestimmt, welche Art von Algorithmus verwendet wird.

Algorithmen, die am besten mit Binär- und Mehrklassen-Klassifikationsaufgaben funktionieren, werden in folgenden Fällen verwendet:

  • Das Ziel hat nur zwei eindeutige Werte, beispielsweise „Storniert ein Kunde sein Abonnement? Ja oder Nein“.

  • Das Ziel ist ein Stringwert mit drei bis zehn eindeutigen Werten. Beispielsweise wird die optimale Kampagnenmischung bestimmt, wobei das Ziel entweder „rot“, „blau“, „grün“ oder „gelb“ ist.

Algorithmen, die am besten mit Regressionsaufgaben funktionieren, werden verwendet, wenn das Ziel eine numerische Spalte ist. Ein Beispiel für eine Regressionsaufgabe ist die Vorhersage, wie viel ein Kunde kaufen wird.

Algorithmen für Binär- und Mehrklassen-Klassifikationsaufgaben

AutoML verwendet die folgenden Algorithmen für Binär- und Mehrklassen-Klassifikationsaufgaben:

  • CatBoost-Klassifikation

  • Elastic Net-Regression

  • Gaußsches Naive Bayes

  • Lasso-Regression

  • LightGBM-Klassifikation

  • Logistische Regression

  • Random Forest-Klassifikation

  • XGBoost-Klassifikation

Algorithmen für Regressionsaufgaben

AutoML verwendet die folgenden Algorithmen für Regressionsaufgaben:

  • CatBoost-Regression

  • LightGBM-Regression

  • Lineare Regression

  • Random Forest-Regression

  • SGD-Regression

  • XGBoost-Regression

Verschiedene Modelltypen

Die Modelltypen können in Regressionsmodelle, Ensembles und andere Typen von Modellen für maschinelles Lernen unterteilt werden.

Regressionsmodelle

Regressionsmodelle bzw. allgemeine lineare Modelle sind Modelle, mit denen nach Trends entlang der Domäne der einzelnen Variablen unabhängig voneinander gesucht wird. Wie bei der Algebra-Gleichung y = mx+b sollen mit dem Algorithmus ein m und ein b ausgewählt werden, die durchschnittlich die höchste Genauigkeit für jeden x- und y-Wert ergeben. Im Allgemeinen gilt das gleiche Konzept, wenn mehr als eine Variable vorhanden ist. Lineare Regression und logistische Regression sind Beispiele für Regressionsmodelle für Regressionsaufgaben bzw. für Klassifikationsaufgaben.

Für Klassifikationsaufgaben ist die Ausgabe des Regressionsmodells die Wahrscheinlichkeit, mit der die Stichprobe die positive Klasse ist. Das bedeutet, dass y der Wahrscheinlichkeit und nicht einem tatsächlichen Wert entspricht.

Regressionen eignen sich gut dafür, lineare Trends in Daten zu erkennen, aber in manchen Fällen liegt eine Beziehung vor, die nicht linear ist. Damit eine Regression gut zu einem nichtlinearen Muster passt, ist vor dem Trainieren des Modells eine Datenumwandlung erforderlich. Der Vorteil des guten Verständnisses linearer Beziehungen liegt darin, dass lineare Beziehungen in der Regel am besten mit Extrapolation funktionieren. In der Tabelle werden die Vor- und Nachteile von Regressionsmodellen aufgelistet.

Vorteile Nachteile
  • Gut im Extrapolieren

  • Gut im Erkennen linearer Trends für unabhängige Variablen

  • Gut mit umfangreichen Daten aus der gleichen Population

  • Leicht verständlich

  • Schlecht im Nutzen von Mustern zwischen Variablen

  • Schlecht im Anpassen nichtlinearer Trends

  • Manchmal zu simplistisch

Ensemblemodelle

Für Ensembles werden mehrere Modelle kombiniert. Dies lässt sich mit einer Gruppe Personen mit unterschiedlicher Herkunft vergleichen, die über etwas abstimmen, wobei der Stimmendurchschnitt für die Entscheidung verwendet wird. Random Forest und XGBoost sind Beispiele für Ensemblemodelle.

Ensembles können sowohl Regressionsaufgaben als auch Klassifikationsaufgaben lösen. Sie eignen sich gut zum Erkennen nichtlinearer Beziehungen und zum Ermitteln, wie sich Interaktionen zwischen Variablen auf das Ziel auswirken. Obwohl Ensembles aber gut die Muster innerhalb des Datenbereichs erkennen, für den sie trainiert sind, ist ihre Vorhersageleistung für Werte außerhalb des bereits verwendeten Bereichs schlecht. In der Tabelle werden die Vor- und Nachteile von Ensemblemodellen aufgelistet.

Vorteile Nachteile
  • Gut im Nutzen von Mustern zwischen Variablen

  • Gut im Erkennen nichtlinearer Trends

  • Gut mit umfangreichen Daten aus der gleichen Population

  • Schlecht im Extrapolieren

  • Nicht so leicht zu interpretieren

Andere Modelltypen

Andere Modelltypen umfassen alle anderen Modelltypen. Beispiele sind Nächste Nachbarn und Gaußscher Naive Bayes. Mit diesen Typen von Modellen wird in der Regel versucht, eine neue räumliche Darstellung der Daten zu erreichen. Dabei wird oft eine Entfernungsmetrik erstellt, die misst, wie unterschiedlich zwei Datensätze sind. Sie können gut mit nichtlinearen Trends umgehen, sind in ihrer Rechenleistung aber wesentlich teurer, wenn die Datensätze größer werden. In der Tabelle werden die Vor- und Nachteile anderer Modelle aufgelistet.

Vorteile Nachteile
  • Gut im Nutzen von Mustern zwischen Variablen

  • Gut im Erkennen nichtlinearer Trends

  • Schlecht im Extrapolieren

  • In der Rechenleistung teurer bei größeren Datensätzen

Weitere Informationen

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!