Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Datenleck

Ein Datenleck bedeutet, dass die Daten, die zum Trainieren eines Algorithmus für maschinelles Lernen verwendet werden, die Informationen enthalten, die Sie vorhersagen möchten. Das kann dazu führen, dass das Modell im Training eine bessere Leistung erbringt als in der Realität und eine falsche Sicherheit vorgaukelt, wie gut das Modell funktionieren wird. Hier erfahren Sie, wie sich Datenlecks identifizieren und verhindern lassen, um zuverlässige Vorhersagen zu erhalten.

Es gibt zwei Arten von Datenlecks:

  • Eines liegt vor, wenn ein oder mehrere Features im Trainingssatz verwendet werden können, um die Zielvariable abzuleiten, die Sie vorhersagen möchten.

  • Das andere besteht darin, dass eine oder mehrere Features im Trainingssatz Informationen umfassen, die zum Vorhersagezeitpunkt nicht bekannt sind.

In der folgenden Tabelle ist die Spalte „Stage“ ein Duplikat der Spalte „Stage (Binary)“, die wir vorhersagen möchten. Indem wir „Stage“ in den Trainingsdatensatz einschließen, geben wir die Antwort für das erwartete Ergebnis, was zu einer hohen Trefferquote unseres Modells führt.

Tabelle mit der „leckenden“ Spalte „Stage“, die Informationen über die Zielspalte „Stage (Binary)“ enthält.

Tabelle mit Beispieldaten.

Identifizieren von Datenlecks

Um Datenlecks zu identifizieren, stellen Sie sich Fragen wie „Werde ich die gleichen Informationen für Datensatzeinträge zum Zeitpunkt der Vorhersage haben?“ oder „Wird der Datensatzeintrag in 30 Tagen der Gleiche sein?“ Beachten Sie, dass alle Daten in Ihrem Trainingsdatensatz für die Zeitbeschränkung in Ihrer Geschäftsfrage relevant sein müssen.

Wenn Sie ein Modell trainiert haben, können Sie nach den folgenden Hinweisen in den Modellmetriken suchen:

  • Hohe Trefferraten: Ist die Trefferrate tatsächlich hoch? Liegt z. B. der F1-Score über 85?

  • Featurerelevanz: Ist ein Feature wesentlich relevanter als alles andere?

  • Trefferrate für Holdout-Daten: Ist die Trefferrate für Holdout-Daten wesentlich niedriger als die Kreuzvalidierungs-Trefferrate?

Die Tabelle zeigt Beispiele häufiger Features, die ein Datenleck verursachen können.

Geschäftsanwendungsfall Ziel

Features mit möglichen Datenlecks

Führt eine Verkaufschance zum Abschluss?

Abschluss (Ja oder Nein)

Phase, Abschlussdatum, Rechnungsdetails, gezahlte Provisionen

Zukünftigen Transaktionsbetrag vorhersagen

Betrag der nächsten Transaktion

Steuern, Bestelldetails

Wird ein Lead in eine Chance konvertiert?

Konvertiert (Ja oder Nein)

Chancendetails, Konversionsrate

Wird ein Kunde kündigen?

Kündigen (Ja oder Nein)

Kündigungsgrund, Kündigungsdatum, statische Kundenverweildauer, Kundentemperatur

Wird ein Mitarbeiter freiwillig kündigen?

Kündigen (Ja oder Nein)

Details zum Abschlussgespräch, Kündigungsdatum, Angaben im Kündigungsschreiben

Vermeiden von Datenlecks

Die beste Art zum Vermeiden von Datenlecks besteht darin, das strukturierte Framework zu verwenden, um eine gute geschäftliche Frage und einen guten Datensatz zu erhalten. Weitere Informationen finden Sie unter Definieren von Fragen für maschinelles Lernen.

TipphinweisWenn Sie eine Spalte mit einem Datenleck identifiziert haben, die im Modelltraining nicht verwendet werden sollte, können Sie diese dennoch im Datensatz beibehalten. Schließen Sie dieses Feature einfach aus dem Trainingsdatensatz in Ihrem Experiment für maschinelles Lernen aus.
VERWANDTE LERNINHALTE:

Weitere Informationen

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!