Datenleck

Ein Datenleck bedeutet, dass die Daten, die zum Trainieren eines Algorithmus für maschinelles Lernen verwendet werden, die Informationen enthalten, die Sie vorhersagen möchten. Das kann dazu führen, dass das Modell im Training eine bessere Leistung erbringt als in der Realität und eine falsche Sicherheit vorgaukelt, wie gut das Modell funktionieren wird. Hier erfahren Sie, wie sich Datenlecks identifizieren und verhindern lassen, um zuverlässige Vorhersagen zu erhalten.

Allgemein gesehen werden Datenlecks in mindestens einem der folgenden Fälle verursacht:

Eines liegt vor, wenn ein oder mehrere Features im Trainingssatz verwendet werden können, um die Zielvariable abzuleiten, die Sie vorhersagen möchten. Beispiel: Ihr Ziel ist ein Feld Sales und eines Ihrer Features ist ein Feld Sales Tax, das aus Sales berechnet wird.
Das andere besteht darin, dass eine oder mehrere Features im Trainingssatz Informationen umfassen, die zum Vorhersagezeitpunkt nicht bekannt sind.

In der folgenden Tabelle ist die Spalte Stage ein Duplikat der Spalte Stage (Binary), die wir vorhersagen möchten. Indem wir Stage in den Trainingsdatensatz einschließen, geben wir die Antwort für das erwartete Ergebnis, was zu einer hohen Trefferquote unseres Modells führt.

Tabelle mit der „leckenden“ Spalte Stage, die Informationen über die Zielspalte Stage (Binary) enthält.
Total Employees	Annual Revenue (M$)	Lead Source	Forecast Deal ($)	Stage	Stage (Binary)
12078	2705	Partner	369,000	6 - Closed/Lost	LOST
10076	1783	Inside sales	71,000	6 - Closed/Won	WON
8518	2114	Inside sales	294,000	6 - Closed/Lost	LOST
3978	1159	Sales rep	214,000	6 - Closed/Won	WON
3517	2285	Marketing promo	154,000	6 - Closed/Lost	LOST
3370	97	Customer referral	41,000	6 - Closed/Won	WON

Zielleck

Ein Zielleck ist eine Form von Datenleck. Ein Zielleck tritt auf, wenn Funktionsdaten auf Zieldaten verweisen, die für Vorhersagen verwendet werden könnten. Die Verweise oder "Lecks" können direkt oder indirekt sein.

Mit der intelligenten Modelloptimierung identifiziert AutoML Ziellecks und verhindert, dass sie in Ihre Modelle eingeschleust werden. Funktionen, die auf Ziellecks hindeuten, werden automatisch erkannt und aus dem Modelltraining entfernt. Weitere Informationen zur intelligenten Modelloptimierung finden Sie unter Intelligente Modelloptimierung.

Identifizieren von Datenlecks

Um Datenlecks zu identifizieren, stellen Sie sich Fragen wie „Werde ich die gleichen Informationen für Datensatzeinträge zum Zeitpunkt der Vorhersage haben?“ oder „Wird der Datensatzeintrag in 30 Tagen der Gleiche sein?“ Beachten Sie, dass alle Daten in Ihrem Trainingsdatensatz für die Zeitbeschränkung in Ihrer Geschäftsfrage relevant sein müssen.

Wenn Sie ein Modell trainiert haben, können Sie nach den folgenden Hinweisen in den Modellmetriken suchen:

Hohe Trefferraten: Ist die Trefferrate tatsächlich hoch? Liegt z. B. der F1-Score über 85?
Featurerelevanz: Ist ein Feature wesentlich relevanter als alles andere?
Holdout-Trefferrate: Ist die Trefferrate für Holdout-Daten wesentlich niedriger als die Kreuzvalidierungs-Trefferrate?

Die Tabelle zeigt Beispiele häufiger Features, die ein Datenleck verursachen können.

Geschäftsanwendungsfall	Ziel	Features mit möglichen Datenlecks
Führt eine Verkaufschance zum Abschluss?	Abschluss (Ja oder Nein)	Phase, Abschlussdatum, Rechnungsdetails, gezahlte Provisionen
Zukünftigen Transaktionsbetrag vorhersagen	Betrag der nächsten Transaktion	Steuern, Bestelldetails
Wird ein Lead in eine Chance konvertiert?	Konvertiert (Ja oder Nein)	Chancendetails, Konversionsrate
Wird ein Kunde kündigen?	Kündigen (Ja oder Nein)	Kündigungsgrund, Kündigungsdatum, statische Kundenverweildauer, Kundentemperatur
Wird ein Mitarbeiter freiwillig kündigen?	Kündigen (Ja oder Nein)	Details zum Abschlussgespräch, Kündigungsdatum, Angaben im Kündigungsschreiben

Vermeiden von Datenlecks

Die beste Art zum Vermeiden von Datenlecks besteht darin, das strukturierte Framework zu verwenden, um eine gute geschäftliche Frage und einen guten Datensatz zu erhalten. Weitere Informationen finden Sie unter Definieren von Fragen für maschinelles Lernen.

Wenn Sie eine Spalte mit einem Datenleck identifiziert haben, die im Modelltraining nicht verwendet werden sollte, können Sie diese dennoch im Datensatz beibehalten. Schließen Sie dieses Feature einfach aus dem Trainingsdatensatz in Ihrem Experiment für maschinelles Lernen aus.

VERWANDTE LERNINHALTE:

Untersuchende Datenanalysen

Weitere Informationen

Untersuchende Datenanalysen

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!

Geben Sie hier Ihr Feedback ab