Zu Hauptinhalt springen Zu ergänzendem Inhalt springen

Datenleck

Ein Datenleck bedeutet, dass die Daten, die zum Trainieren eines Algorithmus für maschinelles Lernen verwendet werden, die Informationen enthalten, die Sie vorhersagen möchten. Das kann dazu führen, dass das Modell im Training eine bessere Leistung erbringt als in der Realität und eine falsche Sicherheit vorgaukelt, wie gut das Modell funktionieren wird. Hier erfahren Sie, wie sich Datenlecks identifizieren und verhindern lassen, um zuverlässige Vorhersagen zu erhalten.

Allgemein gesehen werden Datenlecks in mindestens einem der folgenden Fälle verursacht:

  • Eines liegt vor, wenn ein oder mehrere Features im Trainingssatz verwendet werden können, um die Zielvariable abzuleiten, die Sie vorhersagen möchten. Beispiel: Ihr Ziel ist ein Feld Sales und eines Ihrer Features ist ein Feld Sales Tax, das aus Sales berechnet wird.

  • Das andere besteht darin, dass eine oder mehrere Features im Trainingssatz Informationen umfassen, die zum Vorhersagezeitpunkt nicht bekannt sind.

In der folgenden Tabelle ist die Spalte Stage ein Duplikat der Spalte Stage (Binary), die wir vorhersagen möchten. Indem wir Stage in den Trainingsdatensatz einschließen, geben wir die Antwort für das erwartete Ergebnis, was zu einer hohen Trefferquote unseres Modells führt.

Tabelle mit der „leckenden“ Spalte Stage, die Informationen über die Zielspalte Stage (Binary) enthält.
Total Employees Annual Revenue (M$) Lead Source Forecast Deal ($) Stage Stage (Binary)
12078 2705 Partner 369,000 6 - Closed/Lost LOST
100761783Inside sales71,0006 - Closed/WonWON
85182114Inside sales294,0006 - Closed/LostLOST
39781159Sales rep214,0006 - Closed/WonWON
35172285Marketing promo154,0006 - Closed/LostLOST
337097Customer referral41,0006 - Closed/WonWON

Zielleck

Ein Zielleck ist eine Form von Datenleck. Ein Zielleck tritt auf, wenn Funktionsdaten auf Zieldaten verweisen, die für Vorhersagen verwendet werden könnten. Die Verweise oder "Lecks" können direkt oder indirekt sein.

Mit der intelligenten Modelloptimierung identifiziert AutoML Ziellecks und verhindert, dass sie in Ihre Modelle eingeschleust werden. Funktionen, die auf Ziellecks hindeuten, werden automatisch erkannt und aus dem Modelltraining entfernt. Weitere Informationen zur intelligenten Modelloptimierung finden Sie unter Intelligente Modelloptimierung.

Identifizieren von Datenlecks

Um Datenlecks zu identifizieren, stellen Sie sich Fragen wie „Werde ich die gleichen Informationen für Datensatzeinträge zum Zeitpunkt der Vorhersage haben?“ oder „Wird der Datensatzeintrag in 30 Tagen der Gleiche sein?“ Beachten Sie, dass alle Daten in Ihrem Trainingsdatensatz für die Zeitbeschränkung in Ihrer Geschäftsfrage relevant sein müssen.

Wenn Sie ein Modell trainiert haben, können Sie nach den folgenden Hinweisen in den Modellmetriken suchen:

  • Hohe Trefferraten: Ist die Trefferrate tatsächlich hoch? Liegt z. B. der F1-Score über 85?

  • Featurerelevanz: Ist ein Feature wesentlich relevanter als alles andere?

  • Holdout-Trefferrate: Ist die Trefferrate für Holdout-Daten wesentlich niedriger als die Kreuzvalidierungs-Trefferrate?

Die Tabelle zeigt Beispiele häufiger Features, die ein Datenleck verursachen können.

Geschäftsanwendungsfall Ziel

Features mit möglichen Datenlecks

Führt eine Verkaufschance zum Abschluss?

Abschluss (Ja oder Nein)

Phase, Abschlussdatum, Rechnungsdetails, gezahlte Provisionen

Zukünftigen Transaktionsbetrag vorhersagen

Betrag der nächsten Transaktion

Steuern, Bestelldetails

Wird ein Lead in eine Chance konvertiert?

Konvertiert (Ja oder Nein)

Chancendetails, Konversionsrate

Wird ein Kunde kündigen?

Kündigen (Ja oder Nein)

Kündigungsgrund, Kündigungsdatum, statische Kundenverweildauer, Kundentemperatur

Wird ein Mitarbeiter freiwillig kündigen?

Kündigen (Ja oder Nein)

Details zum Abschlussgespräch, Kündigungsdatum, Angaben im Kündigungsschreiben

Vermeiden von Datenlecks

Die beste Art zum Vermeiden von Datenlecks besteht darin, das strukturierte Framework zu verwenden, um eine gute geschäftliche Frage und einen guten Datensatz zu erhalten. Weitere Informationen finden Sie unter Definieren von Fragen für maschinelles Lernen.

TipphinweisWenn Sie eine Spalte mit einem Datenleck identifiziert haben, die im Modelltraining nicht verwendet werden sollte, können Sie diese dennoch im Datensatz beibehalten. Schließen Sie dieses Feature einfach aus dem Trainingsdatensatz in Ihrem Experiment für maschinelles Lernen aus.
VERWANDTE LERNINHALTE:

Weitere Informationen

Hat diese Seite Ihnen geholfen?

Wenn Sie Probleme mit dieser Seite oder ihren Inhalten feststellen – einen Tippfehler, einen fehlenden Schritt oder einen technischen Fehler –, teilen Sie uns bitte mit, wie wir uns verbessern können!