Ga naar hoofdinhoud Ga naar aanvullende inhoud

Lekken van gegevens

Wanneer gegevens lekken betekent dat dat de gegevens die zijn gebruikt om een machine learning-algoritme te trainen, de informatie omvatten die u probeert te voorspellen. Dit kan ertoe leiden dat het model tijdens de training beter presteert dan in werkelijkheid. Dit zou onjuiste zekerheid bieden over hoe goed het model presteert. Leer hoe u lekkage van gegevens kunt identificeren en kunt voorkomen om betrouwbare voorspellingen te krijgen.

Er zijn twee manieren waarop gegevens kunnen lekken:

  • Wanneer één of meer kenmerken in de trainingsverzameling kan/kunnen worden gebruikt om de doelvariabele af te leiden die u probeert te voorspellen.

  • Wanneer één of meer kenmerken in de trainingsverzameling informatie omvat(ten) die ten tijde van de voorspelling niet bekend zou zijn.

In de volgende tabel is de kolom Fase een gedupliceerde kolom van de kolom Fase (binair) die we willen voorspellen. Door Fase op te nemen in de gegevensverzameling voor training, zouden we het antwoord op het verwachte resultaat kunnen geven en dat zou een hogere score opleveren voor ons model.

Tabel met de 'lekkende kolom' Fase die informatie bevat over de doelkolom Fase (binair)

Tabel met voorbeeldgegevens.

Lekkage van gegevens identificeren

Om de lekkage van gegevens te identificeren kunt u vragen stellen zoals "Zijn dezelfde gegevens beschikbaar voor records op het moment dat een voorspelling moet worden gedaan?" of "Is de record over 30 dagen hetzelfde?". Vergeet niet dat alle gegevens in uw gegevensverzameling voor training relevant moeten zijn voor de tijdslimiet in uw bedrijfsvraag.

Wanneer u een model hebt getraind, kunt u in de metrische gegevens van model zoeken naar de volgende aanwijzingen.

  • Hoge scores: is de score heel hoog? Bijvoorbeeld: is de F1-score hoger dan 85?

  • Kenmerkbelang: is één kenmerk veel belangrijker dan alle andere kenmerken?

  • Evaluatiescore: is de evaluatiescore veel lager dan de kruisvalidatiescore?

De tabel toont voorbeelden van veelvoorkomende kenmerken die mogelijk lekken van gegevens kunnen veroorzaken.

Zakelijke use case Doel

Mogelijke lekgevoelige kenmerken

Zal een verkoopkans worden afgesloten?

Sluiten (Ja of Nee)

Fase, sluitingsdatum, factuurdetails, betaalde commissies

Voorspel een toekomstig transactiebedrag

Bedrag van de volgende transactie

Belastingen, besteldetails

Zal een lead worden geconverteerd in een kans?

Converteren (Ja of Nee)

Kansdetails, conversiedatum

Zal een klant vertrekken?

Vertrekken (Ja of Nee)

Reden voor vertrek, datum van vertrek, statische tijd dat klant blijft, mening klant

Zal een werknemer een dienstverband vrijwillig beëindigen?

Beëindigen (Ja of Nee)

Details exitgesprek, datum van beëindiging, informatie ontslagbrief

Lekken gegevens voorkomen

De beste manier om het lekken van gegevens te voorkomen is om het gestructureerde kader te gebruiken om een goede bedrijfsvraag en gegevensverzameling te verkrijgen. Ga voor meer informatie naar Definieer machine learning-vragen.

TipAls u een lekkende kolom hebt geïdentificeerd die niet zou moeten worden gebruikt voor de training van het model, kunt u deze nog wel in de gegevensverzameling houden. U kunt dit kenmerk gewoon uitsluiten uit de trainingsgegevens in uw machine learning-experiment.
GERELATEERD LESMATERIAAL:

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!