Ga naar hoofdinhoud Ga naar aanvullende inhoud

Lekken van gegevens

Wanneer gegevens lekken betekent dat dat de gegevens die zijn gebruikt om een machine learning-algoritme te trainen, de informatie omvatten die u probeert te voorspellen. Dit kan ertoe leiden dat het model tijdens de training beter presteert dan in werkelijkheid. Dit zou onjuiste zekerheid bieden over hoe goed het model presteert. Leer hoe u lekkage van gegevens kunt identificeren en kunt voorkomen om betrouwbare voorspellingen te krijgen.

Over het algemeen worden gegevenslekken veroorzaakt door een van het volgende:

  • Wanneer één of meer functies in de trainingsverzamelingkunnen worden gebruikt om de doelvariabele af te leiden die u probeert te voorspellen. Uw doel is bijvoorbeeld een Sales veld en een van uw functies is een Sales Tax veld dat is berekend op basis van Sales.

  • Wanneer één of meer functies in de trainingsverzameling informatie omvatten die ten tijde van de voorspelling niet bekend zouden zijn.

In de volgende tabel is de kolom Stage een gedupliceerde kolom van de kolom Stage (Binary) die we willen voorspellen. Door Stage op te nemen in de gegevensverzameling voor training, zouden we het antwoord op het verwachte resultaat kunnen geven en dat zou een hogere score opleveren voor ons model.

Tabel met de 'lekkende kolom' Stage die informatie bevat over de doelkolom Stage (Binary)
Total Employees Annual Revenue (M$) Lead Source Forecast Deal ($) Stage Stage (Binary)
12078 2705 Partner 369,000 6 - Closed/Lost LOST
100761783Inside sales71,0006 - Closed/WonWON
85182114Inside sales294,0006 - Closed/LostLOST
39781159Sales rep214,0006 - Closed/WonWON
35172285Marketing promo154,0006 - Closed/LostLOST
337097Customer referral41,0006 - Closed/WonWON

Doellek

Een doellek is een vorm van een gegevenslek. Doellekken ontstaan wanneer functiegegevens verwijzen naar doelgegevens die voor voorspellingen gebruikt kunnen worden. De verwijzingen, of 'lekken', kunnen direct of indirect zijn.

Met intelligente modeloptimalistie identificeert AutoML doellekken en voorkomt dat ze in uw modellen worden geïntroduceerd. Functies die wijzen op doellekken worden automatisch gedetecteerd en verwijderd uit de modeltraining. Zie Intelligente modeloptimalisatie voor meer informatie over intelligente modeloptimalisatie.

Lekkage van gegevens identificeren

Om de lekkage van gegevens te identificeren kunt u vragen stellen zoals "Zijn dezelfde gegevens beschikbaar voor records op het moment dat een voorspelling moet worden gedaan?" of "Is de record over 30 dagen hetzelfde?". Vergeet niet dat alle gegevens in uw gegevensverzameling voor training relevant moeten zijn voor de tijdslimiet in uw bedrijfsvraag.

Wanneer u een model hebt getraind, kunt u in de metrische gegevens van model zoeken naar de volgende aanwijzingen.

  • Hoge scores: is de score heel hoog? Bijvoorbeeld: is de F1-score hoger dan 85?

  • Functie-urgentie: is één functie veel belangrijker dan alle andere functies?

  • Evaluatiescore: is de evaluatiescore veel lager dan de kruisvalidatiescore?

De tabel toont voorbeelden van veelvoorkomende functies die mogelijk lekken van gegevens kunnen veroorzaken.

Zakelijke use case Doel

Mogelijke lekgevoelige functies

Zal een verkoopkans worden afgesloten?

Sluiten (Ja of Nee)

Fase, sluitingsdatum, factuurdetails, betaalde commissies

Voorspel een toekomstig transactiebedrag

Bedrag van de volgende transactie

Belastingen, besteldetails

Zal een lead worden geconverteerd in een kans?

Converteren (Ja of Nee)

Kansdetails, conversiedatum

Zal een klant vertrekken?

Vertrekken (Ja of Nee)

Reden voor vertrek, datum van vertrek, statische tijd dat klant blijft, mening klant

Zal een werknemer een dienstverband vrijwillig beëindigen?

Beëindigen (Ja of Nee)

Details exitgesprek, datum van beëindiging, informatie ontslagbrief

Lekken gegevens voorkomen

De beste manier om het lekken van gegevens te voorkomen is om het gestructureerde kader te gebruiken om een goede bedrijfsvraag en gegevensverzameling te verkrijgen. Ga voor meer informatie naar Definieer machine learning-vragen.

TipAls u een lekkende kolom hebt geïdentificeerd die niet zou moeten worden gebruikt voor de training van het model, kunt u deze nog wel in de gegevensverzameling houden. U kunt deze functie gewoon uitsluiten uit de trainingsgegevens in uw machine learning-experiment.
GERELATEERD LESMATERIAAL:

Meer informatie

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een typfout, een ontbrekende stap of een technische fout – laat het ons weten zodat we dit kunnen verbeteren!