Lekken van gegevens
Wanneer gegevens lekken betekent dat dat de gegevens die zijn gebruikt om een machine learning-algoritme te trainen, de informatie omvatten die u probeert te voorspellen. Dit kan ertoe leiden dat het model tijdens de training beter presteert dan in werkelijkheid. Dit zou onjuiste zekerheid bieden over hoe goed het model presteert. Leer hoe u lekkage van gegevens kunt identificeren en kunt voorkomen om betrouwbare voorspellingen te krijgen.
Er zijn twee manieren waarop gegevens kunnen lekken:
-
Wanneer één of meer kenmerken in de trainingsverzameling kan/kunnen worden gebruikt om de doelvariabele af te leiden die u probeert te voorspellen.
-
Wanneer één of meer kenmerken in de trainingsverzameling informatie omvat(ten) die ten tijde van de voorspelling niet bekend zou zijn.
In de volgende tabel is de kolom Fase een gedupliceerde kolom van de kolom Fase (binair) die we willen voorspellen. Door Fase op te nemen in de gegevensverzameling voor training, zouden we het antwoord op het verwachte resultaat kunnen geven en dat zou een hogere score opleveren voor ons model.
Lekkage van gegevens identificeren
Om de lekkage van gegevens te identificeren kunt u vragen stellen zoals "Zijn dezelfde gegevens beschikbaar voor records op het moment dat een voorspelling moet worden gedaan?" of "Is de record over 30 dagen hetzelfde?". Vergeet niet dat alle gegevens in uw gegevensverzameling voor training relevant moeten zijn voor de tijdslimiet in uw bedrijfsvraag.
Wanneer u een model hebt getraind, kunt u in de metrische gegevens van model zoeken naar de volgende aanwijzingen.
-
Hoge scores: is de score heel hoog? Bijvoorbeeld: is de F1-score hoger dan 85?
-
Kenmerkbelang: is één kenmerk veel belangrijker dan alle andere kenmerken?
-
Evaluatiescore: is de evaluatiescore veel lager dan de kruisvalidatiescore?
De tabel toont voorbeelden van veelvoorkomende kenmerken die mogelijk lekken van gegevens kunnen veroorzaken.
Zakelijke use case | Doel |
Mogelijke lekgevoelige kenmerken |
---|---|---|
Zal een verkoopkans worden afgesloten? |
Sluiten (Ja of Nee) |
Fase, sluitingsdatum, factuurdetails, betaalde commissies |
Voorspel een toekomstig transactiebedrag |
Bedrag van de volgende transactie |
Belastingen, besteldetails |
Zal een lead worden geconverteerd in een kans? |
Converteren (Ja of Nee) |
Kansdetails, conversiedatum |
Zal een klant vertrekken? |
Vertrekken (Ja of Nee) |
Reden voor vertrek, datum van vertrek, statische tijd dat klant blijft, mening klant |
Zal een werknemer een dienstverband vrijwillig beëindigen? |
Beëindigen (Ja of Nee) |
Details exitgesprek, datum van beëindiging, informatie ontslagbrief |
Lekken gegevens voorkomen
De beste manier om het lekken van gegevens te voorkomen is om het gestructureerde kader te gebruiken om een goede bedrijfsvraag en gegevensverzameling te verkrijgen. Ga voor meer informatie naar Definieer machine learning-vragen.