Lekken van gegevens
Wanneer gegevens lekken betekent dat dat de gegevens die zijn gebruikt om een machine learning-algoritme te trainen, de informatie omvatten die u probeert te voorspellen. Dit kan ertoe leiden dat het model tijdens de training beter presteert dan in werkelijkheid. Dit zou onjuiste zekerheid bieden over hoe goed het model presteert. Leer hoe u lekkage van gegevens kunt identificeren en kunt voorkomen om betrouwbare voorspellingen te krijgen.
Over het algemeen worden gegevenslekken veroorzaakt door een van het volgende:
-
Wanneer één of meer functies in de trainingsverzamelingkunnen worden gebruikt om de doelvariabele af te leiden die u probeert te voorspellen. Uw doel is bijvoorbeeld een Sales veld en een van uw functies is een Sales Tax veld dat is berekend op basis van Sales.
-
Wanneer één of meer functies in de trainingsverzameling informatie omvatten die ten tijde van de voorspelling niet bekend zouden zijn.
In de volgende tabel is de kolom Stage een gedupliceerde kolom van de kolom Stage (Binary) die we willen voorspellen. Door Stage op te nemen in de gegevensverzameling voor training, zouden we het antwoord op het verwachte resultaat kunnen geven en dat zou een hogere score opleveren voor ons model.
Total Employees | Annual Revenue (M$) | Lead Source | Forecast Deal ($) | Stage | Stage (Binary) |
---|---|---|---|---|---|
12078 | 2705 | Partner | 369,000 | 6 - Closed/Lost | LOST |
10076 | 1783 | Inside sales | 71,000 | 6 - Closed/Won | WON |
8518 | 2114 | Inside sales | 294,000 | 6 - Closed/Lost | LOST |
3978 | 1159 | Sales rep | 214,000 | 6 - Closed/Won | WON |
3517 | 2285 | Marketing promo | 154,000 | 6 - Closed/Lost | LOST |
3370 | 97 | Customer referral | 41,000 | 6 - Closed/Won | WON |
Doellek
Een doellek is een vorm van een gegevenslek. Doellekken ontstaan wanneer functiegegevens verwijzen naar doelgegevens die voor voorspellingen gebruikt kunnen worden. De verwijzingen, of 'lekken', kunnen direct of indirect zijn.
Met intelligente modeloptimalistie identificeert AutoML doellekken en voorkomt dat ze in uw modellen worden geïntroduceerd. Functies die wijzen op doellekken worden automatisch gedetecteerd en verwijderd uit de modeltraining. Zie Intelligente modeloptimalisatie voor meer informatie over intelligente modeloptimalisatie.
Lekkage van gegevens identificeren
Om de lekkage van gegevens te identificeren kunt u vragen stellen zoals "Zijn dezelfde gegevens beschikbaar voor records op het moment dat een voorspelling moet worden gedaan?" of "Is de record over 30 dagen hetzelfde?". Vergeet niet dat alle gegevens in uw gegevensverzameling voor training relevant moeten zijn voor de tijdslimiet in uw bedrijfsvraag.
Wanneer u een model hebt getraind, kunt u in de metrische gegevens van model zoeken naar de volgende aanwijzingen.
-
Hoge scores: is de score heel hoog? Bijvoorbeeld: is de F1-score hoger dan 85?
-
Functie-urgentie: is één functie veel belangrijker dan alle andere functies?
-
Evaluatiescore: is de evaluatiescore veel lager dan de kruisvalidatiescore?
De tabel toont voorbeelden van veelvoorkomende functies die mogelijk lekken van gegevens kunnen veroorzaken.
Zakelijke use case | Doel |
Mogelijke lekgevoelige functies |
---|---|---|
Zal een verkoopkans worden afgesloten? |
Sluiten (Ja of Nee) |
Fase, sluitingsdatum, factuurdetails, betaalde commissies |
Voorspel een toekomstig transactiebedrag |
Bedrag van de volgende transactie |
Belastingen, besteldetails |
Zal een lead worden geconverteerd in een kans? |
Converteren (Ja of Nee) |
Kansdetails, conversiedatum |
Zal een klant vertrekken? |
Vertrekken (Ja of Nee) |
Reden voor vertrek, datum van vertrek, statische tijd dat klant blijft, mening klant |
Zal een werknemer een dienstverband vrijwillig beëindigen? |
Beëindigen (Ja of Nee) |
Details exitgesprek, datum van beëindiging, informatie ontslagbrief |
Lekken gegevens voorkomen
De beste manier om het lekken van gegevens te voorkomen is om het gestructureerde kader te gebruiken om een goede bedrijfsvraag en gegevensverzameling te verkrijgen. Ga voor meer informatie naar Definieer machine learning-vragen.