Lekken van gegevens

Wanneer gegevens lekken betekent dat dat de gegevens die zijn gebruikt om een machine learning-algoritme te trainen, de informatie omvatten die u probeert te voorspellen. Dit kan ertoe leiden dat het model tijdens de training beter presteert dan in werkelijkheid. Dit zou onjuiste zekerheid bieden over hoe goed het model presteert. Leer hoe u lekkage van gegevens kunt identificeren en kunt voorkomen om betrouwbare voorspellingen te krijgen.

Over het algemeen worden gegevenslekken veroorzaakt door een van het volgende:

Wanneer één of meer kenmerken in de trainingsverzameling kan/kunnen worden gebruikt om de doelvariabele af te leiden die u probeert te voorspellen. Uw doel is bijvoorbeeld een Sales veld en een van uw functies is een Sales Tax veld dat is berekend op basis van Sales.
Wanneer één of meer kenmerken in de trainingsverzameling informatie omvat(ten) die ten tijde van de voorspelling niet bekend zou zijn.

In de volgende tabel is de kolom Stage een gedupliceerde kolom van de kolom Stage (Binary) die we willen voorspellen. Door Stage op te nemen in de gegevensverzameling voor training, zouden we het antwoord op het verwachte resultaat kunnen geven en dat zou een hogere score opleveren voor ons model.

Tabel met de 'lekkende kolom' Stage die informatie bevat over de doelkolom Stage (Binary)
Total Employees	Annual Revenue (M$)	Lead Source	Forecast Deal ($)	Stage	Stage (Binary)
12078	2705	Partner	369,000	6 - Closed/Lost	LOST
10076	1783	Inside sales	71,000	6 - Closed/Won	WON
8518	2114	Inside sales	294,000	6 - Closed/Lost	LOST
3978	1159	Sales rep	214,000	6 - Closed/Won	WON
3517	2285	Marketing promo	154,000	6 - Closed/Lost	LOST
3370	97	Customer referral	41,000	6 - Closed/Won	WON

Doellek

Een doellek is een vorm van een gegevenslek. Doellekken ontstaan wanneer functiegegevens verwijzen naar doelgegevens die voor voorspellingen gebruikt kunnen worden. De verwijzingen, of 'lekken', kunnen direct of indirect zijn.

Met intelligente modeloptimalistie identificeert Qlik Predict doellekken en voorkomt dat ze in uw modellen worden geïntroduceerd. Functies die wijzen op doellekken worden automatisch gedetecteerd en verwijderd uit de modeltraining. Zie Intelligente modeloptimalisatie voor meer informatie over intelligente modeloptimalisatie.

Lekkage van gegevens identificeren

Om de lekkage van gegevens te identificeren kunt u vragen stellen zoals "Zijn dezelfde gegevens beschikbaar voor records op het moment dat een voorspelling moet worden gedaan?" of "Is de record over 30 dagen hetzelfde?". Vergeet niet dat alle gegevens in uw gegevensverzameling voor training relevant moeten zijn voor de tijdslimiet in uw bedrijfsvraag.

Wanneer u een model hebt getraind, kunt u in de metrische gegevens van model zoeken naar de volgende aanwijzingen.

Hoge scores: is de score heel hoog? Bijvoorbeeld: is de F1-score hoger dan 85?
Functie-urgentie: is één functie veel belangrijker dan alle andere functies?
Evaluatiescore: is de evaluatiescore veel lager dan de kruisvalidatiescore?

De tabel toont voorbeelden van veelvoorkomende kenmerken die mogelijk lekken van gegevens kunnen veroorzaken.

Zakelijke use case	Doel	Mogelijke lekgevoelige functies
Zal een verkoopkans worden afgesloten?	Sluiten (Ja of Nee)	Fase, sluitingsdatum, factuurdetails, betaalde commissies
Voorspel een toekomstig transactiebedrag	Bedrag van de volgende transactie	Belastingen, besteldetails
Zal een lead worden geconverteerd in een kans?	Converteren (Ja of Nee)	Kansdetails, conversiedatum
Zal een klant vertrekken?	Vertrekken (Ja of Nee)	Reden voor vertrek, datum van vertrek, statische tijd dat klant blijft, mening klant
Zal een werknemer een dienstverband vrijwillig beëindigen?	Beëindigen (Ja of Nee)	Details exitgesprek, datum van beëindiging, informatie ontslagbrief

Lekken gegevens voorkomen

De beste manier om het lekken van gegevens te voorkomen is om het gestructureerde kader te gebruiken om een goede bedrijfsvraag en gegevensverzameling te verkrijgen. Ga voor meer informatie naar Definieer machine learning-vragen.

Als u een lekkende kolom hebt geïdentificeerd die niet zou moeten worden gebruikt voor de training van het model, kunt u deze nog wel in de gegevensverzameling houden. U kunt dit kenmerk gewoon uitsluiten uit de trainingsgegevens in uw machine learning-experiment.

Was deze pagina nuttig?

Als u problemen ervaart op deze pagina of de inhoud onjuist is – een tikfout, een ontbrekende stap of een technische fout – laat het ons weten!

Geef hier uw feedback