数据泄露

数据泄漏意味着用于训练机器学习算法的数据包括您试图预测的信息。这可能会导致模型在训练中比在现实世界中表现得更好，从而对模型的表现产生错误的保证。了解如何识别和防止数据泄漏，以获得可靠的预测。

一般来说，数据泄露由以下至少一种原因引起：

当训练集中的一个或多个特征可用于导出您试图预测的目标变量时。例如，您的目标是一个 Sales 字段，而您的一个特性是从 Sales 中计算的 Sales Tax 字段。
当训练集中的一个或多个特征包括在预测时未知的信息时。

在下表中，Stage 列是我们要预测的 Stage (Binary) 列的重复列。通过将 Stage 包含在训练数据集中，我们将为预期结果提供答案，从而为我们的模型带来高分。

带有“漏列”Stage 的表，其中包含有关目标列 Stage (Binary) 的信息
Total Employees	Annual Revenue (M$)	Lead Source	Forecast Deal ($)	Stage	Stage (Binary)
12078	2705	Partner	369,000	6 - Closed/Lost	LOST
10076	1783	Inside sales	71,000	6 - Closed/Won	WON
8518	2114	Inside sales	294,000	6 - Closed/Lost	LOST
3978	1159	Sales rep	214,000	6 - Closed/Won	WON
3517	2285	Marketing promo	154,000	6 - Closed/Lost	LOST
3370	97	Customer referral	41,000	6 - Closed/Won	WON

目标泄露

目标泄露是数据泄露的一种形式。当特性数据引用可用于预测的目标数据时，就会发生目标泄露。引用或“泄露”可以是直接的或间接的。

通过智能模型优化，Qlik Predict 可以识别目标泄露并防止其被引入您的模型。会自动检测指示目标泄露的特性并从模型训练中将其删除。有关智能模型优化的更多信息，请参阅智能模型优化。

要识别数据泄露，请考虑诸如“您在进行预测时是否具有相同的记录信息？”或“30 天后记录是否相同？”之类的问题。请记住，训练数据集中的所有数据都必须与业务问题中的时间限制相关。

当您训练了一个模型后，可以在模型度量中查找以下线索。

下表显示了可能导致数据泄漏的常见特征示例。

防止数据泄露的最佳方法是使用结构化框架来获得良好的业务问题和数据集。有关更多信息，请参阅定义机器学习问题。

如果确定了不应在模型训练中使用的泄露列，则仍可以将其保存在数据集中。只需在机器学习实验中从训练数据中排除此特征。

如果您发现此页面或其内容有任何问题 – 打字错误、遗漏步骤或技术错误 – 请告诉我们！