测试集和验证集有什么区别？

作者： Jason Brownlee 于 2020年8月14日发表在机器学习流程 345

验证数据集是从训练模型中预留出来的数据样本，用于在调整模型超参数时估算模型的技能。

验证数据集不同于测试数据集，测试数据集同样是从模型训练中预留出来的，但它用于在比较或选择最终模型时，提供对最终调优模型技能的无偏估算。

在应用机器学习中，关于验证数据集到底是什么以及它如何区别于测试数据集，存在很多混淆。

在本贴中，你将发现关于训练集、测试集和验证集的清晰定义，以及如何在自己的机器学习项目中使用它们。

阅读本文后，你将了解：

机器学习领域的专家如何定义训练集、测试集和验证集。
验证集和测试集在实践中的区别。
在评估模型时，你可以使用的一些程序来最大化利用验证集和测试集。

让我们开始吧。

What is the Difference Between Test and Validation Datasets?

测试集和验证集有什么区别？
照片作者：veddderman，部分权利保留。

教程概述

本教程分为4个部分，它们是：

专家眼中的验证数据集是什么？
训练集、验证集和测试集的定义
验证数据集是不够的
验证集和测试集消失了

专家眼中的验证数据集是什么？

我发现了解实践者和专家如何描述数据集非常有用。

在本节中，我们将看看训练集、测试集和验证集是如何定义的，以及它们根据一些顶级机器学习书籍和参考文献的差异。

通常，“验证集”这个词与“测试集”这个词可以互换使用，指的是从训练模型中预留出来的数据样本。

在训练数据集上评估模型技能会导致有偏的分数。因此，模型在预留样本上进行评估，以提供模型技能的无偏估算。这通常被称为算法评估的训练-测试分割方法。

假设我们想估算与用一组观察值拟合特定统计学习方法相关的测试误差。验证集方法 [...] 是这项任务的一个非常简单的策略。它涉及将可用观察集随机分为两部分：训练集和验证集（或留出集）。模型在训练集上拟合，拟合后的模型用于预测验证集中的观察值的响应。由此产生的验证集误差率—在定量响应的情况下通常使用 MSE 来评估—提供了测试误差率的估算。

— Gareth James 等人，第176页，《统计学习导论：R语言应用》，2013年。

在Kuhn和Johnson精彩的著作《预测建模应用》中，我们可以直接看到它们的互换性。在这个例子中，他们明确指出，最终的模型评估必须在一个之前未用于训练模型或调整模型参数的留出数据集上进行。

理想情况下，模型应该在未用于构建或微调模型的样本上进行评估，以便它们能够提供模型有效性的无偏印象。当手头有大量数据时，可以留出一部分样本来评估最终模型。“训练”数据集是用于创建模型的样本的通用术语，而“测试”或“验证”数据集用于限定性能。

— Max Kuhn 和 Kjell Johnson，第67页，《预测建模应用》，2013年。

也许传统上用于评估最终模型性能的数据集被称为“测试集”。Russell和Norvig在其开创性的AI教科书中重申了将测试集完全分开的重要性。他们将以任何方式使用测试集的信息称为“窥视”。他们建议在所有模型调整完成后，将测试集完全锁定起来。

窥视是同时使用测试集性能来选择假设和评估它的结果。避免这种情况的方法是真正地留出测试集——在完成所有学习并只是想获得对最终假设的独立评估之前，将其锁定起来。（然后，如果你不喜欢结果……如果你想回去寻找一个更好的假设，你就必须获取并锁定一个全新的测试集。）

— Stuart Russell 和 Peter Norvig，第709页，《人工智能：一种现代方法》，2009年（第三版）。

重要的是，Russell和Norvig评论说，用于拟合模型的训练数据集可以进一步分为训练集和验证集，而这个训练数据集的子集，称为验证集，可以用来尽早估计模型的技能。

如果测试集被锁起来，但你仍然想衡量在未见过的数据上的性能，以便选择一个好的假设，那么就把可用数据（不包括测试集）分成训练集和验证集。

— Stuart Russell 和 Peter Norvig，第709页，《人工智能：一种现代方法》，2009年（第三版）。

这个验证集的定义也得到了该领域其他开创性文本的证实。一个很好的（也是较老的）例子是Ripley的书《模式识别与神经网络》中的术语表。具体来说，训练集、验证集和测试集的定义如下：

– 训练集：用于学习的示例集，即拟合分类器的参数。

– 验证集：用于调整分类器参数的示例集，例如选择神经网络中的隐藏单元数量。

– 测试集：仅用于评估已完全指定的分类器性能的示例集。

— Brian Ripley，第354页，《模式识别与神经网络》，1996年。

这些是这些术语推荐的定义和用法。

这些定义具有规范性，一个很好的例子是在著名的神经网络FAQ中重复出现。除了重申Ripley的术语表定义外，它还讨论了在应用机器学习中“测试集”和“验证集”这两个术语的常见误用。

机器学习领域的文献经常颠倒“验证”和“测试”集的意思。这是困扰人工智能研究的术语混乱最明显的例子。

关键在于，根据神经网络（NN）文献的标准定义，测试集绝不用于在两个或多个网络之间进行选择，因此测试集的误差提供了对泛化误差的无偏估算（假设测试集能代表总体等）。

— 主题：总体、样本、训练集、设计集、验证集和测试集是什么？

您知道任何其他清晰的这些术语的定义或用法吗？例如，论文或教科书中的引用？
请在下面的评论中告诉我。

训练集、验证集和测试集的定义

重申上面研究专家的发现，本节提供了这三个术语的明确定义。

训练数据集：用于拟合模型的数据样本。
验证数据集：在调整模型超参数时，用于对在训练数据集上拟合的模型进行无偏评估的数据样本。当将验证集上的技能纳入模型配置时，评估会变得更有偏见。
测试数据集：用于对在训练数据集上拟合的最终模型进行无偏评估的数据样本。

我们可以用一个伪代码草图来具体说明。

# split data
data = ...
train, validation, test = split(data)

# tune model hyperparameters
parameters = ...
for params in parameters:
	model = fit(train, params)
	skill = evaluate(model, validation)

# evaluate final model for comparison with other models
model = fit(train)
skill = evaluate(model, test)

# 分割数据

data = ...

train, validation, test = split(data)

# 调整模型超参数

parameters = ...

for params in parameters

model = fit(train, params)

skill = evaluate(model, validation)

# 评估最终模型以与其他模型进行比较

model = fit(train)

skill = evaluate(model, test)

以下是一些额外的澄清说明。

验证数据集也可能在其他形式的模型准备中发挥作用，例如特征选择。
最终模型可以拟合在训练集和验证集的聚合数据上。

这些定义对您的用例是否清晰？
如果不是，请在下方提问。

验证数据集是不够的

还有其他方法可以计算在未见过的数据上的模型技能的无偏（或者在验证数据集的情况下，逐渐有偏）估算。

一个流行的例子是使用 k 折交叉验证来调整模型超参数，而不是使用单独的验证数据集。

在他们的书中，Kuhn和Johnson有一个标题为“数据分割建议”的部分，其中他们列出了使用单一“测试集”（或验证集）的局限性。

如前所述，有一个强有力的技术论据反对单一、独立的测试集。

– 测试集是对模型的单次评估，其表征结果不确定性的能力有限。
– 比例上较大的测试集以增加性能估算偏差的方式分割数据。
– 在样本量较小的情况下
– 模型可能需要所有可能的数据点来充分确定模型值。
– 测试集的不确定性可能非常大，以至于不同的测试集可能产生非常不同的结果。
– 重采样方法可以对模型在未来样本上的表现产生合理的预测。

— Max Kuhn 和 Kjell Johnson，第78页，《预测建模应用》，2013年。

他们继续建议，对于小样本量，通常使用10折交叉验证，因为其性能估算具有理想的低偏差和低方差特性。他们建议在比较模型性能时使用bootstrap方法，因为其性能估算的方差较低。

对于较大的样本量，他们再次建议采用10折交叉验证方法，通常如此。

验证集和测试集消失了

在现代应用机器学习中，你很可能不会看到对训练集、验证集和测试集的引用。

如果实践者选择使用 k 折交叉验证来调整模型超参数（而不是训练集），那么对“验证数据集”的引用就会消失。

我们可以用伪代码草图来具体说明，如下：

# split data
data = ...
train, test = split(data)

# tune model hyperparameters
parameters = ...
k = ...
for params in parameters:
	skills = list()
	for i in k:
		fold_train, fold_val = cv_split(i, k, train)
		model = fit(fold_train, params)
		skill_estimate = evaluate(model, fold_val)
		skills.append(skill_estimate)
	skill = summarize(skills)

# evaluate final model for comparison with other models
model = fit(train)
skill = evaluate(model, test)

# 分割数据

data = ...

train, test = split(data)

# 调整模型超参数

parameters = ...

k = ...

for params in parameters

skills = list()

for i in k

fold_train, fold_val = cv_split(i, k, train)

model = fit(fold_train, params)

skill_estimate = evaluate(model, fold_val)

skills.append(skill_estimate)

skill = summarize(skills)

# 评估最终模型以与其他模型进行比较

model = fit(train)

skill = evaluate(model, test)

如果使用更广泛的模型交叉验证来嵌套训练集上的模型超参数的交叉验证，那么对“测试数据集”的引用也可能消失。

最终，你只剩下来自该领域的一个数据样本，我们可以继续称之为训练数据集。

进一步阅读

如果您想深入了解此主题，本节提供了更多资源。

您知道关于这个主题的其他好的资源吗？请在下面的评论中告诉我。

总结

在本教程中，你发现关于“验证数据集”和“测试数据集”这两个术语存在很多混淆，以及如何在评估自己的机器学习模型的技能时正确地理解这些术语。

具体来说，你学到了：

“训练数据集”、“验证数据集”和“测试数据集”在评估模型时具有明确的先例。
“验证数据集”主要用于描述在调整超参数和数据准备时对模型的评估，而“测试数据集”主要用于在将最终调优模型与其他最终模型进行比较时对其进行评估。
采用 k 折交叉验证等替代重采样方法时，“验证数据集”和“测试数据集”的概念可能会消失，尤其是在重采样方法嵌套的情况下。

你有什么问题吗？
在下面的评论中提出你的问题，我会尽力回答。

关于此主题的更多信息

如何在 Python 中对序列数据进行独热编码

RNN序列预测模型入门