机器学习需要多少训练数据？

作者： Jason Brownlee 于 2019年5月23日发布在机器学习流程 73

您需要的数据量取决于您问题的复杂性和您选择的算法的复杂性。

这是事实，但如果您正处于机器学习项目的关键阶段，则无济于事。

我经常被问到的一个问题是：

我需要多少数据？

我无法直接回答您或任何人的问题。但我可以为您提供几种思考这个问题的方式。

在本文中，我将概述一套方法，您可以使用它们来思考在应用机器学习解决您的问题时需要多少训练数据。

我希望其中一种或多种方法可以帮助您理解这个问题的难度，以及它如何与您试图解决的归纳问题的核心紧密相连。

让我们开始吧。

注意：您是否有自己决定机器学习需要多少训练数据的启发式方法？请在评论中分享。

How Much Training Data is Required for Machine Learning?

机器学习需要多少训练数据？
照片来源：Seabamirum，部分权利保留。

您为什么要问这个问题？

了解您询问所需训练数据集大小的原因很重要。

答案可能会影响您的下一步。

例如

您是否拥有过多的数据？考虑开发一些学习曲线来找出代表性样本的大小（如下文）。或者，考虑使用大数据框架来利用所有可用数据。
您是否拥有过少的数据？考虑确认您确实拥有过少的数据。考虑收集更多数据，或使用数据增强方法来人为地增加您的样本量。
您是否尚未收集数据？考虑收集一些数据并评估是否足够。或者，如果这是为了研究或数据收集成本高昂，请考虑与领域专家和统计学家交流。

更一般地说，您可能有更常见的疑问，例如：

我应该从数据库中导出多少条记录？
达到所需的性能水平需要多少样本？
训练集必须多大才能充分估计模型性能？
需要多少数据才能证明一个模型比另一个模型更好？
我应该使用训练/测试拆分还是 k 折交叉验证？

本文的建议可能旨在解决这些后一个问题。

在实践中，我通过学习曲线（如下文）、在小数据集上使用重采样方法（例如 k 折交叉验证和 bootstrap）以及为最终结果添加置信区间来回答这个问题。

您要求机器学习所需样本数量的原因是什么？
请在评论中告诉我。

那么，您需要多少数据？

1. 看情况；没人能告诉您

没有人能告诉您为您的预测建模问题需要多少数据。

这是无法知道的：一个棘手的问题，您必须通过实证调查来找出答案。

机器学习所需的数据量取决于许多因素，例如：

问题的复杂性，即名义上是最佳关联输入变量与输出变量的未知底层函数。
学习算法的复杂性，即名义上是用于从特定示例中归纳学习未知底层映射函数的算法。

这是我们的起点。

第一次有人问时，“视情况而定”是大多数从业者会给出的答案。

2. 类比推理

在您之前，很多人都处理过许多实际的机器学习问题。

其中一些人发表了他们的研究成果。

也许您可以参考与您的问题相似问题的研究，以估算所需数据的量。

类似地，研究算法性能如何随数据集大小变化是很常见的。也许这些研究可以告诉您需要多少数据来使用特定的算法。

也许您可以对多个研究进行平均。

在 Google、Google Scholar 和 Arxiv 上搜索论文。

3. 利用领域专业知识

您需要来自您问题的一个数据样本，该样本能代表您试图解决的问题。

总的来说，示例必须是独立且同分布的。

请记住，在机器学习中，我们正在学习一个映射函数，将输入数据映射到输出数据。学习到的映射函数的好坏取决于您提供给它用于学习的数据。

这意味着需要有足够的数据来合理地捕捉输入特征之间以及输入特征与输出特征之间可能存在的关系。

利用您的领域知识，或寻找领域专家，并推理出该领域以及可能需要的数据量，以合理地捕捉问题中有用的复杂性。

4. 使用统计启发式方法

有统计启发式方法可用于计算合适的样本量。

我见过的大多数启发式方法都是针对分类问题，作为类别数、输入特征或模型参数的函数。有些启发式方法看起来很严谨，有些则完全是临时的。

以下是一些您可以考虑的例子：

类别的倍数：每个类别必须有 x 个独立示例，其中 x 可以是数十、数百或数千（例如 5、50、500、5000）。
输入特征的倍数：示例数必须比输入特征数多 x%，其中 x 可以是数十（例如 10）。
模型参数的倍数：模型中的每个参数必须有 x 个独立示例，其中 x 可以是数十（例如 10）。

在我看来，它们都是临时的比例因子。

您是否使用过这些启发式方法？
效果如何？请在评论中告诉我。

在这个主题的理论工作中（不是我的专业领域！），分类器（例如 k-近邻）经常与最优贝叶斯决策规则进行对比，并且其难度以“维度灾难”的背景来表征；也就是说，随着输入特征数量的增加，问题的难度呈指数级增长。

例如

研究结果表明，对于高维问题的稀疏样本（例如少量样本和大量输入特征），应避免使用局部方法（如 k-近邻）。

为了更友好的讨论，请参阅：

第 2.5 节高维局部方法，统计学习要素：数据挖掘、推理和预测，2008 年。

5. 非线性算法需要更多数据

更强大的机器学习算法通常被称为非线性算法。

根据定义，它们能够学习输入和输出特征之间复杂非线性关系。您很可能正在使用这些类型的算法或打算使用它们。

这些算法通常更灵活，甚至是无参数的（除了模型参数的值之外，它们还可以确定建模问题所需的参数数量）。它们也是高方差的，意味着预测会根据用于训练它们的数据集而变化。这种增加的灵活性和强大性是以需要更多训练数据为代价的，通常是大量数据。

事实上，一些非线性算法，如深度学习方法，可以随着您提供更多数据而不断提高其性能。

如果线性算法每类有几百个示例就能获得良好性能，那么对于随机森林或人工神经网络等非线性算法，您可能需要每类有数千个示例。

6. 评估数据集大小与模型技能

在开发新的机器学习算法时，通常会展示甚至解释算法的性能如何响应数据量或问题复杂度。

这些研究可能由算法作者执行和发表，也可能不存在于您正在处理的算法或问题类型中。

我建议您使用您可用的数据和一种表现良好的算法（如随机森林）来执行自己的研究。

设计一项评估模型技能与训练数据集大小之间关系的研究。

将结果绘制成折线图，x 轴为训练数据集大小，y 轴为模型技能，这将让您了解数据大小如何影响您特定问题的模型技能。

这张图被称为学习曲线。

从这张图中，您或许可以预测开发一个熟练模型所需的数据量，或者在收益递减的转折点之前您实际需要多少数据。

我强烈建议普遍采用这种方法，以在对问题有全面理解的背景下开发稳健的模型。

7. 粗略估算

在应用机器学习算法时，您需要大量数据。

通常，您需要的数据比经典统计学中合理需要的数据还要多。

我经常以敷衍的回答来回答需要多少数据的问题：

获取并使用尽可能多的数据。

如果被追问，并且对您的问题毫无了解，我会说一些非常粗略的话，比如：

您需要数千个示例。
不少于数百个。
对于“平均”建模问题，理想情况下需要数万到数十万。
对于深度学习所处理的“难题”，则需要数百万到数千万。

同样，这只是更多临时的估算，但如果需要，它是一个起点。所以，开始吧！

8. 获取更多数据（无论如何！？）

大数据经常与机器学习一起讨论，但您可能不需要大数据来拟合您的预测模型。

有些问题需要大数据，您拥有的所有数据。例如，简单的统计机器翻译

数据的不合理有效性（以及Peter Norvig 的演讲）

如果您正在进行传统的预测建模，那么训练集大小很可能会达到收益递减点，您应该研究您的问题和您选择的模型，以确定该点在哪里。

请记住，机器学习是一个归纳过程。模型只能捕捉它所看到的内容。如果您的训练数据不包含边缘案例，那么模型很可能不支持它们。

不要拖延；开始吧

现在，停止准备建模您的问题，而是开始建模。

不要让训练集大小的问题阻止您开始进行预测建模。

在许多情况下，我认为这个问题是拖延的原因。

获取您所能获得的所有数据，使用您所拥有的数据，然后看看模型在您的问题上的效果如何。

从中学习，然后采取行动，通过进一步分析来更好地理解您所拥有的，通过增强来扩展您所拥有的数据，或从您的领域收集更多数据。

进一步阅读

如果您想深入了解此主题，本节提供了更多资源。

在 Quora、StackOverflow 和 CrossValidated 等问答网站上，关于这个问题有很多讨论。以下是一些精选的例子，可能会有所帮助。

我认为关于这个问题有一些很棒的统计研究；以下是一些我能找到的。

其他相关文章。

如果您知道更多，请在下面的评论中告诉我。

总结

在这篇文章中，您发现了一系列思考和推理回答常见问题的方法：

我需要多少训练数据用于机器学习？

这些方法有帮助吗？
在下面的评论中告诉我。

你有什么问题吗？
在下面的评论中提出你的问题，我会尽力回答。
当然，除了您具体需要多少数据的问题。

关于此主题的更多信息

Mini-Batch梯度下降的温和介绍以及如何配置Batch大小

参数和超参数之间有什么区别？