您需要的数据量取决于您问题的复杂性和您选择的算法的复杂性。这是事实,但如果您正处于机器学习项目的关键阶段,它并没有帮助。我经常收到一个问题是:我需要多少数据……

您需要的数据量取决于您问题的复杂性和您选择的算法的复杂性。这是事实,但如果您正处于机器学习项目的关键阶段,它并没有帮助。我经常收到一个问题是:我需要多少数据……
验证数据集是从训练模型的样本数据中预留出来的一份数据,用于在调整模型超参数时估计模型技能。验证数据集不同于测试数据集,测试数据集也从模型训练中预留出来,但而是用于提供无偏的……
探索和应用机器学习算法来处理无法放入内存的大型数据集是很常见的。这会带来一些问题,例如:我如何加载多个千兆字节的数据文件?当我尝试运行我的数据集时,算法会崩溃;我该怎么办?你能帮我解决内存不足的错误吗?在这……
我们用来对新数据进行预测的机器学习模型称为最终模型。在应用机器学习中,对于如何训练最终模型可能会存在混淆。初学者常会问这样的问题:我如何使用交叉验证进行预测?哪个……
开始并擅长竞争性机器学习的 4 步流程。Kaggle 是一个用于举办机器学习竞赛的社区和网站。竞争性机器学习是培养和练习您的技能以及展示您能力的好方法。在这篇文章中,您将发现一个简单的 4 步流程来开始……
想要在应用机器学习方面取得好成绩的关键在于在大量不同的数据集上进行练习。这是因为每个问题都不同,需要细微不同的数据准备和建模方法。在这篇文章中,您将发现 10 个您可以用来练习的标准机器学习数据集。我们开始吧。更新 2018 年 3 月:已添加……
32 个提示、技巧和窍门,可用于做出更好的预测。机器学习最有价值的部分是预测建模。这是对从历史数据训练出来的模型进行开发,并对新数据进行预测。在预测建模方面,最重要的问题是:如何……
5 个机器学习运营化最佳实践。并非所有预测模型都达到 Google 规模。有时您会开发一个小的预测模型,并希望将其集成到您的软件中。我最近收到一位读者的问题:实际上,我的机器学习知识中缺少一部分。所有教程都为您提供了步骤……
您如何为您的数据集选择最佳算法?机器学习是一个归纳问题,通过从领域特定的观察数据中学习一般规则。在不知道特定问题的情况下,事先无法(或不可能?)知道使用哪种表示或哪种算法才能最好地从数据中学习……
您如何在使用机器学习解决一个又一个问题时获得准确的结果?困难在于每个问题都是独一无二的,需要不同的数据源、特征、算法、算法配置等等。解决方案是使用一个清单,它能保证每次都获得一个好的结果。在这篇文章中,您将发现一个清单……