这本书 《应用预测建模》 教授了实用的机器学习理论,并附有 R 语言的代码示例。
这是一本优秀的书籍,强烈推荐给机器学习从业者和 R 语言机器学习用户。
在本文中,您将发现这本书的优点以及它如何帮助您成为一名更优秀的机器学习预测建模师。
关于本书
《应用预测建模》由 Max Kuhn 和 Kjell Johnson 撰写。Max Kuhn 是辉瑞公司(Pfizer)的非临床统计总监,以其在 R 语言中 caret 软件包的开发者而闻名。Kjell Johnson 是 Arbor Analytics 的联合创始人,曾任辉瑞公司总监。
这本书有 自己的专属网站,提供了书中部分数据和代码,以及关于书籍内容和勘误的通用信息。
该书于2013年9月出版,我记得当时很快就售罄了。我不得不等到第二次印刷才拿到我的副本。它如此受欢迎且需求量大的原因是因为这是一本由技术精湛的作者撰写的出色参考书。
他们将用统计学和机器学习算法解决问题的过程称为“应用预测建模”,这也是书的标题,但你也可以称之为应用机器学习。
重点在于从真实数据中构建模型以进行预测(而不是描述过去),并且选择最佳模型(准确率最高)是该过程的首要目标。
书籍结构
本书分为4部分
- 一般策略:这包括数据准备和测试环境设计,同时避免过拟合。
- 回归模型:用于构建回归模型的方法,例如线性、非线性模型和决策树。
- 分类模型:用于构建分类模型的方法,同样包括线性、非线性模型和决策树。
- 其他考虑因素:其他重要主题,如特征重要性、特征选择和性能改进。
前三部分都以一个真实世界的案例研究结束。我真的很喜欢这些章节,特别是关于预测混凝土混合料抗压强度的回归分析。我甚至 写了为什么这是一个巧妙的例子。
结构稳健,侧重于模型类型及其构建。
我认为有一个领域应该得到一些关注,那就是针对新问题的 应用预测建模 的一般过程。这一点可以从案例研究章节中推断出来,但如果能明确说明会更有价值。
书籍内容
每一章都专注于主题的核心。它是应用信息,只包含理解事物运行原理所需的足够理论。我喜欢这一点。作者并没有深入探讨算法和方法的推导和“为什么”,而是侧重于“如何”工作,并附带一些方程式或伪代码。
每章都有一个“计算”部分,其中模型和方法在小型数据集上进行演示,几乎总是使用 R 中的 caret 软件包。我对此没有任何意见。示例简短且足以与章节内容相关联。我甚至会说,使用 caret 是最佳实践,而且我怀疑这也是本书如此受欢迎的原因之一。
最后,每章都以“练习”结束,鼓励您应用本章中解释和演示的模型和方法来回答一些特定问题。我没有做练习(我在火车上读书),但我很感激它们的存在,并鼓励读者考虑尝试。
我确实发现了一些重复。有些相同的算法在回归和分类部分都有介绍,并且被介绍了两次。我还发现算法一个接一个的呈现有时有点枯燥。内容很棒,但其中很多内容可能更适合作为参考书而不是一本需要从头读到尾的书。话虽如此,“一般策略”和“其他考虑因素”中的章节恰恰相反,我鼓励严肃的从业者阅读这些章节并做大量笔记。
其中一个附录为需要的人提供了 R 语言的介绍。
还有一个可爱的小表格总结了模型及其差异,强调了建议的预处理、参数数量等。我认为这很酷,因为它能促使你在将黑箱方法应用于数据之前进行更深入的思考。它位于 附录 A 的第 550 页 (链接到该页)。
需要更多关于R机器学习的帮助吗?
参加我为期14天的免费电子邮件课程,了解如何在您的项目中使用R(附带示例代码)。
点击注册,同时获得该课程的免费PDF电子书版本。
总结
这本书不适合初学者,而是适合想要入门或提高对特定算法或 R 语言(或两者)理解的中间机器学习从业者。与《统计学习要素》等同类书籍相比,它更易于理解且更具应用性。
我非常喜欢这本书,并在通勤的一周内读完了。我做了很多笔记,因为我很欣赏对那些不常被提及(如过拟合、特征选择、类别不平衡)的实际主题的经验性方法。我现在也把它当作参考书,因为算法的描述非常好。
如果您认为这本书适合您,请立即购买一本(并阅读它!)。您不会后悔的。
我读过 ESL 和 APM。毫无疑问,在应用机器学习方法方面,APM 更胜一筹。ESL 如果您正在学习研究生课程并且它是指定的教科书,那它就很好。
您有推荐给初学者的书吗?
是的,就在这里。
https://machinelearning.org.cn/products/