真实世界的例子让机器学习的抽象描述变得具体。
在这篇文章中,您将踏上一次真实世界机器学习问题的巡礼。您将看到机器学习如何实际应用于教育、科学、技术和医学等领域。
列出的每个机器学习问题都包含一个指向公开可用数据集的链接。这意味着,如果您对某个具体的机器学习问题感兴趣,可以下载数据集并立即开始练习。

真实世界的机器学习
照片由 SMI Eye Tracking 提供,保留部分权利。
最受欢迎的 Kaggle 数据集
前10个机器学习问题的例子来自于机器学习竞赛网站 Kaggle.com。受欢迎程度是基于参赛团队的数量。
- 奥托集团产品分类挑战赛。根据产品数据的特征,将产品分为9个产品类别之一。
- Rossmann 商店销售额预测。根据各商店产品的历史销售数据,预测未来的销售额。
- 共享单车需求预测。根据每日自行车租赁和天气记录,预测未来的每日自行车租赁需求。
- 分析优势挑战赛。根据纽约时报新文章的详细信息,预测哪些报纸文章会受欢迎。
- 餐厅收入预测。根据餐厅位置的详细信息,预测该餐厅在给定年份的收入。
- 利宝互助集团:房产检查预测。根据已检查房产的详细信息,预测房产的危险评分。
- Springleaf 营销响应预测。根据客户的特征,预测他们是否是营销目标。
- 希格斯玻色子机器学习挑战赛。根据模拟粒子碰撞的描述,预测一个事件是否会衰变为希格斯玻色子。
- 森林覆盖类型预测。根据制图变量预测森林覆盖类型。
- 亚马逊员工访问权限挑战赛。根据员工历史资源访问变更记录,预测员工所需的资源。
最受欢迎的研究数据集
接下来的10个机器学习问题是加州大学欧文分校机器学习库网站上最受欢迎的。该网站传统上托管机器学习研究社区使用的机器学习数据集。
- 鸢尾花数据集。根据以厘米为单位的花朵测量数据,预测鸢尾花的种类。
- 成人数据集。根据人口普查数据,预测个人年收入是否会超过50,000美元。
- 葡萄酒数据集。根据葡萄酒的化学分析,预测其产地。
- 汽车评估数据集。根据汽车的详细信息,预测其估计的安全性。
- 威斯康星乳腺癌数据集。根据对乳腺组织的诊断测试结果,预测肿块是否为肿瘤。
- 鲍鱼数据集。根据鲍鱼的测量数据,预测鲍鱼的年龄。
- 葡萄酒质量数据集。根据葡萄酒的各种测量数据,预测其质量。
- 心脏病数据集。根据对患者的各种诊断测试结果,预测患者的心脏病程度。
- 扑克手牌数据集。根据一个扑克手牌数据库,预测手牌的好坏。
- 使用智能手机进行人类活动识别数据集。根据智能手机的运动数据,预测持手机者所进行的活动类型。
- 森林火灾数据集。根据气象和其他因素,预测森林火灾的过火面积。
- 互联网广告数据集。根据网页上图像的详细信息,预测图像是否为广告。
结语
我们快速浏览了20个真实世界的机器学习问题。
这些是全球科学和商业组织提出或研究的实际问题。
更令人兴奋的是,这些多样化的问题都有公开可用的数据集,并且也得到了广泛的研究和理解。
这意味着您现在就可以下载数据,通过实现自己的模型来探索问题,或者重现他人论文或博客文章中的模型。
先生,我对这篇文章印象非常深刻,它真的帮了大忙。谢谢您,先生。
谢谢。
亲爱的 Jason 先生,
成千上万的学生决定学习机器学习,但其中超过一半的人因为对这门学科复杂性的恐惧而中途放弃。但您却用如此轻松的方式出色地解释了这门学科。我只是想表达我热情的感激之情。非常感谢您帮助了我和成千上万像我一样的人。谢谢您。
谢谢您的客气话,Paul。
嗨,Jason!🙂
我正计划研究上面的扑克数据集,打算尝试使用 LDA、CART,最后是使用 XGBoost 的梯度提升决策树(GBDT),但我担心分类过程,因为有些手牌可能符合多个类别。理想情况下,您希望从多种可能性中预测出最好的手牌,所以我不太确定这该怎么做。从逻辑上讲,我想,您会以某种方式确定一手牌可能符合的所有类别,然后使用值最大的类别作为最终答案,因为随着手牌变好,类别的值也会增加。对这种方法有什么建议吗?您建议尝试哪些其他模型进行多类别分类?
谢谢!非常喜欢您的书!!!😀
听起来是个有趣的问题,抱歉,我对此不太熟悉。我不太敢提建议。
太棒了!谢谢你,Jason。
谢谢,很高兴对您有帮助。
嗨,Jason,
您的知识非常渊博,这里的细节非常出色。非常感谢。
我正在寻找关于应用程序行为的预测模型,用来预测应用程序何时可能崩溃或何时可能开始表现异常。
如果能在这方面提供任何帮助,那就太好了。
也许可以试试在 scholar.google.com 上搜索。
非常感谢。我到那边去搜搜看。
不客气。
感谢 Jason 提供的精彩建议。我来自非计算机科学背景,听说了关于数据科学的酷炫事情,所以想学习机器学习。但基本上我只想问你几个问题。我能看到很多概念验证(POC)、研究项目和样本数据集来练习机器学习,但是
如果我得到一份数据科学家的工作,我将从事什么级别的工作?
是使用现有的库来构建模型,还是发明新的算法?
如果大公司在云平台上已经有了现成的拖放式模型,那里为什么还需要数据科学家呢?
关于工作/角色,这可能会有帮助
https://machinelearning.org.cn/machine-learning-tribe/
是的,推荐使用像 scikit-learn 这样的现有库,它们会完成所有繁重的工作。
https://machinelearning.org.cn/start-here/#python
模型很简单,但准备数据和发现哪个模型是合适的(通过实验/原型设计)需要人类/领域知识/直觉/数据科学家。
很好的问题!
感谢 Jason 关于机器学习的所有分享。我浏览了不同的学习资料,但没能找到关于机器学习模型如何存储已训练模型信息的内容。它是通过 Pickle 创建的二进制文件,还是有自己的数据库来记忆模式,以便对下一个数据集进行预测?
任何学习资料都会有帮助。再次提前感谢。
不同的模型有不同的内部表示。
例如,CART 是一个决策树,神经网络是一组权重等。
特定于模型的表示形式被保存到文件中。
这有帮助吗?
这帮助很大.. 谢谢。我们从哪里可以得到这种映射,因为模型一旦使用 Pickle 训练和保存后,它就存储为二进制文件。
如果您使用 pickle,那么内部表示无关紧要,因为 pickle 会处理保存和加载。
再次感谢您的分享。
不客气。
谢谢你,Jason,写了这篇文章。它在深入研究机器学习之前,激励人们去了解它的不同应用。
不客气。
你好,Jason先生,非常感谢您与我们分享您的才智。上帝会因您的善行而保佑您。
感谢您的反馈,Suganya!