在自学机器学习时,很难保持动力。
标准的测试数据集可能相当晦涩,与你和你的日常生活脱节。甚至很无聊。你可能会喜欢使用的一个技巧是,寻找并处理一个对你而言重要的数据集。
在这篇文章中,我们将探讨一些数据集的想法,你可以用它们来激励甚至加速你的应用机器学习之旅。
有影响力的问题
我们之前已经讨论过研究有影响力的问题的必要性。影响力最大的问题是那些结果直接影响到你的问题。
这些问题可能与你的个人生活、爱好甚至工作有关。它们可能是当前正在解决或尚未解决的问题。只要你对结果有所投入,问题的大小和范围并不重要。结果对你很重要。
这是一个强有力的方法,原因有二:
- 它让你能够客观地对待问题,并运用你的理性解决问题的技能,这可能会带来一些有趣的结果。
- 关心结果更有可能激励你去学习新的、不同的方法,深入探究问题的定义,并写下你的发现。因为你关心结果,你会更认真地对待这个项目。
你不能随便挑选一个问题。还有一些额外的考虑因素:
- 数据:机器学习算法用数据来为问题建模,而建模的质量通常与数据的质量成正比。你需要能够访问并收集该问题的数据。
- 公开性:数据和/或结果可以公开吗?如果你想将这个项目作为你机器学习作品集的一部分,这一点可能对你很重要,我强烈建议你这样做。
- 问题:从一个问题开始,以确保有一个待解决的问题。这个问题将明确你需要收集的数据以及答案将对你产生的影响。
在接下来的部分中,我们将探讨你生活中可能发现可以用机器学习来研究的问题的三个领域。
家庭中的机器学习
在你的个人生活中,是否存在可以使用机器学习方法建模的问题和数据来源?

跟踪并模拟你自己的健身状况。
照片由 Phil Gradwell 拍摄,保留部分权利。
我能想到的五个例子是:
- 个人理财:你可以为你的个人理财的某些方面建模。这可以是像每周支出预测或大额采购预测之类的事情。如果那是你的兴趣所在,它也可能与你的投资组合有关。
- 交通:你可以为你个人交通的某些方面建模。这可能是你在特定一天乘坐哪趟火车或公交车,通勤时间,或者像上班到达时间预测或油耗这样的细节。
- 食物:你可以为你消费的食物建模。这可以是数量、卡路里、零食预测,或者是一个关于你在某一周需要购买什么的模型。
- 媒体:你可以为你的媒体消费建模,例如电视、电影、书籍、音乐或网站。一个显而易见的方法是将其建模为一个推荐问题,但也可以考虑消费量的模型,比如你消费了多少,何时消费,以及你可以预测的其他相关模式。
- 健身:你可以为你个人健身的某些方面建模。这可以是体重、BMI、身体测量,或者是耐力的某个方面,比如仰卧起坐的次数或完成日常锻炼的时间。对你某一天是否会去健身房进行建模怎么样(输入会是什么?)。
记住,你必须能够获取数据,这很可能意味着你必须花一些时间来测量和收集数据。
爱好中的机器学习
除了机器学习,你还有其他爱好吗?考虑一下你可以收集哪些与你的爱好相关的数据来建模。

将机器学习应用于你的爱好。
照片由 You As A Machine 拍摄,保留部分权利。
你可能拥有或想要建模的五个爱好例子包括:
- 体育:你可以为一个团队或一个联赛的表现建模。你可能对梦幻体育团队感兴趣,并有兴趣为个别球员的表现建模。体育比赛结果还有一个博彩方面可能会激发你的兴趣(要小心)。也许你有一个孩子或家庭成员每周都会参加一项运动,这可能会提供一个与你联系更紧密的问题和数据来源。
- 游戏:你可以为你玩的游戏的某个方面建模。这可能是棋盘游戏、纸牌游戏或电脑游戏。你可以建模并预测输赢结果、具体得分或游戏中的特定走法。
- 艺术/手工艺:也许你是一位业余艺术家或手工艺人,并将你的创作照片发布到公共社交相册中。你可以建模并预测你发布的某张照片是否受第三方喜欢或感兴趣(以浏览量或评论的形式)。类似的方法可以在现实生活中与对照组(家庭成员?)一起使用,也适用于其他可能需要对兴趣或质量进行主观评估的艺术形式(绘画、音乐、纸塑等)。
- 语言:你可以为你或朋友或家人正在学习的语言的某个方面建模。如果正在使用抽认卡,你可以进入一个有趣的问题领域,即建模某张卡片的内容是否会被记住。你还可以为语言学习的其他方面建模,例如新词汇的习得率和错误频率。收集数据可能是一个有趣的挑战。
- 摄影:也许你是一个观鸟者、自然爱好者,或者有其他理由拍摄各种各样的自然风光。你可以对将树叶/鸟类/动物的照片分类到它们各自的组别中的问题进行建模。你还可以对某张照片是否包含感兴趣的对象(如你的宠物狗或你自己的脸)的问题进行建模。
倾向于那些有现成数据集可供你利用和建模的爱好。
工作中的机器学习
你在工作中或在你处理的事情上能接触到数据吗?这可能是你的博客或其他在线的东西,也可能是关于你工作创造或发布的产品的数据。

在工作中应用机器学习。
照片由 BiblioArchives / LibraryArchives 拍摄,保留部分权利。
- 访客:你能否为你网站的访问情况建模(这可能是你自己的博客或网站资产)?也许是访客的人口统计特征,如平台、浏览器等,或者是基于发布内容的访客来源或某一时期的页面浏览量。
- 客户:和访客一样,客户是否有一些可以建模的属性?这可能是购买量、购物车内容、购买时间或类似的人口统计信息。我喜欢这个领域,因为它能够揭示出许多关于企业被认为是理所当然的新知识(用数据支持)。
- 转化:是否有可以建模的转化质量?这可能是转化的某些方面,例如时间或客户人口统计信息。也可能是对转化链的预测,例如试用、付费、增销。
- 客户流失:对于服务行业来说,客户流失是非常重要的事情,很可能已经在进行建模了。是否有某种形式的客户流失没有被建模?也许是试用期的流失。从电子邮件列表或 RSS 订阅中的流失?
- 专有数据:你的组织是否创造或拥有一些独特或有趣的数据?你可以对这些数据提出哪些值得建模的问题?例如,气象数据、制造数据、采矿数据等。
注意隐私问题和数据所有权。在访问数据之前,你可能需要获得许可,并且必须对结果保密或仅限组织内部使用。
我希望你觉得这很有用,也许已经想到了一个可以研究的问题,它将推动你更深入地探索应用机器学习。
如果是这样,请留言,我很想听听你想到了什么。
嗨,Jason,这篇文章太棒了,非常感谢你。
我是一个初学者,你能告诉我如何为家庭或爱好的问题准备数据来训练我的模型吗?
谢谢你!
我的建议是遵循这个流程
https://machinelearning.org.cn/start-here/#process
非常好的文章!感谢分享。它激励我更仔细地审视我的周围,寻找新的、很酷的数据来源。
很高兴听到这个消息。
非常鼓舞人心,非常感谢
很高兴它有帮助。
这里有很多关于机器学习项目的有趣想法。另一个想法是使用 NLP 对单词进行分组。
谢谢。
兄弟,非常感谢你(wad mahadsanatahy saaxib),你帮助我打开了对机器学习的眼界
不客气!