你可以振作起来,迎接成为一名机器学习从业者和数据科学家的愿望。
你需要努力工作,学习技能,并证明你能交付成果,但你不需要花哨的学位或花哨的背景。
在这篇文章中,我想证明这是可能的,甚至是普遍的。
你将发现,高级管理人员和首席执行官看重的是成果,而不是背景,并且像你一样的程序员和工程师正在通过赢得比赛和获得机器学习工作而崛起。

获得你梦想中的工作
照片作者:Andrew Turner,部分权利保留
成果胜过背景
你去了哪所学校,拥有什么学位,或者在哪些公司工作过,这些都不重要。
机器学习是一个精英主义领域。你交付的成果定义了你的价值。
在Fastcolabs的一篇文章《DIY数据科学家的崛起》中,当时的Kaggle总裁Jeremy Howard明确表示,成果很重要,背景不重要。他说道:
赢得比赛的人通常不是斯坦福毕业的或常春藤盟校的美国数学家。世界上最优秀的数据科学家,根据他们实际的表现来看,并没有上过名校。
如果你在雇佣一名数据科学家,你应该根据他们交付成果的能力来评估他们。Howard继续说道:
如果你想雇佣一个杂耍演员来你的马戏团,你会让他为你表演杂耍,看看他能耍多少东西。如果你要雇佣一个人来创建预测模型,就看他们的模型预测得有多好。
如果你在进入机器学习领域时注重成果,你就可以取得惊人的快速进步。
在2012年Gigaom的一篇文章《为什么成为一名数据科学家可能比你想象的要容易》中,当时的斯坦福大学教授和Coursera联合创始人Andrew Ng曾说过:
机器学习已经发展到这个地步,如果你上一门课,你实际上可以相当好地应用它。
在同一篇文章中,作者指出,当时许多顶尖的Kaggle竞赛选手除了在线课程外,几乎没有接受过其他培训。
在最近的一个例子中,Henk van Veen(昵称Triskelion)展示了他如何在一年内从一名普通的程序员成长为 Kaggle大师,他通过持续参加机器学习比赛,并专注于能够带来成果的工具和技术。
在他的文章《回顾一年的Kaggle竞赛》中,他评论道:
我成为Kaggle大师主要依靠集成学习、团队合作、分享、强大的机器学习工具以及大数定律。
业余选手击败专家
你不需要成为某个领域的专家,才能在该领域创建有用且准确的预测模型。
事实上,如果目标是创建有用且准确的预测模型,那么专业知识可能是一种阻碍,而不是帮助。
在《New Scientist》(后在Slate上转载)的一篇题为《专业知识是无用且无益的》的采访中,Jeremy Howard评论道:
你数十年的专业知识不仅毫无用处,而且实际上是有害的;你复杂的技术比通用方法更糟糕。
Kaggle上会针对特定的业务领域举办比赛,观察到的普遍现象是,业余选手正在击败专家。
精通特定领域的专家会进来并使用他们传统的方法。但大多数情况下,专家并没有赢得比赛。来自专业领域的经典方法表现并不好。击败专家的是有创造力和好奇心的科学家。
Howard继续说道:
我们发现,有创造力的科学家在各领域的解决问题的能力都比该领域的专家更强……那些能够直接从数据中获取信息,而不被行业假设或专业知识干扰的人。
成果而非学位
取得成果比你拥有学位更重要。
这在编程领域已经持续了很长时间,对于应用机器学习也是如此。如果你能有效地分析问题并设计和交付解决方案,那么你就是有用且有价值的。
在之前的文章中,我谈到了学位是其他人用来评估你能力的一种捷径。你也可以通过其他方式来建立这些捷径凭证,例如构建机器学习项目作品集。
这种作品集方法正是艺术家使用的方法,也是程序员在没有正式培训的情况下获得有趣且高薪工作的应用方法。
招聘数据科学家和机器学习从业者的经理比学位更看重候选人的作品集。
在一本新近出版的书《数据分析手册:CEO与经理》中,采访了来自Cloudera、Y-Hat、HG Data、Stylitics(及更多)等公司的CEO。他们被问及在招聘时看重候选人的哪些方面,他们的回答中一个普遍的主题是他们会看候选人完成的项目。
本书的作者也认同这一主题,并将其列为所有采访中的五大收获之一:首要收获3:做自己的项目以进入行业
学术界和工业界之间存在学习差距,通过做项目来填补这个差距是最好的方式。找一些体育统计数据,做自己的分析。学习R,这样你就可以完成这个分析,而不仅仅是为了学习R本身。也可以尝试Kaggle。
Mode Analytics的CEO兼联合创始人Derek Steer评论说,构建模型和在实际环境中解决问题是最好的学习方式。
我认为,学习技能以便将来能实际应用的最佳方法是,先从一个项目开始,然后边做边学习完成它所需的所有技能。
Smarter Remarketer的联合创始人Dean Abbott表示同意。
……开始构建模型。着手做项目。与有经验的人一起工作会很有帮助。数据准备更难教,因为有很多方法可以出错。很难以一种涵盖所有“错误”方法的方式来教授它。
Stylitics的CEO兼联合创始人Rohan Deuskar利用这种方法来评估求职者,他们必须完成一个项目才能被考虑录用。
我们还会给他们一套原始数据让他们带回家,并让他们分享他们从数据中看到的五个有趣的发现。他们还需要用几张幻灯片来展示他们的发现,因为在我看来,数据分析师的角色的一部分是能够将你的发现传达给那些没有像你一样花时间研究数据的人。
最后,Cloudera的高级课程开发人员Tom Wheeler再次强调,你的学位与否并不重要,创造力和学习能力才能定义出色的数据科学家。
就像有许多没有计算机科学博士学位的优秀程序员一样,也有许多在获得某一领域硕士或学士学位后就开始工作的优秀数据科学家。如果他们有好奇心和很强的自我驱动力,他们倾向于通过实际经验快速获得所需的其他技能。
总结
在这篇文章中,你发现成果可以胜过背景。只要你专注于能够带来成果的工具和方法,你就可以快速学习机器学习,甚至成为Kaggle大师。
你发现业余选手通过专注于成果和开发构建预测模型的通用技能,正在击败各个领域的专家。
最后,你了解到经理和CEO通过评估完成项目以及利用项目来学习和展示技能的能力,来衡量分析师或数据科学家的技能。
你可以从这篇文章中汲取的经验是,要专注于发展你的毅力、执行速度和创造力。
放下对成为领域专家的需求,专注于交付成果。
放下对花哨学位的需求,发展一个项目作品集来展示你的技能。
暂无评论。