成为一名数据科学家需要具备哪些技能?
在《Doing Data Science: Straight Talk from the Frontline》这本书中,我读到了一种有趣的、以数据为驱动的方法来回答这个问题。
在本文中,我将总结这种自我评估方法,你可以用它来评估你作为一名数据科学家的优势,以及你在一个出色的数据科学团队中可能扮演的角色。
如果你愿意,你可以使用“应用机器学习实践者”作为“数据科学家”的同义词。
数据科学独角兽
在回顾数据科学家招聘时,《Doing Data Science》的作者们发现雇主们正在寻找“独角兽”。
招聘广告寻找那些不存在的、在计算机科学、统计学、沟通、数据可视化和领域专业知识方面拥有优势的员工。
考虑到“数据科学家”这个术语定义不清,这一点并不令人意外,雇主甚至不知道他们需要什么,甚至不知道需要解决什么问题。
技能柱状图
作者们巧妙地列出了来自招聘广告中数据科学家常见的必备技能。
他们使用这个列表,建议你相对于每项技能,在一个相对的尺度(0-100)上给自己打分。
最后,他们建议你将结果以条形图或柱状图的形式呈现。
单个人不会拥有所有技能,但一个设计精良的数据科学团队会。
这项自我评估中的技能如下:
- 计算机科学
- 数学
- 统计学
- 机器学习
- 领域专业知识
- 沟通和演示技巧
- 数据可视化
书中第11页的Rachel的完整评估示例如下:
我认为这是一个有用的工具,可以帮助你专注于你的优势,并认识到团队成员可以帮助你弥补的不足。
技能柱状图集
出色数据科学成果需要团队协作。
一个人可能在一个领域有专长,而在其他领域普遍较弱。只有当具有不同优势的个体聚集在一起组成一个团队时,你才能做到出色的数据科学。
作者们通过以下图示说明了这一点(摘自书中第12页):
自我评估
你上面列出的7项技能中,你的优势是什么?
你是否能够为这些技能中的每一项打出1-100的自我评分?
请看我下面对自己的评估尝试。
这很难。我相信我的优势可能在于计算机科学、机器学习和沟通。上面的图表表明我的可视化技能并不出色。
我认为很容易夸大自己的技能。什么是好?你如何将一项技能与另一项技能进行比较?擅长计算机科学中的离散数学,如果你的微积分很糟糕,对你的数学分数没有帮助。统计学是数学,对吧?以此类推。然而,你必须从某个地方开始。
这里的关键学习是识别并加倍发挥你的优势。你不可能掌握所有技能。将你最强的技能带到牌桌上。
在下方发布你的结果,我认为这将是一种引人入胜的方式,可以在小型项目或 Kaggle 竞赛中将人们分组。
上面列出的技能是否遗漏了什么?
嗨,Jason,
在阅读了《Doing Data Science》之后,我抓住了数据科学档案这个概念。这是一个很酷的想法,它能很好地展示你的技能。
这是我数据科学档案的链接。
https://github.com/brandonmburroughs/Data_Science_Profile
我还发布了我生成该图的代码,并写了一些关于它的想法。请告诉我你的想法!
非常酷,Brandon,谢谢分享!
嗨,Jason,
谢谢你的文章,非常有趣
但我认为你的数据科学档案链接已失效