数据分析师与数据科学家有什么区别?这个问题是《数据分析手册》系列第三篇中,从研究人员和学者的角度进行的探讨。
第一本书包含与 7 位在职分析师和数据科学家的访谈。第二本书包含与 9 位 CEO 和经理的访谈。该系列的第三本书包含与学者和研究人员的 8 次访谈,名为《数据分析手册:研究人员和学者》。
我注意到作者们正在使用这些免费电子书作为其名为Leada 的初创公司的潜在客户开发工具。
十大发现
- 存在错误的数据分析问题(询问数据无法回答的问题)
- 数据科学是一项战略性举措
- 数据专业人员必须谦虚(对数据谦虚,对结果持怀疑态度,数据是主要来源)
- 分析是竞争的基础(商业竞争的基础)
- 对于数据科学,要学会如何学习(教育是一个持续的过程)
受访者
该手册提供了来自 8 所机构的 8 位学者和研究人员的访谈。
- 来自麦肯锡的Michael Chui
- 来自纽约大学斯特恩商学院的Prasanna Tambe
- 来自谷歌的Hal Varian
- 来自加州大学伯克利分校的Jimmy Retzlaff
- 来自 Revolution Analytics 的David Smith
- 来自 KDD Nuggets 的Gregory Piatetsky
- 来自 Comr.se 的Tim Piatenko
- 来自巴布森学院的Tom Davenport
我喜欢 Hal Varian 的访谈,他一如既往地强调从数据中梳理因果关系对决策至关重要。他谈到数据系统的下一步发展,具体来说
我们将看到更多“自优化”或“学习系统”,它们可以在没有人为干预的情况下运行实验并提高性能。
我同意这个富有洞察力的评论,甚至已经构建了这类系统的简化版本。我认为任何在这个领域工作的程序员很可能也会这样做,因此我们将开始看到这种能力建立在 API 和建模库之上。
我还非常喜欢 Hal 关于 III 型错误(与统计学中的 I 型和 II 型错误相对)的评论。正如前五大发现所总结的那样,他认为浪费时间提出错误的问题是一个大问题,即试图回答数据无法提供信息的问题。
另一篇精彩的访谈是 David Smith 的,他评论了在数据科学中了解 R 的关键重要性,称 R 是数据科学的通用语,就像英语是商业的通用语一样。David 评论说,统计学曾经是一项后台工作,而现在随着大数据运动的兴起,它已经成为一项前台工作,因为企业正在寻求对其数据收集投资的回报。
最后,我与 Gregory Piatetsky 产生了共鸣,他在访谈中评论了该领域从数据挖掘到知识发现,再到预测分析,再到大数据,现在到数据科学的转变。尽管我只在该领域阅读了 15 年(而不是 Gregory 的 30 多年),但我看到了重点和命名方式的相同转变。这再次强调了统计学基础和问题框架的重要性。
您可以在此处免费获取这本访谈手册。
非常感谢。看起来很有趣。