您想学习机器学习或数据科学。
您可能想要一份工作,或者获得一份机器学习或数据科学领域的工作机会。或者,您可能是一名学生,或者从事数据相关工作,并希望在该领域加速学习。
如果您认为唯一的选择是获得博士学位或阅读学术教科书,那就错了。这篇文章是为您准备的。
在培训和教育材料方面,您有很多选择。如此之多,以至于您应该花些时间,列出一些选项的简短清单,甚至在确定下来之前尝试一下。
在本文中,您将发现大量可用的选项,并获得足够的信息来选择一个(或两个)方向,并在您的旅程中迈出下一步。
您的位置,准备就绪
您正在寻找机器学习或数据科学方面的教育培训。
您可能希望在某些特定主题领域做得更好,或者想了解更多。它们是什么?写下来。
您可能偏好某种特定的学习方式,例如现场、音频、视频、文本教程或书籍。您的偏好是什么?写下来。
您有学习机器学习或数据科学的特定原因。它可能是上面描述的那样,对工作的渴望或机会,为现有职位学习更多或更快的愿望,或者只是出于普遍的兴趣和机会。您一个原因是?写下来。
如果您愿意,可以在评论中记下所有三点。您并不孤单。
机器学习培训选项简述
废话不多说,这里是您入门和在机器学习领域取得进展的选项简述。
- 大学学位
- 博士学位(研究)
- 硕士学位(研究型)
- 硕士学位(授课型)
- 学士学位
- 线下课程
- 培训课程和研讨会
- 训练营
- 在线课程
- 慕课(MOOC)
- 付费课程
- 自主学习大学课程材料
- 书籍
- 学术类(教科书)
- 专业类(O’Reilly)
- 实践类书籍(Packt)
- 在线免费内容
- 学术类(论文、博客)
- 行业类(博客、YouTube、社区)
- 工具和库
- 竞赛
您可以看到,列表的顶部是监督式和结构化的学术选项,列表的底部则侧重于非结构化的自主学习选项。您还可以考虑另一个维度,那就是材料的学术与行业侧重。
我花了一段时间考虑这些维度,我认为它们很有用。我将每个选项沿监督到无监督(自主学习)以及学术到行业的维度进行了评分,并创建了一个小散点图。它并非完美分类,因为材料可以是自主学习、无监督但仍然高度结构化的。博士学位高度学术化,但通常比大多数其他学位(至少在我学习的澳大利亚/英国体系下)的监督程度低得多。监督/无监督的二分法并不能完全捕捉到所有情况,但这是一个起点。
如果这对您有帮助,请在评论中告诉我。
在本文的剩余部分,我们将逐一深入探讨这些选项,它们提供的内容、适合人群以及您可以跟进的具体示例。
大学学位
大学学位提供了一个高度结构化、主要偏学术、主要偏理论的介绍。您可能知道学位是什么。
学士学位和一些硕士项目是授课型的,美国的博士学位也有授课部分。一些荣誉学位、硕士和博士项目有研究组成部分,越深入学习,这部分内容越多。
出色的授课课程结构严谨,由领域专家设计,旨在为您提供主题的最佳入门。出色的研究项目让您能体验科学方法和研究方法的实践。
学位也很昂贵,耗时很长,专为普通学生设计,并教授过时甚至陈旧的信息。
如果您有大量时间、金钱,并且完全不想自己设计学习计划,那么学位可能是正确的选择。
- 博士学位(研究):加入研究实验室,学习适合其总体研究计划的主题。您的工作将高度学术化和专业化,您将通过论文等正式工作成果来衡量。例如,看看卡内基梅隆大学的机器学习博士项目。
- 硕士学位(研究型):类似于较小的博士项目,但鼓励您解决一个更小的课题,例如重现现有结果。
- 硕士学位(授课型):比本科课程更高级的内容,有时与行业挂钩。授课型硕士允许您深入研究某个主题,您很可能会找到专门研究机器学习及相关领域的硕士项目。例如,看看卡内基梅隆大学的机器学习硕士项目、伦敦大学学院的机器学习硕士项目以及加州大学伯克利分校的数据科学硕士。
- 学士学位:主题的概述和入门的基础学位。您不太可能找到一个机器学习的学士学位,大多数情况下,机器学习是本科项目后期提供的某个主题或一组主题(与人工智能捆绑)。例如,看看哥伦比亚大学计算机科学学士学位中的机器学习方向、卡内基梅隆大学的机器学习辅修专业以及普林斯顿大学的统计学与机器学习学位。
我不是全国或全球范围内学位项目的专家,但有大量信息可供参考。例如,看看这个关于机器学习和数据科学硕士项目的优秀学校列表。
学位是起点,不是终点。这是一个缓慢的学习过程,让您准备好开始实践。这也是您有时间深入研究某个主题而几乎没有其他责任的唯一一次。
有些寻求建议的人(深信)认为,如果不花几年时间回大学学习一个正规学位,他们就无法进入机器学习领域。
您不需要学位来学习和实践机器学习。事实上,如果您想研究机器学习领域的概念,您甚至不需要学位。
线下课程
有一些选项的课程长度和费用远不及学位项目,但提供高度结构化的线下培训,而且它们主要面向行业而非学术。
选项包括短期培训课程和训练营。
培训课程和研讨会
您可以参加关于特定机器学习主题的短期培训课程。该课程将高度针对特定技术或特定工具。
IT培训公司一直存在,并开始提供围绕特定数据科学和机器学习主题的培训。
也有一些新的公司专门从事此类培训。例如,Persontyle就是一个提供大量针对特定课程的短期(1、2、3和5天)课程的公司,例如面向数据科学家的 Hadoop 和使用 R 进行数据科学入门。
最后,大学可能会为行业提供短期培训课程,本地聚会小组通常会提供培训,学术会议也经常举办面向行业和研究生现代方法的研讨会。
训练营
一种流行的方法是数据科学和机器学习训练营。这些是专业人士参加的为期 6-12 周的线下课程,学习应用技能。通常在课程结束时会有一天招聘日,以匹配雇主和学员。
Zipfian Academy 是一个受欢迎的例子,它提供为期 12 周的全日制数据科学课程,包含模块、毕业项目和招聘日。价格约为 16,000 美元。
这是一个热门领域,有大量的竞争对手
有关机器学习和数据科学训练营项目的全面概述,请查看 Ikechukwu Okonkwo 的帖子“数据科学训练营项目——全日制、半日制和在线”。
在线课程
您一生中其余时间的教育将植根于自主学习和指导。
有许多自主学习项目可用,其中一些,如慕课,也结构非常严谨。大多数,如慕课,源自大学课程材料,因此通常更侧重于学术。
大规模开放在线课程(MOOC)
鉴于斯坦福机器学习慕课的成功,它启动了Coursera,这仍然是入门机器学习的非常流行的方法。
课程通常为期 10-12 周,每周需要投入大量时间。许多课程是免费的或以少量费用提供。它们比训练营更不注重行业,更偏学术,但提供的培训曾经只在大学研究生课程中才能获得。它们通常包括讲座视频、作业、练习和一个社区论坛,供学生讨论材料。
课程分批进行,以确保同学之间能相互支持,共同完成课程。
Coursera 的热门示例包括
edX 上一门受欢迎的慕课是从数据中学习。
付费课程
一些慕课课程是付费的(如约翰霍普金斯数据科学慕课)。也有较短的付费课程。有些源自大学课程(例如这些 MIT 课程)和研讨会,而另一些则是完全独立的。
Udacity 提供一些付费课程,例如
- 数据科学入门,8 周
- 机器学习:监督学习,佐治亚理工学院,8 周
- 机器学习:强化学习,佐治亚理工学院,4 周
- 机器学习:无监督学习,佐治亚理工学院,4 周
Udemy 是另一家提供付费课程的公司,我之前在一篇标题为“Udemy 上的机器学习课程”的文章中介绍过他们的产品。两个亮点是
如果您有 linda 账户,Linda 还提供大量机器学习和数据科学短视频,例如观看他们的“数据科学基础”播放列表。
慕课的变体
慕课也有一些变体。
例如,您可以免费访问本科和研究生机器学习大学课程的课程材料,并自己学习课程。有些课程也提供讲座视频。
一些很好的例子包括
还有一些开放的数据科学和机器学习课程可以学习。
- Learn Data Science,作者 Nitin Borwankar
- 开源数据科学硕士,作者 Clare Corthell
书籍
有很多关于机器学习和数据科学的优秀书籍,但您可能读错了书。这可能会让您偏离轨道,打击您的积极性。
我倾向于将书籍分为三类:学术类、专业类和实践类。
学术类书籍
这些是研究生和本科课程使用的教科书。
在您准备好之前,不应阅读这些书籍。在您实践了一段时间,对某些算法和工具有了一定的信心,并准备深入了解算法为何有效而不是如何有效之前,不要阅读。
Springer 的书籍很常见,但也有许多其他出版社,如 MIT出版社、剑桥大学出版社等。
好的教科书示例是
教科书是学术性的,需要您有纪律地阅读、做笔记、完成练习并深入研究参考文献。所有工作都落在您身上。教科书最好在需要时作为参考,用于特定主题。
专业类书籍
这些是如果您是软件工程师或数据科学家,并希望为您的工作增加更多结构或在特定领域取得进步而阅读的书籍。
我认为O’Reilly 是该领域的出版商,他们非常看好关于数据科学和机器学习的“数据”书籍。
一些流行的 O’Reilly 专业书籍包括
- 《黑客的机器学习》(Machine Learning for Hackers)
- Doing Data Science: Straight Talk from the Frontline
- 挖掘社交网络:使用 Facebook、Twitter、LinkedIn、Google+、GitHub 等进行数据挖掘
- 集体智慧编程:构建智能 Web 2.0 应用
- 敏捷数据科学:使用 Hadoop 构建数据分析应用程序
- 周到机器学习:一种测试驱动的方法
更不用说关于 Hadoop、R、Python 及其相关技术的特定书籍了。
O’Reilly 还有白皮书和报告,它们似乎是博客文章的扩展版本。我读过几篇,质量参差不齐。有些例子包括
O’Reilly 还有一个关于所有数据事宜的会议,称为 Strata。您明白我为什么说“看好”了吧。数据是内在的智能,而Tim O’Reilly已将“数据”列为议程项目。
Springer 也涉足这一领域,出版了两本优秀的图书
我喜欢这两本书,因为它们比 O’Reilly 的书籍稍微学术化一些,但比 Springer 该领域的教科书更易于理解。
我将《数据挖掘:实用机器学习工具与技术》和《机器学习实践》也归入此类。
实践类书籍
这些是教程和食谱类的书籍。O’Reilly 的一些书籍也属于此类,例如他们的食谱和精要系列书籍。
我认为Packt Publishing 属于此类。这些书籍通常不如上面列出的书籍完整,但它们侧重于如何完成特定任务。
一些流行的例子包括
- 《R语言机器学习》(Machine Learning with R)
- 使用 R 进行社交媒体挖掘
- 《用Python构建机器学习系统》(Building Machine Learning Systems with Python)
- 《学习scikit-learn:Python中的机器学习》(Learning scikit-learn: Machine Learning in Python)
- 使用 Python 构建概率图模型
- 实用数据科学食谱
非常实用,面向行业,而且通常更便宜。
我喜欢书籍,读了很多书,看看我关于实践类书籍的一些帖子
在线免费内容
有很多免费内容。其中一些非常棒,但也有很多是垃圾。
内容通常是非结构化的,或者在内容内部结构化,但没有将内容联系在一起的连贯宏观计划。没有学习计划。您必须自己构建学习计划。
您可以使用此内容来学习您想要的内容,随时学习。博客文章通常太短,无法深入探讨某个主题,您通常需要阅读书籍或参加课程才能获得深度。
我认为免费内容分为两类:学术材料(如论文)和专业材料(如博客文章和 YouTube)。
学术材料
学术材料包括论文、文章、技术报告和学位论文。您需要自己提取所需信息,例如某个晦涩算法的细节或特定数据类型的特征工程思路。
Google 学术搜索是您搜索论文的好帮手。
有一些学术博客,它们也属于此类。
Google 研究博客属于此类,Alexander Smola 的博客,Mark Reid 的博客以及在行业中有所作为的学者,例如John Langford 的博客等等。
专业材料
专业材料由正在学习或实践机器学习的人创建。他们可能是学生、程序员或数据科学家。他们可能创建材料是为了教学、分享或更好地理解材料。
YouTube 频道也属于此类,有一些非常出色的频道(而且我们不限于大学讲座)
The Mathematical Monk 有一个很棒的机器学习频道。您可以从行业会议和聚会的录制演讲中获得很多信息,例如Pycon 2014(搜索机器学习相关视频)。Google 技术讲座很棒(同样,搜索机器学习相关主题)。您可以从 O’Reilly Strata 视频中获取许多行业新闻,例如2014 年会议的视频。
工具和库
我将工具和库分开,因为它们是机器学习教育的重要领域。它们是您进行和实践的方式。
有关于工具的书籍、博客和视频,如果幸运的话,还有教程和文档。
一个重要的领域是研究您可用的工具和库的格局,并深入研究具体示例。
通常,这完全是行业方面的,而不是学术方面的,而且完全是自主学习。很少有课程教您如何充分利用工具和库。
我经常推荐学习的工具,具体取决于您在旅程的哪个阶段
还有一系列大数据基础设施可以学习,以及针对特定领域和技术的利基工具。
有很多工具和库可用,也有很多空间可以广泛和深入地学习。
机器学习竞赛
在边缘地带,您有机器学习竞赛。
这些需要在您开始之前具备一定的工具、数据处理和算法使用技能,并且需要世界级的专业知识才能做得好。
在指导方面,您是独立自主的,但有社区,并且有机会在竞争环境中学习最先进的算法和实践。
您学到的技能适用于行业,但真实世界的问题需要您付出更多。这一学习领域并非适合所有人,但确实为适合的人提供了很多。
竞赛通常与学术会议联合举行,并且现在更多地由Kaggle和TunedIt等公司主办。最近的普及意味着越来越多的公司开放他们的数据进行竞赛,因此可以轻松地接触到各种有趣的行业数据集。
总结
我们在本文中涵盖了很多内容,您已经发现,可供您选择的选项比您最初想的要多得多。
我希望看到像“我需要学位”和“没有好的资源”这样的评论消失。现在,开始和实践机器学习的选项和资源比以往任何时候都多,无论是学术方面还是行业方面,无论是高度结构化和监督的环境还是自主学习。
您将学习什么?请留言。
数据可视化在传达机器学习结果方面也很重要。话虽如此,您上面的图表“您在机器学习领域可用的选项”由于蓝色背景上的细小黑色字母和白色阴影而非常难以阅读。
喜欢这个博客!
谢谢。同意。我是在 Google Docs 中随意制作的。我会尽快用 ggplot 或 matplotlib 或其他工具重做。
Jason,极好的资源汇编。谢谢。
Data Science Dojo 提供为期两天的研讨会,其中包括参与 Kaggle 竞赛的指导。 http://datasciencedojo.com/workshops/hands-on-predictive-analytics/
该课程由于其独特的实践方法和指导而非常受欢迎。您可能想将其添加到培训课程和研讨会类别中。
谢谢!
很棒的列表!目前,我将继续阅读您的文章,然后再就我的时间和金钱花费做出重大决定。但是,我觉得我更倾向于慕课(Coursera 上的 Andrew Ng 的课程和加州理工的课程)以及一些非学术类书籍(《集体智能编程》和《应用预测建模》),同时希望能找到一个项目来完成。我不想等到读完书籍/慕课才开始项目来限制自己。
很棒的选择,并且先考虑一下总是个好主意。
Andrew Ng 的 Coursera 课程应该包含您想要的一切。我最喜欢的课程作业/项目是学习识别 5000 个手写数字。另一个很酷的项目是学习将电子邮件分类为垃圾邮件/非垃圾邮件。所有软件都是免费的,可以在任何 PC 或 Mac 上运行。它还涵盖了如何从头开始构建神经网络。讲义笔记已转录可供下载,因此无需购买书籍。
我总是听说它很好。我使用慕课的唯一问题是,我需要匆忙完成以满足截止日期。如果一个人有大量的空闲时间,那它就很好。
谢谢,这很有信息量,而且正是我所寻找的信息!!
很高兴听到这个!
谢谢这份列表。它给了我一个很好的思考方向。
但是,大学学位将使一个人获得很多曝光和方向。同时,一份更好的工作。
Tim 通过电子邮件推荐的一些额外课程
http://blogs.ischool.berkeley.edu/i290-abdt-s12/ – 加州大学伯克利分校一项非常酷的免费分析推特数据的课程
https://www.mysliderule.com/learning-paths/data-analysis – 我遇到的最广泛的免费数据科学课程
https://www.edx.org/course/analytics-edge-mitx-15-071x-0 – 更具体一些,但这是一门很棒的应用分析课程
非常好的指南。非常感谢。您能推荐一个好的机器学习博士实习地点吗?我更专注于医疗数据,特别是癌症数据。
谢谢你!
不客气 Shao。
有线下机器学习课程吗?我更喜欢线下课程而不是在线课程。付费的也可以。
您好 Byung-Tak Lee,您可能对我的教程风格工作簿感兴趣,其中包含课程和项目。
https://machinelearning.org.cn/products
嗨,Jason,
非常感谢您撰写这篇内容详实且简洁的帖子!这让我考虑了很多我之前没有注意到的事情。我唯一剩下的问题是:您认为公司会雇佣没有学位但接受过机器学习培训的人吗?根据我听到/读到的,招聘广告的标准总是列出他们想要博士/硕士学位持有者。
话虽如此,我知道一个人即使没有学位,无论从哪里获得培训,或者付了多少钱,都将同样熟练,所以我认为目前的体系很荒谬。
但您是否知道绕过学位要求是否可行?
您好 Brett。很高兴这篇帖子有帮助。
是的,组织/人们想要结果。他们想要价值。候选人只需要证明他们能够提供价值。
学位和高级学位是招聘过程中的快捷方式,一些大型组织在招聘过程中会过于僵化,无法考虑没有学位的人。那是他们的问题,而不是您的问题。
如果您是一名开发人员,我相信您接触过大量没有计算机科学学位背景但做得非常出色的开发人员。
机器学习技能也是如此——专注于提供价值,并将此价值展示给决策者——也就是那些在该领域需要帮助的人。
希望这能有所帮助。
嗨,Jason,
非常感谢您提供如此全面且简洁的总结。这对我非常有帮助。我的问题是——您(或社区)对伊利诺伊大学厄巴纳-香槟分校通过 Coursera 提供的计算机科学数据科学硕士有什么看法?对于那些想获得公认的硕士学位但又要兼顾全职工作的人来说,这似乎是一个不错的选择。
想听听您的想法。
再次感谢。
Devon
Devon,我对此不太了解,抱歉。
感谢这篇非常有用的文章!我正在权衡 Coursera 的 10 门课程数据科学专业课程或 Udacity 的数据分析纳米学位。我无法决定两者之间的选择,只是 Coursera 的课程似乎更为详尽。
也许选择一个您最兴奋或最感兴趣的?