Peter Norvig 的大数据实践

当被问及大数据资源时,我通常会推荐大家观看 Peter Norvig 在 2009 年为 Facebook 工程部做的关于大数据的技术讲座(Peter Norvig’s Big Data tech talk)。

这部讲座非常精彩,因为他是一位出色的沟通者,清晰地阐述了大数据这个看似简单却又极具深度的理念。

在这篇博文中,我将为你总结这部讲座的要点,制成你可以随时复习的笔记。

本质上,所有的模型都是错的,但有些模型是有用的。

引言出自 George Box

More Data vs Better Algorithms

更多数据 vs. 更好算法
截图来自 Peter Norvig 谈大数据

Norvig 开篇总结道,理论(模型)是由有洞察力的聪明人创建的。这个过程缓慢且不可复现,模型也存在缺陷。如果模型注定是错的,我们能否找到一个更快、更简单的过程来创建它们?

大数据案例研究

讲座中展示了三个案例研究,它们表明可以从大量数据语料库中创建简单的模型。这三个案例研究都是来自自然语言处理(NLP)领域的难题。

词语分割

将没有空格的字符分隔成有意义的词语,使句子有意义。例如,汉字就没有空格。使用简单的概率模型来定义什么是词语,以及一个 Python 程序如何在一页纸内完成。

拼写纠错

判断一个词是否是拼写错误以及应该纠正成什么。同样,使用一个简单的概率模型,通过编辑距离来建模什么是词语以及一个词是否是纠正词的拼写错误。这比词语分割要难。

Norvig 将他的一页纸 Python 程序与一个包含复杂模型的开源项目进行了比较。他评论了手工模型的可维护性和适应新语言的难度。他将其与大数据解决方案进行了对比,后者只需语料库即可创建统计模型。

除了可维护性和适应性,Norvig 还评论说,更简单的统计模型可以捕捉到手工制作到复杂智能模型中的细节,因为这些细节存在于数据中。没有必要拆分和维护更小的复杂模型。

机器翻译

将一种语言翻译成另一种语言。这个问题比词语分割和拼写纠错更复杂。它需要翻译文本的语料库,例如同时有英文和中文版本的报纸。这个问题被视为两种语言之间的对齐问题。许多花哨的模型都尝试过,但未能比简单的统计模型带来更多好处。

大数据原则

大数据促进了一种不同的机器学习算法和数据集思考方式。数据即模型。

更多数据 vs. 更好算法

微软研究院关于句子消歧的示例问题。当数据集的规模大幅增加时,最差的算法会胜过最好的算法。经验教训是,应该致力于最大化模型的用数据量,并在进入下一个模型之前找到最佳点。

参数模型 vs. 非参数模型

当数据量稀少时,除非有好的理论,否则你几乎无能为力。你基本上会丢弃数据,而依赖你的模型。如果你数据量丰富,你就有可以着手的东西。保留所有数据,因为情况可能会发生变化,从而改变你的模型。

Norvig 在讲座的最后评论了监督学习和无监督学习,以及半监督方法的机会,这些方法能够取得平衡并获得两种方法的优势。

这是一部很棒的视频,非常值得花一个小时观看。如果你想了解大数据运动的趋势,强烈推荐。

你也可以通过阅读 Norvig 为《Beautiful Data: The Stories Behind Elegant Data Solutions》一书贡献的章节来很好地掌握相同的材料。你可以在 Norvig 的网页 Natural Language Corpus Data 上免费下载这一章节。

资源

如果你有兴趣了解或阅读更多关于 Norvig 对大数据的看法,以下是一些资源列表。

你看了这部视频吗?请留言告诉我你的想法。

2 条对“Peter Norvig 大数据实战”的回复

  1. Jesús Martínez 2018年2月17日凌晨2:06 #

    我认为,除了深度学习之外,“下一个大事”将来自于更复杂的无监督学习方法,因为我们每天拥有和生成的大部分数据都是未标记的。非常有可能的是,我们理解和提取非标记数据价值的方式的革命将影响监督学习方法,使得半监督学习成为机器学习从业者最受欢迎的研究和工作领域。

    你怎么看?我很想知道!

    • Jason Brownlee 2018年2月17日早上8:46 #

      有意思。也许吧。

      我认为会有更多预训练模型的复用,这样我们就不用花费那么多时间和精力重复解决相同的问题了。

发表回复

Machine Learning Mastery 是 Guiding Tech Media 的一部分,Guiding Tech Media 是一家领先的数字媒体出版商,专注于帮助人们了解技术。访问我们的公司网站以了解更多关于我们的使命和团队的信息。