深度学习在自然语言处理领域的承诺在于,模型能够通过需要更多数据但更少语言专业知识的训练和操作,实现更好的性能。
深度学习方法周围存在大量的炒作和夸大其词,但除了炒作之外,深度学习方法正在具有挑战性的问题上取得最先进的成果。尤其是在自然语言处理领域。
在这篇文章中,您将了解深度学习方法在解决自然语言处理问题方面的具体承诺。
阅读本文后,你将了解:
- 深度学习在自然语言处理中的承诺。
- 从业者和研究科学家对深度学习在自然语言处理中的承诺有何看法。
- 自然语言处理的关键深度学习方法和应用。
通过我的新书《自然语言处理深度学习》来启动您的项目,其中包括所有示例的分步教程和Python源代码文件。
让我们开始吧。

深度学习在自然语言处理中的前景
图片由D. Brandsma提供,保留部分权利。
深度学习的承诺
深度学习方法之所以受欢迎,主要是因为它们正在兑现其承诺。
这并不是说这项技术周围没有炒作,而是说炒作是基于非常真实的成果,这些成果正在计算机视觉和自然语言处理等一系列极具挑战性的人工智能问题中得到证明。
深度学习能力的一些首次大型演示是在自然语言处理领域,特别是语音识别。最近则是在机器翻译领域。
在这篇文章中,我们将探讨深度学习方法在自然语言处理领域的五个具体承诺。这些承诺是该领域的Ting研究人员和从业者最近强调的,这些人可能比普通报道中对承诺的看法更为克制。
总而言之,它们是:
- 即插即用替代模型的承诺。也就是说,深度学习方法可以作为替代模型插入到现有的自然语言系统中,从而实现相同或更好的性能。
- 新NLP模型的承诺。也就是说,深度学习方法为序列到序列预测等具有挑战性的自然语言问题提供了新的建模方法的机会。
- 特征学习的承诺。也就是说,深度学习方法可以从自然语言中学习模型所需的特征,而无需专家指定和提取特征。
- 持续改进的承诺。也就是说,深度学习在自然语言处理中的性能是基于真实结果的,并且改进似乎正在持续甚至加速。
- 端到端模型的承诺。也就是说,大型端到端深度学习模型可以适用于自然语言问题,提供更通用和性能更好的方法。
我们现在将更深入地探讨每一个。
深度学习在自然语言处理中还有其他承诺;这些只是我选择强调的5个。
您认为深度学习对自然语言处理的承诺是什么?
在下面的评论中告诉我。
需要深度学习处理文本数据的帮助吗?
立即参加我的免费7天电子邮件速成课程(附代码)。
点击注册,同时获得该课程的免费PDF电子书版本。
1. 即插即用替代模型的承诺
深度学习在自然语言处理中的第一个承诺是能够用性能更好的模型替换现有的线性模型,这些模型能够学习和利用非线性关系。
Yoav Goldberg 在其为自然语言处理研究人员撰写的神经网络入门书中,强调了深度学习方法正在取得令人印象深刻的成果。
最近,神经网络模型也开始应用于文本自然语言信号,再次取得了非常有希望的成果。
— 自然语言处理神经网络模型入门,2015年。
他接着强调,这些方法易于使用,有时甚至可以完全替代现有的线性方法。
最近,该领域在从稀疏输入的线性模型转向密集输入的非线性神经网络模型方面取得了一些成功。虽然大多数神经网络技术易于应用,有时几乎可以作为旧线性分类器的即插即用替代品,但在许多情况下存在强大的入门障碍。
— 自然语言处理神经网络模型入门,2015年。
2. 新 NLP 模型的承诺
另一个承诺是,深度学习方法有助于开发全新的模型。
一个有力的例子是使用循环神经网络,它们能够学习并在非常长的序列上条件化输出。这种方法足够独特,使从业者能够摆脱传统建模假设,从而实现最先进的成果。
Yoav Goldberg 在其关于自然语言处理深度学习的扩展书中评论道,循环神经网络等复杂的神经网络模型为自然语言处理建模提供了全新的机会。
大约在2014年,该领域开始在从稀疏输入的线性模型转向密集输入的非线性神经网络模型方面取得了一些成功。……其他方法则更先进,需要改变思维方式,并提供新的建模机会,特别是基于循环神经网络(RNN)的一系列方法,它减轻了序列模型中普遍存在的马尔可夫假设的依赖,允许在任意长的序列上进行条件化,并产生有效的特征提取器。这些进展导致了语言建模、自动机器翻译和其他应用方面的突破。
— 第十七页,《自然语言处理中的神经网络方法》,2017年。
3. 特征学习的承诺
深度学习方法能够学习特征表示,而无需专家手动指定和从自然语言中提取特征。
自然语言处理研究员 Chris Manning 在其自然语言处理深度学习课程的第一讲中,强调了不同的视角。
他描述了手动定义的输入特征的局限性,在统计自然语言处理中,机器学习的早期应用实际上是对定义特征的人类的证明,而计算机做的学习很少。
Chris 认为,深度学习方法的承诺是自动特征学习。他强调,特征学习是自动的而非手动的,易于适应而非脆弱的,并且可以持续自动改进。
一般来说,我们手动设计的特征往往过于具体、不完整,设计和验证需要很长时间,而且最终只能达到一定的性能水平。而学习到的特征易于适应,训练速度快,并且可以持续学习,从而达到我们以前无法达到的更好性能水平。
— Chris Manning,讲座 1 | 深度学习与自然语言处理,2017年(幻灯片,视频)。
4. 持续改进的承诺
深度学习在自然语言处理领域的另一个承诺是,在具有挑战性的问题上持续快速改进。
在关于自然语言处理深度学习的同一开篇讲座中,Chris Manning 继续描述了深度学习方法在自然语言领域受欢迎的原因是它们确实有效。
深度学习之所以让大多数人如此兴奋,真正的原因是它一直在发挥作用。
— Chris Manning,讲座 1 | 深度学习与自然语言处理,2017年(幻灯片,视频)。
他强调,初步成果令人印象深刻,并在语音方面取得了比过去30年任何其他方法都更好的成果。
Chris 接着提到,这不仅仅是取得了最先进的成果,更是改进的速度。
……在过去的六七年里,令人震惊的是,深度学习方法以惊人的速度不断改进和提升。……我甚至会说这是前所未有的,就一个领域而言,它似乎一直在以如此快的速度发展,能够每月推出更好的方法。
— Chris Manning,讲座 1 | 深度学习与自然语言处理,2017年(幻灯片,视频)。
5. 端到端模型的承诺
深度学习的最后一个承诺是能够为自然语言问题开发和训练端到端模型,而不是开发专业模型的管道。
这对于开发的速度和简单性,以及这些模型改进的性能都是可取的。
神经机器翻译,简称NMT,指的是试图学习将一种语言翻译成另一种语言的大型神经网络。这项任务传统上由一系列经典的、经过人工调整的模型组成,每个模型都需要专业的知识。
Chris Manning 在其斯坦福大学自然语言处理深度学习课程的第10讲中对此进行了描述。
神经机器翻译的含义是,我们希望构建一个大型神经网络,我们可以在其中训练整个端到端机器翻译过程并进行端到端优化。
…
这种从手动定制的分段模型转向端到端序列到序列预测模型的趋势,在语音识别领域也可见一斑。执行此操作的系统被称为NMT(神经机器翻译)系统。
— Chris Manning, 讲座 10: 神经机器翻译和带注意力的模型, 2017. (幻灯片, 视频)
这种从专业系统管道转向端到端模型的趋势,在语音识别领域也同样存在。
在斯坦福大学自然语言处理课程中,自然语言处理研究员 Navdeep Jaitly(现就职于英伟达)在介绍语音识别时强调,语音识别的每个组件都可以用神经网络替换。
自动语音识别流水线的主要模块包括语音处理、声学模型、发音模型和语言模型。
问题在于,每个子系统的属性和,重要的是,错误都不同。这促使人们需要开发一个神经网络来端到端地学习整个问题。
随着时间的推移,人们开始注意到,如果使用神经网络,这些组件中的每一个都可以做得更好。……然而,仍然存在一个问题。每个组件中都有神经网络,但每个组件中的错误都不同,因此它们可能无法很好地协同工作。这就是尝试转向将整个模型作为一个大模型进行训练的基本动机。
— Navdeep Jaitly,讲座12:语音处理的端到端模型,深度学习与自然语言处理,2017年(幻灯片,视频)。
自然语言处理的深度学习网络类型
深度学习是一个庞大的研究领域,并非所有内容都与自然语言处理相关。
人们很容易纠缠于特定的优化方法或旨在提升性能的模型类型扩展。
从宏观角度来看,深度学习中有5种方法在自然语言处理应用中值得最多关注。
它们是
- 嵌入层。
- 多层感知器(MLP)。
- 卷积神经网络(CNN)。
- 循环神经网络(RNN)。
- 递归神经网络(ReNN)。
自然语言处理中的问题类型
深度学习不会解决自然语言处理或人工智能。
迄今为止,深度学习方法已在更广泛的自然语言处理问题集上进行了评估,并在少量问题上取得了成功,这里的成功是指性能或能力达到或超过以前其他方法所能达到的水平。
重要的是,深度学习方法取得最大成功的领域是一些面向最终用户、具有挑战性且可能更有趣的问题。
5个例子包括:
- 词语表示和含义。
- 文本分类。
- 语言建模。
- 机器翻译。
- 语音识别。
进一步阅读
如果您想深入了解此主题,本节提供了更多资源。
- 自然语言处理神经网络模型入门, 2015.
- 自然语言处理中的神经网络方法, 2017.
- 斯坦福CS224n:深度学习与自然语言处理, 2017
总结
在这篇文章中,您发现了深度学习神经网络在自然语言处理中的前景。
具体来说,你学到了:
- 深度学习在自然语言处理中的承诺。
- 从业者和研究科学家对深度学习在自然语言处理中的承诺有何看法。
- 自然语言处理的关键深度学习方法和应用。
你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。
总结得非常好,阐述得很清楚。
谢谢。
这是一篇非常棒的总结,阅读起来很有趣。在阅读本文之前,我对自然语言处理一无所知
谢谢,很高兴对您有帮助。
您好,我刚从Visual Capitalist(转到steemit)转发了一篇文章。您对动画gif有什么经验?神经网络可以动画化以帮助更具视觉倾向的人理解概念吗?我特别注意到了RRN和ReNN,我想知道它们在一个例子中是如何工作的。
请不要转发我的内容,Richard,我认为未经允许这样做是非常不道德的。
极好的总结。我对自然语言处理完全陌生。这篇文章帮助我理解了深度学习在自然语言处理中的应用方式
谢谢Ritika,很高兴听到。
做得好,Jason。谢谢
谢谢 Karthik!
如何进行深度学习的学术研究
有很多方法,这是一个模糊的问题。您的具体问题是什么?
您能告诉我计算机视觉如何在建筑工地有效应用,以便我们能将其纳入公司的简介中吗
抱歉,我不理解您的问题。也许您可以重新表述一下?
嗨,Jason,
感谢您关于DL-NLP的有趣且有用的文章,也感谢您提供回答问题的机会!
作为一个非英语母语者和IT术语的非入门者,我对“端到端模型”与“流水线模型”概念提出一个更具语义性的问题。
它们一定是某种过程的隐喻,但我不知何故无法理解它们的含义以及它们究竟有什么不同。您能简要解释一下吗?提前非常感谢,
罗伯特
对我来说,端到端意味着从原始数据到能够进行预测的模型。
我不知道什么是流水线模型?
嗯,我也不知道,所以我才问。你似乎在你的这句话中暗示了两者之间的对立:“深度学习的最终承诺是能够为自然语言问题开发和训练端到端模型,而不是开发专业模型的管道。”
我明白了,我指的是一系列的专业模型。