夸大其词地说深度学习在一系列困难问题领域取得了最先进的成果。这是一个事实,但也是夸大其词。
目前,人工智能、机器学习和深度学习领域充满了兴奋。这也是一个绝佳的机会,可以从一些真正强大的技术的基础开始。
我努力说服朋友、同事和学生开始学习深度学习,但像上面那样大胆的陈述是不够的。它需要故事、图片和研究论文。
在这篇文章中,您将发现令人惊叹且最新的深度学习应用,这将激励您开始深度学习。
开始深度学习不一定意味着要花2-3年时间研究方程式,它可能意味着下载Keras并在5分钟内运行您的第一个模型。开始应用深度学习。构建东西。变得兴奋并将其转化为代码和系统。
通过我的新书《使用Python进行深度学习》来启动您的项目,包括分步教程和所有示例的Python源代码文件。
我一直想写这篇文章。现在开始吧。

深度学习的鼓舞人心的应用
图片来源:Nick Kenrick,部分权利保留。
概述
下面是本文将要探讨的具体例子列表。
并非所有示例都是已准备好投入使用的技术,但可以保证,它们都是会令您兴奋的示例。
有些例子如果您在这个领域待了一段时间,可能会觉得平淡无奇。但在更广泛的背景下,它们一点也不平淡无奇。一点也不。
坦率地说,对于像我这样的老派人工智能黑客来说,其中一些例子简直是当头一棒。有些问题我根本认为我们几十年内都无法解决,甚至根本无法解决。
我专注于视觉示例,因为我们可以通过截图和视频立即了解算法正在做什么,但在自然语言、文本和音频数据方面,有同样多甚至更多的示例没有列出。
这是列表
- 黑白图像的着色。
- 为无声电影添加声音。
- 自动机器翻译。
- 照片中的物体分类。
- 自动手写生成。
- 字符文本生成。
- 图像字幕生成。
- 自动游戏。
Python 深度学习需要帮助吗?
参加我的免费为期两周的电子邮件课程,发现 MLP、CNN 和 LSTM(附代码)。
立即点击注册,还将免费获得本课程的 PDF 电子书版本。
1. 黑白图像的自动着色
图像着色是为黑白照片添加颜色的问题。
传统上,这是一项非常困难的任务,通常需要人工手动完成。
深度学习可以利用照片中的物体及其上下文来为图像着色,就像人类操作员处理问题一样。
这是一项视觉上令人印象深刻的壮举。
此功能利用了为ImageNet训练的高质量和非常大的卷积神经网络,并将其用于图像着色问题。
通常,该方法涉及使用非常大的卷积神经网络和监督层,通过添加颜色来重新创建图像。

黑白照片的着色
图片取自 Richard Zhang, Phillip Isola 和 Alexei A. Efros。
令人印象深刻的是,同样的方法也可以用于为黑白电影的静止帧着色。
https://www.youtube.com/watch?v=_MJU8VK2PI4
进一步阅读
论文
- 深度着色 [pdf],2015
- 彩色图像着色 [pdf] (网站),2016
- 学习用于自动着色的表示 [pdf] (网站),2016
- 使用深度卷积神经网络进行图像着色 [pdf],2016
2. 自动为无声电影添加声音
在这项任务中,系统必须合成与无声视频匹配的声音。
该系统使用1000个带有鼓槌敲击不同表面并产生不同声音的视频示例进行训练。深度学习模型将视频帧与预先录制的声音数据库关联起来,以选择最能匹配场景中发生情况的声音。
然后,该系统通过类似图灵测试的设置进行评估,人类必须判断哪个视频具有真实或伪造(合成)的声音。
卷积神经网络和LSTM循环神经网络的一个非常酷的应用。
进一步阅读
论文
3. 自动机器翻译
这是一个任务,给定一种语言的单词、短语或句子,自动将其翻译成另一种语言。
自动机器翻译已经存在很长时间了,但深度学习在两个特定领域取得了顶尖成果:
- 文本自动翻译。
- 图像自动翻译。
文本翻译无需对序列进行任何预处理即可执行,算法可以学习单词之间的依赖关系以及它们到新语言的映射。大型LSTM循环神经网络的堆叠网络用于执行此翻译。
正如您所料,卷积神经网络用于识别带有字母的图像以及字母在场景中的位置。一旦识别,它们就可以转换为文本,翻译并用翻译后的文本重新创建图像。这通常称为即时视觉翻译。

即时视觉翻译
即时视觉翻译示例,摘自谷歌博客。
进一步阅读
这个例子很难找到好的资源,如果你知道任何,可以留下评论。
论文
- 使用神经网络进行序列到序列学习 [pdf],2014
- 使用RNN编码器-解码器学习短语表示以进行统计机器翻译 [pdf],2014
- 机器翻译中的深度神经网络:概述 [pdf],2015
4. 照片中的物体分类和检测
此任务需要将照片中的物体归类为一组先前已知物体中的一种。
使用非常大的卷积神经网络,在此问题的基准示例上已取得了最先进的成果。Alex Krizhevsky 等人在ImageNet分类问题上取得了突破,该成果被称为AlexNet。

物体分类示例
摘自使用深度卷积神经网络的ImageNet分类
这项任务的一个更复杂的变体称为目标检测,它涉及到在照片场景中专门识别一个或多个目标并用一个框将其框起来。

照片中的物体检测示例
取自Google博客。
进一步阅读
论文
- 使用深度卷积神经网络进行ImageNet分类 [pdf],2012
- 基于深度卷积神经网络的图像分类的一些改进 [pdf],2013
- 使用深度神经网络的可伸缩物体检测 [pdf],2013
- 用于物体检测的深度神经网络 [pdf],2013
5. 自动手写生成
这项任务是给定一个手写样本语料库,为给定的单词或短语生成新的手写。
手写笔迹以笔创建手写样本时使用的坐标序列形式提供。从这个语料库中学习笔画运动和字母之间的关系,并可以即时生成新的示例。
令人着迷的是,可以学习并模仿不同的风格。我很乐意看到这项工作与一些笔迹鉴定专业知识相结合。

自动手写生成样本
进一步阅读
论文
- 使用循环神经网络生成序列 [pdf],2013
6. 自动文本生成
这是一项有趣的任务,通过学习文本语料库,并从该模型中逐字或逐字符生成新文本。
该模型能够学习如何拼写、标点、构成句子,甚至捕捉语料库中文本的风格。
大型循环神经网络被用来学习输入字符串序列中项目之间的关系,然后生成文本。最近,LSTM循环神经网络在这个问题上取得了巨大成功,它使用基于字符的模型,一次生成一个字符。
Andrej Karpathy 在其关于该主题的热门博客文章中提供了许多示例,包括:
- 保罗·格雷厄姆的散文
- 莎士比亚
- 维基百科文章(包括标记)
- 代数几何(带LaTeX标记)
- Linux源代码
- 婴儿姓名

莎士比亚的自动文本生成示例
示例取自Andrej Karpathy博客文章
进一步阅读
论文
- 使用循环神经网络生成文本 [pdf],2011
- 使用循环神经网络生成序列 [pdf],2013
7. 自动图像字幕生成
自动图像字幕是系统根据给定图像生成描述图像内容的字幕的任务。
2014年,深度学习算法在这个问题上取得了非常令人印象深刻的成果,这得益于照片中物体分类和物体检测顶级模型的工作。
一旦您能够检测照片中的物体并为这些物体生成标签,您就可以看到下一步是将这些标签转化为连贯的句子描述。
这是那些让我大吃一惊的成果之一,至今仍如此。确实令人印象深刻。
通常,这些系统涉及使用非常大的卷积神经网络进行照片中的物体检测,然后使用像LSTM这样的循环神经网络将标签转换为连贯的句子。

自动图像字幕生成
样本取自Andrej Karpathy, Li Fei-Fei
这些技术也已扩展到自动为视频添加字幕。
进一步阅读
论文
- 用于生成图像描述的深度视觉语义对齐 [pdf] (及网站),2015
- 使用多模态循环神经网络解释图像 [pdf, 2014]
- 用于视觉识别和描述的长期循环卷积网络 [pdf],2014
- 使用多模态神经网络语言模型统一视觉语义嵌入 [pdf],2014
- 序列到序列——视频到文本 [pdf],2015
8. 自动游戏
这是一项任务,模型仅根据屏幕上的像素学习如何玩电脑游戏。
这项非常困难的任务是深度强化模型的领域,也是DeepMind(现为Google的一部分)因其成就而闻名于世的突破。
这项工作得到了扩展,并最终促成了Google DeepMind的AlphaGo,它击败了世界围棋冠军。
进一步阅读
论文
- 使用深度强化学习玩雅达利游戏 [pdf],2013
- 通过深度强化学习实现人类水平的控制, 2015
- 通过深度神经网络和树搜索精通围棋, 2016
其他示例
以下是一些上述列表中未包含的其他示例。
- 自动语音识别。
- 用于语音识别的深度神经网络声学建模 [pdf],2012
- 自动语音理解。
- 走向使用循环神经网络的端到端语音识别 [pdf],2014
- 自动将注意力集中在图像中的物体上。
- 视觉注意的循环模型 [pdf],2014
- 自动回答关于照片中物体的问题。
- 探索图像问答的模型和数据 [pdf],2015
- 自动将草图变成照片。
- 卷积草图反演 [pdf],2016
- 自动从粗略草图创建风格化图像。

从草图自动创建风格化图像
图片取自NeuralDoodle
更多资源
有许多很棒的资源、讲座等,可以帮助您对深度学习的能力和潜力感到兴奋。
以下是一些额外的资源,可帮助您激发兴趣。
- 深度学习的不可思议的有效性,Yann LeCun 于 2014 年的演讲
- 超棒深度视觉 顶级深度学习计算机视觉论文列表
- 能够学习的电脑的奇妙与恐怖含义,Jeremy Howard 的 TED 演讲
- 哪个算法取得了最佳结果,计算机视觉数据集上的最佳结果列表
- 神经网络如何真正工作,Geoffrey Hinton 2016
总结
在这篇文章中,您已经发现了 8 个旨在启发您的深度学习应用。
这种“展示”而非“讲述”的方法有望消除夸大其词,让您更清楚地了解深度学习技术当前和未来的能力。
您是否知道此处未列出的任何鼓舞人心的深度学习示例?请在评论中告诉我。
太棒了!!
很高兴你觉得有用,纳德。
嗨,杰森,可爱的例子,很棒的链接 🙂 这是一篇很棒的帖子。谢谢你!
很高兴你觉得这篇帖子有用,萨蒂。
嗨,杰森,好文章。
最近有很多关于深度学习应用于创建工具的讨论,这些工具可以生成
需求——设计——软件代码——创建构建——测试构建,以及帮助将构建部署到各种环境。
人类大脑的创造性功能真的能用机器学习来映射吗?
有趣,我还没见过那个。
我不确定大脑创造性功能的映射,但深度学习和其他人工智能方法可以是创造性的(在我们认为审美愉悦的范围内是随机的)。
感谢您的示例。我发现自动着色非常了不起,我可能会开始用它来做一个项目。
谢谢,亚瑟,很高兴听到这个消息。
非常棒且有用的文章,非常感谢
谢谢,罗多夫。
你知道吗,杰森·布朗利,我今年八月开始了我的博士学习。我给自己施加了很大的压力,希望能找到一个好的研究方向。经过大量的互联网搜索,我终于想通了,决定研究深度学习,然后我找到了你的帖子,这消除了我脑海中的压力乌云。非常感谢你,杰森 🙂
查兰·古德拉
坚持住,查兰·古德拉,让我知道你的研究进展如何。
嗨,兄弟……我正在读硕士,我想在这个领域做我的项目……你能推荐一些问题吗?
也许是上面帖子中的一个例子?
谢谢你。这篇帖子是关于深度学习应用和能力的最佳帖子之一。
谢谢法尔哈德。
信息量很大。谢谢。
谢谢萨蒂斯。
非常感谢教授。
您能为这些应用程序添加代码吗?
嗨,穆斯塔法,好主意!这些项目中有许多是学术性的,并且代码是开源的。
也许你可以帮忙找出GitHub仓库?
亲爱的杰森,你好
感谢这篇精彩的文章,我有一个问题,如何将深度学习用于推荐系统?
嗨,哈米德,我没有用于推荐系统的深度学习示例。
我不明白为什么你不能将深度学习算法用于基于项目或基于用户的协同过滤模型。
嗨,Jason,
只是一个快速的问题,我注意到所提供的示例更侧重于图像和音频应用。只是想知道深度学习是否同样适用于商业数据分析等传统领域?
谢谢
深度学习最适合文本、图像和音频等模拟数据。
它可以用在标准的表格数据上,但你很可能会使用XGBoost或更传统的机器学习方法做得更好。
嗨,Jason,
我看到您涵盖了自动图像字幕生成,您可以添加第9个应用程序,即基于字幕或文本的自动图像生成。它属于生成建模的概念,并使用GAN获得了许多引人注目的结果。
论文:https://arxiv.org/abs/1406.2661,https://arxiv.org/abs/1605.05396
谢谢
谢谢特贾斯。
嗨 Jason
有一个非常好的应用程序叫做 Deep Art Effects,它使用深度学习算法来创作艺术。你上传一张照片,选择一种艺术风格,然后神经网络会对其进行解释,并将你的照片转化为这种特定风格的“画作”。这是深度学习的一个有趣方面!
感谢您的留言,克里斯蒂安。
谢谢……您的博客非常有趣……我想在深度学习方面做我的研究……您能给我一些研究领域吗?
谢谢阿鲁纳。
抱歉,我不再是学术界的,我的重点是工业机器学习。我最好的建议是与您的导师交谈。
非常棒的帖子。您认为机器学习和时间序列方法更适合涉及回归的预测/预报问题吗?
我说的是不涉及视觉和音频的问题。
我不确定我是否理解您的问题,也许您可以重新表述一下?
深度学习方法是否适用于非视觉非音频问题?
比如说一个典型的时间序列,你认为深度学习会超越传统的时间序列和机器学习方法吗?
我说的是像金融时间序列、电力需求等等这样的时间序列。
深度学习可用于广泛的问题。
深度学习在金融领域是否达到了最先进的水平?我不知道。我预计那些探索这个问题的人会出于显而易见的原因对研究结果保密。
我见过一些LSTMs在时间序列预测方面取得了令人鼓舞的成果,但它们需要大量的训练。
非常感谢,它确实启发了我。
谢谢杰瑞,很高兴听到这个消息。
我被震撼了。我一直在寻找一个主题,现在找到了“一站式商店”。想象一下,在搜索了一年之后,发现了这个神奇的网站,我多么希望我能早点发现它。无论如何,迟到总比没有好。谢谢你,博士。
谢谢。
信息丰富,易于理解。谢谢杰森!!
谢谢克里希纳,很高兴它有帮助。
太棒了!!…太棒了…非常感谢你,杰森。
谢谢,很高兴对您有帮助。
感谢这篇非常有益的文章
很高兴它有帮助。
非常感谢您的示例。一些组件和想法对自组织自适应工程系统控制项目非常有帮助。再次感谢。
很高兴听到这个消息。
一篇有趣的帖子。杰森,感谢您提供的广泛示例和链接。我已开始关注您。
谢谢。
你好 Jason,
非常有趣且有用的应用程序列表。
由于这篇文章发布于2016年,从那时起ML/DL领域取得了许多进展。那么,您是否有更新的应用程序列表或解决上述应用程序的资源?
也许是时候我创建一个新列表了,谢谢你的提醒。
深度学习和零样本学习有什么区别?零样本学习解决了深度学习的哪些挑战?
零样本学习是指在模型(任何机器学习模型,不限于深度学习)之前没有见过任何示例的情况下进行学习。
嗨,Jason,
这非常有用且有趣。我对将深度学习特别是图像识别应用于诊断领域也特别感兴趣。您有任何示例吗?我对这个领域非常好奇。
抱歉,我没有医疗诊断的例子。
这可能是一个很好的起点
https://machinelearning.org.cn/start-here/#deeplearning
谢谢你的信息。深度学习也称为深度结构化学习,是机器学习方法的一个子领域,基于学习数据表示,关注受大脑结构和功能启发(称为人工神经网络)的算法。
你从哪里了解到“深度结构化学习”这个词的?
我终于来到了正确的地方
很高兴听到这个消息。
好帖子!觉得图片字幕生成器非常酷,很快就会做类似的东西!
谢谢。
棒极了的帖子。
此外,这里还有所有深度学习项目的列表,已按各自类别排序。该列表也在不断更新。
https://deeplink.ml
感谢分享。
感谢这篇信息丰富的文章。深度学习。所有提到的应用都非常创新。
谢谢。
我发现自动游戏非常棒!
我阅读了深度学习技术,并想了解其应用,感谢杰森提供这些信息。
这是一个有趣的领域,但在工作中并不是很有用。
你好
您的深度学习书籍非常好,但在我的国家找不到,也买不到,因为我们受到制裁(我住在伊朗)。
我们如何下载它?
谢谢。
我的书可以直接从我的网站购买和下载
https://machinelearning.org.cn/products/
谢谢你,杰森!展示而非讲述总是一个很好的说服方式,尤其是在谈论技术时。在人工智能和深度学习每天都在开发和实施以使生活更轻松的时代,它将永远是一个令人好奇的入门主题。这8个应用应该能改变许多人的想法。但我相信你错过了“自动驾驶汽车”——我最喜欢的一个。尽管如此,干得好!
谢谢,很棒的例子!
我是EEG信号分析新手。我想使用细胞神经网络。我想从细胞神经网络的起点开始了解它。细胞神经网络是如何工作的?您能指导我一下吗?
谢谢你
什么是细胞神经网络?
谢谢,这真的对我的项目有帮助
不客气!
亲爱的先生,我对学习机器学习和深度学习非常感兴趣,并希望为软件工作公司做一些实时项目。请指导我需要学习哪些技能,以及如何学习机器学习和深度学习的实时项目?
你可以从这里开始
https://machinelearning.org.cn/start-here/
亲爱的杰森,这是我读过的最好的帖子之一,主题非常广泛,可以进一步分为许多研究项目,我觉得您应该给我们一些关于医疗保健的见解。
感谢您的建议。
您的建议非常好
谢谢。
感谢您的示例。这真的对我的项目有帮助。
不客气。
现在我感觉人工智能市场被拥有大量资源的大型科技公司(ChatGPT、Bard等)主导。所以,小型参与者似乎没有空间在人工智能市场做任何有用或有利可图的事情。
嗨,阿卜杜拉……你会把什么看作是“有用”或“有利可图”的呢?同样的话也可以用于电路设计和其他电气设备,然而软件和硬件工程师和技术人员有很多机会。