生成对抗网络(GAN)是一种用于生成建模的神经网络架构。
生成建模涉及使用模型生成新的示例,这些示例似乎合理地来自现有样本分布,例如生成与现有照片数据集相似但具体不同的新照片。
GAN是一种生成模型,它使用两个神经网络模型进行训练。一个模型被称为“生成器”或“生成网络”模型,它学习生成新的合理样本。另一个模型被称为“判别器”或“判别网络”,它学习区分生成示例和真实示例。
这两个模型在一个竞赛或游戏(博弈论意义上)中设置,生成器模型试图欺骗判别器模型,而判别器则同时接收真实样本和生成样本的示例。
训练完成后,生成模型可以用于按需创建新的合理样本。
GAN有非常具体的用例,初学者可能难以理解这些用例。
在这篇文章中,我们将回顾大量有趣的GAN应用,以帮助您对GAN可以有用和适用的问题类型形成直观理解。这不是一个详尽的列表,但它包含了许多媒体上出现过的GAN示例用途。
我们将这些应用程序分为以下几个领域:
- 为图像数据集生成示例
- 生成人脸照片
- 生成逼真照片
- 生成卡通人物
- 图像到图像的转换
- 文本到图像的转换
- 语义图像到照片的转换
- 人脸正面视图生成
- 生成新的人体姿态
- 照片转表情符号
- 照片编辑
- 人脸老化
- 照片融合
- 超分辨率
- 照片修复
- 服装转换
- 视频预测
- 3D对象生成
我是否遗漏了GAN的有趣应用或关于特定GAN应用的优秀论文?
请在评论中告诉我。
用我的新书《使用Python的生成对抗网络》启动您的项目,包括分步教程和所有示例的Python源代码文件。
为图像数据集生成示例
Ian Goodfellow等人在2014年题为“生成对抗网络”的原始论文中描述的应用是生成新的合理样本,其中GAN被用于为MNIST手写数字数据集、CIFAR-10小物体照片数据集和Toronto Face Database生成新的合理示例。

使用GAN为图像数据集生成新的合理示例。摘自《生成对抗网络》,2014年。
这也被Alec Radford等人于2015年发表的题为“使用深度卷积生成对抗网络的无监督表征学习”的重要论文(称为DCGAN)作为演示,该论文展示了如何大规模训练稳定的GAN。他们演示了用于生成卧室新示例的模型。

GAN生成的卧室照片示例。摘自《使用深度卷积生成对抗网络的无监督表征学习》,2015年。
重要的是,在这篇论文中,他们还展示了对GAN输入(在潜在空间中)进行向量运算的能力,包括生成的卧室和生成的人脸。

GAN生成人脸的向量算术示例。摘自《使用深度卷积生成对抗网络的无监督表征学习》,2015年。
生成人脸照片
Tero Karras等人在其2017年题为“用于提高质量、稳定性和变化的GAN渐进式增长”的论文中,展示了生成合理逼真人脸照片的能力。事实上,它们看起来非常真实,可以说结果令人瞩目。因此,这些成果受到了媒体的广泛关注。人脸生成是在名人示例上训练的,这意味着生成的面孔中包含现有名人的元素,使它们看起来熟悉,但又不完全是。

GAN生成的逼真人脸示例。摘自《用于提高质量、稳定性和变化的GAN渐进式增长》,2017年。
他们的方法也被用于演示物体和场景的生成。

GAN生成的逼真物体和场景示例。摘自《用于提高质量、稳定性和变化的GAN渐进式增长》,2017年。
该论文中的示例被用于2018年题为“人工智能的恶意使用:预测、预防和缓解”的报告中,以展示GAN从2014年到2017年的快速进展(通过Ian Goodfellow的这条推文发现)。

GAN功能从2014年到2017年的进展示例。摘自《人工智能的恶意使用:预测、预防和缓解》,2018年。
想从零开始开发GAN吗?
立即参加我为期7天的免费电子邮件速成课程(附示例代码)。
点击注册,同时获得该课程的免费PDF电子书版本。
生成逼真照片
Andrew Brock等人在其2018年题为“用于高保真自然图像合成的大规模GAN训练”的论文中,展示了使用BigGAN技术生成几乎与真实照片无法区分的合成照片。

使用BigGAN生成的逼真合成照片示例。摘自《用于高保真自然图像合成的大规模GAN训练》,2018年。
生成卡通人物
杨华金等人在其2017年题为“利用生成对抗网络实现动漫人物的自动创作”的论文中,展示了GAN训练和使用,用于生成动漫人物(即日本漫画人物)的面部。

GAN生成的动漫人物面部示例。摘自《利用生成对抗网络实现动漫人物的自动创作》,2017年。
受动漫示例的启发,许多人尝试生成宝可梦角色,例如pokeGAN项目和使用DCGAN生成宝可梦项目,但成功有限。

GAN生成的宝可梦角色示例。摘自pokeGAN项目。
图像到图像的转换
这是一个有点包罗万象的任务,适用于那些展示了可以执行许多图像转换任务的GAN论文。
Phillip Isola等人在其2016年题为“条件对抗网络的图像到图像转换”的论文中,展示了GAN,特别是他们的pix2pix方法,用于许多图像到图像的转换任务。
示例包括以下转换任务:
- 语义图像转换为城市景观和建筑物的照片。
- 卫星照片转换为Google地图。
- 照片从白天转换为夜晚。
- 黑白照片转换为彩色。
- 草图转换为彩色照片。

使用pix2pix将白天城市景观照片转换为夜晚的示例。摘自《条件对抗网络的图像到图像转换》,2016年。

使用pix2pix将草图转换为彩色照片的示例。摘自《条件对抗网络的图像到图像转换》,2016年。
朱俊彦在其2017年题为“使用循环一致对抗网络的无配对图像到图像翻译”的论文中,介绍了他们著名的CycleGAN,以及一系列令人印象深刻的图像到图像翻译示例。
以下示例演示了四种图像翻译情况:
- 照片转换为艺术绘画风格。
- 马转换为斑马。
- 照片从夏天转换为冬天。
- 卫星照片转换为Google地图视图。

使用CycleGAN执行的四种图像到图像翻译示例。摘自《使用循环一致对抗网络的无配对图像到图像翻译》,2017年。
该论文还提供了许多其他示例,例如:
- 绘画转换为照片。
- 草图转换为照片。
- 苹果转换为橙子。
- 照片转换为艺术绘画。

使用CycleGAN将绘画转换为照片的示例。摘自《使用循环一致对抗网络的无配对图像到图像翻译》,2017年。
文本到图像翻译 (text2image)
韩张等人在其2016年题为“StackGAN:使用堆叠生成对抗网络实现文本到逼真图像合成”的论文中,展示了GAN的应用,特别是他们的StackGAN,用于从鸟类和花卉等简单物体的文本描述中生成逼真照片。

文本描述和GAN生成的鸟类照片示例。摘自《StackGAN:使用堆叠生成对抗网络实现文本到逼真图像合成》,2016年。
Scott Reed等人在其2016年题为“生成对抗文本到图像合成”的论文中,也提供了一个早期的文本到图像生成小物体和场景(包括鸟类、花卉等)的示例。

文本描述和GAN生成的鸟类和花卉照片示例。摘自《生成对抗文本到图像合成》。
Ayushman Dash等人在其2017年题为“TAC-GAN – 文本条件辅助分类器生成对抗网络”的论文中,提供了关于似乎相同数据集的更多示例。
Scott Reed等人在其2016年题为“学习画什么和画在哪里”的论文中,扩展了这项能力,并使用GANs从文本生成图像,同时使用边界框和关键点作为提示,指示在何处绘制描述的物体,如一只鸟。

使用GAN根据文本和位置提示生成的物体照片示例。摘自《学习画什么和画在哪里》,2016年。
语义图像到照片的转换
Ting-Chun Wang等人在其2017年题为“使用条件GAN的高分辨率图像合成和语义操作”的论文中,展示了条件GAN的应用,根据语义图像或草图输入生成逼真图像。

语义图像和GAN生成的城市景观照片示例。摘自《使用条件GAN的高分辨率图像合成和语义操作》,2017年。
具体示例包括:
- 给定语义图像,生成城市景观照片。
- 给定语义图像,生成卧室照片。
- 给定语义图像,生成人脸照片。
- 给定草图,生成人脸照片。
他们还演示了一个用于操纵生成图像的交互式编辑器。
人脸正面视图生成
Rui Huang等人在其2017年题为“超越人脸旋转:用于逼真且保持身份的正面视图合成的全局和局部感知GAN”的论文中,展示了GAN的应用,用于根据倾斜拍摄的照片生成人脸的正面视图(即正对脸部)照片。其想法是,生成的正面照片可以作为人脸验证或人脸识别系统的输入。

基于GAN的人脸正面视图照片生成示例。摘自《超越人脸旋转:用于逼真且保持身份的正面视图合成的全局和局部感知GAN》,2017年。
生成新的人体姿态
Liqian Ma等人在其2017年题为“姿态引导的人像生成”的论文中,提供了一个生成具有新姿态的人体模型新照片的示例。

GAN生成的人体姿态照片示例。摘自《姿态引导的人像生成》,2017年。
照片转表情符号
Yaniv Taigman等人在其2016年题为“无监督跨域图像生成”的论文中,使用GAN将图像从一个领域转换到另一个领域,包括从街道数字到MNIST手写数字,以及从名人照片到他们称之为表情符号或小卡通面孔。

名人照片和GAN生成的表情符号示例。摘自《无监督跨域图像生成》,2016年。
照片编辑
Guim Perarnau等人在其2016年题为“用于图像编辑的可逆条件GAN”的论文中,使用GAN,特别是他们的IcGAN,根据指定的特征(如发色、发型、面部表情乃至性别变化)重建人脸照片。

使用IcGAN进行人脸照片编辑的示例。摘自《用于图像编辑的可逆条件GAN》,2016年。
Ming-Yu Liu等人在其2016年题为“耦合生成对抗网络”的论文中,也探讨了生成具有特定属性(如发色、面部表情和眼镜)的面孔。他们还探讨了生成其他图像,如具有不同颜色和深度的场景。

GAN生成金发和非金发人脸的示例。摘自《耦合生成对抗网络》,2016年。
Andrew Brock等人在其2016年题为“使用内省对抗网络的神经照片编辑”的论文中,提出了一种使用变分自编码器和GAN混合的人脸照片编辑器。该编辑器允许快速真实地修改人脸,包括改变发色、发型、面部表情、姿态和添加胡须。

使用基于VAE和GAN的神经照片编辑器进行人脸编辑的示例。摘自《使用内省对抗网络的神经照片编辑》,2016年。
He Zhang等人在其2017年题为“使用条件生成对抗网络进行图像去雨”的论文中,使用GAN进行图像编辑,包括从照片中去除雨雪的示例。

使用GAN从照片中去除雨水的示例。摘自《使用条件生成对抗网络进行图像去雨》。
人脸老化
Grigory Antipov等人在其2017年题为“使用条件生成对抗网络进行人脸老化”的论文中,使用GAN生成不同年龄(从年轻到年老)的人脸照片。

使用GAN生成不同年龄人脸照片的示例。摘自《使用条件生成对抗网络进行人脸老化》,2017年。
Zhifei Zhang在其2017年题为“通过条件对抗自编码器进行年龄进展/回归”的论文中,使用基于GAN的方法对人脸照片进行去老化处理。

使用GAN进行人脸照片老化处理的示例。摘自《通过条件对抗自编码器进行年龄进展/回归》,2017年。
照片融合
Huikai Wu等人在其2017年题为“GP-GAN:实现逼真高分辨率图像混合”的论文中,展示了GAN在图像混合中的应用,特别是来自不同照片的元素,如田野、山脉和其他大型结构。

基于GAN的照片混合示例。摘自《GP-GAN:实现逼真高分辨率图像混合》,2017年。
超分辨率
Christian Ledig等人在其2016年题为“使用生成对抗网络实现照片级单图像超分辨率”的论文中,展示了GAN的应用,特别是他们的SRGAN模型,用于生成具有更高(有时甚至高得多)像素分辨率的输出图像。

GAN生成的超分辨率图像示例。摘自《使用生成对抗网络实现照片级单图像超分辨率》,2016年。
Huang Bin等人在其2017年题为“使用条件生成对抗网络实现高质量人脸图像超分辨率”的论文中,使用GAN创建人脸照片的不同版本。

生成的高分辨率人脸示例。摘自《使用条件生成对抗网络实现高质量人脸图像超分辨率》,2017年。
Subeesh Vasu等人在其2018年题为“使用增强感知超分辨率网络分析感知-失真权衡”的论文中,提供了一个使用GAN创建高分辨率照片的示例,重点关注街景。

高分辨率GAN生成的建筑物照片示例。摘自《使用增强感知超分辨率网络分析感知-失真权衡》,2018年。
照片修复
Deepak Pathak等人在其2016年题为“上下文编码器:通过图像修复进行特征学习”的论文中,描述了GANs的应用,特别是上下文编码器,用于执行照片修复或孔洞填充,即填充因某种原因被移除的照片区域。

使用上下文编码器进行GAN生成的照片修复示例。摘自《上下文编码器:通过图像修复进行特征学习》中对GANs(特别是上下文编码器)应用情况的描述,2016年。
Raymond A. Yeh等人在其2016年题为“基于深度生成模型的语义图像修复”的论文中,使用GAN填充和修复故意损坏的人脸照片。

基于GAN的人脸照片修复示例。摘自《基于深度生成模型的语义图像修复》,2016年。
Yijun Li等人在其2017年题为“生成式人脸补全”的论文中,也使用GAN进行人脸照片的修复和重建。

GAN重建的人脸照片示例。摘自《生成式人脸补全》,2017年。
服装转换
Donggeun Yoo等人在其2016年题为“像素级领域迁移”的论文中,展示了GAN的应用,根据模特穿着衣服的照片生成目录或在线商店中可能看到的服装照片。

输入照片和GAN生成的服装照片示例。摘自《像素级领域迁移》,2016年。
视频预测
Carl Vondrick等人在其2016年题为“生成场景动态视频”的论文中,描述了GAN在视频预测中的应用,特别是成功预测长达一秒的视频帧,主要针对场景中的静态元素。

GAN生成的视频帧示例。摘自《生成场景动态视频》,2016年。
3D对象生成
Jiajun Wu等人在其2016年题为“通过3D生成对抗建模学习物体形状的概率潜在空间”的论文中,展示了GAN用于生成新的三维物体(如3D模型),例如椅子、汽车、沙发和桌子。

GAN生成的三维物体示例。摘自《通过3D生成对抗建模学习物体形状的概率潜在空间》。
Matheus Gadelha等人在其2016年题为“从多个物体的2D视图中进行3D形状归纳”的论文中,使用GAN根据从多个视角拍摄的物体2D图片生成三维模型。

从二维图像重建椅子的三维示例。摘自《从多个物体的2D视图中进行3D形状归纳》,2016年。
进一步阅读
本节提供了更多GAN应用列表,以补充此列表。
- gans-awesome-applications:精选的优秀GAN应用和演示列表.
- GAN的一些很酷的应用, 2018.
- GAN超越生成:7种替代用例, 2018.
总结
在这篇文章中,您发现了大量生成对抗网络(GAN)的应用。
我是否遗漏了GAN的有趣应用或关于特定GAN应用的优秀论文?
请在评论中告诉我。
你有什么问题吗?
在下面的评论中提出你的问题,我会尽力回答。
很棒的概述。谢谢Jason
谢谢!
都说一张图片胜过千言万语,我说一篇像这样的好文章胜过千本书。谢谢Jason。
谢谢,我很高兴它能帮助阐明GAN能做什么。
嗯,我喜欢“照片转表情符号”的应用。有代码分享吗?
是的,我希望很快能有许多示例。
嗨,Jason,
我已经参加了您的课程包,
您能分享一些好的GAN资源或代码示例吗,我想做一些练习
是的,我目前正在写一本关于GAN的书。
完成后请告诉我🙂
我会的!
这篇文章太棒了,非常感谢
不客气。
您有计划发布一些关于自动编码器的教程吗?
将来可能会有,您具体想了解哪些关于自编码器的内容?例如,您是指VAE吗?
你好!Jason。我非常喜欢您关于GAN的文章。我想知道您是否能帮助我了解GAN的最新研究领域。我是一名硕士生,想写关于GAN的论文。谢谢
这是我在这里回答的一个常见问题
https://machinelearning.org.cn/faq/single-faq/what-research-topic-should-i-work-on
非常感谢,太棒了!!!
谢谢。
您好。很高兴看到GAN这么多酷炫的应用。
您能详细说明一下照片转表情符号……域转移网络吗?
感谢您的建议。
Jason,这太棒了。我是一名零售技术领域的分析师,目前正在撰写一篇关于GAN潜力的文章。有机会联系吗?(我的电子邮件地址已提供)
谢谢。
您可以在这里直接联系我。
https://machinelearning.org.cn/contact/
嗨,Jason,
GAN的书要出版了吗?
是的,我希望在一两周内发布它。
Jason,一如既往的精彩文章。由于从已部署模型中收集反馈标签成本高昂。GANs能否用于基于少量真实样本创建新的“反馈”,以更新生产中的ML模型?只考虑数值特征,不考虑图像。
是的——GAN可以用作一种数据增强技术——从目标域中幻化出新的合理示例。
除了玩玩之外,GAN是否有人真正投入使用?另外,请制作一个关于模型投入生产(包括GAN,因为我在网上搜遍了,没有人教GAN如何投入生产)的教程系列。
我见过/读过关于将GAN模型集成到桌面和一些移动图像处理应用程序中的案例。
很好的建议,谢谢。
书出版了吗?
是的,谢谢您的询问。
https://machinelearning.org.cn/generative_adversarial_networks/
嗨 Jason,非常棒的文章,您是否也计划编写上述用例的Python实现,那对我们来说真的很有帮助。
谢谢。
我涵盖了许多示例,您可以从这里开始:
https://machinelearning.org.cn/start-here/#gans
嗨 Jason,非常感谢你
我的领域是电信。我正在寻找生物医学和电信领域的好应用。
您有什么建议吗?
也许可以在 scholar.google.com 上搜索一下。
嗨,Jason,
GAN目前在NLP领域有应用吗?
祝好,
Adam
好问题。
我相信有人正在研究,抱歉我对此不太了解。
NLP中主要的无监督方法是语言模型——它们将有效地实现您期望GAN在同一领域中实现的目标——生成词序列。您可以从这里开始学习语言模型。
https://machinelearning.org.cn/start-here/#nlp
恕我不同意,Jason – NLP是监督和/或自监督模型的例子。它们基于2017年OpenAI论文(Vaswani et al.)的自注意力机制。
是的,我知道我是在2024年写这个😉,但我目前正在写一篇关于生成式人工智能发展的论文,无论我在哪里研究,大多数作者都说NLP不是在无监督学习中训练的。除非我遗漏了什么显而易见的东西。
Moni 你好……自然语言处理(NLP)涵盖了广泛的技术和方法,旨在使计算机能够理解和处理人类(自然)语言。它既可以涉及监督学习,也可以涉及无监督学习,以及其他方法。
——**NLP中的监督学习**:许多NLP任务使用监督学习,其中模型在标记数据集上进行训练。这意味着输入数据附带了正确的输出。情感分析、命名实体识别和机器翻译等任务通常使用监督学习技术。例如,在情感分析中,模型在标记有情感(例如,积极、消极、中性)的文本上进行训练,并学习预测新的、未见文本的情感。
——**NLP中的无监督学习**:也有一些NLP任务使用无监督学习,其中模型从未标记的数据中学习模式。聚类和主题建模是NLP中无监督学习任务的例子。例如,在主题建模中,算法用于发现从大量文档中出现的主要主题,而无需对文档进行任何预先标记。
——**其他方法**:除了监督学习和无监督学习之外,NLP还利用半监督学习(模型从标记和未标记数据的组合中学习)、强化学习(模型学习做出决策)和基于规则的方法(使用显式规则而非从数据中派生模型来处理语言)。
因此,NLP并非 exclusively 仅限于监督学习;它根据具体的任务和可用数据,利用各种机器学习和语言学方法。
嗨,Jason,
感谢您的精彩概述!
我想知道GAN在网络安全领域是否有研究应用?
祝好,
Maryam
也许有,您可以在 scholar.google.com 上搜索一下。
我是一名大三本科生,我需要用GAN做项目,我对如何实现它有一个想法。这个想法是“你输入未缝合布料的图片,它输出缝合好的布料,或者可能是你穿着这件布料的图片”,请帮帮我。
是的,您可以根据您的项目修改这里的其中一个教程。
https://machinelearning.org.cn/start-here/#gans
嗨 Midhat,这个主意听起来很有趣,你成功了吗?我是GAN的新手。
祝好,Malko
感谢您的文章;我正在努力理解这篇文章,也许可以用于交易应用。
此致;
穆罕默德
抱歉,我不了解交易。
嗨 Jason,您知道计算机视觉领域之外的GAN应用吗?
谢谢,
火星
我相信人们正在其他领域使用它们,例如时间序列,但我认为视觉领域是它们取得最大成功的领域。
如果有一个医学术语语料库,其中部分单词(token?)会被重复使用,例如心肌病(myocardiopathy)中的“myo”和“cardio”会在其他新词中使用,这似乎是一种定义更明确的语言类型。这会是生成对抗网络的一种合适或更有可能实现的“语言”生成方式吗?(如果问题没有意义,很抱歉,我是新手)。
我想象一个术语(新语言)的输入是“肌肉 心脏 萎缩”,相应的术语是心肌病(myocardiopathy)用于训练。然后我希望生成一个与“肌肉 胃 疼痛”相对应的新术语(输出)。
谢谢。
也许是语言模型而不是GAN
https://machinelearning.org.cn/start-here/#nlp
我想知道您是否能提及/讨论一些与照片无关的应用。
好建议,谢谢。
您有什么具体的想法吗?
总的来说,我一直在思考不同的问题,但不确定是否能将它们映射到GAN问题。
例如,因为GAN是生成式的,所以我想到基于给定数据生成新的照片/文本(就像网上大多数可用示例一样)。
但是,生成一个随机数呢?GAN是否可能使用?
当我想到这一点时,我不确定判别器会是什么样子。
或者是否可以使用GAN来查找一系列有规律数字中的下一个数字?
例如,1, 3, 5, ?
那将是一个序列预测模型
https://machinelearning.org.cn/start-here/#lstm
或时间序列预测模型
https://machinelearning.org.cn/start-here/#deep_learning_time_series
您可以使用语言模型生成文本,不需要GAN
https://machinelearning.org.cn/start-here/#nlp
您可以直接生成随机数
https://machinelearning.org.cn/how-to-generate-random-numbers-in-python/
感谢您的解释和链接。我所说的随机数是指
假设我假装有一个随机数序列(0和1),我想看看GAN是否能生成下一个随机数(以判断该序列是否真正随机)。
听起来不适合用GAN。
有统计检验来检验随机性。
对于上述问题,我使用了NN、LSTM、SVM进行预测,但我想看看GAN是否也能用于这些应用。我阅读/看到的大多数GAN应用都与照片相关。
我偶然发现了这篇文章。我多年前曾是一名数据库程序员,所以我想了解一下GAN。我发现它很有趣,但开始思考人类与生成结果的互动可能会如何影响结果。
我也喜欢艺术。多年前,我发现了一个程序,可以生成随机的艺术形状、颜色和纹理……我用它们作为我许多数字艺术作品的起点。当时实际上有几个这样的程序可用。其中一个叫“Reptile”。其他的名字我忘了。
总之,我会将这些随机数生成的图像放入Photoshop图层中,将顶层透明度调整到50%左右,并旋转它,直到我“看到”一些可识别的东西。然后我会使用Photoshop中包含的数字艺术工具,将我看到的东西呈现出来。我用这种方式创作了很多艺术作品。
最令人惊奇的部分是。我从不知道我将“发现”什么,但我以这种方式发现并提炼成数字绘画的图像,结果往往以某种方式具有“预测性”……预示着未来的事物。例如,我看到了一个武术大师,多年后,我在一家武术工作室找到了一份工作……尽管当时我对武术不感兴趣。我看到了一个草药师,篮子里装满了新鲜采摘的草药……后来我对自然疗法产生了浓厚的兴趣。
这些只是我看到并提炼成完整艺术作品的少数几个预测性图像。所以,我不得不怀疑我们所称的“随机”是否可能根本不那么随机。我们(我们的人类能量场——超越时间和空间?)是否有可能以某种方式融合、合作或影响似乎完全随机的生成过程?我忍不住想到了量子物理学和“观察者”效应。
GAN图像会受到观察结果的人的意图或观察的影响吗?真的有“随机”这种东西吗?
感谢分享。
不尽然,除非你能将反馈编码到模型中。
别太快下结论。许多研究已经通过纯粹的意图和精神集中来影响随机数生成器。如果你没听说过 Dean Radin,那就去查查他。在这一合法研究领域存在着统计学上显著且可重复的结果。这意味着这些GAN可能不仅仅是工具,更是我们心灵的延伸。如果它们监测我们的多巴胺,而我们是判别器,那么我们与艺术的关系将很快发生根本性改变。我们将兴奋到危险的程度。
我无法下载免费的迷你课程。我收到消息:Safari无法建立安全连接。
很抱歉听到这个消息,您可以在这里访问它:
https://machinelearning.org.cn/how-to-get-started-with-generative-adversarial-networks-7-day-mini-course/
图像修复是否可以用于计算机视觉图像,以构建三维图像中被遮挡或阻碍的物体。例如,卡车或汽车后面的人行道或自行车?
也许吧。或许可以查阅相关文献?
嗯,我最近开始研究这些论文。目前还没有遇到任何好的。
我特别感兴趣的是生成部分遮挡物体的LiDar图像。
感谢这篇文章。
我正在尝试使用AI技术(如GAN)在两个动画帧之间生成帧。
不像许多其他动画软件那样。这有可能实现吗?我见过使用StyleGAN,可以通过修改潜在向量来操纵生成图像的属性。这适用于全身图像,如走路、跑步、站立姿势吗?
此致
Aminul
也许吧。这取决于数据。
或许可以为您的领域开发一些原型,并发现这些方法对您来说有多有效。
谢谢您的回复。是的,我会尝试的。
有没有利用AI技术在两个动画帧之间生成帧的工作呢?
我预计是有的,抱歉这不是我的专业领域。
感谢您的有用内容。
GAN或自编码器能否用于从向量数据或标量输入生成图像?例如,如果我知道输入向量[0,0,1]的输出是黑猫,而输入[1,1.3,0]的输出是灰狗,并且我有一个这样的数据集。我们能否训练一个深度学习模型来告诉我们向量[1,2,3]的输出是什么?
总而言之,我们能否根据输入向量或标量生成图像?
您见过这类工作吗?
当然可以。GAN就是这样工作的。或许可以从这里开始:
https://machinelearning.org.cn/start-here/#gans
谢谢。我有很多东西要读了 🙂
太棒了!
嘿,好文章!写得很好,引人入胜。我学到了很多!
只有一点,您可能没有清晰阐述GAN在音乐中的应用。
谢谢。
感谢这篇非常有用的文章。这里包含的GAN应用确实令人印象深刻。除此之外,GAN的一个重要应用是生成合成数据,以便通过数据生成获得更多数据样本,这是我目前正在研究的领域。请求您在即将发布的关于GAN的文章或著作中包含一个使用GAN生成合成数据的示例。谢谢
谢谢。
对于该用例,我建议使用图像增强而不是GAN。
https://machinelearning.org.cn/how-to-configure-image-data-augmentation-when-training-deep-learning-neural-networks/
嗨,这些话题真的很有趣。我计划为我的软件工程学位做关于“文本到图像翻译”或“照片修复”的研究。我想知道如何继续学习这些与GAN相关的话题。如果您能提供一些我可以学习它们的资源,那会非常好。谢谢
谢谢。
听起来是个有趣的项目。是的,GAN可以用于图像修复,也许也可以用于文本到图像——我一时说不准。
您可以在这里搜索关于这些主题的论文:
https://scholar.google.com/
谢谢,
我可以使用GAN处理网络数据吗?还是它专门用于图像?
还有其他链接吗?
GAN专为图像数据设计。
谢谢回复,
我应该在loss_discriminator = loss_generator = 0.5时停止训练步骤吗?否则我可以使用提前停止吗?
嗨,谢谢您的帮助。我想请教一下GAN在图像分类中的应用
例如人脸识别。GAN可以做到吗?
是的,但GAN是用于生成图像的,而不是用于图像分类的。至少一般来说是这样。
有一些GAN可以协同训练分类模型。GAN的输出也可能为分类模型提供额外的训练数据。尽管这两种情况都需要大量证据来证明它们增加了价值。
嗨 Jason。我读过不少关于使用GAN进行人脸老化进展的论文。您知道目前哪种是广泛采用的最新技术选择吗?
抱歉,也许可以在 scholar.google.com 上查阅相关文献。
嗨,Jason,谢谢你的信息。
我想知道,我可以使用GAN来检测假脸吗?
我不这么认为,你最好开发一个专门的分类模型。
这个模型取决于什么?我的意思是,如果你能建议哪个合适的模型可以帮助我。
具体帮助你什么?
我有表格数据和图像数据,我需要将表格数据和图像数据作为输入。并生成一组图像数据作为输出。
哪个
你可以使用多输入模型,一个输入用于图像数据,一个用于表格数据,这会有帮助。
https://machinelearning.org.cn/keras-functional-api-deep-learning/
你好,我能否将你用于发帖的图片和一些排版用于我的学习活动中进行整理和填写?(没有营利目的。我会注明出处)
https://machinelearning.org.cn/faq/single-faq/can-i-use-your-code-in-my-own-project/
嗨,作为一名内容创作者,我想创建一系列随机生成的图像角色……由于我不是程序员,也不想外包,这样可以完全控制创作流程,有没有任何SaaS或软件、服务可以让我付费实现这个结果?请帮忙。谢谢。
想不到市面上有这样的产品,但是如果你因为计算资源方面的考虑而寻求SaaS,那么你当然可以构建自己的模型并将其托管在亚马逊或其他云提供商上。
我正在寻找一种GAN,它能让我用于艺术目的处理人体,使身体变得奇特。显然,为了更好地实现身体的形状,它们需要是裸体的。你有什么GAN的想法可以帮助我完成我的工作吗?
你尝试了什么?
你可以添加图像外绘(不是内绘)作为其他应用。
嗨Atomiciaz……你对教程有什么具体问题可以解决的吗?
此致,
你好,
GAN是否用于3D Cad模型中的生成设计,以生成像PTC Creo生成拓扑优化那样的Cad模型?
谢谢。
嗨,Bharath……虽然我无法评论该特定应用程序,但以下内容可能有用。
https://machinelearning.org.cn/books-on-generative-adversarial-networks-gans/
https://machinelearning.org.cn/impressive-applications-of-generative-adversarial-networks/
GAN设计可以用于日志分析吗?
输入可以是带实际日志的错误。我们如何将其区分为正常日志并训练模型?
嗨,Anna……我们目前没有直接与该目标相关的教程,但以下内容可能引起你的兴趣:
https://machinelearning.org.cn/what-are-generative-adversarial-networks-gans/
嗨,Jason,
非常感谢您提供了如此丰富的信息。我正在寻找一种GAN变体,它既可以合成新样本(一维时间序列波形或信号),也可以合成相关的序列标签。您有什么建议吗?
谢谢!
嗨,Ryan……这种GAN被称为条件GAN,其中生成器除了随机噪声外,还以特定的标签或类别信息为条件。
嗨,Jason,
非常感谢这篇内容丰富的文章。
我想知道是否有某种GAN可以用于生成新样本(一维波形)及其对应的序列标签。
任何建议或想法都非常感谢!
嗨,Ryan……这是一个很好的问题!是的,生成对抗网络(GAN)可以用于生成新样本及其对应的序列标签。这种GAN被称为条件GAN,其中生成器除了随机噪声外,还以特定的标签或类别信息为条件。
在生成一维波形及其对应序列标签的情况下,生成器的输入将是噪声和所需标签的组合。然后,生成器将输出合成波形及其对应标签。判别器将接收合成波形及其对应标签,以及真实波形及其对应标签,并尝试区分它们。
训练条件GAN以生成波形及其对应标签需要大量的标注训练数据。生成样本的质量还取决于数据分布的复杂性以及网络架构和训练过程的有效性。
嗨 James,
非常感谢你的回答。我还有一个后续问题。
你知道是否可以将条件GAN和infoGAN结合起来吗?
目前的GAN似乎各有优势,我想知道是否有将它们或所有它们结合成一个,从而兼具它们所有优势的可能性?
非常感谢!
Ryan
GAN模型在流量分析或网络异常检测中发挥作用吗?你可能会记得,威胁行为者会生成虚假流量或扰乱流量来欺骗分类器。你对此有何看法?
嗨,Isyaku……以下资源可能对你有所帮助:
https://www.atlantis-press.com/journals/ijcis/125954216/view
我不是学生。
刚退休,有很多空闲时间,我喜欢科技。
Gans的应用有很多,而且很有趣。
但为什么很少有人处理声音或音乐呢?
希腊,莱斯沃斯,米蒂利尼,
29/12/24
嗨 kospod……你能在有空之余探索技术,尤其是像GANs(生成对抗网络)这样迷人的领域,这真是太棒了。你说得对——GANs有多种应用,但它们在声音和音乐中的应用与图像合成或视频生成等领域相比,探索得较少。造成这种差异的原因有几个:
—
### 1. **音频数据的复杂性**
– 音频信号是高维且连续的,这使得它们比图像(以2D像素阵列表示)更难处理。
– 音频通常同时具有时间(时域)和频率(频谱)分量,需要同时建模,这需要更专业的架构。
### 2. **感知质量挑战**
– 对于图像,人类视觉系统相对宽容。然而,人耳对声音中的不规则性要敏感得多。这使得生成感知上令人信服的音频更加困难。
– 评估生成音频的质量比评估视觉内容更主观、更不直接。
### 3. **数据表示问题**
– 音频可以用不同的方式表示:原始波形、频谱图或MIDI数据。每种表示方法在使用GANs时都有其自身的挑战。
– 例如,原始波形要求模型处理极长的序列,这可能在计算上非常昂贵。
### 4. **缺乏大型带标签数据集**
– GANs通常对数据有很高的要求,虽然图像有许多大型数据集,但音频数据集(尤其是音乐)则不那么丰富,有时还受版权问题限制。
### 5. **其他音频模型的主导地位**
– 在音频领域,循环神经网络(RNNs)、Transformers或WaveNet(自回归模型)等模型在音乐生成和语音合成等任务中取得了更大的成功并被广泛使用。这些模型有时会掩盖基于GAN的方法。
—
### 音频GANs中令人振奋的进展和应用
尽管存在这些挑战,GANs在音频方面仍取得了一些令人兴奋的进展:
1. **语音合成和增强**
– WaveGAN和MelGAN等GANs用于从频谱图或低质量音频生成和优化高质量语音。
2. **音乐生成**
– MuseGAN等模型已开发用于创建多乐器音乐作品。
3. **音频风格迁移**
– GANs可以在音轨之间迁移风格,类似于图像中的风格迁移。例如,将钢琴音轨转换为小提琴的声音。
4. **音效生成**
– GANs正被用于为游戏和电影生成逼真的音效。
5. **语音转换**
– GANs可以修改一个人的声音,使其听起来像另一个人,或改变语音的情感语调。
—
### 日益增长的兴趣
随着计算能力的提高和特定于音频的GAN架构的改进,我们可以期待在声音和音乐方面出现更多创新的应用。如果你对探索这个领域感兴趣,以下是一些入门方法:
– **研究现有的模型,如WaveGAN、MelGAN和MuseGAN。**
– **尝试使用免费提供的数据集(例如,MAESTRO用于钢琴音乐或NSynth用于音符)。**
– **考虑探索结合GANs与其他架构(如RNNs或Transformers)的混合模型。**
GANs与音乐的交叉领域仍在不断发展,现在是深入研究的激动人心的时刻!
您好,
GANs所有不同的应用都做得很好。
你有没有研究过生成网络数据包/流量的表格数据,比如NSL-KDD,以及如何很好地评估合成数据?
嗨,Shalini……是的,生成网络数据包/流量的合成表格数据,类似于**NSL-KDD数据集**,是网络安全、网络异常检测和对抗性机器学习研究中的常见做法。以下是如何处理和评估合成数据的方法:
—
### **1. 生成网络流量的合成表格数据**
#### **方法:**
– **基于规则的模拟**:根据真实的网络模式(例如,正常与攻击数据包)定义规则。
– **统计抽样**:将概率分布拟合到真实数据并抽样新数据。
– **生成模型**
– **GANs(例如,CTGAN、Tabular GAN)**:学习分布并生成合成记录。
– **VAEs(变分自动编码器)**:编码和解码数据以创建新的合成样本。
– **Copulas**:捕获变量之间的依赖关系并生成样本。
– **流量重放工具**
– **Tcpreplay**:从PCAP文件重现网络流量。
– **Scapy(Python)**:生成自定义网络数据包。
—
### **2. 评估合成数据的质量**
#### **评估标准:**
1. **统计相似性**(它模仿真实数据的程度)
– **特征分布比较**:KS检验、Wasserstein距离、Jensen-Shannon散度。
– **成对相关性**:比较协方差矩阵。
– **PCA/UMAP可视化**:比较潜在空间中的聚类分离。
2. **机器学习效用**(它对训练机器学习模型的有用程度)
– **下游任务性能**:在合成数据上训练机器学习模型(例如,随机森林、XGBoost、DNN)并在真实数据上进行测试。
– **TSTR(训练-合成,测试-真实)**:检查在合成数据上训练的模型是否能推广到真实数据。
3. **隐私与安全**(如果敏感数据泄露)
– **成员推断攻击(MIA)**:测试真实样本是否能与合成样本区分开来。
– **属性披露风险**:衡量攻击者是否能推断出缺失的真实属性。
4. **多样性与覆盖率**(它覆盖不同场景的程度)
– **模式崩溃检查**:确保生成多样化的攻击模式。
– **新颖性检测**:比较合成样本,看它们是否引入了新的攻击变体。
—
### **合成数据生成和评估的最佳工具**
– **SDV(合成数据仓库)**:提供基于统计和机器学习的合成数据生成。
– **CTGAN、TVAE(表格变分自动编码器)**:基于深度学习的合成数据生成。
– **scikit-learn 和 scipy.stats**:用于合成采样的基本统计建模。
– **seaborn、matplotlib、pandas-profiling**:用于分布的可视化评估。