重读经典：《Generative Adversarial Nets》|电子爱好者

admin管理员组
文章数量:1630197

GAN论文逐段精读【论文精读】

这是李沐博士论文精读的第五篇论文，这次精读的论文是 GAN。目前谷歌学术显示其被引用数已经达到了37000+。GAN 应该是机器学习过去五年上头条次数最多的工作，例如抖音里面生成人物卡通头像，人脸互换以及自动驾驶中通过传感器采集的数据生成逼真的图像数据，用于仿真测试等。这里李沐博士讲解的论文是 NeurIPS 版，与 arXiv 版稍有不同。

GAN 论文链接：https://proceedings.neurips/paper/2014/file/5ca3e9b122f61f8f06494c97b1afccf3-Paper.pdf

1. 标题、作者、摘要

首先是论文标题，GAN 就取自于论文标题首字母，论文标题中文意思是：生成式对抗网络。机器学习里面有两大类模型：一种是分辨模型，例如 AlexNet、ResNet 对数据进行分类或预测一个实数值、另一种就是生成模型，用于生成数据本身。Adversarial 是对抗的意思，第一次读的时候可能不知道什么意思，先放在这里，接着往下读。最后是 Nets，网络的意思，不过建议大家还是写成 Networks 比较规范一些。

下面是论文作者，一作大家很熟悉了，他的另一个代表作就是深度学习经典书籍（花书）：《深度学习》，通信作者是深度学习三巨头之一，2018年图灵奖的获得者。

这里有一个小八卦，当时一作在给论文取标题时，有人说 GAN 这个词在中文里写作干，和英语里的 fxxk 意思很接近，但是意义上丰富多了，一作就说这个好，就用它了。

下面是论文摘要，摘要总共七句话。

前三句话介绍我们提出了一个新的 framework，通过对抗过程估计生成模型；我们同时会训练两个模型，一个是生成模型 G G G，生成模型用来捕获数据的分布，另一个模型是辨别模型 D D D，辨别模型用来判断样本是来自于训练数据还是生成模型生成的。生成模型 G G G 的训练过程是使辨别模型犯错概率最大化实现的，当辨别模型犯错概率越大，则生成模型生成的数据越接近于真实数据。整个framework类似于博弈论里的二人对抗游戏。
第四句话是说，在任意函数空间里，存在唯一解， G G G 能找出训练数据的真实分布，而 D D D 的预测概率为 1 2 \frac{1}{2} 21，此时辨别模型已经分辨不出样本的来源。
最后就是说生成模型和辨别模型可以通过反向传播进行训练，实验也显示了提出的框架潜能。

2. 导言、相关工作

下面是 Introduction 部分，总共3段。

第一段说深度学习在判别模型取得了很大的成功，但是在生成模型进展还很缓慢，主要原因是在最大似然估计时会遇到很多棘手的近似概率计算，因此作者提出一个新的生成模型来解决这些问题。
第二段作者举了一个例子来解释对抗网络。生成模型好比是一个造假者，而判别模型好比是警察，警察需要能区分真币和假币，而造假者需要不断改进技术使警察不能区分真币和假币。
第三段说生成模型可以通过多层感知机来实现，输入为一些随机噪声，可以通过反向传播来训练。

然后是相关工作部分，这里有件有趣的事。当时GAN作者在投稿时，Jürgen Schmidhuber 恰好是论文审稿者，Jürgen Schmidhuber 就质问：“你这篇论文和我的 PM 论文很相似，只是方向相反了，应该叫 Inverse PM 才对”。然后Ian就在邮件中回复了，但是两人还在争论。

一直到NIPS2016大会，Ian 的 GAN Tutorial上，发生了尴尬的一幕。Jürgen Schmidhuber 站起来提问后，先讲自己在1992年提出了一个叫做 Predictability Minimization 的模型，它如何如何，一个网络干嘛另一个网络干嘛，接着话锋一转，直问台上的Ian：“你觉得我这个 PM 模型跟你的 GAN 有没有什么相似之处啊？” 似乎只是一个很正常的问题，可是 Ian 听完后反应却很激烈。Ian 表示：“Schmidhuber 已经不是第一次问我这个问题了，之前我和他就已经通过邮件私下交锋了几回，所以现在的情况纯粹就是要来跟我公开当面对质，顺便浪费现场几百号人听tutorial 的时间。然后你问我 PM 模型和 GAN 模型有什么相似之处，我早就公开回应过你了，不在别的地方，就在我当年的论文中，而且后来的邮件也已经把我的意思说得很清楚了，还有什么可问的呢？”

关于Jürgen Schmidhuber 和 Ian之间争论的更多趣事可以看这篇文章：从PM到GAN——LSTM之父Schmidhuber横跨22年的怨念。

3. 模型、理论

下面开始介绍 Adversarial nets。为了学习生成器在数据 x \boldsymbol{x} x 上的分布 p g p_g pg，我们定义输入噪声变量 p z ( z ) p_{\boldsymbol{z}}({\boldsymbol{z}}) pz(z)，数据空间的映射用 G ( z ; θ g ) G(\boldsymbol{z};\theta_g) G(z;θg) 表示，其中 G G G 是一个可微分函数（多层感知机），其参数为 θ g \theta_g θg。我们再定义第二个多层感知机 D ( x ; θ d ) D(\boldsymbol{x};\theta_d) D(x;θd)，其输出为标量。 D ( x ) D(\boldsymbol{x}) D(x) 表示数据 x \boldsymbol{x} x 来自真实数据的概率。

下面是训练策略，我们同时训练生成模型 G G G 和判别模型 D D D。对于判别模型 D D D，我们通过最大化将正确标签分配给训练样本和生成器生成样本的概率来训练；对于生成模型 G G G，我们通过最小化 log ⁡ ( 1 − D ( G ( z ) ) ) \log (1-D(G(\boldsymbol{z}))) log(1−D(G(z))) 来训练，总结为：

D ( x ) D(\boldsymbol{x}) D(x) 概率越大，判别器训练越好， log ⁡ D ( x ) \log D(\boldsymbol{x}) logD(x) 越大；
D ( G ( z ) ) D(G(\boldsymbol{z})) D(G(z)) 概率越小，判别器训练越好， log ⁡ ( 1 − D ( G ( z ) ) ) \log (1-D(G(\boldsymbol{z}))) log(1−D(G(z))) 越大；
D ( G ( z ) ) D(G(\boldsymbol{z})) D(G(z)) 概率越大，生成器训练越好， log ⁡ ( 1 − D ( G ( z ) ) ) \log (1-D(G(\boldsymbol{z}))) log(1−D(G(z))) 越小；

下图是对抗网络训练的直观示意图，黑色曲线是真实样本，绿色曲线为生成样本，蓝色曲线为判别概率。可以看到在（a）阶段，真实样本和生成样本分布不一致，此时判别器能够正确区分真实样本和生成样本。到（d）阶段，真实样本和生成样本分布几乎一致，此时判别器很难再区分二者，此时判别器输出概率为 1 2 \frac{1}{2} 21。

算法1是整个对抗网络的正式描述，对于判别器，我们通过梯度上升来训练；对于生成器，我们通过梯度下降来训练。

在实际训练时，公式（1）往往不能提供足够的梯度让生成器去学习。因为在学习的早期阶段，生成器 G G G 性能很差，判别器 D D D 有着很高的置信度判别数据来源。在这种情况， log ⁡ ( 1 − D ( G ( z ) ) ) \log (1-D(G(\boldsymbol{z}))) log(1−D(G(z))) 存在饱和现象。因此在这个时候，我们通过最大化 log ⁡ D ( G ( z ) ) \log D(G(\boldsymbol{z})) logD(G(z)) 来训练生成器 G G G。

下面是 Theoretical Results，对于任意给定的生成器 G G G，则最优的判别器 D D D 为：
D G ∗ ( x ) = p data ( x ) p data ( x ) + p g ( x ) D_{G}^{*}(\boldsymbol{x})=\frac{p_{\text {data }}(\boldsymbol{x})}{p_{\text {data }}(\boldsymbol{x})+p_{g}(\boldsymbol{x})} DG∗(x)=pdata (x)+pg(x)pdata (x)

下面是证明过程，对于给定的生成器 G G G，判别器 D D D 通过最大化期望 V ( G , D ) V(G,D) V(G,D) 来训练， V ( G , D ) V(G,D) V(G,D) 为：
V ( G , D ) = ∫ x p data ( x ) log ⁡ ( D ( x ) ) d x + ∫ z p z ( z ) log ⁡ ( 1 − D ( g ( z ) ) ) d z = ∫ x p data ( x ) log ⁡ ( D ( x ) ) + p g ( x ) log ⁡ ( 1 − D ( x ) ) d x \begin{aligned} V(G, D) &=\int_{\boldsymbol{x}} p_{\text {data }}(\boldsymbol{x}) \log (D(\boldsymbol{x})) d x+\int_{\boldsymbol{z}} p_{\boldsymbol{z}}(\boldsymbol{z}) \log (1-D(g(\boldsymbol{z}))) d z \\ &=\int_{\boldsymbol{x}} p_{\text {data }}(\boldsymbol{x}) \log (D(\boldsymbol{x}))+p_{g}(\boldsymbol{x}) \log (1-D(\boldsymbol{x})) d x \end{aligned} V(G,D)=∫xpdata (x)log(D(x))dx+∫zpz(z)log(1−D(g(z)))dz=∫xpdata (x)log(D(x))+pg(x)log(1−D(x))dx

已知 ( a , b ) ∈ R 2 (a, b) \in \mathbb{R}^{2} (a,b)∈R2，函数 y → a log ⁡ ( y ) + b log ⁡ ( 1 − y ) y \rightarrow a \log (y)+b \log (1-y) y→alog(y)+blog(1−y) 在 a a + b \frac{a}{a+b} a+ba 处取得最大值。

根据上面的证明，在最优判别器处，则有最大期望值 − log ⁡ 4 -\log4 −log4。

最后简单总结下，虽然在本文中，作者做的实验现在来看比较简单，但是整个工作是一个开创性的工作，GAN 属于无监督学习研究，而且作者是使用有监督学习的损失函数去训练无监督学习；而且本文的写作也是教科书级别的写作，作者的写作是很明确的，读者只看这一篇文章就能对GAN有足够的了解，不需要再去看其它更多的文献。

本文标签：经典 Generative Nets ADVERSARIAL

版权声明：本文标题：重读经典：《Generative Adversarial Nets》内容由热心网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：https://www.elefans.com/dianzi/1729057383a1184127.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

电子爱好者 - 最新技术资讯及电子产品介绍！

重读经典：《Generative Adversarial Nets》

1. 标题、作者、摘要

2. 导言、相关工作

3. 模型、理论

更多相关文章

cisco交换机、路由器配置12个经典试验

探索复古未来：WinXP - 在浏览器中重温经典的Windows XP体验

hdoj 4115 Eliminate the Conflict 【2-sat 经典建图】

[转载] 我的Android进阶之旅：经典的大牛博客推荐

【经典再现】风车动力 ghost xp sp3 老机专用第五版V5.0

(9.26更新 老机福音,再创经典)Ghost_XP_战神 V9.5 老机优化版

系统学习深度学习（二十二）--CNN经典模型总结

C语言经典面试题100道（校对详解版）

Design and Interpretation of Universal Adversarial Patched in Face Detection

计算机视觉经典书目清单

140个电脑经典技巧（真的很N）

电脑140个经典技巧

The Fundamental Matrix Song【经典：国外大牛把它的作用变成一首歌了】

经典:硬盘故障处理全攻略

计算机视觉领域经典论文源码

NLP系列经典论文(1)-- Attention Is All You Need

【第三弹】经典移植至IOS端、经典合集

经典升级，长直播，马上开课 | 第 19 期高级转录组分析和R数据可视化火热报名中！！！...

15个经典的Spring面试常见问题

[论文阅读] (23)恶意代码作者溯源(去匿名化)经典论文阅读：二进制和源代码对比

发表评论

推荐文章

jovi语音助手安装包_vivoJovi语音助手v3.1.1.0Android

解决word、excel、ppt无法激活问题，Office for Mac最新中文版本安装教程，可用

Terraform-Infrastructure as Code

Dr.COM宽带认证客户端网络环境使用路由器上网

SCIM安装万能五笔

热门文章

苹果手机app试玩是真的能赚钱吗？有风险吗 ?

鸿蒙系统微信红包,微信红包王版app下载-最新微信红包王版下载-安卓苹果鸿蒙版-155175软件...

笔记本一键配置无线上网

tp5.1路由简化_快速路由的简化技术

Mac电脑录屏快捷键在哪里？3种方法教给您，精准掌握

python常用快捷键

Studies in Literature and Language期刊征稿中

1.6python网络爬虫--读取和处理纯文本格式（CSV,PDF,docx）

1-3、安装Ubuntu和Windows双系统

远程服务器网刻系统,网刻-wu123119-ChinaUnix博客

最新文章

如何查计算机配件的配置,如何查看电脑配置信息？教你四种方法

影视处理计算机配置,影视后期制作电脑配置需要什么

在线查看计算机配置,怎样查看电脑配置信息？

ubuntu系统怎么看电脑配置

桌面显示电脑配置的PE_你还用软件看电脑配置？分享三种无需软件查看配置的方法...

如何查看ArcGIS Pro对电脑配置要求

查询计算机的配置命令是什么,查看电脑配置指令大全

如何用控制面板打开计算机配置,如何查看电脑的配置？学会下面几种方法，你就可以自己看电脑配置...

Linux下查看电脑配置信息

cmd命令怎么查看电脑配置？

win7查看计算机的配置,win7系统查看电脑配置的方法

ubuntu查看电脑配置信息

查看计算机软件配置,最齐全的查看电脑配置指令集锦 查看电脑配置软件推荐【图文】...

Win10电脑如何查看电脑配置

怎么查看电脑配置|win7查看电脑配置教程

小米手机肿么还原时钟

15000流明是多少瓦

一般普通投影机功率多大?

苹果绿联转换器有些投影机不能用

坚果V9投影机具体参数?

有关九年级作文850字精选

80后90后_高一作文

中级卫生专业资格中医全科学主治医师中级模拟题2021年(9)案与解析

(精品)师范大学招考硕士研究生课程八六0试卷

ZXMVC8900(V3

【模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313】模拟人生4（The Sims 4）性感露背黑色亮片礼服MOD V20190313 官方免费下载

【生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD】生化危机2：重制版（Resident Evil 2 Remake）克莱尔红头发深色服装MOD 官方免费下载

【模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311】模拟人生4（The Sims 4）性感露背深V领吊带裙MOD V20190311 官方免费下载

【模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311】模拟人生4（The Sims 4）科幻风宇宙飞船家庭住宅MOD V20190311 官方免费下载

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改 官方免费下载

如何实现高效的treenode搜索算法

treenode与链表有何本质区别

在哪些场景下应优先考虑使用treenode

treenode在树形结构中的角色是什么

如何通过treenode实现二叉树

(9.26更新老机福音,再创经典)Ghost_XP_战神 V9.5 老机优化版

查看计算机软件配置,最齐全的查看电脑配置指令集锦查看电脑配置软件推荐【图文】...

【鬼泣5（Devil May Cry V）v1.0十四项修改】鬼泣5（Devil May Cry V）v1.0十四项修改官方免费下载