CGAN论文翻译

编程入门行业动态更新时间:2024-10-11 13:25:31

CGAN<a href=https://www.elefans.com/category/jswz/34/1770125.html style= 论文翻译"/>

CGAN论文翻译

读论文系列

条件式生成对抗网络

摘要

1 介绍

2 相关工作

2.1用于图像标记的多模态学习

3 条件式对抗网络

3.1生成式对抗网络

3.2 条件对抗网络

4 实验结果

4.1 单模式

4.2 多模式

5 未来的工作

References

条件式生成对抗网络

摘要

GAN是最近训练生成模型方法中很新颖的一种方式。在此基础上，我们提出了一种需要输入训练数据和标签y的条件GAN。CGAN能生成MNIST数据集类似的图片。我们还说明了该模型可以用于学习多模态模型，并提供了一个用于图形标签的应用程序的初步实例，在这个示例中，我们演示了这个方法如何生成不属于训练标签的描述性标签。

1 介绍

生成式对抗网络作为训练生成模型的替代框架，是为了避免逼近许多难解的概率计算。

对抗网络的优点是不需要马尔可夫链，只使用反向传播来获取梯度，学习过程中不需要推理，可以很容易地将多种因素和交互作用纳入模型。

此外，如GAN论文中所示，它可以产生最先进的对数似然估计和真实样本。

在无条件生成模型中，无法控制生成数据的模式。然而，通过附加信息对模型进行调节，就有可能指导数据生成过程。这样的条件反射可以基于类标签，基于用于图形修补的某些数据，甚至基于来自不同模态的数据。

在本研究中，我们展示了如何构建条件式生成对抗网络。对于实验结果，我们展示了两组实验。一个是基于类标签的MNIST数字数据集，另一个是用于多模式学习的MIR Flickr 25000数据集。

2 相关工作

2.1用于图像标记的多模态学习

尽管最近监督神经网络(尤其是卷积网络)取得了许多成功，扩大这些模型以适应大量预测的产出类别仍然是一个挑战。第二个问题是，迄今为止的大部分工作都集中在学习从输入到输出的一对一映射上。然而，许多有趣的问题更自然地被认为是一对多的概率映射。例如，在图像标记的情况下，可能有许多不同的标记可以适当地应用于给定的图像，不同的人可能使用不同的术语(同义词或相关的)来描述相同的图像。

帮助解决第一个问题的一种方法是利用来自其他模式的额外信息:例如，使用自然语言语料库学习标签的向量表示，其中几何关系在语义上是有意义的。进行预测时，我们得益于这样的情况：当预测错误时，我们仍然经常“接近”事实(例如，预测“桌子”而不是“椅子”)，而且我们可以自然地对训练期间没有看到的标签进行预测概括。诸如此类的研究表明，即使是简单的从图像特征空间到词表示空间的线性映射也能提高分类性能。

解决第二个问题的一种方法是使用条件概率生成模型，将输入作为条件变量，将一对多映射实例化为条件预测分布。

《Multimodal learning with deep boltzmann machines.》这篇论文采用类似的方法解决该问题，并对多模态深玻尔兹曼机进行训练MIR Flickr 25000的数据集。

此外，在《Multimodal neural language models》中，作者展示了如何训练监督多模态神经语言模型，并且能够为图像生成描述性句子。

3 条件式对抗网络

3.1生成式对抗网络

生成式对抗网是最近被引入的一种训练生成式模型的新方法。他们包含两个“对抗”模型: 生成模型G捕获数据分布，判别模型D估计样本来自训练数据而不是G的概率。G和D都可以是一个非线性映射函数，比如一个多层感知器。

要学习基于数据数据x的生成器分布pg，生成器构建一个映射函数，从先验噪声分布pz(z)到数据空间G(z;θg)。判别器D(x;θd)，输出一个单一标量，表示x来自训练数据而不是pg的概率。

G和D是同时训练的:我们调整G的参数使其minimize log(1-D(G(z))，并调整D的参数使其minimize logD(X)，就像它们遵循的是带有值函数V (G, D)的双人最小最大值博弈:

3.2 条件对抗网络

如果生成式对抗网络的生成器和判别器都有一些附加信息y，则可将生成式对抗网络扩展到一个条件模型。y可以是任何类型的辅助信息，例如类别标签或来自其他模式的数据。我们可以通过将y作为额外的输入层输入到判别器和生成器中来进行调节。在生成器中，先前的输入噪声pz(z)和y被组合成联合隐式表示，对抗训练框架在如何构成这种隐藏表示方面允许相当大的灵活性。

在判别器中，x和y被表示为输入和一个判别函数(在本文中再次由一个MLP体现)。

双人极大极小策略的目标函数如式2所示

图1说明了一个简单的条件式对抗网络的结构。

4 实验结果

4.1 单模式

我们使用MNIST图像训练了一个条件对抗网络在它们的类标签，使用独热的向量编码。

在生成网络中，从单位超立方体内的均匀分布中提取了维数为100的先验噪声z。z和y都被通过整流线性单元(ReLu)激活映射到隐藏层，层大小分别为200和1000，然后都被映射到第二层，组合的隐藏ReLu层的维度为1200。然后，我们有一个最终的sigmoid层作为输出，用于生成784维MNIST样本。

判别器将x映射到具有240个单位和5个部件的《Maxout networks.》论文中的maxout层，将y映射到具有50个单位和5个部件的maxout层。这两个隐藏层都映射到一个带有240个单元和4个部件的maxout层，然后被送入sigmoid层。（只要判别器足够的强大，其精确的结构并不重要;我们发现maxout单元通常非常适合这个任务。）

模型采用随机梯度下降训练，小批量为100，初始学习率为0.1，初始学习率指数下降到0.000001，衰减因子为1.00004。动量也被使用，初始值为0.5，增加到0.7。在生成器和判别器上都应用了概率为0.5的dropout，并以验证集上的对数似然估计为停止点。

表1显示了MNIST数据集测试数据的Gaussian Parzen window对数似然估计。每10类抽取1000个样本，并对这些样本进行Gaussian Parzen window拟合。然后我们使用Gaussian Parzen window分布估计测试集的对数似然。

我们提出的条件式对抗网络的结果可以与其他一些基于网络的方法相比较，并比其他几种方法的效果要好——包括无条件的对抗网络。我们将这些结果更多地作为概念证明而不是有效性的证明，并相信随着对超参数空间和结构的进一步探索，条件模型应该匹配或超过非条件结果。

图2显示了一些生成的样本。每一行都以一个标签为条件，每一列都是不同生成的样本。

4.2 多模式

Flickr（雅虎旗下图片分享网站）网站里面的图像是相关用户生成元数据(特别是用户标记)的丰富标签数据来源。

用户生成的元数据不同于更规范的图像标签方案，因为它们通常更具描述性，并且在语义上更接近于人类使用自然语言描述图像的方式，而不仅仅是识别图像中出现的对象。UGM的另一个方面是同义词很普遍，不同的用户可能会使用不同的词汇来描述相同的概念——因此，有一种有效的方法来规范化这些标签变得很重要。这篇论文内的《Efficient estimation of word representations in vector space.》概念词编码在这里非常有用，因为相关的概念最终会由相似的向量表示。

在本节中，我们将演示基于多标签预测的图像自动标签，使用条件式对抗网生成基于图像特征的标签向量分布(可能是多模态的)。

对于图像特征，我们在包含21,000个标签的完整ImageNet数据集上预先训练一个类似于AlexNet的卷积模型。我们使用最后一个带有4096个单元的全连接层的输出作为图像表示。

对于单词表示，我们首先从YFCC100M 2数据集元数据的用户标签、标题和描述的连接中收集文本语料库。在对文本进行预处理和清理之后，我们训练了一个词向量大小为200的skip-gram模型。我们省略了词汇表中出现次数少于200次的单词，从而得到了一个大小为247465的字典。

在对抗网络训练过程中，我们保持卷积模型和语言模型不变。当通过这些模型反向传播的时候，我们把实验留在未来的工作中。

在我们的实验中，我们使用MIR Flickr 25000数据集，并使用上述的卷积模型和语言模型提取图像和标签特征。没有任何标签的图像在我们的实验中被省略，注释被视为额外的标签。前15万个示例用作训练集。带有多个标签的图像在训练集中对每个相关标签重复一次。

为了评估，我们为每幅图像生成100个样本，并使用词汇表中单词向量表示的余弦相似度来找到最接近的20个单词。然后我们从100个样本中选出10个最常见的单词。表2显示了一些用户分配的标签和注释以及生成的标签的示例。

效果最好的模型的生成器接收大小为100的高斯噪声作为先验噪声，并将其映射到500维ReLu层。将4096维的图像特征向量映射到2000维的ReLu隐藏层。这两个层都映射到一个200维线性层的联合表示，该表示将输出生成的单词向量。

该判别器由500维和1200维的ReLu隐藏层和1000个单元3块的maxout层组成，maxout层作为连接层，最后将其输入到一个单独的sigmoid单元。

模型采用随机梯度下降训练，小批量为100，初始学习率为0.1，初始学习率指数下降到0.000001，衰减因子为1.00004。动量也被使用，初始值为0.5，增加到0.7。在生成器和判别器上都应用了概率为0.5的dropout。

超参数和架构选择是通过交叉验证、随机网格搜索和手动选择(尽管在一定程度上有限的搜索空间)的混合获得的。

5 未来的工作

本文中显示的结果是非常初步的，但它们展示了条件对抗网的潜力，并显示了有趣和有用的应用前景。

从现在到研讨会的未来探索中，我们希望呈现更复杂的模型，以及更详细和深入的分析它们的性能和特性。

此外，在当前的实验中，我们只单独使用每个标签。但通过同时使用多个标签(有效地提出生成问题作为“集生成”之一)，我们希望获得更好的结果。

未来工作的另一个明显方向是构建一个联合训练方案来学习语言模型。像《Multimodal neural language models》这样的研究已经表明，我们可以学习一种适合特定任务的语言模型。

References

[1] Bengio, Y., Mesnil, G., Dauphin, Y., and Rifai, S. (2013). Better mixing via deep representations. In ICML’2013.

[2] Bengio, Y., Thibodeau-Laufer, E., Alain, G., and Yosinski, J. (2014). Deep generative stochastic networks trainable by backprop. In Proceedings of the 30th International Conference on Machine Learning (ICML’14). 6

[3] Frome, A., Corrado, G. S., Shlens, J., Bengio, S., Dean, J., Mikolov, T., et al. (2013). Devise: A deep visual-semantic embedding model. In Advances in Neural Information Processing Systems, pages 2121– 2129.

[4] Glorot, X., Bordes, A., and Bengio, Y. (2011). Deep sparse rectifier neural networks. In International Conference on Artificial Intelligence and Statistics, pages 315–323.

[5] Goodfellow, I., Mirza, M., Courville, A., and Bengio, Y. (2013a). Multi-prediction deep boltzmann machines. In Advances in Neural Information Processing Systems, pages 548–556.

[6] Goodfellow, I. J., Warde-Farley, D., Mirza, M., Courville, A., and Bengio, Y. (2013b). Maxout networks. In ICML’2013.

[7] Goodfellow, I. J., Warde-Farley, D., Lamblin, P., Dumoulin, V., Mirza, M., Pascanu, R., Bergstra, J., Bastien, F., and Bengio, Y. (2013c). Pylearn2: a machine learning research library. arXiv preprint arXiv:1308.4214.

[8] Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., and Bengio, Y. (2014). Generative adversarial nets. In NIPS’2014.

[9] Hinton, G. E., Srivastava, N., Krizhevsky, A., Sutskever, I., and Salakhutdinov, R. (2012). Improving neural networks by preventing co-adaptation of feature detectors. Technical report, arXiv:1207.0580.

[10] Huiskes, M. J. and Lew, M. S. (2008). The mir flickr retrieval evaluation. In MIR ’08: Proceedings of the 2008 ACM International Conference on Multimedia Information Retrieval, New York, NY, USA. ACM.

[11] Jarrett, K., Kavukcuoglu, K., Ranzato, M., and LeCun, Y. (2009). What is the best multi-stage architecture for object recognition? In ICCV’09.

[12] Kiros, R., Zemel, R., and Salakhutdinov, R. (2013). Multimodal neural language models. In Proc. NIPS Deep Learning Workshop.

[13] Krizhevsky, A., Sutskever, I., and Hinton, G. (2012). ImageNet classification with deep convolutional neural networks. In Advances in Neural Information Processing Systems 25 (NIPS’2012).

[14] Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013). Efficient estimation of word representations in vector space. In International Conference on Learning Representations: Workshops Track.

[15] Russakovsky, O. and Fei-Fei, L. (2010). Attribute learning in large-scale datasets. In European Conference of Computer Vision (ECCV), International Workshop on Parts and Attributes, Crete, Greece.

[16] Srivastava, N. and Salakhutdinov, R. (2012). Multimodal learning with deep boltzmann machines. In NIPS’2012.

[17] Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., and Rabinovich, A. (2014). Going deeper with convolutions. arXiv preprint arXiv:1409.4842.

更多推荐

CGAN论文翻译

本文发布于:2024-03-06 19:49:31，感谢您对本站的认可！

本文链接:https://www.elefans.com/category/jswz/34/1716223.html