【论文阅读】StarGAN v2：Diverse Image Synthesis for Multiple Domains

编程入门行业动态更新时间:2024-10-24 08:31:02

【<a href=https://www.elefans.com/category/jswz/34/1770125.html style= 论文阅读】StarGAN v2：Diverse Image Synthesis for Multiple Domains"/>

【论文阅读】StarGAN v2：Diverse Image Synthesis for Multiple Domains

【2019.12 arxiv】
代码地址：
Choi, Yunjey, Youngjung Uh, Jaejun Yoo, and Jung-Woo Ha. “StarGAN v2: Diverse Image Synthesis for Multiple Domains.” arXiv preprint arXiv:1912.01865 (2019).

任务：多领域的image-to-image转换

概述

本文研究的任务是多领域的image-to-image转换，本文在StarGAN的基础上进行了多样改进，从而提高了模型的效果。
模型结构方面由四部分组成。生成器输入原域图像并通过AdaIN方式吸收风格编码，生成目标域图像。风格编码有两种获得来源，一种来自mapping网络，从随机噪声生成风格编码，而每个不同的目标域分别对应一个mapping-head，另一种来自风格编码器，由输入的目标域图像来获得对应的风格编码。判别器输入一张图像，生成各个目标域的真假图像判断，即有K个数，分别判断输入图像是否属于该目标类的真实图像。
损失函数由四项组成，生成对抗损失中WGAN_GP中的GP项使用R1约束（直接对真实图像进行求导），风格编码重建损失、风格差异最大化约束和图像循环重建损失。

模型结构

模型由四部分组成，一个生成器、一个mapping网络，一个风格编码器和一个判别器

生成器输入原域图像和风格编码，生成目标域图像
风格编码有两种获得来源，一种来自mapping网络，从随机噪声生成风格编码，而每个不同的目标域分别对应一个mapping-head，另一种来自风格编码器，由输入的目标域图像来获得对应的风格编码
判别器输入一张图像，生成各个目标域的真假图像判断，即有K个数，分别判断输入图像是否属于该目标类的真实图像

1、生成器(G)

由4个downblock、4个中间block和4个upsamplingblock组成，前6个block使用IN进行归一化，后面6个block使用AdaIN的方式来吸收风格编码特征
所有blocck使用preactivation residual unit

2、mapping 网络(F)

该模块从随机变量生成各个目标域的风格编码，首先是4个共享的FC层，然后是各个目标域私有的4层FC组成的mapping-head，最终得到各个域的风格编码

3、风格编码器(E)和判别器(D)

风格编码器和判别器结构类似，只是最后各个域对应的输出长度不同
风格编码器根据输入图像，生成属于各个域的目标编码，D为目标编码长度
判别器根据输入图像，判断该图像对应为各个域真实图像的概率，D为1，不使用PatchGAN

改进步骤

针对StarGAN的方法提出了5点改进方法
B：将StarGAN中的ACGAN判别器改为多任务判别器

C：判别器约束中WGAN_GP中的GP项变为R1约束
WGAN_GP中原来的GP项对真实图像和生成图像的插值进行求导，R1约束中直接对真实图像进行求导
同时在生成器中使用AdaIN的方法取代concatenation方法来吸收风格编码

（上述方法对于输入图像，每个目标域只能生成一张目标域图像）

D：为了增加图像多样性，引入隐编码作为额外输入，再使用编码器将图像尝试编码回输入隐编码

E：使用各个域独立的风格编码（mapping网络）

F：使用风格差异化损失函数