学习笔记:Diversified Arbitrary Style Transfer via Deep Feature Perturbation 基于深度特征扰动的多样化任意风格迁移

编程入门 行业动态 更新时间:2024-10-09 22:18:35

<a href=https://www.elefans.com/category/jswz/34/1770117.html style=学习笔记:Diversified Arbitrary Style Transfer via Deep Feature Perturbation 基于深度特征扰动的多样化任意风格迁移"/>

学习笔记:Diversified Arbitrary Style Transfer via Deep Feature Perturbation 基于深度特征扰动的多样化任意风格迁移

[CVPR-2020] Diversified Arbitrary Style Transfer via Deep Feature Perturbation 基于深度特征扰动的多样化任意风格迁移

  • 摘要
  • 1. 概述
    • 1.1 背景
    • 1.2 局限性
  • 2. 方法
    • 2.1 深度特征扰动
    • 2.2 PWCT
  • 3. 实验
    • 3.1 单级扰动与多级扰动
    • 3.2 多样性和质量之间的权衡
    • 3.3 多样性与风格化强度的关系
    • 3.4 正交噪声矩阵与生成结果的关系
    • 3.5 定性比较
    • 3.6 定量比较
  • 4. 总结


论文链接:.08223v1
代码链接:

摘要

图像风格迁移是一个未确定的问题,大量的解决方案可以满足相同的约束(内容和风格)。尽管已经有一些成果通过引入替代的多样性损失来提高风格迁移的多样性,但它们限制了泛化、多样性有限和可伸缩性差。在本文中,我们针对这些限制提出了一种简单而有效的方法来实现多样化的任意风格迁移。该方法的核心思想是一种叫做深度特征扰动(DFP)的操作,它在保持原始风格信息不变的情况下,使用一个正交的随机噪声矩阵来扰动图像的深度特征映射。我们的DFP操作可以很容易地集成到许多现有的基于WCT(白化和着色变换)的方法中,并使它们能够为任意风格生成不同的结果。实验结果表明,该方法在保持风格化质量的同时,大大增加了风格化的多样性。


1. 概述

1.1 背景

  • 无论是学术界还是工业界,风格迁移都被认为是一个具有挑战性但有趣的任务。从预先训练的深度卷积神经网络(DCNN)中提取的特征映射之间的相关性(Gram matrix)可以很好地代表图像的风格。

  • 现有的方法在效率、质量、概括性、用户控制和真实感等方面取得了不错的成果,但往往忽略了一个重要的方面,即多样性,因为许多应用(如艺术创作和创意设计)都需要满足不同用户的偏好。

1.2 局限性

虽然通过引入替代的多样性损失可以在一定程度上生成多样化的纹理样本或风格化图像,但它们仍然存在三个主要的局限性:

  1. 限制泛化:一旦经过训练,它们的前馈网络就会绑定到特定的风格上,而不能推广到其他风格上;

  2. 有限的多样性:由于它们的多样性是通过惩罚有限数据集的小批量变化来学习的,并且多样性损失的权重应该设置为一个小值,因此多样性程度是有限的;

  3. 可扩展性差:将他们的方法扩展到其他方法需要对训练策略和网络结构进行复杂的修改,这可能对一些基于学习的方法有用,但不适用于最近的无学习方法,因为这些方法以风格不可知的方式迁移任意风格。


2. 方法

面对上述问题,本文使用一个被广泛用于作为图像风格表示的格拉姆矩阵,它可以对应无限多个不同的特征图,从这些特征图中重构出来的图像就是我们正在寻找的各种不同的结果。显然,多样性问题已经转化为如何用相同的格拉姆矩阵获得不同的特征图的问题。

格拉姆矩阵:

该矩阵就是通过自身矩阵乘上一个转置,在风格迁移中,可以将内容图做一次格拉姆矩阵运算,风格图也做一次格拉姆矩阵的运算,然后令这个两个矩阵的差值最小,也就是在令内容图片的风格向风格图片的风格靠近。

本文提出了一种简单而有效的方法,即深度特征扰动(DFP),以实现多样化的任意风格迁移。它使用一个正交噪声矩阵来扰动从深度卷积神经网络(DCNN)中提取的图像特征映射(也就是图像的深度特征映射),同时保持原始风格信息不变。并且,我们的DFP操作可以很容易地集成到许多现有的基于WCT(白化和着色变换)的方法中,使它们无需任何额外的学习过程就能产生不同的结果。这种无需学习的过程与需要预先定义的学习风格的多样化方法不同,能够实现多样化的任意风格迁移。

也就是说,尽管被扰动的特征映射彼此不同,但它们都有相同的格拉姆矩阵。为便于理解,我们将格拉姆矩阵作为风格表示,并定义具有相同格拉姆矩阵的不同特征映射共享相同的风格特征空间。

2.1 深度特征扰动

本文将深度特征扰动(DFP)纳入到白化和着色(WCT)过程中,以帮助生成多样化的风格化结果。

本文添加了一个正交噪声矩阵 Z Z Z来扰动白化和着色变换(WCT)。 C C C和 S S S分别表示内容图像和风格图像。VGG 和 Decoder 首先被训练用于图像重建,然后固定用于风格转换。


本文的扰动白化和着色变换(PWCT)可以应用于多层级风格化框架的每个层级。


在这个图中,VGG在总体上可以看成五层,之前的工作都是这么用的,如果觉得太啰嗦了其实只用一层VGG、一层解码也是可以的,只是VGG的不同层可以得到不同的细节特征,用这么多层的效果进行累加才能得到更好的效果。

2.2 PWCT

(1)对于给定的内容图像,首先提取向量化VGG特征映射 F F Fc ,然后使用白化变换将 F F Fc 变换为ˆ F F Fc


D D Dc 和 E E Ec 是对格拉姆矩阵进行奇异值分解(SVD)得到的, D D Dc 是特征值的对角矩阵, E E Ec 是特征向量的对应正交矩阵,通过这种运算方式可以去除内容图片的风格,保留特征。

(2)然后通过矩阵运算的方式,对内容图片添加风格图片的风格:


(3)深度特征扰动的关键思想是在这里加入一个正交噪声矩阵 Z Z Z来扰动 F F Fˆcs,同时保留其格拉姆矩阵:


本文选择加在这里,因为消耗的计算和运行时间最少。

(4) 作者在实验中发现,虽然特征扰动可以保持风格信息不变,但内容信息可能会受到噪声矩阵的影响,表现为质量下降。为了在保持原有质量的同时增加多样性,引入多样性超参数 λ λ λ,以提供在它们之间权衡的控制:


(5) 最后,我们将得到的矩阵 F F Fˆcsn ′ ' ′与内容特征 F F Fc 在送入解码器前混合。这里的超参数 α α α作为控制风格化强度的权重:


(4)和(5)两步实际上就是对内容图矩阵和风格图矩阵进行按照一定比例的融合。


3. 实验

3.1 单级扰动与多级扰动

实验研究了单级扰动和多级扰动对两种基于WCT的方法的影响。

定性比较

  • 上面两图中第一行是单级扰动,当从最深层次( I 5 I5 I5 / I 4 I4 I4)到最浅层次( I 1 I1 I1)分别进行扰动时,质量相应下降。原因是更深的层次风格化了更多的低频粗特征,而更浅的层次风格化了更多的高频精细特征,因此在较浅的层次中加入噪声会影响最终结果的像素性能;

  • 另一方面,多级扰动将噪声引入多个层次,如图中第二行所示,可以看到引入过多的噪音是不必要的,并且会降低风格化的质量。

定量比较

本文还测试了单级扰动和多级扰动在运行时间方面的定量比较。 (对于方法[20],实验只考虑风格化时间)

为了只扰动特定的层级,我们将所选层级的多样性超参数 λ λ λ设为默认值(即[19]为0.6,[20]为1),其他层级设为0。

与原始方法(列2)相比,当扰动较浅的层次时,运行时间的增量更少。但最深层的扰动也只增加了非常小的时间。

3.2 多样性和质量之间的权衡

本文引入了一个超参数 λ λ λ,为用户提供多样性和质量之间权衡的控制。不同的方法可能需要不同的 λ λ λ值,图中展示了不同的 λ λ λ值对方法的影响。


对于前两种方法,只对最深层进行扰动;对于第三种方法,扰乱它的瓶颈层,因为它只使用单层风格化。

从图中可以看出,多样性程度随着 λ λ λ值的增加而增加,但对于前两种方法,当 λ λ λ值较大时,质量明显降低。而第三种方法并没有出现这个问题,这可能是因为第三种方法包含了一个平滑步骤,去除了明显的伪影,在一定程度上抑制了多样性的出现。为了权衡利弊,我们最终分别采用0.6、0.5和1作为缺省的 λ λ λ值。

3.3 多样性与风格化强度的关系

图中展示了多样性与风格化强度的关系。最上面一行是原始方法的结果,中间一行是默认的多样性强度设置得到的结果( λ λ λ = 0.6),下面一行是将 λ λ λ值增加到1获得的结果。 α α α = 0.6是默认风格化设置。

  • 比较前两行,我们可以观察到,在风格化强度 α α α ≤ 0.6的情况下获得的效果较好,但对于较大的 α α α值,图像的内容结构就会受到破坏;

  • 实验还设置了一个较大的多样性强度( λ λ λ = 1),我们可以观察到,在风格化强度 α α α ≤ 0.4的情况下获得的效果较好。

这个结果能够说明,当 λ λ λ值过高时,内容结构将被风格模式淹没。因此,需要考虑多样性强度 λ λ λ和风格化强度 α α α之间的权衡。在实践中,用户只需要首先确定不同方法的最佳风格化强度 α α α(通常是默认值),然后调整适当的 λ λ λ值以保持质量。

3.4 正交噪声矩阵与生成结果的关系

为了验证正交噪声矩阵 Z Z Z在深度特征扰动(DFP)中的重要性和必要性,本文将其与原始随机噪声矩阵 N N N进行了比较,并讨论了其抽样分布的影响,结果如图所示。

  • 使用原始的随机噪声矩阵会产生低质量的结果。[19]和[26]得到的结果就像纹理和噪声的组合,掩盖了内容信息。[20]与前两种方法相比,即使在原始随机噪声扰动的情况下,也能尽可能地保持了内容信息。(这可能是因为它由两个步骤组成,第二步删除明显的组件,以维护内容图像的结构)但结果显示,质量仍有明显下降;

  • 最后一列分别是改变[19]和[26]这两种方法的正交噪声矩阵的抽样分布所得到的结果。通过比较可以看出,生成的图像与默认图像并没有明显的差异,这说明影响结果的关键因素是噪声 Z Z Z的正交性,而不是其采样分布。

3.5 定性比较

将深度特征扰动纳入方法[19,26,20],与其他多样化的风格迁移方法[18,30]进行定性比较,结果如图所示。


从图中可以看出,[18]和[30]只产生微妙的多样性(例如面部的轻微变化),不包含任何有意义的变化。相比之下,对于本文的DFP方法,结果显示了明显的多样性(例如脸,背景,甚至眼睛)。与原始输出相比,加入DFP的结果几乎没有质量下降。

3.6 定量比较

将深度特征扰动纳入方法[19,26,20],与其他多样化的风格迁移方法[18,30,19,26,20]进行定量比较。

对于每种方法,本文使用6个内容图像和6个风格图像来获得36个不同的组合,对于每个组合,获得20个输出。每种方法产生的输出共有6840对(每对内容和风格相同),然后分别计算样本对在像素空间和深度特征空间的平均距离来度量多样性,结果如表中所示。

  • [18]和[30]在两种距离上的多样性得分都很低。如果没有深度特征扰动(DFP),原始方法[19,26,20]就不能产生多样化的结果。通过加入DFP,这些方法的多样性就得到了很大的改善;

  • 由于[26] + our DFP 方法在转换风格时仍然受到一些语义约束的限制,并且[20] + our DFP 方法包含一个平滑步骤来去除细节效果,因此它们的多样性得分低于[19] + our DFP 方法。


4. 总结

  • 本文提出使用深度特征扰动,在保持原始风格信息不变的情况下,通过正交噪声矩阵扰动图像的深度特征映射,以实现多样化的任意风格迁移;

  • 本文的方法可以很容易地融入现有的基于WCT的方法中,这些方法用于不同的风格迁移任务,如艺术风格迁移、语义级风格迁移和写实风格迁移;

  • 理论分析证明了该方法在生成多样性方面的能力,实验结果表明,该方法在保持风格化质量的同时,大大提高了多样性。

更多推荐

学习笔记:Diversified Arbitrary Style Transfer via Deep Feature Perturbation 基于深度特征扰动

本文发布于:2024-02-14 13:45:12,感谢您对本站的认可!
本文链接:https://www.elefans.com/category/jswz/34/1763817.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文标签:学习笔记   深度   特征   风格   Arbitrary

发布评论

评论列表 (有 0 条评论)
草根站长

>www.elefans.com

编程频道|电子爱好者 - 技术资讯及电子产品介绍!