论文《Noise2Noise: Learning Image Restoration without Clean Data》翻译学习

编程入门行业动态更新时间:2024-10-09 08:32:39

论文《Noise2Noise: Learning Image Restoration without Clean Data》翻译学习

资料

论文地址
Github官方实现
Github上的非官方实现

论文

摘要

我们将基本的统计推理应用于通过机器学习进行信号重建 - 学习将损坏的观察结果映射到干净的信号 - 得出一个简单而有力的结论：在某些常见情况下，可以学习恢复信号而无需观察干净的信号，性能接近或等于使用干净样本进行训练。我们展示了在摄影噪声消除、合成蒙特卡罗图像去噪以及从欠采样输入重建MRI扫描的应用，所有这些都基于仅观察到损坏的数据。

1 介绍

来自损坏或不完整测量的信号重建是统计数据分析的重要子领域。深度神经网络的最新进展已引起了人们的很多兴趣，尝试避免使用传统的损坏信号的先验统计模型的方法，而是学习将已损坏的观察结果映射到未观察到的干净结果。这通过训练回归模型（例如，卷积神经网络（CNN））来实现，伴随着大量的图相对（xi，yi），其中xi表示损坏的输入，yi表示干净的目标，并且最小化其经验风险：

其中fθ是映射的参数组（例如CNN），在损失函数L下。我们使用符号x来强调一个事实，损坏的输入x~p(x|yi)是根据干净目标分布生成的随机变量分布。训练数据可以包括，例如，相同场景的短和长曝光照片对，磁共振图像的不完整和完整的k空间采样，合成场景的快速但嘈杂和慢但会聚的蒙特卡罗渲染。在一些应用中已经报道了显著的进步，包括高斯去噪，去JPEG，文本去除（Mao等，2016），超分辨率（Ledig等，2017），着色（Zhang等， 2016）和图像修复（Iizuka et al。，2017）。然而，获得清洁的培训目标往往是困难或乏味的。无噪声照片需要长时间曝光; 完整的MRI采样速度足以排除动态受试者等。

在这项工作中，我们观察到，在适当的、常见的情况下，我们可以学习仅从损坏的示例重建信号，而无需观察干净的信号，并且经常这样做，就像我们使用干净的例子一样。如下所示，从统计角度来看，我们的结论几乎是微不足道的，但在实践中，它通过提高对清洁数据可用性的要求，显著简化了学习信号的重建。

2 理论背景

假设我们有一组不可靠的室温测量值（y1，y2，…）。估计真实未知温度的常用策略是根据一些损失函数L找到与测量值具有最小平均偏差的数字z：

对于L2损失L(z,y)=(z-y)^2而言，最小化意味着寻找观测值的期望均值。

L1损失，绝对偏差之和L（z，y）= | z-y |，依次在观察值的中值处具有最佳值。一般类偏差最小化估计量称为M估计量（Huber，1964）。从统计的角度来看，使用这些常见损失函数的汇总估计可以被视为ML估计，其通过将损失函数解释为负对数似然。

训练神经网络回归量是这种点估计过程的推广。观察一组典型训练任务的输入目标对形式（xi，yi），其中网络函数fθ（x）由θ参数化：

实际上，如果我们删除对输入数据的依赖性，并使用一个小的fθ来单独输出一个学习好的标量，则任务减少为（2）。相反，完整的训练任务在每个训练样本中分解为相同的最小化问题; 简单的操作表明（4）见如下公式：

理论上，网络可以通过分别为每个输入样本求解点估计问题来最小化这种损失。因此，潜在损失的属性由神经网络训练继承。

通过公式1训练回归器的通常操作是使用有限数量的输入-目标对(xi, yi)，其隐藏了一个微妙的点：输入和处理中的隐式目标（错误的）不是1：1的映射关系，实际上是多值映射。例如，在所有自然图像的超分辨率任务（Ledig等，2017）中，低分辨率图像x可以通过许多不同的高分辨率图像y来解释，即关于边缘和纹理的精确位置方向的知识在抽取中丢失。换句话说，p（y | x）是与低分辨率x一致的高度复杂的自然图像分布。使用L2损失训练神经网络回归器，输入为低和高分辨率的图像对，网络学习输出了所有看似合理解释的平均值（例如，移动不同量的边缘），这导致了网络预测时的空间模糊。已经做了大量工作来对抗这种众所周知的趋势，例如通过使用学习的鉴别器功能作为损失（Ledig等，2017; Isola等，2017）。

我们的观察是，对于某些问题，这种趋势具有意想不到的好处。 L2最小化的一个微不足道的，乍一看无用的属性是，如果我们用具有与目标相同期望的随机数来替换目标，那么估计值将保持不变。这很容易看出：无论从哪个特定分布中得出y，公式（3）都成立。因此，如果输入条件目标分布p（y | x）被具有相同条件期望值的任意分布替换，则等式（5）的最佳网络参数θ也保持不变。 这意味着我们原则上可以在不改变网络学习的情况下使用零均值噪声来破坏神经网络的训练目标。将此与来自等式1的损坏输入相结合，我们留下了经验风险最小化任务

其中输入和目标现在都是从损坏的分布（不一定相同）中提取的，以潜在的、未观察到的清洁目标yi为条件，使得E {yi^ | xi^} = yi。给定无限数据，解决方案与（1）的解决方案相同。对于有限数据，估计的方差是目标中噪声的平均方差除以训练样本的数量（参见证明的补充材料）。注意，在典型的去噪任务中，即使图像对的数量有限，训练样本的有效数量也很大，因为每个像素邻域都有贡献。

在许多图像恢复任务中，对损坏的输入数据的期望是我们寻求恢复的清洁目标。低光摄影就是一个例子：长而无噪声的曝光是短暂、独立、嘈杂曝光的平均值。上述发现表明，在这些情况下，并且可能存在潜在的数值问题，我们可以完全处理清洁目标，只要我们能够两次观察每个源图像 - 这项任务通常比获取清洁目标成本低得多。

可以对其他损失函数进行类似的观察。 L1损失恢复了目标的中位数，这意味着可以训练神经网络来修复具有显著（最高50％）异常值内容的图像，同样仅需要访问这些损坏的图像对。

在接下来的部分中，我们将展示各种各样的例子，证明这些理论能力在实践中也是有效实现的，允许人们“盲目地”学习信号重建模型，与使用干净实例的最新方法相提并论 - 使用完全相同的训练方法，并且通常在训练时间或性能方面没有明显的缺点。

3 实际实验

我们现在通过实验研究嘈杂目标训练的实际特性，并确定不需要清洁目标的各种情况。我们从第3.1节和第3.2节中的标准，简单的噪声分布开始，并继续在3.3节中的图像合成中更加难以解析的难以解决的蒙特卡罗噪声。在3.4节中，我们观察到磁共振成像（MRI）中亚奈奎斯特光谱采样的图像重建只能从损坏的观察中学习。

3.1 加性高斯噪声

我们将首先使用加性高斯噪声研究损坏目标的影响。这是一个简单的分布，我们可以从中绘制样本，从而通过破坏干净的图像生成无限量的合成训练数据。由于噪声为零均值，我们使用L2损失进行训练以恢复平均值。

在这里，我们的基线是最新的最新方法“RED30”（Mao et al。，2016），一个具有128个特征图的30层分层残差网络，已被证明在广泛的范围内非常有效图像恢复任务，包括高斯噪声。我们使用从IMAGENET验证集中的50k图像中提取的256×256像素裁剪来训练网络。我们还针对每个训练示例分别对噪声标准偏差σ∈[0,50]进行随机化，即，网络必须在去除噪声的同时估计噪声的大小（“盲”去噪）。

我们使用三个众所周知的数据集：BSD300（Martin等，2001），SET14（Zeyde等，2010）和KODAK。如表1所示，所有三组中的行为在质量上相似，因此我们讨论了平均值。当使用具有清洁目标的标准方式训练时（等式1），RED30网络在σ= 25时实现31.63±0.02dB的平均质量。通过训练来自不同随机初始化的5个网络来计算置信区间。广泛使用的基准降噪器BM3D（Dabov等，2007）给出了~0.7 dB的更差结果。当我们改变网络使用噪声目标进行训练（公式6）时，去噪性能仍然同样好。此外，训练收敛速度同样快，如图1a所示。这使我们得出结论，在这个应用程序中完全没有必要使用干净的目标。这种可能令人惊讶的观察结果也适用于不同的网络和网络容量。图2a显示了一个示例结果。

对于所有进一步的测试，我们从RED30切换到较浅的U-Net（Ronneberger等，2015），其训练速度大约快10倍并且得到类似的结果（高斯噪声为-0.2 dB）。 U-Net架构和培训参数在补充材料中描述。

收敛速度 显然，每个训练示例都要求网络执行一项不可能完成的任务：无法将一个噪声实例转换为另一个实例。因此，在训练过程中训练损失实际上并没有以任何显着的方式减少，并且损失梯度仍然非常大。为什么更大，更嘈杂的梯度不会影响收敛速度？虽然激活梯度确实有噪声，但是权重梯度实际上相对干净，因为高斯噪声在所有像素中是独立且相同的分布（i.i.d.），并且在我们的完全卷积网络中权重梯度平均超过2^16个像素。

图1b通过引入像素间相关性来破坏人为地使情况变得更加困难。我们通过训练一系列网络来实现这一点，以便使用逐渐变大的高斯滤波器模糊目标中的高斯噪声，然后进行归一化以恢复方差。损坏仍然是零均值。一个例子如图1c所示。随着相关性的增加，权重梯度的有效平均值降低，并且权重更新变得更嘈杂。这使得收敛速度变慢，但即使极端模糊，最终的去噪质量也非常相似（在0.1 dB以内）。

3.2 其他合成噪音

我们现在将尝试其他类型的合成噪音。训练设置与上述相同。

泊松噪声是照片中噪声的主要来源。它像零高斯一样是零均值，但由于它是信号相关的，因此更难去除。我们再次使用L2损耗并在训练期间改变噪声幅度λ∈[0,50]。

当使用干净的目标图像时，我们得到平均30.59±0.02 dB，而噪声目标同样良好的30.57±0.02 dB，再次以相似的收敛速度。基于Ascombe变换的比较方法（Makitalo¨＆Foi，2011） - 首先对输入进行变换以使泊松噪声变为高斯噪声，使用BM3D去除它，最后进行逆变换 - 比我们方法的quality低2 dB以上。

相机中的其他形式的噪音，例如暗电流和量化，与泊松噪声相比较小，可以做成零均值（Hasinoff等，2016），因此对于具有噪声目标的训练没有任何问题。我们得出结论，在此应用中不需要无噪声训练数据。

也就是说，饱和度（色域削波）确实打破了我们的假设，因为噪声分布的一部分被丢弃并且剩余部分的预期不再正确。由于其他原因，饱和度也是不需要的，因此这不是一个重要的实际限制。

乘法伯努利噪声（也称为二项式噪声）构造随机掩模m，对于有效像素为1，对于归零/丢失像素为0。为了避免从丢失的像素反向传播渐变，我们使用该掩码将它们从损失中排除：

如Ulyanov等人所述。（2017）在他们的深度图像先验（DIP）的背景下。

像素损坏的概率用p表示; 在我们的训练中，我们改变p∈[0.0,0.95]并且在测试期间p = 0.5。使用干净目标进行训练的平均值为31.85±0.03 dB，噪声目标（输入和目标分别为m）略高于32.02±0.03 dB，这可能是因为噪声目标有效地实现了一种形式的丢失（Srivastava et al。，2014）在网络输出。 DIP差不多2分贝 - DIP不是一个基于学习的解决方案，因此与我们的方法截然不同，但它共享的属性既不需要干净的示例，也不需要明确的损坏模型。我们使用了DIP补充材料中描述的“图像重建”设置。

删除文本 图3演示了盲文删除。损坏由随机位置中的大量不同数量的随机字符串组成，也在彼此之上，并且还使得字体大小和颜色也随机化。字体和字符串方向保持固定。

使用独立损坏的输入和目标对训练网络。在训练期间，像素p损坏的概率大约是[0,0.5]，并且在测试期间p≈0.25。在这个测试中，平均值（L2损失）不是正确的答案，因为重叠的文本具有与其无关的颜色。

使用独立损坏的输入和目标对训练网络。在训练期间，像素p损坏的概率大约是[0,0.5]，并且在测试期间p≈0.25。在此测试中，平均值（L2损失）不是正确的答案，因为叠加的文本具有与实际图像无关的颜色，并且得到的图像将错误地倾向于正确答案和平均文本颜色的线性组合（中灰色）。然而，对于任何合理数量的重叠文本，像素更经常地保留原始颜色，因此中值是正确的统计量。因此，我们使用L1 = |fθ（x）-y | 作为损失函数。图3显示了一个示例结果。

随机值脉冲噪声 用噪声替换一些像素并保留其他像素的颜色。我们研究了一个更难的分布代替标准的盐和胡椒噪声（随机替换黑色或白色的像素），其中每个像素被替换为从均匀分布[0,1] 3中以概率p绘制的随机颜色并保留其颜色概率为1 - p。像素的颜色分布是原始颜色的狄拉克加上均匀分布，相对权重由替换概率p给出。在这种情况下，均值和中位数都不会产生正确的结果;所需的输出是分布模式（狄拉克尖峰）。分布仍然是单峰的。对于近似模式搜索，我们使用退火版本的“L0损耗”函数定义为（|fθ（x） - y | + e）^ γ，其中e = 10^-8，其中γ在训练期间从2线性退火至0。这种退火在我们的测试中没有引起任何数值问题。在补充中分析了L0损失与模式寻求的关系。

我们再次使用噪声输入和噪声目标训练网络，其中对于每对从[0,0.95]单独随机化随机化的像素的概率。图4显示了当70％输入像素随机化时的推断结果。具有L2损失的训练将结果严重偏向灰色，因为结果倾向于线性组合正确答案和均匀随机损坏的均值。正如理论预测的那样，只要不到50％的像素被随机化，L1损失就会产生良好的结果，但超过该阈值时，它会迅速开始将暗区和亮区偏向灰色（图5）。另一方面，L0即使在极端腐败（例如90％像素）下也显示出很小的偏差，因为所有可能的像素值，正确的答案（例如10％）仍然是最常见的。

3.3 蒙特卡洛渲染

虚拟环境的物理精确渲染通常通过称为蒙特卡罗路径追踪的过程生成。这相当于在场景中绘制连接光源和虚拟传感器的散射事件（“光路”）的随机序列，并将它们所承载的辐射整合在所有可能的路径上（Veach＆Guibas，1995）。构造蒙特卡洛积分器使得每个像素的强度是随机路径采样过程的期望，即，采样噪声是零均值。然而，尽管对重要性采样技术进行了数十年的研究，但对于分布却几乎没有什么可说的。它因像素而异，很大程度上取决于场景配置和渲染参数，并且可以任意多模态。一些灯光效果，例如聚焦焦散，也导致极端长尾分布，稀有，明亮的异常值。

所有这些效果使得去除蒙特卡罗噪声比去除例如高斯噪声要困难得多。另一方面，通过生成在数据生成期间凭经验发现与清洁结果相关的辅助信息的可能性，可以稍微缓解该问题。在我们的实验中，降噪器输入不仅包括每像素亮度值，还包括每个像素处可见表面的平均反照率（即纹理颜色）和法向矢量。

高动态范围（HDR） 即使有足够的采样，像素亮度也可能彼此相差几个数量级，因此通常使用浮点值表示。为了构造适合于通常的8位显示设备的图像，需要使用色调映射算子将该高动态范围压缩到固定范围。已经提出了大量此类运营商（Cerda-Company等人，2016），在这项工作中，我们考虑了Reinhard的全球运营商的变体（Reinhard等，2002）：T（v）=（v / （1 + v））1 / 2.2，其中v是标量亮度值，可能用图像宽度曝光常数预先缩放。此运算符将任何v≥0映射到范围0≤T（v）<1。

几乎无界范围的亮度和操作员T的非线性的组合带来了问题。如果我们尝试训练输出亮度值v的降噪器，则标准MSE损失L2 =（fθ（x）-y）^ 2将由目标中的长尾效应（异常值）支配，并且训练不会收敛。另一方面，如果降噪器要输出色调映射值T（v），则T的非线性将使得有噪声的目标图像E {T（v）}的期望值不同于清洁训练目标T（E {v} ），导致错误的预测。

通常用于测量HDR图像质量的度量是相对MSE（Rousselle等，2011），其中平方差除以像素的近似亮度的平方，即（fθ（x）-y） 2 /（y +？）2。然而，该度量与比较色调映射输出具有相同的非线性问题。因此，我们建议在分母中使用网络输出，其趋向于极限中的正确值：LHDR =（fθ（x）-y）2 /（fθ（x）+ 0.01）2。可以证明，只要我们将分母的梯度视为零，LHDR就会收敛到正确的期望值。

最后，我们已经通过实验观察到，对提供给网络的输入图像T（x）进行色调映射而不是使用HDR输入图像x是有益的。网络继续输出非色调映射（线性标度）亮度值，保持预期值的正确性。图6评估了不同的损失函数。

对蒙特卡罗进行去噪渲染图像 我们为使用每像素64个样本（spp）渲染的蒙特卡罗路径跟踪图像训练了一个降噪器。我们的训练集包含860个建筑图像，并使用来自不同场景的34个图像进行验证。渲染了三个版本的训练图像：两个64 spp使用不同的随机种子（噪声输入，噪声目标），一个具有131k spp（清洁目标）。验证图像以64 spp（输入）和131k spp（参考）版本呈现。所有图像的大小都是960×540像素，如前所述，我们还保存了所有输入图像的反照率和普通缓冲区。即使有如此小的数据集，渲染131k spp干净的图像也是一项艰苦的工作 - 例如，图7d需要40分钟才能在配备8×NVIDIA Tesla P100 GPU和40核Intel Xeon CPU的高端图形服务器上渲染。

64个spp验证输入相对于相应参考图像的平均PSNR为22.31dB（例如，参见图7a）。使用清洁目标图像训练2000个时期的网络在验证集上达到31.83dB的平均PSNR，而使用噪声目标图像的类似训练的网络使得质量低0.5dB。与这些运行相对应的示例结果如图7b所示，c - 使用单个NVIDIA Tesla P100 GPU进行了12小时的训练。

当我们进一步训练网络时，两者都继续缓慢地改善，并且在4000个周期之后，噪声目标最终匹配31.83dB，即，噪声目标花费大约两倍于会聚。然而，这两种方法之间的差距并没有明显缩小，这使我们相信一些质量差异将保持在极限。这确实是我们所期望的，因为由于为比较方法生成干净的目标图像的成本，训练数据集包含非常有限数量的训练对（因此噪声实现），并且我们想要使用匹配来测试这两种方法数据。也就是说，鉴于噪声目标的生成速度要快2000倍，人们可以轻松地生成更多数量的训练数据，培养更高质量的网络，并且仍然可以在数据收集和培训方面实现巨大收益。

在线训练由于收集足够大的蒙特卡罗渲染图像以训练普遍适用的降噪器可能非常困难，另一种可能性是训练降噪器特定于单个3D场景，例如游戏关卡或电影拍摄（Chaitanya等，2017）。在这种情况下，可能需要在穿过场景时动态地训练降噪器。为了保持交互式帧速率，我们每个像素只能提供少量样本，因此输入和目标图像都将具有固有的噪声。

图8显示了一个实验的收敛图，我们在场景飞行中从头开始训练了一个持续1000帧的降噪器。在NVIDIA Titan V GPU上，以8 spp跟踪单个512×512像素图像的路径耗时190 ms，我们渲染了两个图像作为输入和目标。使用随机256×256像素裁剪的单个网络训练迭代花了11.25 ms，我们每帧执行8次。最后，我们对两个渲染图像进行去噪，每个渲染图像花费15毫秒，并对结果进行平均以产生向用户显示的最终去噪图像。因此，渲染，训练和推理的总帧时间为500毫秒。

从图8中可以看出，用干净的输出图像训练的降噪器的性能不如在噪声图像上训练的降噪器好得多。在这个场景中渲染单个干净的目标图像大约需要7分钟，因此很明显，质量与时间的权衡有利于使用噪声目标图像进行训练。

3.4 磁共振成像（MRI）

磁共振成像（MRI）通过应用在空间和时间上变化的精心控制的磁场和RF场产生生物组织的体积图像，并通过线圈测量在那些场中进动的分子的射频发射。在数学上，该过程相当于对信号的傅立叶变换（“k空间”）进行采样。现代MRI技术长期依赖压缩感知（CS）来欺骗奈奎斯特 - 香农极限：它们对k空间进行欠采样，并通过在合适的变换域中利用图像的稀疏性来执行去除混叠的非线性重建（Lustig et al。，2008）。有效的压缩感知需要采样模式，这些模式产生的测量具有非相干误差，这些误差通常不会放大，因为它们会由于与标准规则采样网格的相位对齐而产生。

我们观察到，如果我们将k空间采样转换为在频率k上具有已知概率密度p（k）的随机过程，我们的主要思想适用。特别地，我们将k空间采样操作建模为伯努利过程，其中每个单独的频率具有概率p（k）= e-λ| k |。被选择用于获取.3保留的频率由选择概率的倒数加权，并且未选择的频率设置为零。显然，这种“俄罗斯轮盘赌”过程的期望是正确的范围。参数λ控制保留的k空间的总分数;在下面的实验中，我们选择它，以便相对于完整的奈奎斯特 - 香农采样保留10％的样本。通过标准傅里叶逆变换将欠采样的光谱变换到原始图像域。下采样输入/目标图像的示例，相应的完全采样参考及其光谱，如图9（a，d）所示。

现在我们简单地设置形式（6）的回归问题，并使用相同体积的两个独立的欠采样图像x和y对来训练卷积神经网络。由于输入和目标的光谱在期望上是正确的，并且傅立叶变换是线性的，我们使用L2损失。此外，我们通过对输入图像x中存在的频率进行精确保存，通过傅立叶变换结果fθ（x），用输入中的频率替换频率，并在计算之前转换回原始域，来略微改善结果。损失：最终损失读数（F -1（Rx（F（fθ（x））） - y）2，其中R表示从输入中替换非零频率。这个过程是端到端的训练。

我们对从IXI脑部扫描MRI数据集中提取的2D切片进行概念验证实验.4为了模拟光谱采样，我们从数据集中（已经重建的）图像的逆FFT中抽取随机样本。因此，与实际MRI样本不同，我们的数据是实值的，并且具有内置的离散FFT的周期性。训练集包含来自50个主题的256×256分辨率的4936个图像，并且为了验证，我们从10个不同的主题中选择500个随机图像。当使用IFFT直接重建时，稀疏采样输入图像的基线PSNR为20.03dB。在具有噪声目标的300个时期训练的网络在验证数据上达到31.10dB的平均PSNR，并且用清洁目标训练的网络达到31.14dB。这里使用清洁目标的训练与现有技术类似（Wang等人，2016; Lee等人，2017）。使用NVIDIA Tesla P100 GPU进行了13个小时的训练。图9（b，c）分别示出了在具有噪声和清洁目标的情况下训练的卷积网络之间的重建结果的示例。

与超分辨率方法一致，我们在使用干净和损坏的目标进行训练时都会观察到平滑效果。许多最近的MRI技术试图通过例如生成性对抗网络（GAN）来增加表观分辨率（Quan等，2017）。然而，就PSNR而言，我们的结果与他们报告的结果非常接近。

4. Discussion

我们已经证明，简单的统计论证导致了学习信号恢复的惊人新功能; 可以在复杂损坏情况下恢复信号，而无需观察干净的信号，其性能水平等于或接近于使用干净的目标数据。有几个真实世界的情况，获得干净的训练数据是困难的：低光摄影（例如天文成像），基于物理的图像同步和磁共振成像。我们的概念验证演示通过消除对潜在的大量清洁数据收集的需求，为这些应用程序带来了显着的潜在优势。当然，没有免费午餐 - 我们无法学习如何获取输入数据中没有的功能 - 但这同样适用于清洁目标的训练。

AmbientGAN（Ashish Bora，2018）是最近的一个想法，允许使用损坏的观察对生成对抗网络进行原则训练（Goodfellow等，2014）。与我们的方法形成鲜明对比的是，他们需要一个完美的，明确的损坏计算模型; 我们对适当统计汇总（平均值，中位数）知识的要求明显不那么有限。我们发现沿两条路径的想法结合起来很有趣。

补充材料

1 网络架构

表2显示了我们所有测试中使用的U网络结构（Ronneberger等，2015），但3.1节中使用“RED30”网络的第一次测试除外（Mao et al。，2016）。对于RGB图像的所有基本噪声和文本去除实验，输入和输出通道的数量是n = m = 3.对于蒙特卡洛去噪，我们有n = 9; m = 3，即输入包含RGB像素颜色，RGB反照率，每个像素的3D法向量。用单色图像（n = m = 1）进行MRI重建。输入图像归一化到[-0.5, 0.5]。