论文阅读：(ECCV 2022) Towards Efficient and Scale-Robust Ultra-High-Definition Image Demoireing

Towards Efficient and Scale-Robust Ultra-High-Definition Image Demoireing (ECCV 2022)

2022/09/19:上个月打卡还不到十天，今天要我们交每个月的工作总结，思来想去也不知道写啥
2022/09/20: 今天就更离谱了，说我们昨天的工作总结是无效的，因为投论文没有把访问单位挂在第一单位，挂了就不算毕业条件，不挂就不算访问单位成功。TMD 估计只能待到今年年底了。

Paper:https://arxiv.org/pdf/2207.09935.pdf
Code:https://github.com/CVMI-Lab/UHDM

Abstract

随着移动设备的快速发展，现代广泛使用的手机通常允许用户捕捉4K分辨率(即超高清)的图像。然而，由于图像去摩尔纹是一项具有挑战性的低层次视觉任务，现有的工作一般是在低分辨率或合成图像上进行的。因此，这些方法对4K分辨率图像的效果尚不清楚。在这篇论文中，我们探索了超高清图像的摩尔纹模式去除。为此，我们提出了第一个超高清去摩尔纹数据集(UHDM)，其中包含5000个真实世界的4K分辨率图像对，并对当前最先进的方法进行了基准研究。此外，我们提出了一个有效的基线模型ESDNet来处理4K云雾图像，其中我们构建了一个语义对齐的尺度感知模块来处理摩尔纹模式的尺度变化。大量的实验证明了我们的方法的有效性，它比最先进的方法性能好很多，而且更加轻量化。

1. Introduction

当拍摄数字屏幕上显示的内容时，在相机的颜色滤波器阵列(CFA)和屏幕LCD亚像素之间不可避免的频率混叠广泛存在。因此，捕获的图像混合了彩色条纹，称为摩尔纹图案，这严重降低了图像的感知质量。目前，有效地从单张摩尔图像中去除摩尔纹模式仍然具有挑战性，并受到了研究界越来越多的关注。

最近，一些图像建模方法被提出，产生了大量专门的设计，如摩尔纹模式分类[12]、频域建模[22,47]和多级框架[13]。除了专门为高清图像设计的FHDe2Net[13]外，大部分的研究工作都致力于研究低分辨率图像或者合成图像。然而，移动设备的快速发展使得现代手机能够捕捉超高清图像，因此，针对实际应用进行4K图像模型的研究更具有实际意义。不幸的是，目前公共数据集的最高分辨率(见
表1)为1080p [13] (1920 × 1080)。由于数据分布的变化和计算成本的急剧增加，在此类数据集上研究的方法是否可以简单地转移到4K场景中还不得而知。

（文章中的图放的非常的乱，在page 2就说到了Fig2，但Fig都放到第六页去了）

在这种情况下，我们探索了更实际也更具有挑战性的情景，即超高清图像场景。为了在这个场景中评估demoir方法，我们构建了第一个大规模的真实世界超高清demoir数据集(UHDM)，它由4500个训练图像对和500个测试图像对组成，具有不同的场景(见图1)。

基准研究和局限性分析: 基于我们的数据集，我们对最先进的方法进行了基准研究。我们的实证研究表明，大多数方法都难以在4K图像中以更广泛的尺度范围去除摩尔纹模式，同时还承受着对计算成本(见图3)或精细图像细节(见图2)日益增长的需求。我们将其缺陷归结为缺乏有效的多尺度特征提取策略。具体来说，现有的试图解决规模挑战的方法可以大致分为两类研究。一项研究开发了多阶段模型，如FHDe2Net[13]，以低分辨率阶段处理大型摩尔纹图案，然后在高分辨率阶段细化纹理，然而，当应用于4K图像时，会产生巨大的计算成本(见图3:FHDe2Net)。另一种研究方法利用来自网络不同深度的特征来构建多尺度表示，其中最具代表性的工作[47]在准确性和效率之间实现了更好的权衡(见图3:MBCNN)，但仍然不能具有一般的尺度鲁棒性(见图2和图5)。我们注意到，提取的多尺度特征来自不同的语义层次，这可能导致融合时的特征不一致，潜在地限制了其功能。详细的研究和分析将在第3.2节展开。

为此，受HRNet[33]的启发，我们提出了一个即插即用的语义对齐的规模感知模块(SAM)，以提高网络处理具有不同规模摩尔纹模式的能力，而不产生过多的计算成本，作为现有方法的补充。具体来说，SAM集成了一个金字塔上下文提取模块，以有效和高效地提取在同一语义级别上对齐的多尺度特征。此外，开发了一个跨尺度动态融合模块来选择性融合多尺度特征，其中融合权值被学习并动态适应于单个图像。

配备了SAM，我们开发了一个高效的和规模健壮的4K图像模拟网络，称为ESDNet。ESDNet采用一种简单的以跳跃式连接为骨干的编码器-解码器网络，并在不同语义层次上堆叠SAM，以提高模型处理4K摩尔图像尺度变化的能力。ESDNet很容易实现，同时在极具挑战性的超高清图像去摩尔数据集和三个公开去摩尔纹上实现最先进的性能(见图5和表2)。特别是，在UHDM数据集上，ESDNet超越了多级高分辨率FHDe2Net方法，的PSNR提高了1.8dB，而速度提高了300倍(5.620s vs 0.017s)。我们的主要贡献总结如下:

我们率先探索了超高清图像的现状问题，这一问题更加实际，也更加具有挑战性。为此，我们构建了一个大规模的真实世界4K分辨率去摩尔纹数据集UHDM。
我们在这个数据集上对现有的最先进的方法进行了基准研究，总结了一些挑战和分析。基于这些分析，我们提出了一种高效的超高清图像建模基线模型ESDNet。
在定量评价和定性比较方面，我们的ESDNet在UHDM数据集和其他三个公共数据集上取得了最先进的结果。此外，ESDNet是轻量级的，可以以60 fps的速度处理标准4K (3840 × 2160)分辨率的图像。(我至今记得我硕士老板跟我说实验结果好是不能算创新点和贡献的hhhhhh)

2. Related Work

图像去摩尔纹： 为了去除由频率混叠引起的摩尔纹模式，Liu等人[20]通过模拟相机成像过程提出了一个合成数据集，并开发了一个基于gan的[10]框架。此外，提出了一个大规模合成数据集[40]，并推动了许多后续工作[47,8,40]。然而，由于模拟与真实的差距，用合成数据训练的模型很难处理现实场景。对于真实世界的图像数据集，Sun等人[29]提出了第一个真实世界的摩尔纹图像数据集(即TIP2018)，并开发了一个多尺度网络(DMCNN)。为了区分不同类型的摩尔纹图案，He et al.[12]在摩尔纹图像上手工标注类别标签，训练摩尔纹图案分类模型。频域方法[22,47]也被用于去除摩尔纹。为了处理高分辨率图像，He et al.[13]构造了一个高分辨率数据集FHDMi，并开发了多级框架FHDe2Net。虽然已经取得了显著的进展，但上述方法要么不能取得令人满意的结果[47,12,29,8]，要么计算成本过高[47,13,12,8]。更重要的是，现有的图像数据集中分辨率最高的是FHDMi[13]，分辨率为1080p，考虑到目前移动相机捕获的超高清(4K)图像，这并不适合实际使用。我们专注于开发一种可以处理超高清图像的轻量级模型。

图像恢复： 针对这一点，已经提出了大量基于学习的图像恢复模型。例如，残差学习[14]和密集连接[15]被广泛用于开发针对不同低级视觉任务的非常深度神经网络[43,1,19,17,46]。为了捕获多尺度信息，在图像恢复任务中经常使用编码器-解码器[25]结构或分层结构[42,41,9]。受到迭代求解器的启发，一些方法利用循环结构[9,31]，在减少参数数量的同时逐步恢复图像。为了保留结构和语义信息，许多著作[36,21,28,37,30,34]采用感知损失[16]或生成损失[10,11,2]来指导训练过程。在我们的工作中，我们还利用精心设计的密集块进行高效的特征重用，并利用感知损失进行语义引导优化。

多尺度网络： 由于多尺度网络能够利用具有不同接受域的特征，它已被广泛应用于各种任务[33,4,48,38,6]。U-Net[25]是一种典型的多尺度网络，它采用编码器-解码器结构提取多尺度信息，并通过跳接增强解码器的特性。为了保持高分辨率表示，全分辨率残差网络[24]通过引入一个包含全分辨率信息的额外流来扩展U-Net，在HRNet[33]中可以找到类似的操作。考虑到提取的多尺度特征具有不同的语义意义，如何将具有不同意义的特征融合也是一个重要的问题，在许多著作中得到了广泛的研究[3,5,7]。在这项工作中，我们设计了一个语义对齐的尺度感知模块来处理具有不同尺度的摩尔纹模式，而不会产生太大的计算成本，这使得我们的方法对4K图像非常实用。

3. UHDM Dataset

我们研究的是具有更多实际应用的超高清图像模型。为了训练4K模型和评估现有方法，我们收集了一个大规模的超高清模型数据集(UHDM)。下面将详细介绍数据集收集和基准研究。

3.1 Data Collection and Selection

为了获得真实的4K图像对，我们首先从互联网上收集分辨率从4K到8K的高质量图像。我们注意到，互联网资源缺乏文档场景，这也是一个重要的应用场景(例如，幻灯片，论文)，所以我们手动生成高质量的文本图像，并确保它们保持3000 dpi(每英寸点)。最后，收集到的无摩尔纹图像覆盖了广泛的场景(见图1)，如风景、运动、视频剪辑和文件。根据这些高质量的图像，我们生成了各种现实世界的摩尔纹图案，详细说明如下。

首先，为了产生逼真的摩尔纹图像，减轻校准的困难，我们用固定在大疆OM 5智能手机万向架上的拍照手机拍摄屏幕上显示的干净的照片，通过相机的控制按钮，我们可以方便灵活地调节相机的视角，如图1所示。其次，我们注意到摩尔纹图案的特征高度依赖于屏幕和相机之间的几何关系（补充材料中查看更多细节）。因此，在拍摄过程中，我们每10个镜头不断调整视点，以产生不同的摩尔纹图案。第三，我们采用多种<手机，屏幕>(即三个手机和三个数字屏幕，详见补充)的组合来覆盖各种设备对，因为它们也会影响摩尔纹图案的风格。最后，为了获得对齐的图像对，我们利用RANSAC算法[32]估计原始高质量图像和捕获的摩尔纹屏幕图像之间的单应性矩阵。由于相机内部的非线性畸变和摩尔纹工件的扰动，很难确保精确的像素级校准，因此手动选择以排除严重失调的图像对，从而确保质量。

我们的数据集总共包含5000对图像。我们将它们随机分成4500张进行训练，500张进行验证。当我们使用各种手机收集云雾图像时，分辨率可能是4032 × 3024或4624 × 3472。与其他已有数据集的比较如表1所示，我们的数据集的特征总结如下：

超高分辨率 UHDM是第一个4K分辨率的demoir ’ be数据集，共包含5000个图像对
多样图像场景 数据集包括不同的场景，如风景、运动、视频剪辑和文档
真实世界的捕获设置 图像是根据实际的程序生成的，有不同的设备组合和视点，以产生不同的摩尔纹图案。

3.2 Benchmark Study on 4K Demoireing

随着图像分辨率增加到4K分辨率，云纹的规模有一个非常广泛的范围，从非常大的云纹到小的
(见图1)。这对去摩尔纹方法提出了一个主要的挑战，因为它们被要求具有伸缩性。此外，图像分辨率的提高也会导致计算成本的急剧增加和对细节恢复/保存的高要求。在这里，我们对现有的最先进的方法[47,29,12,13,22,8]在我们的4K demoir ’ be数据集上进行了基准研究，以评估其有效性。主要结果如图2和图3所示:现有的方法大多不能很好地平衡精度和计算效率。更详细的结果见第5节。

分析与讨论： 虽然现有的方法也试图通过开发多尺度策略来解决尺度挑战，但在应用于4K高分辨率图像时，它们在计算效率和还原质量方面仍有一些不足(见图2)。一类方法，如DMCNN[29]和MDDM[8]，只在输出阶段融合了从多分辨率输入中获取的多尺度特征，这可能阻止了中间特征之间的相互作用和细化，导致次优结果，尽管是轻量级的，但显著牺牲了4K图像去摩尔纹的准确性(见图3和图2)。另一种方法，如MBCNN[47]，采用类似U-Net的体系结构，利用不同网络深度的多尺度特征。与其他现有的方法相比，尽管它在准确性和效率之间取得了最佳的平衡，但它仍然存在着范围较广的摩尔纹图案(图2和图5的第二行)。一个可能的问题是，组合的多尺度特征来自不同的语义级别[33]，禁止特定的特征级别获取多分辨率表示[33]，这也可能是图像去摩尔纹中的一个重要线索。另一方面，FHDe2Net[13]设计了一个粗-细两阶段模型，以同时解决规模和细节的挑战。然而，当应用于4K图像时，它会承受巨大的计算成本(见图3)，但仍不足以去除摩尔纹图案(见图5)或恢复精细图像细节(见图2和图5)。

4. Proposed Method

源于3.2节观察结果的激励，我们介绍了一种提高4K分辨率图像模型的基线方法，旨在实现一个更大规模的鲁棒性和更有效的模型。在接下来的文章中，我们首先概述我们的管道，然后详细介绍我们的核心语义对齐的可感知规模模块(SAM)。

4.1 Pipeline

总体架构如图4所示，其中使用预处理头来放大接收场，然后是编码器-解码器架构用于图像去摩尔纹。预处理头采用像素洗牌[26]对图像进行2次下采样，并采用5 × 5卷积层进一步提取底层特征。然后，提取的底层特征被馈送到编码器-解码器主干架构中，该架构由三个下采样和上采样级别组成。注意，编码器和解码器通过通过跳跃链接连接，以允许包含高分辨率信息的特征，以促进相应的无摩尔纹图像的恢复。在每一个解码器层面，网络将通过卷积层和pixelshuffle上采样操作产生中间结果(见图4的上半部分)，这些结果也由地面真值图像监督，以达到深度监督的目的，以促进训练。具体来说，每个编码器或解码器级别(见图4)包含一个扩展残差密集块[46,15,14,39]，用于细化输入特征(详见下文)，以及一个拟议的语义对齐多尺度模块(SAM)，用于提取和动态融合同一语义级别的多尺度特征
(详见第4.2节)。

扩展残差密集块： 对于每一层i∈{1,2,3,4,5,6}(即三个编码器层和三个解码器层)，输入特征Fi首先经过一个卷积块，即扩展残差密集块，以细化输入特征。它结合残差密集块(RDB)[46,15,14]和扩展卷积层[39]来处理输入特征和输出细化特征。具体来说，给定到第 i i i级编码器或解码器的输入特征 F i 0 F_i^0 Fi0，块内部每层的级联局部特征可以表述为式(1):

其中 [ F i 0 , F i 1 , . . . , F i l − 1 ] [F_i^0, F_i^1, ... ,F_i^{l-1}] [Fi0,Fi1,...,Fil−1]表示第 l l l层之前所有中间特征的连接， C l C^l Cl是处理连接特征的算子，由一个3×3的具有扩张率 d l d^l dl的卷积层和一个整流线性单元ReLU组成。之后，我们应用1 × 1卷积使输出通道数与 F i 0 F_i^0 Fi0相同。最后，我们利用残差连接生成细化的特征表示 F i r F_i^{r} Fir，其表达式为（2）:
然后将经过改进的特征表示 F i r F_i^{r} Fir输入到我们提出的SAM中进行语义对齐的多尺度特征提取。

4.3 Sematic-Aligned Scale-Aware Module

在给定输入特征 F i r F_i^r Fir的情况下，SAM旨在提取同一语义级 i i i内的多尺度特征，并允许它们相互作用和动态融合，显著提高模型处理具有广泛尺度的去摩尔纹模式的能力。如表3所示，SAM使我们能够开发一个轻量级的网络，同时与现有方法相比仍然更有效。在接下来的研究中，我们详细介绍了SAM的设计，包括两个主要模块:金字塔特征提取和跨尺度动态融合。

金字塔上下文提取： 给定一个输入特征图 F r ∈ R H × W × C F^r \in \R^{H \times W \times C} Fr∈RH×W×C（在后续讨论中，我们将 F i r F_i^r Fir简化为 F r F^r Fr），我们首先通过双线性下采样生成一个金字塔输入特征 F r ∈ R H × W × C F^r \in \R^{H \times W \times C} Fr∈RH×W×C， F ↓ r ∈ R H / 2 × W / 2 × C F^r_{\downarrow} \in \R^{H/2 \times W/2 \times C} F↓r∈RH/2×W/2×C和 F ↓ ↓ r ∈ R H / 4 × W / 4 × C F^r_{\downarrow \downarrow} \in \R^{H/4 \times W/4 \times C} F↓↓r∈RH/4×W/4×C，然后将其送入相应的卷积分支中，通过五个卷积层生成金字塔输出 Y 0 , Y 1 , Y 2 Y_0,Y_1,Y_2 Y0,Y1,Y2（看图4的下方）：
我们通过扩展密集块和后续 1 × 1 1 \times 1 1×1卷积层构建 E 0 , E 1 E_0,E_1 E0,E1和 E 2 E_2 E2。另外，上采样操作将再 E 1 , E 2 E_1, E_2 E1,E2中执行以对齐三个输出的尺寸，即 Y i ∈ R H × W × C , ( i = 0 , 1 , 2 ) Y_i \in \R^{H \times W \times C}, (i=0,1,2) Yi∈RH×W×C,(i=0,1,2)。需要注意的是，由于 E 0 , E 1 , E 2 E_0,E_1,E_2 E0,E1,E2的内部架构相同，因此可以共享它们对应的可学习参数，以降低参数数量的成本。事实上，正如第5节所证明的，改进主要来自金字塔结构，而不是额外的参数。

跨尺度动态融合： 给定金字塔特征 Y 0 、 Y 1 、 Y 2 Y_0、Y_1、Y_2 Y0、Y1、Y2，跨尺度动态融合模块将它们融合在一起，生成融合的多尺度特征，供下一层进行处理。这个模块的见解是，摩尔纹模式的尺度因图像而异，因此不同尺度特征的重要性也会因图像而异。为此，我们开发了以下跨尺度动态融合模块，实现了融合过程动态调整和适应每一副图像。具体来说，我们学习了融合 Y 1 , Y 2 , Y 3 Y_1, Y_2, Y_3 Y1,Y2,Y3的动态权重。(正文这里写错了，应该是012而不是123)

对于给定的 Y i ∈ R H × W × C , ( i = 1 , 2 , 3 ) Y_i \in \R ^{H \times W \times C}, (i=1,2,3) Yi∈RH×W×C,(i=1,2,3)，我们首先在每个特征图的空间维度使用全局平均池化,根据式(4)得到每个尺度 i i i的一维全局特征 v i ∈ R C v_i \in \R^C vi∈RC

然后，我们将它们沿着通道维度进行连接，并通过MLP模块学习动态权值，如下:

其中“MLP”由三个完全连接层组成，输出为 w 0 , w 1 , w 2 ∈ R C w_0,w_1,w_2 \in \R^C w0,w1,w2∈RC用于动态融合 Y 1 , Y 2 , Y 3 Y_1, Y_2, Y_3 Y1,Y2,Y3。最后，利用融合权值，我们在通道维度上将金字塔特征与输入自适应权值融合，然后添加输入特征 F r F^r Fr，得到SAM的最终输出:

其中 ⊙ \odot ⊙为通道乘法，输出 F o u t F^{out} Fout经过下一层 ( i → i + 1 ) (i→i + 1) (i→i+1)进行进一步的特征提取和图像重构。

比较与分析： 现有方法[47,22]利用不同深度的特征来获得多尺度表示。然而，不同深度的特征具有不同的语义信息层次。因此，它们无法在相同的语义级别上表示多尺度信息，这可能为增强模型的多尺度建模能力提供重要线索，如[33]所示。我们将SAM作为现有方法的补充，因为 Y 0 , Y 1 , Y 2 Y_0, Y_1, Y_2 Y0,Y1,Y2包含具有不同局部接受域的语义对齐信息。动态融合方法进一步增强了模块对不同图像的适应性，增强了模块的能力。与MopNet[12]中的显式分类器相比，该策略也可以被视为隐式分类器，效率更高，并且避免了手工定义模糊的属性。我们在补充文件中包含了更详细的分析。

4.3 Loss Function

为了促进优化，我们采用深度监督策略，这在[47]中已被证明是有用的。如图4所示，在每一个解码器级别上，网络将产生 I ^ 1 , I ^ 2 , I ^ 3 \hat{I}_1, \hat{I}_2, \hat{I}_3 I^1,I^2,I^3的分层预测，这些预测也由地面真值图像监督。我们注意到摩尔纹图案破坏了图像结构，因为它们产生了新的条形结构。因此，我们采用感知损失[16]进行基于特征的监督。在每一级，我们通过结合像素级损失 L 1 L_1 L1和特征级感知损失 L p L_p Lp建立损失函数。因此，最后的损失函数表示为:

对于感知损失，我们使用预先训练的VGG16[27]网络从conv3 - 3 (ReLU后)中提取特征，并计算特征空间中的L1距离;我们简单地在训练中设置λ = 1。我们发现，这种感知损失在去除摩尔纹模式方面是有效的。

5. Experiments

数据集和指标： 我们在提出的UHDM数据集和其他三个公共数据集:FHDMi[13]、TIP2018[29]和LCDMoire[40]上进行了实验。在我们的UHDM数据集中，我们保持原始的两个分辨率(参见Section 3)和模型用裁剪的补丁训练。在评估阶段，我们对原始图像进行中心裁剪，得到分辨率为3840×2160(标准4K尺寸)的测试对。我们采用广泛使用的PSNR，用于定量评价的SSIM[35]和LPIPS[44]指标。实验证明，LPIPS更符合人的感知，适合于测量去摩尔纹质量[13]。注意，这些现有的方法只报告PSNR和在TIP2018和LCDMoir上的SSIM，所以我们遵循这个设置进行比较。

部署细节： 我们使用PyTorch实现我们的算法NVIDIA RTX 3090 GPU卡。在训练过程中，我们从超高清图像中随机裁剪一个768 × 768的patch，并设置批大小为2。模型训练150个周期，由Adam[18]优化， β 1 = 0.9 ， β 2 = 0.999 β_1 = 0.9， β_2 = 0.999 β1=0.9，β2=0.999。学习率初始为0.0002,并由使用循环余弦退火(23)策略。其他基准的实现细节在补充文件中展开。我们还对数据集进行了忠实而充分的训练，并在补充文件中展开了细节。

5.1 Comparison with State-of-the-art Methods

我们提供了两个版本的模型:ESDNet和ESDNet- l。ESDNet是默认的轻量级模型，而ESDNet-L是一个更大的模型，在每个网络级别多堆叠了一个SAM。

定量比较: 表2显示了现有方法的定量性能。提出的方法在所有四个数据集上都取得了最先进的结果。具体来说，我们的两种模型在超高清UHDM数据集和高清数据集上都比其他方法有很大的优势
FHDMi数据集，展示了我们的方法在高分辨率场景下的有效性。值得注意的是，我们的ESDNet虽然拥有更少的参数，但已经显示出具有竞争力的性能。

定性比较： 我们在图5中展示了我们的算法与现有方法之间的可视化比较。显然，我们的方法在感知上获得了更令人满意的结果。相比之下，MDDM [8]， DMCNN[29]和WDNet[22]经常不能去除摩尔纹模式，而MBCNN[47]和MopNet[12]不能很好地处理大规模模式。尽管FHDe2Net[13]比其他方法(我们的方法除外)性能更好，但通常会严重丢失细节。所有这些事实都证明了我们的方法的优越性。

计算消耗： 如图3所示，我们的方法达到了平衡参数数量、计算成本(mac)和性能的最佳点。此外，我们还在NVIDIA RTX 3090 GPU上测试了我们方法的推理速度。令人惊讶的是，我们的ESDNet只需要17ms(即60fps)来处理一个标准的4K分辨率图像，几乎比FHDe2Net快300倍。具有竞争力的性能和较低的计算成本使我们的方法在4K场景中非常实用。

5.2 Ablation Study

在本节中，我们将分析网络中哪些组件对UHDM数据集的最终性能贡献最大。如表3所示，我们从基线模型(模型“A”)开始，该模型消除了金字塔上下文提取和跨尺度动态融合策略。为了进行公平的比较，我们进一步构建了一个更强的基线模型(模型“a +”)，该模型在模型容量方面与我们的完整模型(模型“E”)是可比较的。

金字塔上下文提取： 我们构建了两个变量(模型“B”和模型“D”)来探索该设计的有效性。与基线(模型“A”)相比，我们观察到提出的金字塔上下文提取可以显著提高模型性能。为了验证改进是否来自额外两个子分支中的更多参数，我们利用了跨所有分支的权重共享策略(模型“B”)。从表3的观察可以看出，性能增益主要来自于金字塔设计，而不是参数的增加。进一步，如图6所示，我们发现我们的金字塔设计可以成功地删除在基线模型中没有很好处理的摩尔纹模式。

（这里很奇怪啊？B使用的是共享权重，D使用的是自适应权重，在上文说的是使用了共享权重策略，但是根据上文的Table 2这个没有使用共享权重策略的E才是最终的Full Model？这里应该如何解释呢？）

跨尺度动态融合： 为了验证所提出的动态融合方案的重要性，我们逐渐将该设计添加到模型“B”和模型“D”中，形成模型“C”和模型“E”。我们观察到两种模型都有一致的改善，特别是在PSNR方面。由图6可以看出，模型“D”中保留的伪影在模型“E”的结果中被完全去除，色彩风格更加和谐。

损失函数： 通过我们的实验，我们发现感知损失在图像去摩尔纹中起着至关重要的作用。如表4所示，当用一个 L 1 L_1 L1损失替换我们的损失函数时，我们注意到我们的方法中明显的性能下降，特别是在LPIPS上。此外，我们还将损失函数应用到其他最先进的方法中进行了进一步的探索[29,8]。LPIPS的显著改进说明了损失设计在获得更高感知质量的恢复图像方面的重要性。我们认为，我们的损失在解决大规模的摩尔纹模式和真实世界数据集中的失调问题上更加稳健[13,29]。更多的讨论包含在补充文件中。

6. Conclusion

在本文中，为了探索更实际但具有挑战性的4K图像原型场景，我们提出了第一个真实世界的超高清原型数据集(UHDM)。基于该数据集，我们对现有方法进行了基准研究和局限性分析，这促使我们构建了一个轻量级的语义对齐的尺度感知模块(SAM)，以增强模型的多尺度能力，而不产生太多的计算成本。通过在一个简单的编码器-解码器骨干网的不同深度利用SAM，我们开发了ESDNet可有效处理4K高分辨率图像去摩尔纹。我们的方法计算效率高，易于实现，在四个基准去摩尔纹数据集(包括我们的UHDM)上实现了最先进的结果。我们希望我们的调查可以启发未来在这个更实际的环境下的研究。