Parallax-Tolerant Unsupervised Deep Image Stitching

09 Jun, 2025

抗视差的无监督深度图像拼接技术

摘要
传统的图像拼接方法往往依赖越来越复杂的几何特征（例如点、线、边缘等）来提升性能。然而，这些手工设计的特征仅适用于具有充足几何结构的特定自然场景。相比之下，深度学习拼接方法通过自适应学习鲁棒的语义特征，能够在不利条件下实现拼接，但它们无法处理大视差问题。
为了解决上述问题，我们提出了一种具有视差容忍性的无监督深度图像拼接技术。首先，我们提出了一种鲁棒且灵活的图像变形方式，用于建模从全局单应性变换到局部薄板样条（TPS）运动的图像配准关系。通过对齐和畸变的联合优化，该方法在确保重叠区域精准对齐的同时，也实现了非重叠区域的形状保持。随后，为了提升模型的泛化能力，我们设计了一种简单而有效的迭代策略，增强变形模型在跨数据集和跨分辨率应用中的适应性。最后，为进一步消除视差伪影，我们提出通过无监督学习方式生成缝合线驱动的组合掩膜，实现图像的无缝拼接。与现有方法相比，我们的方案具备视差容忍能力，无需为特定场景设计复杂的几何特征。大量实验从定量和定性两个方面验证了我们方法相对于当前最先进方法的优越性。项目代码已开源，地址为：https://github.com/nie-lang/UDIS2。

1.引言
图像拼接是一项实用技术，旨在将多个有限视场（FoV）的图像合成为一个具有宽视场的场景。它在自动驾驶、医学成像、监控视频、虚拟现实等多个领域都有广泛应用。
过去几十年间，传统拼接方法趋向于采用越来越复杂的几何特征，以提升图像内容对齐和形状保持的质量。最初，SIFT [38] 被广泛用于各类图像拼接算法 [4, 13, 50, 5, 34, 25]，用以提取具判别性的关键点并计算自适应变形。随后，线段被证明是另一种独特的几何特征，有助于提升拼接质量并保持线性结构 [31, 49, 32, 19]。近期，又引入了大尺度边缘特征 [10] 来保持轮廓结构。此外，还有深度图 [33]、语义平面区域 [26] 等多种几何特征被用于进一步提升拼接效果。
完成图像变形后，通常还会使用缝合线剪裁（seam cutting）来消除视差伪影。为了寻找“不可见”的缝合线，研究人员设计了多种基于颜色 [22]、边缘 [35, 8]、显著图 [30]、深度信息 [6] 等的能量函数。
从几何特征的广泛使用中可以看出一个明显的发展趋势：所使用的特征越来越复杂。然而，我们不禁要问：这些复杂设计在实际应用中是否真的实用？我们尝试从两个角度回答这个问题：1）这些依赖复杂几何特征的精致算法，在几何结构不充分的场景（如医学图像、工业图像、低纹理的自然图像，如图1b所示）、光照不足或低分辨率图像中表现不佳。2）即使存在丰富的几何结构，其运行速度也难以接受（详见表2和表3）。这样的趋势似乎违背了“实用性”的初衷。
近来，基于卷积神经网络（CNN）的深度拼接技术在学界引起广泛关注。与传统方法不同，这些方法抛弃了几何特征，转向可通过数据驱动模式进行自适应学习的高级语义特征，并采用了监督 [24, 40, 44, 47, 23]、弱监督 [46] 或无监督 [41] 的方式。虽然这些方法在各种自然或非自然场景中表现出较强的鲁棒性，但它们无法处理大视差情况，在跨数据集与跨分辨率条件下的泛化能力也较差。图1a 展示了一个大视差的例子：在参考图像中，一棵树位于汽车中间，而在目标图像中则位于左侧。为应对视差，UDIS [41] 尝试从特征到像素重建拼接图像，但由于视差过大，导致图像中出现了不希望的模糊。
本文提出一种视差容忍的无监督深度图像拼接技术，旨在同时解决传统拼接方法的鲁棒性问题和深度拼接方法中的大视差问题。具体来说，我们提出的基于深度学习的解决方案，通过高效的语义特征提取，自然地具备适应各种场景的能力。之后，我们通过两个阶段来应对大视差问题：图像变形（warp）和图像合成（composition）。在第一阶段，我们提出了一种鲁棒且灵活的图像变形方法来建模图像配准。特别地，我们将单应性变换（homography）和薄板样条变换（TPS）参数化为统一表示，构建紧凑的表示框架：单应性实现全局线性变换，TPS 实现局部非线性形变，这使我们的变形方法可以处理视差对齐问题。此外，该变形方式通过联合优化对齐误差与畸变程度，实现了图像内容对齐与形状保持的双重目标。在第二阶段，现有的基于重建的方法（如 [41]）将视差伪影的消除视为从特征到像素的重建过程，但这常常在视差区域造成不可避免的模糊。为克服这一缺陷，我们将“缝合线剪裁”的动机融入深度合成过程中，通过无监督学习方式隐式找到“缝合线”，生成用于组合的掩膜，实现无缝拼接。为此，我们设计了边界约束与平滑性约束，限制缝合线的端点位置与路径，使拼接图像实现更自然的组合。除了上述两个阶段，我们还设计了简单的迭代策略，以提升模型的泛化能力，显著提高图像配准在不同数据集和分辨率下的性能。
此外，我们在图像变形和图像合成两个方面进行了大量实验，展示了我们方法相较于当前最先进方法（SoTA）的优势。本文的核心贡献如下：
提出一种鲁棒且灵活的图像变形方法，将单应性与薄板样条变换统一参数化，实现在多种场景下的无监督内容对齐与形状保持；
提出一种新的图像合成方法，通过无监督学习生成组合掩膜，实现无缝拼接。与基于重建的方法 [41] 相比，我们的方法能有效消除视差伪影，且不会引入模糊；
设计了一个简单的迭代策略，提升了图像变形模型在不同数据集与分辨率下的适应能力。

2.相关研究
2.1.传统图像拼接
自适应变形（Adaptive warp）AutoStitch [4] 首次利用 SIFT [38] 提取具有判别力的关键点，用于构建全局单应性变换（homography）。此后，SIFT 成为了计算多种灵活图像变形方式中不可或缺的特征。例如：为了提升对齐精度，提出了多种方法：DHW [13]、SVA [36]、APAP [50]、ELA [28]、TFA [27]；为了增强形状保持能力，发展了 SPHP [5]、AANAP [34]、GSP [7] 等方法。随后，DFW [13] 结合 LSD [48] 提取的线段与关键点，共同用于在人工环境中增强结构信息。此外，Line-guided mesh deformation（线引导网格变形）方法 [49] 通过优化多个保线性项（如 [32, 19]）的能量函数，实现结构对齐。为保持非线性结构，GES-GSP [10] 引入了边缘特征，实现局部对齐与结构保持之间的平滑过渡。除了点、线、边这类基本几何特征外，深度图（depth maps）和语义平面（semantic planes）也被用于辅助特征匹配，例如引入深度一致性 [33] 和平面一致性 [26]。
缝合线剪裁（Seam cutting）缝合线剪裁通常作为拼接图像的后处理操作，其本质是一个沿缝合线进行标签分配的优化问题。为了获得自然、合理的拼接效果，研究者定义了多种能量项来惩罚光度差异，例如：欧几里得颜色差异 [22]；梯度差异 [1, 8]；考虑运动与曝光的差异 [11]；显著性差异 [30] 等。上述能量函数通常通过图割优化（graph-cut optimization）来最小化 [22]。此外，缝合线剪裁也可用于图像对齐阶段，用于寻找具有最小缝合线代价的最优变形 [14, 51, 35, 29]。
这些复杂的几何特征在具有充足几何结构的自然场景中确实有效，但也存在两个主要缺陷：几何结构不足时，对特征的严格依赖会导致拼接质量下降，甚至拼接失败；几何结构过多时，计算开销会急剧上升，效率难以接受。
2.2.深度图像拼接
相比之下，深度图像拼接方法无需繁复地设计几何特征。它们能够通过监督式 [24, 40, 44, 47, 23]、弱监督式 [46] 或无监督式 [41] 的方式，从大量数据中自动学习高级语义特征，使其在各种复杂场景下表现出较强的鲁棒性。在这些方法中，由于缺乏真实的拼接标注数据，无监督方法 [41] 更加受到青睐。然而，由于其基于单应性对齐模型的局限性，无法有效处理大视差情况，后续的重建过程会在视差区域引入明显的模糊伪影。

3.方法
我们的方法概览如图2所示，整个框架由两个阶段组成：变形（warp）和合成（composition）。在第一阶段，方法以一张参考图像（Ir）和一张具有重叠区域的目标图像（It）作为输入，回归出一个鲁棒且灵活的变形（warp）模型。随后，变形后的图像（Iwr, Iwt）被输入到第二阶段，用于预测合成掩膜（Mcr, Mct）。最终，拼接图像（S）可以通过以下方式实现无缝合成：

S = M_{c r} \times I_{w r} + M_{c t} \times I_{w t} .

3.1.无监督变形构建
3.1.1变形参数化
单应变换（Homography Transformation）是一种可逆映射，用于将一张图像转换到另一张图像上，具有 8 个自由度：分别对应于平移、旋转、缩放以及无穷远处直线的两个自由度。为了在回归网络中保证其非奇异性 [39]，通常将其参数化为四个顶点的运动 [9]，然后使用 DLT 算法 [15] 求解为一个 3 × 3 的变换矩阵。
然而，如果拍摄的是非平面场景，并且由不同拍摄中心的相机捕获，单应变换将无法实现准确的对齐。为了解决这一问题，传统拼接算法中通常采用基于网格的多单应性方案 [50]。但该方案无法高效并行加速，因此不适用于深度学习框架 [43, 42]。具体分析可参考补充材料的第 2.3 节。为克服这一问题，我们提出采用 TPS（薄板样条）变换 [3, 18] 来实现高效的局部变形。
TPS 变换是一种非线性且灵活的变换方式，常用于利用薄板近似非刚性物体的变形。该变换由两组控制点决定，在平面图像与变形图像之间具有一一对应的关系。设平面图像上的 N 个控制点为P = [p₁, ..., pₙ]^T，变形图像上对应的控制点为P′ = [p′₁, ..., p′ₙ]^T (pi, p′i ∈ ℝ²×¹)。通过最小化一个由数据项与变形项构成的能量函数 [20]（更多细节可参考补充材料第 2.1 节），TPS 变换可被参数化，如公式（2）所示：

p^{'} = 𝒯 (p) = C + M p + \sum_{i = 1}^{N} w_{i} 𝙾 (‖ p - p_{i} ‖_{2}),

其中，p 表示平面图像上的任意一点，p′ 是其在变形图像上的对应点。C ∈ ℝ²×¹、M ∈ ℝ²×² 和 wᵢ ∈ ℝ²×¹ 是 TPS 变换的参数。O® = r² log r² 是径向基函数（Radial Basis Function），表示每个控制点对点 p 的影响程度。为了解这些变换参数，我们根据公式（2）利用 N 对控制点构建 N 条数据约束，并添加额外的维度约束 [20]，如下公式（3）所示：

\sum_{i = 1}^{N} w_{i} = 0 and \sum_{i = 1}^{N} p_{i} w_{i}^{T} = 0 .

然后，这些约束可以被重写为矩阵计算的形式，并可通过如下方式求解这些变换参数：

[\begin{matrix} C \\ M \\ W \end{matrix}] = [^{\begin{matrix} 1 & P & K \\ 0 & 0 & 1^{T} \\ 0 & 0 & P^{T} \end{matrix}] - 1} [\begin{matrix} P^{'} \\ 0 \\ 0 \end{matrix}],

其中，1 是一个 $N \times 1$ 的全 1 向量。矩阵 $K \in ℝ^{N \times N}$ 中的每个元素 $k_{i j}$ 由函数 $O (‖ p_{i} - p_{j} ‖^{2})$ 决定， $W = [w_{1}, . . ., w_{N}]^{T}$ 。类似于对单应性变换的四点参数化，TPS（薄板样条）变换也可以通过控制点的位移进行参数化。在本研究中，我们在目标图像上均匀分布 $(U + 1) \times (V + 1)$ 个控制点，并预测每个控制点的位移。为了在全局单应性变换和局部 TPS 变换之间建立联系，我们首先回归单应性变换，用以提供控制点的初始位移，然后再预测残差位移以实现更灵活的变形。
3.1.2变形流程
如图 2 所示，给定参考图像 $I_{r}$ 和目标图像 $I_{t}$ ，我们首先采用预训练的 ResNet50 [17] 作为骨干网络提取语义特征。该网络将三通道图像映射为高维语义特征图，分辨率为原图的 1/16。然后，通过上下文相关层（contextual correlation layer）[43]，将这两张特征图（ $F_{r}^{1 / 16}$ 和 $F_{t}^{1 / 16}$ ）之间的相关性聚合成两通道的特征流（feature flows）。
接着，使用一个回归网络对全局单应性变换进行四点参数化估计。该全局变换还用于生成控制点的初始位移。随后，我们对更高分辨率（1/8）的特征图（如 $F_{t}^{1 / 8}$ ）进行变换，以将单应先验嵌入后续流程。在另一个上下文相关层和回归网络的作用下，预测出控制点的残差位移，进而构建出鲁棒而灵活的 TPS（薄板样条）变换。
3.1.3变形优化
为了同时实现内容对齐和形状保持，我们设计了目标函数 $ℒ^{w}$ ，从对齐和畸变两个方面进行约束。

ℒ^{w} = ℒ_{a l i g n m e n t}^{w} + ω ℒ_{d i s t o r t i o n}^{w} .

对于对齐，我们鼓励重叠区域在像素级保持一致。设ϕ(·, ·)为变换操作，1为与参考图像Ir分辨率相同的全一矩阵，对齐损失定义如下：

ℒ_{a l i g n m e n t}^{w} = λ ‖ I_{r} \cdot φ (1, H) - φ (I_{t}, H) ‖_{1} + λ ‖ I_{t} \cdot φ (1, H^{- 1}) - φ (I_{r}, H^{- 1}) ‖_{1} + ‖ I_{r} \cdot φ (1, T P S) - φ (I_{t}, T P S) ‖_{1},

其中，H 和 TPS 是变形参数，λ是一个超参数，用于平衡不同变形的影响。
对于畸变，我们在变形后的目标图像中连接相邻的控制点形成网格，并引入了网格间约束 $l_{i n t e r}$ 和网格内约束 $l_{i n t r a}$ 。前者用于保持非重叠区域的几何结构，后者用于减少投影畸变。起初，我们通过 DLT 方法对非重叠区域的每个网格近似一个相似变换，并将四点投影误差作为损失。但这种传统方法中常用的约束[16, 37]在深度学习方案中并不适用。相反，我们从更直观的角度——网格边缘重新探讨这些约束。
类似于[42]，我们对超过阈值的网格边缘 $\vec{e}$ 施加惩罚。设 ${\vec{e}}_{h o r}$ 和 ${\vec{e}}_{v e r}$ 分别为所有水平和垂直边缘的集合，我们将网格内约束描述如下：

ℓ_{i n t r a} = \frac{1}{(U + 1) \times V} \sum_{{{\vec{e}}_{h o r}}} σ (⟨ \vec{e}, \vec{i} ⟩ - \frac{2 W}{V}) + \frac{1}{U \times (V + 1)} \sum_{{{\vec{e}}_{v e r}}} σ (\liangle \vec{e}, \vec{j} ⟩ - \frac{2 H}{U}),

其中， $\vec{i}$ / $\vec{j}$ 分别表示水平方向/垂直方向的单位向量，σ(·) 是 ReLU 函数。通过防止网格形状发生剧烈缩放，从而减少投影畸变。
通过鼓励边缘对（即在水平或垂直方向上的连续边缘，记为 ${\vec{e}}_{s 1}$ , ${\vec{e}}_{s 2}$ ）共线，我们将网格间约束公式化如下：

ℓ_{inter} = \frac{1}{Q} \sum_{{e_{s_{1}}, e_{s_{2}}}} S_{s_{1}, s_{2}} \cdot (1 - \frac{⟨ e_{s_{1}}, e_{s_{2}} ⟩}{‖ e_{s_{1}} ‖ \cdot ‖ e_{s_{2}} ‖})

其中Q是边缘对的总数， $S_{s 1, s 2}$ 是一个 0-1 标签，若该边缘对位于非重叠区域，则设为 1。我们仅在非重叠区域保持结构信息，以避免对图像对齐产生不利影响。
3.2.无监督无缝拼接
3.2.1动机
UDIS [41] 通过从特征到像素的无监督重建来合成拼接图像，但它无法处理较大的视差。而传统的缝隙剪切（seam cutting）方法则是通过动态规划 [2] 或图割优化 [22] 找到一条无缝切割路径，从而消除拼接伪影，但这些方法过于依赖光度差异。
一个直观的想法是将缝隙剪切的动机融入深度学习框架。然而，如何让无监督深度图像拼接方法与缝隙剪切协同工作并取得有效效果，是一个主要难题。例如，动态规划不可微；图割优化为标签分配的是绝对整数，在反向传播中会导致梯度被截断。为此，我们提出将“硬标签”放宽为包含浮点数的“软掩膜”（soft mask），并通过两个具有特殊设计的约束之间的平衡效应，创新性地监督缝隙启发掩膜（seam-inspired mask）的生成。
3.2.2组合流程
我们首先将变换后的图像拼接作为输入，并采用类似 UNet 的网络结构 [45] 作为合成网络。但这种模式会粗略地混合来自不同图像的特征，使得网络难以区分变换图像之间的语义差异。
为克服这一问题，我们在网络编码器部分分别对变换后的参考图像（ $I_{w r}$ ）和目标图像（ $I_{w t}$ ）提取语义特征，并共享权重。对于跳跃连接（skip connection），我们不再直接连接，而是使用 $I_{w r}$ 与 $I_{w t}$ 的特征相减的方式，并将每一层的残差传递给解码器。在网络的最后一层，我们将滤波器数设为 1，并使用 Sigmoid 激活函数以预测参考图像 $I_{w r}$ 的合成掩膜 $M_{c r}$ 。对于目标图像 $I_{w t}$ 的掩膜 $M_{c t}$ ，则可以通过简单的后处理方法轻松获得。
3.2.3组合优化
我们无监督图像合成的优化目标包括边界项和光滑项，如下所示：

ℒ_{c} = α ℒ_{c}^{boundary} + β ℒ_{c}^{smoothness} .

前者表示“缝合线”的起点和终点，后者则约束其路径的平滑性。
我们希望“缝合线”的端点位于变换图像边界的交点处。为实现这一点，我们引入0-1边界掩膜 $M_{b r}$ 、 $M_{b t}$ ，用于指示“缝合线”两侧重叠区域的边界位置。更多细节见补充材料第3.1节。然后我们将边界损失定义为：

ℒ_{c}^{boundary} = ‖ (S - I_{w r}) \cdot M_{b r} ‖_{1} + ‖ (S - I_{w t}) \cdot M_{b t} ‖_{1} .

该损失项限制了拼接图像 S 中重叠区域边界像素的来源，应来自 $I_{w r}$ 或 $I_{w t}$ 。然而， $M_{b r}$ 和 $M_{b t}$ 存在重叠交点，这导致了归属上的不确定性。但正是这种不确定性，使得“缝合线”的端点被固定在交点位置。
为衡量缝合线的光滑性，传统的缝合方法会定义各种基于光度差异的能量函数。在本工作中，我们采用最简单的光度差异形式 $D = (I_{w r} - I_{w t})^{2}$ 来展示我们方法的有效性。随后我们在差异图上定义光滑项如下：

ℓ_{D} = \sum_{i, j} | M_{c r}^{i, j} - M_{c r}^{i + 1, j} | (D^{i, j} + D^{i + 1, j}) + \sum_{i, j} | M_{c r}^{i, j} - M_{c r}^{i, j + 1} | (D^{i, j} + D^{i, j + 1}),

其中 i,j 为图像的笛卡尔坐标。为了在“缝合线”两侧之间生成平滑过渡，我们还定义拼接图像的光滑度如下：

ℓ_{S} = \sum_{i, j} | M_{c r}^{i, j} - M_{c r}^{i + 1, j} | \cdot | S^{i, j} - S^{i + 1, j} | + \sum_{i, j} | M_{c r}^{i, j} - M_{c r}^{i, j + 1} | \cdot | S^{i, j} - S^{i, j + 1} | .

通过将 $ℓ_{D}$ 和 $ℓ_{S}$ 相加，我们构建出完整的光滑项 $ℒ_{smoothness}^{c}$ 。需要注意的是，我们的网络在训练阶段被引导去提取语义差异，而在推理阶段，该方法将不再依赖光度差异。
3.3迭代式变换自适应
将一个预训练模型迁移到其他数据集（跨场景或跨分辨率）的最常见方式是：在新数据集上进行微调（fine-tune）。然而，这通常需要标签来辅助适应过程。在本研究中，我们通过设置如下的无监督优化目标来解决这一限制：

ℒ_{adaption}^{w} = ‖ I_{r} \cdot ϕ (1, TPS) - ϕ (I_{t}, TPS) ‖_{1} .

与公式 (5) 相比，我们移除了单应性变换的对齐损失和畸变损失。这是因为这些约束已经由预训练模型很好地学习过了，而我们现在所做的仅仅是对不同数据上的局部对齐进行微调。
此外，我们还考虑了一个特殊情况：新数据集中仅包含一个样本。实验表明，我们的模型仍可在该场景下以迭代方式稳定优化以实现自适应。具体地，我们设置一个阈值 $τ$ 和最大迭代次数 T，当迭代次数达到 T 或连续的优化误差（公式 13）低于 $τ$ 时，自适应过程终止。
我们在图 3 中展示了一个迭代自适应的例子，其中随着迭代次数的增加，伪影明显减少。完成一次迭代大约需要 0.1 秒。

4.实验
4.1数据集与实现细节
数据集：为了与深度拼接方法进行直观且公平的比较，我们也在 UDIS-D 数据集 [41] 上训练我们的模型。评估则在 UDIS-D 数据集以及其他传统数据集 [50, 13，34, 28，35] 上进行。
实现细节：我们分别使用 Adam 优化器 [21] 训练我们的变换网络和融合网络 100 和 50 个 epoch，初始学习率为 $10^{- 4}$ ，并采用指数衰减策略。对于变换阶段， $ω$ 和 $λ$ 被设置为 10 和 3，我们采用 $(12 + 1) \times (12 + 1)$ 的控制点网格以支持灵活的 TPS 变换。对于第二阶段，我们将 $α$ 和 $β$ 分别设为 10,000 和 1,000。至于变换自适应部分， $τ$ 和 T 分别设置为 $10^{- 4}$ 和 50。所有实验基于 PyTorch 实现，并在一张 NVIDIA RTX 3090 Ti GPU 上运行。
4.2对比实验
为了全面展示我们方法的有效性，我们分别在变换（warp）、图像融合（composition）以及完整拼接框架上进行大量实验。 4.2.1变换对比
我们将我们的变换方法与 SIFT [38] +RANSAC [12]（即 AutoStitch [4] 的流程）、APAP [50]、ELA [28]、SPW [32]、LPC [19] 以及 UDIS 的变换方法 [41] 进行了比较。我们自行实现了 SIFT+RANSAC，其余方法使用官方代码和默认参数（如网格分辨率）。所有方法（包括 ours）都使用平均融合（average fusion）作为后处理操作，因为这种简单融合速度快，并且能更好地突出对齐误差。
定量对比：我们首先在 UDIS-D 数据集 [41] 上，使用与 UDIS 相同的评价指标进行定量对比。该数据集中共有 1,106 个样本。结果如表 1 所示，其中 $I_{3 \times 3}$ 表示恒等变换（即“无变换”）作为参考。根据性能表现，我们将结果分为三组，方法参考 [41，43]。传统方法在面对一些挑战性样本时，由于缺乏几何特征，可能会出现崩溃的情况。当发生此类情况时，我们使用 $I_{3 \times 3}$ 替代进行评估。
定性对比：图 4 展示了定性结果，我们在不同深度表面上放大两个区域以突出视差伪影。从图中可以看出，我们的变换方法在 UDIS-D 数据集 [41] 上明显优于其他方法。
跨数据集对比：我们利用预训练模型在其他数据集上评估性能，如图 5 所示。我们还使用迭代自适应策略以进一步提升对齐表现。
速度对比：为客观评估速度，我们在三个传统公开数据集 [50，34，13] 的三种不同分辨率上进行测试。如表 2 所示，我们的方法在 GPU 加速下的变换速度远超其他方法，而传统方法无法利用 GPU 加速。对于传统基于网格的变换方法，其运行时间几乎不随图像分辨率变化，且在具有丰富几何特征的场景（如 “railTrack”）下，速度表现极差。
4.2.2 融合对比
我们将我们的图像融合方法与基于感知的 seam-cutting 方法 [30] 和基于重建的方法 [41] 进行了比较。为了更直观地展示视差伪影，我们使用 SIFT+RANSAC 对图像进行变换，并提供平均融合的结果作为参考。
定性对比：传统的 seam-cutting 方法通过动态规划 [2] 或图割优化 [22] 寻找拼接缝。传统方法中的 mask 值为整数，而我们的方法生成的是浮点数 mask。因此，我们无法使用传统指标对我们的图像融合进行定量评估，而是以定性方式展示，结果如图 6 所示。此外，我们承诺公开所有主观结果，包括 UDIS-D 数据集的 1,106 张图像以及传统数据集中的其他图像。
速度对比：在此，我们首先使用提出的变换方法对输入图像进行变换，然后将这些变换后的图像用于不同融合方法的速度评估。如表 3 所示，我们的融合方法在 GPU 加速下显示出显著的速度优势。

表1. UDIS-D数据集上扭曲的定量比较[41]。最佳结果用红色标注，次优结果用蓝色标注。

	PSNR↑				SSIM↑
	Easy	Moderate	Hard	Average	Easy	Moderate	Hard	Average
$I_{3 \times 3}$	15.87	12.76	10.68	12.86	0.530	0.286	0.146	0.303
SIFT[38]+RANSAC[12]	28.75	24.08	18.55	23.27	0.916	0.833	0.636	0.779
APAP[50]	27.96	24.39	20.21	23.79	0.901	0.837	0.682	0.794
ELA[28]	29.36	25.10	19.19	24.01	0.917	0.855	0.691	0.808
SPW[32]	26.98	22.67	16.77	21.60	0.880	0.758	0.490	0.687
LPC[19]	26.94	22.63	19.31	22.59	0.878	0.764	0.610	0.736
UDIS's warp[41]	25.16	20.96	18.36	21.17	0.834	0.669	0.495	0.648
Our warp	30.19	25.84	21.57	25.43	0.933	0.875	0.739	0.838

表2. 经时（秒）的扭曲比较。1：使用Intel i7-9750H 2.60GHz CPU进行测试；2：使用NVIDIA RTX 3090Ti GPU进行测试。

Dataset	Railtrack [50]	Fence [34]	Carpark [13]
Resolution	1500 × 2000	1088 × 816	490 × 653
APAP [50]¹	20.921	4.427	2.005
ELA [28]¹	18.982	4.739	2.179
SPW [32]¹	227.762	4.787	6.583
LPC [19]¹	2805.3	9.115	40.443
Our warp¹	12.073	5.025	3.486
Our warp²	0.731	0.210	0.117

表3. 根据运行时间（秒）比较组成。1：使用Intel i7-9750H 2.60GHz CPU 测试；2：使用 NVIDIA RTX 3090Ti GPU 测试。

Dataset	Railtrack [50]	Fence [34]	Carpark [13]
Resolution (after warping)	1831 × 3193	1298 × 1320	718 × 1186
Seam cutting [30]¹	46.657	4.058	0.873
Reconstruction [41]¹	304.963	80.837	10.734
Our composition¹	22.778	6.666	3.286
Our composition²	0.532	0.143	0.071

4.2.3更多对比
在这里，我们将完整的拼接框架与其他最新技术（SoTA）方法的性能进行了评估。结果如图1所示，其中LPC [19] 和 UDIS [41] 在后处理阶段分别采用了基于感知的缝隙切割方法 [30] 和基于重建的方法 [41]。为了更清晰展示，更多实验结果包括定性比较、用户研究、挑战性案例以及跨数据集评估，详见补充材料。

4.3消融研究
我们首先对不同的变换约束进行了消融研究。如图7（上部）所示，网格间约束能保持结构完整，而网格内约束则减少了投影变形。此外，这些约束对对齐几乎没有负面影响。具体的定量结果见补充材料。
然后我们研究了组合阶段中平滑项的影响。结果见图7（下部），其中用矩形框标出了不连续区域。通过在差异图和拼接图上施加平滑约束，不连续现象得到了显著改善。

5.结论
本文提出了一种容忍视差的无监督深度拼接解决方案。首先，提出了一种鲁棒且灵活的变换方法，自适应实现内容对齐和形状保持。其次，设计了受缝隙启发的组合策略以进一步减少伪影。此外，提出了简单的迭代变换自适应策略，有效提升了跨数据集和跨分辨率情况下的泛化能力。与现有方法相比，我们的方法能够同时应对复杂场景和大视差情况。借助日益普及的GPU，我们的方案展现了极高的效率。

致谢
本研究得到国家自然科学基金委员会（项目编号：62172032，62120106009）的资助。

参考文献
翻阅原文

原始资料地址：
Parallax-Tolerant Unsupervised Deep Image Stitching
~~如有侵权联系删除~~ 仅供学习交流使用