3D on LeoDreamer

论文阅读 - 测试时自适应的应用

Fri, 12 Sep 2025 00:00:00 +0000

这里是几篇和测试时自适应 (Test-Time Adaptation, TTA) 技巧相关的论文.

CRISP

论文 [] Unknown-material 提出了 CRISP 框架, 用于类别无关的物体6D姿态与3D形状估计.

基础流程

CRISP 一支用于估计形状, 一支用于估计姿态, 最终通过一个优化器将两者结合.

算法CRISP-前向估计 输入 > 分割后的物体RGB图像 $\mathcal{I}$ 及其深度点云 $\bm{X}$. 输出 > 初始姿态估计 $(\bm{R}, \bm{t})$, 潜在形状编码 $\bm{h}$, 姿态归一化坐标 $\bm{Z}$. 形状估计支路: 使用一个基于 ViT (DINOv2) 的编码器从图像 $\mathcal{I}$ 中提取特征, 并回归出一个潜在形状编码 $\bm{h} = f_e(\mathcal{I})$. 一个 FiLM-conditioned 的 MLP 解码器 $f_d$ 根据 $\bm{h}$ 生成物体的 SDF. 姿态估计支路: 使用一个 DPT 网络 $\Phi$ 从图像 $\mathcal{I}$ 中为每个像素预测其在物体标准坐标系下的 3D 坐标, 得到姿态归一化坐标 $\bm{Z} = \Phi(\mathcal{I})$. 利用 Arun 方法直接求解 $\bm{z}_i = \bm{R}\bm{x}_i + \bm{t}$, 得到初始姿态估计 $(\bm{R}, \bm{t})$.

姿态与形状校正器

前向网络的预测在存在领域差异时可能不准. 校正器通过一个双层优化问题, 利用观测到的深度点云 $\bm{X}$ 来微调初始估计 $(\bm{Z}, \bm{h})$, 使其满足几何一致性.

算法CRISP-BCD 输入 > 初始估计 $\bm{Z}$, $\bm{h}$, 深度点云 $\bm{X}$. 输出 > 校正后的估计 $\hat{\bm{Z}}$, $\hat{\bm{h}}$. 固定 $\bm{h}$, 优化 $\bm{Z}$: 通过梯度下降微调 $\bm{Z}$, 以最小化目标函数 $F(\bm{Z} \mid \bm{h}) = \sum_i |f_d(\hat{\bm{R}}\bm{x}_i + \hat{\bm{t}} \mid \bm{h})|^2$. 其中 $(\hat{\bm{R}}, \hat{\bm{t}})$ 是通过内部最小二乘问题 (Arun’s method) 基于当前 $\bm{Z}$ 计算出的最优姿态. 固定 $\bm{Z}$, 优化 $\bm{h}$: 使用投影梯度下降优化形状编码 $\bm{h}$ 以最小化 $F(\bm{Z} \mid \bm{h})$. 关键一步是将 $\bm{h}$ 投影到训练集所有形状编码构成的 simplex 上 $\mathbf{S}_K$, 确保解码器产生合理的形状, 避免外推.

主动形状解码器

BCD 算法中的第二步 (优化 $\bm{h}$) 仍然需要对神经网络 $f_d$ 进行梯度计算. 基于“形状解码器在 Simplex 内行为良好”的观察, 作者提出了主动形状解码器 (Active Shape Decoder) $f_a$, 转换成高效的线性凸优化.

算法CRISP-LSQ 输入 > 初始估计 $\bm{Z}$, $\bm{h}$, 深度点云 $\bm{X}$, 训练集形状编码 $\{\bm{h}_1, ..., \bm{h}_K\}$. 输出 > 校正后的形状系数 $\hat{\bm{c}}$. 定义一个新的解码器 $f_a$, 它是网络预测形状和训练集基形状的线性组合: $$f_{a}(\bm{z}\mid\bm{c})=c_0d_0f_{d}(\bm{z}\mid\bm{h})+\sum_{k=1}^{K}c_kd_kf_{d}(\bm{z}\mid\bm{h}_k), \quad \sum c_k = 1, c_k \geq 0$$ 其中 $\bm{c} = [c_0, c_1, ..., c_K]^T$ 是组合权重系数, 被约束在一个Simplex内. $d_k$ 是归一化因子 (如物体包围盒直径的倒数) , 用于平衡不同形状的SDF尺度. 对于给定的 $\bm{Z}$, 计算矩阵 $\bm{F}(\bm{Z})$, 其每一行是各个基形状在点 $\bm{z}_i$ 处的SDF值. 目标函数变为关于系数 $\bm{c}$ 的线性最小二乘问题: $$\min_{\bm{c}} \|\bm{F}(\bm{Z})\bm{D}\bm{c}\|^2 \quad \text{s.t.} \quad \sum c_k = 1, c_k \geq 0$$ 使用内点法等成熟的凸优化算法快速求解这个带约束的线性最小二乘问题, 得到最优形状系数 $\hat{\bm{c}}$.

测试时自训练

这里就是 TTA 的部分了.

算法CRISP-ST 输入 > 在新领域 (测试域) 上运行的 CRISP 模型及其初始预测. 输出 > 适应了新领域的模型. 校正 (Correct): 对测试数据的预测结果, 运行上述校正器, 得到更精确的估计 $(\hat{\bm{Z}}, \hat{\bm{h}})$. 认证 (Certify): 定义一个可观测的正确性证书来筛选高质量的校正结果作为伪标签: $$ \circ c(\hat{\bm{Z}},\hat{\bm{h}})=\mathbb{I}\left\{\left[|f_{d}(\hat{\bm{R}}\bm{x}_{i}+\hat{\bm{t}}|\hat{\bm{h}})|\right]_{p}<\epsilon\right\} $$ 该证书检查校正后的姿态和形状是否与观测深度点云在几何上一致 (即点云是否落在SDF的零水平集上) . 自训练 (Self-Train): 仅使用通过认证的伪标签 $(\hat{\bm{Z}}, \hat{\bm{h}})$, 以简单的 MSE 损失 $(L_z + L_h)$ 来微调网络的编码器 (形状编码器和PNC编码器) , 此时同时冻结形状解码器 $f_d$.

TopoTTA

针对管状结构分割 (Tubular Structure Segmentation, TSS) 任务, 论文 [] Unknown-material 设计了一个可插拔 TTA 框架.

拓扑结构自适应

即 TTA 过程. 受中心差分卷积 (CDC) 启发, TopoTTA 提出了拓扑元差分卷积 (Topological Meta Difference Convolutions, TopoMDCs), 将其单点差分思想扩展为方向性的双点差分, 以更好地模拟管状结构的走向.

算法TopoTTA-TopoMDC 输入 > 输入特征图 $\bm{x}_{\text{in}}$, 预训练的 vanilla 卷积核权重 $w$. 输出 > 方向性差分特征. 计算中心差分卷积输出 $\mathcal{C}_c$: $$\mathcal{C}_{c} = \sum_{(\Delta r_{x},\Delta r_{y})\in \mathcal{R}_{c}} w(\Delta r_{x},\Delta r_{y})\cdot \bm{x}_{\text{in}}(r_{x}, r_{y})$$ 其中 $\mathcal{R}_c$ 是 $3\times3$ 卷积的邻域. 定义 8 个方向的邻域 $\mathcal{R}_i$ 和偏移 $\mathcal{B}_i$ (如 $\mathcal{R}_1 = \{(-1,-1),(-1,0),(0,-1)\}, \mathcal{B}_1 = \{(-1,-1)\}$). 对于方向 $i$, 其卷积输出 $\mathcal{C}_i$ 计算为: $$\begin{split} \mathcal{C}_{i} = & \quad \mathcal{C}_{c} - \sum_{(\Delta r_{x},\Delta r_{y})\in \mathcal{R}_{i}} w(\Delta r_{x},\Delta r_{y})\cdot \bm{x}_{\text{in}}(r_{x}, r_{y}) \\ & + \sum_{(\Delta r_{x},\Delta r_{y})\in \mathcal{R}_{i}} w(\Delta r_{x},\Delta r_{y})\cdot \bm{x}_{\text{in}}(r_{x}-\Delta b_{x}, r_{y}-\Delta b_{y}) \end{split}$$ $\Delta b$ 是对应的 $\mathcal{B}_i$ 中的偏移. 将模型中所有 $3\times3$ 卷积替换为 TopoMDC 组合, 且不引入新参数, 直接继承原有权重 $w$.

为自适应不同区域的拓扑特征, 图像被划分为 $n \times n$ 个块, 每个块拥有一个独立的参数 $\bm{\delta}_j$, 用于学习加权组合 8 个方向的 TopoMDC. 在 TTA 时, 使用熵最小化损失只更新 $\bm{\delta}$, 而冻结主网络参数.

拓扑连续性优化

管道预测容易因局部特征变化而导致预测断裂或者连续性差的问题. TopoHG 的核心思想是对抗学习, 也就是人为在模型预测高置信度的关键拓扑结构上制造伪断裂, 并迫使模型学会修复它, 从而增强其鲁棒性.

算法TopoTTA-TopoHG 输入 > 测试图像 $\bm{x}$, 教师模型预测的伪标签 $\hat{\bm{y}}'$. 输出 > 包含局部伪断裂的困难样本 $\bm{x}'$. 从 $\hat{\bm{y}}'$ 中选择预测置信度 > $\tau$ (论文取 0.95) 的点集 $\mathcal{P}$, 并随机采样 $N_p = k \cdot |\mathcal{P}|$ 个点. $k$ 是一个较小的超参数, 这意味着置信度越高, 生成的困难样本越多. 以关键点为中心, 取 $s \times s$ 的前景窗口 $\bm{x}_{p}^{\text{fg}}$. 在其邻域滑动相同大小的窗口, 寻找模型预测置信度和最低的背景窗口 $\bm{x}_{p}^{\text{bg}, \ast}$. 对选取的关键点进行质量检查, 若背景窗口中前景像素占比过高则丢弃该关键点. 确定所有关键点后, 对前景窗口和背景窗口进行 FFT, 得到频谱 $\bm{f}_{p}^{\text{fg}}$, $\bm{f}_{p}^{\text{bg}}$. 交换两者的低频成分 (使用掩码 $\bm{m}_{\text{low}}$) , 保留高频细节. 此时前景结构外观与背景接近, 但依然保留了关键的形状轮廓信息: $$\bm{x}_{p}^{\text{swap}} = \text{iFFT}\left(\bm{f}_{p}^{\text{fg}} \cdot (1-\bm{m}_{\text{low}}) + \bm{f}_{p}^{\text{bg}} \cdot \bm{m}_{\text{low}}\right)$$ 仅将原前景区域内的像素替换为 $\bm{x}_{p}^{\text{swap}}$, 生成最终的伪断裂块 $\bm{x}'_{p}$, 并拼回原图得到 $\bm{x}'$.

困难样本 $\bm{x}'$ 被输入学生模型, 其预测 $\hat{\bm{y}}''$ 需要与教师模型在原始图像上生成的可靠伪标签 $\hat{\bm{y}}'$ 在伪断裂区域保持高度一致. 通过一个加权交叉熵损失进行优化, 在伪断裂区域赋予更高权重 (论文中是 10 倍), 迫使模型重点学习如何修复断裂.

CAV-SAM

传统的参考分割方法严重依赖元学习, 需要大量的计算和数据进行元训练. SAM 通过构造伪视频序列来激活 SAM2 的 iVOS 能力. 直接将参考图像 $I_r$ 和目标图像 $I_t$ 拼接作为“视频”输入已能取得接近 SOTA 的效果, 但很显然有两个问题:

iVOS 跟踪同一实例, 而参考分割需识别同类不同实例
图像对间可能存在剧烈的形状和姿态变异, 普通的混合过渡会影响模型性能.

论文 [] Unknown-material 正是基于此提出的新的框架.

视频生成

为了平滑图像对间的语义差异, 基于扩散的语义过渡 (Diffusion-Based Semantic Transition, DBST) 模块利用扩散模型生成中间过渡帧, 使语义变化连续.

算法SAM-DBST 输入 > 参考图像 $I_r$, 目标图像 $I_t$, 插值比率 $\alpha$. 输出 > 过渡图像序列 $I_v^1, I_v^2, \ldots, I_v^{N_v}$. 分别用 $I_r$ 和 $I_t$ 微调扩散模型, 得到其对应的 LoRA 参数 $\Delta\theta_r$ 和 $\Delta\theta_t$. 通过线性插值得到中间参数: $$\Delta\theta_{\alpha} = (1-\alpha)\Delta\theta_{r} + \alpha\Delta\theta_{t}$$ 此操作在参数空间融合图像语义. 通过 DDIM 反转分别得到 $I_r$ 和 $I_t$ 对应的初始潜在噪声 $\mathbf{z}_{Tr}$ 和 $\mathbf{z}_{Tt}$. 通过球面线性插值 (Slerp) 得到中间噪声 $\mathbf{z}_{T\alpha}$: $$\mathbf{z}_{T\alpha} = \frac{\sin((1-\alpha)\phi)}{\sin\phi}\mathbf{z}_{Tr} + \frac{\sin(\alpha\phi)}{\sin\phi}\mathbf{z}_{Tt}, \quad \phi = \arccos\left(\frac{\mathbf{z}_{Tr}^\top \mathbf{z}_{Tt}}{\|\mathbf{z}_{Tr}\|\|\mathbf{z}_{Tt}\|}\right)$$ 以 $\mathbf{z}_{T\alpha}$ 为起点, 使用由 $\Delta\theta_{\alpha}$ 调整过的噪声预测网络 $\epsilon_{\theta + \Delta\theta_{\alpha}}$ 执行DDIM去噪采样, 最终生成过渡图像 $I_v^{\alpha}$. 通过均匀采样多个 $\alpha$ 值即可生成平滑的序列.

相较于追求视觉质量的原始DiffMorpher, DBST移除了不必要的精炼模块, 虽然效果稍差, 但对于模型训练 (而非视觉效果) 已经足够.

几何对齐

尽管DBST解决了语义过渡, 序列中仍可能存在不自然的几何突变. TTGA模块通过仅使用一张参考图像对SAM2图像编码器进行轻量级微调, 来使提取的原型向量对几何变化更鲁棒. 论文探索了两种一致性策略: 增强循环一致性 (ACC) 和 增强双向一致性 (ABC), 其中ACC被证明更为有效.

算法SAM-TTGA 输入 > 参考图像 $I_r$ 及其掩码 $M_r$. 输出 > 微调后的图像编码器, 可产生鲁棒的原型向量 $\bm{p}_r$. 对 $I_r$ 施加一个强的几何/色彩变换 $T$, 得到增强图像 $I_r^{\text{aug}}$. 对 $M_r$ 施加相同的变换, 得到真实增强掩码 $M_r^{\text{aug}}$. 从特征图 $F_r \in \mathbb{R}^{H \times W \times D}$ 和掩码 $M_r \in \mathbb{R}^{H \times W}$ 利用掩码平均池化提取原型向量 $\bm{p}_r \in \mathbb{R}^{D}$: $$\bm{p}_r = \text{MAP}(F_r, M_r) = \frac{\sum_{(u,v)} M_r(u,v) F_r(u,v)}{\sum_{(u,v)} M_r(u,v)}$$ 计算原型向量与特征图 $F_\text{aug}$ 上每一个位置的向量之间的余弦相似度: $$S^{\text{aug}}_r(u,v) = \frac{\bm{p}_r^\top F_r^{\text{aug}}(u,v)}{\|\bm{p}_r\|\|F_r^{\text{aug}}(u,v)\|}$$ 用 $\bm{p}_r$ 分割 $I_r^{\text{aug}}$ 得到预测 $\hat{M}_r^{\text{aug}}$. 计算 $\mathcal{L}_{\text{aug}} = \text{BCE}(\text{sigmoid}(S^{\text{aug}}_r), M_r^{\text{aug}})$. 此损失目的是让原型向量能适应几何变化, 或者最好有几何不变性. 使用上一步预测的伪标签 $\hat{M}_r^{\text{aug}}$ (此为 ACC 策略, 在 ABC 策略中是真实标签 $M_r^{\text{aug}}$) 计算一个新的增强原型向量 $\hat{\bm{p}}^{\text{aug}}_r = \text{MAP}(F_r^{\text{aug}}, \hat{M}_r^{\text{aug}})$. 用 $\hat{\bm{p}}^{\text{aug}}_r$ 分割原始图像 $I_r$, 得到预测 $\hat{M}_r$, 计算循环损失 $\mathcal{L}_{\text{cyc}} = \text{BCE}(\text{sigmoid}(S_r), M_r)$. 计算总损失: $$\mathcal{L} = \mathcal{L}_{\text{aug}} + \mathcal{L}_{\text{cyc}}$$ 利用反向传播更新, 注意仅微调 SAM2 图像编码器的 FPN 层参数, ViT 主干网络被冻结, 保证了轻量性.

WorMI

论文 [] Unknown-material 介绍了一个针对具身智能体的 世界模型植入的测试时自适应 (World Model Implanting for Test-time Adaptation, WorMI) 框架. 核心创新在于将 LLM 的通用推理能力与多个轻量级的领域特定世界模型（World Model）进行动态组合, 而无需重新训练主干模型, 即可实现更好的零样本和少样本跨领域适应能力.

模型检索

对于输入, 需要在知识体系找到其相关的模型. 直接用所有世界模型显然计算量过大, 这里论文选取一部分原型再做搜索.

算法WorMI-原型检索 输入 > 当前观测状态 $s_t$, 预训练的世界模型池 $\{M_1, ..., M_N\}$ 及其对应数据集 $\{\mathcal{D}_1, ..., \mathcal{D}_N\}$. 输出 > 最相关的 K 个世界模型子集 $\mathbf{M}_{\text{ret}}$. 对于每个世界模型 $M_j$ 的数据集 $\mathcal{D}_j$, 使用对象检测模型 $\Phi_{\text{D}}$ 和嵌入模型 $\Phi_{\text{E}}$ 提取所有物体级状态的嵌入, 构成嵌入集 $\mathcal{E}_j$. 对每个嵌入 $\mathcal{E}_j$ 采用 k-center 聚类算法, 寻找到一组原型 $\mathbf{p}_j$, 使得其余点到这些点最短距离的最大值最小化. 这组原型代表了所有世界模型的核心知识. 对于当前状态 $s_t$, 同样提取其物体级状态嵌入并聚类得到原型 $\mathbf{p}$. 计算当前原型 $\mathbf{p}$ 与每个世界模型原型 $\mathbf{p}_j$ 之间的 Wasserstein 距离 $\delta(\mathbf{p}_j, \mathbf{p})$. 选择距离最小的前 K 个模型作为检索结果. $$ \mathbf{M}_{\text{ret}} = \left\{ M_j \ \middle|\ j \in \text{TopK}\left(\{-\delta(\mathbf{p}_j, \mathbf{p})\}_{j=1}^N,\ K\right) \right\} $$

该方法在数学上被证明是有效的, 原型集之间的距离 $\delta(\mathbf{p}_i, \mathbf{p}_j)$ 是完整数据集距离 $\delta(\mathcal{E}_i, \mathcal{E}_j)$ 的一个有界近似.

集成对齐

检索到模型后, 需要将其知识融合进智能体的决策策略中. WorMI 设计了一个层次化的复合注意力机制来实现深度集成与对齐.

算法WorMI-复合注意力 输入 > LLM 第 $j$ 层的输出 $l_{\pi_R}$, 检索到的 $K$ 个世界模型的中间层输出 $\{l_{M_1}, ..., l_{M_K}\}$. 输出 > 一个用于增强推理模型表示的修正向量, 将被加回其下一层的输入. 首先将每个世界模型的输出 $l_{M_j}$ 通过一个可学习的线性层 $L_{\theta}$, 将其投影到与推理模型相同的维度空间: $\hat{l}_{M_j} = L_{\theta}(l_{M_j})$. 先做世界级交叉注意力 (集成). 以推理模型的表示 $l_{\pi_R}$ 作为 Query, 以所有投影后的世界模型输出 $[\hat{l}_{M_1}; ...; \hat{l}_{M_K}]$ 作为 Key 和 Value. 通过交叉注意力, 输出表示, 自动加权融合了各模型最相关的部分. 再做推理级交叉注意力 (对齐). 仍以推理模型的表示 $l_{\pi_R}$ 作为 Query, 以所有世界模型输出的总和 $[\hat{l}_{M_1} + ... + \hat{l}_{M_K}]$ 作为 Key, 提供一个全局信号, 以世界级注意力的集成后的知识作为 Value. 通过交叉注意力, 最终输出即为复合注意力的结果 $C_{\theta}(\cdot)$, 包含了与当前推理步骤最相关的, 已对齐的领域知识.

在预训练阶段, 复合注意力模块 $C_{\theta}$ 的参数通过元学习进行训练, 使其获得一种通用的“如何集成”的能力, 从而能快速适应全新的世界模型组合.

内循环（适应）: 在每次元迭代中, 随机采样一个世界模型子集 $\mathbf{M}_j$ 及其数据 $\mathbf{D}_j$. 将元参数 $\theta$ 复制到任务参数 $\theta_j$, 并用 $\mathbf{D}_j$ 上的行为克隆损失对 $\theta_j$ 进行少量几步梯度更新, 使其学会集成当前这组特定模型.
外循环（元更新）: 将元参数 $\theta$ 朝着各个任务更新后的参数 $\theta_j$ 的平均方向进行更新: $$\theta \leftarrow \theta + \beta \cdot \frac{1}{m} \sum_{j=1}^{m} (\theta_j - \theta)$$ 这个过程迫使元参数 $\theta$ 成为一个优秀的初始化点, 能够快速适应任何新遇到的世界模型组合.

此外, 论文还指出了框架支持动态添加新的世界模型以提升性能, 也能通过移除模型来实现“遗忘”, 应对知识更新或隐私需求.

SMART-PC

论文 [] Unknown-material 提出了一个基于骨架表示的 3D 点云测试时训练 (TTT) 框架.

点云预处理

原始点云通常是无序且冗余的, 需要先对点云 Token 化, 为后续特征提取奠定基础.

算法SMART-PC-点云Token化 输入 > 原始 3D 点云 $P \in \mathbb{R}^{N \times 3}$ ($N$ 为总点数) , 采样中心点数量 $M$, 邻域点数 $K$. 输出 > 局部邻域张量 $P_{\text{local}} \in \mathbb{R}^{M \times K \times 3}$ (含全局结构与局部细节的 Token 化表示) . 从 $P$ 中均匀选取 $M$ 个中心点 $C$, 确保覆盖点云全局结构: $$C = \text{FPS}(P) \in \mathbb{R}^{M \times 3}, \quad M \ll N$$ FPS 算法通过迭代选择“与已选点距离最远”的点, 保证中心点分布均匀性. 对每个中心点 $c_i \in C$, 用 KNN 算法从 $P$ 中选取 $K$ 个邻近点, 构建该中心点的局部几何上下文, 形成局部邻域张量: $$P_{\text{local}} = \text{kNN}(C, P) \in \mathbb{R}^{M \times K \times 3}$$ 其中 $P_{\text{local}}[i] \in \mathbb{R}^{K \times 3}$ 对应第 $i$ 个中心点的局部邻域.

这样选取点, 既减少计算冗余, 又保留后续骨架预测所需的几何信息.

骨架预测与点云分类

SMART-PC 同时实现骨架和点云分类, 让分类任务复用骨架的抗腐蚀特征.

算法SMART-PC-双任务架构 输入 > Token 化局部邻域张量 $P_{\text{local}} \in \mathbb{R}^{M \times K \times 3}$, 特征维度 $d$, 类别数 $K_{cls}$. 输出 > 骨架参数 (骨架点 $c_s \in \mathbb{R}^{M \times 3}$、半径 $r \in \mathbb{R}^{M \times 1}$) , 分类概率 $p \in \mathbb{R}^{K_{cls}}$. 通过编码器 $E$ 处理 $P_{\text{local}}$, 提取融合全局结构与局部细节的基础特征: $$F_{\text{enc}} = E(P_{\text{local}}) \in \mathbb{R}^{M \times d}$$ 该特征为骨架分支与分类分支的共享输入, 确保特征一致性. 对于骨架分支, 解码器 $D$ 对 $F_{\text{enc}}$ 进行上下文增强, 生成更适配骨架预测的特征: $$F_{\text{dec}} = D(F_{\text{enc}}) \in \mathbb{R}^{M \times d}$$ 随后用两个独立 MLP 分别输出骨架参数 (球心和半径), 避免原始点云噪声干扰: $$c_s = \text{MLP}_s(F_{\text{dec}}) \in \mathbb{R}^{M \times 3}, \quad r = \text{MLP}_r(F_{\text{dec}}) \in \mathbb{R}^{M \times 1}$$ 对于分类分支, 将编码器基础特征与解码器骨架相关特征之和作为组合特征: $$F_\text{combined} = F_{\text{enc}} + F_{\text{dec}}$$ 随后通过归一化和 Dropout 的 MLP 分类头, 输出类别概率: $$p = Softmax(\text{MLP}_{cls}(F_\text{combined})) \in \mathbb{R}^{K_{cls}}$$

预训练

需要注意, 骨架分支是自监督的, 而分类分支是有监督的. 预训练阶段两者联合优化.

算法SMART-PC-预训练 输入 > 源数据集, 包含清洁点云 $P$, 类别标签 $y$. 输出 > 预训练完成的双任务模型, 包含编码器 $E$, 解码器 $D$, MLP 分支. 对于骨架分支, 考虑点-球损失 $\mathcal{L}_{\text{p2s}}$, 确保输入点与骨架球表面对齐, 双向约束几何一致性: $$\mathcal{L}_{\text{p2s}} = \sum_{p \in P} \left( \min_{s \in S} \|p - c_s\|_2 - r(c_s) \right) + \sum_{s \in S} \left( \min_{p \in P} \|c_s - p\|_2 - r(c_s) \right)$$ 其中 $S$ 为骨架球集合, $c_s$ 为骨架球中心, $r(c_s)$ 为半径. 还有采样损失 $\mathcal{L}_{\text{sampling}}$, 对齐骨架球表面采样点与输入点, 过滤高频噪声: $$\mathcal{L}_{\text{sampling}} = \sum_{p \in P} \min_{t \in T} \|p - t\|_2 + \sum_{t \in T} \min_{p \in P} \|t - p\|_2$$ 其中 $T$ 为骨架球表面均匀采样点集. 还有半径正则损失 $\mathcal{L}_{\text{radius}}$, 避免噪声导致的骨架球过小: $$\mathcal{L}_{\text{radius}} = -\sum_{s \in S} r(c_s)$$ 对于分类分支, 用交叉熵损失优化分类精度: $$L_{cls} = -\frac{1}{B} \sum_{i=1}^B \sum_{k=1}^{K_{cls}} y_{ik} \log(\hat{y}_{ik})$$ 其中 $B$ 为批次大小, $y_{ik}$ 为真实标签, $\hat{y}_{ik}$ 为预测概率. 计算总损失: $$L_{total} = L_{skel} + L_{cls} = \mathcal{L}_{\text{p2s}} + \lambda_1 \mathcal{L}_{\text{sampling}} + \lambda_2 \mathcal{L}_{\text{radius}} + L_{cls}$$ 通过反向传播和优化器更新模型参数, 直至收敛.

测试时适应

针对不同应用场景, SMART-PC 设计了两种 TTA 模式, 兼顾实时性与精度, 在一般情形下仅需轻量式的 TTA.

算法SMART-PC-TTA 输入 > 测试集 (腐蚀点云 $P_{\text{test}}$), 预训练模型. 输出 > 适应后模型, 分类结果 $p_{\text{test}}$. 对于实时场景, 采用在线适应的方式: 仅在切换腐蚀类型时重置模型, 批次间保留状态, 累积适应信息. 默认仅更新 BatchNorm 层的 $\mu$ 和 $\sigma$ 若需进一步提升精度, 可同步更新所有参数, 优化目标为预训练的 $L_{skel}$, 不过对比实验表明仅更新 BN 已足够. 对于独立批次场景, 采用标准适应的方式: 每个测试批次结束后重置模型, 批次间独立适应, 不累积信息. 由于单批次统计量不足以支撑适配, 需通过 $L_{skel}$ 优化所有参数, 确保每个独立批次的分类精度.

论文阅读 - 运动结构恢复

Wed, 09 Jul 2025 00:00:00 +0000

3D 重建主要指估计一组图像中场景的 3D 属性的问题.

通常的 运动结构恢复 (Structure from Motion, SfM) 问题是给定一组图像, 恢复相机的姿态和场景的 3D 点云. 一般步骤如下:

特征匹配: 通过在两幅或多幅图像中找到相同的特征点 (例如, 使用 SIFT 或 ORB 算法), 确定这些特征点的匹配关系.
相机位姿估计: 使用两个或更多的图像及其对应的特征点, 估计相机的外参 (即相机位置和朝向). 这里一般有增量式 (从两幅图像开始, 逐步添加更多图像) 和全局式 (一次性处理所有图像) 两类方法.
三角化: 用于恢复三维点的位置. 基本原理是通过已知的相机视角和匹配点的位置, 利用几何约束来计算三维点的空间坐标. 常见的方法是直接线性变换 (Direct Linear Transform, DLT) 或基于光束平差法 (Bundle Adjustment, BA) 的非线性优化方法.
三维点恢复: 通过三角化得到的三维点通常会是一个稀疏点云, 代表了场景中关键特征的空间位置. 对于每个匹配的特征点, 三角化将其映射到三维空间中的位置.

介绍几个 3D CV 概念.

定义 相机的 投影矩阵 (Projection Matrix) $P_i \in \mathbb{R}^{3 \times 4}$ 用于将 3D 点投影到 2D 图像平面, 包含 外参 $g_i \in \mathbb{SE}(3)$ 和 内参 $K_i \in \mathbb{R}^{3 \times 3}$. $$ g = \begin{bmatrix} R & t \\ 0 & 1 \end{bmatrix}, \quad K = \begin{bmatrix} f & 0 & p_x \\ 0 & f & p_y \\ 0 & 0 & 1 \end{bmatrix} $$ 其中 $R$ 是旋转阵, $t$ 是平移量, $f$ 是焦距, $(p_x, p_y)$ 是主点坐标, 一般取图像中心.

定义 两个相机之间的 本质矩阵 (Essential Matrix) $E \in \mathbb{R}^{3 \times 3}$ 用于关联两幅图像中 归一化相机坐标 的对应点 $x_1, x_2 \in \mathbb{R}^3$: $$ x_2^T E x_1 = 0 $$其中 $x_1, x_2$ 是归一化的相机坐标, 即 $x_i = K_i^{-1} p_i$, $p_i$ 是图像平面上的点坐标.

可以证明本质矩阵 $E = t \times R$, 其奇异值满足 $\sigma_1 = \sigma_2 \gt 0, \sigma_3 = 0$, 其自由度是 $5$, 需要注意求解本质矩阵需要事先知道两个相机的内参, 最常用的方法是八点算法 (Eight-Point Algorithm).

定义 两个相机之间的 基础矩阵 (Fundamental Matrix) $F \in \mathbb{R}^{3 \times 3}$ 用于关联两幅图像中 像素坐标 的对应点 $p_1, p_2 \in \mathbb{R}^2$: $$ p_2^T F p_1 = 0 $$

基础矩阵隐含了内参的不确定性, 因此其自由度是 $7$. 求解基础矩阵不需要知道相机的内参, 但需要知道点的对应关系.

COLMAP (CVPR 2016)

COLMAP 是一个开山级别的开源的 SfM 框架, 由 Johannes L. Schönberger 和 Jan-Michael Frahm 在 2016 年提出 [] Unknown-material . 它提供了一个完整的增量式 SfM 流程, 包括特征提取、匹配、相机姿态估计、三角化和稠密重建等步骤.

COLMAP 没有改变 SfM 的流程, 但它引入了几个大量的优化来应对 SfM 常见的挑战.

场景图增强

在特征匹配时, 每次要选取一对图片, COLMAP 针对图像选取做了改进.

算法COLMAP-图像选取 输入 > 一组图像对. 输出 > 筛选出的图像对. 首先估计一对图像的 基础矩阵. 如果找到的内点数 $\ge N_F$, 就认为这对图像在几何上是验证通过的. 然后估计 单应矩阵, 并统计其内点数 $N_H$. 如果比例 $N_H/N_F < \epsilon_{HF}$, 则判定为一般场景下的运动相机, 而不是退化的纯旋转或平面情况. 如果相机已标定, 还会估计 本质矩阵, 并统计内点数 $N_E$. 若比例 $N_E/N_F > \epsilon_{EF}$, 说明相机内参标定是正确的. 在满足如上条件时, 分解本质矩阵, 通过内点对应三角化点, 并计算三角化角度 $\alpha_m$, 以此区分是纯旋转还是平面场景. 互联网照片中可能由于水印、时间戳等等导致伪匹配 (WTF), 此时通过估计相似变换并检测是否集中在图像边缘来识别. 如果边缘内点比例超过阈值, 则认为是 WTF 匹配, 将其剔除.

需要注意, 筛选完后在场景图中标注其模型类型, 并保留支持度最高的模型的内点 (即 $N_H/N_E/N_F$) 信息.

下一个最佳视角选择

既然是增量式的, 每次都要加一张新的图像, 选取非常重要, 因为每一次决策都会影响剩下的整个重建过程. 一种常见的策略是选择能看到最多已三角化点的图像. 不过 COLMAP 还考虑了这些点分布的均匀性.

首先将图像划分为网格, 每个格子都是空的. 当某个三维点 第一次 落入一个空格子时，该格子变为满，并增加该图像的得分 $S_i$. 显然这种方法更倾向于选择分布均匀的图像.

点太少时可能无法反映分布情况. 此时扩展为一个多分辨率金字塔, 在不同分辨率下重复划分并加权累积得分, 以求结果更稳健.

鲁棒高效三角化

怎么在大量外点中找到轨迹是难题之一, COLMAP 把此建模为 RANSAC 问题.

算法COLMAP-三角化 输入 > 特征轨迹 $T = \{T_n \mid n = 1, \cdots, N_T \}$, 每个观测 $T_n$ 包含归一化图像点 $\bar{x}_n \in \mathbb{R}^2$ 和相机为位姿 $P_n \in SE(3)$. 输出 > 轨迹中找到一个最大的一致集, 符合两个视图三角化结果. 随机选择两观测 $(a,b)$, 得到三角化点 $X_{ab} \sim \tau \left( \bar{x}_a, \bar{x}_b, P_a, P_b \right)$, 特别地这里用 DLT 进行两视图三角化. 检查约束条件: 三角化角度必须大于 $\alpha$, 深度均为正, 且重投影误差小于 $t$. 将满足条件的观测放在一致集中. 用 RANSAC 迭代最大化一致集规模. 找到一个一致集后, 把它从轨迹中剔除. 随后递归, 直到再找一致集规模 <3 为止.

光束平差

传统的 BA 方法计算代价高, 且对外点敏感. 因此 COLMAP 做了如下优化:

在每次注册新图像后, 只对与该图像共享点的相机进行局部 BA, 避免在模型过大时频繁运行全局优化. 然后在适当的时机触发一次全局 BA，以消除累积误差.
在 BA 之后，重新进行三角化与外点检测. 先前因基线过小无法可靠三角化的点, 可能在新的相机加入后变得可观测, 这时就可以重新三角化. 若发现某些点重投影误差大于阈值, 就把它们从结构里移除.

冗余视角挖掘

互联网数据集有大量冗余照片, 没有显著提升, 但是却增加了 BA 计算成本. 然而 COLMAP 不是丢弃冗余图像, 而是将它们转化为低代价的约束.

对于给定的 $N_X$ 个点, 每张图可以用0-1可见向量 $v_i$ 表示. $a,b$ 之间的相似度可写为 $$V_{ab} = \| v_a \wedge v_b \| / \| v_a \vee v_b \|$$
在更新时, 如果图像是新添加的, 或者超过 $\epsilon_r$ 比例的观测值的重投影误差大于 $r$ 像素, 则认为它是受到影响的.
对于被影响的图像独立分组, 以便进行单独优化.
把未受影响的图像, 我们要划分为若干个组 $\mathcal{G}=\{ G_1, G_2, \ldots, G_k \}$, $G_i$ 中高度冗余, 把它们参数化为以一个单一的相机.
为此, 首先按照 $\|v_i\|$ 降序排列成 $\bar{I}$. 移除$\bar{I}$ 中第一个图像 $I_a$, 来找 $I_b$ 使得 $V_{ab}$ 最大.
如果 $V_{ab} > V$ 且 $|G_r| < S$, 则将图像 $I_b$ 从 \bar{I} 中移除并添加到组 $G_r$ 中, 否则创建一个新组, 如此往复.

DUSt3R (CVPR 2024)

论文 [] Unknown-material 提出了一个新的 密集无约束立体 3D 重建 (Dense and Unconstrained Stereo 3D Reconstruction, DUSt3R) 模型, 该模型基于视觉几何学的原理, 通过深度学习方法简化了 3D 重建任务.

算法DUSt3R 输入 > 2 张 RGB 图像 $I^1, I^2 \in \mathbb{R}^{W \times H \times 3}$. 输出 > 对应的点图 $X^{1,1}, X^{2,1} \in \mathbb{R}^{W \times H \times 3}$ 和关联的置信度 $C^{1,1}, C^{2,1} \in \mathbb{R}^{W \times H}$. $X^{n,m}$ 表示相机 $n$ 的点图 $X^n$ 在相机 $m$ 的坐标系下的表示: $$ X^{n,m} = P_m P_n^{-1} h(X^n) $$其中 $P_n$ 是相机 $n$ 的投影矩阵, $h: (x,y,z) \to (x,y,z,1)$ 是齐次坐标变换. 也就是说二者都以相同的坐标系 $I_1$ 为参考. 两个输入图像首先通过共享权重的 Siamese ViT 编码器 进行编码, 生成两个 token 表示 $F^1, F^2$. $$ F^1 = \text{Encode}(I^1), \quad F^2 = \text{Encode}(I^2) $$ 在解码器联合推理. 每个解码器块会依次执行自我注意力和交叉注意力, 最后过传递给 MLP: $$ G_i^1 = \text{Decode}_i^1 \left(G_{i-1}^1, G_{i-1}^2 \right), \quad G_i^2 = \text{Decode}_i^2 \left(G_{i-1}^2, G_{i-1}^1 \right) $$ 最后用一个单独的回归头接受所有 token 并输出预测的点图和置信度: $$ X^{1,1}, C^{1,1} = \text{Head}^1 \left(G_0^1, \dots, G_B^1 \right), \quad X^{2,1}, C^{2,1} = \text{Head}^2 \left(G_0^2, \dots, G_B^2 \right) $$ 对于视图 $v \in \{1,2\}$ 和像素点 $i$, 其 3D 回归损失定义为: $$ \ell_{\mathrm{regr}}(v,i) = \left\| \frac{1}{z} X_i^{v,1} - \frac{1}{\bar{z}} \bar{X}_i^{v,1} \right\| $$ $z$ 用于归一化. 置信度损失定义为 3D 回归损失的加权平均: $$ \mathcal{L}_{\mathrm{conf}} = \sum_{v=1}^2 \sum_{i=1}^N C_i^{v,1} \ell_{\mathrm{regr}}(v,i) - \alpha \log C_i^{v,1} $$

然而, 这个网络每次只能处理一对图像. 因而论文 [] 引入一种后处理优化方法, 给定一组 $\{I^n\}_{n=1}^N$ 图像, 以图像为顶点建图, 连边表示共享一些内容, 可以通过置信度来计算二者的重叠, 然后过滤掉低置信度的配对.

现在如果要恢复所有相机的点图 $\{ \mathcal{X}^n \in \mathbb{R}^{W \times H \times 3} \}_{n=1}^N$, 则可以求解如下优化问题:

$$ \chi^* = \arg\min_{\chi, P, \sigma} \sum_{e=(n,m) \in \mathcal{E}} \sum_{v \in \{n,m\}} \sum_{i=1}^{HW} C_i^{v,n} \left\| \chi_i^v - \sigma_e P_e X_i^{v,n} \right\|. $$

$\sigma_e \gt 0$ 是缩放, $P_e \in \mathbb{R}^{3 \times 4}$ 是姿态. 为避免 $\sigma_e=0$ 的平凡解, 要求 $\prod_{e} \sigma_e = 1$.

MASt3R (ECCV 2024)

论文 [] Unknown-material 指出 DUSt3R 匹配精度较低, 因而基于其提出了一个新的 匹配和立体 3D 重建 (Matching And Stereo 3D Reconstruction, MASt3R) 模型.

相较于 DUSt3R, MASt3R 主要更关心点匹配, 做了以下改进:

除了预测点图和置信度, 还加上额外两个头输出密集特征: $$ D^1 = \text{Head}^1_D(G_0^1, \dots, G_B^1), \quad D^2 = \text{Head}^2_D \left(G_0^2, \dots, G_B^2 \right) $$
对于真实对应的点 $\hat{\mathcal{M}}=\{(i,j) \mid \hat{X}_i^{1,1} = \hat{X}_j^{2,1}\}$, 计算匹配损失 (实质上是匹配的交叉熵损失): $$ \mathcal{L}_{\mathrm{match}} =- \sum_{(i,j) \in \hat{\mathcal{M}}} \log \frac{s_\tau(i,j)}{\sum_k s_\tau(k,j)} + \log \frac{s_\tau(i,j)}{\sum_k s_\tau(i,k)} $$ 这里 $s_\tau(i,j) = \exp\left( -\tau D_i^1 \cdot D_j^2 \right)$ 是点 $i$ 和 $j$ 的相似度, $\tau$ 是温度参数. 然你与置信度损失加权结合: $$ \mathcal{L}_{\mathrm{total}} = \mathcal{L}_{\mathrm{conf}} + \beta \mathcal{L}_{\mathrm{match}} $$
匹配两点的算法是让二者互为彼此的最近邻. 即: $$ \mathcal{M} = \{(i,j) \mid j = \argmin_{k} \|D_i^1 - D_k^2\|, i = \argmin_{k} \|D_j^2 - D_k^1\|\} $$ 直接枚举匹配的复杂度是 $\mathcal{O}(W^2H^2)$. 论文采用了一种迭代的策略, 即对每个点每次在图中找最近邻再映射到另一个图中, 直到收敛. 这样复杂度是 $\mathcal{O}(kWH)$.

对于更高分辨率的图像, 论文 [] 采用从粗到细匹配的策略.

算法MASt3R 高分辨率 输入 > 两张高分辨率 RGB 图像 $I_1, I_2 \in \mathbb{R}^{3 \times H \times W}$. 输出 > 对应的点图 $X^{1,1}, X^{2,1} \in \mathbb{R}^{W \times H \times 3}$ 和关联的置信度 $C^{1,1}, C^{2,1} \in \mathbb{R}^{W \times H}$. 做粗匹配, 下采样到适合匹配的分辨率 (512), 得到对应点集 $M_k^0$, $k$ 是下采样的数量. 对两个图像分别生成重叠的窗口裁剪 $W_1, W_2$, 每个窗口裁剪的最大维度固定为 512 像素, 并且相邻窗口之间有 50% 的重叠区域. 按照贪心算法枚举窗口对 $(w_1, w_2) \in W_1 \times W_2$, 使得覆盖 $M_k^0$ 的 90% 点对为止. 做细匹配, 对找出的每个窗口对用 MASt3R, 在局部图内找更精确的对应点. 把每个窗口的结果映射回原始坐标系, 并合并得到结果.

GLOMAP (ECCV 2024)

论文 [] Unknown-material 提出了一个全局的 SfM 方法, 直接进行联合全局三角化和相机位置估计. 问题建模为优化:

$$ \argmin_{X,c,d} \sum_{i,k} \rho \left( \|v_{ik} - d_{ik} (X_k-c_i) \| \right) $$

其中 $v_{ik}$ 是从相机 $c_i$ 观察点 $X_k$ 的全局旋转相机射线 (?? 应该是在图像中能计算得到的, 且要做归一化), $\rho$ 是 Huber 函数用于保持鲁棒性, 优化用 LM 优化器. 论文提出这个误差有界, 因此对噪声数据不敏感.

在处理图像时, 为保证图像相关性, 先做相机聚类:

计算每对图像可见点的数量, 构图为 $G$, 丢弃计数少于 $5$ 的图像对.
使用剩余图像对的中位数来设置内点阈值 $\tau$.
连接计数超过 $\tau$ 的图像对, 在 $G$ 中寻找连通分量来找到相机的良好约束群集.
递归地重复此过程, 每个连通分量作为单独的重建输出.

VGGSfM (CVPR 2024)

论文 [] Unknown-material 基于常用的 SfM 框架, 提出了一个新的可以进行端到端训练的 视觉几何基础运动恢复结构 (Visual Geometry Grounded Structure from Motion) 模型.

算法VGGSfM 追踪器 输入 > 观察同一 3D 场景的 RGB 图像序列 $(I_i)_{i=1}^{N_I}, I_i \in \mathbb{R}^{3 \times H \times W}$, 给定的查询点 $y_i$. 输出 > 该点在图像 $I_j$ 的轨迹 $y_i^j$ 以及可见性 $v_i^j$. 先做特征提取, 用 4 个不同大小的 CNN 来计算帧 $I_i$ 的特征子图 $\{F_i^k\}_{k=1}^4$, 然后用双线性插值把它们上采样到相同大小, 随后拼接再卷积得到特征图 $F_i$. 对 $F_i$ 降采样 (每次做一次池化), 得到不同尺度下的特征张量金字塔. 将查询点扩展到所有帧中, 初始坐标都设为相同. 使用双线性采样从第一帧 (参考帧) 提取查询点的特征, 所有帧的初始特征都设为这个初始特征. 对每一个金字塔层级, 构造以每个查询点为中心的局部窗口, 并使用双线性插值采样局部特征, 随后与参考特征做内积衡量相似度, 得出相关性特征. 计算每个点相对于参考帧的相对位置 (即运动), 得出相对偏移编码特征. 把跟踪特征, 相对偏移编码特征和相关性特征拼接, 作为 Transformer 的输入. 通过 Transformer 更新坐标和特征, 直至收敛. 利用得到的追踪特征 $y_i^j$ 预测点的可见性 $v_i^j$. 同时引入 aleatoric 不确定性模型 来预测 $y_i^j$ 的方差 $\sigma_i^j$ (或者置信度), 我们假设 $\sigma_i^j$ 是对角的.

算法VGGSfM 输入 > 观察同一 3D 场景的 RGB 图像序列 $(I_i)_{i=1}^{N_I}, I_i \in \mathbb{R}^{3 \times H \times W}$. 输出 > 模型需要输出以下几点: 相机投影矩阵 $P_i \in \mathbb{R}^{3 \times 4}$. 点云 $X=\{x^i\}_{i=1}^M$, 其中 $x^i \in \mathbb{R}^3$ 是场景中每个点的三维坐标. 即此时对于 3D 点 $x^j$, 其在第 $i$ 个相机的 2D 投影为: $$ y_i^j = P_i (x^j) = \lambda K_i g_i x^j $$ 利用追踪器获得轨迹 $\mathcal{T} = \{T_i\}_{i=1}^{N_I}$, 其中 $T_i = \{y_i^j\}_{j=1}^{N_T}$ 是第 $i$ 个图像中查询点的轨迹, $N_T$ 是查询点的数量. 为了初始化相机 $\hat{P}$, 采用一个深度 Transformer 网络 $\mathbf{T}_P$: $$ \hat{P} = \mathbf{T}_{P}(\{\phi(I_i) \mid I_i \in \mathcal{I}\}, \{d^P(y_i^j) \mid \forall T_i \in \mathcal{T}, \forall y_i^j \in T_i\}). $$ $\phi(I_i)$ 表示 $I_i$ 的特征, $d^P(y_i^j)$ 表示在 $y_i^j$ 处的描述符. 把全局图像特征作为 query, 把每个查询点的轨迹-描述符对作为 key-value 对, 这时每个场景有 $N_T$ 个 token. 把交叉注意力的输出拼接上估计的初始相机位置 (例如八点算法) 作为相机参数 Transformer 网络的输入. 为了初始化点云 $\hat{X}$, 在给定初始相机 $\hat{P}$ 后, 采用一个深度 Transformer 网络作为三角化器: $$ \hat{X} = \mathbf{T}_{X}(\{d^X(y_i^j) \mid \forall T_i \in \mathcal{T}, \forall y_i^j \in T_i\}). $$ $d^P(y_i^j)$ 表示在 $y_i^j$ 处的描述符和其在初始点云 $\bar{X}$ 中位置编码的拼接. $\bar{X}$ 是通过闭式多视图 DLT 三角化得到的. 在轨迹 $\mathcal{T}$, 初始化的相机 $\hat{P}$ 和点云 $\hat{X}$ 的基础上, 利用光束法平差最小化重投影误差: $$ X, P = \mathrm{BA}(\mathcal{T}, \hat{P}, \hat{X}) = \argmin_{X, P} \sum_{i=1}^{N_I} \sum_{j=1}^{N_T} v_i^j \| y_i^j - P_i x^j \| $$ 为了稳定, 误差项会过滤 $v$ 低的, 置信度低的和重投影误差过大的点. 使用 Levenberg-Marquardt 优化器进行迭代优化. 然而反向传播需要此式可微, 因而论文引用 Theseus 库, 该库利用隐函数定理通过嵌套优化循环反向传播通过深度网络. 损失函数定义为: $$ \mathcal{L}(f_{\theta}(\mathcal{I}), p^\ast, \mathcal{T}^\ast, X^\ast) = \sum_{j=1}^{N_T} |x^{\ast j} - x^j| + |x^{\ast j} - \hat{x}^j| + \sum_{i=1}^{N_I} e_P (P_i^\ast, P_i) + e_P (P_i^\ast, \hat{P}_i) - \lambda \sum_{i=1}^{N_I} \sum_{j=1}^{N_T} \log \mathcal{N}(y_i^{\ast j} | y_i^j, \sigma_i^j) $$ $e_P(P, P')$ 指相机参数 $P, P'$ 之间的 Huber 损失. $P$ 有 8 个自由度, 因此这里参数化为一个 8 维向量. 用 AdamW 优化器优化模型, 直至收敛.

Dense-SfM (CVPR 2025)

VGGT (CVPR 2025)

论文 [] Unknown-material 提出了一个新的 视觉几何基础 Transformer ( Visual Geometry Grounded Transformer) 模型.

算法VGGT 输入 > 观察同一 3D 场景的 RGB 图像序列 $(I_i)_{i=1}^N, I_i \in \mathbb{R}^{3 \times H \times W}$. 输出 > 模型需要输出以下几点: 相机参数 $g_i = \left[q_i,t_i,f_i\right] \in \mathbb{R}^9$: 分别表示旋转四元数 $q_i \in \mathbb{R}^4$, 平移向量 $t_i \in \mathbb{R}^3$, 视场角 $f_i \in \mathbb{R}^2$. 深度图 $D_i \in \mathbb{R}^{H \times W}$: 为每个像素位置关联一个从该相机视角观察到的深度值. 点图 $P_i \in \mathbb{R}^{3 \times H \times W}$: 为每个像素关联其在场景中对应的三维空间点坐标. 这些 3D 点都在第一个相机的坐标系下表示, 因此是跨视图不变的. 轨迹特征 $T_i \in \mathbb{R}^{C \times H \times W}$: 给定一个固定的查询点 $y_q$, 输出其在所有图像 $I_i$ 的 2D 点 $y_i \in \mathbb{R}^2$ 轨迹 $\mathcal{J}(y_q) = (y_i)_{i=1}^N$. 需要注意, 并非直接输出轨迹, 而是为每个图像生成一个 $C$ 维的密集特征网格 $T_i$, 这些特征图随后被一个独立的追踪模块, 通过 $y_q$ 和 $T_i$ 用来计算任意点的对应关系和轨迹. 采用 DINO 把图像 $I_k$ 划分成 $K$ 个 token 的 patches $t^I_k \in \mathbb{R}^{K \times C}$. 所有视图 patches 之并 $t^I$ 作为网络的输入. 转换成 token $t_i^I$ 后, 再拼接上一个额外的相机 token $t_i^g$ 和四个寄存器 token $t_i^R$ , 每个相机和寄存器的 token 是逐帧的, 然后把得到的结果传递给网络. 骨干网络为一个大型 Transformer 模型. 在 Transformer 中采用帧间注意力 (针对 $t_k^I$) 和全局注意力 (针对 $t^I$) 机制交替进行, 称为交替注意力机制 (Alternating-Attention, AA). 网络输出的结果舍弃寄存器 $\hat{t}_i^R$, 其余的 $\hat{t}_i^I$ 和 $\hat{t}_i^g$ 用于预测. 通过一个四个额外的自注意力层和线性层把 $\hat{t}_i^g$ 转换成 $\hat{g}_i$ 以预测相机参数. 把 $\hat{t}_i^I$ 通过 DPT 层 转换为密集特征图 $F_i \in \mathbb{R}^{C'' \times H \times W}$. 每个 $F_i$ 通过一个 $3\times 3$ 卷积层映射到相应的深度图 $D_i$ 和点图 $P_i$. 并为每个深度图和点图预测 aleatoric 不确定性 $\Sigma_i^D$ 和 $\Sigma_i^P$ . 从 $F_i$ 中提取 $T_i \in \mathbb{R}^{C \times H \times W}$, 并采用 CoTracker2 架构作为追踪轨迹模块 . 该模块接收查询点 $y_q$ 和特征图 $F_i$, 输出每个图像 $I_i$ 中查询点的 2D 位置 $\hat{y}_{j,i}$, 其中 $j$ 是查询点的索引. 使用 Huber 损失得出相机损失: $$ \mathcal{L}_{\mathrm{cam}} = \sum_{i=1}^N \left\| \hat{g}_i - g_i \right\|_{\epsilon} $$ 根据 aleatoric 不确定性, 加入梯度, 得出深度损失和点图损失: $$ \begin{aligned} \mathcal{L}_{\mathrm{depth}} &= \sum_{i=1}^N \left\| \Sigma_i^D \odot \left( \hat{D}_i - D_i \right) \right\| + \sum_{i=1}^N \left\| \Sigma_i^D \odot \left( \nabla \hat{D}_i - \nabla D_i \right) \right\| - \alpha \log \Sigma_i^D \\ \mathcal{L}_{\mathrm{point}} &= \sum_{i=1}^N \left\| \Sigma_i^P \odot \left( \hat{P}_i - P_i \right) \right\| + \sum_{i=1}^N \left\| \Sigma_i^P \odot \left( \nabla \hat{P}_i - \nabla P_i \right) \right\| - \alpha \log \Sigma_i^P \end{aligned} $$ 轨迹损失定义为: $$ \mathcal{L}_{\mathrm{track}} = \sum_{j=1}^M \sum_{i=1}^N \| y_{j,i} - \hat{y}_{j,i} \| $$ 最终的损失函数为: $$ \mathcal{L} = \mathcal{L}_{\mathrm{cam}} + \mathcal{L}_{\mathrm{depth}} + \mathcal{L}_{\mathrm{point}} + \lambda \mathcal{L}_{\mathrm{track}} $$ $\lambda$ 论文取 $0.05$. 用 AdamW 优化器优化模型, 直至收敛.

Spatial-MLLM

大多数现有的 MLLM 在其视觉编码器的预训练中主要使用图像-文本对, 遵循了 CLIP的范式. 这使得视觉编码器在捕捉高层语义内容方面表现出色, 但在仅使用 2D 视频输入时缺乏结构和空间信息. 因此, 论文 [] Unknown-material 提出了一个新的 空间 MLLM (Spatial-MLLM) 模型, 旨在通过引入空间感知能力来增强 MLLM 的视觉理解和推理能力.

算法Spatial-MLLM 输入 > 一段视频序列 $\{f_i\}_{i=1}^{N_k}$. 输出 > 给下游 LLM 的 token 序列. 引入 2D 编码器 $\mathcal{E}_{\mathrm{2D}}$, 采用 Qwen2.5-VL 相同设计, 将输入帧编码为语义丰富的特征: $$ \mathbf{e}_{\mathrm{2D}} = \mathcal{E}_{\mathrm{2D}}\left(\{\mathbf{f}_i\}_{i=1}^{N_k}\right) \in \mathbb{R}^{N_k' \times \left\lfloor \frac{H}{p_{\mathrm{2D}}} \right\rfloor \times \left\lfloor \frac{W}{p_{\mathrm{2D}}} \right\rfloor \times d_{\mathrm{2D}}} $$ 其中 $p_{\mathrm{2D}}$ 是 2D 编码器的 patch 大小, $d_{\mathrm{2D}}$ 是输出特征的维度, 连续的两帧被分组作为视频输入, 因此 $N_k'=N_k/2$. 引入空间编码器 $\mathcal{E}_{\mathrm{spatial}}$, 采用 VGGT 的特征骨干网络. $$ \mathbf{e}_{\mathrm{3D}}, \mathbf{e}_c, \mathbf{e}_{\text{register}} = \mathcal{E}_{\text{spatial}}\left(\{\mathbf{f}_i\}_{i=1}^{N_k}\right), \quad \mathbf{e}_{\mathrm{3D}} \in \mathbb{R}^{N_k \times \left\lfloor \frac{H}{p_{\mathrm{3D}}} \right\rfloor \times \left\lfloor \frac{W}{p_{\mathrm{3D}}} \right\rfloor \times d_{\mathrm{3D}}} $$ 其中 $e_{\mathrm{3D}}$ 是空间特征, $e_c$ 是相机特征, $e_{\text{register}}$ 是寄存器 token. 在空间和时间维度上对齐 $e_{\mathrm{2D}}$ 和 $e_{\mathrm{3D}}$: $$ \mathbf{e}_{3\mathrm{D}}' = \text{Rearrange}(\mathbf{e}_{3\mathrm{D}}), \quad \mathbf{e}_{3\mathrm{D}}' \in \mathbb{R}^{N_k' \times \left\lfloor \frac{H}{p_{2\mathrm{D}}} \right\rfloor \times \left\lfloor \frac{W}{p_{2\mathrm{D}}} \right\rfloor \times d_{3\mathrm{D}}'} $$ 使用两个简易的 MLP 把两个信息连接成统一的 token. $$ \mathbf{e} = \text{MLP}_{2\mathrm{D}}(\mathbf{e}_{2\mathrm{D}}) + \text{MLP}_{3\mathrm{D}}(\mathbf{e}_{3\mathrm{D}}') \in \mathbb{R}^{S \times d_{\mathrm{LLM}}} $$ 这里 $S = N_k' \times \left\lfloor \frac{H}{p_{2\mathrm{D}}} \right\rfloor \times \left\lfloor \frac{W}{p_{2\mathrm{D}}} \right\rfloor$ 是 token 长度.

由于显存限制, MLLM 只能处理场景视频序列中的一小部分帧. 关于帧采样广泛的做法是均匀帧采样, 论文设计了一个简单的空间感知帧采样策略.

算法Spatial-MLLM 帧采样 输入 > 一个场景视频 $\mathcal{V} = \{f_i\}_{i=1}^{N}$. 输出 > 选择其中的 $N_k$ 帧 $\{ f_i^k \}_{i=1}^{N_k}$ 使其尽可能多地覆盖场景. 均匀采样 $N_m$ 帧 $\{ f_i^m \}_{i=1}^{N_m}$, 其中 $N_m \in (N_k, N)$. 利用 $\mathcal{E}_{\mathrm{3D}}$ 提取对应 3D 特征 $\mathbf{e}^m_{3\mathrm{D}}$ 和相机特征 $\mathbf{e}^m_c$. 使用 VGGT 模型预训练的相机预测头 $f_c$ 和 $f_d$ 来解码一组相机参数和深度图: $$ \{\mathbf{E}_i^m, \mathbf{K}_i^m\}_{i=1}^{N_m} = f_c(\mathbf{e}_c), \quad \text{and} \quad \{\mathbf{D}_i^m\}_{i=1}^{N_m} = f_d(\mathbf{e}_{3\mathrm{D}}) $$ 由此的得到每个帧在场景中能覆盖的体素 $V(f_i^m)$, 因此转化为从中选取元素最大化覆盖 $\left| \cup_{i=1}^{N_k} V(f_i^k) \right|$ 问题. 特别地论文采用贪心策略加快速度.

显然, 在选取之后可以直接利用得到的 $\mathbf{e}_{\mathrm{3D}}$ 而无需重新计算.

在下游任务中, $\mathcal{E}_{\mathrm{2D}}$ 和 $\mathcal{E}_{\mathrm{3D}}$ 都是预训练好的, 参数冻结, 只训练 MLP 连接层和 LLM. 论文采用先 SFT 再 RL (GRPO) 的方式进行训练.