TTA on LeoDreamer

论文阅读 - 测试时自适应的应用

Fri, 12 Sep 2025 00:00:00 +0000

这里是几篇和测试时自适应 (Test-Time Adaptation, TTA) 技巧相关的论文.

CRISP

论文 [] Unknown-material 提出了 CRISP 框架, 用于类别无关的物体6D姿态与3D形状估计.

基础流程

CRISP 一支用于估计形状, 一支用于估计姿态, 最终通过一个优化器将两者结合.

算法CRISP-前向估计 输入 > 分割后的物体RGB图像 $\mathcal{I}$ 及其深度点云 $\bm{X}$. 输出 > 初始姿态估计 $(\bm{R}, \bm{t})$, 潜在形状编码 $\bm{h}$, 姿态归一化坐标 $\bm{Z}$. 形状估计支路: 使用一个基于 ViT (DINOv2) 的编码器从图像 $\mathcal{I}$ 中提取特征, 并回归出一个潜在形状编码 $\bm{h} = f_e(\mathcal{I})$. 一个 FiLM-conditioned 的 MLP 解码器 $f_d$ 根据 $\bm{h}$ 生成物体的 SDF. 姿态估计支路: 使用一个 DPT 网络 $\Phi$ 从图像 $\mathcal{I}$ 中为每个像素预测其在物体标准坐标系下的 3D 坐标, 得到姿态归一化坐标 $\bm{Z} = \Phi(\mathcal{I})$. 利用 Arun 方法直接求解 $\bm{z}_i = \bm{R}\bm{x}_i + \bm{t}$, 得到初始姿态估计 $(\bm{R}, \bm{t})$.

姿态与形状校正器

前向网络的预测在存在领域差异时可能不准. 校正器通过一个双层优化问题, 利用观测到的深度点云 $\bm{X}$ 来微调初始估计 $(\bm{Z}, \bm{h})$, 使其满足几何一致性.

算法CRISP-BCD 输入 > 初始估计 $\bm{Z}$, $\bm{h}$, 深度点云 $\bm{X}$. 输出 > 校正后的估计 $\hat{\bm{Z}}$, $\hat{\bm{h}}$. 固定 $\bm{h}$, 优化 $\bm{Z}$: 通过梯度下降微调 $\bm{Z}$, 以最小化目标函数 $F(\bm{Z} \mid \bm{h}) = \sum_i |f_d(\hat{\bm{R}}\bm{x}_i + \hat{\bm{t}} \mid \bm{h})|^2$. 其中 $(\hat{\bm{R}}, \hat{\bm{t}})$ 是通过内部最小二乘问题 (Arun’s method) 基于当前 $\bm{Z}$ 计算出的最优姿态. 固定 $\bm{Z}$, 优化 $\bm{h}$: 使用投影梯度下降优化形状编码 $\bm{h}$ 以最小化 $F(\bm{Z} \mid \bm{h})$. 关键一步是将 $\bm{h}$ 投影到训练集所有形状编码构成的 simplex 上 $\mathbf{S}_K$, 确保解码器产生合理的形状, 避免外推.

主动形状解码器

BCD 算法中的第二步 (优化 $\bm{h}$) 仍然需要对神经网络 $f_d$ 进行梯度计算. 基于“形状解码器在 Simplex 内行为良好”的观察, 作者提出了主动形状解码器 (Active Shape Decoder) $f_a$, 转换成高效的线性凸优化.

算法CRISP-LSQ 输入 > 初始估计 $\bm{Z}$, $\bm{h}$, 深度点云 $\bm{X}$, 训练集形状编码 $\{\bm{h}_1, ..., \bm{h}_K\}$. 输出 > 校正后的形状系数 $\hat{\bm{c}}$. 定义一个新的解码器 $f_a$, 它是网络预测形状和训练集基形状的线性组合: $$f_{a}(\bm{z}\mid\bm{c})=c_0d_0f_{d}(\bm{z}\mid\bm{h})+\sum_{k=1}^{K}c_kd_kf_{d}(\bm{z}\mid\bm{h}_k), \quad \sum c_k = 1, c_k \geq 0$$ 其中 $\bm{c} = [c_0, c_1, ..., c_K]^T$ 是组合权重系数, 被约束在一个Simplex内. $d_k$ 是归一化因子 (如物体包围盒直径的倒数) , 用于平衡不同形状的SDF尺度. 对于给定的 $\bm{Z}$, 计算矩阵 $\bm{F}(\bm{Z})$, 其每一行是各个基形状在点 $\bm{z}_i$ 处的SDF值. 目标函数变为关于系数 $\bm{c}$ 的线性最小二乘问题: $$\min_{\bm{c}} \|\bm{F}(\bm{Z})\bm{D}\bm{c}\|^2 \quad \text{s.t.} \quad \sum c_k = 1, c_k \geq 0$$ 使用内点法等成熟的凸优化算法快速求解这个带约束的线性最小二乘问题, 得到最优形状系数 $\hat{\bm{c}}$.

测试时自训练

这里就是 TTA 的部分了.

算法CRISP-ST 输入 > 在新领域 (测试域) 上运行的 CRISP 模型及其初始预测. 输出 > 适应了新领域的模型. 校正 (Correct): 对测试数据的预测结果, 运行上述校正器, 得到更精确的估计 $(\hat{\bm{Z}}, \hat{\bm{h}})$. 认证 (Certify): 定义一个可观测的正确性证书来筛选高质量的校正结果作为伪标签: $$ \circ c(\hat{\bm{Z}},\hat{\bm{h}})=\mathbb{I}\left\{\left[|f_{d}(\hat{\bm{R}}\bm{x}_{i}+\hat{\bm{t}}|\hat{\bm{h}})|\right]_{p}<\epsilon\right\} $$ 该证书检查校正后的姿态和形状是否与观测深度点云在几何上一致 (即点云是否落在SDF的零水平集上) . 自训练 (Self-Train): 仅使用通过认证的伪标签 $(\hat{\bm{Z}}, \hat{\bm{h}})$, 以简单的 MSE 损失 $(L_z + L_h)$ 来微调网络的编码器 (形状编码器和PNC编码器) , 此时同时冻结形状解码器 $f_d$.

TopoTTA

针对管状结构分割 (Tubular Structure Segmentation, TSS) 任务, 论文 [] Unknown-material 设计了一个可插拔 TTA 框架.

拓扑结构自适应

即 TTA 过程. 受中心差分卷积 (CDC) 启发, TopoTTA 提出了拓扑元差分卷积 (Topological Meta Difference Convolutions, TopoMDCs), 将其单点差分思想扩展为方向性的双点差分, 以更好地模拟管状结构的走向.

算法TopoTTA-TopoMDC 输入 > 输入特征图 $\bm{x}_{\text{in}}$, 预训练的 vanilla 卷积核权重 $w$. 输出 > 方向性差分特征. 计算中心差分卷积输出 $\mathcal{C}_c$: $$\mathcal{C}_{c} = \sum_{(\Delta r_{x},\Delta r_{y})\in \mathcal{R}_{c}} w(\Delta r_{x},\Delta r_{y})\cdot \bm{x}_{\text{in}}(r_{x}, r_{y})$$ 其中 $\mathcal{R}_c$ 是 $3\times3$ 卷积的邻域. 定义 8 个方向的邻域 $\mathcal{R}_i$ 和偏移 $\mathcal{B}_i$ (如 $\mathcal{R}_1 = \{(-1,-1),(-1,0),(0,-1)\}, \mathcal{B}_1 = \{(-1,-1)\}$). 对于方向 $i$, 其卷积输出 $\mathcal{C}_i$ 计算为: $$\begin{split} \mathcal{C}_{i} = & \quad \mathcal{C}_{c} - \sum_{(\Delta r_{x},\Delta r_{y})\in \mathcal{R}_{i}} w(\Delta r_{x},\Delta r_{y})\cdot \bm{x}_{\text{in}}(r_{x}, r_{y}) \\ & + \sum_{(\Delta r_{x},\Delta r_{y})\in \mathcal{R}_{i}} w(\Delta r_{x},\Delta r_{y})\cdot \bm{x}_{\text{in}}(r_{x}-\Delta b_{x}, r_{y}-\Delta b_{y}) \end{split}$$ $\Delta b$ 是对应的 $\mathcal{B}_i$ 中的偏移. 将模型中所有 $3\times3$ 卷积替换为 TopoMDC 组合, 且不引入新参数, 直接继承原有权重 $w$.

为自适应不同区域的拓扑特征, 图像被划分为 $n \times n$ 个块, 每个块拥有一个独立的参数 $\bm{\delta}_j$, 用于学习加权组合 8 个方向的 TopoMDC. 在 TTA 时, 使用熵最小化损失只更新 $\bm{\delta}$, 而冻结主网络参数.

拓扑连续性优化

管道预测容易因局部特征变化而导致预测断裂或者连续性差的问题. TopoHG 的核心思想是对抗学习, 也就是人为在模型预测高置信度的关键拓扑结构上制造伪断裂, 并迫使模型学会修复它, 从而增强其鲁棒性.

算法TopoTTA-TopoHG 输入 > 测试图像 $\bm{x}$, 教师模型预测的伪标签 $\hat{\bm{y}}'$. 输出 > 包含局部伪断裂的困难样本 $\bm{x}'$. 从 $\hat{\bm{y}}'$ 中选择预测置信度 > $\tau$ (论文取 0.95) 的点集 $\mathcal{P}$, 并随机采样 $N_p = k \cdot |\mathcal{P}|$ 个点. $k$ 是一个较小的超参数, 这意味着置信度越高, 生成的困难样本越多. 以关键点为中心, 取 $s \times s$ 的前景窗口 $\bm{x}_{p}^{\text{fg}}$. 在其邻域滑动相同大小的窗口, 寻找模型预测置信度和最低的背景窗口 $\bm{x}_{p}^{\text{bg}, \ast}$. 对选取的关键点进行质量检查, 若背景窗口中前景像素占比过高则丢弃该关键点. 确定所有关键点后, 对前景窗口和背景窗口进行 FFT, 得到频谱 $\bm{f}_{p}^{\text{fg}}$, $\bm{f}_{p}^{\text{bg}}$. 交换两者的低频成分 (使用掩码 $\bm{m}_{\text{low}}$) , 保留高频细节. 此时前景结构外观与背景接近, 但依然保留了关键的形状轮廓信息: $$\bm{x}_{p}^{\text{swap}} = \text{iFFT}\left(\bm{f}_{p}^{\text{fg}} \cdot (1-\bm{m}_{\text{low}}) + \bm{f}_{p}^{\text{bg}} \cdot \bm{m}_{\text{low}}\right)$$ 仅将原前景区域内的像素替换为 $\bm{x}_{p}^{\text{swap}}$, 生成最终的伪断裂块 $\bm{x}'_{p}$, 并拼回原图得到 $\bm{x}'$.

困难样本 $\bm{x}'$ 被输入学生模型, 其预测 $\hat{\bm{y}}''$ 需要与教师模型在原始图像上生成的可靠伪标签 $\hat{\bm{y}}'$ 在伪断裂区域保持高度一致. 通过一个加权交叉熵损失进行优化, 在伪断裂区域赋予更高权重 (论文中是 10 倍), 迫使模型重点学习如何修复断裂.

CAV-SAM

传统的参考分割方法严重依赖元学习, 需要大量的计算和数据进行元训练. SAM 通过构造伪视频序列来激活 SAM2 的 iVOS 能力. 直接将参考图像 $I_r$ 和目标图像 $I_t$ 拼接作为“视频”输入已能取得接近 SOTA 的效果, 但很显然有两个问题:

iVOS 跟踪同一实例, 而参考分割需识别同类不同实例
图像对间可能存在剧烈的形状和姿态变异, 普通的混合过渡会影响模型性能.

论文 [] Unknown-material 正是基于此提出的新的框架.

视频生成

为了平滑图像对间的语义差异, 基于扩散的语义过渡 (Diffusion-Based Semantic Transition, DBST) 模块利用扩散模型生成中间过渡帧, 使语义变化连续.

算法SAM-DBST 输入 > 参考图像 $I_r$, 目标图像 $I_t$, 插值比率 $\alpha$. 输出 > 过渡图像序列 $I_v^1, I_v^2, \ldots, I_v^{N_v}$. 分别用 $I_r$ 和 $I_t$ 微调扩散模型, 得到其对应的 LoRA 参数 $\Delta\theta_r$ 和 $\Delta\theta_t$. 通过线性插值得到中间参数: $$\Delta\theta_{\alpha} = (1-\alpha)\Delta\theta_{r} + \alpha\Delta\theta_{t}$$ 此操作在参数空间融合图像语义. 通过 DDIM 反转分别得到 $I_r$ 和 $I_t$ 对应的初始潜在噪声 $\mathbf{z}_{Tr}$ 和 $\mathbf{z}_{Tt}$. 通过球面线性插值 (Slerp) 得到中间噪声 $\mathbf{z}_{T\alpha}$: $$\mathbf{z}_{T\alpha} = \frac{\sin((1-\alpha)\phi)}{\sin\phi}\mathbf{z}_{Tr} + \frac{\sin(\alpha\phi)}{\sin\phi}\mathbf{z}_{Tt}, \quad \phi = \arccos\left(\frac{\mathbf{z}_{Tr}^\top \mathbf{z}_{Tt}}{\|\mathbf{z}_{Tr}\|\|\mathbf{z}_{Tt}\|}\right)$$ 以 $\mathbf{z}_{T\alpha}$ 为起点, 使用由 $\Delta\theta_{\alpha}$ 调整过的噪声预测网络 $\epsilon_{\theta + \Delta\theta_{\alpha}}$ 执行DDIM去噪采样, 最终生成过渡图像 $I_v^{\alpha}$. 通过均匀采样多个 $\alpha$ 值即可生成平滑的序列.

相较于追求视觉质量的原始DiffMorpher, DBST移除了不必要的精炼模块, 虽然效果稍差, 但对于模型训练 (而非视觉效果) 已经足够.

几何对齐

尽管DBST解决了语义过渡, 序列中仍可能存在不自然的几何突变. TTGA模块通过仅使用一张参考图像对SAM2图像编码器进行轻量级微调, 来使提取的原型向量对几何变化更鲁棒. 论文探索了两种一致性策略: 增强循环一致性 (ACC) 和 增强双向一致性 (ABC), 其中ACC被证明更为有效.

算法SAM-TTGA 输入 > 参考图像 $I_r$ 及其掩码 $M_r$. 输出 > 微调后的图像编码器, 可产生鲁棒的原型向量 $\bm{p}_r$. 对 $I_r$ 施加一个强的几何/色彩变换 $T$, 得到增强图像 $I_r^{\text{aug}}$. 对 $M_r$ 施加相同的变换, 得到真实增强掩码 $M_r^{\text{aug}}$. 从特征图 $F_r \in \mathbb{R}^{H \times W \times D}$ 和掩码 $M_r \in \mathbb{R}^{H \times W}$ 利用掩码平均池化提取原型向量 $\bm{p}_r \in \mathbb{R}^{D}$: $$\bm{p}_r = \text{MAP}(F_r, M_r) = \frac{\sum_{(u,v)} M_r(u,v) F_r(u,v)}{\sum_{(u,v)} M_r(u,v)}$$ 计算原型向量与特征图 $F_\text{aug}$ 上每一个位置的向量之间的余弦相似度: $$S^{\text{aug}}_r(u,v) = \frac{\bm{p}_r^\top F_r^{\text{aug}}(u,v)}{\|\bm{p}_r\|\|F_r^{\text{aug}}(u,v)\|}$$ 用 $\bm{p}_r$ 分割 $I_r^{\text{aug}}$ 得到预测 $\hat{M}_r^{\text{aug}}$. 计算 $\mathcal{L}_{\text{aug}} = \text{BCE}(\text{sigmoid}(S^{\text{aug}}_r), M_r^{\text{aug}})$. 此损失目的是让原型向量能适应几何变化, 或者最好有几何不变性. 使用上一步预测的伪标签 $\hat{M}_r^{\text{aug}}$ (此为 ACC 策略, 在 ABC 策略中是真实标签 $M_r^{\text{aug}}$) 计算一个新的增强原型向量 $\hat{\bm{p}}^{\text{aug}}_r = \text{MAP}(F_r^{\text{aug}}, \hat{M}_r^{\text{aug}})$. 用 $\hat{\bm{p}}^{\text{aug}}_r$ 分割原始图像 $I_r$, 得到预测 $\hat{M}_r$, 计算循环损失 $\mathcal{L}_{\text{cyc}} = \text{BCE}(\text{sigmoid}(S_r), M_r)$. 计算总损失: $$\mathcal{L} = \mathcal{L}_{\text{aug}} + \mathcal{L}_{\text{cyc}}$$ 利用反向传播更新, 注意仅微调 SAM2 图像编码器的 FPN 层参数, ViT 主干网络被冻结, 保证了轻量性.

WorMI

论文 [] Unknown-material 介绍了一个针对具身智能体的 世界模型植入的测试时自适应 (World Model Implanting for Test-time Adaptation, WorMI) 框架. 核心创新在于将 LLM 的通用推理能力与多个轻量级的领域特定世界模型（World Model）进行动态组合, 而无需重新训练主干模型, 即可实现更好的零样本和少样本跨领域适应能力.

模型检索

对于输入, 需要在知识体系找到其相关的模型. 直接用所有世界模型显然计算量过大, 这里论文选取一部分原型再做搜索.

算法WorMI-原型检索 输入 > 当前观测状态 $s_t$, 预训练的世界模型池 $\{M_1, ..., M_N\}$ 及其对应数据集 $\{\mathcal{D}_1, ..., \mathcal{D}_N\}$. 输出 > 最相关的 K 个世界模型子集 $\mathbf{M}_{\text{ret}}$. 对于每个世界模型 $M_j$ 的数据集 $\mathcal{D}_j$, 使用对象检测模型 $\Phi_{\text{D}}$ 和嵌入模型 $\Phi_{\text{E}}$ 提取所有物体级状态的嵌入, 构成嵌入集 $\mathcal{E}_j$. 对每个嵌入 $\mathcal{E}_j$ 采用 k-center 聚类算法, 寻找到一组原型 $\mathbf{p}_j$, 使得其余点到这些点最短距离的最大值最小化. 这组原型代表了所有世界模型的核心知识. 对于当前状态 $s_t$, 同样提取其物体级状态嵌入并聚类得到原型 $\mathbf{p}$. 计算当前原型 $\mathbf{p}$ 与每个世界模型原型 $\mathbf{p}_j$ 之间的 Wasserstein 距离 $\delta(\mathbf{p}_j, \mathbf{p})$. 选择距离最小的前 K 个模型作为检索结果. $$ \mathbf{M}_{\text{ret}} = \left\{ M_j \ \middle|\ j \in \text{TopK}\left(\{-\delta(\mathbf{p}_j, \mathbf{p})\}_{j=1}^N,\ K\right) \right\} $$

该方法在数学上被证明是有效的, 原型集之间的距离 $\delta(\mathbf{p}_i, \mathbf{p}_j)$ 是完整数据集距离 $\delta(\mathcal{E}_i, \mathcal{E}_j)$ 的一个有界近似.

集成对齐

检索到模型后, 需要将其知识融合进智能体的决策策略中. WorMI 设计了一个层次化的复合注意力机制来实现深度集成与对齐.

算法WorMI-复合注意力 输入 > LLM 第 $j$ 层的输出 $l_{\pi_R}$, 检索到的 $K$ 个世界模型的中间层输出 $\{l_{M_1}, ..., l_{M_K}\}$. 输出 > 一个用于增强推理模型表示的修正向量, 将被加回其下一层的输入. 首先将每个世界模型的输出 $l_{M_j}$ 通过一个可学习的线性层 $L_{\theta}$, 将其投影到与推理模型相同的维度空间: $\hat{l}_{M_j} = L_{\theta}(l_{M_j})$. 先做世界级交叉注意力 (集成). 以推理模型的表示 $l_{\pi_R}$ 作为 Query, 以所有投影后的世界模型输出 $[\hat{l}_{M_1}; ...; \hat{l}_{M_K}]$ 作为 Key 和 Value. 通过交叉注意力, 输出表示, 自动加权融合了各模型最相关的部分. 再做推理级交叉注意力 (对齐). 仍以推理模型的表示 $l_{\pi_R}$ 作为 Query, 以所有世界模型输出的总和 $[\hat{l}_{M_1} + ... + \hat{l}_{M_K}]$ 作为 Key, 提供一个全局信号, 以世界级注意力的集成后的知识作为 Value. 通过交叉注意力, 最终输出即为复合注意力的结果 $C_{\theta}(\cdot)$, 包含了与当前推理步骤最相关的, 已对齐的领域知识.

在预训练阶段, 复合注意力模块 $C_{\theta}$ 的参数通过元学习进行训练, 使其获得一种通用的“如何集成”的能力, 从而能快速适应全新的世界模型组合.

内循环（适应）: 在每次元迭代中, 随机采样一个世界模型子集 $\mathbf{M}_j$ 及其数据 $\mathbf{D}_j$. 将元参数 $\theta$ 复制到任务参数 $\theta_j$, 并用 $\mathbf{D}_j$ 上的行为克隆损失对 $\theta_j$ 进行少量几步梯度更新, 使其学会集成当前这组特定模型.
外循环（元更新）: 将元参数 $\theta$ 朝着各个任务更新后的参数 $\theta_j$ 的平均方向进行更新: $$\theta \leftarrow \theta + \beta \cdot \frac{1}{m} \sum_{j=1}^{m} (\theta_j - \theta)$$ 这个过程迫使元参数 $\theta$ 成为一个优秀的初始化点, 能够快速适应任何新遇到的世界模型组合.

此外, 论文还指出了框架支持动态添加新的世界模型以提升性能, 也能通过移除模型来实现“遗忘”, 应对知识更新或隐私需求.

SMART-PC

论文 [] Unknown-material 提出了一个基于骨架表示的 3D 点云测试时训练 (TTT) 框架.

点云预处理

原始点云通常是无序且冗余的, 需要先对点云 Token 化, 为后续特征提取奠定基础.

算法SMART-PC-点云Token化 输入 > 原始 3D 点云 $P \in \mathbb{R}^{N \times 3}$ ($N$ 为总点数) , 采样中心点数量 $M$, 邻域点数 $K$. 输出 > 局部邻域张量 $P_{\text{local}} \in \mathbb{R}^{M \times K \times 3}$ (含全局结构与局部细节的 Token 化表示) . 从 $P$ 中均匀选取 $M$ 个中心点 $C$, 确保覆盖点云全局结构: $$C = \text{FPS}(P) \in \mathbb{R}^{M \times 3}, \quad M \ll N$$ FPS 算法通过迭代选择“与已选点距离最远”的点, 保证中心点分布均匀性. 对每个中心点 $c_i \in C$, 用 KNN 算法从 $P$ 中选取 $K$ 个邻近点, 构建该中心点的局部几何上下文, 形成局部邻域张量: $$P_{\text{local}} = \text{kNN}(C, P) \in \mathbb{R}^{M \times K \times 3}$$ 其中 $P_{\text{local}}[i] \in \mathbb{R}^{K \times 3}$ 对应第 $i$ 个中心点的局部邻域.

这样选取点, 既减少计算冗余, 又保留后续骨架预测所需的几何信息.

骨架预测与点云分类

SMART-PC 同时实现骨架和点云分类, 让分类任务复用骨架的抗腐蚀特征.

算法SMART-PC-双任务架构 输入 > Token 化局部邻域张量 $P_{\text{local}} \in \mathbb{R}^{M \times K \times 3}$, 特征维度 $d$, 类别数 $K_{cls}$. 输出 > 骨架参数 (骨架点 $c_s \in \mathbb{R}^{M \times 3}$、半径 $r \in \mathbb{R}^{M \times 1}$) , 分类概率 $p \in \mathbb{R}^{K_{cls}}$. 通过编码器 $E$ 处理 $P_{\text{local}}$, 提取融合全局结构与局部细节的基础特征: $$F_{\text{enc}} = E(P_{\text{local}}) \in \mathbb{R}^{M \times d}$$ 该特征为骨架分支与分类分支的共享输入, 确保特征一致性. 对于骨架分支, 解码器 $D$ 对 $F_{\text{enc}}$ 进行上下文增强, 生成更适配骨架预测的特征: $$F_{\text{dec}} = D(F_{\text{enc}}) \in \mathbb{R}^{M \times d}$$ 随后用两个独立 MLP 分别输出骨架参数 (球心和半径), 避免原始点云噪声干扰: $$c_s = \text{MLP}_s(F_{\text{dec}}) \in \mathbb{R}^{M \times 3}, \quad r = \text{MLP}_r(F_{\text{dec}}) \in \mathbb{R}^{M \times 1}$$ 对于分类分支, 将编码器基础特征与解码器骨架相关特征之和作为组合特征: $$F_\text{combined} = F_{\text{enc}} + F_{\text{dec}}$$ 随后通过归一化和 Dropout 的 MLP 分类头, 输出类别概率: $$p = Softmax(\text{MLP}_{cls}(F_\text{combined})) \in \mathbb{R}^{K_{cls}}$$

预训练

需要注意, 骨架分支是自监督的, 而分类分支是有监督的. 预训练阶段两者联合优化.

算法SMART-PC-预训练 输入 > 源数据集, 包含清洁点云 $P$, 类别标签 $y$. 输出 > 预训练完成的双任务模型, 包含编码器 $E$, 解码器 $D$, MLP 分支. 对于骨架分支, 考虑点-球损失 $\mathcal{L}_{\text{p2s}}$, 确保输入点与骨架球表面对齐, 双向约束几何一致性: $$\mathcal{L}_{\text{p2s}} = \sum_{p \in P} \left( \min_{s \in S} \|p - c_s\|_2 - r(c_s) \right) + \sum_{s \in S} \left( \min_{p \in P} \|c_s - p\|_2 - r(c_s) \right)$$ 其中 $S$ 为骨架球集合, $c_s$ 为骨架球中心, $r(c_s)$ 为半径. 还有采样损失 $\mathcal{L}_{\text{sampling}}$, 对齐骨架球表面采样点与输入点, 过滤高频噪声: $$\mathcal{L}_{\text{sampling}} = \sum_{p \in P} \min_{t \in T} \|p - t\|_2 + \sum_{t \in T} \min_{p \in P} \|t - p\|_2$$ 其中 $T$ 为骨架球表面均匀采样点集. 还有半径正则损失 $\mathcal{L}_{\text{radius}}$, 避免噪声导致的骨架球过小: $$\mathcal{L}_{\text{radius}} = -\sum_{s \in S} r(c_s)$$ 对于分类分支, 用交叉熵损失优化分类精度: $$L_{cls} = -\frac{1}{B} \sum_{i=1}^B \sum_{k=1}^{K_{cls}} y_{ik} \log(\hat{y}_{ik})$$ 其中 $B$ 为批次大小, $y_{ik}$ 为真实标签, $\hat{y}_{ik}$ 为预测概率. 计算总损失: $$L_{total} = L_{skel} + L_{cls} = \mathcal{L}_{\text{p2s}} + \lambda_1 \mathcal{L}_{\text{sampling}} + \lambda_2 \mathcal{L}_{\text{radius}} + L_{cls}$$ 通过反向传播和优化器更新模型参数, 直至收敛.

测试时适应

针对不同应用场景, SMART-PC 设计了两种 TTA 模式, 兼顾实时性与精度, 在一般情形下仅需轻量式的 TTA.

算法SMART-PC-TTA 输入 > 测试集 (腐蚀点云 $P_{\text{test}}$), 预训练模型. 输出 > 适应后模型, 分类结果 $p_{\text{test}}$. 对于实时场景, 采用在线适应的方式: 仅在切换腐蚀类型时重置模型, 批次间保留状态, 累积适应信息. 默认仅更新 BatchNorm 层的 $\mu$ 和 $\sigma$ 若需进一步提升精度, 可同步更新所有参数, 优化目标为预训练的 $L_{skel}$, 不过对比实验表明仅更新 BN 已足够. 对于独立批次场景, 采用标准适应的方式: 每个测试批次结束后重置模型, 批次间独立适应, 不累积信息. 由于单批次统计量不足以支撑适配, 需通过 $L_{skel}$ 优化所有参数, 确保每个独立批次的分类精度.

论文阅读 - 基于自适应代理的置信度估计

Thu, 19 Jun 2025 00:00:00 +0000

传统 TTA 方法

野外测试时自适应 (Wild Test-Time Adaptation, WTTA) 相较于温和的 TTA, 需要在数据极其稀少时让模型适应从未见到过的领域, 通常有三个实际挑战:

有限的数据流. 批大小通常为 $1$.
测试域是混合的分布. 通常由 $k$ 个子域组成: $D_{\mathrm{test}} = \sum_{i=1}^k \Pi_i \cdot D_i$, 其中 $\Pi_i$ 是每个子域的混合系数.
标签的不平衡性和浮动性. 测试标签分布不均, 且可能会随着时间的推移而变化.

常见的 TTA 方法是熵最小化策略 (这篇博客有提及, 如 Tent 方法), 但当 TTA 的环境从 mild 变为 wild 时, 熵最小化的效果会大打折扣, 因此一些现有的工作是做样本过滤筛选, 例如 SAR 和 DeYO .

局部不一致性

为此, 论文 [] Unknown-material 提出了一个对模型输出确定性的替代方案, 即区域置信度.

熵最小化的核心思想是通过引导预测概率向主要的类别集中收敛, 其有效性很大程度上依赖于局部一致性, 也就是附近的点应该有相似的预测概率. WTTA 中, 局部不一致现象非常普遍, 此时简单的熵最小化会导致性能崩溃.

在此基础上, 必须解决优化方向与区域目标之间的偏差, 并减少局部区域内不一致预测概率的方差.

定义 考虑样本 $x$ 和其一个局部区域 $\Omega$, $x$ 在 $\Omega$ 上的 区域置信度 (Region Confidence) 定义为在 $\Omega$ 上熵损失的积分 (偏差项) 加上 $x$ 的预测概率与 $\Omega$ 中样本预测概率的 KL 散度 (方差项): $$ \mathcal{L}_{\mathrm{RC}}(x) = - \int_{\Omega} \sum_{i=1}^C p_{\theta}(\hat{x})_i \log p_{\theta}(\hat{x})_i d\hat{x} + \lambda \int_{\Omega} D_{KL}(p_{\theta}(\hat{x}) \| p_{\theta}(x)) d\hat{x} $$

这里我们采用积分, 意味着理论可以在无限样本上整合损失项.

ReCAP

然而, 区域置信度的计算相当困难. 首先 $\Omega$ 的范围选择不确定, 其次两项都不能直接计算, 需要大量近似采样和前向传播的步骤. 为了降低训练复杂度, 论文引入了一种新的 区域置信度自适应代理 (Region Confidence Adaptation Proxy, ReCAP) 框架.

概率区域

我们先确定 $\Omega$ 的范围. 我们从主干网络的隐藏层中找区域置信度, 具体来说, 我们选定一个隐藏层, 输入 $x$ 后计算 $x$ 在经过网络中此隐藏层之后的特征 $z$, 然后对 $z$ 做一个仿射变换, 得到一个分类器的输出概率:

$$ p_{\theta}(z)_i = (\mathrm{softmax}(Az+b))_i $$

下标 $i$ 表示第 $i$ 个类别, $A$ 和 $b$ 是分类器线性层的参数.

关于局部区域, 我们将其建模成一个多元高斯分布, 而非静态区域:

$$ \Omega(z_t) := \mathcal{N}(z_t, \tau \cdot \Sigma) $$

其中, $\Omega(z_t)$ 是第 $t$ 个测试批次 $z_t$ 的局部区域, 它是以 $z_t$ 为中心的高斯区域. $\Sigma$ 是基于少量源数据得到的方差对角矩阵, $\tau$ 是一个超参数, 用于控制范围.

置信度度量

接下来我们给出一个估计置信度的高效度量, 在此省略论文的数学推导, 直接给出结果:

定理偏差项的有效度量 给定一个特征 $z$ 及其局部区域 $\Omega$, 该局部区域服从高斯分布 $\mathcal{N}(z, \Sigma)$. 整个分布上的熵损失期望具有上界: $$ \begin{aligned} &\mathbb{E}[\mathcal{L}_{\mathrm{ent}}] = -\mathbb{E}_{\hat{z} \sim \mathcal{N}(\mu, \Sigma)} \sum_{i=1}^C p_{\theta}(\hat{z})_i \log p_{\theta}(\hat{z})_i \\ &\le \sum_{j=1}^C \frac{e^{u_j}}{\sum_{k=1}^C e^{u_k}} \log \sum_{i=1}^C e^{u_i - u_j} \triangleq \mathcal{L}_{\mathrm{RE}}(z) \end{aligned} $$其中 $u_j = a_j \cdot z + b_j + \frac{1}{2} a_j \Sigma a_j^T$.

定理方差项的有效度量 给定一个特征 $z$ 及其局部区域 $\Omega$, 该局部区域服从高斯分布 $\mathcal{N}(z, \Sigma)$. 此分布输出概率与中心概率之间的 KL散度的期望值具有上界： $$ \begin{aligned} &\mathbb{E}[D_{KL}(p_{\theta}(\hat{z}) \| p_{\theta}(z))] \\ &\le \sum_{j=1}^C \frac{e^{v_j}}{\sum_{k=1}^C e^{v_k}} \log \sum_{i=1}^C \frac{e^{v_j}}{\sum_{k=1}^C e^{v_k}} e^{\frac{1}{2} (a_i-a_j) \Sigma (a_i-a_j)^T} \triangleq \mathcal{L}_{\mathrm{RI}}(z) \end{aligned} $$其中 $v_j = a_j \cdot z + b_j$.

因此我们只需要最小化不等式右侧的代理 $\mathcal{L}_{\mathrm{RE}}(z)$ 和 $\mathcal{L}_{\mathrm{RI}}(z)$ 就可以了, 这个计算难度非常低, 不需要额外的采样和前向传播.

ReCAP 训练

我们也做样本过滤, 但是我们现在使用区域熵 $\mathcal{L}_{\mathrm{RE}}$ 来识别可靠的样本, 并在适应过程中优化, 具体来说就是:

$$\min_{\theta}\frac{\mathbb{I}_{\{\mathcal{L}_{\mathrm{RE}}(x)<\tau_{\mathrm{RE}}\}}(\mathcal{L}_{\mathrm{RE}}(x)+\lambda\mathcal{L}_{\mathrm{RI}}(x))}{\exp(\mathcal{L}_{\mathrm{RE}}(x)-\mathcal{L}_0)}$$

分母表示加权项, $\tau_{\mathrm{RE}}$ 表示区域熵的阈值, $\mathcal{L}_0$ 是超参数.

实验与可视化

实验表明, ReCAP 能较好地应对数据稀缺和标签不平衡的情况, 而且还可以和之前基于熵最小化的方法 (如 SAR 和 DeYO) 结合, 进一步提升性能, 且算法开销很低.

两个超参数 $\tau$ 和 $\lambda$ 分别控制区域范围和方差项的权重, 论文取 $\tau = 1.2 \in [0.5, 1.5], \lambda = 0.5$, 实际上模型对两个参数也具有相对较好的鲁棒性.

由于引入了区域置信度, 分类的区域一致性确实得到了改善, 下图中的不同颜色表示此区域内分类不同的类别, 可以看到随着迭代, 分类区域的颜色变得越来越一致, 这也说明了区域置信度的有效性.

论文阅读 - 测试时强化学习

Thu, 29 May 2025 00:00:00 +0000

测试时强化学习

TTA

通常情况下, 深度学习模型在训练完成后就固定了参数, 在测试或部署阶段不再更新. 但在实际应用中, 测试数据可能与训练数据的分布存在差异, 导致模型性能下降. 因此后续的微调显得非常重要.

定义 测试时适应 (Test-time Adaption, TTA) 算法指在不使用真实标签的前提下, 利用当前测试样本或其增强版本来在线微调模型, 使其更适应当前的输入分布. 常见的测试时适应算法包括: 自适应批归一化 : 在测试阶段对批归一化层的均值和方差进行调整, 使其更适应当前输入分布, 同时不修改学习参数 gamma 和 beta . 熵最小化 : 在测试阶段通过最小化模型输出的熵来提高模型的自信度, 最典型的如 TENT .

过往的 TTA 算法一般基于无监督学习, 即便是强化学习算法, 需要辛苦设计奖励函数, RLHF 需要人工标注数据, 成本高昂.

TTRL

论文 [] Unknown-material 开创性地提出了 测试时强化学习 (Test-Time Reinforcement Learning, TTRL) 算法 (后面几篇论文都是在此基础上进行改进). TTRL 通过强化学习的方式, 在测试时对模型进行微调, 使其更好地适应当前输入分布.

在 无监督 的情况下, 怎么设置奖励函数? 论文的策略非常简单: 多数投票.

算法TTRL 输入 > 一个模型 $f_{\theta}$, 测试样本 $x$. 输出 > 微调后的模型 $f_{\theta'}$. 对输入 $x$ 做多次预测, 得到预测结果 $y_i$. 统计每个预测结果的出现次数, 设最常见的预测结果为 $y^*$, 称为一致动作. 计算奖励函数 $R(y_i)$: $$ R(y_i) = \mathbb{I}(y_i = y^*) $$ 通过梯度上升更新模型参数 $\theta$ 为 $\theta'$: $$ \theta' = \theta + \eta \nabla_{\theta} \mathbb{E}_{y_i \sim f_{\theta}(x)}[R(y_i)] $$

效果非常显著, 甚至可以与带有有一定数据泄漏的监督方案相媲美.

为什么能做这么好? 论文 [] 给出了三个原因:

标签估计: TTRL 引入标签估计, 尽管存在不确定性, RL 仍具有一定鲁棒性, 且通常比 SFT 具有更好的泛化能力.
奖励函数设计: “幸运命中” (lucky hit) 现象, 即便预测不准确, 只要估计标签与预测答案不同, 验证器就能分配正确的 $0$ 奖励. 实验表明, 尽管多数投票的标签估计可能不准确, 但奖励函数的估计却非常准确. 原因是模型输出概率非常分散, 因此即使标签未被准确估计, 由于 “幸运命中”, 大多数输出仍然可以收到正确的奖励.
在线学习: TTRL 是在线学习算法, 可以在测试时不断更新模型参数, 使其更好地适应当前输入分布.

基于熵最小化的强化学习

论文 [] Unknown-material 给出基于最小化熵的强化学习算法 (Reinforcement Learning via Entropy Minimization, RENT). 基于 GRPO 框架测试, 把奖励函数设置为负熵, 认为只通过最小化输出的熵, 即可提高模型推理能力.

$$ R(o) = -\mathcal{H}(p_{\pi_{\theta}}(\cdot|o)) = -\sum_{i=1}^{|V|} p_{\pi_{\theta}}(i|o) \log p_{\pi_{\theta}}(i|o) $$

内部反馈的强化学习

除了 KL 正则化等等项之外, 我们关心奖励函数的设计. 这个奖励要与任务无关, 而由模型内部的反馈来决定. 与 [] 提出的负熵奖励不同, 论文 [] Unknown-material 给出了另一个置信度函数:

$$ R(o) = \frac{1}{|o|}\sum_{i=1}^{|o|}KL(U \| p_{\pi_{\theta}}(\cdot|o_{\lt i})) = -\frac{1}{|o| \cdot |V|} \sum_{i=1}^{|o|}\sum_{j=1}^{|V|} \log \left( |V| \cdot p_{\pi_{\theta}} (j|o_{\lt i}) \right) $$

其中 $o$ 是 token 序列, $U$ 表示均匀分布.

带有 CLIP 反馈的强化学习

对于一般任务, 传统的测试时适应算法要最小化熵, 但很显然这个方式容易陷入错误的模型预测中. 与监督微调模型相比, 带有反馈的学习模型有更好的泛化能力.

CLIP

文章 [] Unknown-material 通过引入 CLIP 反馈来解决置信度过高问题, 称为 RLCF(如下图).

除了分类任务外, 通过特定任务的采样策略和适当的选择奖励基线, RLCF 可以很容易地扩展到不仅仅是检索这样的区分任务, 还可以扩展到图像字幕这样的泛化任务.

我们现在关心视觉语言模型 (VLM), 因此要衡量跨模态的相似性. 对比语言-图像预训练 (Contrastive Language-Image Pre-training, CLIP) 模型通过对图像和文本进行编码, 使得它们在同一个共享的向量空间中具有相似的表示.

算法CLIP 输入 > 图像 $v$ 和文本 $t$. 输出 > 图像和文本的相似度分数 $s(v,t)$. CLIP 训练两个编码器: 图像编码器 $g$ 和文本编码器 $h$. 二者的输出分别为 $g(v)$ 和 $h(t)$. 计算相似度分数, 常用的是余弦相似度: $$s(v,t) = \frac{g(v) \cdot h(t)}{\|g(v)\| \|h(t)\|}$$ 返回相似度分数 $s(v,t)$.

RLCF 算法

对于 VLM, 训练集 $\mathcal{D}_\mathrm{train}$ 和测试集 $\mathcal{D}_\mathrm{test}$ 都是图像和文本对 $(v,t)$ 的集合. 需要注意, 算法的微调是在单个测试样本上进行的.

对于奖励函数 $R$, 我们希望学习到最好的概率分布 $f_{\theta}(v) = [p(t|v,\theta)]_{t \in T}$ 使得其能最大化奖励:

$$\max_{\theta} \mathbb{E}_{t \sim f_{\theta}(v)}R(t,v)$$

我们正式引入 带有 CLIP 反馈的强化学习 (Reinforcement Learning with CLIP Feedback, RLCF) 算法.

算法RLCF (分类任务) 输入 > 一个已经训练好的 VLM 模型 $f_{\theta}$, 测试样本 $v$. 输出 > 微调后的模型 $f_{\theta'}$. 对测试样本 $v$ 进行数据增强, 生成多个增强样本 $\tau_i(v)$. 按照 CLIP 的编码器编码 $v$ 和 $\tau_i(v)$, 计算当前模型的预测 $P(t|v,\theta)$. 注意此时训练文本应当是类似于 prompt + label 的形式, 如 “a photo of a cat”. 做置信度筛选, 只保留预测熵足够低的样本 $\tau_i(v)$. 在这些样本中, 按照 top-K 策略选择预测结果, 得到 K 对文本和图像 $(\tau_i(v), t_j)_{j=1}^K$. 暂记为 $(v,t)$ 以进行后续计算. 按照先前的工作, 根据 CLIP 模型计算 CLIPScore: $$ \mathrm{CLIP-S}(t,v) = w \times \max(\mathrm{CLIP}(t,v), 0) $$ 其中 $w=2.5$ 是一个常数. 由于 CLIPScore 永远是非负的, 加入一个奖励基线增加稳定性: $$ R(t,v) = \mathrm{CLIP-S}(t,v) - \mathbb{E}_{t' \sim f_{\theta}(v)}[\mathrm{CLIP-S}(t',v)] $$ 通过 REINFORCE 策略梯度更新模型参数 $\theta$ 为 $\theta'$, 使得模型能够最大化奖励, 注意此时 只 更新图像编码器 $g$ 的参数: $$ \nabla_{\theta} \mathbb{E}_{t \sim f_{\theta}(v)}[R(t,v)] = \mathbb{E}_{t \sim f_{\theta}(v)}[R(t,v) \nabla_{\theta} \log f_{\theta}(t|v, \theta)] $$ 返回微调后的模型 $f_{\theta'}$.

相较于监督学习, 基于反馈的强化学习更加通用, 例如可以进行图像描述的任务.

算法 RLCF (图文转换) 基本可以从上面的 RLCF 算法中直接泛化修改. 只需要注意如果是文本生成图片时, 应该固定图像编码编码器 $g$ 而微调文本编码器 $h$, 且此时不做数据增强.

技巧和变体

使用多个奖励模型及权重: 默认情况下, 使用单个 CLIP-ViT-L/14. 可以使用多个 CLIP 模型, 并对它们的输出进行加权平均, 以获得更好的奖励信号.
片段式测试时适应 (Episodic TTA): 假定模型泛化能力很强, 测试时只在测试集上微调, 随后丢弃重置为原参数 $\theta^*$, 防止污染大模型.
动量缓冲 (Momentum Buffer): 尽管片段式测试时适应确保可靠性, 但影响了模型增量学习能力. 因此引入一个动量缓冲, 在每次 TTA 中, 按照移动平均的方式更新缓冲 $\xi \leftarrow m\xi + (1-m)\theta$, 每经过若干次样本后, 再将缓冲 $\eta$ 作为新的参数 $\theta$ 进行更新.

实验

RLCF 方法可以通用地建立在常用的架构上. 在零样本分类任务, 零样本图文检索和图像描述任务上, RLCF 都能显著提升模型的性能.

引入协方差正则化的强化学习

与论文 [] 不同, 论文 [] Unknown-material 通过熵动力学来研究熵崩溃的问题, 最终的目的依然是控制熵.

熵崩溃

强化学习过程中对于高置信度的策略会愈发增强其使用概率, 导致熵变得更加降低. 以下图揭示了熵崩溃和性能饱和的关系. 当熵下降到某个阈值时, 性能会达到饱和点.

论文定量分析认为, 如果没有像熵损失或者 KL 散度这样的正则化, 下游性能完全可以通过策略熵来预测, 精确来说可以拟合成指数函数:

$$ R = -a \exp(\mathcal{H}) + b $$

$R$ 是验证集的性能, $\mathcal{H}$ 是策略的熵.

熵-性能函数

这个函数可以用来分析模型的性能和熵之间的关系, 有几个特点:

系数与算法无关: 下面这个图几个算法得到的曲线是类似的, 这表明 $a,b$ 可能是模型和数据的固有属性.

预测不同模型的函数系数: 显然 $a$ 是模型将熵转化为下游性能的速度. $−a+b$ 是当熵归零时模型可以达到的最大验证性能. 理论上个更大的性能应该对应更大的 $a$ 和 $b$. 此外不同的任务也会有不同的系数

系数 $a$ 系数 $b$

数学任务

代码任务

总结, 在策略熵减少过程中, 性能天花板不仅存在, 而且可以被预测.

熵动力学

我们主要关注相邻两次迭代的熵变化 $\mathcal{H}(\pi_{\theta}^{k+1}) - \mathcal{H}(\pi_{\theta}^{k})$.

定理策略梯度下的熵变化 令行为策略 $\pi_{\theta}$ 为一个 softmax 策略, 并通过标准策略梯度更新, 两个连续步骤中给定状态 $s$ 的策略熵之差满足: $$ \mathcal{H}(\pi_{\theta}^{k+1}|s) - \mathcal{H}(\pi_{\theta}^{k}|s) \approx -\eta \mathrm{Cov}_{a \sim \pi_{\theta}^{k}(\cdot|s)} \left( \log \pi_{\theta}^{k}(a|s), \pi_{\theta}^k(a|s) \cdot A(s,a) \right) $$

定理自然策略梯度下的熵变化 令行为策略 $\pi_{\theta}$ 为一个 softmax 策略, 并通过标准策略梯度更新, 两个连续步骤中给定状态 $s$ 的策略熵之差满足: $$ \mathcal{H}(\pi_{\theta}^{k+1}|s) - \mathcal{H}(\pi_{\theta}^{k}|s) \approx -\eta \mathrm{Cov}_{a \sim \pi_{\theta}^{k}(\cdot|s)} \left( \log \pi_{\theta}^{k}(a|s), A(s,a) \right) $$

揭示了当前策略下的动作概率 $P(a)$ 与相应的优势函数 $A(a)$ 之间的强正相关性. 作者做了实验验证了这个定理估计的正确性.

协方差正则化

论文认为直接采用传统强化学习中的熵正则化技术难以解决 LLMs 的熵瓶颈问题, 过高的熵正则化甚至会导致熵爆炸.

实验表明, 小部分 token 的协方差极高, 在触发熵崩溃中占据了主导地位. 受到 PPO 策略的启发, 论文提出两种协方差感知方法: Clip-Cov 和 KL-Cov.

对于 token $y_i$ 的协方差, 定义为:

$$ \mathrm{Cov}(y_i) = \left( \log \pi_{\theta}(y_i) - \mathbb{E}_{i \in [N]}\left[ \log \pi_{\theta}(y_i) \right] \right) \left(A(y_i) - \mathbb{E}_{i \in [N]}\left[A(y_i)\right]\right) $$

算法Clip-Cov 输入 > 策略 $\pi_{\theta}$, 协方差阈值 $\omega_l, \omega_h$ (两个都远超均值), 剔除比例 $r$. 输出 > 更新后的策略 $\pi_{\theta'}$. 计算每个 token 的协方差 $\mathrm{Cov}(y_i)$. 从 $y_i$ 中随机选取 $r \cdot N$ 个满足 $\omega_l \le \mathrm{Cov}(y_i) \le \omega_h $ 的 token, 设索引集为 $I_{\mathrm{clip}}$. 将选择的这些 token 从策略梯度中移除, 其余仍然正常更新: $$ L_{\mathrm{clip}}(\theta) = \begin{cases} \mathbb{E}\left[ \frac{\pi_{\theta'}(y_i)}{\pi_{\theta}(y_i)} A(y_i) \right] & \text{if } i \notin I_{\mathrm{clip}} \\ 0 & \text{if } i \in I_{\mathrm{clip}} \end{cases} $$

算法KL-Cov 输入 > 策略 $\pi_{\theta}$, 剔除比例 $k\ll 1$. 输出 > 更新后的策略 $\pi_{\theta'}$. 计算每个 token 的协方差 $\mathrm{Cov}(y_i)$. 从 $y_i$ 选取方差最大的 $k \cdot N$ 个 token, 设索引集为 $I_{\mathrm{KL}}$. 将选择的这些 token 在策略梯度中施加 KL 惩罚: $$ L_{\mathrm{KL}}(\theta) = \begin{cases} \mathbb{E}\left[ \frac{\pi_{\theta'}(y_i)}{\pi_{\theta}(y_i)} A(y_i) \right] & \text{if } i \notin I_{\mathrm{KL}} \\ \mathbb{E}\left[ \frac{\pi_{\theta'}(y_i)}{\pi_{\theta}(y_i)} A(y_i) \right] - \beta KL(\pi_{\theta}(y_i) || \pi_{\theta'}(y_i)) & \text{if } i \in I_{\mathrm{KL}} \end{cases} $$

实验

与一般的熵正则化方法相比, 协方差正则化方法在多个任务上都能显著提升模型性能. 且能一定程度上避免瓶颈问题.

	策略熵	LLM 响应长度	准确率
Qwen-7B
Qwen-32B

测试时样本特定语言模型优化

论文 [] Unknown-material 提出了 测试时样本特定语言模型优化 (Sample-specific Language Model Optimization at Test-time, SLOT) 算法.

算法SLOT 输入 > 预训练语言模型 $f_{\theta}$, 输入 token 序列 $x=(x_1, x_2, \ldots, x_n)$, 优化步数 $T$. 输出 > 拓展生成的文本 $x$. 初始化样本特定参数 $\delta=\mathbf{0}\in \mathbb{R}^{1 \times d}$. 计算最后一层的隐藏特征 $H = f_{\mathrm{pre}}(x) \in \mathbb{R}^{n \times d}$. 修改 $H' = H + \delta$, 这里是广播加法. 计算 logits $L = W_{\mathrm{LM}} H' \in \mathbb{R}^{n \times |V|}$ 和其对应的交叉熵损失 $\mathcal{L}$, 并根据损失 $\mathcal{L}$ 优化 $\delta$. 重复步骤 2-4, 直到达到优化步数 $T$, 最后得到 $\delta_{\mathrm{opt}}$. 计算最后一个 token 的隐藏特征 $H_{\mathrm{last}} = f_{\mathrm{pre}}(x) [-1] \in \mathbb{R}^{1 \times d}$. 修改 $H_{\mathrm{last}}' = H_{\mathrm{last}} + \delta_{\mathrm{opt}}$. 计算下一个 token 的 logits $L_{\mathrm{next}} = W_{\mathrm{LM}} H_{\mathrm{last}}'$, 随后按 softmax 选择下一个 token $x_{\mathrm{next}}$. 把 $x_{\mathrm{next}}$ 添加到输入序列 $x$ 中, 并重复步骤 6-8, 直到生成满足条件的文本.

特意把参数 $\delta$ 放在预测头之前, 是为了减小计算量. 称这个增量为 概率向量调制向量 (Logit Modulation Vector, LMV):

$$ \mathrm{LMV} = W_{\mathrm{LM}}\delta \in \mathbb{R}^{|V|} $$

测试表明, 与推理过程相关的词如 “think” 和 “reasoning” 在 LMV 的作用下得到了显著增强.

我的理解是和直接插入一层网络的区别是, 这个反向传播只更新 $\delta$ 而不更新模型参数, 且是一次性的, 只在测试时进行微调. 这只是一个测试时微调, 似乎不是强化学习.

虚假奖励也能训练?!

说了这么多, 其实都是在说如何设计奖励函数. 但是, 论文 [] Unknown-material 提出了一个非常反直觉的问题: 即使在使用与正确答案几乎没有或甚至负相关关系的虚假奖励下训练, RLVR 仍能在某些模型中激发强烈的数学推理能力!

论文给出了五种奖励函数:

真实标签 (Ground Truth) 奖励: 直接用真实标签作为奖励函数, 这标定了 RLVR 的上限.
多数投票 (Majority Vote) 奖励: 通过多数投票的方式估计标签 (标签很可能是错误的), 以此作为奖励函数.
格式化 (Format) 奖励: 当模型输出最后包含 \box{} 时, 给予奖励, 否则不奖励. 这个奖励函数与正确答案无关.
随机 (Random) 奖励: 随机生成奖励.
错误 (Incorrect) 奖励: 只对错误的答案给予奖励, 正确答案不奖励.

论文围绕了一个小问题展开: 问大模型 $(2,-6)$ 和 $(-4,3)$ 的距离是多少?

不同模型在推理策略上存在先存差异

有些强模型会尝试写 Python 代码来计算距离, 尽管实际上它们并没有代码运行环境. 这种行为称为代码推理 (Code Reasoning), 且实验表明代码推理与准确率呈现强正相关性. 有些弱模型不生成代码, 或者对于代码生成性能弱.

RLVR 在引入虚假奖励时可以增强预存的推理策略

在进行 RLVR 训练后, 代码推理的频率迅速增加, 与准确度提升高度相关; 随机奖励则相对缓慢, 但最终也达到了相似的水平. 此后随着模型自然语言推理准确度的提高, 这一频率逐渐下降, 这表明模型正在从高质量的真实标签奖励中学习真正的知识.

推理策略切换对性能的细化影响

对于所有较弱和虚假的奖励, 模型在 RLVR 后更倾向于使用代码推理. 虚假奖励上的准确度提升主要是通过激发模型使用正确的推理策略实现的.

随机奖励与策略裁剪

关于随机奖励的问题, 论文证明了尽管优势期望值为零, 但由于损失函数中的 clip 机制, GRPO 损失的期望梯度并非为零.

为了验证这个想法, 论文进行了一组对比, 同样使用随机奖励, 区别是是否进行 $(1-\epsilon, 1+\epsilon)$ 重要性采样比裁剪. 结果表明, 在没有裁剪的情况下, 随机奖励不能给模型带来任何提升.

因此综合来看, 论文推测, 在随机奖励训练中, 看似 “训练信号” 实际上是优化算法偏向利用预训练中学习到的先验知识的结果.

Sherlock: 自我纠正推理

论文 [] Unknown-material 指出, 使用 SFT 或 RL 训练的模型缺乏逐步和响应层面自我纠正的能力. 一旦出现错误, 模型难以修正其推理, 往往无法从错误中恢复.

自我纠正

对于推理模型, 自我纠正行为可以有两种实现方式:

逐步骤纠正: 模型在其单次思考过程中反思其之前的第 i 步错误, 并对其进行修正:
$$ (r, y_{i+1}, \cdots, y_n; a) \sim \pi(\cdot| x_{I \& T}; y_1, \cdots, y_i^*) $$
其中 $y_i$ 代表第 $i$ 步推理, $a$ 是最终答案, $r$ 是模型的反思提示词 (如 “但是”, “等等”), $x_{I \& T}$ 是输入的图像和文本, $y_i^*$ 是错误的推理.
逐响应纠正: 模型尝试纠正其之前的错误响应:
$$ (y_1^2, \cdots, y_n^2; a) \sim \pi(\cdot| x_{I \& T}; y_1^1, \cdots, y_n^1; t) $$
其中 $y^j, a^j$ 是模型的第 $j$ 次尝试响应.

Sherlock

为解决这一局限, 论文 [] 引入所谓 Sherlock 算法来教导模型自我纠正, 从而增强其推理能力.

算法Sherlock I: SFT 冷启动 从已知数据集中随机采样样本, 形成训练集 $\mathcal{D}_A$; 再次采样形成 $\mathcal{D}_B$, 这些样本包含高质量的 COT. 在 $\mathcal{D}_A$ 上使用普通监督微调 (SFT) 训练基础 VLM，得到模型 $R0_{\mathrm{VLM}}$。 对于每个样本 $(x_{I\&T}, Y^w)$ 在 $\mathcal{D}_B$ 中, 保留原本标签 $Y^w$, 同时用 $R0_{\mathrm{VLM}}$ 生成一个推理轨迹 $Y^l$, 组合成新数据集 $\mathcal{D}_{\mathrm{Sherlock}} = (x_{I\&T}, Y^w, Y^l)$。 使用如下公式中的损失函数, 联合 直接生成 (Direct Generation) 和 自我纠正 (Self-Correction) 两个任务.: $$ \mathcal{L}_{\mathrm{Sherlock-SFT}}(\pi) = -\mathbb{E}_{(x_{I\&T}, Y^w, Y^l) \sim \mathcal{D}_{\mathrm{Sherlock}}} \left[ \log \pi(Y^w | x_{I\&T}) + \log \pi(Y^w | x_{I\&T}, Y^l, t) \right] $$II. 离线偏好训练 现在对于初始轨迹 $Y^1 = (y_1^1, \cdots, y_n^1;a^1)$, 我们假定此时已经有一部分推理正确, 需要在生成一个更好的轨迹 $Y^2 = (y_1^2, \cdots, y_n^2;a^2)$. 随机在 $1 \sim n$ 中采样一个整数 $i$, 此时我们假定 $Y^1_{\lt i}$ 是正确的, 希望生成更好的 $Y^2_{\ge i}$. 按照如下公式: $$ \max_{\pi}\mathbb{E}_{Y_{\geq i}^{2}\sim\pi(\cdot|[x_{I\&T},Y^{1},t;Y_{\lt i}^{2}])}\left[p(Y_{\geq i}^{2}\succ Y_{\geq i}^{1}|x_{I\&T};Y_{\lt i}^{2})-\beta D_{\mathrm{KL}}(\pi\|\pi_{\mathrm{ref}}|[x_{I\&T},Y^{1},t;Y_{\lt i}^{2}])\right]\\+\mathbb{E}_{Y_{\geq i}^{2}\sim\pi(\cdot|[x_{I\&T},Y^{1},t;Y_{\lt i}^{1}])}\left[p(Y_{\geq i}^{2}\succ Y_{\geq i}^{1}|x_{I\&T};Y_{\lt i}^{1})-\beta D_{\mathrm{KL}}(\pi\|\pi_{\mathrm{ref}}|[x_{I\&T},Y^{1},t;Y_{\lt i}^{1}])\right] $$$t$ 是一个指令. 即希望 $Y_{\geq i}^{2}$ 在 $Y_{\lt i}^{2}$ 的条件下, 能够比 $Y_{\geq i}^{1}$ 更好, 且与参考模型 $\pi_{\mathrm{ref}}$ 尽量接近. 要最大化此式, 设: $$ v(x, Y^1, t; Y_{\lt i}^{1}, Y_{\lt i}^{2}; \pi_{\theta}) = \beta \log \rho(Y_{\geq i}^{2} | [x, Y^1, t; Y_{\lt i}^{2}]) - \beta \log \rho(Y_{\geq i}^{1} | [x, Y^1, t; Y_{\lt i}^{1}]) \\ u(x, Y^1, t; Y_{\lt i}^{1}, Y_{\lt i}^{2}; \pi_{\theta}) = \beta \log \rho(Y_{\geq i}^{2} | [x, Y^1, t; Y_{\lt i}^{1}]) - \beta \log \rho(Y_{\geq i}^{1} | [x, Y^1, t; Y_{\lt i}^{2}]) $$其中 $\rho$ 表示 $\pi_{\theta}$ 和 $\pi_{\mathrm{ref}}$ 的重要性采样比, 前一项是鼓励生成更好的轨迹, 后一项是惩罚生成更差的轨迹. 论文证明采用 MSE 误差函数: $$ \begin{aligned} L_{\mathrm{SC}}(\pi_{\theta}; \pi_{\mathrm{ref}}) &= \mathbb{E}_{(x, Y^w, Y^l) \sim \mathcal{D}} \left[ 1 - v(x_{I\&T}, Y^l, t; Y_{\lt i}^{l}, Y_{\lt i}^{w}; \pi_{\theta}) - u(x_{I\&T}, Y^l, t; Y_{\lt i}^{l}, Y_{\lt i}^{w}; \pi_{\theta}) \right]^2 \\ & + \mathbb{E}_{(x, Y^w, Y^l) \sim \mathcal{D}} \left[ 1 + v(x_{I\&T}, Y^w, t; Y_{\lt i}^{w}, Y_{\lt i}^{l}; \pi_{\theta}) + u(x_{I\&T}, Y^w, t; Y_{\lt i}^{w}, Y_{\lt i}^{l}; \pi_{\theta}) \right]^2 \end{aligned} $$ 随后再加上 DPO 的损失函数 (前面做的工作已经是偏好优化策略, 再加上这个的目的存疑): $$ L_{\mathrm{Sherlock}}(\pi_{\theta}; \pi_{\mathrm{ref}}) = L_{\mathrm{SC}}(\pi_{\theta}; \pi_{\mathrm{ref}}) + \alpha L_{\mathrm{DPO}}(\pi_{\theta}; \pi_{\mathrm{ref}}) $$ 在此过程中可以根究不同的 $i$ 采用不同的 $\beta$: $$ \beta(i, n, \epsilon) = \frac{1}{4\left( 0.5 + \left( \frac{i}{n} \right)^{0.5 + \epsilon / 2} \right)} $$当截断较早, $i$ 较小, $\beta$ 较大, 使得模型更倾向于靠拢 $\pi_{\mathrm{ref}}$, 产生更谨慎的更新, 反之亦然. III. 迭代在线偏好训练 在线迭代训练与离线阶段唯一的区别是没有 ground-truth 的回答 $Y^w$. 对于每个直接生成的 $Y^1$, 我们进行三轮自我纠正以获得 $Y^2, Y^3, Y^4$. 应用自我一致性过滤策略: 如果三个纠正响应的最终答案在语义上相同 ($a^2 = a^3 = a^4$), 则认为 $Y^4$ 是偏好回应, $Y_1$ 是非偏好回应. 否则跳过此次训练. 为进一步减小模型偏好优化的噪声, 让初始的 $Y^1$ 变得更差: 维持 $Y^{l}_{\lt i} = Y^{1}_{\lt i}$, 但对于 $Y^{l}_{\ge i}$ 则在 $Y^{1}_{\ge i}$ 的基础上进行扰动. 随后按照离线偏好训练的方式继续进行.

实验

论文指出现有的模型并不能通过自我纠正提高推理能力, 经过 Sherlock 进行训练后, 再进行自我纠正, 模型的推理能力有了显著提升.

论文进行了消融实验, 验证了 DPO 损失, SC 损失和动态 $\beta$ 的有效性.

Objection!

刚才提及的多数论文都是错的! 一篇未正式发布的文章 [] Unknown-material 要打假, 尤其是有关随机奖励的内容, 批驳的论文如下图:

文章声称, 这是因为预-RL 模型的 Baseline 相比 Qwen 发布的官方数据或其它标准化评估被严重低估了, 在很多情况下，经过 RL 后的模型性能实际上比它们开始时的 (正确评估的) 预-RL Baseline 还要差!

主要问题在于这些论文没有开放数据权重, 导致不能测试, 因而论文的证据不具有说服力. 作者提出了几个可能错误低估的原因:

格式: 数学基准测试使用精确匹配评估, 模型需要以特定格式作答, 例如在 \boxed{} 内, 有时模型未能遵循格式. 如果模型解决了问题并得到正确答案, 但未能正确格式化, 并不意味着模型的推理能力存在问题. 应该事先通过示例提示或在进行格式演示的少量样本 SFT 来解决 LLMs 的格式问题.
温度: Qwen3 模型页面上关于最佳设置有明确的建议. 有几篇论文把温度设置太低, 导致降低准确率.
测试规模: 有的论文使用的 Benchmark 规模太小, 方差太大.
token 长度: 有些模型需要较长的推理流程, 截断较小时会导致模型无法完成响应, 进而降低准确率.

	系数 $a$	系数 $b$
数学任务
代码任务