RL on LeoDreamer

论文阅读 - 智能体强化学习

Wed, 13 May 2026 00:00:00 +0000

综述 [] Unknown-material 给出了一个相当全面的视角, 明确地把 Agentic RL 和传统的 LLM RL 区分开来了. 传统 LLM RL 常常只是在固定 prompt 上优化一个回答, 而 Agentic RL 关心的是一个 LLM policy 在开放环境中如何观察/行动/调用工具/维护记忆/规划/修正策略, 并从长程反馈中学习.

综述给出的定义如下:

Agentic RL 指的是把 LLM 视作嵌入序列决策循环中的可学习策略, 并通过 RL 赋予它规划、推理、工具使用、记忆维护、自我反思等自主能力, 使其能在部分可观测、动态、长程环境中形成稳定行为.

从 LLM RL 到 Agentic RL

传统 RLHF 或 RFT 的基本图景一般是从人类偏好、奖励模型或可验证答案中得到奖励信号, 然后让语言模型更偏向高奖励输出.

偏好式 RFT 可以近似写成退化的马尔可夫决策过程 (MDP):

$$ \left\langle S_{\mathrm{trad}}, A_{\mathrm{trad}}, P_{\mathrm{trad}}, R_{\mathrm{trad}}, T=1,\gamma=1 \right\rangle $$

而 Agentic RL 通常是这样的:

$$ \left\langle S_{\mathrm{agent}}, A_{\mathrm{agent}}, P_{\mathrm{agent}}, R_{\mathrm{agent}}, \gamma, O \right\rangle $$

这里援引一下综述给出的对比表格:

概念	传统 LLM RL	Agentic RL
$S$ (状态空间)	$\{s_0\}$, 状态基本就是 prompt	$s_t \in \mathcal{S}_{\text{agent}}$, 拥有观察 $o_t = O(s_t)$, 通常 $T \gt 1$
$A$ (动作空间)	完整文本序列	$A_{\text{agent}} = A_{\text{text}} \cup A_{\text{action}}$ 包含文本生成和环境交互动作 (如是否调用搜索引擎, 修改代码并运行测试)
$P$ (转移概率)	直接转移到终止状态	动态转移函数 $P(s_{t+1} \mid s_t,a_t)$
$R$ (奖励函数)	往往只对完整回答打分	逐 step $R(s_t,a_t)$, 稀疏任务和紧密的子奖励
$J(\theta)$ (优化目标)	$J(\theta) = \mathbb{E}_{a \sim \pi_0} [r(a)]$	$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} [\sum_{t=0}^T \gamma^t R(s_t,a_t)]$

算法Agentic-RL 输入 > 环境集合 $\mathcal{E}$, 初始 LLM policy $\pi_\theta$, 奖励函数或奖励模型 $R$, rollout budget $B$, 更新算法 $\mathcal{A}$. 输出 > 经过交互训练后的 agent policy $\pi_{\theta'}$. 从环境集合中采样任务 $e \sim \mathcal{E}$, 初始化状态 $s_0$ 和观察 $o_0$. 构造上下文 $h_0 = \mathrm{Prompt}(o_0, m_0, g)$, 其中 $m_0$ 是记忆, $g$ 是任务目标. 对 $t=0,\ldots,T-1$: 用 $\pi_\theta(a_t|h_t)$ 采样语义动作 $a_t$. 如果 $a_t$ 是工具调用, 则执行工具并写入观察; 如果是 GUI 或代码动作, 则更新外部环境. 环境返回 $o_{t+1}$, 奖励 $r_t$, 以及终止标记. 更新上下文 $h_{t+1}=\mathrm{Update}(h_t,a_t,o_{t+1},m_t)$. 收集轨迹 $\tau=(h_t,a_t,r_t)_{t=0}^{T}$. 用 $\mathcal{A}$ 更新策略, 例如 PPO、GRPO、DPO 或其他 actor-critic / preference optimization 变体. 重复步骤 1-5, 直到策略在验证环境中稳定提升.

重要文献坐标系

下面为 AI 辅助找出的重要文献

方向	代表文献	解决的问题	对 Agentic RL 的意义
RLHF 源头	,	如何用人类偏好训练策略	给 LLM RL 提供 reward model + policy optimization 的起点
RL 基础算法	, ,	如何稳定优化语言模型 policy	形成 PPO / DPO / GRPO 三条主线
交错推理与行动		如何让 LLM 一边思考一边作用于环境	让 “reasoning trace” 与 “environment action” 合流
搜索式规划	, ,	如何探索多条思维/行动路径	把 planning、MCTS、value function 引入 agent 推理
工具使用	,	何时调用工具、如何生成工具参数	从 prompt-time tool use 走向 RL-trained tool use
记忆与反思	, ,	如何跨 episode 积累经验	让 agent 拥有可更新的语言记忆和技能库
过程监督		长链推理如何分配信用	为 step-wise reward / PRM / agent critic 提供依据
Web / GUI 环境	, ,	如何构造可交互、可评估的真实环境	让 agent 训练不再停留在静态问答
SWE 任务		真实代码仓库 issue 修复	把 agentic code RL 推向真实软件工程
通用评测与训练框架	,	多环境评测与训练标准化	提供跨任务 agent 能力比较
训练基础设施	, ,	如何把 RL 训练扩展到大模型和复杂 agent	支撑可复现实验与工程化训练

算法主线

Agentic RL 不是一个固定算法名, 它更像一个任务范式. 具体到优化层面, 综述把 PPO、DPO、GRPO 及其变体作为主干.

近端策略优化

近端策略优化 (Proximal Policy Optimization, PPO) [] 核心是限制新旧策略比率:

$$ \rho_t(\theta)=\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\mathrm{old}}}(a_t|s_t)} $$

常用的 clipped objective:

$$ \mathcal{L}^{\mathrm{CLIP}}(\theta) = \mathbb{E}_t \left[ \min\left( \rho_t(\theta)\hat{A}_t, \mathrm{clip}(\rho_t(\theta),1-\epsilon,1+\epsilon)\hat{A}_t \right) \right] $$

对 LLM 来说, PPO 的优点是清晰, 但它通常要 policy 和 value 两个模型, 还要处理长序列训练的显存和吞吐问题. 当 agent 进一步包含工具调用、环境状态和多轮交互时, PPO 的 rollout 与信用分配难度会进一步增加.

直接偏好优化

直接偏好优化 (Direct Preference Optimization, DPO) [] 绕开显式 reward 和在线 RL 循环, 直接从 pairwise preference 中优化 policy. 对于样本 $(x,y_w,y_l)$, DPO 形式上可写成:

$$ \mathcal{L}_{\mathrm{DPO}} = -\log \sigma \left( \beta \left[ \log\frac{\pi_\theta(y_w|x)}{\pi_{\mathrm{ref}}(y_w|x)} - \log\frac{\pi_\theta(y_l|x)}{\pi_{\mathrm{ref}}(y_l|x)} \right] \right) $$

在 Agentic RL 中, DPO 不再比较两个短回答, 而是比较两个 action 片段.

组相对策略优化

DeepSeekMath [] 提出的组相对策略优化 (Group Relative Policy Optimization, GRPO) 可以看成 “去 critic 化” 的 PPO 变体. 它在同一 prompt 下采样一 “组” 输出, 即同一个问题采样多个解答, 可验证任务给每个解答打分, 组内比较就能得到相对优势. DeepSeek-R1 [] 进一步把这种思路推到了推理模型训练上.

算法GRPO 输入 > 任务 $x$, 当前策略 $\pi_\theta$, 参考策略 $\pi_{\mathrm{ref}}$, 每组采样数 $G$, 奖励函数 $R$. 输出 > 更新后的策略 $\pi_{\theta'}$. 对同一任务 $x$ 采样 $G$ 条 agent 轨迹: $\tau_1,\ldots,\tau_G$. 对每条轨迹执行环境评估, 得到 $r_i=R(x,\tau_i)$. 计算组内标准化优势: $$ \hat{A}_i=\frac{r_i-\mu_r}{\sigma_r+\epsilon} $$ 对每条轨迹中的 token / action 计算新旧策略比率. 使用 clipped policy objective 计算损失: $$ \mathcal{L}^{\mathrm{GRPO}}(\theta) = \frac{1}{G}\sum_{i=1}^G \min\left( \rho_i(\theta)\hat{A}_i, \mathrm{clip}(\rho_i(\theta),1-\epsilon,1+\epsilon)\hat{A}_i \right) $$ 加入 KL 散度正则, 避免策略偏离 $\pi_{\mathrm{ref}}$ 过远. 重复采样和更新.

能力视角

综述的第三节按能力拆解 Agentic RL.

计划

早期 agent planning 常靠提示词工程. ReAct [] Unknown-material (ICLR 2023 Notable) 的关键贡献在于把推理轨迹和动作交错在一起. 论文的关键建模方式是把原本的动作空间 $A$ 扩展成 $\hat{A} = A \cup L$, 其中 $L$ 是语言空间.

算法ReAct 输入 > 任务输入 $x$, 外部环境/工具 $\mathcal{E}$, LLM policy $\pi_\theta$, 动作空间 $\mathcal{A}$, 语言推理空间 $\mathcal{L}$, 最大交互步数 $T$, few-shot ReAct 示例 $\mathcal{D}_{demo}$. 输出 > 最终答案/任务结果 $y$, 以及推理-行动轨迹 $\tau$. 初始化上下文 $$ h_0 = [\mathcal{D}_{demo}; x], $$ 初始化轨迹 $\tau=\emptyset$. 对 $t=0,1,\dots,T-1$, 模型基于当前上下文生成下一步: $$ z_t \sim \pi_\theta(\cdot \mid h_t) $$ 如果是自然语言推理 $z_t=\texttt{Thought}(r_t)$, 将推理文本加入轨迹, 并更新上下文: $$ \tau \leftarrow \tau \cup { \texttt{Thought}(r_t) } $$ $$ h_{t+1} = h_t \oplus \texttt{Thought}(r_t) $$ 如果是对环境执行的动作 $z_t=\texttt{Action}(a_t)$, 在环境中执行动作, 并将动作和观察写入轨迹: $$ o_t = \mathcal{E}(a_t) $$ $$ \tau \leftarrow \tau \cup { \texttt{Action}(a_t), \texttt{Observation}(o_t) } $$ $$ h_{t+1} = h_t \oplus \texttt{Action}(a_t) \oplus \texttt{Observation}(o_t) $$ 如果是最终答案或任务完成信号, $z_t=\texttt{Finish}(y)$, 将最终答案写入轨迹: $$ \tau \leftarrow \tau \cup { \texttt{Finish}(y) } $$ 随后结束 rollout, 返回 $(y,\tau)$.

Tree of Thoughts [] (NIPS 2023 Oral) 则把思考链扩展成了思考树, 它把思考当作可扩展节点, 让模型生成、评估和回溯.

对于思考生成, 从当前状态 $s=[x,z_{1:i}]$ 生成 $k$ 个候选思考, 论文给了两种方式 (对应算法的 $G$):

一种是从 CoT prompt 独立采样多个候选, 适合开放空间
另一种是一个 prompt 里连续生成 k 个不同的下一步, 适合约束较强的任务.

对于状态评估, 这个是 ToT 框架最大的创新之一, 就是利用 LLM 自己来充当评估器, 为搜索算法提供启发式信息, 也有两种方式 (对应算法的 $V$):

价值评估: 让 LLM 直接给当前状态打分, 或者给出一个分类 (比如 sure/likely/impossible)
投票表决: 让 LLM 比较几个不同的分支, 然后投票选出最有希望的一个.

关于模型推理, 论文给出了 BFS 和 DFS 两种流程, 这里以 DFS 为例:

算法Tree of Thought - DFS 输入 > 当前状态 $s$, 当前深度 $t$, LLM policy $p_\theta$, 思考生成器 $G$, 每个状态生成候选数 $k$, state evaluator $V$, 最大深度 $T$, 剪枝阈值 $v_{\mathrm{th}}$. 输出 > 候选答案集合 $\mathcal{Y}$, 搜索轨迹 $\tau$. 如果 $t>T$, 基于当前状态生成最终答案并返回. $$ y = G(p_\theta, s, 1) $$ $$ \mathcal{Y} \leftarrow \mathcal{Y} \cup {y} $$ 从当前状态生成 $k$ 个候选下一步 thought: $$ Z = G(p_\theta, s, k) $$ 对每个候选 thought $z \in Z$, 构造新状态: $$ s'=[s,z] $$ 对新状态进行评估: $$ v = V(p_\theta,{s'})(s') $$ 如果 $v > v_{\mathrm{th}}$, 递归搜索: $$ \texttt{DFS}(s',t+1) $$ 返回候选答案集合 $\mathcal{Y}$ 和完整搜索轨迹 $\tau$.

RAP [] 更进一步, 把 LLM 复用成世界模型和推理 agent, 用 MCTS 探索推理树, 这里不再赘述.

这几篇文献的共同点是, planning 不只是生成计划, 而是搜索计划空间. 接入 RL 后, 它可以训练价值函数, 训练计划选择, 甚至直接训练策略产生更好的计划动作.

工具调用

工具调用可以被看成一种离散行动:

$$ a_t=(\mathrm{tool\_name}, \mathrm{arguments}) $$

Toolformer [] Unknown-material (NIPS 2023 Oral) 证明语言模型可以通过自监督方式学会 API 调用: 模型先生成候选 API 调用, 执行工具, 再过滤出能提升语言模型似然的调用样本.

算法Toolformer-API-Annotation 输入 > 普通文本语料 $\mathcal{C}={x^{(1)},\dots,x^{(N)}}$, 基础语言模型 $M$, API 集合 $\mathcal{A}$, 每个 API 的少量 demonstration prompt $P_a(\cdot)$, 最大候选位置数 $k$, 每个位置最大候选 API call 数 $m$, 采样阈值 $\tau_s$, 过滤阈值 $\tau_f$. 输出 > 带 API 调用标注的语料 $\mathcal{C}^{*}$. 初始化 $\mathcal{C}^{*}\leftarrow \emptyset$. 对每篇文本 $x=(x_1,\dots,x_n)\in \mathcal{C}$ 和每个工具/API $a\in \mathcal{A}$ 构造 few-shot API 标注的 prompt $P_a(x)$, 比如形如 <API>a(i)</API>, 展示如何在普通文本中插入该 API 的调用格式. 对每个 token 位置 $i$, 计算模型在该位置开始 API 调用的概率: $$ p_i = p_M(\langle API\rangle \mid P_a(x), x_{1:i-1}) $$ 保留满足阈值的位置: $$ I=\{i \mid p_i>\tau_s \} $$ 如果 $|I|>k$, 只保留概率最高的 $k$ 个位置. 对每个候选位置 $i\in I$, 从模型中采样最多 $m$ 个 API 调用并执行: $$ c_i^1,\dots,c_i^m \sim M(P_a(x),x_{1:i-1},\langle API\rangle) $$ $$ r_i^j = a(c_i^j) $$ 对每个候选调用 $(c_i^j,r_i^j)$, 计算不调用工具/只给 API 输入, 不给工具返回/给 API 输入和工具返回三种情况下模型预测未来 token 的 loss: $$ L_i(\epsilon), ~ L_i(e(c_i^j,\epsilon)), ~ L_i(e(c_i^j,r_i^j)) $$ 定义: $$ L_i^+ = L_i(e(c_i^j,r_i^j)) $$$$ L_i^- = \min \left(L_i(\epsilon), L_i(e(c_i^j,\epsilon))\right) $$ 如果工具返回真的帮助模型预测后续文本, 即: $$ L_i^- - L_i^+ \geq \tau_f $$ 则保留该 API call. 将所有保留的 API call 插入原始文本: $$ x^* = x_{1:i-1}, e(c_i,r_i), x_{i:n} $$ $$ \mathcal{C}^{*}\leftarrow \mathcal{C}^{*}\cup {x^*} $$ 返回 $\mathcal{C}^{*}$.

Search-R1 [] Unknown-material 是一个很典型的 Agentic RL 方向, 让模型在逐步推理中通过 RL 学会多轮搜索查询, 并处理实时检索结果.

算法Search-R1 输入 > 问题 $q$, 搜索工具 $\mathcal{S}$, LLM policy $\pi_\theta$, 最大搜索次数 $K$. 输出 > 答案 $y$ 和搜索-推理轨迹 $\tau$. 初始化上下文 $h_0=q$, 搜索次数 $k=0$. 模型生成下一步: 推理文本、搜索请求或最终答案. 如果动作为 Search(query) 且 $k\lt K$ : 执行 $\mathcal{S}(\mathrm{query})$. 把检索结果作为 observation 写入上下文. $k \leftarrow k+1$. 如果动作为 Answer(y), 结束 rollout. 用最终答案正确性、搜索成本、格式合法性等构造 reward. 通过 GRPO / PPO 更新 policy.

其奖励设计非常简单——精准匹配0/1奖励. 此外实测发现 GRPO 收敛快, 但训练后期容易奖励崩塌, PPO 虽然收敛慢, 但更稳定, 最终性能更好, 所以默认用 PPO.

记忆

MemGPT [] Unknown-material 借鉴传统操作系统中虚拟内存管理的核心思想, 提出一种分层记忆系统, 使其能够智能地在快速但有限的"主上下文" (类比 RAM) 和慢速但海量的"外部上下文" (类比磁盘) 之间进行信息的换入换出.

运作机制:

用户输入、系统警告 (如主上下文接近上限, 产生内存压力) 或其他预设会触发 LLM 进行推理.
LLM根据系统指令和当前上下文, 决定是否需要以及如何管理其记忆. 例如: 当FIFO队列过长, 触发“内存压力”警告, LLM可以调用函数将队列中的重要信息存入工作上下文或档案存储.
当需要回忆过去的对话细节或查询文档时, LLM调用函数从回忆存储或档案存储中检索信息, 并将其加载到主上下文中. 当工作上下文中的信息过时或不再相关, LLM可以更新或移除它们.
函数执行的结果 (包括成功信息或错误信息) 会反馈给LLM, 更新其主上下文, 并可能触发后续的函数调用链 (例如分页查询) .

这里所有调用函数都是由 LLM 自己决定的, 包括何时调用、调用哪个函数、以及如何处理函数返回的结果. 这种设计使得 LLM 不仅是一个被动的记忆存储器, 而是一个主动的记忆管理者, 能够根据当前任务需求和系统状态动态调整其记忆策略.

Reflexion [] (NIPS 2023) 不更新模型权重, 而是让 agent 根据失败反馈写下文字反馈, 存入片段性的记忆, 供下一次尝试使用. 把语言形式的经验当作一种近似的策略提升.

推理

DeepSeek-R1 [] 指出大规模 RL 可以在没有人工标注推理轨迹的情况下诱导出某些推理行为. 不过, 综述中特别提到过度思考的现象: agentic 推理可能因为过度搜索、过度验证、工具调用循环而变慢甚至变差.

任务视角

综述第四节按任务展开. AI 辅助整理如下:

任务	环境真实性	奖励可验证性	难点
数学推理	低	高	reward 容易, 但容易过拟合格式和长度
代码生成	中	高	单函数任务较清晰, 仓库级任务信用分配难
搜索研究	中	中	信息质量、引用可靠性和搜索成本难统一
Web / GUI	高	中	观测/动作接地难
软件工程	高	高	测试、构建、依赖和长上下文开销大
具身	高	低	稀疏奖励、长 horizon、环境随机性
多智能体	高	低	非平稳性、协作信用分配、通信协议

Search Agent

网页搜索是最自然的 agentic 任务之一. 简单 RAG 通常把检索当成固定预处理, 但 research agent 需要决定搜索计划、重写查询、交叉验证来源、归纳冲突信息、生成报告.

Search-R1 [] 让模型通过 RL 学会在推理过程中主动搜索. 它比较接近 ReAct, 但重点从 prompt 模式变成了策略训练. 这类任务的 reward 设计通常要考虑多方面因素:

$$ R = R_{\mathrm{answer}} + \lambda_1 R_{\mathrm{citation}} - \lambda_2 C_{\mathrm{search}} - \lambda_3 R_{\mathrm{hallucination}} $$

其中 $C_{\mathrm{search}}$ 是搜索成本, $R_{\mathrm{citation}}$ 是来源支撑度, $R_{\mathrm{hallucination}}$ 则惩罚无来源断言.

Code / SWE Agent

CodeRL 一类方法证明了可执行反馈对代码生成有效.

SWE-bench [] (ICLR 2024) 给出了一种仓库级 benchmark. 它从 12 个流行 Python 仓库抓取约 9 万个 PR；再保留 merged、关联 issue、且修改测试文件的 PR；最后用执行过滤验证这些 PR 是否能产生 fail-to-pass 测试. 一个 SWE-bench task instance 可以抽象成:

$$ \mathcal{I} = (P, C, T, \delta) $$

其中:

$P$: problem statement, 也就是 GitHub issue 文本;
$C$: 代码库在 PR base commit 处的快照;
$T$: 由 PR 中测试文件变化提取出的测试集合;
$\delta$: 真实 PR 的 gold patch, 也是模型要预测的目标.

需要注意, 模型可以生成和真实 PR 不一样的 patch, 只要能解决 issue 并保持已有测试通过, 就算成功

Math Agent

数学任务是 RLVR 最合适的温床. 主要在于其答案通常可验证, 采样多个解答再组内比较也容易. DeepSeekMath 和 DeepSeek-R1 的路径说明, 在数学和形式化任务上, GRPO / PPO 这类方法能诱导更长、更自检的推理过程.

形式数学里的 reward 更可验证, 但动作空间也更困难. 而非形式数学则较难以检查过程正确性.

GUI / Web Agent

综述 [] 有关 GUI Agent 只列举了几个 Benchmark: WebShop [] 是早期网络环境, agent 根据商品需求导航网页、搜索、筛选并购买. WebArena [] 则把 web agent 推向更真实的自发主持的网站环境, 包括电商、论坛、代码协作和内容管理等网站. OSWorld [] 的 benchmark 进一步让 agent 操作真实桌面系统和应用.

由于此课题目前我们更关注, 我又检索到有关 GUI Agent 的另一篇综述 [] .

小结

这篇综述 [] 相当详细, 分成了如上所说的几个方面. 其中任何一项缺失, 都很难称为真正的 Agentic RL.

从我理解来看, 和一般的 RL 相比, agentic RL 具有明显的自发性——它不像传统 RL 那样在一个固定环境里被动学习, 并接受一个人为设计的奖励函数, 而是需要在一个开放动态的环境中, 自主地观察行动和修正策略, 在此期间模型还可以借助各种工具, 来填补记忆存储的空白. “Planning” 这个概念也相当独特, 这意味着模型需要能够在面对复杂问题时自发拆解, 规划行动路径. 它显然并不是用于完成某一项固定的任务, 而是需要通过广泛的动作空间和环境观察, 提升自身对不同环境的泛化适应能力.

论文阅读 - 测试时强化学习

Thu, 29 May 2025 00:00:00 +0000

测试时强化学习

TTA

通常情况下, 深度学习模型在训练完成后就固定了参数, 在测试或部署阶段不再更新. 但在实际应用中, 测试数据可能与训练数据的分布存在差异, 导致模型性能下降. 因此后续的微调显得非常重要.

定义 测试时适应 (Test-time Adaption, TTA) 算法指在不使用真实标签的前提下, 利用当前测试样本或其增强版本来在线微调模型, 使其更适应当前的输入分布. 常见的测试时适应算法包括: 自适应批归一化 : 在测试阶段对批归一化层的均值和方差进行调整, 使其更适应当前输入分布, 同时不修改学习参数 gamma 和 beta . 熵最小化 : 在测试阶段通过最小化模型输出的熵来提高模型的自信度, 最典型的如 TENT .

过往的 TTA 算法一般基于无监督学习, 即便是强化学习算法, 需要辛苦设计奖励函数, RLHF 需要人工标注数据, 成本高昂.

TTRL

论文 [] Unknown-material 开创性地提出了 测试时强化学习 (Test-Time Reinforcement Learning, TTRL) 算法 (后面几篇论文都是在此基础上进行改进). TTRL 通过强化学习的方式, 在测试时对模型进行微调, 使其更好地适应当前输入分布.

在 无监督 的情况下, 怎么设置奖励函数? 论文的策略非常简单: 多数投票.

算法TTRL 输入 > 一个模型 $f_{\theta}$, 测试样本 $x$. 输出 > 微调后的模型 $f_{\theta'}$. 对输入 $x$ 做多次预测, 得到预测结果 $y_i$. 统计每个预测结果的出现次数, 设最常见的预测结果为 $y^*$, 称为一致动作. 计算奖励函数 $R(y_i)$: $$ R(y_i) = \mathbb{I}(y_i = y^*) $$ 通过梯度上升更新模型参数 $\theta$ 为 $\theta'$: $$ \theta' = \theta + \eta \nabla_{\theta} \mathbb{E}_{y_i \sim f_{\theta}(x)}[R(y_i)] $$

效果非常显著, 甚至可以与带有有一定数据泄漏的监督方案相媲美.

为什么能做这么好? 论文 [] 给出了三个原因:

标签估计: TTRL 引入标签估计, 尽管存在不确定性, RL 仍具有一定鲁棒性, 且通常比 SFT 具有更好的泛化能力.
奖励函数设计: “幸运命中” (lucky hit) 现象, 即便预测不准确, 只要估计标签与预测答案不同, 验证器就能分配正确的 $0$ 奖励. 实验表明, 尽管多数投票的标签估计可能不准确, 但奖励函数的估计却非常准确. 原因是模型输出概率非常分散, 因此即使标签未被准确估计, 由于 “幸运命中”, 大多数输出仍然可以收到正确的奖励.
在线学习: TTRL 是在线学习算法, 可以在测试时不断更新模型参数, 使其更好地适应当前输入分布.

基于熵最小化的强化学习

论文 [] Unknown-material 给出基于最小化熵的强化学习算法 (Reinforcement Learning via Entropy Minimization, RENT). 基于 GRPO 框架测试, 把奖励函数设置为负熵, 认为只通过最小化输出的熵, 即可提高模型推理能力.

$$ R(o) = -\mathcal{H}(p_{\pi_{\theta}}(\cdot|o)) = -\sum_{i=1}^{|V|} p_{\pi_{\theta}}(i|o) \log p_{\pi_{\theta}}(i|o) $$

内部反馈的强化学习

除了 KL 正则化等等项之外, 我们关心奖励函数的设计. 这个奖励要与任务无关, 而由模型内部的反馈来决定. 与 [] 提出的负熵奖励不同, 论文 [] Unknown-material 给出了另一个置信度函数:

$$ R(o) = \frac{1}{|o|}\sum_{i=1}^{|o|}KL(U \| p_{\pi_{\theta}}(\cdot|o_{\lt i})) = -\frac{1}{|o| \cdot |V|} \sum_{i=1}^{|o|}\sum_{j=1}^{|V|} \log \left( |V| \cdot p_{\pi_{\theta}} (j|o_{\lt i}) \right) $$

其中 $o$ 是 token 序列, $U$ 表示均匀分布.

带有 CLIP 反馈的强化学习

对于一般任务, 传统的测试时适应算法要最小化熵, 但很显然这个方式容易陷入错误的模型预测中. 与监督微调模型相比, 带有反馈的学习模型有更好的泛化能力.

CLIP

文章 [] Unknown-material 通过引入 CLIP 反馈来解决置信度过高问题, 称为 RLCF(如下图).

除了分类任务外, 通过特定任务的采样策略和适当的选择奖励基线, RLCF 可以很容易地扩展到不仅仅是检索这样的区分任务, 还可以扩展到图像字幕这样的泛化任务.

我们现在关心视觉语言模型 (VLM), 因此要衡量跨模态的相似性. 对比语言-图像预训练 (Contrastive Language-Image Pre-training, CLIP) 模型通过对图像和文本进行编码, 使得它们在同一个共享的向量空间中具有相似的表示.

算法CLIP 输入 > 图像 $v$ 和文本 $t$. 输出 > 图像和文本的相似度分数 $s(v,t)$. CLIP 训练两个编码器: 图像编码器 $g$ 和文本编码器 $h$. 二者的输出分别为 $g(v)$ 和 $h(t)$. 计算相似度分数, 常用的是余弦相似度: $$s(v,t) = \frac{g(v) \cdot h(t)}{\|g(v)\| \|h(t)\|}$$ 返回相似度分数 $s(v,t)$.

RLCF 算法

对于 VLM, 训练集 $\mathcal{D}_\mathrm{train}$ 和测试集 $\mathcal{D}_\mathrm{test}$ 都是图像和文本对 $(v,t)$ 的集合. 需要注意, 算法的微调是在单个测试样本上进行的.

对于奖励函数 $R$, 我们希望学习到最好的概率分布 $f_{\theta}(v) = [p(t|v,\theta)]_{t \in T}$ 使得其能最大化奖励:

$$\max_{\theta} \mathbb{E}_{t \sim f_{\theta}(v)}R(t,v)$$

我们正式引入 带有 CLIP 反馈的强化学习 (Reinforcement Learning with CLIP Feedback, RLCF) 算法.

算法RLCF (分类任务) 输入 > 一个已经训练好的 VLM 模型 $f_{\theta}$, 测试样本 $v$. 输出 > 微调后的模型 $f_{\theta'}$. 对测试样本 $v$ 进行数据增强, 生成多个增强样本 $\tau_i(v)$. 按照 CLIP 的编码器编码 $v$ 和 $\tau_i(v)$, 计算当前模型的预测 $P(t|v,\theta)$. 注意此时训练文本应当是类似于 prompt + label 的形式, 如 “a photo of a cat”. 做置信度筛选, 只保留预测熵足够低的样本 $\tau_i(v)$. 在这些样本中, 按照 top-K 策略选择预测结果, 得到 K 对文本和图像 $(\tau_i(v), t_j)_{j=1}^K$. 暂记为 $(v,t)$ 以进行后续计算. 按照先前的工作, 根据 CLIP 模型计算 CLIPScore: $$ \mathrm{CLIP-S}(t,v) = w \times \max(\mathrm{CLIP}(t,v), 0) $$ 其中 $w=2.5$ 是一个常数. 由于 CLIPScore 永远是非负的, 加入一个奖励基线增加稳定性: $$ R(t,v) = \mathrm{CLIP-S}(t,v) - \mathbb{E}_{t' \sim f_{\theta}(v)}[\mathrm{CLIP-S}(t',v)] $$ 通过 REINFORCE 策略梯度更新模型参数 $\theta$ 为 $\theta'$, 使得模型能够最大化奖励, 注意此时 只 更新图像编码器 $g$ 的参数: $$ \nabla_{\theta} \mathbb{E}_{t \sim f_{\theta}(v)}[R(t,v)] = \mathbb{E}_{t \sim f_{\theta}(v)}[R(t,v) \nabla_{\theta} \log f_{\theta}(t|v, \theta)] $$ 返回微调后的模型 $f_{\theta'}$.

相较于监督学习, 基于反馈的强化学习更加通用, 例如可以进行图像描述的任务.

算法 RLCF (图文转换) 基本可以从上面的 RLCF 算法中直接泛化修改. 只需要注意如果是文本生成图片时, 应该固定图像编码编码器 $g$ 而微调文本编码器 $h$, 且此时不做数据增强.

技巧和变体

使用多个奖励模型及权重: 默认情况下, 使用单个 CLIP-ViT-L/14. 可以使用多个 CLIP 模型, 并对它们的输出进行加权平均, 以获得更好的奖励信号.
片段式测试时适应 (Episodic TTA): 假定模型泛化能力很强, 测试时只在测试集上微调, 随后丢弃重置为原参数 $\theta^*$, 防止污染大模型.
动量缓冲 (Momentum Buffer): 尽管片段式测试时适应确保可靠性, 但影响了模型增量学习能力. 因此引入一个动量缓冲, 在每次 TTA 中, 按照移动平均的方式更新缓冲 $\xi \leftarrow m\xi + (1-m)\theta$, 每经过若干次样本后, 再将缓冲 $\eta$ 作为新的参数 $\theta$ 进行更新.

实验

RLCF 方法可以通用地建立在常用的架构上. 在零样本分类任务, 零样本图文检索和图像描述任务上, RLCF 都能显著提升模型的性能.

引入协方差正则化的强化学习

与论文 [] 不同, 论文 [] Unknown-material 通过熵动力学来研究熵崩溃的问题, 最终的目的依然是控制熵.

熵崩溃

强化学习过程中对于高置信度的策略会愈发增强其使用概率, 导致熵变得更加降低. 以下图揭示了熵崩溃和性能饱和的关系. 当熵下降到某个阈值时, 性能会达到饱和点.

论文定量分析认为, 如果没有像熵损失或者 KL 散度这样的正则化, 下游性能完全可以通过策略熵来预测, 精确来说可以拟合成指数函数:

$$ R = -a \exp(\mathcal{H}) + b $$

$R$ 是验证集的性能, $\mathcal{H}$ 是策略的熵.

熵-性能函数

这个函数可以用来分析模型的性能和熵之间的关系, 有几个特点:

系数与算法无关: 下面这个图几个算法得到的曲线是类似的, 这表明 $a,b$ 可能是模型和数据的固有属性.

预测不同模型的函数系数: 显然 $a$ 是模型将熵转化为下游性能的速度. $−a+b$ 是当熵归零时模型可以达到的最大验证性能. 理论上个更大的性能应该对应更大的 $a$ 和 $b$. 此外不同的任务也会有不同的系数

系数 $a$ 系数 $b$

数学任务

代码任务

总结, 在策略熵减少过程中, 性能天花板不仅存在, 而且可以被预测.

熵动力学

我们主要关注相邻两次迭代的熵变化 $\mathcal{H}(\pi_{\theta}^{k+1}) - \mathcal{H}(\pi_{\theta}^{k})$.

定理策略梯度下的熵变化 令行为策略 $\pi_{\theta}$ 为一个 softmax 策略, 并通过标准策略梯度更新, 两个连续步骤中给定状态 $s$ 的策略熵之差满足: $$ \mathcal{H}(\pi_{\theta}^{k+1}|s) - \mathcal{H}(\pi_{\theta}^{k}|s) \approx -\eta \mathrm{Cov}_{a \sim \pi_{\theta}^{k}(\cdot|s)} \left( \log \pi_{\theta}^{k}(a|s), \pi_{\theta}^k(a|s) \cdot A(s,a) \right) $$

定理自然策略梯度下的熵变化 令行为策略 $\pi_{\theta}$ 为一个 softmax 策略, 并通过标准策略梯度更新, 两个连续步骤中给定状态 $s$ 的策略熵之差满足: $$ \mathcal{H}(\pi_{\theta}^{k+1}|s) - \mathcal{H}(\pi_{\theta}^{k}|s) \approx -\eta \mathrm{Cov}_{a \sim \pi_{\theta}^{k}(\cdot|s)} \left( \log \pi_{\theta}^{k}(a|s), A(s,a) \right) $$

揭示了当前策略下的动作概率 $P(a)$ 与相应的优势函数 $A(a)$ 之间的强正相关性. 作者做了实验验证了这个定理估计的正确性.

协方差正则化

论文认为直接采用传统强化学习中的熵正则化技术难以解决 LLMs 的熵瓶颈问题, 过高的熵正则化甚至会导致熵爆炸.

实验表明, 小部分 token 的协方差极高, 在触发熵崩溃中占据了主导地位. 受到 PPO 策略的启发, 论文提出两种协方差感知方法: Clip-Cov 和 KL-Cov.

对于 token $y_i$ 的协方差, 定义为:

$$ \mathrm{Cov}(y_i) = \left( \log \pi_{\theta}(y_i) - \mathbb{E}_{i \in [N]}\left[ \log \pi_{\theta}(y_i) \right] \right) \left(A(y_i) - \mathbb{E}_{i \in [N]}\left[A(y_i)\right]\right) $$

算法Clip-Cov 输入 > 策略 $\pi_{\theta}$, 协方差阈值 $\omega_l, \omega_h$ (两个都远超均值), 剔除比例 $r$. 输出 > 更新后的策略 $\pi_{\theta'}$. 计算每个 token 的协方差 $\mathrm{Cov}(y_i)$. 从 $y_i$ 中随机选取 $r \cdot N$ 个满足 $\omega_l \le \mathrm{Cov}(y_i) \le \omega_h $ 的 token, 设索引集为 $I_{\mathrm{clip}}$. 将选择的这些 token 从策略梯度中移除, 其余仍然正常更新: $$ L_{\mathrm{clip}}(\theta) = \begin{cases} \mathbb{E}\left[ \frac{\pi_{\theta'}(y_i)}{\pi_{\theta}(y_i)} A(y_i) \right] & \text{if } i \notin I_{\mathrm{clip}} \\ 0 & \text{if } i \in I_{\mathrm{clip}} \end{cases} $$

算法KL-Cov 输入 > 策略 $\pi_{\theta}$, 剔除比例 $k\ll 1$. 输出 > 更新后的策略 $\pi_{\theta'}$. 计算每个 token 的协方差 $\mathrm{Cov}(y_i)$. 从 $y_i$ 选取方差最大的 $k \cdot N$ 个 token, 设索引集为 $I_{\mathrm{KL}}$. 将选择的这些 token 在策略梯度中施加 KL 惩罚: $$ L_{\mathrm{KL}}(\theta) = \begin{cases} \mathbb{E}\left[ \frac{\pi_{\theta'}(y_i)}{\pi_{\theta}(y_i)} A(y_i) \right] & \text{if } i \notin I_{\mathrm{KL}} \\ \mathbb{E}\left[ \frac{\pi_{\theta'}(y_i)}{\pi_{\theta}(y_i)} A(y_i) \right] - \beta KL(\pi_{\theta}(y_i) || \pi_{\theta'}(y_i)) & \text{if } i \in I_{\mathrm{KL}} \end{cases} $$

实验

与一般的熵正则化方法相比, 协方差正则化方法在多个任务上都能显著提升模型性能. 且能一定程度上避免瓶颈问题.

	策略熵	LLM 响应长度	准确率
Qwen-7B
Qwen-32B

测试时样本特定语言模型优化

论文 [] Unknown-material 提出了 测试时样本特定语言模型优化 (Sample-specific Language Model Optimization at Test-time, SLOT) 算法.

算法SLOT 输入 > 预训练语言模型 $f_{\theta}$, 输入 token 序列 $x=(x_1, x_2, \ldots, x_n)$, 优化步数 $T$. 输出 > 拓展生成的文本 $x$. 初始化样本特定参数 $\delta=\mathbf{0}\in \mathbb{R}^{1 \times d}$. 计算最后一层的隐藏特征 $H = f_{\mathrm{pre}}(x) \in \mathbb{R}^{n \times d}$. 修改 $H' = H + \delta$, 这里是广播加法. 计算 logits $L = W_{\mathrm{LM}} H' \in \mathbb{R}^{n \times |V|}$ 和其对应的交叉熵损失 $\mathcal{L}$, 并根据损失 $\mathcal{L}$ 优化 $\delta$. 重复步骤 2-4, 直到达到优化步数 $T$, 最后得到 $\delta_{\mathrm{opt}}$. 计算最后一个 token 的隐藏特征 $H_{\mathrm{last}} = f_{\mathrm{pre}}(x) [-1] \in \mathbb{R}^{1 \times d}$. 修改 $H_{\mathrm{last}}' = H_{\mathrm{last}} + \delta_{\mathrm{opt}}$. 计算下一个 token 的 logits $L_{\mathrm{next}} = W_{\mathrm{LM}} H_{\mathrm{last}}'$, 随后按 softmax 选择下一个 token $x_{\mathrm{next}}$. 把 $x_{\mathrm{next}}$ 添加到输入序列 $x$ 中, 并重复步骤 6-8, 直到生成满足条件的文本.

特意把参数 $\delta$ 放在预测头之前, 是为了减小计算量. 称这个增量为 概率向量调制向量 (Logit Modulation Vector, LMV):

$$ \mathrm{LMV} = W_{\mathrm{LM}}\delta \in \mathbb{R}^{|V|} $$

测试表明, 与推理过程相关的词如 “think” 和 “reasoning” 在 LMV 的作用下得到了显著增强.

我的理解是和直接插入一层网络的区别是, 这个反向传播只更新 $\delta$ 而不更新模型参数, 且是一次性的, 只在测试时进行微调. 这只是一个测试时微调, 似乎不是强化学习.

虚假奖励也能训练?!

说了这么多, 其实都是在说如何设计奖励函数. 但是, 论文 [] Unknown-material 提出了一个非常反直觉的问题: 即使在使用与正确答案几乎没有或甚至负相关关系的虚假奖励下训练, RLVR 仍能在某些模型中激发强烈的数学推理能力!

论文给出了五种奖励函数:

真实标签 (Ground Truth) 奖励: 直接用真实标签作为奖励函数, 这标定了 RLVR 的上限.
多数投票 (Majority Vote) 奖励: 通过多数投票的方式估计标签 (标签很可能是错误的), 以此作为奖励函数.
格式化 (Format) 奖励: 当模型输出最后包含 \box{} 时, 给予奖励, 否则不奖励. 这个奖励函数与正确答案无关.
随机 (Random) 奖励: 随机生成奖励.
错误 (Incorrect) 奖励: 只对错误的答案给予奖励, 正确答案不奖励.

论文围绕了一个小问题展开: 问大模型 $(2,-6)$ 和 $(-4,3)$ 的距离是多少?

不同模型在推理策略上存在先存差异

有些强模型会尝试写 Python 代码来计算距离, 尽管实际上它们并没有代码运行环境. 这种行为称为代码推理 (Code Reasoning), 且实验表明代码推理与准确率呈现强正相关性. 有些弱模型不生成代码, 或者对于代码生成性能弱.

RLVR 在引入虚假奖励时可以增强预存的推理策略

在进行 RLVR 训练后, 代码推理的频率迅速增加, 与准确度提升高度相关; 随机奖励则相对缓慢, 但最终也达到了相似的水平. 此后随着模型自然语言推理准确度的提高, 这一频率逐渐下降, 这表明模型正在从高质量的真实标签奖励中学习真正的知识.

推理策略切换对性能的细化影响

对于所有较弱和虚假的奖励, 模型在 RLVR 后更倾向于使用代码推理. 虚假奖励上的准确度提升主要是通过激发模型使用正确的推理策略实现的.

随机奖励与策略裁剪

关于随机奖励的问题, 论文证明了尽管优势期望值为零, 但由于损失函数中的 clip 机制, GRPO 损失的期望梯度并非为零.

为了验证这个想法, 论文进行了一组对比, 同样使用随机奖励, 区别是是否进行 $(1-\epsilon, 1+\epsilon)$ 重要性采样比裁剪. 结果表明, 在没有裁剪的情况下, 随机奖励不能给模型带来任何提升.

因此综合来看, 论文推测, 在随机奖励训练中, 看似 “训练信号” 实际上是优化算法偏向利用预训练中学习到的先验知识的结果.

Sherlock: 自我纠正推理

论文 [] Unknown-material 指出, 使用 SFT 或 RL 训练的模型缺乏逐步和响应层面自我纠正的能力. 一旦出现错误, 模型难以修正其推理, 往往无法从错误中恢复.

自我纠正

对于推理模型, 自我纠正行为可以有两种实现方式:

逐步骤纠正: 模型在其单次思考过程中反思其之前的第 i 步错误, 并对其进行修正:
$$ (r, y_{i+1}, \cdots, y_n; a) \sim \pi(\cdot| x_{I \& T}; y_1, \cdots, y_i^*) $$
其中 $y_i$ 代表第 $i$ 步推理, $a$ 是最终答案, $r$ 是模型的反思提示词 (如 “但是”, “等等”), $x_{I \& T}$ 是输入的图像和文本, $y_i^*$ 是错误的推理.
逐响应纠正: 模型尝试纠正其之前的错误响应:
$$ (y_1^2, \cdots, y_n^2; a) \sim \pi(\cdot| x_{I \& T}; y_1^1, \cdots, y_n^1; t) $$
其中 $y^j, a^j$ 是模型的第 $j$ 次尝试响应.

Sherlock

为解决这一局限, 论文 [] 引入所谓 Sherlock 算法来教导模型自我纠正, 从而增强其推理能力.

算法Sherlock I: SFT 冷启动 从已知数据集中随机采样样本, 形成训练集 $\mathcal{D}_A$; 再次采样形成 $\mathcal{D}_B$, 这些样本包含高质量的 COT. 在 $\mathcal{D}_A$ 上使用普通监督微调 (SFT) 训练基础 VLM，得到模型 $R0_{\mathrm{VLM}}$。 对于每个样本 $(x_{I\&T}, Y^w)$ 在 $\mathcal{D}_B$ 中, 保留原本标签 $Y^w$, 同时用 $R0_{\mathrm{VLM}}$ 生成一个推理轨迹 $Y^l$, 组合成新数据集 $\mathcal{D}_{\mathrm{Sherlock}} = (x_{I\&T}, Y^w, Y^l)$。 使用如下公式中的损失函数, 联合 直接生成 (Direct Generation) 和 自我纠正 (Self-Correction) 两个任务.: $$ \mathcal{L}_{\mathrm{Sherlock-SFT}}(\pi) = -\mathbb{E}_{(x_{I\&T}, Y^w, Y^l) \sim \mathcal{D}_{\mathrm{Sherlock}}} \left[ \log \pi(Y^w | x_{I\&T}) + \log \pi(Y^w | x_{I\&T}, Y^l, t) \right] $$II. 离线偏好训练 现在对于初始轨迹 $Y^1 = (y_1^1, \cdots, y_n^1;a^1)$, 我们假定此时已经有一部分推理正确, 需要在生成一个更好的轨迹 $Y^2 = (y_1^2, \cdots, y_n^2;a^2)$. 随机在 $1 \sim n$ 中采样一个整数 $i$, 此时我们假定 $Y^1_{\lt i}$ 是正确的, 希望生成更好的 $Y^2_{\ge i}$. 按照如下公式: $$ \max_{\pi}\mathbb{E}_{Y_{\geq i}^{2}\sim\pi(\cdot|[x_{I\&T},Y^{1},t;Y_{\lt i}^{2}])}\left[p(Y_{\geq i}^{2}\succ Y_{\geq i}^{1}|x_{I\&T};Y_{\lt i}^{2})-\beta D_{\mathrm{KL}}(\pi\|\pi_{\mathrm{ref}}|[x_{I\&T},Y^{1},t;Y_{\lt i}^{2}])\right]\\+\mathbb{E}_{Y_{\geq i}^{2}\sim\pi(\cdot|[x_{I\&T},Y^{1},t;Y_{\lt i}^{1}])}\left[p(Y_{\geq i}^{2}\succ Y_{\geq i}^{1}|x_{I\&T};Y_{\lt i}^{1})-\beta D_{\mathrm{KL}}(\pi\|\pi_{\mathrm{ref}}|[x_{I\&T},Y^{1},t;Y_{\lt i}^{1}])\right] $$$t$ 是一个指令. 即希望 $Y_{\geq i}^{2}$ 在 $Y_{\lt i}^{2}$ 的条件下, 能够比 $Y_{\geq i}^{1}$ 更好, 且与参考模型 $\pi_{\mathrm{ref}}$ 尽量接近. 要最大化此式, 设: $$ v(x, Y^1, t; Y_{\lt i}^{1}, Y_{\lt i}^{2}; \pi_{\theta}) = \beta \log \rho(Y_{\geq i}^{2} | [x, Y^1, t; Y_{\lt i}^{2}]) - \beta \log \rho(Y_{\geq i}^{1} | [x, Y^1, t; Y_{\lt i}^{1}]) \\ u(x, Y^1, t; Y_{\lt i}^{1}, Y_{\lt i}^{2}; \pi_{\theta}) = \beta \log \rho(Y_{\geq i}^{2} | [x, Y^1, t; Y_{\lt i}^{1}]) - \beta \log \rho(Y_{\geq i}^{1} | [x, Y^1, t; Y_{\lt i}^{2}]) $$其中 $\rho$ 表示 $\pi_{\theta}$ 和 $\pi_{\mathrm{ref}}$ 的重要性采样比, 前一项是鼓励生成更好的轨迹, 后一项是惩罚生成更差的轨迹. 论文证明采用 MSE 误差函数: $$ \begin{aligned} L_{\mathrm{SC}}(\pi_{\theta}; \pi_{\mathrm{ref}}) &= \mathbb{E}_{(x, Y^w, Y^l) \sim \mathcal{D}} \left[ 1 - v(x_{I\&T}, Y^l, t; Y_{\lt i}^{l}, Y_{\lt i}^{w}; \pi_{\theta}) - u(x_{I\&T}, Y^l, t; Y_{\lt i}^{l}, Y_{\lt i}^{w}; \pi_{\theta}) \right]^2 \\ & + \mathbb{E}_{(x, Y^w, Y^l) \sim \mathcal{D}} \left[ 1 + v(x_{I\&T}, Y^w, t; Y_{\lt i}^{w}, Y_{\lt i}^{l}; \pi_{\theta}) + u(x_{I\&T}, Y^w, t; Y_{\lt i}^{w}, Y_{\lt i}^{l}; \pi_{\theta}) \right]^2 \end{aligned} $$ 随后再加上 DPO 的损失函数 (前面做的工作已经是偏好优化策略, 再加上这个的目的存疑): $$ L_{\mathrm{Sherlock}}(\pi_{\theta}; \pi_{\mathrm{ref}}) = L_{\mathrm{SC}}(\pi_{\theta}; \pi_{\mathrm{ref}}) + \alpha L_{\mathrm{DPO}}(\pi_{\theta}; \pi_{\mathrm{ref}}) $$ 在此过程中可以根究不同的 $i$ 采用不同的 $\beta$: $$ \beta(i, n, \epsilon) = \frac{1}{4\left( 0.5 + \left( \frac{i}{n} \right)^{0.5 + \epsilon / 2} \right)} $$当截断较早, $i$ 较小, $\beta$ 较大, 使得模型更倾向于靠拢 $\pi_{\mathrm{ref}}$, 产生更谨慎的更新, 反之亦然. III. 迭代在线偏好训练 在线迭代训练与离线阶段唯一的区别是没有 ground-truth 的回答 $Y^w$. 对于每个直接生成的 $Y^1$, 我们进行三轮自我纠正以获得 $Y^2, Y^3, Y^4$. 应用自我一致性过滤策略: 如果三个纠正响应的最终答案在语义上相同 ($a^2 = a^3 = a^4$), 则认为 $Y^4$ 是偏好回应, $Y_1$ 是非偏好回应. 否则跳过此次训练. 为进一步减小模型偏好优化的噪声, 让初始的 $Y^1$ 变得更差: 维持 $Y^{l}_{\lt i} = Y^{1}_{\lt i}$, 但对于 $Y^{l}_{\ge i}$ 则在 $Y^{1}_{\ge i}$ 的基础上进行扰动. 随后按照离线偏好训练的方式继续进行.

实验

论文指出现有的模型并不能通过自我纠正提高推理能力, 经过 Sherlock 进行训练后, 再进行自我纠正, 模型的推理能力有了显著提升.

论文进行了消融实验, 验证了 DPO 损失, SC 损失和动态 $\beta$ 的有效性.

Objection!

刚才提及的多数论文都是错的! 一篇未正式发布的文章 [] Unknown-material 要打假, 尤其是有关随机奖励的内容, 批驳的论文如下图:

文章声称, 这是因为预-RL 模型的 Baseline 相比 Qwen 发布的官方数据或其它标准化评估被严重低估了, 在很多情况下，经过 RL 后的模型性能实际上比它们开始时的 (正确评估的) 预-RL Baseline 还要差!

主要问题在于这些论文没有开放数据权重, 导致不能测试, 因而论文的证据不具有说服力. 作者提出了几个可能错误低估的原因:

格式: 数学基准测试使用精确匹配评估, 模型需要以特定格式作答, 例如在 \boxed{} 内, 有时模型未能遵循格式. 如果模型解决了问题并得到正确答案, 但未能正确格式化, 并不意味着模型的推理能力存在问题. 应该事先通过示例提示或在进行格式演示的少量样本 SFT 来解决 LLMs 的格式问题.
温度: Qwen3 模型页面上关于最佳设置有明确的建议. 有几篇论文把温度设置太低, 导致降低准确率.
测试规模: 有的论文使用的 Benchmark 规模太小, 方差太大.
token 长度: 有些模型需要较长的推理流程, 截断较小时会导致模型无法完成响应, 进而降低准确率.

	系数 $a$	系数 $b$
数学任务
代码任务