论文阅读 - 智能体强化学习

Wed, 13 May 2026 00:00:00 +0000

综述 [] Unknown-material 给出了一个相当全面的视角, 明确地把 Agentic RL 和传统的 LLM RL 区分开来了. 传统 LLM RL 常常只是在固定 prompt 上优化一个回答, 而 Agentic RL 关心的是一个 LLM policy 在开放环境中如何观察/行动/调用工具/维护记忆/规划/修正策略, 并从长程反馈中学习.

综述给出的定义如下:

Agentic RL 指的是把 LLM 视作嵌入序列决策循环中的可学习策略, 并通过 RL 赋予它规划、推理、工具使用、记忆维护、自我反思等自主能力, 使其能在部分可观测、动态、长程环境中形成稳定行为.

从 LLM RL 到 Agentic RL

传统 RLHF 或 RFT 的基本图景一般是从人类偏好、奖励模型或可验证答案中得到奖励信号, 然后让语言模型更偏向高奖励输出.

偏好式 RFT 可以近似写成退化的马尔可夫决策过程 (MDP):

$$ \left\langle S_{\mathrm{trad}}, A_{\mathrm{trad}}, P_{\mathrm{trad}}, R_{\mathrm{trad}}, T=1,\gamma=1 \right\rangle $$

而 Agentic RL 通常是这样的:

$$ \left\langle S_{\mathrm{agent}}, A_{\mathrm{agent}}, P_{\mathrm{agent}}, R_{\mathrm{agent}}, \gamma, O \right\rangle $$

这里援引一下综述给出的对比表格:

概念	传统 LLM RL	Agentic RL
$S$ (状态空间)	$\{s_0\}$, 状态基本就是 prompt	$s_t \in \mathcal{S}_{\text{agent}}$, 拥有观察 $o_t = O(s_t)$, 通常 $T \gt 1$
$A$ (动作空间)	完整文本序列	$A_{\text{agent}} = A_{\text{text}} \cup A_{\text{action}}$ 包含文本生成和环境交互动作 (如是否调用搜索引擎, 修改代码并运行测试)
$P$ (转移概率)	直接转移到终止状态	动态转移函数 $P(s_{t+1} \mid s_t,a_t)$
$R$ (奖励函数)	往往只对完整回答打分	逐 step $R(s_t,a_t)$, 稀疏任务和紧密的子奖励
$J(\theta)$ (优化目标)	$J(\theta) = \mathbb{E}_{a \sim \pi_0} [r(a)]$	$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} [\sum_{t=0}^T \gamma^t R(s_t,a_t)]$

算法Agentic-RL 输入 > 环境集合 $\mathcal{E}$, 初始 LLM policy $\pi_\theta$, 奖励函数或奖励模型 $R$, rollout budget $B$, 更新算法 $\mathcal{A}$. 输出 > 经过交互训练后的 agent policy $\pi_{\theta'}$. 从环境集合中采样任务 $e \sim \mathcal{E}$, 初始化状态 $s_0$ 和观察 $o_0$. 构造上下文 $h_0 = \mathrm{Prompt}(o_0, m_0, g)$, 其中 $m_0$ 是记忆, $g$ 是任务目标. 对 $t=0,\ldots,T-1$: 用 $\pi_\theta(a_t|h_t)$ 采样语义动作 $a_t$. 如果 $a_t$ 是工具调用, 则执行工具并写入观察; 如果是 GUI 或代码动作, 则更新外部环境. 环境返回 $o_{t+1}$, 奖励 $r_t$, 以及终止标记. 更新上下文 $h_{t+1}=\mathrm{Update}(h_t,a_t,o_{t+1},m_t)$. 收集轨迹 $\tau=(h_t,a_t,r_t)_{t=0}^{T}$. 用 $\mathcal{A}$ 更新策略, 例如 PPO、GRPO、DPO 或其他 actor-critic / preference optimization 变体. 重复步骤 1-5, 直到策略在验证环境中稳定提升.

重要文献坐标系

下面为 AI 辅助找出的重要文献

方向	代表文献	解决的问题	对 Agentic RL 的意义
RLHF 源头	,	如何用人类偏好训练策略	给 LLM RL 提供 reward model + policy optimization 的起点
RL 基础算法	, ,	如何稳定优化语言模型 policy	形成 PPO / DPO / GRPO 三条主线
交错推理与行动		如何让 LLM 一边思考一边作用于环境	让 “reasoning trace” 与 “environment action” 合流
搜索式规划	, ,	如何探索多条思维/行动路径	把 planning、MCTS、value function 引入 agent 推理
工具使用	,	何时调用工具、如何生成工具参数	从 prompt-time tool use 走向 RL-trained tool use
记忆与反思	, ,	如何跨 episode 积累经验	让 agent 拥有可更新的语言记忆和技能库
过程监督		长链推理如何分配信用	为 step-wise reward / PRM / agent critic 提供依据
Web / GUI 环境	, ,	如何构造可交互、可评估的真实环境	让 agent 训练不再停留在静态问答
SWE 任务		真实代码仓库 issue 修复	把 agentic code RL 推向真实软件工程
通用评测与训练框架	,	多环境评测与训练标准化	提供跨任务 agent 能力比较
训练基础设施	, ,	如何把 RL 训练扩展到大模型和复杂 agent	支撑可复现实验与工程化训练

算法主线

Agentic RL 不是一个固定算法名, 它更像一个任务范式. 具体到优化层面, 综述把 PPO、DPO、GRPO 及其变体作为主干.

近端策略优化

近端策略优化 (Proximal Policy Optimization, PPO) [] 核心是限制新旧策略比率:

$$ \rho_t(\theta)=\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\mathrm{old}}}(a_t|s_t)} $$

常用的 clipped objective:

$$ \mathcal{L}^{\mathrm{CLIP}}(\theta) = \mathbb{E}_t \left[ \min\left( \rho_t(\theta)\hat{A}_t, \mathrm{clip}(\rho_t(\theta),1-\epsilon,1+\epsilon)\hat{A}_t \right) \right] $$

对 LLM 来说, PPO 的优点是清晰, 但它通常要 policy 和 value 两个模型, 还要处理长序列训练的显存和吞吐问题. 当 agent 进一步包含工具调用、环境状态和多轮交互时, PPO 的 rollout 与信用分配难度会进一步增加.

直接偏好优化

直接偏好优化 (Direct Preference Optimization, DPO) [] 绕开显式 reward 和在线 RL 循环, 直接从 pairwise preference 中优化 policy. 对于样本 $(x,y_w,y_l)$, DPO 形式上可写成:

$$ \mathcal{L}_{\mathrm{DPO}} = -\log \sigma \left( \beta \left[ \log\frac{\pi_\theta(y_w|x)}{\pi_{\mathrm{ref}}(y_w|x)} - \log\frac{\pi_\theta(y_l|x)}{\pi_{\mathrm{ref}}(y_l|x)} \right] \right) $$

在 Agentic RL 中, DPO 不再比较两个短回答, 而是比较两个 action 片段.

组相对策略优化

DeepSeekMath [] 提出的组相对策略优化 (Group Relative Policy Optimization, GRPO) 可以看成 “去 critic 化” 的 PPO 变体. 它在同一 prompt 下采样一 “组” 输出, 即同一个问题采样多个解答, 可验证任务给每个解答打分, 组内比较就能得到相对优势. DeepSeek-R1 [] 进一步把这种思路推到了推理模型训练上.

算法GRPO 输入 > 任务 $x$, 当前策略 $\pi_\theta$, 参考策略 $\pi_{\mathrm{ref}}$, 每组采样数 $G$, 奖励函数 $R$. 输出 > 更新后的策略 $\pi_{\theta'}$. 对同一任务 $x$ 采样 $G$ 条 agent 轨迹: $\tau_1,\ldots,\tau_G$. 对每条轨迹执行环境评估, 得到 $r_i=R(x,\tau_i)$. 计算组内标准化优势: $$ \hat{A}_i=\frac{r_i-\mu_r}{\sigma_r+\epsilon} $$ 对每条轨迹中的 token / action 计算新旧策略比率. 使用 clipped policy objective 计算损失: $$ \mathcal{L}^{\mathrm{GRPO}}(\theta) = \frac{1}{G}\sum_{i=1}^G \min\left( \rho_i(\theta)\hat{A}_i, \mathrm{clip}(\rho_i(\theta),1-\epsilon,1+\epsilon)\hat{A}_i \right) $$ 加入 KL 散度正则, 避免策略偏离 $\pi_{\mathrm{ref}}$ 过远. 重复采样和更新.

能力视角

综述的第三节按能力拆解 Agentic RL.

计划

早期 agent planning 常靠提示词工程. ReAct [] Unknown-material (ICLR 2023 Notable) 的关键贡献在于把推理轨迹和动作交错在一起. 论文的关键建模方式是把原本的动作空间 $A$ 扩展成 $\hat{A} = A \cup L$, 其中 $L$ 是语言空间.

算法ReAct 输入 > 任务输入 $x$, 外部环境/工具 $\mathcal{E}$, LLM policy $\pi_\theta$, 动作空间 $\mathcal{A}$, 语言推理空间 $\mathcal{L}$, 最大交互步数 $T$, few-shot ReAct 示例 $\mathcal{D}_{demo}$. 输出 > 最终答案/任务结果 $y$, 以及推理-行动轨迹 $\tau$. 初始化上下文 $$ h_0 = [\mathcal{D}_{demo}; x], $$ 初始化轨迹 $\tau=\emptyset$. 对 $t=0,1,\dots,T-1$, 模型基于当前上下文生成下一步: $$ z_t \sim \pi_\theta(\cdot \mid h_t) $$ 如果是自然语言推理 $z_t=\texttt{Thought}(r_t)$, 将推理文本加入轨迹, 并更新上下文: $$ \tau \leftarrow \tau \cup { \texttt{Thought}(r_t) } $$ $$ h_{t+1} = h_t \oplus \texttt{Thought}(r_t) $$ 如果是对环境执行的动作 $z_t=\texttt{Action}(a_t)$, 在环境中执行动作, 并将动作和观察写入轨迹: $$ o_t = \mathcal{E}(a_t) $$ $$ \tau \leftarrow \tau \cup { \texttt{Action}(a_t), \texttt{Observation}(o_t) } $$ $$ h_{t+1} = h_t \oplus \texttt{Action}(a_t) \oplus \texttt{Observation}(o_t) $$ 如果是最终答案或任务完成信号, $z_t=\texttt{Finish}(y)$, 将最终答案写入轨迹: $$ \tau \leftarrow \tau \cup { \texttt{Finish}(y) } $$ 随后结束 rollout, 返回 $(y,\tau)$.

Tree of Thoughts [] (NIPS 2023 Oral) 则把思考链扩展成了思考树, 它把思考当作可扩展节点, 让模型生成、评估和回溯.

对于思考生成, 从当前状态 $s=[x,z_{1:i}]$ 生成 $k$ 个候选思考, 论文给了两种方式 (对应算法的 $G$):

一种是从 CoT prompt 独立采样多个候选, 适合开放空间
另一种是一个 prompt 里连续生成 k 个不同的下一步, 适合约束较强的任务.

对于状态评估, 这个是 ToT 框架最大的创新之一, 就是利用 LLM 自己来充当评估器, 为搜索算法提供启发式信息, 也有两种方式 (对应算法的 $V$):

价值评估: 让 LLM 直接给当前状态打分, 或者给出一个分类 (比如 sure/likely/impossible)
投票表决: 让 LLM 比较几个不同的分支, 然后投票选出最有希望的一个.

关于模型推理, 论文给出了 BFS 和 DFS 两种流程, 这里以 DFS 为例:

算法Tree of Thought - DFS 输入 > 当前状态 $s$, 当前深度 $t$, LLM policy $p_\theta$, 思考生成器 $G$, 每个状态生成候选数 $k$, state evaluator $V$, 最大深度 $T$, 剪枝阈值 $v_{\mathrm{th}}$. 输出 > 候选答案集合 $\mathcal{Y}$, 搜索轨迹 $\tau$. 如果 $t>T$, 基于当前状态生成最终答案并返回. $$ y = G(p_\theta, s, 1) $$ $$ \mathcal{Y} \leftarrow \mathcal{Y} \cup {y} $$ 从当前状态生成 $k$ 个候选下一步 thought: $$ Z = G(p_\theta, s, k) $$ 对每个候选 thought $z \in Z$, 构造新状态: $$ s'=[s,z] $$ 对新状态进行评估: $$ v = V(p_\theta,{s'})(s') $$ 如果 $v > v_{\mathrm{th}}$, 递归搜索: $$ \texttt{DFS}(s',t+1) $$ 返回候选答案集合 $\mathcal{Y}$ 和完整搜索轨迹 $\tau$.

RAP [] 更进一步, 把 LLM 复用成世界模型和推理 agent, 用 MCTS 探索推理树, 这里不再赘述.

这几篇文献的共同点是, planning 不只是生成计划, 而是搜索计划空间. 接入 RL 后, 它可以训练价值函数, 训练计划选择, 甚至直接训练策略产生更好的计划动作.

工具调用

工具调用可以被看成一种离散行动:

$$ a_t=(\mathrm{tool\_name}, \mathrm{arguments}) $$

Toolformer [] Unknown-material (NIPS 2023 Oral) 证明语言模型可以通过自监督方式学会 API 调用: 模型先生成候选 API 调用, 执行工具, 再过滤出能提升语言模型似然的调用样本.

算法Toolformer-API-Annotation 输入 > 普通文本语料 $\mathcal{C}={x^{(1)},\dots,x^{(N)}}$, 基础语言模型 $M$, API 集合 $\mathcal{A}$, 每个 API 的少量 demonstration prompt $P_a(\cdot)$, 最大候选位置数 $k$, 每个位置最大候选 API call 数 $m$, 采样阈值 $\tau_s$, 过滤阈值 $\tau_f$. 输出 > 带 API 调用标注的语料 $\mathcal{C}^{*}$. 初始化 $\mathcal{C}^{*}\leftarrow \emptyset$. 对每篇文本 $x=(x_1,\dots,x_n)\in \mathcal{C}$ 和每个工具/API $a\in \mathcal{A}$ 构造 few-shot API 标注的 prompt $P_a(x)$, 比如形如 <API>a(i)</API>, 展示如何在普通文本中插入该 API 的调用格式. 对每个 token 位置 $i$, 计算模型在该位置开始 API 调用的概率: $$ p_i = p_M(\langle API\rangle \mid P_a(x), x_{1:i-1}) $$ 保留满足阈值的位置: $$ I=\{i \mid p_i>\tau_s \} $$ 如果 $|I|>k$, 只保留概率最高的 $k$ 个位置. 对每个候选位置 $i\in I$, 从模型中采样最多 $m$ 个 API 调用并执行: $$ c_i^1,\dots,c_i^m \sim M(P_a(x),x_{1:i-1},\langle API\rangle) $$ $$ r_i^j = a(c_i^j) $$ 对每个候选调用 $(c_i^j,r_i^j)$, 计算不调用工具/只给 API 输入, 不给工具返回/给 API 输入和工具返回三种情况下模型预测未来 token 的 loss: $$ L_i(\epsilon), ~ L_i(e(c_i^j,\epsilon)), ~ L_i(e(c_i^j,r_i^j)) $$ 定义: $$ L_i^+ = L_i(e(c_i^j,r_i^j)) $$$$ L_i^- = \min \left(L_i(\epsilon), L_i(e(c_i^j,\epsilon))\right) $$ 如果工具返回真的帮助模型预测后续文本, 即: $$ L_i^- - L_i^+ \geq \tau_f $$ 则保留该 API call. 将所有保留的 API call 插入原始文本: $$ x^* = x_{1:i-1}, e(c_i,r_i), x_{i:n} $$ $$ \mathcal{C}^{*}\leftarrow \mathcal{C}^{*}\cup {x^*} $$ 返回 $\mathcal{C}^{*}$.

Search-R1 [] Unknown-material 是一个很典型的 Agentic RL 方向, 让模型在逐步推理中通过 RL 学会多轮搜索查询, 并处理实时检索结果.

算法Search-R1 输入 > 问题 $q$, 搜索工具 $\mathcal{S}$, LLM policy $\pi_\theta$, 最大搜索次数 $K$. 输出 > 答案 $y$ 和搜索-推理轨迹 $\tau$. 初始化上下文 $h_0=q$, 搜索次数 $k=0$. 模型生成下一步: 推理文本、搜索请求或最终答案. 如果动作为 Search(query) 且 $k\lt K$ : 执行 $\mathcal{S}(\mathrm{query})$. 把检索结果作为 observation 写入上下文. $k \leftarrow k+1$. 如果动作为 Answer(y), 结束 rollout. 用最终答案正确性、搜索成本、格式合法性等构造 reward. 通过 GRPO / PPO 更新 policy.

其奖励设计非常简单——精准匹配0/1奖励. 此外实测发现 GRPO 收敛快, 但训练后期容易奖励崩塌, PPO 虽然收敛慢, 但更稳定, 最终性能更好, 所以默认用 PPO.

记忆

MemGPT [] Unknown-material 借鉴传统操作系统中虚拟内存管理的核心思想, 提出一种分层记忆系统, 使其能够智能地在快速但有限的"主上下文" (类比 RAM) 和慢速但海量的"外部上下文" (类比磁盘) 之间进行信息的换入换出.

运作机制:

用户输入、系统警告 (如主上下文接近上限, 产生内存压力) 或其他预设会触发 LLM 进行推理.
LLM根据系统指令和当前上下文, 决定是否需要以及如何管理其记忆. 例如: 当FIFO队列过长, 触发“内存压力”警告, LLM可以调用函数将队列中的重要信息存入工作上下文或档案存储.
当需要回忆过去的对话细节或查询文档时, LLM调用函数从回忆存储或档案存储中检索信息, 并将其加载到主上下文中. 当工作上下文中的信息过时或不再相关, LLM可以更新或移除它们.
函数执行的结果 (包括成功信息或错误信息) 会反馈给LLM, 更新其主上下文, 并可能触发后续的函数调用链 (例如分页查询) .

这里所有调用函数都是由 LLM 自己决定的, 包括何时调用、调用哪个函数、以及如何处理函数返回的结果. 这种设计使得 LLM 不仅是一个被动的记忆存储器, 而是一个主动的记忆管理者, 能够根据当前任务需求和系统状态动态调整其记忆策略.

Reflexion [] (NIPS 2023) 不更新模型权重, 而是让 agent 根据失败反馈写下文字反馈, 存入片段性的记忆, 供下一次尝试使用. 把语言形式的经验当作一种近似的策略提升.

推理

DeepSeek-R1 [] 指出大规模 RL 可以在没有人工标注推理轨迹的情况下诱导出某些推理行为. 不过, 综述中特别提到过度思考的现象: agentic 推理可能因为过度搜索、过度验证、工具调用循环而变慢甚至变差.

任务视角

综述第四节按任务展开. AI 辅助整理如下:

任务	环境真实性	奖励可验证性	难点
数学推理	低	高	reward 容易, 但容易过拟合格式和长度
代码生成	中	高	单函数任务较清晰, 仓库级任务信用分配难
搜索研究	中	中	信息质量、引用可靠性和搜索成本难统一
Web / GUI	高	中	观测/动作接地难
软件工程	高	高	测试、构建、依赖和长上下文开销大
具身	高	低	稀疏奖励、长 horizon、环境随机性
多智能体	高	低	非平稳性、协作信用分配、通信协议

Search Agent

网页搜索是最自然的 agentic 任务之一. 简单 RAG 通常把检索当成固定预处理, 但 research agent 需要决定搜索计划、重写查询、交叉验证来源、归纳冲突信息、生成报告.

Search-R1 [] 让模型通过 RL 学会在推理过程中主动搜索. 它比较接近 ReAct, 但重点从 prompt 模式变成了策略训练. 这类任务的 reward 设计通常要考虑多方面因素:

$$ R = R_{\mathrm{answer}} + \lambda_1 R_{\mathrm{citation}} - \lambda_2 C_{\mathrm{search}} - \lambda_3 R_{\mathrm{hallucination}} $$

其中 $C_{\mathrm{search}}$ 是搜索成本, $R_{\mathrm{citation}}$ 是来源支撑度, $R_{\mathrm{hallucination}}$ 则惩罚无来源断言.

Code / SWE Agent

CodeRL 一类方法证明了可执行反馈对代码生成有效.

SWE-bench [] (ICLR 2024) 给出了一种仓库级 benchmark. 它从 12 个流行 Python 仓库抓取约 9 万个 PR；再保留 merged、关联 issue、且修改测试文件的 PR；最后用执行过滤验证这些 PR 是否能产生 fail-to-pass 测试. 一个 SWE-bench task instance 可以抽象成:

$$ \mathcal{I} = (P, C, T, \delta) $$

其中:

$P$: problem statement, 也就是 GitHub issue 文本;
$C$: 代码库在 PR base commit 处的快照;
$T$: 由 PR 中测试文件变化提取出的测试集合;
$\delta$: 真实 PR 的 gold patch, 也是模型要预测的目标.

需要注意, 模型可以生成和真实 PR 不一样的 patch, 只要能解决 issue 并保持已有测试通过, 就算成功

Math Agent

数学任务是 RLVR 最合适的温床. 主要在于其答案通常可验证, 采样多个解答再组内比较也容易. DeepSeekMath 和 DeepSeek-R1 的路径说明, 在数学和形式化任务上, GRPO / PPO 这类方法能诱导更长、更自检的推理过程.

形式数学里的 reward 更可验证, 但动作空间也更困难. 而非形式数学则较难以检查过程正确性.

GUI / Web Agent

综述 [] 有关 GUI Agent 只列举了几个 Benchmark: WebShop [] 是早期网络环境, agent 根据商品需求导航网页、搜索、筛选并购买. WebArena [] 则把 web agent 推向更真实的自发主持的网站环境, 包括电商、论坛、代码协作和内容管理等网站. OSWorld [] 的 benchmark 进一步让 agent 操作真实桌面系统和应用.

由于此课题目前我们更关注, 我又检索到有关 GUI Agent 的另一篇综述 [] .

小结

这篇综述 [] 相当详细, 分成了如上所说的几个方面. 其中任何一项缺失, 都很难称为真正的 Agentic RL.

从我理解来看, 和一般的 RL 相比, agentic RL 具有明显的自发性——它不像传统 RL 那样在一个固定环境里被动学习, 并接受一个人为设计的奖励函数, 而是需要在一个开放动态的环境中, 自主地观察行动和修正策略, 在此期间模型还可以借助各种工具, 来填补记忆存储的空白. “Planning” 这个概念也相当独特, 这意味着模型需要能够在面对复杂问题时自发拆解, 规划行动路径. 它显然并不是用于完成某一项固定的任务, 而是需要通过广泛的动作空间和环境观察, 提升自身对不同环境的泛化适应能力.

LLM on LeoDreamer