论文阅读 - 智能体强化学习

综述 [] Unknown-material 给出了一个相当全面的视角, 明确地把 Agentic RL 和传统的 LLM RL 区分开来了. 传统 LLM RL 常常只是在固定 prompt 上优化一个回答, 而 Agentic RL 关心的是一个 LLM policy 在开放环境中如何观察/行动/调用工具/维护记忆/规划/修正策略, 并从长程反馈中学习.

综述给出的定义如下:

Agentic RL 指的是把 LLM 视作嵌入序列决策循环中的可学习策略, 并通过 RL 赋予它规划、推理、工具使用、记忆维护、自我反思等自主能力, 使其能在部分可观测、动态、长程环境中形成稳定行为.

从 LLM RL 到 Agentic RL

传统 RLHF 或 RFT 的基本图景一般是从人类偏好、奖励模型或可验证答案中得到奖励信号, 然后让语言模型更偏向高奖励输出.

偏好式 RFT 可以近似写成退化的马尔可夫决策过程 (MDP):

$$ \left\langle S_{\mathrm{trad}}, A_{\mathrm{trad}}, P_{\mathrm{trad}}, R_{\mathrm{trad}}, T=1,\gamma=1 \right\rangle $$

而 Agentic RL 通常是这样的:

$$ \left\langle S_{\mathrm{agent}}, A_{\mathrm{agent}}, P_{\mathrm{agent}}, R_{\mathrm{agent}}, \gamma, O \right\rangle $$

这里援引一下综述给出的对比表格:

概念	传统 LLM RL	Agentic RL
$S$ (状态空间)	$\{s_0\}$, 状态基本就是 prompt	$s_t \in \mathcal{S}_{\text{agent}}$, 拥有观察 $o_t = O(s_t)$, 通常 $T \gt 1$
$A$ (动作空间)	完整文本序列	$A_{\text{agent}} = A_{\text{text}} \cup A_{\text{action}}$ 包含文本生成和环境交互动作 (如是否调用搜索引擎, 修改代码并运行测试)
$P$ (转移概率)	直接转移到终止状态	动态转移函数 $P(s_{t+1} \mid s_t,a_t)$
$R$ (奖励函数)	往往只对完整回答打分	逐 step $R(s_t,a_t)$, 稀疏任务和紧密的子奖励
$J(\theta)$ (优化目标)	$J(\theta) = \mathbb{E}_{a \sim \pi_0} [r(a)]$	$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} [\sum_{t=0}^T \gamma^t R(s_t,a_t)]$

算法Agentic-RL 输入 > 环境集合 $\mathcal{E}$, 初始 LLM policy $\pi_\theta$, 奖励函数或奖励模型 $R$, rollout budget $B$, 更新算法 $\mathcal{A}$. 输出 > 经过交互训练后的 agent policy $\pi_{\theta'}$. 从环境集合中采样任务 $e \sim \mathcal{E}$, 初始化状态 $s_0$ 和观察 $o_0$. 构造上下文 $h_0 = \mathrm{Prompt}(o_0, m_0, g)$, 其中 $m_0$ 是记忆, $g$ 是任务目标. 对 $t=0,\ldots,T-1$: 用 $\pi_\theta(a_t|h_t)$ 采样语义动作 $a_t$. 如果 $a_t$ 是工具调用, 则执行工具并写入观察; 如果是 GUI 或代码动作, 则更新外部环境. 环境返回 $o_{t+1}$, 奖励 $r_t$, 以及终止标记. 更新上下文 $h_{t+1}=\mathrm{Update}(h_t,a_t,o_{t+1},m_t)$. 收集轨迹 $\tau=(h_t,a_t,r_t)_{t=0}^{T}$. 用 $\mathcal{A}$ 更新策略, 例如 PPO、GRPO、DPO 或其他 actor-critic / preference optimization 变体. 重复步骤 1-5, 直到策略在验证环境中稳定提升.

重要文献坐标系

下面为 AI 辅助找出的重要文献

方向	代表文献	解决的问题	对 Agentic RL 的意义
RLHF 源头	,	如何用人类偏好训练策略	给 LLM RL 提供 reward model + policy optimization 的起点
RL 基础算法	, ,	如何稳定优化语言模型 policy	形成 PPO / DPO / GRPO 三条主线
交错推理与行动		如何让 LLM 一边思考一边作用于环境	让 “reasoning trace” 与 “environment action” 合流
搜索式规划	, ,	如何探索多条思维/行动路径	把 planning、MCTS、value function 引入 agent 推理
工具使用	,	何时调用工具、如何生成工具参数	从 prompt-time tool use 走向 RL-trained tool use
记忆与反思	, ,	如何跨 episode 积累经验	让 agent 拥有可更新的语言记忆和技能库
过程监督		长链推理如何分配信用	为 step-wise reward / PRM / agent critic 提供依据
Web / GUI 环境	, ,	如何构造可交互、可评估的真实环境	让 agent 训练不再停留在静态问答
SWE 任务		真实代码仓库 issue 修复	把 agentic code RL 推向真实软件工程
通用评测与训练框架	,	多环境评测与训练标准化	提供跨任务 agent 能力比较
训练基础设施	, ,	如何把 RL 训练扩展到大模型和复杂 agent	支撑可复现实验与工程化训练

算法主线

Agentic RL 不是一个固定算法名, 它更像一个任务范式. 具体到优化层面, 综述把 PPO、DPO、GRPO 及其变体作为主干.

近端策略优化

近端策略优化 (Proximal Policy Optimization, PPO) [] 核心是限制新旧策略比率:

$$ \rho_t(\theta)=\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\mathrm{old}}}(a_t|s_t)} $$

常用的 clipped objective:

$$ \mathcal{L}^{\mathrm{CLIP}}(\theta) = \mathbb{E}_t \left[ \min\left( \rho_t(\theta)\hat{A}_t, \mathrm{clip}(\rho_t(\theta),1-\epsilon,1+\epsilon)\hat{A}_t \right) \right] $$

对 LLM 来说, PPO 的优点是清晰, 但它通常要 policy 和 value 两个模型, 还要处理长序列训练的显存和吞吐问题. 当 agent 进一步包含工具调用、环境状态和多轮交互时, PPO 的 rollout 与信用分配难度会进一步增加.

直接偏好优化

直接偏好优化 (Direct Preference Optimization, DPO) [] 绕开显式 reward 和在线 RL 循环, 直接从 pairwise preference 中优化 policy. 对于样本 $(x,y_w,y_l)$, DPO 形式上可写成:

$$ \mathcal{L}_{\mathrm{DPO}} = -\log \sigma \left( \beta \left[ \log\frac{\pi_\theta(y_w|x)}{\pi_{\mathrm{ref}}(y_w|x)} - \log\frac{\pi_\theta(y_l|x)}{\pi_{\mathrm{ref}}(y_l|x)} \right] \right) $$

在 Agentic RL 中, DPO 不再比较两个短回答, 而是比较两个 action 片段.

组相对策略优化

DeepSeekMath [] 提出的组相对策略优化 (Group Relative Policy Optimization, GRPO) 可以看成 “去 critic 化” 的 PPO 变体. 它在同一 prompt 下采样一 “组” 输出, 即同一个问题采样多个解答, 可验证任务给每个解答打分, 组内比较就能得到相对优势. DeepSeek-R1 [] 进一步把这种思路推到了推理模型训练上.

算法GRPO 输入 > 任务 $x$, 当前策略 $\pi_\theta$, 参考策略 $\pi_{\mathrm{ref}}$, 每组采样数 $G$, 奖励函数 $R$. 输出 > 更新后的策略 $\pi_{\theta'}$. 对同一任务 $x$ 采样 $G$ 条 agent 轨迹: $\tau_1,\ldots,\tau_G$. 对每条轨迹执行环境评估, 得到 $r_i=R(x,\tau_i)$. 计算组内标准化优势: $$ \hat{A}_i=\frac{r_i-\mu_r}{\sigma_r+\epsilon} $$ 对每条轨迹中的 token / action 计算新旧策略比率. 使用 clipped policy objective 计算损失: $$ \mathcal{L}^{\mathrm{GRPO}}(\theta) = \frac{1}{G}\sum_{i=1}^G \min\left( \rho_i(\theta)\hat{A}_i, \mathrm{clip}(\rho_i(\theta),1-\epsilon,1+\epsilon)\hat{A}_i \right) $$ 加入 KL 散度正则, 避免策略偏离 $\pi_{\mathrm{ref}}$ 过远. 重复采样和更新.

能力视角

综述的第三节按能力拆解 Agentic RL.

计划

早期 agent planning 常靠提示词工程. ReAct [] Unknown-material (ICLR 2023 Notable) 的关键贡献在于把推理轨迹和动作交错在一起. 论文的关键建模方式是把原本的动作空间 $A$ 扩展成 $\hat{A} = A \cup L$, 其中 $L$ 是语言空间.

算法ReAct 输入 > 任务输入 $x$, 外部环境/工具 $\mathcal{E}$, LLM policy $\pi_\theta$, 动作空间 $\mathcal{A}$, 语言推理空间 $\mathcal{L}$, 最大交互步数 $T$, few-shot ReAct 示例 $\mathcal{D}_{demo}$. 输出 > 最终答案/任务结果 $y$, 以及推理-行动轨迹 $\tau$. 初始化上下文 $$ h_0 = [\mathcal{D}_{demo}; x], $$ 初始化轨迹 $\tau=\emptyset$. 对 $t=0,1,\dots,T-1$, 模型基于当前上下文生成下一步: $$ z_t \sim \pi_\theta(\cdot \mid h_t) $$ 如果是自然语言推理 $z_t=\texttt{Thought}(r_t)$, 将推理文本加入轨迹, 并更新上下文: $$ \tau \leftarrow \tau \cup { \texttt{Thought}(r_t) } $$ $$ h_{t+1} = h_t \oplus \texttt{Thought}(r_t) $$ 如果是对环境执行的动作 $z_t=\texttt{Action}(a_t)$, 在环境中执行动作, 并将动作和观察写入轨迹: $$ o_t = \mathcal{E}(a_t) $$ $$ \tau \leftarrow \tau \cup { \texttt{Action}(a_t), \texttt{Observation}(o_t) } $$ $$ h_{t+1} = h_t \oplus \texttt{Action}(a_t) \oplus \texttt{Observation}(o_t) $$ 如果是最终答案或任务完成信号, $z_t=\texttt{Finish}(y)$, 将最终答案写入轨迹: $$ \tau \leftarrow \tau \cup { \texttt{Finish}(y) } $$ 随后结束 rollout, 返回 $(y,\tau)$.

Tree of Thoughts [] (NIPS 2023 Oral) 则把思考链扩展成了思考树, 它把思考当作可扩展节点, 让模型生成、评估和回溯.

对于思考生成, 从当前状态 $s=[x,z_{1:i}]$ 生成 $k$ 个候选思考, 论文给了两种方式 (对应算法的 $G$):

一种是从 CoT prompt 独立采样多个候选, 适合开放空间
另一种是一个 prompt 里连续生成 k 个不同的下一步, 适合约束较强的任务.

对于状态评估, 这个是 ToT 框架最大的创新之一, 就是利用 LLM 自己来充当评估器, 为搜索算法提供启发式信息, 也有两种方式 (对应算法的 $V$):

价值评估: 让 LLM 直接给当前状态打分, 或者给出一个分类 (比如 sure/likely/impossible)
投票表决: 让 LLM 比较几个不同的分支, 然后投票选出最有希望的一个.

Tree of Thoughts

关于模型推理, 论文给出了 BFS 和 DFS 两种流程, 这里以 DFS 为例:

算法Tree of Thought - DFS 输入 > 当前状态 $s$, 当前深度 $t$, LLM policy $p_\theta$, 思考生成器 $G$, 每个状态生成候选数 $k$, state evaluator $V$, 最大深度 $T$, 剪枝阈值 $v_{\mathrm{th}}$. 输出 > 候选答案集合 $\mathcal{Y}$, 搜索轨迹 $\tau$. 如果 $t>T$, 基于当前状态生成最终答案并返回. $$ y = G(p_\theta, s, 1) $$ $$ \mathcal{Y} \leftarrow \mathcal{Y} \cup {y} $$ 从当前状态生成 $k$ 个候选下一步 thought: $$ Z = G(p_\theta, s, k) $$ 对每个候选 thought $z \in Z$, 构造新状态: $$ s'=[s,z] $$ 对新状态进行评估: $$ v = V(p_\theta,{s'})(s') $$ 如果 $v > v_{\mathrm{th}}$, 递归搜索: $$ \texttt{DFS}(s',t+1) $$ 返回候选答案集合 $\mathcal{Y}$ 和完整搜索轨迹 $\tau$.

RAP [] 更进一步, 把 LLM 复用成世界模型和推理 agent, 用 MCTS 探索推理树, 这里不再赘述.

这几篇文献的共同点是, planning 不只是生成计划, 而是搜索计划空间. 接入 RL 后, 它可以训练价值函数, 训练计划选择, 甚至直接训练策略产生更好的计划动作.

工具调用

工具调用可以被看成一种离散行动:

$$ a_t=(\mathrm{tool\_name}, \mathrm{arguments}) $$

Toolformer [] Unknown-material (NIPS 2023 Oral) 证明语言模型可以通过自监督方式学会 API 调用: 模型先生成候选 API 调用, 执行工具, 再过滤出能提升语言模型似然的调用样本.

算法Toolformer-API-Annotation 输入 > 普通文本语料 $\mathcal{C}={x^{(1)},\dots,x^{(N)}}$, 基础语言模型 $M$, API 集合 $\mathcal{A}$, 每个 API 的少量 demonstration prompt $P_a(\cdot)$, 最大候选位置数 $k$, 每个位置最大候选 API call 数 $m$, 采样阈值 $\tau_s$, 过滤阈值 $\tau_f$. 输出 > 带 API 调用标注的语料 $\mathcal{C}^{*}$. 初始化 $\mathcal{C}^{*}\leftarrow \emptyset$. 对每篇文本 $x=(x_1,\dots,x_n)\in \mathcal{C}$ 和每个工具/API $a\in \mathcal{A}$ 构造 few-shot API 标注的 prompt $P_a(x)$, 比如形如 <API>a(i)</API>, 展示如何在普通文本中插入该 API 的调用格式. 对每个 token 位置 $i$, 计算模型在该位置开始 API 调用的概率: $$ p_i = p_M(\langle API\rangle \mid P_a(x), x_{1:i-1}) $$ 保留满足阈值的位置: $$ I=\{i \mid p_i>\tau_s \} $$ 如果 $|I|>k$, 只保留概率最高的 $k$ 个位置. 对每个候选位置 $i\in I$, 从模型中采样最多 $m$ 个 API 调用并执行: $$ c_i^1,\dots,c_i^m \sim M(P_a(x),x_{1:i-1},\langle API\rangle) $$ $$ r_i^j = a(c_i^j) $$ 对每个候选调用 $(c_i^j,r_i^j)$, 计算不调用工具/只给 API 输入, 不给工具返回/给 API 输入和工具返回三种情况下模型预测未来 token 的 loss: $$ L_i(\epsilon), ~ L_i(e(c_i^j,\epsilon)), ~ L_i(e(c_i^j,r_i^j)) $$ 定义: $$ L_i^+ = L_i(e(c_i^j,r_i^j)) $$$$ L_i^- = \min \left(L_i(\epsilon), L_i(e(c_i^j,\epsilon))\right) $$ 如果工具返回真的帮助模型预测后续文本, 即: $$ L_i^- - L_i^+ \geq \tau_f $$ 则保留该 API call. 将所有保留的 API call 插入原始文本: $$ x^* = x_{1:i-1}, e(c_i,r_i), x_{i:n} $$ $$ \mathcal{C}^{*}\leftarrow \mathcal{C}^{*}\cup {x^*} $$ 返回 $\mathcal{C}^{*}$.

Toolformer API

Search-R1 [] Unknown-material 是一个很典型的 Agentic RL 方向, 让模型在逐步推理中通过 RL 学会多轮搜索查询, 并处理实时检索结果.

算法Search-R1 输入 > 问题 $q$, 搜索工具 $\mathcal{S}$, LLM policy $\pi_\theta$, 最大搜索次数 $K$. 输出 > 答案 $y$ 和搜索-推理轨迹 $\tau$. 初始化上下文 $h_0=q$, 搜索次数 $k=0$. 模型生成下一步: 推理文本、搜索请求或最终答案. 如果动作为 Search(query) 且 $k\lt K$ : 执行 $\mathcal{S}(\mathrm{query})$. 把检索结果作为 observation 写入上下文. $k \leftarrow k+1$. 如果动作为 Answer(y), 结束 rollout. 用最终答案正确性、搜索成本、格式合法性等构造 reward. 通过 GRPO / PPO 更新 policy.

Search R1

其奖励设计非常简单——精准匹配0/1奖励. 此外实测发现 GRPO 收敛快, 但训练后期容易奖励崩塌, PPO 虽然收敛慢, 但更稳定, 最终性能更好, 所以默认用 PPO.

记忆

MemGPT [] Unknown-material 借鉴传统操作系统中虚拟内存管理的核心思想, 提出一种分层记忆系统, 使其能够智能地在快速但有限的"主上下文" (类比 RAM) 和慢速但海量的"外部上下文" (类比磁盘) 之间进行信息的换入换出.

运作机制:

用户输入、系统警告 (如主上下文接近上限, 产生内存压力) 或其他预设会触发 LLM 进行推理.
LLM根据系统指令和当前上下文, 决定是否需要以及如何管理其记忆. 例如: 当FIFO队列过长, 触发“内存压力”警告, LLM可以调用函数将队列中的重要信息存入工作上下文或档案存储.
当需要回忆过去的对话细节或查询文档时, LLM调用函数从回忆存储或档案存储中检索信息, 并将其加载到主上下文中. 当工作上下文中的信息过时或不再相关, LLM可以更新或移除它们.
函数执行的结果 (包括成功信息或错误信息) 会反馈给LLM, 更新其主上下文, 并可能触发后续的函数调用链 (例如分页查询) .

MemGPT 示例: 写入/搜索/更新

这里所有调用函数都是由 LLM 自己决定的, 包括何时调用、调用哪个函数、以及如何处理函数返回的结果. 这种设计使得 LLM 不仅是一个被动的记忆存储器, 而是一个主动的记忆管理者, 能够根据当前任务需求和系统状态动态调整其记忆策略.

MemGPT

Reflexion [] (NIPS 2023) 不更新模型权重, 而是让 agent 根据失败反馈写下文字反馈, 存入片段性的记忆, 供下一次尝试使用. 把语言形式的经验当作一种近似的策略提升.

推理

DeepSeek-R1 [] 指出大规模 RL 可以在没有人工标注推理轨迹的情况下诱导出某些推理行为. 不过, 综述中特别提到过度思考的现象: agentic 推理可能因为过度搜索、过度验证、工具调用循环而变慢甚至变差.

任务视角

综述第四节按任务展开. AI 辅助整理如下:

任务	环境真实性	奖励可验证性	难点
数学推理	低	高	reward 容易, 但容易过拟合格式和长度
代码生成	中	高	单函数任务较清晰, 仓库级任务信用分配难
搜索研究	中	中	信息质量、引用可靠性和搜索成本难统一
Web / GUI	高	中	观测/动作接地难
软件工程	高	高	测试、构建、依赖和长上下文开销大
具身	高	低	稀疏奖励、长 horizon、环境随机性
多智能体	高	低	非平稳性、协作信用分配、通信协议

Search Agent

网页搜索是最自然的 agentic 任务之一. 简单 RAG 通常把检索当成固定预处理, 但 research agent 需要决定搜索计划、重写查询、交叉验证来源、归纳冲突信息、生成报告.

Search-R1 [] 让模型通过 RL 学会在推理过程中主动搜索. 它比较接近 ReAct, 但重点从 prompt 模式变成了策略训练. 这类任务的 reward 设计通常要考虑多方面因素:

$$ R = R_{\mathrm{answer}} + \lambda_1 R_{\mathrm{citation}} - \lambda_2 C_{\mathrm{search}} - \lambda_3 R_{\mathrm{hallucination}} $$

其中 $C_{\mathrm{search}}$ 是搜索成本, $R_{\mathrm{citation}}$ 是来源支撑度, $R_{\mathrm{hallucination}}$ 则惩罚无来源断言.

Code / SWE Agent

CodeRL 一类方法证明了可执行反馈对代码生成有效.

SWE-bench [] (ICLR 2024) 给出了一种仓库级 benchmark. 它从 12 个流行 Python 仓库抓取约 9 万个 PR；再保留 merged、关联 issue、且修改测试文件的 PR；最后用执行过滤验证这些 PR 是否能产生 fail-to-pass 测试. 一个 SWE-bench task instance 可以抽象成:

$$ \mathcal{I} = (P, C, T, \delta) $$

其中:

$P$: problem statement, 也就是 GitHub issue 文本;
$C$: 代码库在 PR base commit 处的快照;
$T$: 由 PR 中测试文件变化提取出的测试集合;
$\delta$: 真实 PR 的 gold patch, 也是模型要预测的目标.

需要注意, 模型可以生成和真实 PR 不一样的 patch, 只要能解决 issue 并保持已有测试通过, 就算成功

Math Agent

数学任务是 RLVR 最合适的温床. 主要在于其答案通常可验证, 采样多个解答再组内比较也容易. DeepSeekMath 和 DeepSeek-R1 的路径说明, 在数学和形式化任务上, GRPO / PPO 这类方法能诱导更长、更自检的推理过程.

形式数学里的 reward 更可验证, 但动作空间也更困难. 而非形式数学则较难以检查过程正确性.

GUI / Web Agent

综述 [] 有关 GUI Agent 只列举了几个 Benchmark: WebShop [] 是早期网络环境, agent 根据商品需求导航网页、搜索、筛选并购买. WebArena [] 则把 web agent 推向更真实的自发主持的网站环境, 包括电商、论坛、代码协作和内容管理等网站. OSWorld [] 的 benchmark 进一步让 agent 操作真实桌面系统和应用.

OS World

由于此课题目前我们更关注, 我又检索到有关 GUI Agent 的另一篇综述 [] .

小结

这篇综述 [] 相当详细, 分成了如上所说的几个方面. 其中任何一项缺失, 都很难称为真正的 Agentic RL.

从我理解来看, 和一般的 RL 相比, agentic RL 具有明显的自发性——它不像传统 RL 那样在一个固定环境里被动学习, 并接受一个人为设计的奖励函数, 而是需要在一个开放动态的环境中, 自主地观察行动和修正策略, 在此期间模型还可以借助各种工具, 来填补记忆存储的空白. “Planning” 这个概念也相当独特, 这意味着模型需要能够在面对复杂问题时自发拆解, 规划行动路径. 它显然并不是用于完成某一项固定的任务, 而是需要通过广泛的动作空间和环境观察, 提升自身对不同环境的泛化适应能力.

参考文献

Zhang, G., Geng, H., Yu, X., Yin, Z., Zhang, Z., Tan, Z., Zhou, H., Li, Z., Xue, X., Li, Y., Zhou, Y., Chen, Y., Zhang, C., Fan, Y., Wang, Z., Huang, S., Liao, Y., Wang, H., Yang, M., Ji, H., Wang, J., Yan, S., Torr, P., and Bai, L. The Landscape of Agentic Reinforcement Learning for LLMs: A Survey. Transactions on Machine Learning Research, 2026.
Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., and Amodei, D. Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 2017.
Ouyang, L., Wu, J., Jiang, X., et al. Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 2022.
Schulman, J., Wolski, F., Dhariwal, P., Radford, A., and Klimov, O. Proximal policy optimization algorithms. arXiv:1707.06347, 2017.
Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., and Finn, C. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. Advances in Neural Information Processing Systems, 2023.
Shao, Z., Wang, P., Zhu, Q., et al. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300, 2024.
DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948, 2025.
Yao, S., Zhao, J., Yu, D., et al. ReAct: Synergizing Reasoning and Acting in Language Models. International Conference on Learning Representations, 2023.
Yao, S., Yu, D., Zhao, J., et al. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. Advances in Neural Information Processing Systems, 2023.
Hao, S., Gu, Y., Ma, H., Hong, J. J., Wang, Z., Wang, D. Z., and Hu, Z. Reasoning with Language Model is Planning with World Model. Empirical Methods in Natural Language Processing, 2023.
Zhou, A., Yan, K., Shlapentokh-Rothman, M., Wang, H., and Wang, Y.-X. Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models. International Conference on Machine Learning, 2024.
Schick, T., Dwivedi-Yu, J., Dessi, R., et al. Toolformer: Language Models Can Teach Themselves to Use Tools. Advances in Neural Information Processing Systems, 2023.
Shinn, N., Cassano, F., Berman, E., Gopinath, A., Narasimhan, K., and Yao, S. Reflexion: Language Agents with Verbal Reinforcement Learning. Advances in Neural Information Processing Systems, 2023.
Packer, C., Wooders, S., Lin, K., Fang, V., Patil, S. G., Stoica, I., and Gonzalez, J. E. MemGPT: Towards LLMs as Operating Systems. arXiv:2310.08560, 2023.
Lightman, H., Kosaraju, V., Burda, Y., et al. Let's Verify Step by Step. arXiv:2305.20050, 2023.
Yao, S., Chen, H., Yang, J., and Narasimhan, K. WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents. Advances in Neural Information Processing Systems, 2022.
Zhou, S., Xu, F. F., Zhu, H., et al. WebArena: A Realistic Web Environment for Building Autonomous Agents. International Conference on Learning Representations, 2024.
Xie, T., Zhang, D., Chen, J., et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. Advances in Neural Information Processing Systems, 2024.
Jimenez, C. E., Yang, J., Wettig, A., Yao, S., Pei, K., Press, O., and Narasimhan, K. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? International Conference on Learning Representations, 2024.
Liu, X., Yu, H., Zhang, H., et al. AgentBench: Evaluating LLMs as Agents. International Conference on Learning Representations, 2024.
Xi, Z., Ding, Y., Chen, W., et al. AgentGym: Evaluating and Training Large Language Model-based Agents across Diverse Environments. Annual Meeting of the Association for Computational Linguistics, 2025.
Jin, B., Zeng, H., Yue, Z., Wang, D., Zamani, H., and Han, J. Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning. arXiv:2503.09516, 2025.
Hu, J., Wu, X., Zhu, Z., Xianyu, Wang, W., Zhang, D., and Cao, Y. OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework. arXiv:2405.11143, 2024.
von Werra, L., Belkada, Y., Tunstall, L., et al. TRL: Transformer Reinforcement Learning. Hugging Face, 2020.
Luo, X., Zhang, Y., He, Z., Wang, Z., Zhao, S., Li, D., Qiu, L. K., and Yang, Y. Agent Lightning: Train ANY AI Agents with Reinforcement Learning. arXiv:2508.03680, 2025.
Wang, G., Xie, Y., Jiang, Y., et al. Voyager: An Open-Ended Embodied Agent with Large Language Models. Transactions on Machine Learning Research, 2024.