论文阅读 - 智能体强化学习

是时候摆脱传统的RL玩具了

综述 [] Unknown-material 给出了一个相当全面的视角, 明确地把 Agentic RL 和传统的 LLM RL 区分开来了. 传统 LLM RL 常常只是在固定 prompt 上优化一个回答, 而 Agentic RL 关心的是一个 LLM policy 在开放环境中如何观察/行动/调用工具/维护记忆/规划/修正策略, 并从长程反馈中学习.

综述给出的定义如下:

Agentic RL 指的是把 LLM 视作嵌入序列决策循环中的可学习策略, 并通过 RL 赋予它规划、推理、工具使用、记忆维护、自我反思等自主能力, 使其能在部分可观测、动态、长程环境中形成稳定行为.

从 LLM RL 到 Agentic RL

传统 RLHF 或 RFT 的基本图景一般是从人类偏好、奖励模型或可验证答案中得到奖励信号, 然后让语言模型更偏向高奖励输出.

偏好式 RFT 可以近似写成退化的马尔可夫决策过程 (MDP):

$$ \left\langle S_{\mathrm{trad}}, A_{\mathrm{trad}}, P_{\mathrm{trad}}, R_{\mathrm{trad}}, T=1,\gamma=1 \right\rangle $$

而 Agentic RL 通常是这样的:

$$ \left\langle S_{\mathrm{agent}}, A_{\mathrm{agent}}, P_{\mathrm{agent}}, R_{\mathrm{agent}}, \gamma, O \right\rangle $$

这里援引一下综述给出的对比表格:

概念 传统 LLM RL Agentic RL
$S$ (状态空间) $\{s_0\}$, 状态基本就是 prompt $s_t \in \mathcal{S}_{\text{agent}}$, 拥有观察 $o_t = O(s_t)$, 通常 $T \gt 1$
$A$ (动作空间) 完整文本序列 $A_{\text{agent}} = A_{\text{text}} \cup A_{\text{action}}$
包含文本生成和环境交互动作
(如是否调用搜索引擎, 修改代码并运行测试)
$P$ (转移概率) 直接转移到终止状态 动态转移函数 $P(s_{t+1} \mid s_t,a_t)$
$R$ (奖励函数) 往往只对完整回答打分 逐 step $R(s_t,a_t)$, 稀疏任务和紧密的子奖励
$J(\theta)$ (优化目标) $J(\theta) = \mathbb{E}_{a \sim \pi_0} [r(a)]$ $J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} [\sum_{t=0}^T \gamma^t R(s_t,a_t)]$

算法Agentic-RL

输入 > 环境集合 $\mathcal{E}$, 初始 LLM policy $\pi_\theta$, 奖励函数或奖励模型 $R$, rollout budget $B$, 更新算法 $\mathcal{A}$.

输出 > 经过交互训练后的 agent policy $\pi_{\theta'}$.

  1. 从环境集合中采样任务 $e \sim \mathcal{E}$, 初始化状态 $s_0$ 和观察 $o_0$.
  2. 构造上下文 $h_0 = \mathrm{Prompt}(o_0, m_0, g)$, 其中 $m_0$ 是记忆, $g$ 是任务目标.
  3. 对 $t=0,\ldots,T-1$:
    1. 用 $\pi_\theta(a_t|h_t)$ 采样语义动作 $a_t$.
    2. 如果 $a_t$ 是工具调用, 则执行工具并写入观察; 如果是 GUI 或代码动作, 则更新外部环境.
    3. 环境返回 $o_{t+1}$, 奖励 $r_t$, 以及终止标记.
    4. 更新上下文 $h_{t+1}=\mathrm{Update}(h_t,a_t,o_{t+1},m_t)$.
  4. 收集轨迹 $\tau=(h_t,a_t,r_t)_{t=0}^{T}$.
  5. 用 $\mathcal{A}$ 更新策略, 例如 PPO、GRPO、DPO 或其他 actor-critic / preference optimization 变体.
  6. 重复步骤 1-5, 直到策略在验证环境中稳定提升.

重要文献坐标系

下面为 AI 辅助找出的重要文献

方向 代表文献 解决的问题 对 Agentic RL 的意义
RLHF 源头 , 如何用人类偏好训练策略 给 LLM RL 提供 reward model + policy optimization 的起点
RL 基础算法 , , 如何稳定优化语言模型 policy 形成 PPO / DPO / GRPO 三条主线
交错推理与行动 如何让 LLM 一边思考一边作用于环境 让 “reasoning trace” 与 “environment action” 合流
搜索式规划 , , 如何探索多条思维/行动路径 把 planning、MCTS、value function 引入 agent 推理
工具使用 , 何时调用工具、如何生成工具参数 从 prompt-time tool use 走向 RL-trained tool use
记忆与反思 , , 如何跨 episode 积累经验 让 agent 拥有可更新的语言记忆和技能库
过程监督 长链推理如何分配信用 为 step-wise reward / PRM / agent critic 提供依据
Web / GUI 环境 , , 如何构造可交互、可评估的真实环境 让 agent 训练不再停留在静态问答
SWE 任务 真实代码仓库 issue 修复 把 agentic code RL 推向真实软件工程
通用评测与训练框架 , 多环境评测与训练标准化 提供跨任务 agent 能力比较
训练基础设施 , , 如何把 RL 训练扩展到大模型和复杂 agent 支撑可复现实验与工程化训练

算法主线

Agentic RL 不是一个固定算法名, 它更像一个任务范式. 具体到优化层面, 综述把 PPO、DPO、GRPO 及其变体作为主干.

近端策略优化

近端策略优化 (Proximal Policy Optimization, PPO) [] 核心是限制新旧策略比率:

$$ \rho_t(\theta)=\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\mathrm{old}}}(a_t|s_t)} $$

常用的 clipped objective:

$$ \mathcal{L}^{\mathrm{CLIP}}(\theta) = \mathbb{E}_t \left[ \min\left( \rho_t(\theta)\hat{A}_t, \mathrm{clip}(\rho_t(\theta),1-\epsilon,1+\epsilon)\hat{A}_t \right) \right] $$

对 LLM 来说, PPO 的优点是清晰, 但它通常要 policy 和 value 两个模型, 还要处理长序列训练的显存和吞吐问题. 当 agent 进一步包含工具调用、环境状态和多轮交互时, PPO 的 rollout 与信用分配难度会进一步增加.

直接偏好优化

直接偏好优化 (Direct Preference Optimization, DPO) [] 绕开显式 reward 和在线 RL 循环, 直接从 pairwise preference 中优化 policy. 对于样本 $(x,y_w,y_l)$, DPO 形式上可写成:

$$ \mathcal{L}_{\mathrm{DPO}} = -\log \sigma \left( \beta \left[ \log\frac{\pi_\theta(y_w|x)}{\pi_{\mathrm{ref}}(y_w|x)} - \log\frac{\pi_\theta(y_l|x)}{\pi_{\mathrm{ref}}(y_l|x)} \right] \right) $$

在 Agentic RL 中, DPO 不再比较两个短回答, 而是比较两个 action 片段.

组相对策略优化

DeepSeekMath [] 提出的组相对策略优化 (Group Relative Policy Optimization, GRPO) 可以看成 “去 critic 化” 的 PPO 变体. 它在同一 prompt 下采样一 “组” 输出, 即同一个问题采样多个解答, 可验证任务给每个解答打分, 组内比较就能得到相对优势. DeepSeek-R1 [] 进一步把这种思路推到了推理模型训练上.

算法GRPO

输入 > 任务 $x$, 当前策略 $\pi_\theta$, 参考策略 $\pi_{\mathrm{ref}}$, 每组采样数 $G$, 奖励函数 $R$.

输出 > 更新后的策略 $\pi_{\theta'}$.

  1. 对同一任务 $x$ 采样 $G$ 条 agent 轨迹: $\tau_1,\ldots,\tau_G$.
  2. 对每条轨迹执行环境评估, 得到 $r_i=R(x,\tau_i)$.
  3. 计算组内标准化优势: $$ \hat{A}_i=\frac{r_i-\mu_r}{\sigma_r+\epsilon} $$
  4. 对每条轨迹中的 token / action 计算新旧策略比率.
  5. 使用 clipped policy objective 计算损失: $$ \mathcal{L}^{\mathrm{GRPO}}(\theta) = \frac{1}{G}\sum_{i=1}^G \min\left( \rho_i(\theta)\hat{A}_i, \mathrm{clip}(\rho_i(\theta),1-\epsilon,1+\epsilon)\hat{A}_i \right) $$
  6. 加入 KL 散度正则, 避免策略偏离 $\pi_{\mathrm{ref}}$ 过远.
  7. 重复采样和更新.

能力视角

综述的第三节按能力拆解 Agentic RL.

计划

早期 agent planning 常靠提示词工程. ReAct [] Unknown-material (ICLR 2023 Notable) 的关键贡献在于把推理轨迹和动作交错在一起. 论文的关键建模方式是把原本的动作空间 $A$ 扩展成 $\hat{A} = A \cup L$, 其中 $L$ 是语言空间.

算法ReAct

输入 > 任务输入 $x$, 外部环境/工具 $\mathcal{E}$, LLM policy $\pi_\theta$, 动作空间 $\mathcal{A}$, 语言推理空间 $\mathcal{L}$, 最大交互步数 $T$, few-shot ReAct 示例 $\mathcal{D}_{demo}$.

输出 > 最终答案/任务结果 $y$, 以及推理-行动轨迹 $\tau$.

  1. 初始化上下文

    $$ h_0 = [\mathcal{D}_{demo}; x], $$

    初始化轨迹 $\tau=\emptyset$.

  2. 对 $t=0,1,\dots,T-1$, 模型基于当前上下文生成下一步:

    $$ z_t \sim \pi_\theta(\cdot \mid h_t) $$
  3. 如果是自然语言推理 $z_t=\texttt{Thought}(r_t)$, 将推理文本加入轨迹, 并更新上下文:

    $$ \tau \leftarrow \tau \cup { \texttt{Thought}(r_t) } $$

    $$ h_{t+1} = h_t \oplus \texttt{Thought}(r_t) $$
  4. 如果是对环境执行的动作 $z_t=\texttt{Action}(a_t)$, 在环境中执行动作, 并将动作和观察写入轨迹:

    $$ o_t = \mathcal{E}(a_t) $$

    $$ \tau \leftarrow \tau \cup { \texttt{Action}(a_t), \texttt{Observation}(o_t) } $$

    $$ h_{t+1} = h_t \oplus \texttt{Action}(a_t) \oplus \texttt{Observation}(o_t) $$
  5. 如果是最终答案或任务完成信号, $z_t=\texttt{Finish}(y)$, 将最终答案写入轨迹:

    $$ \tau \leftarrow \tau \cup { \texttt{Finish}(y) } $$

    随后结束 rollout, 返回 $(y,\tau)$.

Tree of Thoughts [] (NIPS 2023 Oral) 则把思考链扩展成了思考树, 它把思考当作可扩展节点, 让模型生成、评估和回溯.

对于思考生成, 从当前状态 $s=[x,z_{1:i}]$ 生成 $k$ 个候选思考, 论文给了两种方式 (对应算法的 $G$):

  • 一种是从 CoT prompt 独立采样多个候选, 适合开放空间
  • 另一种是一个 prompt 里连续生成 k 个不同的下一步, 适合约束较强的任务.

对于状态评估, 这个是 ToT 框架最大的创新之一, 就是利用 LLM 自己来充当评估器, 为搜索算法提供启发式信息, 也有两种方式 (对应算法的 $V$):

  • 价值评估: 让 LLM 直接给当前状态打分, 或者给出一个分类 (比如 sure/likely/impossible)
  • 投票表决: 让 LLM 比较几个不同的分支, 然后投票选出最有希望的一个.

Tree of Thoughts

关于模型推理, 论文给出了 BFS 和 DFS 两种流程, 这里以 DFS 为例:

算法Tree of Thought - DFS

输入 > 当前状态 $s$, 当前深度 $t$, LLM policy $p_\theta$, 思考生成器 $G$, 每个状态生成候选数 $k$, state evaluator $V$, 最大深度 $T$, 剪枝阈值 $v_{\mathrm{th}}$.

输出 > 候选答案集合 $\mathcal{Y}$, 搜索轨迹 $\tau$.

  1. 如果 $t>T$, 基于当前状态生成最终答案并返回.

    $$ y = G(p_\theta, s, 1) $$

    $$ \mathcal{Y} \leftarrow \mathcal{Y} \cup {y} $$
  2. 从当前状态生成 $k$ 个候选下一步 thought:

    $$ Z = G(p_\theta, s, k) $$
  3. 对每个候选 thought $z \in Z$, 构造新状态:

    $$ s'=[s,z] $$
  4. 对新状态进行评估:

    $$ v = V(p_\theta,{s'})(s') $$
  5. 如果 $v > v_{\mathrm{th}}$, 递归搜索:

    $$ \texttt{DFS}(s',t+1) $$
  6. 返回候选答案集合 $\mathcal{Y}$ 和完整搜索轨迹 $\tau$.

RAP [] 更进一步, 把 LLM 复用成世界模型和推理 agent, 用 MCTS 探索推理树, 这里不再赘述.

这几篇文献的共同点是, planning 不只是生成计划, 而是搜索计划空间. 接入 RL 后, 它可以训练价值函数, 训练计划选择, 甚至直接训练策略产生更好的计划动作.

工具调用

工具调用可以被看成一种离散行动:

$$ a_t=(\mathrm{tool\_name}, \mathrm{arguments}) $$

Toolformer [] Unknown-material (NIPS 2023 Oral) 证明语言模型可以通过自监督方式学会 API 调用: 模型先生成候选 API 调用, 执行工具, 再过滤出能提升语言模型似然的调用样本.

算法Toolformer-API-Annotation

输入 > 普通文本语料 $\mathcal{C}={x^{(1)},\dots,x^{(N)}}$, 基础语言模型 $M$, API 集合 $\mathcal{A}$, 每个 API 的少量 demonstration prompt $P_a(\cdot)$, 最大候选位置数 $k$, 每个位置最大候选 API call 数 $m$, 采样阈值 $\tau_s$, 过滤阈值 $\tau_f$.

输出 > 带 API 调用标注的语料 $\mathcal{C}^{*}$.

  1. 初始化 $\mathcal{C}^{*}\leftarrow \emptyset$.

  2. 对每篇文本 $x=(x_1,\dots,x_n)\in \mathcal{C}$ 和每个工具/API $a\in \mathcal{A}$ 构造 few-shot API 标注的 prompt $P_a(x)$, 比如形如 <API>a(i)</API>, 展示如何在普通文本中插入该 API 的调用格式.

  3. 对每个 token 位置 $i$, 计算模型在该位置开始 API 调用的概率:

    $$ p_i = p_M(\langle API\rangle \mid P_a(x), x_{1:i-1}) $$
  4. 保留满足阈值的位置:

    $$ I=\{i \mid p_i>\tau_s \} $$

    如果 $|I|>k$, 只保留概率最高的 $k$ 个位置.

  5. 对每个候选位置 $i\in I$, 从模型中采样最多 $m$ 个 API 调用并执行:

    $$ c_i^1,\dots,c_i^m \sim M(P_a(x),x_{1:i-1},\langle API\rangle) $$

    $$ r_i^j = a(c_i^j) $$
  6. 对每个候选调用 $(c_i^j,r_i^j)$, 计算不调用工具/只给 API 输入, 不给工具返回/给 API 输入和工具返回三种情况下模型预测未来 token 的 loss:

    $$ L_i(\epsilon), ~ L_i(e(c_i^j,\epsilon)), ~ L_i(e(c_i^j,r_i^j)) $$
  7. 定义:

    $$ L_i^+ = L_i(e(c_i^j,r_i^j)) $$$$ L_i^- = \min \left(L_i(\epsilon), L_i(e(c_i^j,\epsilon))\right) $$

    如果工具返回真的帮助模型预测后续文本, 即:

    $$ L_i^- - L_i^+ \geq \tau_f $$

    则保留该 API call.

  8. 将所有保留的 API call 插入原始文本:

    $$ x^* = x_{1:i-1}, e(c_i,r_i), x_{i:n} $$

    $$ \mathcal{C}^{*}\leftarrow \mathcal{C}^{*}\cup {x^*} $$
  9. 返回 $\mathcal{C}^{*}$.

Toolformer API

Search-R1 [] Unknown-material 是一个很典型的 Agentic RL 方向, 让模型在逐步推理中通过 RL 学会多轮搜索查询, 并处理实时检索结果.

算法Search-R1

输入 > 问题 $q$, 搜索工具 $\mathcal{S}$, LLM policy $\pi_\theta$, 最大搜索次数 $K$.

输出 > 答案 $y$ 和搜索-推理轨迹 $\tau$.

  1. 初始化上下文 $h_0=q$, 搜索次数 $k=0$.
  2. 模型生成下一步: 推理文本、搜索请求或最终答案.
  3. 如果动作为 Search(query) 且 $k\lt K$ :
    • 执行 $\mathcal{S}(\mathrm{query})$.
    • 把检索结果作为 observation 写入上下文.
    • $k \leftarrow k+1$.
  4. 如果动作为 Answer(y), 结束 rollout.
  5. 用最终答案正确性、搜索成本、格式合法性等构造 reward.
  6. 通过 GRPO / PPO 更新 policy.

Search R1

其奖励设计非常简单——精准匹配0/1奖励. 此外实测发现 GRPO 收敛快, 但训练后期容易奖励崩塌, PPO 虽然收敛慢, 但更稳定, 最终性能更好, 所以默认用 PPO.

记忆

MemGPT [] Unknown-material 借鉴传统操作系统中虚拟内存管理的核心思想, 提出一种分层记忆系统, 使其能够智能地在快速但有限的"主上下文" (类比 RAM) 和慢速但海量的"外部上下文" (类比磁盘) 之间进行信息的换入换出.

运作机制:

  • 用户输入、系统警告 (如主上下文接近上限, 产生内存压力) 或其他预设会触发 LLM 进行推理.
  • LLM根据系统指令和当前上下文, 决定是否需要以及如何管理其记忆. 例如: 当FIFO队列过长, 触发“内存压力”警告, LLM可以调用函数将队列中的重要信息存入工作上下文或档案存储.
  • 当需要回忆过去的对话细节或查询文档时, LLM调用函数从回忆存储或档案存储中检索信息, 并将其加载到主上下文中. 当工作上下文中的信息过时或不再相关, LLM可以更新或移除它们.
  • 函数执行的结果 (包括成功信息或错误信息) 会反馈给LLM, 更新其主上下文, 并可能触发后续的函数调用链 (例如分页查询) .

MemGPT 示例: 写入/搜索/更新

这里所有调用函数都是由 LLM 自己决定的, 包括何时调用、调用哪个函数、以及如何处理函数返回的结果. 这种设计使得 LLM 不仅是一个被动的记忆存储器, 而是一个主动的记忆管理者, 能够根据当前任务需求和系统状态动态调整其记忆策略.

MemGPT

Reflexion [] (NIPS 2023) 不更新模型权重, 而是让 agent 根据失败反馈写下文字反馈, 存入片段性的记忆, 供下一次尝试使用. 把语言形式的经验当作一种近似的策略提升.

推理

DeepSeek-R1 [] 指出大规模 RL 可以在没有人工标注推理轨迹的情况下诱导出某些推理行为. 不过, 综述中特别提到过度思考的现象: agentic 推理可能因为过度搜索、过度验证、工具调用循环而变慢甚至变差.

任务视角

综述第四节按任务展开. AI 辅助整理如下:

任务 环境真实性 奖励可验证性 难点
数学推理 reward 容易, 但容易过拟合格式和长度
代码生成 单函数任务较清晰, 仓库级任务信用分配难
搜索研究 信息质量、引用可靠性和搜索成本难统一
Web / GUI 观测/动作接地难
软件工程 测试、构建、依赖和长上下文开销大
具身 稀疏奖励、长 horizon、环境随机性
多智能体 非平稳性、协作信用分配、通信协议

Search Agent

网页搜索是最自然的 agentic 任务之一. 简单 RAG 通常把检索当成固定预处理, 但 research agent 需要决定搜索计划、重写查询、交叉验证来源、归纳冲突信息、生成报告.

Search-R1 [] 让模型通过 RL 学会在推理过程中主动搜索. 它比较接近 ReAct, 但重点从 prompt 模式变成了策略训练. 这类任务的 reward 设计通常要考虑多方面因素:

$$ R = R_{\mathrm{answer}} + \lambda_1 R_{\mathrm{citation}} - \lambda_2 C_{\mathrm{search}} - \lambda_3 R_{\mathrm{hallucination}} $$

其中 $C_{\mathrm{search}}$ 是搜索成本, $R_{\mathrm{citation}}$ 是来源支撑度, $R_{\mathrm{hallucination}}$ 则惩罚无来源断言.

Code / SWE Agent

CodeRL 一类方法证明了可执行反馈对代码生成有效.

SWE-bench [] (ICLR 2024) 给出了一种仓库级 benchmark. 它从 12 个流行 Python 仓库抓取约 9 万个 PR;再保留 merged、关联 issue、且修改测试文件的 PR;最后用执行过滤验证这些 PR 是否能产生 fail-to-pass 测试. 一个 SWE-bench task instance 可以抽象成:

$$ \mathcal{I} = (P, C, T, \delta) $$

其中:

  • $P$: problem statement, 也就是 GitHub issue 文本;
  • $C$: 代码库在 PR base commit 处的快照;
  • $T$: 由 PR 中测试文件变化提取出的测试集合;
  • $\delta$: 真实 PR 的 gold patch, 也是模型要预测的目标.

需要注意, 模型可以生成和真实 PR 不一样的 patch, 只要能解决 issue 并保持已有测试通过, 就算成功

Math Agent

数学任务是 RLVR 最合适的温床. 主要在于其答案通常可验证, 采样多个解答再组内比较也容易. DeepSeekMath 和 DeepSeek-R1 的路径说明, 在数学和形式化任务上, GRPO / PPO 这类方法能诱导更长、更自检的推理过程.

形式数学里的 reward 更可验证, 但动作空间也更困难. 而非形式数学则较难以检查过程正确性.

GUI / Web Agent

综述 [] 有关 GUI Agent 只列举了几个 Benchmark: WebShop [] 是早期网络环境, agent 根据商品需求导航网页、搜索、筛选并购买. WebArena [] 则把 web agent 推向更真实的自发主持的网站环境, 包括电商、论坛、代码协作和内容管理等网站. OSWorld [] 的 benchmark 进一步让 agent 操作真实桌面系统和应用.

OS World

由于此课题目前我们更关注, 我又检索到有关 GUI Agent 的另一篇综述 [] .

小结

这篇综述 [] 相当详细, 分成了如上所说的几个方面. 其中任何一项缺失, 都很难称为真正的 Agentic RL.

从我理解来看, 和一般的 RL 相比, agentic RL 具有明显的自发性——它不像传统 RL 那样在一个固定环境里被动学习, 并接受一个人为设计的奖励函数, 而是需要在一个开放动态的环境中, 自主地观察行动和修正策略, 在此期间模型还可以借助各种工具, 来填补记忆存储的空白. “Planning” 这个概念也相当独特, 这意味着模型需要能够在面对复杂问题时自发拆解, 规划行动路径. 它显然并不是用于完成某一项固定的任务, 而是需要通过广泛的动作空间和环境观察, 提升自身对不同环境的泛化适应能力.

参考文献

  • Zhang, G., Geng, H., Yu, X., Yin, Z., Zhang, Z., Tan, Z., Zhou, H., Li, Z., Xue, X., Li, Y., Zhou, Y., Chen, Y., Zhang, C., Fan, Y., Wang, Z., Huang, S., Liao, Y., Wang, H., Yang, M., Ji, H., Wang, J., Yan, S., Torr, P., and Bai, L. The Landscape of Agentic Reinforcement Learning for LLMs: A Survey. Transactions on Machine Learning Research, 2026.
  • Christiano, P. F., Leike, J., Brown, T., Martic, M., Legg, S., and Amodei, D. Deep reinforcement learning from human preferences. Advances in Neural Information Processing Systems, 2017.
  • Ouyang, L., Wu, J., Jiang, X., et al. Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 2022.
  • Schulman, J., Wolski, F., Dhariwal, P., Radford, A., and Klimov, O. Proximal policy optimization algorithms. arXiv:1707.06347, 2017.
  • Rafailov, R., Sharma, A., Mitchell, E., Ermon, S., Manning, C. D., and Finn, C. Direct Preference Optimization: Your Language Model is Secretly a Reward Model. Advances in Neural Information Processing Systems, 2023.
  • Shao, Z., Wang, P., Zhu, Q., et al. DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models. arXiv:2402.03300, 2024.
  • DeepSeek-AI. DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. arXiv:2501.12948, 2025.
  • Yao, S., Zhao, J., Yu, D., et al. ReAct: Synergizing Reasoning and Acting in Language Models. International Conference on Learning Representations, 2023.
  • Yao, S., Yu, D., Zhao, J., et al. Tree of Thoughts: Deliberate Problem Solving with Large Language Models. Advances in Neural Information Processing Systems, 2023.
  • Hao, S., Gu, Y., Ma, H., Hong, J. J., Wang, Z., Wang, D. Z., and Hu, Z. Reasoning with Language Model is Planning with World Model. Empirical Methods in Natural Language Processing, 2023.
  • Zhou, A., Yan, K., Shlapentokh-Rothman, M., Wang, H., and Wang, Y.-X. Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models. International Conference on Machine Learning, 2024.
  • Schick, T., Dwivedi-Yu, J., Dessi, R., et al. Toolformer: Language Models Can Teach Themselves to Use Tools. Advances in Neural Information Processing Systems, 2023.
  • Shinn, N., Cassano, F., Berman, E., Gopinath, A., Narasimhan, K., and Yao, S. Reflexion: Language Agents with Verbal Reinforcement Learning. Advances in Neural Information Processing Systems, 2023.
  • Packer, C., Wooders, S., Lin, K., Fang, V., Patil, S. G., Stoica, I., and Gonzalez, J. E. MemGPT: Towards LLMs as Operating Systems. arXiv:2310.08560, 2023.
  • Lightman, H., Kosaraju, V., Burda, Y., et al. Let's Verify Step by Step. arXiv:2305.20050, 2023.
  • Yao, S., Chen, H., Yang, J., and Narasimhan, K. WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents. Advances in Neural Information Processing Systems, 2022.
  • Zhou, S., Xu, F. F., Zhu, H., et al. WebArena: A Realistic Web Environment for Building Autonomous Agents. International Conference on Learning Representations, 2024.
  • Xie, T., Zhang, D., Chen, J., et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. Advances in Neural Information Processing Systems, 2024.
  • Jimenez, C. E., Yang, J., Wettig, A., Yao, S., Pei, K., Press, O., and Narasimhan, K. SWE-bench: Can Language Models Resolve Real-World GitHub Issues? International Conference on Learning Representations, 2024.
  • Liu, X., Yu, H., Zhang, H., et al. AgentBench: Evaluating LLMs as Agents. International Conference on Learning Representations, 2024.
  • Xi, Z., Ding, Y., Chen, W., et al. AgentGym: Evaluating and Training Large Language Model-based Agents across Diverse Environments. Annual Meeting of the Association for Computational Linguistics, 2025.
  • Jin, B., Zeng, H., Yue, Z., Wang, D., Zamani, H., and Han, J. Search-R1: Training LLMs to Reason and Leverage Search Engines with Reinforcement Learning. arXiv:2503.09516, 2025.
  • Hu, J., Wu, X., Zhu, Z., Xianyu, Wang, W., Zhang, D., and Cao, Y. OpenRLHF: An Easy-to-use, Scalable and High-performance RLHF Framework. arXiv:2405.11143, 2024.
  • von Werra, L., Belkada, Y., Tunstall, L., et al. TRL: Transformer Reinforcement Learning. Hugging Face, 2020.
  • Luo, X., Zhang, Y., He, Z., Wang, Z., Zhao, S., Li, D., Qiu, L. K., and Yang, Y. Agent Lightning: Train ANY AI Agents with Reinforcement Learning. arXiv:2508.03680, 2025.
  • Wang, G., Xie, Y., Jiang, Y., et al. Voyager: An Open-Ended Embodied Agent with Large Language Models. Transactions on Machine Learning Research, 2024.
本文遵循 CC BY-NC-SA 4.0 协议
使用 Hugo 构建