<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>LLM on LeoDreamer</title>
        <link>https://LeoDreamer2004.github.io/tags/llm/</link>
        <description>Recent content in LLM on LeoDreamer</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Wed, 13 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://LeoDreamer2004.github.io/tags/llm/index.xml" rel="self" type="application/rss+xml" /><item>
            <title>论文阅读 - 智能体强化学习</title>
            <link>https://LeoDreamer2004.github.io/p/paper-reading/agentic-rl/</link>
            <pubDate>Wed, 13 May 2026 00:00:00 +0000</pubDate>
            <guid>https://LeoDreamer2004.github.io/p/paper-reading/agentic-rl/</guid>
            <description>&lt;p&gt;综述 &lt;a class=&#34;link cite-Agentic-RL-Survey&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &lt;span class=&#34;material-name&#34;&gt;Unknown-material&lt;/span&gt; &#xA;&lt;/a&gt; 给出了一个相当全面的视角, 明确地把 &lt;strong&gt;Agentic RL&lt;/strong&gt; 和传统的 &lt;strong&gt;LLM RL&lt;/strong&gt; 区分开来了. 传统 LLM RL 常常只是在固定 prompt 上优化一个回答, 而 Agentic RL 关心的是一个 LLM policy 在开放环境中如何观察/行动/调用工具/维护记忆/规划/修正策略, 并从长程反馈中学习.&lt;/p&gt;&#xA;&lt;p&gt;综述给出的定义如下:&lt;/p&gt;&#xA;&#xA;    &lt;blockquote&gt;&#xA;        &lt;p&gt;Agentic RL 指的是把 LLM 视作嵌入序列决策循环中的可学习策略, 并通过 RL 赋予它规划、推理、工具使用、记忆维护、自我反思等自主能力, 使其能在部分可观测、动态、长程环境中形成稳定行为.&lt;/p&gt;&#xA;&#xA;    &lt;/blockquote&gt;&#xA;&lt;h2 id=&#34;从-llm-rl-到-agentic-rl&#34;&gt;从 LLM RL 到 Agentic RL&#xA;&lt;/h2&gt;&lt;p&gt;传统 RLHF 或 RFT 的基本图景一般是从人类偏好、奖励模型或可验证答案中得到奖励信号, 然后让语言模型更偏向高奖励输出.&lt;/p&gt;&#xA;&lt;p&gt;偏好式 RFT 可以近似写成退化的马尔可夫决策过程 (MDP):&lt;/p&gt;&#xA;$$&#xA;\left\langle S_{\mathrm{trad}}, A_{\mathrm{trad}}, P_{\mathrm{trad}}, R_{\mathrm{trad}}, T=1,\gamma=1 \right\rangle&#xA;$$&lt;p&gt;而 Agentic RL 通常是这样的:&lt;/p&gt;&#xA;$$&#xA;\left\langle S_{\mathrm{agent}}, A_{\mathrm{agent}}, P_{\mathrm{agent}}, R_{\mathrm{agent}}, \gamma, O \right\rangle&#xA;$$&lt;p&gt;这里援引一下综述给出的对比表格:&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th style=&#34;text-align: center&#34;&gt;概念&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: center&#34;&gt;传统 LLM RL&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: center&#34;&gt;Agentic RL&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;$S$ (状态空间)&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;$\{s_0\}$,  状态基本就是 prompt&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;$s_t \in \mathcal{S}_{\text{agent}}$, 拥有观察 $o_t = O(s_t)$, 通常 $T \gt 1$&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;$A$ (动作空间)&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;完整文本序列&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;$A_{\text{agent}} = A_{\text{text}} \cup A_{\text{action}}$ &lt;br /&gt; 包含文本生成和环境交互动作 &lt;br /&gt;(如是否调用搜索引擎, 修改代码并运行测试)&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;$P$ (转移概率)&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;直接转移到终止状态&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;动态转移函数 $P(s_{t+1} \mid s_t,a_t)$&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;$R$ (奖励函数)&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;往往只对完整回答打分&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;逐 step $R(s_t,a_t)$, 稀疏任务和紧密的子奖励&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;$J(\theta)$ (优化目标)&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;$J(\theta) = \mathbb{E}_{a \sim \pi_0} [r(a)]$&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;$J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} [\sum_{t=0}^T \gamma^t R(s_t,a_t)]$&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;div class=&#34;math-block math-algo&#34;&gt;&#xA;    &lt;p class=&#34;math-title&#34;&gt;算法&lt;span class=&#34;math-subtitle&#34;&gt;Agentic-RL&lt;/span&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong class=&#34;algo-input&#34;&gt;输入 &amp;gt; &lt;/strong&gt; 环境集合 $\mathcal{E}$, 初始 LLM policy $\pi_\theta$, 奖励函数或奖励模型 $R$, rollout budget $B$, 更新算法 $\mathcal{A}$.&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong class=&#34;algo-output&#34;&gt;输出 &amp;gt; &lt;/strong&gt; 经过交互训练后的 agent policy $\pi_{\theta&#39;}$.&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;从环境集合中采样任务 $e \sim \mathcal{E}$, 初始化状态 $s_0$ 和观察 $o_0$.&lt;/li&gt;&#xA;&lt;li&gt;构造上下文 $h_0 = \mathrm{Prompt}(o_0, m_0, g)$, 其中 $m_0$ 是记忆, $g$ 是任务目标.&lt;/li&gt;&#xA;&lt;li&gt;对 $t=0,\ldots,T-1$:&#xA;&lt;ol&gt;&#xA;&lt;li&gt;用 $\pi_\theta(a_t|h_t)$ 采样语义动作 $a_t$.&lt;/li&gt;&#xA;&lt;li&gt;如果 $a_t$ 是工具调用, 则执行工具并写入观察; 如果是 GUI 或代码动作, 则更新外部环境.&lt;/li&gt;&#xA;&lt;li&gt;环境返回 $o_{t+1}$, 奖励 $r_t$, 以及终止标记.&lt;/li&gt;&#xA;&lt;li&gt;更新上下文 $h_{t+1}=\mathrm{Update}(h_t,a_t,o_{t+1},m_t)$.&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;收集轨迹 $\tau=(h_t,a_t,r_t)_{t=0}^{T}$.&lt;/li&gt;&#xA;&lt;li&gt;用 $\mathcal{A}$ 更新策略, 例如 PPO、GRPO、DPO 或其他 actor-critic / preference optimization 变体.&lt;/li&gt;&#xA;&lt;li&gt;重复步骤 1-5, 直到策略在验证环境中稳定提升.&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;/div&gt;&#xA;&lt;h2 id=&#34;重要文献坐标系&#34;&gt;重要文献坐标系&#xA;&lt;/h2&gt;&lt;p&gt;下面为 AI 辅助找出的重要文献&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;方向&lt;/th&gt;&#xA;          &lt;th&gt;代表文献&lt;/th&gt;&#xA;          &lt;th&gt;解决的问题&lt;/th&gt;&#xA;          &lt;th&gt;对 Agentic RL 的意义&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;RLHF 源头&lt;/td&gt;&#xA;          &lt;td&gt;&lt;a class=&#34;link ref-RLHF-Preferences&#34;&gt;&lt;/a&gt;, &lt;a class=&#34;link ref-InstructGPT&#34;&gt;&lt;/a&gt;&lt;/td&gt;&#xA;          &lt;td&gt;如何用人类偏好训练策略&lt;/td&gt;&#xA;          &lt;td&gt;给 LLM RL 提供 reward model + policy optimization 的起点&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;RL 基础算法&lt;/td&gt;&#xA;          &lt;td&gt;&lt;a class=&#34;link ref-PPO&#34;&gt;&lt;/a&gt;, &lt;a class=&#34;link ref-DPO&#34;&gt;&lt;/a&gt;, &lt;a class=&#34;link ref-DeepSeekMath-GRPO&#34;&gt;&lt;/a&gt;&lt;/td&gt;&#xA;          &lt;td&gt;如何稳定优化语言模型 policy&lt;/td&gt;&#xA;          &lt;td&gt;形成 PPO / DPO / GRPO 三条主线&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;交错推理与行动&lt;/td&gt;&#xA;          &lt;td&gt;&lt;a class=&#34;link ref-ReAct&#34;&gt;&lt;/a&gt;&lt;/td&gt;&#xA;          &lt;td&gt;如何让 LLM 一边思考一边作用于环境&lt;/td&gt;&#xA;          &lt;td&gt;让 &amp;ldquo;reasoning trace&amp;rdquo; 与 &amp;ldquo;environment action&amp;rdquo; 合流&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;搜索式规划&lt;/td&gt;&#xA;          &lt;td&gt;&lt;a class=&#34;link ref-ToT&#34;&gt;&lt;/a&gt;, &lt;a class=&#34;link ref-RAP&#34;&gt;&lt;/a&gt;, &lt;a class=&#34;link ref-LATS&#34;&gt;&lt;/a&gt;&lt;/td&gt;&#xA;          &lt;td&gt;如何探索多条思维/行动路径&lt;/td&gt;&#xA;          &lt;td&gt;把 planning、MCTS、value function 引入 agent 推理&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;工具使用&lt;/td&gt;&#xA;          &lt;td&gt;&lt;a class=&#34;link ref-Toolformer&#34;&gt;&lt;/a&gt;, &lt;a class=&#34;link ref-Search-R1&#34;&gt;&lt;/a&gt;&lt;/td&gt;&#xA;          &lt;td&gt;何时调用工具、如何生成工具参数&lt;/td&gt;&#xA;          &lt;td&gt;从 prompt-time tool use 走向 RL-trained tool use&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;记忆与反思&lt;/td&gt;&#xA;          &lt;td&gt;&lt;a class=&#34;link ref-Reflexion&#34;&gt;&lt;/a&gt;, &lt;a class=&#34;link ref-MemGPT&#34;&gt;&lt;/a&gt;, &lt;a class=&#34;link ref-Voyager&#34;&gt;&lt;/a&gt;&lt;/td&gt;&#xA;          &lt;td&gt;如何跨 episode 积累经验&lt;/td&gt;&#xA;          &lt;td&gt;让 agent 拥有可更新的语言记忆和技能库&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;过程监督&lt;/td&gt;&#xA;          &lt;td&gt;&lt;a class=&#34;link ref-Process-Supervision&#34;&gt;&lt;/a&gt;&lt;/td&gt;&#xA;          &lt;td&gt;长链推理如何分配信用&lt;/td&gt;&#xA;          &lt;td&gt;为 step-wise reward / PRM / agent critic 提供依据&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Web / GUI 环境&lt;/td&gt;&#xA;          &lt;td&gt;&lt;a class=&#34;link ref-WebShop&#34;&gt;&lt;/a&gt;, &lt;a class=&#34;link ref-WebArena&#34;&gt;&lt;/a&gt;, &lt;a class=&#34;link ref-OSWorld&#34;&gt;&lt;/a&gt;&lt;/td&gt;&#xA;          &lt;td&gt;如何构造可交互、可评估的真实环境&lt;/td&gt;&#xA;          &lt;td&gt;让 agent 训练不再停留在静态问答&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;SWE 任务&lt;/td&gt;&#xA;          &lt;td&gt;&lt;a class=&#34;link ref-SWE-bench&#34;&gt;&lt;/a&gt;&lt;/td&gt;&#xA;          &lt;td&gt;真实代码仓库 issue 修复&lt;/td&gt;&#xA;          &lt;td&gt;把 agentic code RL 推向真实软件工程&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;通用评测与训练框架&lt;/td&gt;&#xA;          &lt;td&gt;&lt;a class=&#34;link ref-AgentBench&#34;&gt;&lt;/a&gt;, &lt;a class=&#34;link ref-AgentGym&#34;&gt;&lt;/a&gt;&lt;/td&gt;&#xA;          &lt;td&gt;多环境评测与训练标准化&lt;/td&gt;&#xA;          &lt;td&gt;提供跨任务 agent 能力比较&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;训练基础设施&lt;/td&gt;&#xA;          &lt;td&gt;&lt;a class=&#34;link ref-OpenRLHF&#34;&gt;&lt;/a&gt;, &lt;a class=&#34;link ref-TRL&#34;&gt;&lt;/a&gt;, &lt;a class=&#34;link ref-Agent-Lightning&#34;&gt;&lt;/a&gt;&lt;/td&gt;&#xA;          &lt;td&gt;如何把 RL 训练扩展到大模型和复杂 agent&lt;/td&gt;&#xA;          &lt;td&gt;支撑可复现实验与工程化训练&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h2 id=&#34;算法主线&#34;&gt;算法主线&#xA;&lt;/h2&gt;&lt;p&gt;Agentic RL 不是一个固定算法名, 它更像一个任务范式. 具体到优化层面, 综述把 PPO、DPO、GRPO 及其变体作为主干.&lt;/p&gt;&#xA;&lt;h3 id=&#34;近端策略优化&#34;&gt;近端策略优化&#xA;&lt;/h3&gt;&lt;p&gt;近端策略优化 (Proximal Policy Optimization, PPO) &lt;a class=&#34;link cite-PPO&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; 核心是限制新旧策略比率:&lt;/p&gt;&#xA;$$&#xA;\rho_t(\theta)=\frac{\pi_\theta(a_t|s_t)}{\pi_{\theta_{\mathrm{old}}}(a_t|s_t)}&#xA;$$&lt;p&gt;常用的 clipped objective:&lt;/p&gt;&#xA;$$&#xA;\mathcal{L}^{\mathrm{CLIP}}(\theta) = \mathbb{E}_t&#xA;\left[&#xA;\min\left(&#xA;\rho_t(\theta)\hat{A}_t,&#xA;\mathrm{clip}(\rho_t(\theta),1-\epsilon,1+\epsilon)\hat{A}_t&#xA;\right)&#xA;\right]&#xA;$$&lt;p&gt;对 LLM 来说, PPO 的优点是清晰, 但它通常要 policy 和 value 两个模型, 还要处理长序列训练的显存和吞吐问题. 当 agent 进一步包含工具调用、环境状态和多轮交互时, PPO 的 rollout 与信用分配难度会进一步增加.&lt;/p&gt;&#xA;&lt;h3 id=&#34;直接偏好优化&#34;&gt;直接偏好优化&#xA;&lt;/h3&gt;&lt;p&gt;直接偏好优化 (Direct Preference Optimization, DPO) &lt;a class=&#34;link cite-DPO&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; 绕开显式 reward 和在线 RL 循环, 直接从 pairwise preference 中优化 policy. 对于样本 $(x,y_w,y_l)$, DPO 形式上可写成:&lt;/p&gt;&#xA;$$&#xA;\mathcal{L}_{\mathrm{DPO}} = -\log \sigma&#xA;\left(&#xA;\beta&#xA;\left[&#xA;\log\frac{\pi_\theta(y_w|x)}{\pi_{\mathrm{ref}}(y_w|x)} - \log\frac{\pi_\theta(y_l|x)}{\pi_{\mathrm{ref}}(y_l|x)}&#xA;\right]&#xA;\right)&#xA;$$&lt;p&gt;在 Agentic RL 中, DPO 不再比较两个短回答, 而是比较两个 action 片段.&lt;/p&gt;&#xA;&lt;h3 id=&#34;组相对策略优化&#34;&gt;组相对策略优化&#xA;&lt;/h3&gt;&lt;p&gt;DeepSeekMath &lt;a class=&#34;link cite-DeepSeekMath-GRPO&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; 提出的组相对策略优化 (Group Relative Policy Optimization, GRPO) 可以看成 &amp;ldquo;去 critic 化&amp;rdquo; 的 PPO 变体. 它在同一 prompt 下采样一 &amp;ldquo;组&amp;rdquo; 输出, 即同一个问题采样多个解答, 可验证任务给每个解答打分, 组内比较就能得到相对优势. DeepSeek-R1 &lt;a class=&#34;link cite-DeepSeek-R1&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; 进一步把这种思路推到了推理模型训练上.&lt;/p&gt;&#xA;&lt;div class=&#34;math-block math-algo&#34;&gt;&#xA;    &lt;p class=&#34;math-title&#34;&gt;算法&lt;span class=&#34;math-subtitle&#34;&gt;GRPO&lt;/span&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong class=&#34;algo-input&#34;&gt;输入 &amp;gt; &lt;/strong&gt; 任务 $x$, 当前策略 $\pi_\theta$, 参考策略 $\pi_{\mathrm{ref}}$, 每组采样数 $G$, 奖励函数 $R$.&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong class=&#34;algo-output&#34;&gt;输出 &amp;gt; &lt;/strong&gt; 更新后的策略 $\pi_{\theta&#39;}$.&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;对同一任务 $x$ 采样 $G$ 条 agent 轨迹: $\tau_1,\ldots,\tau_G$.&lt;/li&gt;&#xA;&lt;li&gt;对每条轨迹执行环境评估, 得到 $r_i=R(x,\tau_i)$.&lt;/li&gt;&#xA;&lt;li&gt;计算组内标准化优势:&#xA;&#xA;$$&#xA;    \hat{A}_i=\frac{r_i-\mu_r}{\sigma_r+\epsilon}&#xA;    $$&lt;/li&gt;&#xA;&lt;li&gt;对每条轨迹中的 token / action 计算新旧策略比率.&lt;/li&gt;&#xA;&lt;li&gt;使用 clipped policy objective 计算损失:&#xA;&#xA;$$&#xA;    \mathcal{L}^{\mathrm{GRPO}}(\theta) = \frac{1}{G}\sum_{i=1}^G&#xA;    \min\left(&#xA;    \rho_i(\theta)\hat{A}_i,&#xA;    \mathrm{clip}(\rho_i(\theta),1-\epsilon,1+\epsilon)\hat{A}_i&#xA;    \right)&#xA;    $$&lt;/li&gt;&#xA;&lt;li&gt;加入 KL 散度正则, 避免策略偏离 $\pi_{\mathrm{ref}}$ 过远.&lt;/li&gt;&#xA;&lt;li&gt;重复采样和更新.&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;/div&gt;&#xA;&lt;h2 id=&#34;能力视角&#34;&gt;能力视角&#xA;&lt;/h2&gt;&lt;p&gt;综述的第三节按能力拆解 Agentic RL.&lt;/p&gt;&#xA;&lt;h3 id=&#34;计划&#34;&gt;计划&#xA;&lt;/h3&gt;&lt;p&gt;早期 agent planning 常靠提示词工程. ReAct &lt;a class=&#34;link cite-ReAct&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &lt;span class=&#34;material-name&#34;&gt;Unknown-material&lt;/span&gt; &#xA;&lt;/a&gt; (ICLR 2023 Notable) 的关键贡献在于把推理轨迹和动作交错在一起. 论文的关键建模方式是把原本的动作空间 $A$ 扩展成 $\hat{A} = A \cup L$, 其中 $L$ 是语言空间.&lt;/p&gt;&#xA;&lt;div class=&#34;math-block math-algo&#34;&gt;&#xA;    &lt;p class=&#34;math-title&#34;&gt;算法&lt;span class=&#34;math-subtitle&#34;&gt;ReAct&lt;/span&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong class=&#34;algo-input&#34;&gt;输入 &amp;gt; &lt;/strong&gt;&#xA;任务输入 $x$, 外部环境/工具 $\mathcal{E}$, LLM policy $\pi_\theta$, 动作空间 $\mathcal{A}$, 语言推理空间 $\mathcal{L}$, 最大交互步数 $T$, few-shot ReAct 示例 $\mathcal{D}_{demo}$.&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong class=&#34;algo-output&#34;&gt;输出 &amp;gt; &lt;/strong&gt;&#xA;最终答案/任务结果 $y$, 以及推理-行动轨迹 $\tau$.&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;初始化上下文&#xA;&lt;/p&gt;&#xA;$$&#xA;   h_0 = [\mathcal{D}_{demo}; x],&#xA;   $$&lt;p&gt;&#xA;初始化轨迹 $\tau=\emptyset$.&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;对 $t=0,1,\dots,T-1$, 模型基于当前上下文生成下一步:&#xA;&lt;/p&gt;&#xA;$$&#xA;   z_t \sim \pi_\theta(\cdot \mid h_t)&#xA;   $$&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;如果是自然语言推理 $z_t=\texttt{Thought}(r_t)$, 将推理文本加入轨迹, 并更新上下文:&#xA;&lt;/p&gt;&#xA;$$&#xA;     \tau \leftarrow \tau \cup { \texttt{Thought}(r_t) }&#xA;     $$&lt;p&gt;&#xA;&lt;/p&gt;&#xA;$$&#xA;     h_{t+1} = h_t \oplus \texttt{Thought}(r_t)&#xA;     $$&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;如果是对环境执行的动作 $z_t=\texttt{Action}(a_t)$, 在环境中执行动作, 并将动作和观察写入轨迹:&#xA;&lt;/p&gt;&#xA;$$&#xA;     o_t = \mathcal{E}(a_t)&#xA;     $$&lt;p&gt;&#xA;&lt;/p&gt;&#xA;$$&#xA;     \tau \leftarrow \tau \cup { \texttt{Action}(a_t), \texttt{Observation}(o_t) }&#xA;     $$&lt;p&gt;&#xA;&lt;/p&gt;&#xA;$$&#xA;     h_{t+1} = h_t \oplus \texttt{Action}(a_t) \oplus \texttt{Observation}(o_t)&#xA;     $$&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;如果是最终答案或任务完成信号, $z_t=\texttt{Finish}(y)$, 将最终答案写入轨迹:&#xA;&lt;/p&gt;&#xA;$$&#xA;     \tau \leftarrow \tau \cup { \texttt{Finish}(y) }&#xA;     $$&lt;p&gt;&#xA;随后结束 rollout, 返回 $(y,\tau)$.&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;/div&gt;&#xA;&lt;p&gt;Tree of Thoughts &lt;a class=&#34;link cite-ToT&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; (NIPS 2023 Oral) 则把思考链扩展成了思考树, 它把思考当作可扩展节点, 让模型生成、评估和回溯.&lt;/p&gt;&#xA;&lt;p&gt;对于思考生成, 从当前状态 $s=[x,z_{1:i}]$ 生成 $k$ 个候选思考, 论文给了两种方式 (对应算法的 $G$):&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;一种是从 CoT prompt 独立采样多个候选, 适合开放空间&lt;/li&gt;&#xA;&lt;li&gt;另一种是一个 prompt 里连续生成 k 个不同的下一步, 适合约束较强的任务.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;对于状态评估, 这个是 ToT 框架最大的创新之一, 就是利用 LLM 自己来充当评估器, 为搜索算法提供启发式信息, 也有两种方式 (对应算法的 $V$):&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;价值评估: 让 LLM 直接给当前状态打分, 或者给出一个分类 (比如 sure/likely/impossible)&lt;/li&gt;&#xA;&lt;li&gt;投票表决: 让 LLM 比较几个不同的分支, 然后投票选出最有希望的一个.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;img alt=&#34;Tree of Thoughts&#34; class=&#34;gallery-image&#34; data-flex-basis=&#34;487px&#34; data-flex-grow=&#34;203&#34; height=&#34;654&#34; loading=&#34;lazy&#34; sizes=&#34;(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px&#34; src=&#34;https://arxiv.org/html/2305.10601v2/x1.png&#34; srcset=&#34;https://LeoDreamer2004.github.io/x1_15358978380457389168_hu_ca77436515141f8a.png 800w, https://arxiv.org/html/2305.10601v2/x1.png 1328w&#34; width=&#34;1328&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;关于模型推理, 论文给出了 BFS 和 DFS 两种流程, 这里以 DFS 为例:&lt;/p&gt;&#xA;&lt;div class=&#34;math-block math-algo&#34;&gt;&#xA;    &lt;p class=&#34;math-title&#34;&gt;算法&lt;span class=&#34;math-subtitle&#34;&gt;Tree of Thought - DFS&lt;/span&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong class=&#34;algo-input&#34;&gt;输入 &amp;gt; &lt;/strong&gt;&#xA;当前状态 $s$, 当前深度 $t$, LLM policy $p_\theta$, 思考生成器 $G$, 每个状态生成候选数 $k$, state evaluator $V$, 最大深度 $T$, 剪枝阈值 $v_{\mathrm{th}}$.&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong class=&#34;algo-output&#34;&gt;输出 &amp;gt; &lt;/strong&gt;&#xA;候选答案集合 $\mathcal{Y}$, 搜索轨迹 $\tau$.&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;如果 $t&gt;T$, 基于当前状态生成最终答案并返回.&#xA;&lt;/p&gt;&#xA;$$&#xA;     y = G(p_\theta, s, 1)&#xA;     $$&lt;p&gt;&#xA;&lt;/p&gt;&#xA;$$&#xA;     \mathcal{Y} \leftarrow \mathcal{Y} \cup {y}&#xA;     $$&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;从当前状态生成 $k$ 个候选下一步 thought:&#xA;&lt;/p&gt;&#xA;$$&#xA;   Z = G(p_\theta, s, k)&#xA;   $$&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;对每个候选 thought $z \in Z$, 构造新状态:&#xA;&lt;/p&gt;&#xA;$$&#xA;   s&#39;=[s,z]&#xA;   $$&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;对新状态进行评估:&#xA;&lt;/p&gt;&#xA;$$&#xA;   v = V(p_\theta,{s&#39;})(s&#39;)&#xA;   $$&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;如果 $v &gt; v_{\mathrm{th}}$, 递归搜索:&#xA;&lt;/p&gt;&#xA;$$&#xA;     \texttt{DFS}(s&#39;,t+1)&#xA;     $$&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;返回候选答案集合 $\mathcal{Y}$ 和完整搜索轨迹 $\tau$.&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;/div&gt;&#xA;&lt;p&gt;RAP &lt;a class=&#34;link cite-RAP&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; 更进一步, 把 LLM 复用成世界模型和推理 agent, 用 MCTS 探索推理树, 这里不再赘述.&lt;/p&gt;&#xA;&lt;p&gt;这几篇文献的共同点是, &lt;strong&gt;planning 不只是生成计划, 而是搜索计划空间&lt;/strong&gt;. 接入 RL 后, 它可以训练价值函数, 训练计划选择, 甚至直接训练策略产生更好的计划动作.&lt;/p&gt;&#xA;&lt;h3 id=&#34;工具调用&#34;&gt;工具调用&#xA;&lt;/h3&gt;&lt;p&gt;工具调用可以被看成一种离散行动:&lt;/p&gt;&#xA;$$&#xA;a_t=(\mathrm{tool\_name}, \mathrm{arguments})&#xA;$$&lt;p&gt;Toolformer &lt;a class=&#34;link cite-Toolformer&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &lt;span class=&#34;material-name&#34;&gt;Unknown-material&lt;/span&gt; &#xA;&lt;/a&gt; (NIPS 2023 Oral) 证明语言模型可以通过自监督方式学会 API 调用: 模型先生成候选 API 调用, 执行工具, 再过滤出能提升语言模型似然的调用样本.&lt;/p&gt;&#xA;&lt;div class=&#34;math-block math-algo&#34;&gt;&#xA;    &lt;p class=&#34;math-title&#34;&gt;算法&lt;span class=&#34;math-subtitle&#34;&gt;Toolformer-API-Annotation&lt;/span&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong class=&#34;algo-input&#34;&gt;输入 &amp;gt; &lt;/strong&gt;&#xA;普通文本语料 $\mathcal{C}={x^{(1)},\dots,x^{(N)}}$, 基础语言模型 $M$, API 集合 $\mathcal{A}$, 每个 API 的少量 demonstration prompt $P_a(\cdot)$, 最大候选位置数 $k$, 每个位置最大候选 API call 数 $m$, 采样阈值 $\tau_s$, 过滤阈值 $\tau_f$.&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong class=&#34;algo-output&#34;&gt;输出 &amp;gt; &lt;/strong&gt;&#xA;带 API 调用标注的语料 $\mathcal{C}^{*}$.&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;初始化 $\mathcal{C}^{*}\leftarrow \emptyset$.&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;对每篇文本 $x=(x_1,\dots,x_n)\in \mathcal{C}$ 和每个工具/API $a\in \mathcal{A}$ 构造 few-shot API 标注的 prompt $P_a(x)$, 比如形如 &lt;code&gt;&amp;lt;API&amp;gt;a(i)&amp;lt;/API&amp;gt;&lt;/code&gt;, 展示如何在普通文本中插入该 API 的调用格式.&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;对每个 token 位置 $i$, 计算模型在该位置开始 API 调用的概率:&#xA;&lt;/p&gt;&#xA;$$&#xA;   p_i = p_M(\langle API\rangle \mid P_a(x), x_{1:i-1})&#xA;   $$&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;保留满足阈值的位置:&#xA;&lt;/p&gt;&#xA;$$&#xA;   I=\{i \mid p_i&gt;\tau_s \}&#xA;   $$&lt;p&gt;&#xA;如果 $|I|&gt;k$, 只保留概率最高的 $k$ 个位置.&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;对每个候选位置 $i\in I$, 从模型中采样最多 $m$ 个 API 调用并执行:&#xA;&lt;/p&gt;&#xA;$$&#xA;   c_i^1,\dots,c_i^m \sim M(P_a(x),x_{1:i-1},\langle API\rangle)&#xA;   $$&lt;p&gt;&#xA;&lt;/p&gt;&#xA;$$&#xA;   r_i^j = a(c_i^j)&#xA;   $$&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;对每个候选调用 $(c_i^j,r_i^j)$, 计算不调用工具/只给 API 输入, 不给工具返回/给 API 输入和工具返回三种情况下模型预测未来 token 的 loss:&#xA;&lt;/p&gt;&#xA;$$&#xA;    L_i(\epsilon), ~ L_i(e(c_i^j,\epsilon)), ~ L_i(e(c_i^j,r_i^j))&#xA;    $$&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;定义:&#xA;&lt;/p&gt;&#xA;$$&#xA;    L_i^+ = L_i(e(c_i^j,r_i^j))&#xA;    $$$$&#xA;    L_i^- = \min \left(L_i(\epsilon), L_i(e(c_i^j,\epsilon))\right)&#xA;    $$&lt;p&gt;&#xA;如果工具返回真的帮助模型预测后续文本, 即:&#xA;&lt;/p&gt;&#xA;$$&#xA;    L_i^- - L_i^+ \geq \tau_f&#xA;    $$&lt;p&gt;&#xA;则保留该 API call.&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;将所有保留的 API call 插入原始文本:&#xA;&lt;/p&gt;&#xA;$$&#xA;    x^* = x_{1:i-1}, e(c_i,r_i), x_{i:n}&#xA;    $$&lt;p&gt;&#xA;&lt;/p&gt;&#xA;$$&#xA;    \mathcal{C}^{*}\leftarrow \mathcal{C}^{*}\cup {x^*}&#xA;    $$&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;返回 $\mathcal{C}^{*}$.&lt;/p&gt;&#xA;&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;/div&gt;&#xA;&lt;p&gt;&lt;img alt=&#34;Toolformer API&#34; class=&#34;gallery-image&#34; data-flex-basis=&#34;1133px&#34; data-flex-grow=&#34;472&#34; height=&#34;283&#34; loading=&#34;lazy&#34; sizes=&#34;(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px&#34; src=&#34;https://pica.zhimg.com/v2-e8eb3737348202a90187f504b1479852_1440w.jpg&#34; srcset=&#34;https://LeoDreamer2004.github.io/v2-e8eb3737348202a90187f504b1479852_1440w_17630936434994654747_hu_46aecb4fc907f626.png 800w, https://pica.zhimg.com/v2-e8eb3737348202a90187f504b1479852_1440w.jpg 1336w&#34; width=&#34;1336&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;Search-R1 &lt;a class=&#34;link cite-Search-R1&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &lt;span class=&#34;material-name&#34;&gt;Unknown-material&lt;/span&gt; &#xA;&lt;/a&gt; 是一个很典型的 Agentic RL 方向, 让模型在逐步推理中通过 RL 学会多轮搜索查询, 并处理实时检索结果.&lt;/p&gt;&#xA;&lt;div class=&#34;math-block math-algo&#34;&gt;&#xA;    &lt;p class=&#34;math-title&#34;&gt;算法&lt;span class=&#34;math-subtitle&#34;&gt;Search-R1&lt;/span&gt;&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong class=&#34;algo-input&#34;&gt;输入 &amp;gt; &lt;/strong&gt; 问题 $q$, 搜索工具 $\mathcal{S}$, LLM policy $\pi_\theta$, 最大搜索次数 $K$.&lt;/p&gt;&#xA;&lt;p&gt;&lt;strong class=&#34;algo-output&#34;&gt;输出 &amp;gt; &lt;/strong&gt; 答案 $y$ 和搜索-推理轨迹 $\tau$.&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;初始化上下文 $h_0=q$, 搜索次数 $k=0$.&lt;/li&gt;&#xA;&lt;li&gt;模型生成下一步: 推理文本、搜索请求或最终答案.&lt;/li&gt;&#xA;&lt;li&gt;如果动作为 &lt;code&gt;Search(query)&lt;/code&gt; 且 $k\lt K$ :&#xA;&lt;ul&gt;&#xA;&lt;li&gt;执行 $\mathcal{S}(\mathrm{query})$.&lt;/li&gt;&#xA;&lt;li&gt;把检索结果作为 observation 写入上下文.&lt;/li&gt;&#xA;&lt;li&gt;$k \leftarrow k+1$.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;/li&gt;&#xA;&lt;li&gt;如果动作为 &lt;code&gt;Answer(y)&lt;/code&gt;, 结束 rollout.&lt;/li&gt;&#xA;&lt;li&gt;用最终答案正确性、搜索成本、格式合法性等构造 reward.&lt;/li&gt;&#xA;&lt;li&gt;通过 GRPO / PPO 更新 policy.&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;/div&gt;&#xA;&lt;p&gt;&lt;img alt=&#34;Search R1&#34; class=&#34;gallery-image&#34; data-flex-basis=&#34;578px&#34; data-flex-grow=&#34;241&#34; height=&#34;273&#34; loading=&#34;lazy&#34; sizes=&#34;(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px&#34; src=&#34;https://arxiv.org/html/2503.09516v5/x1.png&#34; width=&#34;658&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;其奖励设计非常简单——精准匹配0/1奖励. 此外实测发现 GRPO 收敛快, 但训练后期容易奖励崩塌, PPO 虽然收敛慢, 但更稳定, 最终性能更好, 所以默认用 PPO.&lt;/p&gt;&#xA;&lt;h3 id=&#34;记忆&#34;&gt;记忆&#xA;&lt;/h3&gt;&lt;p&gt;MemGPT &lt;a class=&#34;link cite-MemGPT&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &lt;span class=&#34;material-name&#34;&gt;Unknown-material&lt;/span&gt; &#xA;&lt;/a&gt; 借鉴传统操作系统中虚拟内存管理的核心思想, 提出一种分层记忆系统, 使其能够智能地在快速但有限的&amp;quot;主上下文&amp;quot; (类比 RAM) 和慢速但海量的&amp;quot;外部上下文&amp;quot; (类比磁盘) 之间进行信息的换入换出.&lt;/p&gt;&#xA;&lt;p&gt;运作机制:&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;用户输入、系统警告 (如主上下文接近上限, 产生内存压力) 或其他预设会触发 LLM 进行推理.&lt;/li&gt;&#xA;&lt;li&gt;LLM根据系统指令和当前上下文, 决定是否需要以及如何管理其记忆. 例如: 当FIFO队列过长, 触发“内存压力”警告, LLM可以调用函数将队列中的重要信息存入工作上下文或档案存储.&lt;/li&gt;&#xA;&lt;li&gt;当需要回忆过去的对话细节或查询文档时, LLM调用函数从回忆存储或档案存储中检索信息, 并将其加载到主上下文中. 当工作上下文中的信息过时或不再相关, LLM可以更新或移除它们.&lt;/li&gt;&#xA;&lt;li&gt;函数执行的结果 (包括成功信息或错误信息) 会反馈给LLM, 更新其主上下文, 并可能触发后续的函数调用链 (例如分页查询) .&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;&lt;img alt=&#34;MemGPT 示例: 写入/搜索/更新&#34; class=&#34;gallery-image&#34; data-flex-basis=&#34;1227px&#34; data-flex-grow=&#34;511&#34; height=&#34;400&#34; loading=&#34;lazy&#34; sizes=&#34;(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px&#34; src=&#34;https://LeoDreamer2004.github.io/p/paper-reading/agentic-rl/memgpt-exp.png&#34; srcset=&#34;https://LeoDreamer2004.github.io/p/paper-reading/agentic-rl/memgpt-exp_hu_af73aa5783ddc79f.png 800w, https://LeoDreamer2004.github.io/p/paper-reading/agentic-rl/memgpt-exp_hu_4d846365deaa4429.png 1600w, https://LeoDreamer2004.github.io/p/paper-reading/agentic-rl/memgpt-exp.png 2045w&#34; width=&#34;2045&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;这里所有调用函数都是由 LLM 自己决定的, 包括何时调用、调用哪个函数、以及如何处理函数返回的结果. 这种设计使得 LLM 不仅是一个被动的记忆存储器, 而是一个主动的记忆管理者, 能够根据当前任务需求和系统状态动态调整其记忆策略.&lt;/p&gt;&#xA;&lt;p&gt;&lt;img alt=&#34;MemGPT&#34; class=&#34;gallery-image&#34; data-flex-basis=&#34;633px&#34; data-flex-grow=&#34;264&#34; height=&#34;530&#34; loading=&#34;lazy&#34; sizes=&#34;(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px&#34; src=&#34;https://LeoDreamer2004.github.io/p/paper-reading/agentic-rl/memgpt.png&#34; srcset=&#34;https://LeoDreamer2004.github.io/p/paper-reading/agentic-rl/memgpt_hu_791fd9d5fea7f6.png 800w, https://LeoDreamer2004.github.io/p/paper-reading/agentic-rl/memgpt.png 1400w&#34; width=&#34;1400&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;Reflexion &lt;a class=&#34;link cite-Reflexion&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; (NIPS 2023) 不更新模型权重, 而是让 agent 根据失败反馈写下文字反馈, 存入片段性的记忆, 供下一次尝试使用. 把语言形式的经验当作一种近似的策略提升.&lt;/p&gt;&#xA;&lt;h3 id=&#34;推理&#34;&gt;推理&#xA;&lt;/h3&gt;&lt;p&gt;DeepSeek-R1 &lt;a class=&#34;link cite-DeepSeek-R1&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; 指出大规模 RL 可以在没有人工标注推理轨迹的情况下诱导出某些推理行为. 不过, 综述中特别提到过度思考的现象: agentic 推理可能因为过度搜索、过度验证、工具调用循环而变慢甚至变差.&lt;/p&gt;&#xA;&lt;h2 id=&#34;任务视角&#34;&gt;任务视角&#xA;&lt;/h2&gt;&lt;p&gt;综述第四节按任务展开. AI 辅助整理如下:&lt;/p&gt;&#xA;&lt;table&gt;&#xA;  &lt;thead&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;th&gt;任务&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: center&#34;&gt;环境真实性&lt;/th&gt;&#xA;          &lt;th style=&#34;text-align: center&#34;&gt;奖励可验证性&lt;/th&gt;&#xA;          &lt;th&gt;难点&lt;/th&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/thead&gt;&#xA;  &lt;tbody&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;数学推理&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;低&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;高&lt;/td&gt;&#xA;          &lt;td&gt;reward 容易, 但容易过拟合格式和长度&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;代码生成&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;中&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;高&lt;/td&gt;&#xA;          &lt;td&gt;单函数任务较清晰, 仓库级任务信用分配难&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;搜索研究&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;中&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;中&lt;/td&gt;&#xA;          &lt;td&gt;信息质量、引用可靠性和搜索成本难统一&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;Web / GUI&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;高&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;中&lt;/td&gt;&#xA;          &lt;td&gt;观测/动作接地难&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;软件工程&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;高&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;高&lt;/td&gt;&#xA;          &lt;td&gt;测试、构建、依赖和长上下文开销大&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;具身&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;高&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;低&lt;/td&gt;&#xA;          &lt;td&gt;稀疏奖励、长 horizon、环境随机性&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;      &lt;tr&gt;&#xA;          &lt;td&gt;多智能体&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;高&lt;/td&gt;&#xA;          &lt;td style=&#34;text-align: center&#34;&gt;低&lt;/td&gt;&#xA;          &lt;td&gt;非平稳性、协作信用分配、通信协议&lt;/td&gt;&#xA;      &lt;/tr&gt;&#xA;  &lt;/tbody&gt;&#xA;&lt;/table&gt;&#xA;&lt;h3 id=&#34;search-agent&#34;&gt;Search Agent&#xA;&lt;/h3&gt;&lt;p&gt;网页搜索是最自然的 agentic 任务之一. 简单 RAG 通常把检索当成固定预处理, 但 research agent 需要决定搜索计划、重写查询、交叉验证来源、归纳冲突信息、生成报告.&lt;/p&gt;&#xA;&lt;p&gt;Search-R1 &lt;a class=&#34;link cite-Search-R1&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; 让模型通过 RL 学会在推理过程中主动搜索. 它比较接近 ReAct, 但重点从 prompt 模式变成了策略训练. 这类任务的 reward 设计通常要考虑多方面因素:&lt;/p&gt;&#xA;$$&#xA;R = R_{\mathrm{answer}} + \lambda_1 R_{\mathrm{citation}} - \lambda_2 C_{\mathrm{search}} - \lambda_3 R_{\mathrm{hallucination}}&#xA;$$&lt;p&gt;其中 $C_{\mathrm{search}}$ 是搜索成本, $R_{\mathrm{citation}}$ 是来源支撑度, $R_{\mathrm{hallucination}}$ 则惩罚无来源断言.&lt;/p&gt;&#xA;&lt;h3 id=&#34;code--swe-agent&#34;&gt;Code / SWE Agent&#xA;&lt;/h3&gt;&lt;p&gt;CodeRL &lt;a class=&#34;link ref-DeepSeekMath-GRPO&#34;&gt;&lt;/a&gt; 一类方法证明了可执行反馈对代码生成有效.&lt;/p&gt;&#xA;&lt;p&gt;SWE-bench &lt;a class=&#34;link cite-SWE-bench&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; (ICLR 2024) 给出了一种仓库级 benchmark. 它从 12 个流行 Python 仓库抓取约 9 万个 PR；再保留 merged、关联 issue、且修改测试文件的 PR；最后用执行过滤验证这些 PR 是否能产生 fail-to-pass 测试. 一个 SWE-bench task instance 可以抽象成:&lt;/p&gt;&#xA;$$&#xA;\mathcal{I} = (P, C, T, \delta)&#xA;$$&lt;p&gt;其中:&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;$P$: problem statement, 也就是 GitHub issue 文本;&lt;/li&gt;&#xA;&lt;li&gt;$C$: 代码库在 PR base commit 处的快照;&lt;/li&gt;&#xA;&lt;li&gt;$T$: 由 PR 中测试文件变化提取出的测试集合;&lt;/li&gt;&#xA;&lt;li&gt;$\delta$: 真实 PR 的 gold patch, 也是模型要预测的目标.&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;需要注意, 模型可以生成和真实 PR 不一样的 patch, 只要能解决 issue 并保持已有测试通过, 就算成功&lt;/p&gt;&#xA;&lt;h3 id=&#34;math-agent&#34;&gt;Math Agent&#xA;&lt;/h3&gt;&lt;p&gt;数学任务是 RLVR 最合适的温床. 主要在于其答案通常可验证, 采样多个解答再组内比较也容易. DeepSeekMath 和 DeepSeek-R1 的路径说明, 在数学和形式化任务上, GRPO / PPO 这类方法能诱导更长、更自检的推理过程.&lt;/p&gt;&#xA;&lt;p&gt;形式数学里的 reward 更可验证, 但动作空间也更困难. 而非形式数学则较难以检查过程正确性.&lt;/p&gt;&#xA;&lt;h3 id=&#34;gui--web-agent&#34;&gt;GUI / Web Agent&#xA;&lt;/h3&gt;&lt;p&gt;综述 &lt;a class=&#34;link cite-Agentic-RL-Survey&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; 有关 GUI Agent 只列举了几个 Benchmark: WebShop &lt;a class=&#34;link cite-WebShop&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; 是早期网络环境, agent 根据商品需求导航网页、搜索、筛选并购买. WebArena &lt;a class=&#34;link cite-WebArena&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; 则把 web agent 推向更真实的自发主持的网站环境, 包括电商、论坛、代码协作和内容管理等网站. OSWorld &lt;a class=&#34;link cite-OSWorld&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; 的 benchmark 进一步让 agent 操作真实桌面系统和应用.&lt;/p&gt;&#xA;&lt;p&gt;&lt;img alt=&#34;OS World&#34; class=&#34;gallery-image&#34; data-flex-basis=&#34;562px&#34; data-flex-grow=&#34;234&#34; height=&#34;753&#34; loading=&#34;lazy&#34; sizes=&#34;(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px&#34; src=&#34;https://os-world.github.io/static/images/env.png&#34; srcset=&#34;https://LeoDreamer2004.github.io/env_10415051489751196895_hu_b66479cb3261bfe9.png 800w, https://LeoDreamer2004.github.io/env_10415051489751196895_hu_3463ac57e8de5ce8.png 1600w, https://os-world.github.io/static/images/env.png 1765w&#34; width=&#34;1765&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;由于此课题目前我们更关注, 我又检索到有关 GUI Agent 的另一篇综述 &lt;a class=&#34;link cite-GUI-Agentic-RL-Survey&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt;.&lt;/p&gt;&#xA;&lt;h2 id=&#34;小结&#34;&gt;小结&#xA;&lt;/h2&gt;&lt;p&gt;这篇综述 &lt;a class=&#34;link cite-Agentic-RL-Survey&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; 相当详细, 分成了如上所说的几个方面. 其中任何一项缺失, 都很难称为真正的 Agentic RL.&lt;/p&gt;&#xA;&lt;p&gt;从我理解来看, 和一般的 RL 相比, agentic RL 具有明显的自发性——它不像传统 RL 那样在一个固定环境里被动学习, 并接受一个人为设计的奖励函数, 而是需要在一个开放动态的环境中, 自主地观察行动和修正策略, 在此期间模型还可以借助各种工具, 来填补记忆存储的空白. &amp;ldquo;Planning&amp;rdquo; 这个概念也相当独特, 这意味着模型需要能够在面对复杂问题时自发拆解, 规划行动路径. 它显然并不是用于完成某一项固定的任务, 而是需要通过广泛的动作空间和环境观察, 提升自身对不同环境的泛化适应能力.&lt;/p&gt;&#xA;</description>
        </item></channel>
</rss>
