<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>Economic on LeoDreamer</title>
        <link>https://LeoDreamer2004.github.io/tags/economic/</link>
        <description>Recent content in Economic on LeoDreamer</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Sat, 30 May 2026 00:00:00 +0000</lastBuildDate><atom:link href="https://LeoDreamer2004.github.io/tags/economic/index.xml" rel="self" type="application/rss+xml" /><item>
            <title>论文阅读 - 端云协同</title>
            <link>https://LeoDreamer2004.github.io/p/paper-reading/device-cloud-collaborative/</link>
            <pubDate>Sat, 30 May 2026 00:00:00 +0000</pubDate>
            <guid>https://LeoDreamer2004.github.io/p/paper-reading/device-cloud-collaborative/</guid>
            <description>&lt;h2 id=&#34;ecoagent&#34;&gt;EcoAgent&#xA;&lt;/h2&gt;&lt;p&gt;论文 &lt;a class=&#34;link cite-EcoAgent&#34;&gt;[&lt;span class=&#34;material-index&#34;&gt;&lt;/span&gt;]&#xA;    &#xA;&lt;/a&gt; 设计了一个端云协作的闭环推理和执行算法 EcoAgent：云端大模型做规划与反思，端侧小模型做 UI 操作、结果验证和屏幕摘要.&lt;/p&gt;&#xA;&lt;p&gt;输入是用户指令 &lt;code&gt;Ins&lt;/code&gt; 和初始手机屏幕状态 &lt;code&gt;S0&lt;/code&gt;，输出是最终手机状态 &lt;code&gt;Sf&lt;/code&gt;. 算法先调用云端 Planning Agent 做初始规划：&lt;/p&gt;&#xA;$$&#xA;P_0 = DualReACT(Ins, S_0)&#xA;$$&lt;p&gt;得到一个计划 &lt;code&gt;P0&lt;/code&gt;，每个步骤是一个二元组：$(ST_t, EX_t)$. 其中 &lt;code&gt;ST_t&lt;/code&gt; 是第 t 步操作目标，&lt;code&gt;EX_t&lt;/code&gt; 是该步的期望结果. 然后端侧 Execution Agent 根据当前屏幕 &lt;code&gt;S_t&lt;/code&gt; 和步骤 &lt;code&gt;ST_t&lt;/code&gt; 执行动作，Observation Agent 再检查执行后的屏幕 &lt;code&gt;S_{t+1}&lt;/code&gt; 是否符合期望 &lt;code&gt;EX_t&lt;/code&gt;. 如果失败，就把端侧压缩后的屏幕历史传回云端，由云端反思并重新规划.&lt;/p&gt;&#xA;&lt;h3 id=&#34;dual-react&#34;&gt;Dual-ReACT&#xA;&lt;/h3&gt;&lt;p&gt;论文最核心的方法是 &lt;strong&gt;Dual-ReACT&lt;/strong&gt;. 它扩展了传统 ReACT 的 “Reason + Act” 思路，把推理分成两层.&lt;/p&gt;&#xA;&lt;ul&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;第一层是 &lt;strong&gt;Global ReACT&lt;/strong&gt;. 云端 Planning Agent 先看用户指令和初始屏幕，生成一个全局屏幕描述，然后把任务拆成若干中间子目标.&lt;/p&gt;&#xA;$$&#xA;    P_0 = GlReACT(Ins, S_0)&#xA;    $$&lt;/li&gt;&#xA;&lt;li&gt;&#xA;&lt;p&gt;第二层是 &lt;strong&gt;Local ReACT&lt;/strong&gt;. 对每个子目标，云端进一步生成具体可执行的步骤 &lt;code&gt;ST_t&lt;/code&gt;，并同时生成该步骤执行后的期望屏幕状态 &lt;code&gt;EX_t&lt;/code&gt;.&lt;/p&gt;&#xA;$$&#xA;    P_0 = {LoReACT(ST_1, EX_1), ..., LoReACT(ST_t, EX_t)}&#xA;    $$&lt;/li&gt;&#xA;&lt;/ul&gt;&#xA;&lt;p&gt;也就是说，端侧小模型不需要自己做复杂长程规划，只需要执行当前步骤，并判断“当前屏幕是否符合云端给出的期望”.&lt;/p&gt;&#xA;&lt;h3 id=&#34;execution-agent&#34;&gt;Execution Agent&#xA;&lt;/h3&gt;&lt;p&gt;Execution Agent 部署在设备端，输入当前屏幕 &lt;code&gt;S_t&lt;/code&gt; 和当前步骤 &lt;code&gt;ST_t&lt;/code&gt;，输出具体操作 &lt;code&gt;O_t&lt;/code&gt;：&lt;/p&gt;&#xA;$$&#xA;O_t = EA(S_t, ST_t)&#xA;$$&lt;p&gt;这里的 &lt;code&gt;EA&lt;/code&gt; 是经过 GUI 操作能力适配的小多模态模型，例如 ShowUI 或 OS-Atlas. 它的强项不是复杂推理，而是&lt;strong&gt;视觉定位和具体点击/滑动/输入&lt;/strong&gt;.&lt;/p&gt;&#xA;&lt;p&gt;论文定义的动作空间包括两类. 第一类是输入操作：&lt;code&gt;Tap(x,y)&lt;/code&gt; 等等；第二类是导航操作：&lt;code&gt;PressBack()&lt;/code&gt; 和 &lt;code&gt;PressHome()&lt;/code&gt;. 作者额外加入了 &lt;code&gt;DeleteText()&lt;/code&gt; 的动作，用来清空输入框，解决输错后难以重新输入的问题.&lt;/p&gt;&#xA;&lt;h3 id=&#34;observation-agent&#34;&gt;Observation Agent&#xA;&lt;/h3&gt;&lt;p&gt;Observation Agent 也在设备端，但它的职责是验证. 它输入执行后的屏幕 &lt;code&gt;S_{t+1}&lt;/code&gt; 和该步的期望结果 &lt;code&gt;EX_t&lt;/code&gt;，输出验证结果 &lt;code&gt;R_t&lt;/code&gt;：&lt;/p&gt;&#xA;$$&#xA;R_t = OA(S_{t+1}, EX_t)&#xA;$$&lt;p&gt;如果 &lt;code&gt;R_t = Success&lt;/code&gt;，说明当前步骤达成，继续执行下一步；如果 &lt;code&gt;R_t = Fail&lt;/code&gt;，说明当前计划可能偏离了，需要触发云端反思与重规划. 论文强调，这样可以避免每一步都把截图传到云端让大模型检查，从而降低延迟、token 成本和隐私风险.&lt;/p&gt;&#xA;&lt;h3 id=&#34;pre-understanding&#34;&gt;Pre-Understanding&#xA;&lt;/h3&gt;&lt;p&gt;为了让云端在失败时能重规划，系统仍然需要知道执行轨迹. 但论文不直接把完整截图作为 Memory，而是在 Observation Agent 里加入 Pre-Understanding 模块，把屏幕 &lt;code&gt;S_{t+1}&lt;/code&gt; 压缩成文本表示：&lt;/p&gt;&#xA;$$&#xA;T_{t+1} = PreUnderstand(S_{t+1})&#xA;$$&lt;p&gt;作者认为，重规划通常不需要完整截图的所有细节，只需要知道屏幕状态如何变化、任务进展到哪里、失败点是什么. 论文提到，原始屏幕图像通常会消耗 1400+ token，而压缩后的文本描述只需要 50–150 token.&lt;/p&gt;&#xA;&lt;h3 id=&#34;memory-reflection&#34;&gt;Memory Reflection&#xA;&lt;/h3&gt;&lt;p&gt;一旦 Observation Agent 判断某一步失败，端侧会把压缩后的屏幕文本 &lt;code&gt;T_{t+1}&lt;/code&gt; 加入 Memory. 云端 Planning Agent 再调用 Reflection 模块，根据用户指令、上一轮计划和执行历史生成新计划：&lt;/p&gt;&#xA;$$  &#xA;P_n = Reflection(Ins, P_{n-1}, Memory)&#xA;$$&lt;p&gt;这一步让 EcoAgent 的端云协作从开环变成了闭环.&lt;/p&gt;&#xA;&lt;p&gt;&lt;img alt=&#34;EcoAgent&#34; class=&#34;gallery-image&#34; data-flex-basis=&#34;421px&#34; data-flex-grow=&#34;175&#34; height=&#34;2323&#34; loading=&#34;lazy&#34; sizes=&#34;(max-width: 767px) calc(100vw - 30px), (max-width: 1023px) 700px, (max-width: 1279px) 950px, 1232px&#34; src=&#34;https://arxiv.org/html/2505.05440v3/figures/workflow.png&#34; srcset=&#34;https://LeoDreamer2004.github.io/workflow_5469554211063642440_hu_665f2ebf541f3234.png 800w, https://LeoDreamer2004.github.io/workflow_5469554211063642440_hu_71e156af617bdfb5.png 1600w, https://LeoDreamer2004.github.io/workflow_5469554211063642440_hu_5ece26b3f30a2faa.png 2400w, https://arxiv.org/html/2505.05440v3/figures/workflow.png 4079w&#34; width=&#34;4079&#34;&gt;&lt;/p&gt;&#xA;</description>
        </item></channel>
</rss>
