--- title: "Claw-Anything:首个面向个人助理 Agent 的三维上下文扩展评测基准" source_url: "https://mp.weixin.qq.com/s/rEk33ieaeX0Gg5mmb9LKZQ" ingested: 2026-06-26 sha256: "" type: raw --- # Claw-Anything:See Anything, then Do Anything 首个面向日常个人助理 Agent、沿长程历史 × 多服务 × 多设备三维度扩展的评测基准。 论文:https://arxiv.org/pdf/2605.26086 代码:https://github.com/LiberCoders/Claw-Anything 数据:https://huggingface.co/datasets/LiberCoders/Claw-Anything ## 核心命题 常驻型 AI 助理的下一次飞跃,不在于把某一个模型单点调得更聪明,而在于扩展智能体的上下文(Scaling Agent Context)——不断拓宽助理能够持续"感知—推理—执行"的范围。 今天的"助理"大多只能看到你数字生活的一小片。一个真正的个人助理,应当像一位贴身管家——看得见你散落在数月历史、十几个应用、手机与电脑之间的全部状态,听得懂没说出口的需求,并在恰当的时刻替你把事情做对。 ## 一个例子 Rachel 是一位婚礼策划师,问 AI 助理:"6 月 4 号要跟企业客户开需求沟通会,会前简报是花钱让兼职助理 Lena 来准备,还是我自己上?" 助理需要: 1. 翻日历 app——发现 6 月 3 日上午卡着两场硬会议 2. 读邮件 app——翻出 Lena 的报价(半天 180 美元),发现"周三下班前送材料"的截止时间 3. 看财务 app——掂量 180 美元此刻花不花得起 4. 往下推演——如果自己硬扛、把供应商纠纷会往后拖,可能赔上长期供应商 最后给出结论:交给 Lena 值。但绝对不能擅自替 Rachel 发出任何一封邮件——用户的提问并没授权助理直接处理。 一个真正好用的助理,既要把这盘账算明白,又要懂得"什么事不能替你做主"。 ## 三维上下文扩展 | 维度 | 内容 | |------|------| | 长程事件流 | 用程序模拟一个人长达数月的连贯生活轨迹 | | 互联后端服务 | 邮箱、日历、待办、联系人、Notion、Facebook、财务……单任务平均打通 10+ 个应用(最多 18 个) | | 多设备异构界面 | 同时覆盖手机 GUI 与命令行 CLI | 覆盖 30+ 种人物画像——婚礼策划师、独立音乐人、安全工程师、博士生、咖啡馆老板、自由译者……环境里满是噪声,绝大多数信息与当前任务无关,有些甚至互相矛盾。 ## 两类能力 **"你能听懂并做对吗"**:跨邮件、日历、财务、人脉把碎片拼成清醒判断,还要守住权限边界。 **"你能未卜先知吗"**:每天早上 7 点 Agent 自动触发轮询,主动把当天最要紧、最易翻车的事拎出来。这种主动性,是"贴身助理"和"问答机器人"的分水岭。 ## 数据生产管线 把"构造数字世界"建模成可自动滚动的过程:给定人物极简设定,LLM 模拟器从种子事件池反复采样、逐轮注入,把数字生活"养"出来。 产出:200 个人工验证的评测任务 + 2000 个训练环境。 任务"真实密度":平均每个任务横跨 10.1 个互联服务、上下文长达 191.7k 字。业界第一个同时覆盖 CLI 与 GUI、且把主动服务纳入评分的基准。 ## 实战结果 | 模型 | pass@1 | |------|--------| | GPT-5.5 | 34.5% | | Claude Opus 4.7 (CLI) | ~40% | | Claude Opus 4.7 (GUI+CLI) | 7.3% | 微调开源模型 Qwen3.5-27B:任务成功率提升 23.7%。发现问题和解决问题在同一套系统里闭环。 ## 消融实验:四个反直觉发现 ### 1. 给模型看得越多,它反而做得越差 历史越长、App 越多、噪声越重、画像越立体、矛盾越多——每加一分"真实",成功率就稳定地、单调地往下掉。今天的模型并不是"上下文越大就越聪明"。 ### 2. 能看到一切,但不一定能"看"到一切 CLI 任务上 GPT-5.5 和 Claude Opus 4.7 是王者(40 分档)。但 GUI+CLI 任务上 Claude 系列断崖式崩塌:Opus 4.7 从 40 跌到 7.3,Sonnet 4.5 只剩 6 分。 ### 3. "看见一切"是生死线 一旦不让助理读历史事件流,大量任务直接做不出来;屏蔽跨 App 协作,成功率几乎归零;只给电脑不给手机,需要手机操作的任务全军覆没。 ### 4. "主动"比"被动"难得多 主动类任务成绩明显低于被动响应类——从"有问必答"走向"未问先知"是下一代助理最该补的一课。 ## 核心洞察 1. **Scaling Agent Context 是个人助理的关键瓶颈**——不是模型不够聪明,是看得不够全 2. **GUI 交互是当前 Agent 的巨大短板**——CLI 和 GUI 之间存在巨大能力鸿沟 3. **主动服务是"贴身助理"和"问答机器人"的分水岭** 4. **权限边界和分寸感是真实助理的必备素质**——既要算明白账,又要知道什么事不能替用户做主 5. **自动生成训练数据 + 微调可以有效提升开源模型**——23.7% 的提升证明了数据管线的价值