---
title: "Claw-Anything：首个面向个人助理 Agent 的三维上下文扩展评测基准"
source_url: "https://mp.weixin.qq.com/s/rEk33ieaeX0Gg5mmb9LKZQ"
ingested: 2026-06-26
sha256: ""
type: raw
---

# Claw-Anything：See Anything, then Do Anything

首个面向日常个人助理 Agent、沿长程历史 × 多服务 × 多设备三维度扩展的评测基准。

论文：https://arxiv.org/pdf/2605.26086
代码：https://github.com/LiberCoders/Claw-Anything
数据：https://huggingface.co/datasets/LiberCoders/Claw-Anything

## 核心命题

常驻型 AI 助理的下一次飞跃，不在于把某一个模型单点调得更聪明，而在于扩展智能体的上下文（Scaling Agent Context）——不断拓宽助理能够持续"感知—推理—执行"的范围。

今天的"助理"大多只能看到你数字生活的一小片。一个真正的个人助理，应当像一位贴身管家——看得见你散落在数月历史、十几个应用、手机与电脑之间的全部状态，听得懂没说出口的需求，并在恰当的时刻替你把事情做对。

## 一个例子

Rachel 是一位婚礼策划师，问 AI 助理："6 月 4 号要跟企业客户开需求沟通会，会前简报是花钱让兼职助理 Lena 来准备，还是我自己上？"

助理需要：
1. 翻日历 app——发现 6 月 3 日上午卡着两场硬会议
2. 读邮件 app——翻出 Lena 的报价（半天 180 美元），发现"周三下班前送材料"的截止时间
3. 看财务 app——掂量 180 美元此刻花不花得起
4. 往下推演——如果自己硬扛、把供应商纠纷会往后拖，可能赔上长期供应商

最后给出结论：交给 Lena 值。但绝对不能擅自替 Rachel 发出任何一封邮件——用户的提问并没授权助理直接处理。

一个真正好用的助理，既要把这盘账算明白，又要懂得"什么事不能替你做主"。

## 三维上下文扩展

| 维度 | 内容 |
|------|------|
| 长程事件流 | 用程序模拟一个人长达数月的连贯生活轨迹 |
| 互联后端服务 | 邮箱、日历、待办、联系人、Notion、Facebook、财务……单任务平均打通 10+ 个应用（最多 18 个） |
| 多设备异构界面 | 同时覆盖手机 GUI 与命令行 CLI |

覆盖 30+ 种人物画像——婚礼策划师、独立音乐人、安全工程师、博士生、咖啡馆老板、自由译者……环境里满是噪声，绝大多数信息与当前任务无关，有些甚至互相矛盾。

## 两类能力

**"你能听懂并做对吗"**：跨邮件、日历、财务、人脉把碎片拼成清醒判断，还要守住权限边界。

**"你能未卜先知吗"**：每天早上 7 点 Agent 自动触发轮询，主动把当天最要紧、最易翻车的事拎出来。这种主动性，是"贴身助理"和"问答机器人"的分水岭。

## 数据生产管线

把"构造数字世界"建模成可自动滚动的过程：给定人物极简设定，LLM 模拟器从种子事件池反复采样、逐轮注入，把数字生活"养"出来。

产出：200 个人工验证的评测任务 + 2000 个训练环境。

任务"真实密度"：平均每个任务横跨 10.1 个互联服务、上下文长达 191.7k 字。业界第一个同时覆盖 CLI 与 GUI、且把主动服务纳入评分的基准。

## 实战结果

| 模型 | pass@1 |
|------|--------|
| GPT-5.5 | 34.5% |
| Claude Opus 4.7 (CLI) | ~40% |
| Claude Opus 4.7 (GUI+CLI) | 7.3% |

微调开源模型 Qwen3.5-27B：任务成功率提升 23.7%。发现问题和解决问题在同一套系统里闭环。

## 消融实验：四个反直觉发现

### 1. 给模型看得越多，它反而做得越差

历史越长、App 越多、噪声越重、画像越立体、矛盾越多——每加一分"真实"，成功率就稳定地、单调地往下掉。今天的模型并不是"上下文越大就越聪明"。

### 2. 能看到一切，但不一定能"看"到一切

CLI 任务上 GPT-5.5 和 Claude Opus 4.7 是王者（40 分档）。但 GUI+CLI 任务上 Claude 系列断崖式崩塌：Opus 4.7 从 40 跌到 7.3，Sonnet 4.5 只剩 6 分。

### 3. "看见一切"是生死线

一旦不让助理读历史事件流，大量任务直接做不出来；屏蔽跨 App 协作，成功率几乎归零；只给电脑不给手机，需要手机操作的任务全军覆没。

### 4. "主动"比"被动"难得多

主动类任务成绩明显低于被动响应类——从"有问必答"走向"未问先知"是下一代助理最该补的一课。

## 核心洞察

1. **Scaling Agent Context 是个人助理的关键瓶颈**——不是模型不够聪明，是看得不够全
2. **GUI 交互是当前 Agent 的巨大短板**——CLI 和 GUI 之间存在巨大能力鸿沟
3. **主动服务是"贴身助理"和"问答机器人"的分水岭**
4. **权限边界和分寸感是真实助理的必备素质**——既要算明白账，又要知道什么事不能替用户做主
5. **自动生成训练数据 + 微调可以有效提升开源模型**——23.7% 的提升证明了数据管线的价值