---
title: 浏览器 Agent 的失忆问题：Autobrowse 如何让每次探索变成永久技能
source_url: https://mp.weixin.qq.com/s/QvYspe3V6eoA9ZUA0AxocA
publish_date: 2026-05-08
tags: [wechat, article, agent, harness]
review_value: 7
review_confidence: 7
review_recommendation: neutral
sha256: 689a61ff685968769717325266c2f51cf379cded01a71d550b47b80985ad124b
---
# 浏览器 Agent 的失忆问题：Autobrowse 如何让每次探索变成永久技能
> 来源：Kyle Jeong（Browserbase），Autobrowse: The Mythos moment for Browser Agents is here，2026年5月7日
> 原文：https://x.com/kylejeong/status/2052103973377867913
## 背景：探索税（Discovery Tax）
浏览器 Agent 的核心缺陷：**没有记忆**——每次会话结束，它学到的一切都跟着蒸发。
> "它是个有推理能力的健忘症患者：每次解决问题的方式都很优雅，但会话一关闭，醒来之后什么都记不住，一切归零。"
**凯恩斯"没有海马体的天才"思想实验**：每次从零推导出同样精妙的结论，却无法在昨天的洞察上继续前进。现在的浏览器 Agent，就是这个思想实验的工程化现实。
根本瓶颈不是推理，而是**记忆**——一种人类和 Agent 都能读懂、都能信任的记忆形式。
## Autobrowse 是什么
Autobrowse 是 Browserbase 内部工程师 Shubhankar 开发、后来开源的工作流——受 Andrej Karpathy 的 autoresearch harness 启发。
**核心思路**：
1. 给 Agent 一个真实任务，让它在真实网站上反复尝试
2. 每次从自己的失败里学习，直到方法收敛
3. 把"最短可靠路径"写成可复用的 `SKILL.md` 文件，提交到公共技能库
**关键设计选择**：记忆存成 **markdown**（而非向量或截图）——人能读、Agent 能执行、团队能版本控制。
## 五步学习循环
```
目标(Objective) → 运行(Run) → 研究(Study) → 迭代(Iterate) → 收敛? → 毕业(SKILL.md)
         ↑                                                              ↓
         ←←←←←←←←←← strategy.md（学习笔记，跨迭代叠加）←←←←←←←←←←←←←←←←←
```
### 第一步：目标（Objective）
给 Agent 一个真实任务，在真实网站上运行。任务必须真实、具体，因为真实任务才会暴露真实的摩擦点。
### 第二步：运行（Run）
Agent 端到端执行，产生完整操作 trace——每个工具调用、页面交互、token 消耗，全部记录。这次运行的价值不只是完成任务，更是产生可以被学习的行为数据。
### 第三步：研究（Study）
Agent 读自己的 trace，对自身行为做元认知反思：
- 在哪里卡住了？
- 在哪里靠猜测蒙混过关？
- 哪些步骤消耗了不必要的 token？
- 有没有可以用更轻量的确定性工具替代的步骤？
### 第四步：迭代（Iterate）
外层循环维护一个 `strategy.md` 文件——相当于 Agent 的学习笔记。每次迭代结束把观察写进去，下次迭代开始时 Agent 先读这份笔记，从上次的改进成果出发。**知识在迭代间叠加**，而不是每次从零归零。
### 第五步：收敛与毕业（Converge → Graduate）
连续几次迭代的成本和轮次数不再下降时循环结束。系统把最终最优策略写成 `SKILL.md`，连同所有辅助脚本（CLI 调用、fetch 工具、Python helper、CSS 选择器），一起提交到公共技能库。
**收敛目标**：不是找到理论上的全局最优路径，而是找到"足够好、足够可靠、足够便宜"的路径。
## Craigslist 基准：$0.22 → $0.12
**任务**：旧金山 Craigslist 搜索 North Beach/Russian Hill 两居室公寓，租金 $5000–$7000，带室内洗衣机。
| 指标 | 原始 Agent 循环 | Autobrowse 毕业技能 | 改善 |
|------|----------------|---------------------|------|
| 耗时 | 71 秒 | 27 秒 | **2.6x 更快** |
| 成本 | $0.22 | $0.12 | **45% ↓** |
| 命中 | 0 个（全市60个结果，无精准） | 2 个精确匹配 | **正确性↑** |
**原始 Agent**：WebFetch 抓取渲染 HTML → 请求辅助模型提取表格 → 返回 60 个全市范围结果，North Beach/Russian Hill 精准命中 0 个。
**Autobrowse 毕业技能**：直接调用 Craigslist 未文档化 JSON API（`https://sapi.craigslist.org/web/v8/postings/search/full`），用经纬度边界框过滤目标社区，返回 2 个精准匹配（标题、价格、地址、链接）。
**Kyle Jeong 原文**："关键不是速度，也不是成本，而是正确性。原始循环的确看起来更便宜更快，但它对用户的实际问题返回了零个结果。"
**Craigslist 技能文件核心发现**：
- 搜索页面是完全 JavaScript 渲染的，`browse snapshot` 返回 0 个可访问性引用
- 真正数据藏在公开 JSON API，无需鉴权，无需 cookie
- 唯一坑：请求中必须加入 `postal=` 参数才能正确锁定地理位置，否则按请求方 IP 返回错误城市数据
- 人工逆向工程可能需要几小时，Autobrowse 在几次迭代内自动发现
## 哪些情况不该用（自批评）
Browserbase 团队曾把 Autobrowse 用在一个 **167 行静态 HTML 州立法规目录**上——数据就直白地躺在 HTML 里，没有 JavaScript，没有登录鉴权，没有反爬机制。
**结果**：四次迭代，约 $24，循环依然无法在单次输出中返回完整的 167 行数据（模型单次输出上限截断推理）。
**最终解法**：约 200 行确定性 Python + `browse fetch` + BeautifulSoup —— 亚秒级运行，零推理成本，完整输出 167 行。
**教训**：遇到任何网站先用 `browse fetch` 探一下，如果数据直接在响应里，就写解析器；如果响应是空的或动态渲染的，再升级到 Autobrowse。
> **Agency 分层框架**：从完全确定性脚本 → 路由式工具调用 → 完全自主多 Agent 循环。选择正确的层级本身就是工程决策。Autobrowse 在高 Agency 端，只有在低 Agency 工具都无法解决问题时才值得调用。
## 技能文件才是真正的交付物
**企业痛点**：今天当 Agent 成功完成任务，客户收到的是什么？一段执行日志、一个会话回放录像、一段自然语言推理过程描述。**没有一样东西对真正拥有这个工作流程的人来说是可读的。**
技能文件（`SKILL.md`）是**有结构的 markdown**：
- 名称、描述
- 推荐方法 + 替代路径
- 具体接口调用步骤
- 已知坑点和规避方式
工程师可以读它、编辑它、提交到代码库、做版本控制。非技术人员（产品经理、运营、合规专员）也能大致读懂 Agent 在做什么，甚至能发现流程描述中的错误并提出修改意见。
**本质跃迁**：从"信任 Agent 的输出" → "读懂 Agent 的操作手册"
> "企业不只需要 Agent 能完成任务，还需要有人能为这个任务的完成方式负责。"
## 技能库的复利效应
每遇到一个新网站，就产生一个新的持久技能。随着技能库增长，Agent 在长尾重复性工作上越来越便宜、越来越快——不再需要为已经学过的东西重新缴纳"探索税"。
## 递归改进自身
今天，迭代循环本身、收敛判断启发式规则、技能模板格式，大部分还是由人工设计的。这是一个技术债，同时也是一个机会——同样的方式可以被 Autobrowse 用来改进自己的运作方式：
- 学习更好的迭代提示词
- 更聪明的网页探索先验（"先 fetch 一下，能拿到数据就不必开浏览器"）
- 更完善的技能模板结构
**这是"自我改进 Agent 系统"的一个非常具体的实现路径，不依赖于任何神秘的新模型能力——只需要把已有的方法递归应用到自身。**
## 核心结论
就算模型推理能力再强，在每个新网站上仍然要从零开始"发现"它本来可以从历史运行中已知的东西。**模型越来越聪明，但这无法代替记忆。**
让 Agent 系统真正变得可靠和经济可行的，不只是更聪明的推理，而是更好的记忆机制——具体来说，是一种**人类能读懂、能编辑、能版本控制，机器也能直接加载执行**的记忆形式。
Autobrowse 是对这个问题的一个具体答案，而不只是一个框架层面的议论。
---
*评审：Value 8 × Confidence 8 = 64 ✅ PASS | ★★★★*
*入库时间：2026-05-08*