# 只需与你的 Agent 对话,它会不断学习,持续进化。

受大脑学习方式启发。让你的 🦞 在真实对话中持续元学习与进化。无需 GPU。支持 Kimi、Qwen、Claude、MiniMax 等。

[🇺🇸 English](../README.md) • [🇯🇵 日本語](./README_JA.md) • [🇰🇷 한국어](./README_KO.md) • [🇫🇷 Français](./README_FR.md) • [🇩🇪 Deutsch](./README_DE.md) • [🇪🇸 Español](./README_ES.md) • [🇧🇷 Português](./README_PT.md) • [🇷🇺 Русский](./README_RU.md) • [🇮🇹 Italiano](./README_IT.md) • [🇻🇳 Tiếng Việt](./README_VI.md) • [🇦🇪 العربية](./README_AR.md) • [🇮🇳 हिन्दी](./README_HI.md)
[概述](#-概述) • [快速开始](#-快速开始) • [配置说明](#️-配置说明) • [Skills 模式](#-skills-模式) • [RL 模式](#-rl-模式) • [MadMax 模式](#-madmax-模式默认) • [引用](#-引用)

---

### 两条命令,搞定一切。

```bash metaclaw setup # 首次配置向导 metaclaw start # 默认 madmax 模式：Skills + 定时 RL 训练 metaclaw start --daemon # 后台运行，日志 -> ~/.metaclaw/metaclaw.log metaclaw start --daemon --log-file /tmp/metaclaw.log # 自定义日志路径 metaclaw start --mode rl # 无调度器 RL（batch 满即训练） metaclaw start --mode skills_only # 仅 Skills，无 RL（无需 Tinker） ```

--- ## 🔥 最新动态 - **[2026/03/25]** **v0.4.0** — Contexture layer（上下文层）：MetaClaw 现可跨会话持久化用户和项目记忆。相关事实、偏好和项目历史自动检索并注入提示中。包含自适应记忆策略、后台整合及可选的记忆边车服务。 - **[2026/03/16]** **v0.3.2** 多 Claw 支持：现已支持 IronClaw、PicoClaw、ZeroClaw、CoPaw、NanoClaw 和 NemoClaw，与 OpenClaw 并列。NanoClaw 通过新增的 `/v1/messages` Anthropic 兼容端点接入；NemoClaw 通过 OpenShell 推理路由接入。新增 OpenRouter 作为受支持的 LLM 平台。 - **[2026/03/13]** **v0.3.1** MinT 后端支持：RL 训练现同时支持 Tinker 和 MinT。通过 `rl.backend`（auto/tinker/mint）配置。 - **[2026/03/13]** **v0.3** 持续元学习支持：慢速 RL 更新仅在睡眠时间、空闲期间或 Google Calendar 会议期间运行。新增 support/query 集分离,防止过时的奖励信号污染模型更新。 - **[2026/03/11]** **v0.2** 通过 `metaclaw` CLI 一键部署。Skill 默认开启,RL 现为可选。 - **[2026/03/09]** 正式发布 **MetaClaw**,只需与 Agent 对话,即可让其自动进化。**无需** GPU 部署,直接接入 **API** 即可。 --- ## 🎥 演示 https://github.com/user-attachments/assets/d86a41a8-4181-4e3a-af0e-dc453a6b8594 --- ## 📖 概述 **MetaClaw 是一个在真实场景中元学习并持续进化的 Agent。** 只需像平时一样与 Agent 对话, MetaClaw 将每一次实时对话转化为学习信号,让 Agent 在真实部署中持续进化,而非仅依赖离线训练。在底层,它将你的模型封装为 OpenAI 兼容代理（对 NanoClaw 等 Anthropic 原生 Agent 还提供 `/v1/messages` 兼容端点），通过 OpenClaw、NanoClaw、NemoClaw 等支持的 Agent 拦截实时对话,在每轮对话中注入相关 Skill,并从积累的交互经验中元学习。每次会话结束后自动总结新 Skill；开启 RL 后,元学习调度器会将权重更新推迟到空闲窗口,确保活跃使用期间不受干扰。无需 GPU 集群。MetaClaw 兼容任意 OpenAI 格式的 LLM API,并通过 Tinker 兼容后端进行云端 LoRA 微调。[Tinker](https://www.thinkingmachines.ai/tinker/) 是默认参考路径；如果需要,也可以通过单独安装的兼容包接入 MinT 或 Weaver。 ## 🤖 核心功能 ### **一键部署** 使用 `metaclaw setup` 完成一次性配置,再执行 `metaclaw start` 即可自动启动代理、注入 Skill 并接入 OpenClaw。无需手动编写 Shell 脚本。 ### **三种运行模式** | 模式 | 默认 | 功能说明 | |------|------|----------| | `skills_only` | | 代理你的 LLM API。注入 Skill,会话结束后自动总结。无需 GPU / Tinker。 | | `rl` | | Skills + RL 训练（GRPO）。batch 满后立即训练。可选 OPD 进行教师蒸馏。 | | `madmax` | ✅ | Skills + RL + 智能调度器。RL 权重更新只在睡眠/空闲/会议窗口进行。 | ### **长期记忆** MetaClaw 可跨会话持久保存事实、偏好与项目历史，并在每轮对话中检索相关上下文注入提示——让你的 Agent 记得你说过的话，即使相隔数周。 ### **完全异步设计** 推理服务、奖励建模与训练完全解耦。Agent 持续响应的同时,打分与优化在后台并行进行。 --- ## 🚀 快速开始 ### 1. 安装 **OpenClaw（一键安装）：** 请使用 [v0.4.0](https://github.com/aiming-lab/MetaClaw/releases/tag/v0.4.0) 版本：运行下方命令后执行 `metaclaw setup` 与 `metaclaw start`。更多说明（Windows、镜像、配置、排错）见 [`extensions/metaclaw-openclaw/README.md`](../extensions/metaclaw-openclaw/README.md)。 ```bash curl -LO https://github.com/aiming-lab/MetaClaw/releases/download/v0.4.0/metaclaw-plugin.zip unzip metaclaw-plugin.zip -d ~/.openclaw/extensions openclaw plugins enable metaclaw-openclaw && openclaw gateway restart ``` **pip**（PyPI 或本仓库）： ```bash pip install -e . # skills_only 模式（轻量） pip install -e ".[rl]" # + RL 训练支持（torch、transformers、tinker） pip install -e ".[evolve]" # + 通过 OpenAI 兼容 LLM 进行 Skill 进化 pip install -e ".[scheduler]" # + Google Calendar 调度器集成 pip install -e ".[rl,evolve,scheduler]" # 推荐：完整 RL + 调度器配置 ``` （可选）微信集成使用官方 @tencent-weixin/openclaw-weixin 插件。启用微信时，MetaClaw 会自动安装该插件： ```bash metaclaw config wechat.enabled true metaclaw start ``` 该插件在 `metaclaw start` 时自动安装。你也可以手动安装： ```bash npx -y @tencent-weixin/openclaw-weixin-cli@latest install ``` 要切换微信账号（使用新的二维码重新登录）： ```bash metaclaw start --wechat-relogin ``` 如果你要使用 `rl.backend=mint`,请在同一环境里额外安装 MinT 兼容包,例如 [`mindlab-toolkit`](https://github.com/MindLab-Research/mindlab-toolkit)。如果你要使用 `rl.backend=weaver`,请另行安装 [`nex-weaver`](https://github.com/nex-agi/weaver)。MetaClaw 不会把这些依赖放进默认安装中,这样 RL 用户可以明确选择 Tinker、MinT 或 Weaver。 ### 2. 配置 ```bash metaclaw setup ``` 交互式向导会引导你完成： 1. **选择个人 Agent** — `openclaw`、`copaw`、`ironclaw`、`picoclaw`、`zeroclaw`、`nanoclaw`、`nemoclaw` 或 `none`（`metaclaw start` 时会自动配置） 2. **选择 LLM 提供商** — Kimi、Qwen、OpenAI、Volcano Engine、自定义等 3. **填写 API Key**，并可选择是否启用 RL 训练 MetaClaw 的 RL 路径可以显式切换 `tinker`、`mint` 和 `weaver`。推荐默认值是 `auto`；当环境里安装了 MinT 或 Weaver 兼容包时,它仍然可以根据对应风格的凭证或 base URL 自动识别。 **Tinker**: ```bash metaclaw config rl.backend tinker metaclaw config rl.api_key sk-... metaclaw config rl.model moonshotai/Kimi-K2.5 ``` **MinT**: ```bash metaclaw config rl.backend mint metaclaw config rl.api_key sk-mint-... metaclaw config rl.base_url https://mint.macaron.xin/ metaclaw config rl.model Qwen/Qwen3-4B-Instruct-2507 ``` **Weaver**: ```bash metaclaw config rl.backend weaver metaclaw config rl.api_key sk-... metaclaw config rl.base_url https://weaver-console.nex-agi.cn metaclaw config rl.model Qwen/Qwen3-8B ``` 兼容旧配置的 `rl.tinker_api_key` 和 `rl.tinker_base_url` 仍然可以继续使用。 ### 3. 启动 ```bash metaclaw start ``` 就这些。MetaClaw 启动代理，自动配置你所选的个人 Agent 并重启网关。打开你的 Agent 开始对话——每轮都会注入 Skill，会话结束后会自动总结为新 Skill。 --- ## ⚙️ 配置说明配置文件位于 `~/.metaclaw/config.yaml`,由 `metaclaw setup` 自动生成。 **CLI 命令：** ``` metaclaw setup # 首次交互式配置向导 metaclaw start # 启动 MetaClaw（默认 madmax 模式） metaclaw start --daemon # 在后台启动 MetaClaw metaclaw start --daemon --log-file /tmp/metaclaw.log # 自定义日志路径 metaclaw start --mode rl # 本次会话强制启用 RL 模式（无调度器） metaclaw start --mode skills_only # 本次会话强制仅 Skills 模式 metaclaw stop # 停止正在运行的 MetaClaw 实例 metaclaw status # 查看代理健康状态、运行模式与调度器状态 metaclaw config show # 查看当前配置 metaclaw config KEY VALUE # 设置配置项 ``` 使用 `--daemon` 启动 MetaClaw 时，命令会等待本地代理就绪后才返回。使用 `metaclaw status` 检查状态，使用 `metaclaw stop` 停止后台进程。

完整配置参考（点击展开）

```yaml mode: madmax # "madmax" | "rl" | "skills_only" claw_type: openclaw # "openclaw" | "copaw" | "ironclaw" | "picoclaw" | "zeroclaw" | "nanoclaw" | "nemoclaw" | "hermes" | "none" llm: provider: kimi # kimi | qwen | openai | minimax | novita | openrouter | volcengine | custom model_id: moonshotai/Kimi-K2.5 api_base: https://api.moonshot.cn/v1 api_key: sk-... proxy: port: 30000 api_key: "" # 可选：本地 MetaClaw 代理 bearer token skills: enabled: true dir: ~/.metaclaw/skills # 你的 Skill 库目录 retrieval_mode: template # template | embedding top_k: 6 task_specific_top_k: 10 # 任务专属 Skill 上限（默认 10） auto_evolve: true # 每次会话结束后自动总结 Skill rl: enabled: false # 设为 true 开启 RL 训练 backend: auto # "auto" | "tinker" | "mint" | "weaver" model: moonshotai/Kimi-K2.5 api_key: "" base_url: "" # 可选后端 endpoint，例如 MinT 的 https://mint.macaron.xin/ 或 Weaver 的 https://weaver-console.nex-agi.cn tinker_api_key: "" # api_key 的兼容别名 tinker_base_url: "" # base_url 的兼容别名 prm_url: https://api.openai.com/v1 prm_model: gpt-5.2 prm_api_key: "" lora_rank: 32 batch_size: 4 resume_from_ckpt: "" # 可选：从检查点恢复训练 evolver_api_base: "" # 留空则复用 llm.api_base evolver_api_key: "" evolver_model: gpt-5.2 opd: enabled: false # 设为 true 开启 OPD（教师蒸馏） teacher_url: "" # 教师模型 base URL（OpenAI 兼容 /v1/completions） teacher_model: "" # 教师模型名称（如 Qwen/Qwen3-32B） teacher_api_key: "" # 教师模型 API Key kl_penalty_coef: 1.0 # OPD 的 KL 惩罚系数 max_context_tokens: 20000 # 截断前 prompt token 上限；0 表示不截断（大上下文云端模型在 skills_only 下推荐） # context_window: 0 # 向 Agent 声明的上下文窗口（如 OpenClaw 压缩阈值）；0 为自动 # （skills_only 约 200000，rl/madmax 约 32768） scheduler: # v0.3：元学习调度器（madmax 模式下自动启用） enabled: false # madmax 模式自动启用；rl 模式需手动设置 sleep_start: "23:00" sleep_end: "07:00" idle_threshold_minutes: 30 min_window_minutes: 15 calendar: enabled: false credentials_path: "" token_path: "" ```

--- ## 💪 Skills 模式 **`metaclaw start --mode skills_only`** 最轻量的模式。无需 GPU,无需 RL 后端。MetaClaw 将你的 LLM 封装在代理后面,每轮注入相关 Skill,对话结束后自动总结新 Skill。若使用 OpenAI 兼容的自定义服务商，请将 `llm.api_base` 设为完整的对话 API 根地址（通常以 `/v1` 结尾，例如 `https://your-gateway.example/v1`）。在 `skills_only` 模式下，除非你单独配置 evolver 端点，否则 MetaClaw 会用同一地址完成提示压缩等辅助 LLM 调用。 Skill 是存放在 `~/.metaclaw/skills/` 中的简短 Markdown 指令,以独立的 `SKILL.md` 文件组织。Skill 库随使用自动增长。预加载内置 Skill 库（涵盖编码、安全、Agent 任务等 40+ 个 Skill）： ```bash cp -r memory_data/skills/* ~/.metaclaw/skills/ ``` --- ## 🔬 RL 模式 **`metaclaw start --mode rl`** 在 Skills 模式基础上,增加基于实时对话的持续 RL 微调。每轮对话被 tokenize 并作为训练样本提交。裁判 LLM（PRM）异步为回复打分,Tinker 兼容后端（Tinker 云端、MinT 或 Weaver）执行 LoRA 微调并热更新权重。 **Tinker**: ```bash metaclaw config rl.backend tinker metaclaw config rl.api_key sk-... metaclaw config rl.model moonshotai/Kimi-K2.5 metaclaw config rl.prm_url https://api.openai.com/v1 metaclaw config rl.prm_api_key sk-... metaclaw start --mode rl ``` **MinT**: ```bash metaclaw config rl.backend mint metaclaw config rl.api_key sk-mint-... metaclaw config rl.base_url https://mint.macaron.xin/ metaclaw config rl.model Qwen/Qwen3-4B-Instruct-2507 metaclaw config rl.prm_url https://api.openai.com/v1 metaclaw config rl.prm_api_key sk-... metaclaw start --mode rl ``` **Weaver**: ```bash metaclaw config rl.backend weaver metaclaw config rl.api_key sk-... metaclaw config rl.base_url https://weaver-console.nex-agi.cn metaclaw config rl.model Qwen/Qwen3-8B metaclaw config rl.prm_url https://api.openai.com/v1 metaclaw config rl.prm_api_key sk-... metaclaw start --mode rl ``` 专属进化器 LLM 还会从失败的 episode 中提取新 Skill,反馈到 Skill 库中。 **程序化 rollout**（无需 OpenClaw TUI）：将 `openclaw_env_data_dir` 设为包含 JSONL 任务文件的目录： ```json {"task_id": "task_1", "instruction": "Register the webhook at https://example.com/hook"} ``` ### 在线策略蒸馏（OPD） OPD 是 RL 模式的可选附加功能。它将更大的教师模型在线蒸馏到学生模型：学生模型正常生成回复,教师模型对相同回复提供每个 token 的对数概率。KL 惩罚引导学生向教师分布靠拢。 ```bash metaclaw config opd.enabled true metaclaw config opd.teacher_url http://localhost:8082/v1 metaclaw config opd.teacher_model Qwen/Qwen3-32B metaclaw config opd.kl_penalty_coef 1.0 ``` 教师模型需部署在 OpenAI 兼容的 `/v1/completions` 端点（如 vLLM、SGLang）。OPD 可与 PRM 打分同时使用,两者均异步运行。参考 `examples/run_conversation_opd.py` 和 `scripts/run_openclaw_tinker_opd.sh`。 --- ## 🧠 MadMax 模式（默认） **`metaclaw start`** 在 RL 模式基础上,增加元学习调度器,将权重更新推迟到用户不活跃的窗口,确保活跃使用期间不受干扰。这是默认模式。 RL 权重热更新会暂停 Agent 数分钟。MadMax 不像 RL 模式那样 batch 满后立即训练,而是等待合适的窗口。三种条件触发更新窗口（满足任一即可）： - **睡眠时间**：可配置的起止时间（如 23:00 到 07:00） - **键盘空闲**：空闲 N 分钟后触发 - **Google Calendar 事件**：检测到会议时运行更新 ```bash metaclaw config scheduler.sleep_start "23:00" metaclaw config scheduler.sleep_end "07:00" metaclaw config scheduler.idle_threshold_minutes 30 # 可选：Google Calendar 集成 pip install -e ".[scheduler]" metaclaw config scheduler.calendar.enabled true metaclaw config scheduler.calendar.credentials_path ~/.metaclaw/client_secrets.json ``` 若用户在更新中途返回,部分 batch 会被保存并在下次窗口恢复。每个 `ConversationSample` 带有 `skill_generation` 版本标签。当 Skill 进化增加 generation 时,RL buffer 被清空,仅使用进化后的样本进行梯度更新（MAML support/query 集分离）。 --- ## 📚 引用 ```bibtex @misc{xia2026metaclaw, author = {Xia, Peng and Chen, Jianwen and Yang, Xinyu and Tu, Haoqin and Han, Siwei and Qiu, Shi and Zheng, Zeyu and Xie, Cihang and Yao, Huaxiu}, title = {MetaClaw: Just Talk --- An Agent That Meta-Learns and Evolves in the Wild}, year = {2026}, organization = {GitHub}, url = {https://github.com/aiming-lab/MetaClaw}, } ``` --- ## 🙏 致谢 MetaClaw 基于以下开源项目构建： - [OpenClaw](https://openclaw.ai), 核心 Agent 框架。 - [SkillRL](https://github.com/aiming-lab/SkillRL), 我们的 Skill 增强 RL 框架。 - [Tinker](https://www.thinkingmachines.ai/tinker/), 用于在线 RL 训练。 - [MinT](https://github.com/MindLab-Research/mindlab-toolkit), 在线 RL 训练的备选后端。 - [Weaver](https://github.com/nex-agi/weaver), 在线 RL 训练的备选后端。 - [OpenClaw-RL](https://github.com/Gen-Verse/OpenClaw-RL), 我们 RL 设计的灵感来源。 - [awesome-openclaw-skills](https://github.com/VoltAgent/awesome-openclaw-skills), 为我们的 Skill 库提供基础。 - [NanoClaw](https://github.com/qwibitai/nanoclaw) , qwibitai 开发的个人 Claude Agent，通过 `/v1/messages` 兼容端点接入。 - [NemoClaw](https://github.com/NVIDIA/NemoClaw) , NVIDIA 开发的 OpenShell 推理 Agent 插件。 --- ## 📄 许可证本项目采用 [MIT 许可证](LICENSE)。