---
title: "达尔文.skill 2.0正式开源发布！让你的所有skill左脚踩右脚实现自我进化"
source: wechat
source_url: https://mp.weixin.qq.com/s/54pkSBImnc9mhEdOPf7EZw
author: 花叔
feed_name: 花叔
review_value: 8
review_confidence: 8
review_recommendation: strong
review_stars: 4
date: 2026-05-28
created: 2026-05-28
updated: 2026-05-28
tags: [darwin-skill, skill-evolution, self-improvement, skillopt, skilllens, microsoft-research, rubric-driven, validation-gated, agent, huashu]
type: article
provenance_state: synthesized
sha256: f834e99eaae4416640d6e462695b92e69db8d1da97f70e093c8b8140e7ee92a1
---

# 达尔文.skill 2.0正式开源发布！让你的所有skill左脚踩右脚实现自我进化

> **来源**：花叔，2026年5月28日
> **仓库**：https://github.com/alchaincyf/darwin-skill（MIT）
> **参考论文**：arXiv 2605.23899 (SkillLens)、arXiv 2605.23904 (SkillOpt)

## 一句话

花叔发布达尔文.skill 2.0——基于微软 SkillOpt/SkillLens 论文升级的 self-evolving skill 优化器，9维评分 + 多评委独立审查 + validation-gated 回滚 + human-in-the-loop，近30个 skill 平均涨幅 +15 分。

## 背景：1.0 已验证价值

达尔文 1.0 核心机制：多维度评分标准 + 每轮只改最低维度 + 分数没涨自动回滚 + 写 skill 的 AI 和评分的 AI 分开。

运行一个月：平均涨 13.5 分，0 回滚。但 0 回滚不完全代表算法神准——松散评分标准下 AI 评委的判断可能只是随机骰子。

## 微软同一天挂的两篇论文

### SkillLens（arXiv 2605.23899）：AI 评委给 skill 打分准确率只有 46.4%

**问题**：单 AI 评委给两份 skill 打分选哪个更好，准确率 46.4%——比扔硬币还差 3.6 个百分点。

**药方**：评分标准加三个关键维度，准确率从 46.4% 升到 **73.8%**：
1. **失败模式编码（Failure Mechanism Encoding）**：必须写清楚「什么情况下会出错、出错了走哪条分支」
2. **可执行具体性（Actionable Specificity）**：「建议」「可以考虑」「灵活把握」全部禁止
3. **高风险行动黑名单（High-Risk Action Blacklist）**：必须有独立的「绝对不要做什么」章节

### SkillOpt（arXiv 2605.23904）：把 skill 当成神经网络的外部可训练参数

**核心思想**：skill 文档应被当成 frozen 模型的「外部可训练状态」，通过反向传播来优化——本质是让模型跑真实任务、看哪些版本更好、保留好的淘汰差的。

**四阶段优化循环**：
1. **Rollout**：目标模型用当前 skill 跑真实任务，生成带分数的轨迹
2. **Reflect**：独立优化器模型分析成功/失败批次，识别可复用规律
3. **Edit**：在「文本编辑预算」约束下，提议 skill 文档的增/删/改操作
4. **Validate**：留出的测试集分数**严格提升**才接受；否则拒绝

**关键原则**：验证不通过就拒绝——把神经网络「梯度方向必须降低 loss」的原则搬到文本空间。

**结果**：6 benchmark × 7 模型 × 3 执行环境 = 52 个组合，全部最强或并列最强。

## 达尔文 2.0 升级

### 评分标准从 8 维升级到 9 维（吸收 SkillLens）

| 维度 | 变化 |
|------|------|
| 错误处理 → **失败模式编码** | 要求写「如果 X 发生就做 Y；否则做 Z」明确分支 |
| 明确性 → **可执行具体性** | 明文禁止五个软化措辞，三处以上扣三分 |
| **新增第九维**：高风险行动黑名单 | 独立「不要做什么」章节 |

### 强化验证机制（对齐 SkillOpt + 多评委独立设计）

1. **多评委独立审查**：每轮启动两个独立评委，共识分数才算数
2. **评委不复用**：下一轮启动两个全新评委，避免锚定效应
3. **早停机制**：单轮涨幅 <1 分自动停手，避免为凑分堆冗余
4. **干跑模式控制**：干跑比例超过 30% 自动告警，强制实测验证

### 加入 Human in the Loop（区别于 SkillOpt 的核心）

SkillOpt 是全自动 benchmark-driven，达尔文 2.0 是 rubric-driven + human-in-the-loop 双引擎——每个 CHECKPOINT 等用户确认，关键决策不交给 AI。

## 实际效果

**对自己文档的递归优化**（花叔用达尔文 2.0 优化达尔文 2.0 的文档）：
- 版本管理疏漏：描述写「8维」正文已9维 → 修完
- 检查点未显性标记：全部只用粗体强调，没有 🔴/STOP → 加上
- 软化措辞超标：四处违规 → 硬化
- 结果：86.05 → 92.05

**跑整个 skill 生态**：近 30 个 skill，平均涨幅 **+15 分**
- steve-jobs-perspective：64 → 94（+30，单轮搞定）
- huashu-gpt-image：80.8 → 91.65
- darwin-skill：86.05 → 92.7

## 达尔文 vs SkillOpt：分工而非替代

| 维度 | SkillOpt | 达尔文 2.0 |
|------|----------|-------------|
| 定位 | 企业级、全自动 | 个人开发者、轻量 |
| 评估方式 | Benchmark-driven（有客观 metric） | Rubric-driven（无客观 metric 也可用） |
| Human in loop | 无，全自动 | 有，每个 CHECKPOINT 等确认 |
| 多评委 | 无 | 有，避免锚定 |
| 适用场景 | 能定义清晰评估函数 | 主观评估为主（写作/内容/风格） |

## 仓库

https://github.com/alchaincyf/darwin-skill（MIT）

## 一句话总结

达尔文 2.0 把 skill 优化从「人工调整」变成「可重复、有数学保障的工程流程」——多评委独立审查 + validation-gated 回滚 + human-in-the-loop = skill 的自我进化。

---

*花叔 | GitHub: alchaincyf/darwin-skill*