SkillLens 实证基线 + darwin-skill 本机验证数据

SKILL.md 在「评估 Rubric」章节会引用本文件。需要查论文细节、controlled study 数据、HL 实战案例的具体数字时读这里。

SkillLens 论文实证（外部证据）

论文：From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills 作者：Microsoft Research + 复旦大学 + 上海交大（16 作者） arXiv：2605.23899（2026-05-22，与 SkillOpt 同期发布） 实验规模：5 domains（ALFWorld / SpreadsheetBench / SWE-bench-Verified / SEAL-0 / BFCL-v4）× 6 targets × 5 extractors

关键发现

75% 案例 skill 有正收益，25% 出现 negative transfer——即「加 skill 比不加还差」
强 agent 不一定是好 extractor（Gemini-3.1-FL 在 skill 提取效率上反超 GPT-5.4）
LLM-as-judge 准确率仅 46.4%——给 LLM judge 两份 skill，让它选哪份更好，比扔硬币（50%）还差
meta-skill rubric 把准确率提升到 73.8%——加入三个维度：
- Failure-mechanism encoding（必须显式编码失败模式）
- Actionable specificity（禁止"考虑/可能"软化措辞）
- Risk-action blacklist（必须有反例清单）
所有 domain 一致 +1.55pp 提升（meta-rubric 不是某个 domain 的特例）

对 darwin-skill 的意义

旧 8 维 rubric 全部由 LLM judge 打分 → 系统性乐观偏差 → 本机 results.tsv 早期 40 次 0 revert / 67% dry_run 印证。

v2 9 维 rubric 强化 dim3/dim5 + 新增 dim9 是 SkillLens 验证过的方向。但即使 73.8%，每 4 次决策仍错 1 次——重要决策必须人审确认。

本机 controlled study（2026-05-27）

实验设计

目标 skill：huashu-research（170 行，独立度高）
V1：当前 GitHub 仓库最新版（被 darwin-skill 优化过 +33 分的版本）
V2 (degraded)：在 V1 基础上应用 4 类明确质量劣化：
- D1 模糊化具体指令：「必须/立即」→「建议/可以根据情况」
- D2 删除关键检查点：删掉 2 个 🔴 检查点
- D3 删掉异常处理表：整段「## 异常处理」章节删除
- D4 插入 AI 腔废话：在 Step 2、Step 3 插入花叔禁用词 9 个套话
5 个独立 judge agent（general-purpose subagent，无 context 共享）盲测打分
一半 judge 先读 V1 后读 V2，另一半反序（去除位置偏差）

结果

Judge	顺序	V1 总分	V2 总分	Δ	Verdict	Confidence
1	V1 → V2	89.5	41.7	+47.8	V1>V2	high
2	V2 → V1	90.2	46.7	+43.5	V1>V2	high
3	V1 → V2	89.5	37.6	+51.9	V1>V2	high
4	V2 → V1	89.5	48.4	+41.1	V1>V2	high
5	V1 → V2	89.5	41.4	+48.1	V1>V2	high
均值	—	89.6	43.2	+46.5	5/5 V1>V2	5/5 high

维度级共识

维度	V1 均值	V2 均值	Δ	一致性
1. Frontmatter	9.0	5.6	-3.4	全部识别
2. 工作流清晰度	9.0	5.0	-4.0	全部识别
3. 边界条件覆盖	9.2	3.4	-5.8	最明显劣化
4. 检查点设计	9.0	2.6	-6.4	最明显劣化
5. 指令具体性	9.0	3.6	-5.4	全部识别
6. 资源整合度	8.0	6.8	-1.2	弱
7. 整体架构	9.0	4.6	-4.4	全部识别
8. 实测表现	9.0	3.6	-5.4	全部识别

结论

rubric 能识别 gross degradation（5/5 high confidence），但这不能证明 fine-grained quality difference 也能识别——SkillLens 的 46.4% 来自细粒度对比，darwin-skill 在细粒度判别上仍有失效风险。重要决策仍需人审。

HL 实战 high-leverage 案例（来自 results.tsv 真实记录）

HL-1：显性视觉标记是 dim4 的杠杆

huashu-gpt-image Round 1：红线 4 标题前加 🔴 CHECKPOINT + 「禁止交付」→「🛑 STOP」

改动：4 行
dim4 变化：6.0 → 9.5（+3.5）
单维度 ROI：每行改动 +0.875 分

huashu-slide-codex r4：路径优先级章节插入 🔴🔴🔴 默认路径锁定铁律

dim 总分 85 → 持平但避免了「Codex 自我合理化切 Path3 失败」实测翻车
视觉锚是 LLM 解析的关键信号

HL-2：if-then 三段式 fallback 表

huashu-gpt-image Round 1：新增「🛟 失败模式与 fallback 树」章节

改动：3 张表 23 条三段式（触发条件 / 一线修复 / 仍失败兜底）
- 单图失败 9 条
- 批量生成 9 条
- 生成执行层 5 条
dim3 变化：6.5 → 10（满分）

huashu-weread-advisor edit-r2：SKILL 加 11 行全局异常表 + 4 行数据展示规范 + 4 工作流各加 5-6 行 workflow 特有异常表

共 ~33 个异常场景覆盖
dim 总分 81.3 → 87.6（+6.3）

HL-3：维度相关性（dim2/3/4 是相关簇）

huashu-gpt-image 实测：

Round 1 攻 dim3（最低 6.5）→ 改成 10
同期 dim2 自动从 7.5 → 9（未单独优化）
Round 2 试图单独攻 dim2 → 发现已触顶 9，多此一举
教训：找最低维度时同时看相关簇短板

HL-4：触顶后边际收益递减

huashu-gpt-image Round 2：+0.15 marginal

Round 1: +10.7 分（基线 80.8 → 91.5）
Round 2: +0.15 分（91.5 → 91.65）
触顶信号：连续 2 轮 Δ < 2 → break，避免过度优化

对比 darwin-skill 早期：40 次记录 0 revert，部分是因为没有触顶规则，硬凑 MAX_ROUNDS=3 都 keep 了边际改动。

历史 results.tsv 优化记录摘要（截至 2026-05-27）

完整记录见 results.tsv。

skill	起分	终分	Δ	模式
huashu-research	40.0	73.2	+33.2	dry_run
huashu-video-check	72.1	80.5	+8.4	dry_run
harness-optimizer	78.4	86.0	+7.6	dry_run
freud-skill	72.5	86.0	+13.5	dry_run
claude-design	74.5	91.0	+16.5	full_test ✅
huashu-design	62.3	86.7	+24.4	dry_run
huashu-weread-advisor	76.5	91.4	+14.9	full_test_informed ✅
huashu-slide-codex	82.6	85+	+2~	mixed
huashu-gpt-image	80.8	91.65	+10.85	full_test ✅（v2 实战）
darwin-skill (self-fix)	86.05	92.05	+6.0	full_test ✅（自指闭环）

统计：

平均提升：~+13.5 分
全部 keep（v1 时代 0 revert 印证 rubric 偏松；v2 引入触顶 break 规则）
full_test 比例：从 33% 提升到 100%（最近 2 次都是 full_test）

skilllens-evidence.md 6.5 KB パーマリンク 履歴 Raw