# SkillLens 实证基线 + darwin-skill 本机验证数据

> SKILL.md 在「评估 Rubric」章节会引用本文件。需要查论文细节、controlled study 数据、HL 实战案例的具体数字时读这里。

---

## SkillLens 论文实证（外部证据）

**论文**：From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills
**作者**：Microsoft Research + 复旦大学 + 上海交大（16 作者）
**arXiv**：2605.23899（2026-05-22，与 SkillOpt 同期发布）
**实验规模**：5 domains（ALFWorld / SpreadsheetBench / SWE-bench-Verified / SEAL-0 / BFCL-v4）× 6 targets × 5 extractors

### 关键发现

1. **75% 案例 skill 有正收益，25% 出现 negative transfer**——即「加 skill 比不加还差」
2. **强 agent 不一定是好 extractor**（Gemini-3.1-FL 在 skill 提取效率上反超 GPT-5.4）
3. **LLM-as-judge 准确率仅 46.4%**——给 LLM judge 两份 skill，让它选哪份更好，**比扔硬币（50%）还差**
4. **meta-skill rubric 把准确率提升到 73.8%**——加入三个维度：
   - **Failure-mechanism encoding**（必须显式编码失败模式）
   - **Actionable specificity**（禁止"考虑/可能"软化措辞）
   - **Risk-action blacklist**（必须有反例清单）
5. 所有 domain 一致 +1.55pp 提升（meta-rubric 不是某个 domain 的特例）

### 对 darwin-skill 的意义

旧 8 维 rubric 全部由 LLM judge 打分 → 系统性乐观偏差 → 本机 results.tsv 早期 40 次 0 revert / 67% dry_run 印证。

v2 9 维 rubric 强化 dim3/dim5 + 新增 dim9 是 SkillLens 验证过的方向。**但即使 73.8%，每 4 次决策仍错 1 次——重要决策必须人审确认。**

---

## 本机 controlled study（2026-05-27）

### 实验设计

- **目标 skill**：huashu-research（170 行，独立度高）
- **V1**：当前 GitHub 仓库最新版（被 darwin-skill 优化过 +33 分的版本）
- **V2 (degraded)**：在 V1 基础上应用 4 类明确质量劣化：
  - **D1 模糊化具体指令**：「必须/立即」→「建议/可以根据情况」
  - **D2 删除关键检查点**：删掉 2 个 🔴 检查点
  - **D3 删掉异常处理表**：整段「## 异常处理」章节删除
  - **D4 插入 AI 腔废话**：在 Step 2、Step 3 插入花叔禁用词 9 个套话
- **5 个独立 judge agent**（general-purpose subagent，无 context 共享）盲测打分
- 一半 judge 先读 V1 后读 V2，另一半反序（去除位置偏差）

### 结果

| Judge | 顺序 | V1 总分 | V2 总分 | Δ | Verdict | Confidence |
|---|---|---|---|---|---|---|
| 1 | V1 → V2 | 89.5 | 41.7 | **+47.8** | V1>V2 | high |
| 2 | V2 → V1 | 90.2 | 46.7 | **+43.5** | V1>V2 | high |
| 3 | V1 → V2 | 89.5 | 37.6 | **+51.9** | V1>V2 | high |
| 4 | V2 → V1 | 89.5 | 48.4 | **+41.1** | V1>V2 | high |
| 5 | V1 → V2 | 89.5 | 41.4 | **+48.1** | V1>V2 | high |
| **均值** | — | **89.6** | **43.2** | **+46.5** | **5/5 V1>V2** | **5/5 high** |

### 维度级共识

| 维度 | V1 均值 | V2 均值 | Δ | 一致性 |
|---|---|---|---|---|
| 1. Frontmatter | 9.0 | 5.6 | -3.4 | 全部识别 |
| 2. 工作流清晰度 | 9.0 | 5.0 | -4.0 | 全部识别 |
| 3. 边界条件覆盖 | 9.2 | 3.4 | -5.8 | **最明显劣化** |
| 4. 检查点设计 | 9.0 | 2.6 | -6.4 | **最明显劣化** |
| 5. 指令具体性 | 9.0 | 3.6 | -5.4 | 全部识别 |
| 6. 资源整合度 | 8.0 | 6.8 | -1.2 | 弱 |
| 7. 整体架构 | 9.0 | 4.6 | -4.4 | 全部识别 |
| 8. 实测表现 | 9.0 | 3.6 | -5.4 | 全部识别 |

### 结论

**rubric 能识别 gross degradation（5/5 high confidence）**，但**这不能证明 fine-grained quality difference 也能识别**——SkillLens 的 46.4% 来自细粒度对比，darwin-skill 在细粒度判别上仍有失效风险。**重要决策仍需人审。**

---

## HL 实战 high-leverage 案例（来自 results.tsv 真实记录）

### HL-1：显性视觉标记是 dim4 的杠杆

**huashu-gpt-image Round 1**：红线 4 标题前加 🔴 CHECKPOINT + 「禁止交付」→「🛑 STOP」
- 改动：4 行
- dim4 变化：6.0 → 9.5（+3.5）
- 单维度 ROI：每行改动 +0.875 分

**huashu-slide-codex r4**：路径优先级章节插入 🔴🔴🔴 默认路径锁定铁律
- dim 总分 85 → 持平但避免了「Codex 自我合理化切 Path3 失败」实测翻车
- 视觉锚是 LLM 解析的关键信号

### HL-2：if-then 三段式 fallback 表

**huashu-gpt-image Round 1**：新增「🛟 失败模式与 fallback 树」章节
- 改动：3 张表 23 条三段式（触发条件 / 一线修复 / 仍失败兜底）
  - 单图失败 9 条
  - 批量生成 9 条
  - 生成执行层 5 条
- dim3 变化：6.5 → 10（满分）

**huashu-weread-advisor edit-r2**：SKILL 加 11 行全局异常表 + 4 行数据展示规范 + 4 工作流各加 5-6 行 workflow 特有异常表
- 共 ~33 个异常场景覆盖
- dim 总分 81.3 → 87.6（+6.3）

### HL-3：维度相关性（dim2/3/4 是相关簇）

**huashu-gpt-image 实测**：
- Round 1 攻 dim3（最低 6.5）→ 改成 10
- 同期 dim2 自动从 7.5 → 9（未单独优化）
- Round 2 试图单独攻 dim2 → 发现已触顶 9，多此一举
- **教训**：找最低维度时同时看相关簇短板

### HL-4：触顶后边际收益递减

**huashu-gpt-image Round 2**：+0.15 marginal
- Round 1: +10.7 分（基线 80.8 → 91.5）
- Round 2: +0.15 分（91.5 → 91.65）
- **触顶信号**：连续 2 轮 Δ < 2 → break，避免过度优化

**对比 darwin-skill 早期**：40 次记录 0 revert，部分是因为没有触顶规则，硬凑 MAX_ROUNDS=3 都 keep 了边际改动。

---

## 历史 results.tsv 优化记录摘要（截至 2026-05-27）

完整记录见 `results.tsv`。

| skill | 起分 | 终分 | Δ | 模式 |
|---|---|---|---|---|
| huashu-research | 40.0 | 73.2 | +33.2 | dry_run |
| huashu-video-check | 72.1 | 80.5 | +8.4 | dry_run |
| harness-optimizer | 78.4 | 86.0 | +7.6 | dry_run |
| freud-skill | 72.5 | 86.0 | +13.5 | dry_run |
| **claude-design** | **74.5** | **91.0** | **+16.5** | **full_test ✅** |
| huashu-design | 62.3 | 86.7 | +24.4 | dry_run |
| huashu-weread-advisor | 76.5 | 91.4 | +14.9 | full_test_informed ✅ |
| huashu-slide-codex | 82.6 | 85+ | +2~ | mixed |
| **huashu-gpt-image** | **80.8** | **91.65** | **+10.85** | **full_test ✅（v2 实战）** |
| **darwin-skill (self-fix)** | **86.05** | **92.05** | **+6.0** | **full_test ✅（自指闭环）** |

**统计**：
- 平均提升：~+13.5 分
- 全部 keep（v1 时代 0 revert 印证 rubric 偏松；v2 引入触顶 break 规则）
- full_test 比例：从 33% 提升到 100%（最近 2 次都是 full_test）