# SkillLens 实证基线 + darwin-skill 本机验证数据 > SKILL.md 在「评估 Rubric」章节会引用本文件。需要查论文细节、controlled study 数据、HL 实战案例的具体数字时读这里。 --- ## SkillLens 论文实证(外部证据) **论文**:From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills **作者**:Microsoft Research + 复旦大学 + 上海交大(16 作者) **arXiv**:2605.23899(2026-05-22,与 SkillOpt 同期发布) **实验规模**:5 domains(ALFWorld / SpreadsheetBench / SWE-bench-Verified / SEAL-0 / BFCL-v4)× 6 targets × 5 extractors ### 关键发现 1. **75% 案例 skill 有正收益,25% 出现 negative transfer**——即「加 skill 比不加还差」 2. **强 agent 不一定是好 extractor**(Gemini-3.1-FL 在 skill 提取效率上反超 GPT-5.4) 3. **LLM-as-judge 准确率仅 46.4%**——给 LLM judge 两份 skill,让它选哪份更好,**比扔硬币(50%)还差** 4. **meta-skill rubric 把准确率提升到 73.8%**——加入三个维度: - **Failure-mechanism encoding**(必须显式编码失败模式) - **Actionable specificity**(禁止"考虑/可能"软化措辞) - **Risk-action blacklist**(必须有反例清单) 5. 所有 domain 一致 +1.55pp 提升(meta-rubric 不是某个 domain 的特例) ### 对 darwin-skill 的意义 旧 8 维 rubric 全部由 LLM judge 打分 → 系统性乐观偏差 → 本机 results.tsv 早期 40 次 0 revert / 67% dry_run 印证。 v2 9 维 rubric 强化 dim3/dim5 + 新增 dim9 是 SkillLens 验证过的方向。**但即使 73.8%,每 4 次决策仍错 1 次——重要决策必须人审确认。** --- ## 本机 controlled study(2026-05-27) ### 实验设计 - **目标 skill**:huashu-research(170 行,独立度高) - **V1**:当前 GitHub 仓库最新版(被 darwin-skill 优化过 +33 分的版本) - **V2 (degraded)**:在 V1 基础上应用 4 类明确质量劣化: - **D1 模糊化具体指令**:「必须/立即」→「建议/可以根据情况」 - **D2 删除关键检查点**:删掉 2 个 🔴 检查点 - **D3 删掉异常处理表**:整段「## 异常处理」章节删除 - **D4 插入 AI 腔废话**:在 Step 2、Step 3 插入花叔禁用词 9 个套话 - **5 个独立 judge agent**(general-purpose subagent,无 context 共享)盲测打分 - 一半 judge 先读 V1 后读 V2,另一半反序(去除位置偏差) ### 结果 | Judge | 顺序 | V1 总分 | V2 总分 | Δ | Verdict | Confidence | |---|---|---|---|---|---|---| | 1 | V1 → V2 | 89.5 | 41.7 | **+47.8** | V1>V2 | high | | 2 | V2 → V1 | 90.2 | 46.7 | **+43.5** | V1>V2 | high | | 3 | V1 → V2 | 89.5 | 37.6 | **+51.9** | V1>V2 | high | | 4 | V2 → V1 | 89.5 | 48.4 | **+41.1** | V1>V2 | high | | 5 | V1 → V2 | 89.5 | 41.4 | **+48.1** | V1>V2 | high | | **均值** | — | **89.6** | **43.2** | **+46.5** | **5/5 V1>V2** | **5/5 high** | ### 维度级共识 | 维度 | V1 均值 | V2 均值 | Δ | 一致性 | |---|---|---|---|---| | 1. Frontmatter | 9.0 | 5.6 | -3.4 | 全部识别 | | 2. 工作流清晰度 | 9.0 | 5.0 | -4.0 | 全部识别 | | 3. 边界条件覆盖 | 9.2 | 3.4 | -5.8 | **最明显劣化** | | 4. 检查点设计 | 9.0 | 2.6 | -6.4 | **最明显劣化** | | 5. 指令具体性 | 9.0 | 3.6 | -5.4 | 全部识别 | | 6. 资源整合度 | 8.0 | 6.8 | -1.2 | 弱 | | 7. 整体架构 | 9.0 | 4.6 | -4.4 | 全部识别 | | 8. 实测表现 | 9.0 | 3.6 | -5.4 | 全部识别 | ### 结论 **rubric 能识别 gross degradation(5/5 high confidence)**,但**这不能证明 fine-grained quality difference 也能识别**——SkillLens 的 46.4% 来自细粒度对比,darwin-skill 在细粒度判别上仍有失效风险。**重要决策仍需人审。** --- ## HL 实战 high-leverage 案例(来自 results.tsv 真实记录) ### HL-1:显性视觉标记是 dim4 的杠杆 **huashu-gpt-image Round 1**:红线 4 标题前加 🔴 CHECKPOINT + 「禁止交付」→「🛑 STOP」 - 改动:4 行 - dim4 变化:6.0 → 9.5(+3.5) - 单维度 ROI:每行改动 +0.875 分 **huashu-slide-codex r4**:路径优先级章节插入 🔴🔴🔴 默认路径锁定铁律 - dim 总分 85 → 持平但避免了「Codex 自我合理化切 Path3 失败」实测翻车 - 视觉锚是 LLM 解析的关键信号 ### HL-2:if-then 三段式 fallback 表 **huashu-gpt-image Round 1**:新增「🛟 失败模式与 fallback 树」章节 - 改动:3 张表 23 条三段式(触发条件 / 一线修复 / 仍失败兜底) - 单图失败 9 条 - 批量生成 9 条 - 生成执行层 5 条 - dim3 变化:6.5 → 10(满分) **huashu-weread-advisor edit-r2**:SKILL 加 11 行全局异常表 + 4 行数据展示规范 + 4 工作流各加 5-6 行 workflow 特有异常表 - 共 ~33 个异常场景覆盖 - dim 总分 81.3 → 87.6(+6.3) ### HL-3:维度相关性(dim2/3/4 是相关簇) **huashu-gpt-image 实测**: - Round 1 攻 dim3(最低 6.5)→ 改成 10 - 同期 dim2 自动从 7.5 → 9(未单独优化) - Round 2 试图单独攻 dim2 → 发现已触顶 9,多此一举 - **教训**:找最低维度时同时看相关簇短板 ### HL-4:触顶后边际收益递减 **huashu-gpt-image Round 2**:+0.15 marginal - Round 1: +10.7 分(基线 80.8 → 91.5) - Round 2: +0.15 分(91.5 → 91.65) - **触顶信号**:连续 2 轮 Δ < 2 → break,避免过度优化 **对比 darwin-skill 早期**:40 次记录 0 revert,部分是因为没有触顶规则,硬凑 MAX_ROUNDS=3 都 keep 了边际改动。 --- ## 历史 results.tsv 优化记录摘要(截至 2026-05-27) 完整记录见 `results.tsv`。 | skill | 起分 | 终分 | Δ | 模式 | |---|---|---|---|---| | huashu-research | 40.0 | 73.2 | +33.2 | dry_run | | huashu-video-check | 72.1 | 80.5 | +8.4 | dry_run | | harness-optimizer | 78.4 | 86.0 | +7.6 | dry_run | | freud-skill | 72.5 | 86.0 | +13.5 | dry_run | | **claude-design** | **74.5** | **91.0** | **+16.5** | **full_test ✅** | | huashu-design | 62.3 | 86.7 | +24.4 | dry_run | | huashu-weread-advisor | 76.5 | 91.4 | +14.9 | full_test_informed ✅ | | huashu-slide-codex | 82.6 | 85+ | +2~ | mixed | | **huashu-gpt-image** | **80.8** | **91.65** | **+10.85** | **full_test ✅(v2 实战)** | | **darwin-skill (self-fix)** | **86.05** | **92.05** | **+6.0** | **full_test ✅(自指闭环)** | **统计**: - 平均提升:~+13.5 分 - 全部 keep(v1 时代 0 revert 印证 rubric 偏松;v2 引入触顶 break 规则) - full_test 比例:从 33% 提升到 100%(最近 2 次都是 full_test)