SKILL.md 在「评估 Rubric」章节会引用本文件。需要查论文细节、controlled study 数据、HL 实战案例的具体数字时读这里。
论文:From Raw Experience to Skill Consumption: A Systematic Study of Model-Generated Agent Skills 作者:Microsoft Research + 复旦大学 + 上海交大(16 作者) arXiv:2605.23899(2026-05-22,与 SkillOpt 同期发布) 实验规模:5 domains(ALFWorld / SpreadsheetBench / SWE-bench-Verified / SEAL-0 / BFCL-v4)× 6 targets × 5 extractors
旧 8 维 rubric 全部由 LLM judge 打分 → 系统性乐观偏差 → 本机 results.tsv 早期 40 次 0 revert / 67% dry_run 印证。
v2 9 维 rubric 强化 dim3/dim5 + 新增 dim9 是 SkillLens 验证过的方向。但即使 73.8%,每 4 次决策仍错 1 次——重要决策必须人审确认。
| Judge | 顺序 | V1 总分 | V2 总分 | Δ | Verdict | Confidence |
|---|---|---|---|---|---|---|
| 1 | V1 → V2 | 89.5 | 41.7 | +47.8 | V1>V2 | high |
| 2 | V2 → V1 | 90.2 | 46.7 | +43.5 | V1>V2 | high |
| 3 | V1 → V2 | 89.5 | 37.6 | +51.9 | V1>V2 | high |
| 4 | V2 → V1 | 89.5 | 48.4 | +41.1 | V1>V2 | high |
| 5 | V1 → V2 | 89.5 | 41.4 | +48.1 | V1>V2 | high |
| 均值 | — | 89.6 | 43.2 | +46.5 | 5/5 V1>V2 | 5/5 high |
| 维度 | V1 均值 | V2 均值 | Δ | 一致性 |
|---|---|---|---|---|
| 1. Frontmatter | 9.0 | 5.6 | -3.4 | 全部识别 |
| 2. 工作流清晰度 | 9.0 | 5.0 | -4.0 | 全部识别 |
| 3. 边界条件覆盖 | 9.2 | 3.4 | -5.8 | 最明显劣化 |
| 4. 检查点设计 | 9.0 | 2.6 | -6.4 | 最明显劣化 |
| 5. 指令具体性 | 9.0 | 3.6 | -5.4 | 全部识别 |
| 6. 资源整合度 | 8.0 | 6.8 | -1.2 | 弱 |
| 7. 整体架构 | 9.0 | 4.6 | -4.4 | 全部识别 |
| 8. 实测表现 | 9.0 | 3.6 | -5.4 | 全部识别 |
rubric 能识别 gross degradation(5/5 high confidence),但这不能证明 fine-grained quality difference 也能识别——SkillLens 的 46.4% 来自细粒度对比,darwin-skill 在细粒度判别上仍有失效风险。重要决策仍需人审。
huashu-gpt-image Round 1:红线 4 标题前加 🔴 CHECKPOINT + 「禁止交付」→「🛑 STOP」
huashu-slide-codex r4:路径优先级章节插入 🔴🔴🔴 默认路径锁定铁律
huashu-gpt-image Round 1:新增「🛟 失败模式与 fallback 树」章节
huashu-weread-advisor edit-r2:SKILL 加 11 行全局异常表 + 4 行数据展示规范 + 4 工作流各加 5-6 行 workflow 特有异常表
huashu-gpt-image 实测:
huashu-gpt-image Round 2:+0.15 marginal
对比 darwin-skill 早期:40 次记录 0 revert,部分是因为没有触顶规则,硬凑 MAX_ROUNDS=3 都 keep 了边际改动。
完整记录见 results.tsv。
| skill | 起分 | 终分 | Δ | 模式 |
|---|---|---|---|---|
| huashu-research | 40.0 | 73.2 | +33.2 | dry_run |
| huashu-video-check | 72.1 | 80.5 | +8.4 | dry_run |
| harness-optimizer | 78.4 | 86.0 | +7.6 | dry_run |
| freud-skill | 72.5 | 86.0 | +13.5 | dry_run |
| claude-design | 74.5 | 91.0 | +16.5 | full_test ✅ |
| huashu-design | 62.3 | 86.7 | +24.4 | dry_run |
| huashu-weread-advisor | 76.5 | 91.4 | +14.9 | full_test_informed ✅ |
| huashu-slide-codex | 82.6 | 85+ | +2~ | mixed |
| huashu-gpt-image | 80.8 | 91.65 | +10.85 | full_test ✅(v2 实战) |
| darwin-skill (self-fix) | 86.05 | 92.05 | +6.0 | full_test ✅(自指闭环) |
统计: