[ { "id": 1, "scenario": "典型场景:单 skill 优化", "prompt": "用 darwin-skill 优化 huashu-xxx 这个 skill", "expected": "skill 应引导:Phase 0 检查 git/分支 → Phase 0.5 设计 2-3 个 test-prompts → Phase 1 spawn 独立 judge 评 9 维 rubric → 找最低维度(注意 dim2/3/4 相关簇)→ Phase 2 hill climbing(每轮 1 个维度,git ratchet)→ 检测触顶(连续 2 轮 Δ<2 自动 break)→ Phase 3 汇总 + 结果卡片" }, { "id": 2, "scenario": "典型场景:全量评估", "prompt": "评估所有 skills 的质量", "expected": "skill 应执行 Phase 0.5-1:扫描所有 SKILL.md → 跑 runtime 中立性 gate → 用 9 维 rubric 打基线分 → 输出评分卡片(按分数排序,标注短板维度),不进入 Phase 2 优化循环" }, { "id": 3, "scenario": "歧义/失败场景", "prompt": "我想让你帮我把这个 skill 改得更好一点", "expected": "skill 应识别为优化任务 → 询问优化范围(全量 / 单个)→ 检查异常(不在 git 仓库 / results.tsv 缺失等)按异常表 fallback → 设计测试 prompt 前展示给用户确认(检查点)" } ]