[
  {
    "id": 1,
    "scenario": "典型场景：单 skill 优化",
    "prompt": "用 darwin-skill 优化 huashu-xxx 这个 skill",
    "expected": "skill 应引导：Phase 0 检查 git/分支 → Phase 0.5 设计 2-3 个 test-prompts → Phase 1 spawn 独立 judge 评 9 维 rubric → 找最低维度（注意 dim2/3/4 相关簇）→ Phase 2 hill climbing（每轮 1 个维度，git ratchet）→ 检测触顶（连续 2 轮 Δ<2 自动 break）→ Phase 3 汇总 + 结果卡片"
  },
  {
    "id": 2,
    "scenario": "典型场景：全量评估",
    "prompt": "评估所有 skills 的质量",
    "expected": "skill 应执行 Phase 0.5-1：扫描所有 SKILL.md → 跑 runtime 中立性 gate → 用 9 维 rubric 打基线分 → 输出评分卡片（按分数排序，标注短板维度），不进入 Phase 2 优化循环"
  },
  {
    "id": 3,
    "scenario": "歧义/失败场景",
    "prompt": "我想让你帮我把这个 skill 改得更好一点",
    "expected": "skill 应识别为优化任务 → 询问优化范围（全量 / 单个）→ 检查异常（不在 git 仓库 / results.tsv 缺失等）按异常表 fallback → 设计测试 prompt 前展示给用户确认（检查点）"
  }
]