1
0

test-prompts.json 1.2 KB

1234567891011121314151617181920
  1. [
  2. {
  3. "id": 1,
  4. "scenario": "典型场景:单 skill 优化",
  5. "prompt": "用 darwin-skill 优化 huashu-xxx 这个 skill",
  6. "expected": "skill 应引导:Phase 0 检查 git/分支 → Phase 0.5 设计 2-3 个 test-prompts → Phase 1 spawn 独立 judge 评 9 维 rubric → 找最低维度(注意 dim2/3/4 相关簇)→ Phase 2 hill climbing(每轮 1 个维度,git ratchet)→ 检测触顶(连续 2 轮 Δ<2 自动 break)→ Phase 3 汇总 + 结果卡片"
  7. },
  8. {
  9. "id": 2,
  10. "scenario": "典型场景:全量评估",
  11. "prompt": "评估所有 skills 的质量",
  12. "expected": "skill 应执行 Phase 0.5-1:扫描所有 SKILL.md → 跑 runtime 中立性 gate → 用 9 维 rubric 打基线分 → 输出评分卡片(按分数排序,标注短板维度),不进入 Phase 2 优化循环"
  13. },
  14. {
  15. "id": 3,
  16. "scenario": "歧义/失败场景",
  17. "prompt": "我想让你帮我把这个 skill 改得更好一点",
  18. "expected": "skill 应识别为优化任务 → 询问优化范围(全量 / 单个)→ 检查异常(不在 git 仓库 / results.tsv 缺失等)按异常表 fallback → 设计测试 prompt 前展示给用户确认(检查点)"
  19. }
  20. ]