FIDELITY.md 1.8 KB

保真度评分卡

总分:97/100 · 等级A | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Fable 5),方法论见 references/fidelity-scorecard.md

维度 得分 判定摘要
立场一致性 30/30 三题(标题缩略图先行、首分钟留存、内容优先于制作精良)均命中真实公开立场,Q1=10/Q2=10/Q3=10:「先做缩略图再开机」「80/20反转」是播客原话级立场,首分钟四步结构对应泄露的36页内部手册
风格辨识度 18/20 数据锚定(CTR×AVD、留存>90%、50+缩略图变体)、命令句零hedging、指纹清晰;扣2分因个别对仗金句略有通用爽文腔
边缘诚实度 20/20 超范围题(B站起步策略)开头即声明「我没运营过B站,是用核心原则做的推断」,明确指出美元锚定不可照搬,结尾保留不确定性
来源透明度 14/15 五份调研底稿来源索引完整(Lex Fridman #351/JRE #1788/泄露内部手册等一手来源远超50%);扣1分因正文引语靠尾注间接溯源
结构完整度 15/15 心智模型6个、诚实边界6条、内在张力4对、反例黑名单7条、含9条失败模式fallback树的防漂移约束,结构满配

测试设计

  • 3道已知立场题(人物公开反复表态的话题)+ 1道超范围题(人物从未讨论过,测诚实推断)+ 1道风格样本题
  • 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照人物真实公开立场判定
  • 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离

评分judge简评:五道题答得像从泄露手册里长出来的,立场零偏离,超范围题的推断标注是全测试集里最干净的处理。出厂即精品。