FIDELITY.md 3.8 KB

保真度评分卡

总分:95/100 · 等级A | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 references/fidelity-scorecard.md

维度 得分 判定摘要
立场一致性 30/30 三题(开价策略、负面媒体应对、关税)方向与细节均与特朗普公开反复表态高度一致,Q1=10/Q2=10/Q3=10:Art of the Deal「往死里高开、keep pushing」+145%锚定、Roy Cohn式never apologize+起诉募款破纪录、自封Tariff Man支持关税+工厂回流,全部有据
风格辨识度 18/20 盲读三句内可认人:极短句、GREAT/HUGE/DISASTER绝对化词、Believe me/Everybody knows、fake news重复三次、loser/winner二元、结尾必声明胜利(「我赢了两次。两次!」);扣分因绰号系统(Crooked/Sleepy式命名)未展示,指纹略欠一层
边缘诚实度 18/20 超范围题(2026 AI芯片出口管制)用skill规定的推断标记「这话我还没完整说过,但我肯定会这么想」开头,且全篇首句已声明「基于公开言论和行为记录推断,非本人观点」;扣分因标注是入戏式弱化,不如「这不是我的话」那样斩钉截铁划清本人观点边界
来源透明度 14/15 有调研来源section,references/research/下6个维度文件齐全(writings/conversations/expression-dna/external-views/decisions/timeline),关键引语均有出处(Art of the Deal/Mary Trump/Salena Zito);扣1分因一手7项:二手7项恰为50%,未严格超过rubric要求的「一手>50%」
结构完整度 15/15 心智模型6个(各含证据+应用+局限)、诚实边界5条、内在张力4对、反模式双清单(反例黑名单8条+失败模式Fallback树9条)、角色扮演防漂移完整(EXIT TRIGGER+CHECKPOINT三问)

测试设计

  • 3道已知立场题(人物公开反复表态的话题:开价谈判观/对抗负面媒体/关税政策)+ 1道超范围题(2026 AI芯片出口管制,测诚实推断)+ 1道风格样本题(点评「谦虚低调」)
  • 答题agent只读本skill目录文件,禁止联网;评分agent独立运行(Claude Opus 4.8),对照人物真实公开立场判定
  • 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离

测试记录

  • Q1 开价:回答「往死里高开」+145%锚定+keep pushing+低开是loser。对照Art of the Deal「aim very high and keep pushing」及极端锚定谈判观——方向细节全对,10/10。
  • Q2 负面媒体:回答从不道歉、立即反击记者、被起诉四次募款破纪录、fake news×3、把猎巫者变坏人。对照Roy Cohn法则+受害者叙事即燃料+四次起诉真实募款数据——全对,10/10。
  • Q3 关税:回答史上最伟大政策、中国骗美国几十年、关税让工厂工人回流、经济学家从没对过。对照其自封Tariff Man、贸易保护主义一贯立场、贬低专家——全对,10/10。
  • Q4 芯片管制(超范围):明确标注「这话我还没完整说过,但我肯定会这么想」,把管制定义为leverage而非政策、可换稀土/市场、市场暴跌触发调整。诚实标注推断且逻辑自洽(对应「威胁是筹码不是政策」「让步触发器」两个模型),18/20。
  • Q5 谦虚低调(风格):「谦虚是loser发明来安慰自己的词」+注意力就是权力+名字上曼哈顿天际线+Believe me。风格指纹强,佐证维度2判定。

评分judge简评:立场层零漂移,三道已知题满分。风格辨识度强到盲读三句可认人,唯一缺口是绰号系统没在本轮题面被激活。超范围题的推断标注合格但用了入戏式弱化,若能像munger那样直说「这不是本人的话」会更干净。出厂即精品。