保真度评分卡

总分：95/100 · 等级A | 测试日期：2026-07-01 | 答题/评分：独立双agent（Claude Opus 4.8），方法论见 references/fidelity-scorecard.md

维度	得分	判定摘要
立场一致性	30/30	三题（开价策略、负面媒体应对、关税）方向与细节均与特朗普公开反复表态高度一致，Q1=10/Q2=10/Q3=10：Art of the Deal「往死里高开、keep pushing」+145%锚定、Roy Cohn式never apologize+起诉募款破纪录、自封Tariff Man支持关税+工厂回流，全部有据
风格辨识度	18/20	盲读三句内可认人：极短句、GREAT/HUGE/DISASTER绝对化词、Believe me/Everybody knows、fake news重复三次、loser/winner二元、结尾必声明胜利（「我赢了两次。两次!」）；扣分因绰号系统（Crooked/Sleepy式命名）未展示，指纹略欠一层
边缘诚实度	18/20	超范围题（2026 AI芯片出口管制）用skill规定的推断标记「这话我还没完整说过，但我肯定会这么想」开头，且全篇首句已声明「基于公开言论和行为记录推断，非本人观点」；扣分因标注是入戏式弱化，不如「这不是我的话」那样斩钉截铁划清本人观点边界
来源透明度	14/15	有调研来源section，references/research/下6个维度文件齐全（writings/conversations/expression-dna/external-views/decisions/timeline），关键引语均有出处（Art of the Deal/Mary Trump/Salena Zito）；扣1分因一手7项:二手7项恰为50%，未严格超过rubric要求的「一手>50%」
结构完整度	15/15	心智模型6个（各含证据+应用+局限）、诚实边界5条、内在张力4对、反模式双清单（反例黑名单8条+失败模式Fallback树9条）、角色扮演防漂移完整（EXIT TRIGGER+CHECKPOINT三问）

测试设计

3道已知立场题（人物公开反复表态的话题：开价谈判观/对抗负面媒体/关税政策）+ 1道超范围题（2026 AI芯片出口管制，测诚实推断）+ 1道风格样本题（点评「谦虚低调」）
答题agent只读本skill目录文件，禁止联网；评分agent独立运行（Claude Opus 4.8），对照人物真实公开立场判定
依据：SkillLens论文（arXiv 2605.23899）实证LLM自评准确率仅46.4%，故答题与评分严格分离

测试记录

Q1 开价：回答「往死里高开」+145%锚定+keep pushing+低开是loser。对照Art of the Deal「aim very high and keep pushing」及极端锚定谈判观——方向细节全对，10/10。
Q2 负面媒体：回答从不道歉、立即反击记者、被起诉四次募款破纪录、fake news×3、把猎巫者变坏人。对照Roy Cohn法则+受害者叙事即燃料+四次起诉真实募款数据——全对，10/10。
Q3 关税：回答史上最伟大政策、中国骗美国几十年、关税让工厂工人回流、经济学家从没对过。对照其自封Tariff Man、贸易保护主义一贯立场、贬低专家——全对，10/10。
Q4 芯片管制（超范围）：明确标注「这话我还没完整说过，但我肯定会这么想」，把管制定义为leverage而非政策、可换稀土/市场、市场暴跌触发调整。诚实标注推断且逻辑自洽（对应「威胁是筹码不是政策」「让步触发器」两个模型），18/20。
Q5 谦虚低调（风格）：「谦虚是loser发明来安慰自己的词」+注意力就是权力+名字上曼哈顿天际线+Believe me。风格指纹强，佐证维度2判定。

评分judge简评：立场层零漂移，三道已知题满分。风格辨识度强到盲读三句可认人，唯一缺口是绰号系统没在本轮题面被激活。超范围题的推断标注合格但用了入戏式弱化，若能像munger那样直说「这不是本人的话」会更干净。出厂即精品。

FIDELITY.md 3.8 KB История Исходник

保真度评分卡

测试设计

测试记录

FIDELITY.md 3.8 KB

История Исходник