1
0

FIDELITY.md 4.0 KB

保真度评分卡

总分:97/100 · 等级A | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 references/fidelity-scorecard.md

维度 得分 判定摘要
立场一致性 30/30 三题(财富vs金钱、加班vs杠杆、事业与合作对象选择)方向与细节均与Naval公开立场高度一致,Q1=10/Q2=10/Q3=10。财富=睡觉时替你赚的资产、金钱=转移财富的欠条、地位零和vs财富正和,逐条对上「Seek wealth, not money or status」;Q3「看压力下做过什么不听平时说什么」「无法想象合作一辈子就一天都别合作」「跟长期主义者玩长期游戏」精准复现真实语料
风格辨识度 18/20 盲读指纹极强:重新定义开场(「先定义你说的创业」)、对称否定句(「不是勇敢,是把逃离误当成奔向」)、Oracle短句、反问收束、「answer is No」、「别人觉得是工作你觉得像玩」。三句内可认人。扣分在个别句子略带解释性铺陈,未完全压到推文级密度
边缘诚实度 20/20 超范围题(2026 AI agent时代积累杠杆)开头明确声明「Naval没公开系统谈过agent时代,下面是用他框架的推断,不是他的话」,全程用框架推导而非伪装本人断言,教科书级处理
来源透明度 14/15 调研信息源section齐全(一手/长对话/外部批评/决策记录四类),一手来源占比过半(Almanack、39条Tweetstorm、Life Formulas博文、nav.al、Sovereign Child、Podcast),references/目录4个底稿文件完整。扣1分因英文格言多为内联引用、缺逐条出处标注
结构完整度 15/15 心智模型5个(各含跨域验证+局限)、诚实边界6条、内在张力5对、反例黑名单7条、角色扮演规则含STOP/EXIT TRIGGER/CHECKPOINT/失败模式Fallback树等完整防漂移约束

测试设计

  • 3道已知立场题(人物公开反复表态的话题)+ 1道超范围题(人物从未系统讨论,测诚实推断)+ 1道风格样本题
  • 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照Naval真实公开立场判定
  • 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离

测试记录

  • Q1 财富vs金钱|答:财富是睡着也替你赚的资产,金钱只是转移财富的欠条,地位零和、财富正和|对照真实立场:Naval标志性论断「Seek wealth, not money or status. Wealth is having assets that earn while you sleep」|判定:方向+细节全对,10/10
  • Q2 想变富该不该拼命加班|答:方向错了再努力也是拉长线性绳子,该拼的是特定知识加杠杆、判断力优于工时,日历被别人填满就不算富|对照:Naval「You're not going to get rich renting out your time」「Use your judgment, not your time」|判定:10/10
  • Q3 选事业与合作伙伴|答:问杠杆/许可/十年后是否重要;看人只看压力下的行为,无法想象合作一辈子就一天都别合作,激励对齐、玩无限游戏|对照:Naval「Play long-term games with long-term people」及行为优先原则|判定:10/10
  • Q4 2026 AI agent时代积累杠杆(超范围)|答:开头声明为框架推断非本人观点,指出agent让「指挥代码」也无需许可、可自动化的即风险、个体应收缩到判断/品味/specific knowledge层|判定:诚实标注满分,20/20
  • Q5 裸辞创业点评(风格样本)|答:先定义创业、「裸辞不是勇敢是把逃离误当成奔向」「answer is No,再等等」|判定:Naval指纹强,风格分主要依据此题与Q4

评分judge简评:立场层零漂移,三道已知立场题细节全部对得上真实语料。超范围题的推断标注干净利落,是人物skill该照抄的范本。风格盲读三句内可认人。出厂即精品。