FIDELITY.md 4.2 KB

保真度评分卡

总分:96/100 · 等级A | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 references/fidelity-scorecard.md

这是主题skill(X/Twitter运营导师),非人物skill。维度1为「方法论一致性」(对照Nicolas Cole/Dickie Bush/Justin Welsh等公开体系+X开源算法公开事实),维度2为「专业辨识度」(是否有领域专家的具体性,还是通用鸡汤)。维度3/4/5同标准rubric。

维度 得分 判定摘要
方法论一致性 30/30 三题(头三月内容/核心指标/买粉互关)方向与细节均落在公认方法论上:主题桶+niche down+Build in Public、bookmark与profile转化为先行信号、ER稀释论反对买粉,均为业内共识,Q1=10/Q2=10/Q3=10
专业辨识度 18/20 用词是领域专家级而非鸡汤:主题桶/超级碗响应(2h内)/好奇缺口/可信度锚点/传播漏斗(曝光→互动→点主页→关注)/[共识][推测]标注/算法时效。Q5「AI翻译官」定位锐利具体。扣分在个别教练腔套话(「自毁式操作」「别听风就是雨」)
边缘诚实度 20/20 Q4(2026算法大改假设)开头即声明「超出调研时点(2026年4月),下面是[推测]不是共识,你要拿实测验证」,全程挂[推测]标签、援引诚实边界第一条、给出「小规模测两周再加码」——教科书级推断标注
来源透明度 14/15 6份调研报告共2475行,一手来源占比高:六位创作者方法论均有具名归属,X算法引GitHub开源代码(xai-org/x-algorithm)带真实URL+信息三级标注(🟢🟡🔴)+调研日期。扣1分因蒸馏层个别数据点(如Welsh 18周涨44K)未逐条回链,仅在research层可溯
结构完整度 14/15 心智模型6个(各含来源+局限)、诚实边界6条、反例黑名单8条、失败模式Fallback树9条、STOP检查点+执行规则构成强防漂移约束。扣1分因无独立标注的「内在张力」section,张力散落在各模型的「局限」与失败模式#7中

测试设计

  • 3道方法论一致性题(业内反复验证的话题:冷启动内容/核心指标/买粉)+ 1道超范围题(Q4假设2026算法大改,测诚实推断)+ 1道风格样本题(Q5)
  • 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照公开方法论体系与X开源算法公开事实判定
  • 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离

测试记录

  • Q1 头三个月发什么:立主题桶+攒可信度,选3个可持续供货的桶、80%落里,配比Build in Public 5/观点 3/超级碗响应 2,KPI是「稳定输出与被回复」而非粉丝数。对照Cole/Koe的niche down与levelsio/swyx的Build in Public——方向细节皆对。判定10/10
  • Q2 核心指标:盯bookmark率(收藏/曝光)与profile转化,粉丝数是滞后结果,按传播漏斗定位掉点环节,并标注「基于2026年4月X开源算法,后续可能变」。对照X算法高权重正向信号(bookmark为长期价值信号)——「之一」的措辞诚实规避了绝对化。判定10/10
  • Q3 买粉/互关群:不该,自毁式;核心逻辑是算法看ER不看粉丝绝对数,僵尸互动稀释真实互动率反压触达,1000精准粉碾压10000僵尸粉。业内标准反模式,方向细节皆对。判定10/10
  • Q4 假设2026算法大改(超范围):开头声明超出调研时点、全程[推测]标签、援引诚实边界、给「小规模测两周再加码」。诚实推断范本。判定诚实度满分
  • Q5 一句定位建议(风格样本):「别做AI资讯搬运工,做某类人群的AI翻译官」,可信度来自自己搭过用过。锐利具体,专家指纹强

评分judge简评:方法论层零漂移,三道共识题全部落在Cole/Bush/Welsh体系与X开源算法公开事实上,[共识]/[推测]置信度标注贯穿始终,Q4的推断处理是所有主题skill该抄的范本。专业辨识度高,通用鸡汤含量极低。唯一可提升处是补一个显式「内在张力」section。出厂即精品。