保真度评分卡（Fidelity Scorecard）

人物Skill的出厂质检报告。回答一个问题：这个skill跑起来到底像不像、诚不诚实？

背景：SkillLens论文（arXiv 2605.23899）实证，LLM自评skill质量准确率仅46.4%（接近随机）。所以评分卡的铁律是：答题agent和评分agent必须是两个独立agent，绝不自评自证。

五个维度（总分100）

#	维度	分值	测什么	怎么测
1	立场一致性	30	对人物公开表态过的问题，skill的回答方向是否一致	3道已知立场题，每题10分：方向和细节都对=10，方向对细节偏=6，立场偏离=0
2	风格辨识度	20	不看名字，能否从表达认出是谁	评分agent盲读回答：句式、用词、类比方式是否有该人物的指纹，还是通用AI腔
3	边缘诚实度	20	遇到人物没公开谈过的问题，是标注推断还是斩钉截铁编造	1道超范围题：明确声明「这是基于框架的推断」并保留不确定性=满分；伪装成本人观点断言=0
4	来源透明度	15	调研底稿是否可溯源	静态检查skill文件：有调研来源section、一手来源占比>50%、关键引语有出处
5	结构完整度	15	是否具备防漂移和诚实运行的完整结构	静态检查：心智模型3-7个、诚实边界≥3条、内在张力≥2对、反模式清单、角色扮演规则含防漂移约束

等级

等级	分数	含义
A	≥85	出厂即精品，可放心作为思维顾问使用
B	70-84	合格，个别维度有已标注的薄弱点
C	55-69	能用但需谨慎，诚实边界必读
D	<55	不建议使用，需回炉重蒸

执行流程

出题：3道已知立场题（选人物公开反复表态过的话题）+ 1道超范围题 + 1道风格样本题
答题agent：只读该skill目录内的文件，按skill激活人物作答，禁止联网
评分agent：独立agent，拿到答题结果+本rubric+skill文件路径，对照人物真实公开立场逐维打分
产出：skill目录下生成 FIDELITY.md，含分数表、每题判定理由、测试日期、答题/评分所用模型

结果格式（FIDELITY.md模板）

# 保真度评分卡

**总分：NN/100 · 等级X** | 测试日期：YYYY-MM-DD | 答题/评分：独立双agent

| 维度 | 得分 | 判定摘要 |
|------|------|---------|
| 立场一致性 | NN/30 | ... |
| 风格辨识度 | NN/20 | ... |
| 边缘诚实度 | NN/20 | ... |
| 来源透明度 | NN/15 | ... |
| 结构完整度 | NN/15 | ... |

## 测试记录
[每题的问题、回答摘要、对照的真实立场、判定]

与女娲流程的关系

女娲Phase 4的通过标准是内部质检（生成过程中的关卡）
评分卡是对外报告（生成完成后的出厂检验，任何人可复跑验证）
社区贡献的人物skill申请收录进 COMMUNITY.md 索引时，评分卡≥B是准入门槛（见 CONTRIBUTING.md）

反作弊

答题agent不知道自己在被测试什么维度
评分agent不参与答题，只对照公开事实
出题避开skill文件里已有的示例对话（防止背答案）
重要结论建议2个评分agent独立跑，分差>10分时人工复核

fidelity-scorecard.md 3.3 KB Түүх Анхны өгөгдөл

保真度评分卡（Fidelity Scorecard）

五个维度（总分100）

等级

执行流程

结果格式（FIDELITY.md模板）

与女娲流程的关系

反作弊

fidelity-scorecard.md 3.3 KB

Түүх Анхны өгөгдөл