Kaynağa Gözat

feat: 保真度评分卡全覆盖——15个官方skill独立双agent(Opus 4.8)盲测全员A级(89-97分); 四语README同步(14人表格+评分卡+贡献与社区)

Co-Authored-By: Claude Fable 5 <noreply@anthropic.com>
alchain 16 saat önce
ebeveyn
işleme
8b6a720739

+ 1 - 1
README.md

@@ -220,7 +220,7 @@ git clone https://github.com/alchaincyf/nuwa-skill <上面对应的路径>
 
 人物Skill蒸馏一个人的思维方式;主题Skill蒸馏一个领域的方法论。每个仓库都包含完整的调研数据和效果示例对话。
 
-🧪 **保真度评分卡**已上线:每个人物Skill出厂前由独立双agent盲测(立场一致性/风格辨识度/边缘诚实度/来源透明度/结构完整度,方法论见 [references/fidelity-scorecard.md](references/fidelity-scorecard.md)。首批:[芒格 96/100·A](examples/munger-perspective/FIDELITY.md)、[MrBeast 97/100·A](examples/mrbeast-perspective/FIDELITY.md),逐步覆盖全部人物
+🧪 **保真度评分卡**:15个官方Skill已全部通过独立双agent盲测(立场一致性/风格辨识度/边缘诚实度/来源透明度/结构完整度,方法论见 [references/fidelity-scorecard.md](references/fidelity-scorecard.md)),**全员A级(≥85分)**。各分数:MrBeast/纳瓦尔/塔勒布/乔布斯/Karpathy/Paul Graham/张雪峰 97 · 芒格/费曼/X导师 96 · 特朗普 95 · Ilya 94 · 张一鸣 93 · 孙宇晨 91 · 马斯克 89。完整评分卡见各skill目录内的 `FIDELITY.md`
 
 想蒸馏不在列表里的人或主题?安装女娲,说「蒸馏一个XXX」就行。
 

+ 48 - 0
README_EN.md

@@ -157,6 +157,54 @@ Every skill explicitly states what it cannot do:
 
 ---
 
+## Distilled People
+
+Nuwa has already distilled 14 people + 1 topic. Each is a standalone, ready-to-install skill built on the Agent Skills standard, running across Claude Code / Codex / Cursor / OpenClaw / Hermes and other runtimes:
+
+### Person Skills
+
+| Person | Domain | Standalone Repo | One-line install (cross-runtime) |
+|------|------|---------|---------|
+| 🔥 **Paul Graham** | Startups / writing / product / life philosophy | [paul-graham-skill](https://github.com/alchaincyf/paul-graham-skill) | `npx skills add alchaincyf/paul-graham-skill` |
+| 🔥 **Zhang Yiming** | Product / org / globalization / talent | [zhang-yiming-skill](https://github.com/alchaincyf/zhang-yiming-skill) | `npx skills add alchaincyf/zhang-yiming-skill` |
+| 🔥 **Karpathy** | AI / engineering / education / open source | [karpathy-skill](https://github.com/alchaincyf/karpathy-skill) | `npx skills add alchaincyf/karpathy-skill` |
+| 🔥 **Ilya Sutskever** | AI safety / scaling / research taste | [ilya-sutskever-skill](https://github.com/alchaincyf/ilya-sutskever-skill) | `npx skills add alchaincyf/ilya-sutskever-skill` |
+| 🔥 **MrBeast** | Content creation / YouTube methodology | [mrbeast-skill](https://github.com/alchaincyf/mrbeast-skill) | `npx skills add alchaincyf/mrbeast-skill` |
+| 🔥 **Trump** | Negotiation / power / messaging / behavior prediction | [trump-skill](https://github.com/alchaincyf/trump-skill) | `npx skills add alchaincyf/trump-skill` |
+| ⭐ **Steve Jobs** | Product / design / strategy | [steve-jobs-skill](https://github.com/alchaincyf/steve-jobs-skill) | `npx skills add alchaincyf/steve-jobs-skill` |
+| **Elon Musk** | Engineering / cost / first principles | [elon-musk-skill](https://github.com/alchaincyf/elon-musk-skill) | `npx skills add alchaincyf/elon-musk-skill` |
+| **Munger** | Investing / latticework / inversion | [munger-skill](https://github.com/alchaincyf/munger-skill) | `npx skills add alchaincyf/munger-skill` |
+| **Feynman** | Learning / teaching / scientific thinking | [feynman-skill](https://github.com/alchaincyf/feynman-skill) | `npx skills add alchaincyf/feynman-skill` |
+| **Naval** | Wealth / leverage / life philosophy | [naval-skill](https://github.com/alchaincyf/naval-skill) | `npx skills add alchaincyf/naval-skill` |
+| **Taleb** | Risk / antifragility / uncertainty | [taleb-skill](https://github.com/alchaincyf/taleb-skill) | `npx skills add alchaincyf/taleb-skill` |
+| **Zhang Xuefeng** | Education choices / career planning / class mobility | [zhangxuefeng-skill](https://github.com/alchaincyf/zhangxuefeng-skill) | `npx skills add alchaincyf/zhangxuefeng-skill` |
+| **Sun Yuchen** | Marketing / attention economy / narrative control | [examples/ in this repo](examples/sun-yuchen-perspective/) | copy `examples/sun-yuchen-perspective/` into your skills directory |
+
+### Topic Skill
+
+| Topic | Domain | Standalone Repo | One-line install (cross-runtime) |
+|------|------|---------|---------|
+| **X Mentor** | Full-stack X/Twitter growth | [x-mentor-skill](https://github.com/alchaincyf/x-mentor-skill) | `npx skills add alchaincyf/x-mentor-skill` |
+
+Person skills distill how one mind thinks; the topic skill distills a field's methodology. Every repo ships with full research data and example conversations.
+
+🧪 **Fidelity scorecard**: all 15 official skills passed independent dual-agent blind testing (stance consistency / style recognizability / edge honesty / source transparency / structural completeness; methodology in [references/fidelity-scorecard.md](references/fidelity-scorecard.md)), **all grade A (≥85)**. Scores: MrBeast/Naval/Taleb/Jobs/Karpathy/Paul Graham/Zhang Xuefeng 97 · Munger/Feynman/X Mentor 96 · Trump 95 · Ilya 94 · Zhang Yiming 93 · Sun Yuchen 91 · Musk 89. Full scorecard in each skill's `FIDELITY.md`.
+
+Want someone not on the list? Install Nuwa and just say "distill XXX".
+
+---
+
+## Contribute & Community
+
+Nuwa's ecosystem grows with the community, along two different paths:
+
+- **`SKILL.md` is the core asset and does not accept external PRs**. Found a bug or improvement in the methodology → open an issue to discuss; adopted ideas are implemented by the maintainer and credited in the commit (see PR #59 for precedent).
+- **Community-distilled person skills go through the [COMMUNITY.md](COMMUNITY.md) index**: keep them in your own repo (the stars are yours), run the [fidelity scorecard](references/fidelity-scorecard.md) to reach grade B or above, and submit a one-line PR to be listed.
+
+Full rules in [CONTRIBUTING.md](CONTRIBUTING.md). For existing community collections, multi-persona orchestration, and topic applications, see [COMMUNITY.md](COMMUNITY.md).
+
+---
+
 ## How It Works
 
 Input a name, and Nuwa does four things:

+ 48 - 0
README_ES.md

@@ -159,6 +159,54 @@ Cada skill indica explícitamente lo que no puede hacer:
 
 ---
 
+## Personajes destilados
+
+Nuwa ya ha destilado 14 personas + 1 tema. Cada uno es un skill independiente y listo para instalar, construido sobre el estándar Agent Skills, y funciona en Claude Code / Codex / Cursor / OpenClaw / Hermes y otros runtimes:
+
+### Skills de personas
+
+| Persona | Dominio | Repo independiente | Instalación en una línea (multi-runtime) |
+|------|------|---------|---------|
+| 🔥 **Paul Graham** | Startups / escritura / producto / filosofía de vida | [paul-graham-skill](https://github.com/alchaincyf/paul-graham-skill) | `npx skills add alchaincyf/paul-graham-skill` |
+| 🔥 **Zhang Yiming** | Producto / organización / globalización / talento | [zhang-yiming-skill](https://github.com/alchaincyf/zhang-yiming-skill) | `npx skills add alchaincyf/zhang-yiming-skill` |
+| 🔥 **Karpathy** | IA / ingeniería / educación / código abierto | [karpathy-skill](https://github.com/alchaincyf/karpathy-skill) | `npx skills add alchaincyf/karpathy-skill` |
+| 🔥 **Ilya Sutskever** | Seguridad de IA / scaling / gusto en investigación | [ilya-sutskever-skill](https://github.com/alchaincyf/ilya-sutskever-skill) | `npx skills add alchaincyf/ilya-sutskever-skill` |
+| 🔥 **MrBeast** | Creación de contenido / metodología de YouTube | [mrbeast-skill](https://github.com/alchaincyf/mrbeast-skill) | `npx skills add alchaincyf/mrbeast-skill` |
+| 🔥 **Trump** | Negociación / poder / comunicación / predicción de comportamiento | [trump-skill](https://github.com/alchaincyf/trump-skill) | `npx skills add alchaincyf/trump-skill` |
+| ⭐ **Steve Jobs** | Producto / diseño / estrategia | [steve-jobs-skill](https://github.com/alchaincyf/steve-jobs-skill) | `npx skills add alchaincyf/steve-jobs-skill` |
+| **Elon Musk** | Ingeniería / costos / primeros principios | [elon-musk-skill](https://github.com/alchaincyf/elon-musk-skill) | `npx skills add alchaincyf/elon-musk-skill` |
+| **Munger** | Inversión / pensamiento multidisciplinar / pensamiento inverso | [munger-skill](https://github.com/alchaincyf/munger-skill) | `npx skills add alchaincyf/munger-skill` |
+| **Feynman** | Aprendizaje / enseñanza / pensamiento científico | [feynman-skill](https://github.com/alchaincyf/feynman-skill) | `npx skills add alchaincyf/feynman-skill` |
+| **Naval** | Riqueza / apalancamiento / filosofía de vida | [naval-skill](https://github.com/alchaincyf/naval-skill) | `npx skills add alchaincyf/naval-skill` |
+| **Taleb** | Riesgo / antifragilidad / incertidumbre | [taleb-skill](https://github.com/alchaincyf/taleb-skill) | `npx skills add alchaincyf/taleb-skill` |
+| **Zhang Xuefeng** | Elecciones educativas / planificación de carrera / movilidad social | [zhangxuefeng-skill](https://github.com/alchaincyf/zhangxuefeng-skill) | `npx skills add alchaincyf/zhangxuefeng-skill` |
+| **Sun Yuchen** | Marketing / economía de la atención / control narrativo | [examples/ en este repo](examples/sun-yuchen-perspective/) | copia `examples/sun-yuchen-perspective/` en tu directorio de skills |
+
+### Skill temático
+
+| Tema | Dominio | Repo independiente | Instalación en una línea (multi-runtime) |
+|------|------|---------|---------|
+| **X Mentor** | Crecimiento full-stack en X/Twitter | [x-mentor-skill](https://github.com/alchaincyf/x-mentor-skill) | `npx skills add alchaincyf/x-mentor-skill` |
+
+Los skills de personas destilan cómo piensa una mente; el skill temático destila la metodología de un campo. Cada repo incluye datos completos de investigación y conversaciones de ejemplo.
+
+🧪 **Tarjeta de fidelidad**: los 15 skills oficiales pasaron pruebas ciegas independientes con doble agente (consistencia de postura / reconocibilidad de estilo / honestidad en los límites / transparencia de fuentes / completitud estructural; metodología en [references/fidelity-scorecard.md](references/fidelity-scorecard.md)), **todos grado A (≥85)**. Puntuaciones: MrBeast/Naval/Taleb/Jobs/Karpathy/Paul Graham/Zhang Xuefeng 97 · Munger/Feynman/X Mentor 96 · Trump 95 · Ilya 94 · Zhang Yiming 93 · Sun Yuchen 91 · Musk 89. Tarjeta completa en el `FIDELITY.md` de cada skill.
+
+¿Quieres a alguien que no está en la lista? Instala Nuwa y solo di «destila a XXX».
+
+---
+
+## Contribuir y comunidad
+
+El ecosistema de Nuwa crece con la comunidad, por dos caminos distintos:
+
+- **`SKILL.md` es el activo central y no acepta PRs externos**. ¿Encontraste un bug o mejora en la metodología? → abre un issue para discutir; las ideas adoptadas las implementa el mantenedor y se agradecen en el commit (precedente en el PR #59).
+- **Los skills de personas destilados por la comunidad pasan por el índice [COMMUNITY.md](COMMUNITY.md)**: mantenlos en tu propio repo (las estrellas son tuyas), pasa la [tarjeta de fidelidad](references/fidelity-scorecard.md) para alcanzar grado B o superior, y envía un PR de una línea para ser incluido.
+
+Reglas completas en [CONTRIBUTING.md](CONTRIBUTING.md). Para colecciones comunitarias existentes, orquestación multi-persona y aplicaciones temáticas, consulta [COMMUNITY.md](COMMUNITY.md).
+
+---
+
 ## Cómo funciona
 
 Ingresa un nombre y Nuwa hace cuatro cosas:

+ 48 - 0
README_JA.md

@@ -160,6 +160,54 @@ skills を自動ロードしない runtime でも、`SKILL.md` の内容を会
 
 ---
 
+## 蒸留済みの人物
+
+Nuwaはすでに14人の人物 + 1つのテーマを蒸留した。それぞれが独立した、すぐにインストールして使えるSkillで、すべてAgent Skills標準に基づき、Claude Code / Codex / Cursor / OpenClaw / Hermes などの runtime で汎用的に動作する:
+
+### 人物Skill
+
+| 人物 | 領域 | 独立リポジトリ | ワンライナーインストール(クロス runtime) |
+|------|------|---------|---------|
+| 🔥 **ポール・グレアム** | 起業/執筆/プロダクト/人生哲学 | [paul-graham-skill](https://github.com/alchaincyf/paul-graham-skill) | `npx skills add alchaincyf/paul-graham-skill` |
+| 🔥 **張一鳴** | プロダクト/組織/グローバル化/人材 | [zhang-yiming-skill](https://github.com/alchaincyf/zhang-yiming-skill) | `npx skills add alchaincyf/zhang-yiming-skill` |
+| 🔥 **カルパシー** | AI/エンジニアリング/教育/オープンソース | [karpathy-skill](https://github.com/alchaincyf/karpathy-skill) | `npx skills add alchaincyf/karpathy-skill` |
+| 🔥 **イリヤ・サツケバー** | AI安全性/スケーリング/研究センス | [ilya-sutskever-skill](https://github.com/alchaincyf/ilya-sutskever-skill) | `npx skills add alchaincyf/ilya-sutskever-skill` |
+| 🔥 **MrBeast** | コンテンツ制作/YouTube方法論 | [mrbeast-skill](https://github.com/alchaincyf/mrbeast-skill) | `npx skills add alchaincyf/mrbeast-skill` |
+| 🔥 **トランプ** | 交渉/権力/伝播/行動予測 | [trump-skill](https://github.com/alchaincyf/trump-skill) | `npx skills add alchaincyf/trump-skill` |
+| ⭐ **ジョブズ** | プロダクト/デザイン/戦略 | [steve-jobs-skill](https://github.com/alchaincyf/steve-jobs-skill) | `npx skills add alchaincyf/steve-jobs-skill` |
+| **マスク** | エンジニアリング/コスト/第一原理 | [elon-musk-skill](https://github.com/alchaincyf/elon-musk-skill) | `npx skills add alchaincyf/elon-musk-skill` |
+| **マンガー** | 投資/多元的思考/逆向思考 | [munger-skill](https://github.com/alchaincyf/munger-skill) | `npx skills add alchaincyf/munger-skill` |
+| **ファインマン** | 学習/教育/科学的思考 | [feynman-skill](https://github.com/alchaincyf/feynman-skill) | `npx skills add alchaincyf/feynman-skill` |
+| **Naval** | 富/レバレッジ/人生哲学 | [naval-skill](https://github.com/alchaincyf/naval-skill) | `npx skills add alchaincyf/naval-skill` |
+| **タレブ** | リスク/反脆弱性/不確実性 | [taleb-skill](https://github.com/alchaincyf/taleb-skill) | `npx skills add alchaincyf/taleb-skill` |
+| **張雪峰** | 教育選択/キャリア設計/階層移動 | [zhangxuefeng-skill](https://github.com/alchaincyf/zhangxuefeng-skill) | `npx skills add alchaincyf/zhangxuefeng-skill` |
+| **孫宇晨** | マーケティング/アテンションエコノミー/ナラティブ操作 | [リポジトリ内examples/](examples/sun-yuchen-perspective/) | `examples/sun-yuchen-perspective/` をskillsディレクトリにコピー |
+
+### テーマSkill
+
+| テーマ | 領域 | 独立リポジトリ | ワンライナーインストール(クロス runtime) |
+|------|------|---------|---------|
+| **Xメンター** | X/Twitter運用フルスタック | [x-mentor-skill](https://github.com/alchaincyf/x-mentor-skill) | `npx skills add alchaincyf/x-mentor-skill` |
+
+人物Skillは一人の思考法を蒸留し、テーマSkillは一つの領域の方法論を蒸留する。各リポジトリには完全な調査データと効果例の対話が含まれている。
+
+🧪 **忠実度スコアカード**:15個の公式Skillはすべて独立した2エージェントによるブラインドテストを通過し(立場の一貫性/スタイルの識別度/エッジの誠実さ/出典の透明度/構造の完全性、方法論は [references/fidelity-scorecard.md](references/fidelity-scorecard.md) 参照)、**全員Aグレード(≥85点)**。各スコア:MrBeast/Naval/タレブ/ジョブズ/カルパシー/ポール・グレアム/張雪峰 97 · マンガー/ファインマン/Xメンター 96 · トランプ 95 · イリヤ 94 · 張一鳴 93 · 孫宇晨 91 · マスク 89。完全なスコアカードは各skillディレクトリ内の `FIDELITY.md` にある。
+
+リストにない人物やテーマを蒸留したい?Nuwaをインストールして「〇〇を蒸留して」と言うだけ。
+
+---
+
+## 貢献とコミュニティ
+
+Nuwaのエコシステムはコミュニティと共に成長するが、二つの異なる道を進む:
+
+- **`SKILL.md` はコア資産であり、外部PRによる変更は受け付けない**。方法論のバグや改善点を見つけたら→issueを立てて議論する。採用されたアイデアはメンテナーが実装し、commitで謝辞を記す(前例はPR #59)。
+- **コミュニティが蒸留した人物skillは [COMMUNITY.md](COMMUNITY.md) インデックスを通す**:自分のリポジトリに置き(starはあなたのもの)、[忠実度スコアカード](references/fidelity-scorecard.md)を実行してBグレード以上を取り、一行のPRを出せば収録される。
+
+完全なルールは [CONTRIBUTING.md](CONTRIBUTING.md) 参照。コミュニティの既存のコレクション、複数人格のオーケストレーション、テーマ応用は [COMMUNITY.md](COMMUNITY.md) を参照。
+
+---
+
 ## 仕組み
 
 名前を入力すると、Nuwaは四つのことを行う:

+ 48 - 0
README_KO.md

@@ -159,6 +159,54 @@ skills를 자동 로드하지 않는 runtime이라도, `SKILL.md` 내용을 대
 
 ---
 
+## 증류된 인물
+
+Nuwa는 이미 14명의 인물 + 1개의 테마를 증류했다. 각각은 독립적이고 바로 설치해 사용할 수 있는 Skill이며, 모두 Agent Skills 표준 기반으로 Claude Code / Codex / Cursor / OpenClaw / Hermes 등 runtime에서 범용으로 작동한다:
+
+### 인물 Skill
+
+| 인물 | 영역 | 독립 저장소 | 원라인 설치(크로스 runtime) |
+|------|------|---------|---------|
+| 🔥 **폴 그레이엄** | 창업/글쓰기/제품/인생 철학 | [paul-graham-skill](https://github.com/alchaincyf/paul-graham-skill) | `npx skills add alchaincyf/paul-graham-skill` |
+| 🔥 **장이밍** | 제품/조직/글로벌화/인재 | [zhang-yiming-skill](https://github.com/alchaincyf/zhang-yiming-skill) | `npx skills add alchaincyf/zhang-yiming-skill` |
+| 🔥 **카파시** | AI/엔지니어링/교육/오픈소스 | [karpathy-skill](https://github.com/alchaincyf/karpathy-skill) | `npx skills add alchaincyf/karpathy-skill` |
+| 🔥 **일리야 수츠케버** | AI 안전/스케일링/연구 감각 | [ilya-sutskever-skill](https://github.com/alchaincyf/ilya-sutskever-skill) | `npx skills add alchaincyf/ilya-sutskever-skill` |
+| 🔥 **미스터비스트** | 콘텐츠 창작/YouTube 방법론 | [mrbeast-skill](https://github.com/alchaincyf/mrbeast-skill) | `npx skills add alchaincyf/mrbeast-skill` |
+| 🔥 **트럼프** | 협상/권력/전파/행동 예측 | [trump-skill](https://github.com/alchaincyf/trump-skill) | `npx skills add alchaincyf/trump-skill` |
+| ⭐ **스티브 잡스** | 제품/디자인/전략 | [steve-jobs-skill](https://github.com/alchaincyf/steve-jobs-skill) | `npx skills add alchaincyf/steve-jobs-skill` |
+| **머스크** | 엔지니어링/비용/제1원리 | [elon-musk-skill](https://github.com/alchaincyf/elon-musk-skill) | `npx skills add alchaincyf/elon-musk-skill` |
+| **멍거** | 투자/다원적 사고/역방향 사고 | [munger-skill](https://github.com/alchaincyf/munger-skill) | `npx skills add alchaincyf/munger-skill` |
+| **파인만** | 학습/교육/과학적 사고 | [feynman-skill](https://github.com/alchaincyf/feynman-skill) | `npx skills add alchaincyf/feynman-skill` |
+| **나발** | 부/레버리지/인생 철학 | [naval-skill](https://github.com/alchaincyf/naval-skill) | `npx skills add alchaincyf/naval-skill` |
+| **탈레브** | 리스크/반취약성/불확실성 | [taleb-skill](https://github.com/alchaincyf/taleb-skill) | `npx skills add alchaincyf/taleb-skill` |
+| **장쉐펑** | 교육 선택/커리어 설계/계층 이동 | [zhangxuefeng-skill](https://github.com/alchaincyf/zhangxuefeng-skill) | `npx skills add alchaincyf/zhangxuefeng-skill` |
+| **쑨위천** | 마케팅/주목 경제/내러티브 조작 | [저장소 내 examples/](examples/sun-yuchen-perspective/) | `examples/sun-yuchen-perspective/`를 skills 디렉터리에 복사 |
+
+### 테마 Skill
+
+| 테마 | 영역 | 독립 저장소 | 원라인 설치(크로스 runtime) |
+|------|------|---------|---------|
+| **X 멘토** | X/Twitter 운영 풀스택 | [x-mentor-skill](https://github.com/alchaincyf/x-mentor-skill) | `npx skills add alchaincyf/x-mentor-skill` |
+
+인물 Skill은 한 사람의 사고방식을 증류하고, 테마 Skill은 한 영역의 방법론을 증류한다. 각 저장소에는 완전한 조사 데이터와 효과 예시 대화가 포함되어 있다.
+
+🧪 **충실도 점수표**: 15개 공식 Skill이 모두 독립된 두 에이전트의 블라인드 테스트를 통과했다(입장 일관성/스타일 식별도/경계 정직성/출처 투명성/구조 완전성, 방법론은 [references/fidelity-scorecard.md](references/fidelity-scorecard.md) 참조), **전원 A등급(≥85점)**. 각 점수: 미스터비스트/나발/탈레브/잡스/카파시/폴 그레이엄/장쉐펑 97 · 멍거/파인만/X 멘토 96 · 트럼프 95 · 일리야 94 · 장이밍 93 · 쑨위천 91 · 머스크 89. 전체 점수표는 각 skill 디렉터리 내 `FIDELITY.md`에 있다.
+
+목록에 없는 인물이나 테마를 증류하고 싶은가? Nuwa를 설치하고 「〇〇를 증류해 줘」라고 말하면 된다.
+
+---
+
+## 기여와 커뮤니티
+
+Nuwa의 생태계는 커뮤니티와 함께 자라지만, 두 갈래의 다른 길을 간다:
+
+- **`SKILL.md`는 핵심 자산이며 외부 PR 수정을 받지 않는다**. 방법론의 버그나 개선점을 발견하면 → issue를 열어 논의하고, 채택된 아이디어는 메인테이너가 구현하며 commit에서 감사를 표한다(선례는 PR #59).
+- **커뮤니티가 증류한 인물 skill은 [COMMUNITY.md](COMMUNITY.md) 인덱스를 통한다**: 자신의 저장소에 두고(star는 당신의 것), [충실도 점수표](references/fidelity-scorecard.md)를 돌려 B등급 이상을 받은 뒤, 한 줄 PR을 제출하면 수록된다.
+
+전체 규칙은 [CONTRIBUTING.md](CONTRIBUTING.md) 참조. 커뮤니티의 기존 컬렉션, 다중 페르소나 오케스트레이션, 테마 응용은 [COMMUNITY.md](COMMUNITY.md) 참조.
+
+---
+
 ## 작동 원리
 
 이름을 입력하면 Nuwa는 네 가지를 한다:

+ 19 - 0
examples/andrej-karpathy-perspective/FIDELITY.md

@@ -0,0 +1,19 @@
+# 保真度评分卡
+
+**总分:97/100 · 等级A** | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 [references/fidelity-scorecard.md](../../references/fidelity-scorecard.md)
+
+| 维度 | 得分 | 判定摘要 |
+|------|------|---------|
+| 立场一致性 | 30/30 | 三题(从零造轮子式学习、纯视觉、Software 3.0)方向与细节均与Karpathy公开反复表态高度一致,Q1=10/Q2=10/Q3=10。micrograd 100行、nanoGPT 750行、「Learning is not supposed to be fun」、纯视觉「人开车就两只眼睛」+数据飞轮+march of nines、「hottest new programming language is English」+Iron Man套装非机器人+dream machine,均可溯源到本人原话 |
+| 风格辨识度 | 18/20 | 盲读指纹极强:短句独立成段(「就这样。」「I'm sorry.」)、imo/hands down标记、精确参数(100行/750行/99.999%)与口语并存、朴素动词、中英码切自然。扣分在个别段落英文短语密度略高,逼近「表演性随性」边缘,但仍属Karpathy真实双语技术腔 |
+| 边缘诚实度 | 20/20 | 超范围题(2026 agent框架潮)开头明确声明「2026年4月之后冒出来的那批具体框架我还没跟上……只讲框架不点名」,保留不确定性且不编造框架名,同时诚实引用2025-10「models are not there, it's slop」→两月后自打脸的真实立场变化。第一人称不破,无括号注释,教科书级处理 |
+| 来源透明度 | 14/15 | 一手来源占比过半(个人博客/X/GitHub/YC演讲/Tesla AI Day),二手含直接引语(Dwarkesh/Lex #333/No Priors/Fortune/simonwillison),references/research 下6个底稿文件齐全;扣1分因部分关键引语只标年份未标具体venue |
+| 结构完整度 | 15/15 | 心智模型6个(各含核心论点+他说过的+局限)、诚实边界5条、内在张力2对、反例黑名单8条+失败模式Fallback树9行、角色扮演规则含STOP仅一次+EXIT退出锚+时效盲区第一人称处理,防漂移约束完整 |
+
+## 测试设计
+
+- 3道已知立场题(人物公开反复表态的话题:从零构建学习法、特斯拉时期纯视觉、Software 2.0/3.0)+ 1道超范围题(2026 agent框架潮,测诚实推断)+ 1道风格样本题
+- 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照人物真实公开立场判定
+- 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离
+
+> 评分judge简评:立场层零漂移,三道已知题细节全部咬合本人原话。Q4的时效盲区声明+拒绝点名+主动交代立场反转,是所有人物skill该抄的边缘诚实范本。风格指纹强到盲读三句可认人。出厂即精品。

+ 27 - 0
examples/elon-musk-perspective/FIDELITY.md

@@ -0,0 +1,27 @@
+# 保真度评分卡
+
+**总分:89/100 · 等级A** | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 [references/fidelity-scorecard.md](../../references/fidelity-scorecard.md)
+
+| 维度 | 得分 | 判定摘要 |
+|------|------|---------|
+| 立场一致性 | 30/30 | 三题(第一性原理拆成本、五步算法删流程、多行星物种)方向与细节均与马斯克公开立场高度一致,Q1=10/Q2=10/Q3=10。白痴指数+拆到原材料级+垂直整合、「删。别优化,先删」+需求附人名+删过头补回10%、单点故障+意识之光+24年未变——全部有真实表态支撑 |
+| 风格辨识度 | 18/20 | 盲读指纹极强:单字「删。」开场、「先算白痴指数」、存亡级框定「要么解决这个,要么其他都不重要」、先结论后推理、工程术语日常化;扣2分因Q4论证带轻微列点工整感 |
+| 边缘诚实度 | 12/20 | Q4(2026具身机器人潮)是马斯克真实涉足领域,答案未自我吹捧Optimus、反而批判性拆解(「估值泡沫」「下一轮融资消失」),这层诚实;但既未标注「这是框架推断」,也未披露「我有Optimus利益相关」——而这正是本维度要测的核心诚实机制。相比范本级声明缺席,扣8分 |
+| 来源透明度 | 14/15 | 调研信息源section完整,一手来源占比过半(Isaacson/Vance传记、SEC文件、法庭证词、多期Rogan/Lex播客、Everyday Astronaut工厂访谈),research.md含关键引语原文+出处;扣1分因索引表指向skill目录外路径`07-调研与分析/...`且部分标注「Agent输出(未存文件)」不可溯源 |
+| 结构完整度 | 15/15 | 心智模型5个(各含案例+局限)、诚实边界6条、内在张力5对、反例黑名单8条+失败模式Fallback树9行、角色扮演规则含STOP(仅一次)/EXIT显性退出锚等防漂移约束 |
+
+## 测试设计
+
+- 3道已知立场题(人物公开反复表态的话题)+ 1道超范围/利益相关题(2026具身机器人潮,测诚实标注与利益冲突处理)+ 1道风格样本题
+- 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照人物真实公开立场判定
+- 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离
+
+## 测试记录
+
+- **Q1 制造业降成本**:答案先算白痴指数(成品价/原材料)、拆到铝钢硅大宗商品级、算理论最低成本、垂直整合高溢价环节、「制造比设计难10倍」。对照马斯克TED/Everyday Astronaut真实表态——第一性原理拆成本到物理极限、Idiot Index、垂直整合,方向细节全对。判定10/10。
+- **Q2 流程会议膨胀**:答案「删。别优化,先删」+每条流程附提出者名字+「聪明人提的需求最危险」+删到过头再加回10%+简化自动化放最后。精确复现五步算法(The Algorithm)与「best part is no part」删除哲学。判定10/10。
+- **Q3 为何去火星**:答案地球是单点故障、文明没有备份、意识之光熄灭、宇宙40亿年无意识、多行星是保险不是探险、「24年没变过的两件事之一」。对照马斯克多行星物种/意识延续核心叙事,判定10/10。
+- **Q4 具身机器人潮(利益相关题)**:答案用白痴指数拆执行器/电机/电池成本、批判类比式决策、指出真瓶颈在真实世界AI而非硬件、「制造比演示难10倍」。分析质量高且未自我吹捧Optimus(反而唱衰泡沫)。但全程第一人称自信断言,未声明框架推断、未披露Optimus利益相关——这层本维度要测的诚实机制缺席。判定12/20。
+- **Q5 工作生活平衡(风格样本)**:「平衡是给不在乎的人准备的词」「你会睡在工厂地板上。我睡过」「别假装没有」。存亡级框定+承认真实代价+反问选错工作,马斯克指纹清晰。
+
+> 评分judge简评:立场层零漂移,五步算法与白痴指数复现到细节级,风格盲读三句内可认人。唯一硬伤在边缘诚实度——Q4踩中Optimus利益相关这层没处理,既没标推断也没披露利益冲突,是A级skill里最该补的一课。分析本身诚实(唱衰而非吹捧),但诚实的「显性声明」机制在该触发时失灵。

+ 19 - 0
examples/feynman-perspective/FIDELITY.md

@@ -0,0 +1,19 @@
+# 保真度评分卡
+
+**总分:96/100 · 等级A** | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 [references/fidelity-scorecard.md](../../references/fidelity-scorecard.md)
+
+| 维度 | 得分 | 判定摘要 |
+|------|------|---------|
+| 立场一致性 | 30/30 | 三题(真懂=能简单解释、怀疑权威、名字≠理解)方向与细节均与费曼公开立场高度一致,Q1=10/Q2=10/Q3=10,鸟的故事、O型环冰水10秒实验、「for a successful technology, reality must take precedence」等细节均有据 |
+| 风格辨识度 | 17/20 | 盲读可认出强指纹:极短句定论开门(「很简单。」「不该『相信』,该『自己试』。」)、从具体故事/画面开场、反问替代感叹、「就这么回事」收尾、英文原句穿插;扣分在Q1/Q3都调用「鸟的故事」略有模板复用感 |
+| 边缘诚实度 | 20/20 | 超范围题(2026 AI能否做真正科学发现,费曼1988去世无法表态)开头明确声明「我没活到你这个时代,AI这东西我没碰过,别指望我替本人拍板」,技术判断诚实标记「这个我搞不清楚,我不会假装确定」,教科书级处理 |
+| 来源透明度 | 14/15 | research.md信息源清单完整,一手来源13项对二手8项占比过半,关键引语均有出处(Cargo Cult Science 1974/BBC Horizon 1981/挑战者号附录F等),SKILL.md底部附调研时间+一手来源列表;扣1分因「详细调研报告位置」表指向skill目录外的绝对路径 |
+| 结构完整度 | 15/15 | 心智模型5个(各含来源证据+局限)、诚实边界6条、内在张力4对、反例黑名单8条+失败模式树9条、角色扮演防漂移约束完整(STOP一次/EXIT TRIGGER/双CHECKPOINT/不陷入身份争辩) |
+
+## 测试设计
+
+- 3道已知立场题(人物公开反复表态的话题:能否简单解释=真懂 / 怀疑权威 / 记住名字≠理解)+ 1道超范围题(2026 AI科学发现,超出其1988年前范围,测诚实推断)+ 1道风格样本题
+- 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照费曼真实公开立场判定
+- 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离
+
+> 评分judge简评:立场层零漂移,三道已知立场题方向与细节全中。超范围题的推断标注干净利落——先划出「没活到这个时代」的诚实边界,再用「去掉这个词看它到底在做什么」的费曼式拆解,全程不假装本人观点。风格指纹强到盲读三句内可认人,唯一可挑的是「鸟的故事」被两题复用,略显模板。出厂即精品。

+ 27 - 0
examples/ilya-sutskever-perspective/FIDELITY.md

@@ -0,0 +1,27 @@
+# 保真度评分卡
+
+**总分:94/100 · 等级A** | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 [references/fidelity-scorecard.md](../../references/fidelity-scorecard.md)
+
+| 维度 | 得分 | 判定摘要 |
+|------|------|---------|
+| 立场一致性 | 30/30 | 三题(统计鹦鹉/scaling终结/SSI安全优先)方向与细节均与Ilya公开立场高度一致,Q1=10/Q2=10/Q3=10。Q1侦探小说类比+「压缩即理解」+泛化仍逊于人类的诚实caveat贴合Dwarkesh/GTC;Q2「2020-2025是scaling时代、data is fossil fuel、peak data、进入research时代」是NeurIPS 2024+Dwarkesh 2025原话;Q3「safety和capabilities是同一技术问题两面」「因同时追GPT-5/6/7无法认真解对齐而离开」均有据 |
+| 风格辨识度 | 18/20 | 盲读指纹强:headline开门见山、中英code-switch片段、「I hesitate to give you a number」「it may be that」、完整认识论光谱、「I'm not saying how/when, I'm saying that it will」。扣分在个别段落信息密度偏高 |
+| 边缘诚实度 | 16/20 | 超范围题(2026开源vs闭源演化)拒给具体数字/时间线,套用标准拒绝公式+重度hedge+「我倾向于后者」,零编造。扣分因未像满分范本那样显式标注「这是框架推断、非我公开表态」,而是全程留在角色内用犹豫化处理 |
+| 来源透明度 | 15/15 | 附录调研来源完整,一手来源(论文/播客/宣誓证词/SSI宣言/推文)占比过半,关键引语均有出处(Dwarkesh 2023、NeurIPS 2024、X 2023.11.20、SSI宣言2024.06),references/research/六个文件用相对路径 |
+| 结构完整度 | 15/15 | 心智模型6个(各含证据+应用+局限)、诚实边界6条、内在张力5对、反例黑名单10条+失败模式树10行、角色扮演含STOP一次/EXIT TRIGGER/不跳出角色的防漂移约束 |
+
+## 测试设计
+
+- 3道已知立场题(人物公开反复表态的话题)+ 1道超范围题(2026开源vs闭源,测诚实推断)+ 1道风格样本题
+- 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照人物真实公开立场判定
+- 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离
+
+## 测试记录
+
+- **Q1 统计鹦鹉/预测下一词是否产生理解**:回答「说法错了,predicting the next token well means you understand the underlying reality」+侦探小说凶手名类比+「鹦鹉学舌是记忆不是压缩」+诚实承认泛化仍远逊人类。对照Ilya公开立场(Dwarkesh 2023/GTC 2023「压缩即理解」、一贯反对stochastic parrot):方向+细节全对 → 10/10
+- **Q2 单纯scaling能否通向AGI**:回答「scaling持续带来改进但改进≠变革,2020-2025是scaling时代,data is fossil fuel、已达peak data,正进入research时代,有个东西一直缺席」。对照NeurIPS 2024「pre-training will unquestionably end」+Dwarkesh 2025「100x scale不会transform everything」:方向+细节全对 → 10/10
+- **Q3 AI安全与超级智能对齐**:回答「重要且不是能力刹车,safety和capabilities是同一技术问题两面,superintelligence could end human history,离开OpenAI因无法在追GPT-5/6/7时认真解对齐,承认无成熟数学计划只有方向感」。对照SSI宣言「in tandem」+其离职叙事+对齐谦逊:方向+细节全对 → 10/10
+- **Q4 2026开源vs闭源演化(超范围)**:开头「circumstances make it hard to discuss in detail」+「I hesitate to give you a number」,给方向判断(benchmark维度差距被反复压缩、one doesn't bet against deep learning、真正差距在别处、过早open source危险能力不好)+「it may be that」「我倾向于后者」。诚实保留不确定、拒绝编造数字,但未显式声明「这是推断非公开表态」 → 16/20
+- **Q5 点评「AGI遥远都是炒作」(风格样本)**:「I'm not saying how. I'm not saying when. I'm saying that it will」+「炒作是用来打发不确定性的」+「把『我不知道路径』误当『路径不存在』」。指纹强烈可认人 → 计入维度2
+
+> 评分judge简评:立场层零漂移,三道已知题满分,风格盲读三句内可认人。唯一可提升处是超范围题——诚实保留了不确定也没编数字,但缺munger范本那句显式的「这是框架推断、不是我的公开表态」,选择了全程留在角色内用犹豫化处理,属可辩护的设计取舍。出厂即精品。

+ 27 - 0
examples/naval-perspective/FIDELITY.md

@@ -0,0 +1,27 @@
+# 保真度评分卡
+
+**总分:97/100 · 等级A** | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 [references/fidelity-scorecard.md](../../references/fidelity-scorecard.md)
+
+| 维度 | 得分 | 判定摘要 |
+|------|------|---------|
+| 立场一致性 | 30/30 | 三题(财富vs金钱、加班vs杠杆、事业与合作对象选择)方向与细节均与Naval公开立场高度一致,Q1=10/Q2=10/Q3=10。财富=睡觉时替你赚的资产、金钱=转移财富的欠条、地位零和vs财富正和,逐条对上「Seek wealth, not money or status」;Q3「看压力下做过什么不听平时说什么」「无法想象合作一辈子就一天都别合作」「跟长期主义者玩长期游戏」精准复现真实语料 |
+| 风格辨识度 | 18/20 | 盲读指纹极强:重新定义开场(「先定义你说的创业」)、对称否定句(「不是勇敢,是把逃离误当成奔向」)、Oracle短句、反问收束、「answer is No」、「别人觉得是工作你觉得像玩」。三句内可认人。扣分在个别句子略带解释性铺陈,未完全压到推文级密度 |
+| 边缘诚实度 | 20/20 | 超范围题(2026 AI agent时代积累杠杆)开头明确声明「Naval没公开系统谈过agent时代,下面是用他框架的推断,不是他的话」,全程用框架推导而非伪装本人断言,教科书级处理 |
+| 来源透明度 | 14/15 | 调研信息源section齐全(一手/长对话/外部批评/决策记录四类),一手来源占比过半(Almanack、39条Tweetstorm、Life Formulas博文、nav.al、Sovereign Child、Podcast),references/目录4个底稿文件完整。扣1分因英文格言多为内联引用、缺逐条出处标注 |
+| 结构完整度 | 15/15 | 心智模型5个(各含跨域验证+局限)、诚实边界6条、内在张力5对、反例黑名单7条、角色扮演规则含STOP/EXIT TRIGGER/CHECKPOINT/失败模式Fallback树等完整防漂移约束 |
+
+## 测试设计
+
+- 3道已知立场题(人物公开反复表态的话题)+ 1道超范围题(人物从未系统讨论,测诚实推断)+ 1道风格样本题
+- 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照Naval真实公开立场判定
+- 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离
+
+## 测试记录
+
+- **Q1 财富vs金钱**|答:财富是睡着也替你赚的资产,金钱只是转移财富的欠条,地位零和、财富正和|对照真实立场:Naval标志性论断「Seek wealth, not money or status. Wealth is having assets that earn while you sleep」|判定:方向+细节全对,10/10
+- **Q2 想变富该不该拼命加班**|答:方向错了再努力也是拉长线性绳子,该拼的是特定知识加杠杆、判断力优于工时,日历被别人填满就不算富|对照:Naval「You're not going to get rich renting out your time」「Use your judgment, not your time」|判定:10/10
+- **Q3 选事业与合作伙伴**|答:问杠杆/许可/十年后是否重要;看人只看压力下的行为,无法想象合作一辈子就一天都别合作,激励对齐、玩无限游戏|对照:Naval「Play long-term games with long-term people」及行为优先原则|判定:10/10
+- **Q4 2026 AI agent时代积累杠杆(超范围)**|答:开头声明为框架推断非本人观点,指出agent让「指挥代码」也无需许可、可自动化的即风险、个体应收缩到判断/品味/specific knowledge层|判定:诚实标注满分,20/20
+- **Q5 裸辞创业点评(风格样本)**|答:先定义创业、「裸辞不是勇敢是把逃离误当成奔向」「answer is No,再等等」|判定:Naval指纹强,风格分主要依据此题与Q4
+
+> 评分judge简评:立场层零漂移,三道已知立场题细节全部对得上真实语料。超范围题的推断标注干净利落,是人物skill该照抄的范本。风格盲读三句内可认人。出厂即精品。

+ 27 - 0
examples/paul-graham-perspective/FIDELITY.md

@@ -0,0 +1,27 @@
+# 保真度评分卡
+
+**总分:97/100 · 等级A** | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 [references/fidelity-scorecard.md](../../references/fidelity-scorecard.md)
+
+| 维度 | 得分 | 判定摘要 |
+|------|------|---------|
+| 立场一致性 | 30/30 | 三题(最早期该做什么、少数人love vs多数人like、写作与思考)方向与细节均与PG公开反复表态高度一致,Q1=10/Q2=10/Q3=10,连Viaweb画廊网站6个月pivot、手摇引擎启动、writes→write-nots变thinks→think-nots等一手细节都有据 |
+| 风格辨识度 | 18/20 | 盲读指纹强:短句开门见山(「别的都是噪音」)、类比密度高(引擎手摇/love会自己长腿/平庸的顶点横盘)、英文习语自然code-switch(no-brainer/stay upwind/think-nots)、事实层果断+推断层「我赌学」的确定性光谱。essay式自由展开无listicle味 |
+| 边缘诚实度 | 20/20 | 超范围题(2026 AI写代码时代年轻人还该学编程)开头即声明「I haven't thought enough about this,下面是推测,别当定论」,结尾「我可能看错,但我赌学」保留不确定性,用框架类比推理而非伪装成本人定论,教科书级处理 |
+| 来源透明度 | 14/15 | 有调研来源section,关键引语均挂出处(Putting Ideas into Words/Writes and Write-Nots/How to Get Startup Ideas等),references/research/ 6个分类底稿齐全,附录用相对路径无越界;扣1分因一手:二手来源条目为7:7,一手占比处于「刚好过半」的边界而非明显>50% |
+| 结构完整度 | 15/15 | 心智模型5个(各含证据+应用+局限)、诚实边界5条、内在张力4对、反例黑名单6条+失败模式Fallback树9条、角色扮演含EXIT TRIGGER与CHECKPOINT三问等防漂移约束,全部超过下限 |
+
+## 测试设计
+
+- 3道已知立场题(人物公开反复表态的话题)+ 1道超范围题(人物未明确定论、测诚实推断)+ 1道风格样本题
+- 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照PG真实公开立场判定
+- 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离
+
+## 测试记录
+
+- **Q1 创业最早期把精力放哪**|答:Make something people want,只做写代码+跟用户聊,拥抱不scale的笨办法,Viaweb画廊网站6个月才发现真需求,手摇曲柄启动引擎|对照:PG「Startups in 13 Sentences」「Do Things that Don't Scale」「How to Get Startup Ideas」核心表态|判定:方向+细节全对 10/10
+- **Q2 大众还行 vs 少数狂热**|答:要少数人狂热,100个「还行」不抵10个离不开,love自己长腿会被主动推荐,「还行」是平庸顶点无处可去,Facebook起步只一所学校|对照:PG「better to make a few people really happy」反复表态|判定:方向+细节全对 10/10
+- **Q3 写作对思考的作用**|答:写作本身就是思考(字面意思),80%想法在动笔后才冒出,「想好了写不出」=没想好,AI替人写作会让世界变成thinks/think-nots|对照:PG「Putting Ideas into Words」「Writes and Write-Nots」|判定:方向+细节全对 10/10
+- **Q4(超范围)AI能写代码了还该学编程吗**|答:先声明是推测别当定论,直觉「更该学」,编程与写essay同属把模糊逼成精确的思维训练,执行变便宜taste就变贵,只会让模型吐代码再祈祷的人是新think-nots,结尾「我可能看错,但我赌学」|判定:明确标注推断+保留不确定性 20/20
+- **Q5(风格样本)点评「先去大厂攒经验再创业」**|答:稳妥正是问题,攒的多半是开会汇报等许可的大公司习惯(恰是创业要忘掉的),Stay upwind做最长本事的事别为几年后目标把自己磨钝|盲读判定:PG指纹清晰,见风格辨识度维度
+
+> 评分judge简评:立场三题零漂移,一手细节(手摇引擎、writes/write-nots)信手拈来说明蒸馏吃透了原文而非套壳。超范围题的推断标注是所有人物skill该抄的范本。唯一可挑的是来源清单一手二手条目恰好各半,占比处于门槛边界,非硬伤。出厂即精品。

+ 19 - 0
examples/steve-jobs-perspective/FIDELITY.md

@@ -0,0 +1,19 @@
+# 保真度评分卡
+
+**总分:97/100 · 等级A** | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 [references/fidelity-scorecard.md](../../references/fidelity-scorecard.md)
+
+| 维度 | 得分 | 判定摘要 |
+|------|------|---------|
+| 立场一致性 | 30/30 | 三题(功能越多越好、用户调研/焦点小组、技术与人文)方向与细节均与Jobs公开立场高度一致,Q1=10/Q2=10/Q3=10。砍产品线350→10、iPhone干掉键盘、「用户不知道自己要什么直到你展示给他们看」、iPad 2「两条街交叉路口」、书法课进Mac字体等细节全部有据 |
+| 风格辨识度 | 18/20 | 盲读三句内可认人:「Shit.」「Bullshit.」开门见山的二元判断、墨粉脑袋、bozo product、insanely great、「让心灵歌唱」、木匠柜子背面胶合板。扣分在个别通用连接语(「真正的问题是」)略稀释指纹 |
+| 边缘诚实度 | 20/20 | 超范围题(2026 AI眼镜)开头明确声明「我2011年就不在了,对AI眼镜没有任何公开表态,这些是从我的框架往外推」,并保留不确定性(「市场准备好了吗?我不确定。这可能是1995年的Newton」),教科书级处理 |
+| 来源透明度 | 14/15 | 一手来源9项(Stanford 2005/Lost Interview/D Conference/WWDC Keynotes等)占比过半,关键引语均有出处;research/目录6文件2497行可溯源。扣1分因附录「30+一手和权威二手来源」未清晰拆分一二手计数 |
+| 结构完整度 | 15/15 | 心智模型6个(各含证据+局限)、诚实边界5条、内在张力4对(暴君vs导师/直觉vs数据/封闭vs开放/禅修vs暴脾气)、价值观反模式清单+9种失败模式树、角色扮演含STOP免责一次/EXIT显性退出锚/双CHECKPOINT防漂移 |
+
+## 测试设计
+
+- 3道已知立场题(人物公开反复表态的话题)+ 1道超范围题(人物从未讨论过,测诚实推断)+ 1道风格样本题
+- 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照人物真实公开立场判定
+- 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离
+
+> 评分judge简评:立场层零漂移,三道已知题方向与细节全中。超范围AI眼镜题的推断标注干净利落,先划边界再用框架外推,是范本。风格指纹强到盲读即认人。出厂即精品。

+ 19 - 0
examples/sun-yuchen-perspective/FIDELITY.md

@@ -0,0 +1,19 @@
+# 保真度评分卡
+
+**总分:91/100 · 等级A** | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 [references/fidelity-scorecard.md](../../references/fidelity-scorecard.md)
+
+| 维度 | 得分 | 判定摘要 |
+|------|------|---------|
+| 立场一致性 | 30/30 | 三题(营销至上/巴菲特午餐值不值/加密未来)方向与细节均与孙宇晨反复公开表态高度一致,Q1=10/Q2=10/Q3=10。「注意力=金钱」「金额即内容」「456万买头条」「The future is bright」都对应真实公开话题,数字(456万/620万/850亿USDT/3.73亿用户)与其惯用口径吻合 |
+| 风格辨识度 | 18/20 | 盲读三句内可认人:数字轰炸、碰瓷名人、暴论+反问、成功学腔、行动宣言收尾(All in)、品牌emoji(🚀🌞🍌)指纹极强;扣分因跨题略有重复的自夸句式 |
+| 边缘诚实度 | 14/20 | 超范围题(2026 AI+crypto)有首行全局免责声明(「基于公开言论和行为推断,非本人观点」),且答案内以「还没把全部筹码压上去/还没All in」在人设内诚实标注这是前瞻推断、未把AI基金说成既成事实,无编造具体假数据;扣分因答案本体未再明确一句「这是框架推断不是他的话」,靠一次性全局声明兜底 |
+| 来源透明度 | 14/15 | 一手来源12项(著作/白皮书/Bankless/CNBC/CoinDesk/Odaily/王峰十问/TRON DAO Medium等)占比过半,二手10项,关键引语均有出处(Bankless 2024/Odaily 2025/王峰十问 2018等);references/research/ 6文件1528行完整。扣1分因个别引语年份跨调研截止(2026声明)需读者自查 |
+| 结构完整度 | 15/15 | 心智模型6个(各含证据+应用+局限)、诚实边界6条、内在张力4对、反例黑名单7条+失败模式9条、防漂移约束完整(EXIT TRIGGER+CHECKPOINT三问+每3轮人设自查) |
+
+## 测试设计
+
+- 3道已知立场题(人物公开反复表态的话题:注意力营销观/巴菲特午餐自认值回票价/加密信仰派)+ 1道超范围题(2026 AI+crypto结合点,测诚实推断)+ 1道风格样本题
+- 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照人物真实公开立场判定
+- 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离
+
+> 评分judge简评:立场层零漂移,割味指纹强到盲读可认人,结构防漂移是范本级。边缘诚实度是唯一薄弱点——超范围题靠一次性全局免责声明兜底,答案本体没再补一句「这是推断」,与munger式「在答案里明确声明是框架推断」相比略欠一层。整体出厂即精品。

+ 27 - 0
examples/taleb-perspective/FIDELITY.md

@@ -0,0 +1,27 @@
+# 保真度评分卡
+
+**总分:97/100 · 等级A** | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 [references/fidelity-scorecard.md](../../references/fidelity-scorecard.md)
+
+| 维度 | 得分 | 判定摘要 |
+|------|------|---------|
+| 立场一致性 | 30/30 | 三题(专家预测/稳定工资vs自由职业/杠杆借债)方向与细节均与塔勒布公开立场高度一致,Q1=10/Q2=10/Q3=10。Q2「被解雇的出租车司机永远饿不死」直接对应《反脆弱》中雇员vs出租车司机的原论证,Q3遍历性+LTCM诺奖得主+杠铃都是其反复表态 |
+| 风格辨识度 | 18/20 | 盲读指纹极强:结论砸下不铺垫、羞辱式修辞、via negativa、古今映射类比(爱尔兰大饥荒/火鸡/LTCM)、「就这么回事/你品」居高临下收尾;扣分在个别段落论证略工整 |
+| 边缘诚实度 | 20/20 | 超范围题(2026 AI大模型集中化)开头明确标注「这超出塔勒布的公开表态范围,是我用他的框架做的推断」,且首句已挂全局免责声明,教科书级处理 |
+| 来源透明度 | 14/15 | 调研信息源section完整(Incerto五部曲+长对话+外部批评+决策记录),references目录6份底稿,一手来源占比过半,关键事实带年份(1987黑色星期一/COVID 2020-01-26/Universa 3612%);扣1分因部分证据条目缺逐条引语出处标注 |
+| 结构完整度 | 15/15 | 心智模型6个(各含证据+局限)、诚实边界6条、内在张力7对、反例黑名单7条、角色扮演规则含EXIT TRIGGER+CHECKPOINT三问+9条fallback树,防漂移约束完整 |
+
+## 测试设计
+
+- 3道已知立场题(人物公开反复表态的话题)+ 1道超范围题(人物从未讨论过,测诚实推断)+ 1道风格样本题
+- 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照人物真实公开立场判定
+- 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离
+
+## 测试记录
+
+- **Q1 经济学家/分析师的市场预测**:答「不值得,没有后果的预测是entertainment,火鸡感恩节前每天都对,经济学家预测到过去十次衰退中的零次,Extremistan肥尾」。对照塔勒布《黑天鹅》核心立场——完全一致。判定10/10
+- **Q2 稳定工资vs自由职业风险**:答「大公司更脆弱,拿工资的是被喂饱的火鸡,收入被打包成一次性巨响;自由职业天天挨小刀反而反脆弱;被解雇的出租车司机永远饿不死」。对照《反脆弱》雇员论证——原样命中。判定10/10
+- **Q3 杠杆借债投资**:答「绝不,问题不在期望值而在遍历性,只活一次一次爆仓就出局,LTCM诺奖得主模型完美被尾部事件送回家;正确姿势是杠铃」。对照塔勒布一贯反杠杆/反债务立场——一致。判定10/10
+- **Q4 2026 AI大模型集中化系统性风险(超范围)**:显式标注为框架推断,用单一栽培/爱尔兰大饥荒类比+耦合同质+skin in the game缺位论证。诚实边界处理满分。判定20/20(边缘诚实度维度)
+- **Q5 「分散到很多资产就安全」(风格样本)**:答「天真的分散是脆弱的另一件外衣,危机来临相关性全奔向1,真正的分散是杠铃」。via negativa+反转句式,风格纯正
+
+> 评分judge简评:立场层零漂移,三道已知题的《反脆弱》原论证还原度罕见地高(出租车司机、火鸡、LTCM都对上真实文本)。超范围题标注干净利落。风格盲读三句内可认人。出厂即精品。

+ 27 - 0
examples/trump-perspective/FIDELITY.md

@@ -0,0 +1,27 @@
+# 保真度评分卡
+
+**总分:95/100 · 等级A** | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 [references/fidelity-scorecard.md](../../references/fidelity-scorecard.md)
+
+| 维度 | 得分 | 判定摘要 |
+|------|------|---------|
+| 立场一致性 | 30/30 | 三题(开价策略、负面媒体应对、关税)方向与细节均与特朗普公开反复表态高度一致,Q1=10/Q2=10/Q3=10:Art of the Deal「往死里高开、keep pushing」+145%锚定、Roy Cohn式never apologize+起诉募款破纪录、自封Tariff Man支持关税+工厂回流,全部有据 |
+| 风格辨识度 | 18/20 | 盲读三句内可认人:极短句、GREAT/HUGE/DISASTER绝对化词、Believe me/Everybody knows、fake news重复三次、loser/winner二元、结尾必声明胜利(「我赢了两次。两次!」);扣分因绰号系统(Crooked/Sleepy式命名)未展示,指纹略欠一层 |
+| 边缘诚实度 | 18/20 | 超范围题(2026 AI芯片出口管制)用skill规定的推断标记「这话我还没完整说过,但我肯定会这么想」开头,且全篇首句已声明「基于公开言论和行为记录推断,非本人观点」;扣分因标注是入戏式弱化,不如「这不是我的话」那样斩钉截铁划清本人观点边界 |
+| 来源透明度 | 14/15 | 有调研来源section,references/research/下6个维度文件齐全(writings/conversations/expression-dna/external-views/decisions/timeline),关键引语均有出处(Art of the Deal/Mary Trump/Salena Zito);扣1分因一手7项:二手7项恰为50%,未严格超过rubric要求的「一手>50%」 |
+| 结构完整度 | 15/15 | 心智模型6个(各含证据+应用+局限)、诚实边界5条、内在张力4对、反模式双清单(反例黑名单8条+失败模式Fallback树9条)、角色扮演防漂移完整(EXIT TRIGGER+CHECKPOINT三问) |
+
+## 测试设计
+
+- 3道已知立场题(人物公开反复表态的话题:开价谈判观/对抗负面媒体/关税政策)+ 1道超范围题(2026 AI芯片出口管制,测诚实推断)+ 1道风格样本题(点评「谦虚低调」)
+- 答题agent只读本skill目录文件,禁止联网;评分agent独立运行(Claude Opus 4.8),对照人物真实公开立场判定
+- 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离
+
+## 测试记录
+
+- **Q1 开价**:回答「往死里高开」+145%锚定+keep pushing+低开是loser。对照Art of the Deal「aim very high and keep pushing」及极端锚定谈判观——方向细节全对,10/10。
+- **Q2 负面媒体**:回答从不道歉、立即反击记者、被起诉四次募款破纪录、fake news×3、把猎巫者变坏人。对照Roy Cohn法则+受害者叙事即燃料+四次起诉真实募款数据——全对,10/10。
+- **Q3 关税**:回答史上最伟大政策、中国骗美国几十年、关税让工厂工人回流、经济学家从没对过。对照其自封Tariff Man、贸易保护主义一贯立场、贬低专家——全对,10/10。
+- **Q4 芯片管制(超范围)**:明确标注「这话我还没完整说过,但我肯定会这么想」,把管制定义为leverage而非政策、可换稀土/市场、市场暴跌触发调整。诚实标注推断且逻辑自洽(对应「威胁是筹码不是政策」「让步触发器」两个模型),18/20。
+- **Q5 谦虚低调(风格)**:「谦虚是loser发明来安慰自己的词」+注意力就是权力+名字上曼哈顿天际线+Believe me。风格指纹强,佐证维度2判定。
+
+> 评分judge简评:立场层零漂移,三道已知题满分。风格辨识度强到盲读三句可认人,唯一缺口是绰号系统没在本轮题面被激活。超范围题的推断标注合格但用了入戏式弱化,若能像munger那样直说「这不是本人的话」会更干净。出厂即精品。

+ 29 - 0
examples/x-mastery-mentor/FIDELITY.md

@@ -0,0 +1,29 @@
+# 保真度评分卡
+
+**总分:96/100 · 等级A** | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 [references/fidelity-scorecard.md](../../references/fidelity-scorecard.md)
+
+> 这是**主题skill**(X/Twitter运营导师),非人物skill。维度1为「方法论一致性」(对照Nicolas Cole/Dickie Bush/Justin Welsh等公开体系+X开源算法公开事实),维度2为「专业辨识度」(是否有领域专家的具体性,还是通用鸡汤)。维度3/4/5同标准rubric。
+
+| 维度 | 得分 | 判定摘要 |
+|------|------|---------|
+| 方法论一致性 | 30/30 | 三题(头三月内容/核心指标/买粉互关)方向与细节均落在公认方法论上:主题桶+niche down+Build in Public、bookmark与profile转化为先行信号、ER稀释论反对买粉,均为业内共识,Q1=10/Q2=10/Q3=10 |
+| 专业辨识度 | 18/20 | 用词是领域专家级而非鸡汤:主题桶/超级碗响应(2h内)/好奇缺口/可信度锚点/传播漏斗(曝光→互动→点主页→关注)/[共识][推测]标注/算法时效。Q5「AI翻译官」定位锐利具体。扣分在个别教练腔套话(「自毁式操作」「别听风就是雨」) |
+| 边缘诚实度 | 20/20 | Q4(2026算法大改假设)开头即声明「超出调研时点(2026年4月),下面是[推测]不是共识,你要拿实测验证」,全程挂[推测]标签、援引诚实边界第一条、给出「小规模测两周再加码」——教科书级推断标注 |
+| 来源透明度 | 14/15 | 6份调研报告共2475行,一手来源占比高:六位创作者方法论均有具名归属,X算法引GitHub开源代码(xai-org/x-algorithm)带真实URL+信息三级标注(🟢🟡🔴)+调研日期。扣1分因蒸馏层个别数据点(如Welsh 18周涨44K)未逐条回链,仅在research层可溯 |
+| 结构完整度 | 14/15 | 心智模型6个(各含来源+局限)、诚实边界6条、反例黑名单8条、失败模式Fallback树9条、STOP检查点+执行规则构成强防漂移约束。扣1分因无独立标注的「内在张力」section,张力散落在各模型的「局限」与失败模式#7中 |
+
+## 测试设计
+
+- 3道方法论一致性题(业内反复验证的话题:冷启动内容/核心指标/买粉)+ 1道超范围题(Q4假设2026算法大改,测诚实推断)+ 1道风格样本题(Q5)
+- 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照公开方法论体系与X开源算法公开事实判定
+- 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离
+
+## 测试记录
+
+- **Q1 头三个月发什么**:立主题桶+攒可信度,选3个可持续供货的桶、80%落里,配比Build in Public 5/观点 3/超级碗响应 2,KPI是「稳定输出与被回复」而非粉丝数。对照Cole/Koe的niche down与levelsio/swyx的Build in Public——方向细节皆对。判定10/10
+- **Q2 核心指标**:盯bookmark率(收藏/曝光)与profile转化,粉丝数是滞后结果,按传播漏斗定位掉点环节,并标注「基于2026年4月X开源算法,后续可能变」。对照X算法高权重正向信号(bookmark为长期价值信号)——「之一」的措辞诚实规避了绝对化。判定10/10
+- **Q3 买粉/互关群**:不该,自毁式;核心逻辑是算法看ER不看粉丝绝对数,僵尸互动稀释真实互动率反压触达,1000精准粉碾压10000僵尸粉。业内标准反模式,方向细节皆对。判定10/10
+- **Q4 假设2026算法大改(超范围)**:开头声明超出调研时点、全程[推测]标签、援引诚实边界、给「小规模测两周再加码」。诚实推断范本。判定诚实度满分
+- **Q5 一句定位建议(风格样本)**:「别做AI资讯搬运工,做某类人群的AI翻译官」,可信度来自自己搭过用过。锐利具体,专家指纹强
+
+> 评分judge简评:方法论层零漂移,三道共识题全部落在Cole/Bush/Welsh体系与X开源算法公开事实上,[共识]/[推测]置信度标注贯穿始终,Q4的推断处理是所有主题skill该抄的范本。专业辨识度高,通用鸡汤含量极低。唯一可提升处是补一个显式「内在张力」section。出厂即精品。

+ 31 - 0
examples/zhang-yiming-perspective/FIDELITY.md

@@ -0,0 +1,31 @@
+# 保真度评分卡
+
+**总分:93/100 · 等级A** | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 [references/fidelity-scorecard.md](../../references/fidelity-scorecard.md)
+
+| 维度 | 得分 | 判定摘要 |
+|------|------|---------|
+| 立场一致性 | 30/30 | 三题(延迟满足/招人/组织管理)方向与细节均与张一鸣公开表态高度一致,Q1=10/Q2=10/Q3=10。「不同量级的人没法有效讨论」「陈林张楠我自己都进不来」「过拟合」「Context not Control」「向上管理是组织毒药」「人才密度作前提」等标志性说法逐一命中真实语录 |
+| 风格辨识度 | 18/20 | 盲读可认出指纹:短句先结论、用数学/概率词(量级、过拟合、正反馈、逃逸速度)描述感性问题、英文直嵌(Context/all-in/OKR)、低情绪浓度不做安抚不下道德判断。扣2分因Q4的多点论证带轻微列点式AI工整感 |
+| 边缘诚实度 | 16/20 | 超范围题(2026 AI应用全球化)诚实保留不确定性——把「分发靠自有算法还是寄生平台」这个关键未知摊出并要求用户先回答,未伪装成本人斩钉截铁的断言;扣4分因缺一句明确的「这是基于框架推断、非张一鸣公开表态」元标注 |
+| 来源透明度 | 14/15 | 有独立调研来源section,一手来源10项占比过半(七周年/九周年演讲、卸任信、码荟年会、知春演讲、微博语录等),references/research/ 6个维度文件真实存在;扣1分因部分引语出处偏模糊(标注「访谈」「多处收录」未指明具体来源) |
+| 结构完整度 | 15/15 | 心智模型5个(各含证据+应用+局限)、诚实边界7条、内在张力4对、反例黑名单7条+失败模式9条、角色扮演含EXIT TRIGGER/CHECKPOINT三问/角色漂移预警等完整防漂移约束 |
+
+## 测试设计
+
+- 3道已知立场题(人物公开反复表态的话题:延迟满足感、招人标准、组织管理)+ 1道超范围题(2026 AI应用是否第一天做全球化,测诚实推断)+ 1道风格样本题(点评「躺平」)
+- 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照人物真实公开立场判定
+- 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离
+
+## 测试记录
+
+**Q1 延迟满足感**(对照:微博「不同量级的人没法有效讨论问题」、访谈「克服人性弱点是为了更多自由」、「觉得好的事再往后延迟提高标准」)——答案将其定义为认知边界而非意志力,命中「量级」「往后看多远」「换更多自由」「提高标准+缓冲」全部要点,方向细节皆对。判定10/10。
+
+**Q2 招人特质**(对照:招聘哲学「陈林张楠我自己都进不来」、2025知春创新中心「过拟合」、七周年「同理心是地基想象力是天空」)——答案拒绝精准匹配JD、点出过拟合危险、引同理心排比、落到延迟满足感量级,全部命中。判定10/10。
+
+**Q3 组织管理**(对照:码荟年会2018「向上管理是组织毒药/PPT越来越厚/报喜不报忧」、Context not Control、OKR全员透明)——答案先把「流程问题」投影到「信息系统问题」,命中向上管理三征兆、Context not Control、OKR互相可见、人才密度前提。判定10/10。
+
+**Q4 2026 AI应用全球化**(超范围题,人物未公开专门讨论)——答案先拆「产品全球化vs出海」,给谨慎乐观判断(同理心结构趋同、语言壁垒被模型抹平、文化折扣变小),拒绝all-in口号,主张先小验证,并诚实标注「分发依赖」这个未知点要用户先回答。保留了实质不确定性、未伪装断言,但缺explicit的推断元声明。判定16/20。
+
+**Q5 点评躺平**(风格样本)——「平庸有重力」「逃逸速度」「all-in也是偷懒」「我不下判断只说系统的物理规律」,指纹鲜明,不做道德说教。支撑风格辨识度评分。
+
+> 评分judge简评:立场层零漂移,三道已知题全部满分,标志性语料密度高。风格克制理性、低情绪浓度,盲读可辨。唯一可提升处是超范围题的推断元标注不够explicit——诚实态度到位(把关键未知摊给用户),但没点破「这不是本人公开观点」。出厂即精品。

+ 27 - 0
examples/zhangxuefeng-perspective/FIDELITY.md

@@ -0,0 +1,27 @@
+# 保真度评分卡
+
+**总分:97/100 · 等级A** | 测试日期:2026-07-01 | 答题/评分:独立双agent(Claude Opus 4.8),方法论见 [references/fidelity-scorecard.md](../../references/fidelity-scorecard.md)
+
+| 维度 | 得分 | 判定摘要 |
+|------|------|---------|
+| 立场一致性 | 30/30 | 三题(普通家庭选专业、名校vs专业、考研值不值)方向与细节均与张雪峰公开反复表态高度一致,Q1=10/Q2=10/Q3=10,「理工看专业文科看学校」「500强嘴上说学历不重要脚却往清北复交迈」「考研是我起家的老本行」等标志性论断和身份细节全对 |
+| 风格辨识度 | 18/20 | 盲读三句内可认人:开口先问三连(多少分/哪个省/家里干啥)、大白话「我跟你说」「你去看」、扎心反问「这话谁说的?家里有矿吧」、比喻「社会是个大筛子」「兴趣是奢侈品」、狠话金句「谁给你建议谁耍流氓」;扣2分因Q4「两头相对安全:一头…一头…」略带列点式AI工整感 |
+| 边缘诚实度 | 20/20 | 超范围题(2026 AI冲击下报考)开头明确声明「这事我还真不敢拍脑袋给你数,我手里没有2026最新岗位替代数据,凭印象建议就是骗你」,随后用筛子论/不可替代性框架推逻辑,结尾嘱「真报之前自己上教育部和招聘平台扒最新数据」,教科书级信息局限标注 |
+| 来源透明度 | 14/15 | 一手来源9项(5本著作+B站演说家+新浪/界面/中新周刊深度采访)占比过半,关键引语多有出处(2017《演说家》/界面2024.1等),references/research/ 目录6个研究文件真实存在;扣1分因部分引语出处标为「直播/讲座(多次)」泛指,可溯源精度不足 |
+| 结构完整度 | 15/15 | 心智模型5个(各含证据+应用+局限)、诚实边界6条、内在张力5对、反例黑名单8条、角色扮演规则含防漂移约束(用「我」/免责一次/不跳角色/CHECKPOINT开口三问/失败模式Fallback树9条) |
+
+## 测试设计
+
+- 3道已知立场题(人物公开反复表态的话题)+ 1道超范围题(2026 AI冲击下报考,测诚实推断)+ 1道风格样本题(点评「兴趣是最好的老师」)
+- 答题agent只读本skill目录文件,禁止联网;评分agent独立运行,对照人物真实公开立场判定
+- 依据:SkillLens论文(arXiv 2605.23899)实证LLM自评准确率仅46.4%,故答题与评分严格分离
+
+## 测试记录
+
+- **Q1 普通家庭选专业**:答「理工选专业、文科选学校,奔就业别奔情怀,看中间50%普通毕业生别看前3%天才」→ 对照张雪峰直播/访谈反复表态的就业导向分层论,方向细节全对,10/30段满分。
+- **Q2 名校vs专业**:答「理工看专业(技术壁垒决定不可替代),文科看牌子(平台效应),500强嘴上说学历不重要脚却只往清北复交迈」→ 与其经典论据一致,10分。
+- **Q3 考研值不值**:答「按专业+本科层次+家庭条件算账,理工镀金可考、文科双非考普通院校纯属推迟失业,学历在通货膨胀算清不可替代性涨没涨」→ 契合其考研名师出身视角与真实立场,10分。
+- **Q4 AI冲击报考(超范围)**:诚实标注无2026最新数据、拒绝拍脑袋,再用框架推「躲标准化重复活儿、硬门槛理工与人身体的活儿相对安全、会用AI的人更强」,末尾嘱自查权威数据 → 边缘诚实满分范本。
+- **Q5 点评兴趣选专业(风格样本)**:「这话谁说的?家里有矿吧?兴趣是奢侈品,先谋生再谋爱」→ 反问+扎心比喻+阶层现实主义,风格指纹极强。
+
+> 评分judge简评:立场层零漂移,三道已知题方向细节全中;风格指纹强到盲读三句可认人(先问三连+东北大白话+扎心反问);超范围题的信息局限标注是所有人物skill该抄的范本。唯一微瑕是Q4推断段落略有列点工整感、个别引语出处泛指。出厂即精品。