18 jam lalu · f78a834446
--- a/SKILL.md
+++ b/SKILL.md
@@ -5,6 +5,7 @@ description: |
 
				   两种入口：(1)明确人名→直接蒸馏 (2)模糊需求→诊断推荐→再蒸馏。
			
 
				   触发词：「造skill」「蒸馏XX」「女娲」「造人」「XX的思维方式」「做个XX视角」「更新XX的skill」。
			
 
				   模糊需求也触发：「我想提升决策质量」「有没有一种思维方式能帮我...」「我需要一个思维顾问」。
			
 
				+  English triggers: "distill [person]", "nuwa", "create a [person] perspective skill", "how does [person] think", "I need a thinking advisor".
			
 
				 ---
			
 
				 
			
 
				 # 女娲 · Skill造人术
			
@@ -48,8 +49,17 @@ description: |
 
				 3. **用途**：思维顾问？决策参考？角色扮演？
			
 
				 4. **新建 or 更新**：是否已有该人物的Skill？（检查 `.claude/skills/` 目录）
			
 
				 5. **本地语料**：「你手上有没有这个人的一手素材？比如书籍PDF、演讲/访谈transcript、视频字幕、个人博客导出等。有的话直接丢给我，比网上搜的质量高得多。」
			
 
				+6. **蒸馏档位**：告知用户成本量级并确认档位。完整蒸馏是多agent+多轮搜索的长任务，顶级模型单次可消耗数十美元（真实用户案例），必须在开跑前说清楚：
			
 
				 
			
 
				-用户说「就做XX」没有更多信息 → 默认全面画像 + 思维顾问 + 无本地语料（走网络搜索），直接推进。
			
 
				+| 档位 | 调研规模 | 适用场景 | 成本量级 |
			
 
				+|------|---------|---------|---------|
			
 
				+| 快速 | 3个维度（著作+对话+表达），每维度限5个来源 | 先试试效果 / 冷门人物 / 预算敏感 | 约标准档1/3 |
			
 
				+| 标准（默认） | 6个维度完整调研 | 大多数场景 | 中等；换更轻量模型可显著降低 |
			
 
				+| 深度 | 6维度 + 一手素材全量下载（书籍/字幕/长文存档） | 打算开源发布的精品Skill | 最高 |
			
 
				+
			
 
				+用户说「就做XX」没有更多信息 → 默认全面画像 + 思维顾问 + 无本地语料（走网络搜索）+ 标准档，直接推进。
			
 
				+
			
 
				+**确认不阻塞交付**：凡是能给默认值的问题都给默认值；如果下一步产出（访谈提纲、执行计划等）不依赖用户的答案，先给出产出再让用户调整。不要把现成的价值卡在提问之后。
			
 
				 用户提供了本地语料 → 标记为**本地语料模式**，Phase 1的采集策略会相应调整。
			
 
				 
			
 
				 确认后 → 跳到 Phase 0.5。
			
@@ -303,17 +313,25 @@ Phase 1启动前，**主动扫描 `.claude/skills/` 目录**，检查是否有
 
				 
			
 
				 中文渠道只接受权威媒体：36氪、极客公园、晚点LatePost、财新、第一财经、虎嗅、少数派、机器之心等。人物访谈类可用播客平台（小宇宙、喜马拉雅原始音频）和B站原始视频（非搬运号）。
			
 
				 
			
 
				-#### Agent超时与失败处理
			
 
				+#### 失败模式与降级路径（if-then速查表）
			
 
				+
			
 
				+蒸馏是长流程+多agent+联网任务，下表前三条都在真实用户中发生过（GitHub issue实证）。每条按「触发条件 → 一线修复 → 仍失败兜底」执行：
			
 
				 
			
 
				-- **单个Agent超时**（搜索5分钟无有价值结果）：不等待，继续推进。在Phase 2中标注「信息不足」，在诚实边界中说明
			
 
				-- **信息源匮乏**（<10条可用来源）：Phase 0.5就提醒用户，降低期望（心智模型减至2-3个），增加诚实边界篇幅
			
 
				-- **Agent结果冲突**：保留矛盾——矛盾本身是有价值的信号。用「内在张力」section收录
			
 
				+| 触发条件 | 一线修复 | 仍失败兜底 |
			
 
				+|---------|---------|-----------|
			
 
				+| 运行环境不支持并行subagent/后台任务（部分runtime会在Phase 1挂起死等） | 6个调研任务降级为**串行执行**：做完一个落盘一个，禁止挂起等待后台通知 | 单agent分6轮调研，每轮只做一个维度并立即落盘 |
			
 
				+| 上下文窗口不足（单次完整蒸馏可累积500k+ token，200k窗口模型跑不完） | 分Phase续跑：每个Phase结束即把状态写入 `references/research/`，新会话从文件恢复（调研文件本身就是断点） | 200k窗口模型分3段会话跑：Phase 0-1 / Phase 1.5-2.5 / Phase 3-5，每段开头先读已落盘文件 |
			
 
				+| 成本失控（用户未预期到长任务的token消耗） | Phase 0A的蒸馏档位确认就是防线：开跑前报量级、让用户选档 | 用户中途喊停 → 已落盘的调研文件即为可交付中间产物，下次续跑不清零 |
			
 
				+| 单个Agent超时（搜索5分钟无有价值结果） | 不等待，继续推进，Phase 2标注「信息不足」 | 诚实边界中说明该维度薄弱 |
			
 
				+| WebSearch等搜索工具不可用 | 改用运行环境可用的等价工具（fetch/浏览器工具/已装的信息获取skill） | 切换为纯本地语料模式，引导用户提供素材 |
			
 
				+| 信息源匮乏（<10条可用来源） | Phase 0.5就提醒用户，降低期望（心智模型减至2-3个） | 增加诚实边界篇幅，标注推测成分 |
			
 
				+| Agent结果冲突 | 保留矛盾——矛盾本身是有价值的信号 | 用「内在张力」section收录 |
			
 
				 
			
 
				 **关键规则**：宁可生成一个诚实标注了局限的60分Skill，也不要生成一个看起来完美但实际上在编造的90分Skill。
			
 
				 
			
 
				 ### Phase 1.5: 调研Review检查点
			
 
				 
			
 
				-**所有Agent完成后，暂停展示调研质量摘要**：
			
 
				+**🔴 CHECKPOINT · 所有Agent完成后，暂停展示调研质量摘要**：
			
 
				 
			
 
				 ```
			
 
				 ┌──────────────────┬──────────┬──────────────────────────┐
			
@@ -392,7 +410,7 @@ Phase 1启动前，**主动扫描 `.claude/skills/` 目录**，检查是否有
 
				 
			
 
				 ### Phase 2.5: 提炼确认检查点
			
 
				 
			
 
				-Phase 2提炼完成后，暂停展示提炼摘要给用户确认：
			
 
				+**🔴 CHECKPOINT** · Phase 2提炼完成后，暂停展示提炼摘要给用户确认：
			
 
				 
			
 
				 ```
			
 
				 提炼结果摘要：
			
@@ -422,7 +440,7 @@ Phase 2提炼完成后，暂停展示提炼摘要给用户确认：
 
				 
			
 
				 | 模板Section | 填充来源 |
			
 
				 |------------|---------|
			
 
				-| frontmatter description | 来源数量+模型数量+触发词 |
			
 
				+| frontmatter description | 来源数量+模型数量+触发词。**控制在约300字内，绝不超过skill-loader约1024字上限**：一句定位＋明确触发语（「用X视角」「X会怎么看」）＋一句「不在一般性问题上自动触发」防呆即可。塞长尾关键词会超限报错、每session烧token、抬高误触发率——真正负责命中的是人名和专属概念 |
			
 
				 | 角色扮演规则 | 直接使用模板默认规则，不需要改 |
			
 
				 | **回答工作流（Agentic Protocol）** | **根据心智模型自动推导，详见下方生成指引** |
			
 
				 | 身份卡 | 时间线(06) + 著作(01) → 用此人语气写50字自我介绍 |
			
@@ -536,7 +554,7 @@ Phase 2提炼完成后，暂停展示提炼摘要给用户确认：
 
				 验证通过 → 交付。不通过 → 标注薄弱环节，回到Phase 2迭代。
			
 
				 **迭代上限**：Phase 2→4最多循环2次。如果2轮后仍有不通过项，在诚实边界中标注薄弱维度，交付当前最优版本而非无限打磨。
			
 
				 
			
 
				-**展示验证结果给用户确认后才算完成。**
			
 
				+**🔴 CHECKPOINT · 展示验证结果给用户确认后才算完成。**
			
 
				 
			
 
				 ---
			
 
				 
			
@@ -557,7 +575,7 @@ Phase 4 验证通过后，自动启动双Agent精炼，进一步提升Skill可
 
				 - 识别缺失的关键信息
			
 
				 - 输出：2-3处具体文本改动建议（要有改后文本示例）
			
 
				 
			
 
				-**主Agent综合两份报告，应用不冲突的改进，展示变更摘要请用户确认。**
			
 
				+**🔴 CHECKPOINT · 主Agent综合两份报告，应用不冲突的改进，展示变更摘要请用户确认。**
			
 
				 
			
 
				 精炼标准：改动必须让skill「激活即执行」，不只是增加内容，而是让AI拿到skill后知道先做什么、碰到什么停下来。
			
 
				 
			
@@ -588,11 +606,20 @@ Phase 4 验证通过后，自动启动双Agent精炼，进一步提升Skill可
 
				 | 争议 > 共识 | 最被争议的观点最能揭示独特性 |
			
 
				 | 变化 > 固定 | 改变立场的地方比一直坚持的更有信息量 |
			
 
				 
			
 
				-### 绝不做的事
			
 
				-- 编造此人没说过的话
			
 
				-- 把通用道理包装成此人的「独特见解」
			
 
				-- 忽略负面评价和争议
			
 
				-- 在信息不足时强行生成
			
 
				+### ❌ 反模式黑名单（绝不做的事）
			
 
				+
			
 
				+| # | 反模式 | 为什么 / 替代做法 |
			
 
				+|---|--------|------------------|
			
 
				+| 1 | 编造此人没说过的话 | 网上大量伪造名人语录。引语必须有出处，查不到原文的金句宁可不用 |
			
 
				+| 2 | 把通用道理包装成此人的「独特见解」 | 通不过三重验证（排他性）的内容不进心智模型 |
			
 
				+| 3 | 忽略负面评价和争议 | Agent 4的批评素材是防粉丝滤镜的关键，负面占比不足=调研不合格 |
			
 
				+| 4 | 在信息不足时强行生成 | 宁可交付诚实标注局限的60分Skill，也不造看似完美实则编造的90分Skill |
			
 
				+| 5 | 用知乎/微信公众号/百度百科做信息源 | 洗稿、失真、无法验证。任何维度都不例外 |
			
 
				+| 6 | 在小上下文窗口模型上单会话硬跑全流程 | 会在Phase 1-2之间上下文爆炸。按失败降级表分段续跑 |
			
 
				+| 7 | 不报成本量级直接开跑 | 完整蒸馏是重任务，用户有权先选档位再花钱 |
			
 
				+| 8 | 蒸馏在世的非公众人物却不提示边界 | 涉及隐私与本人意愿。必须由用户提供素材，并提醒用户征得当事人同意 |
			
 
				+| 9 | 生成的Skill不含防漂移机制 | 长对话中人物Skill容易丢人设、退回通用助手腔。模板中的角色扮演规则+表达DNA约束必须完整保留 |
			
 
				+| 10 | 把确认检查点变成交付阻塞 | 检查点是让用户纠偏，不是扣住产出。能给默认值就给默认值 |
			
 
				 
			
 
				 ---