|
@@ -428,6 +428,12 @@ timestamp commit skill old_score new_score status dimension note eval_mode
|
|
|
|
|
|
|
|
区别:增加了人在回路(autoresearch是全自主的,skill优化需要人的判断力),以及双重评估机制(结构+效果),因为skill的「好坏」比loss数值更微妙。
|
|
区别:增加了人在回路(autoresearch是全自主的,skill优化需要人的判断力),以及双重评估机制(结构+效果),因为skill的「好坏」比loss数值更微妙。
|
|
|
|
|
|
|
|
|
|
+### 学术依据 & Credits
|
|
|
|
|
+
|
|
|
|
|
+- **SkillLens**(arXiv [2605.23899](https://arxiv.org/abs/2605.23899)):9 维 rubric 的实证来源(LLM 自评 46.4% → 加 meta-skill 三维度后 73.8%)。
|
|
|
|
|
+- **SkillOpt**(arXiv [2605.23904](https://arxiv.org/abs/2605.23904)):validation-gated edits 形式化框架。代码 [github.com/microsoft/SkillOpt](https://github.com/microsoft/SkillOpt)(`pip install skillopt`)、项目页 [microsoft.github.io/SkillOpt](https://microsoft.github.io/SkillOpt/)。🤝 2026-06-03 微软官方仓库已把 darwin-skill 列入集成名单。
|
|
|
|
|
+- **autoresearch**:[github.com/karpathy/autoresearch](https://github.com/karpathy/autoresearch),本 skill 1.0 的原始灵感。
|
|
|
|
|
+
|
|
|
---
|
|
---
|
|
|
|
|
|
|
|
## 成果卡片生成(Result Card)
|
|
## 成果卡片生成(Result Card)
|