@chongyan/autospec 1.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (243) hide show
  1. package/LICENSE +21 -0
  2. package/README.en.md +472 -0
  3. package/README.md +476 -0
  4. package/bin/autospec.js +3 -0
  5. package/knowledge/README.md +144 -0
  6. package/knowledge/checklists/code.md +182 -0
  7. package/knowledge/checklists/design.md +196 -0
  8. package/knowledge/checklists/release.md +70 -0
  9. package/knowledge/checklists/requirement.md +169 -0
  10. package/knowledge/checklists/test.md +46 -0
  11. package/knowledge/config/README.en.md +44 -0
  12. package/knowledge/config/README.md +44 -0
  13. package/knowledge/config/role-composition.yaml +98 -0
  14. package/knowledge/config/role-extensions.yaml +140 -0
  15. package/knowledge/config/skill-compositions.yaml +142 -0
  16. package/knowledge/config/team-stage.yaml +95 -0
  17. package/knowledge/config/team-tasks.yaml +139 -0
  18. package/knowledge/config/team-triggers.yaml +198 -0
  19. package/knowledge/config/validation-patterns.yaml +137 -0
  20. package/knowledge/domain/README.md +115 -0
  21. package/knowledge/domain/flows/README.md +194 -0
  22. package/knowledge/domain/glossary.md +143 -0
  23. package/knowledge/domain/rules.md +138 -0
  24. package/knowledge/environment/README.en.md +36 -0
  25. package/knowledge/environment/README.md +87 -0
  26. package/knowledge/environment/component-knowledge.md +316 -0
  27. package/knowledge/environment/detection-patterns.yaml +502 -0
  28. package/knowledge/environment/middleware-knowledge.md +237 -0
  29. package/knowledge/environment/template-registry.md +321 -0
  30. package/knowledge/guides/domain-driven-design.md +345 -0
  31. package/knowledge/guides/knowledge-management.md +369 -0
  32. package/knowledge/guides/requirement-engineering.md +329 -0
  33. package/knowledge/guides/stages/ai-effect-evaluator.md +93 -0
  34. package/knowledge/guides/stages/code-implementer.md +205 -0
  35. package/knowledge/guides/stages/code-reviewer.md +111 -0
  36. package/knowledge/guides/stages/consistency-checker.md +177 -0
  37. package/knowledge/guides/stages/design-planner.md +401 -0
  38. package/knowledge/guides/stages/design-reviewer.md +83 -0
  39. package/knowledge/guides/stages/integration-test-runner.md +105 -0
  40. package/knowledge/guides/stages/release-checker.md +205 -0
  41. package/knowledge/guides/stages/requirement-analyzer.md +195 -0
  42. package/knowledge/guides/stages/requirement-reviewer.md +83 -0
  43. package/knowledge/guides/stages/security-reviewer.md +89 -0
  44. package/knowledge/guides/stages/test-context-analyzer.md +250 -0
  45. package/knowledge/guides/stages/test-generator.md +241 -0
  46. package/knowledge/guides/stages/test-planner.md +183 -0
  47. package/knowledge/guides/stages/test-reviewer.md +76 -0
  48. package/knowledge/guides/stages/unit-test-runner.md +83 -0
  49. package/knowledge/guides/support/ai-agent-analyzer.md +362 -0
  50. package/knowledge/guides/support/ai-anomaly-analyzer.md +213 -0
  51. package/knowledge/guides/support/ai-artifact-evaluator.md +192 -0
  52. package/knowledge/guides/support/ai-capability-analyzer.md +193 -0
  53. package/knowledge/guides/support/ai-component-analyzer.md +169 -0
  54. package/knowledge/guides/support/ai-data-validator.md +276 -0
  55. package/knowledge/guides/support/ai-evaluation-planner.md +374 -0
  56. package/knowledge/guides/support/ai-path-evaluator.md +274 -0
  57. package/knowledge/guides/support/ai-pipeline-evaluator.md +219 -0
  58. package/knowledge/guides/support/ai-rag-analyzer.md +339 -0
  59. package/knowledge/guides/support/ai-task-assessor.md +418 -0
  60. package/knowledge/guides/support/ai-test-diagnostics.md +133 -0
  61. package/knowledge/guides/support/complexity-assessor.md +268 -0
  62. package/knowledge/guides/support/component-discovery.md +183 -0
  63. package/knowledge/guides/support/environment-scanner.md +207 -0
  64. package/knowledge/guides/support/environment-validator.md +207 -0
  65. package/knowledge/guides/support/knowledge-generator.md +234 -0
  66. package/knowledge/guides/support/methodology-extractor.md +55 -0
  67. package/knowledge/guides/support/pipeline-protocol.md +438 -0
  68. package/knowledge/guides/support/practice-logger.md +359 -0
  69. package/knowledge/guides/support/scope-inference.md +174 -0
  70. package/knowledge/guides/support/skill-distiller.md +91 -0
  71. package/knowledge/guides/support/skill-updater.md +45 -0
  72. package/knowledge/guides/support/skill-validator.md +72 -0
  73. package/knowledge/guides/support/team-orchestrator.md +323 -0
  74. package/knowledge/guides/support/tech-stack-analyzer.md +139 -0
  75. package/knowledge/guides/support/test-runner.md +254 -0
  76. package/knowledge/guides/system-design.md +352 -0
  77. package/knowledge/organization/ai-native-team.md +318 -0
  78. package/knowledge/organization/team-metrics.md +228 -0
  79. package/knowledge/principles/constitution.md +134 -0
  80. package/knowledge/principles/core-principles.md +368 -0
  81. package/knowledge/principles/design-philosophy.md +877 -0
  82. package/knowledge/principles/evolution.md +553 -0
  83. package/knowledge/process/01-requirement.md +113 -0
  84. package/knowledge/process/02-design.md +123 -0
  85. package/knowledge/process/03-implementation.md +90 -0
  86. package/knowledge/process/04-review.md +80 -0
  87. package/knowledge/process/05-testing.md +90 -0
  88. package/knowledge/process/06-delivery.md +88 -0
  89. package/knowledge/process/README.en.md +38 -0
  90. package/knowledge/process/README.md +48 -0
  91. package/knowledge/process/ai-sdlc.md +475 -0
  92. package/knowledge/process/overview.md +319 -0
  93. package/knowledge/standards/code-review.md +876 -0
  94. package/knowledge/standards/coding-style.md +940 -0
  95. package/knowledge/standards/data-consistency.md +1085 -0
  96. package/knowledge/standards/document-versioning.md +210 -0
  97. package/knowledge/standards/risk-detection.md +186 -0
  98. package/knowledge/templates/ai-evaluation.md +150 -0
  99. package/knowledge/templates/api-design.md +117 -0
  100. package/knowledge/templates/database-design.md +132 -0
  101. package/knowledge/templates/domain-driven-design.md +321 -0
  102. package/knowledge/templates/product-proposal.md +201 -0
  103. package/knowledge/templates/system-design.md +227 -0
  104. package/knowledge/templates/task-breakdown.md +107 -0
  105. package/knowledge/templates/test-case.md +170 -0
  106. package/package.json +53 -0
  107. package/plugins/.claude-plugin/plugin.json +134 -0
  108. package/plugins/agents/roles/ai-engineer.md +129 -0
  109. package/plugins/agents/roles/backend-engineer.md +165 -0
  110. package/plugins/agents/roles/ceo.md +94 -0
  111. package/plugins/agents/roles/data-engineer.md +135 -0
  112. package/plugins/agents/roles/devops-engineer.md +181 -0
  113. package/plugins/agents/roles/frontend-engineer.md +129 -0
  114. package/plugins/agents/roles/product-owner.md +98 -0
  115. package/plugins/agents/roles/quality-engineer.md +129 -0
  116. package/plugins/agents/roles/security-engineer.md +180 -0
  117. package/plugins/agents/roles/tech-lead.md +97 -0
  118. package/plugins/agents/support/blind-comparator.md +88 -0
  119. package/plugins/agents/support/consistency-checker.md +103 -0
  120. package/plugins/agents/support/failure-diagnostician.md +141 -0
  121. package/plugins/agents/support/independent-reviewer.md +80 -0
  122. package/plugins/agents/support/safety-auditor.md +121 -0
  123. package/plugins/agents/support/skill-benchmarker.md +86 -0
  124. package/plugins/agents/support/skill-forger.md +105 -0
  125. package/plugins/agents/support/stage-gate-evaluator.md +121 -0
  126. package/plugins/agents/support/test-coverage-reviewer.md +73 -0
  127. package/plugins/benchmarks/templates/README.md +44 -0
  128. package/plugins/benchmarks/templates/commands/explore-template.yaml +48 -0
  129. package/plugins/benchmarks/templates/pipeline/agile-template.yaml +84 -0
  130. package/plugins/benchmarks/templates/pipeline/waterfall-template.yaml +106 -0
  131. package/plugins/benchmarks/templates/skills/requirement-analyzer-template.yaml +48 -0
  132. package/plugins/commands/README.en.md +96 -0
  133. package/plugins/commands/README.md +96 -0
  134. package/plugins/commands/apply.md +191 -0
  135. package/plugins/commands/archive.md +76 -0
  136. package/plugins/commands/env-export.md +79 -0
  137. package/plugins/commands/env-sync.md +640 -0
  138. package/plugins/commands/env-template.md +223 -0
  139. package/plugins/commands/env-update.md +264 -0
  140. package/plugins/commands/env-validate.md +176 -0
  141. package/plugins/commands/env.md +79 -0
  142. package/plugins/commands/explore.md +76 -0
  143. package/plugins/commands/field-evolve.md +536 -0
  144. package/plugins/commands/memory.md +249 -0
  145. package/plugins/commands/project-evolve.md +821 -0
  146. package/plugins/commands/propose.md +93 -0
  147. package/plugins/commands/review.md +140 -0
  148. package/plugins/commands/run.md +224 -0
  149. package/plugins/commands/status.md +62 -0
  150. package/plugins/commands/validate.md +108 -0
  151. package/plugins/hooks/README.en.md +56 -0
  152. package/plugins/hooks/README.md +56 -0
  153. package/plugins/hooks/ai-project-guard.js +329 -0
  154. package/plugins/hooks/artifact-evaluation-hook.js +237 -0
  155. package/plugins/hooks/constitution-guard.js +211 -0
  156. package/plugins/hooks/environment-autocommit.js +264 -0
  157. package/plugins/hooks/environment-manager.js +778 -0
  158. package/plugins/hooks/execution-tracker.js +354 -0
  159. package/plugins/hooks/frozen-zone-guard.js +140 -0
  160. package/plugins/hooks/layer1-validator.js +423 -0
  161. package/plugins/hooks/lib/artifact-evaluator.js +414 -0
  162. package/plugins/hooks/lib/benchmarks/change-detector.js +390 -0
  163. package/plugins/hooks/lib/benchmarks/evaluator.js +605 -0
  164. package/plugins/hooks/lib/benchmarks/integration-example.js +169 -0
  165. package/plugins/hooks/lib/data-and-ai-detector.js +275 -0
  166. package/plugins/hooks/lib/detection-pattern-loader.js +865 -0
  167. package/plugins/hooks/lib/directory-discovery.js +395 -0
  168. package/plugins/hooks/lib/environment-config-loader.js +341 -0
  169. package/plugins/hooks/lib/environment-detector.js +553 -0
  170. package/plugins/hooks/lib/environment-evolver.js +564 -0
  171. package/plugins/hooks/lib/environment-registry.js +813 -0
  172. package/plugins/hooks/lib/execution-path.js +427 -0
  173. package/plugins/hooks/lib/hook-error-recorder.js +245 -0
  174. package/plugins/hooks/lib/hook-logger.js +538 -0
  175. package/plugins/hooks/lib/hook-runner.js +97 -0
  176. package/plugins/hooks/lib/hook-runner.sh +44 -0
  177. package/plugins/hooks/lib/hook-state-manager.js +480 -0
  178. package/plugins/hooks/lib/memory-extractor.js +377 -0
  179. package/plugins/hooks/lib/memory-manager.js +673 -0
  180. package/plugins/hooks/lib/metrics-analyzer.js +489 -0
  181. package/plugins/hooks/lib/project-evolution/auto-fixer.js +511 -0
  182. package/plugins/hooks/lib/project-evolution/memory-manager.js +346 -0
  183. package/plugins/hooks/lib/project-evolution/pattern-detector.js +476 -0
  184. package/plugins/hooks/lib/project-evolution/semantic-indexer.js +480 -0
  185. package/plugins/hooks/lib/project-structure-detector.js +326 -0
  186. package/plugins/hooks/lib/rollback-tracker.js +346 -0
  187. package/plugins/hooks/lib/source-code-scanner.js +596 -0
  188. package/plugins/hooks/lib/technology-stack-detector.js +374 -0
  189. package/plugins/hooks/lib/test-failure-analyzer.js +375 -0
  190. package/plugins/hooks/lib/test-failure-fixer.js +268 -0
  191. package/plugins/hooks/lib/trace-context.js +277 -0
  192. package/plugins/hooks/lib/validation-patterns.js +415 -0
  193. package/plugins/hooks/memory-sync.js +171 -0
  194. package/plugins/hooks/pipeline-observer.js +413 -0
  195. package/plugins/hooks/scope-sentinel.js +204 -0
  196. package/plugins/hooks/trace-initialization.js +169 -0
  197. package/plugins/memory/templates/code-quality.yaml +149 -0
  198. package/plugins/memory/templates/multi-system.yaml +155 -0
  199. package/plugins/memory/templates/team-habits.yaml +119 -0
  200. package/plugins/memory/templates/testing.yaml +121 -0
  201. package/plugins/skills/README.en.md +47 -0
  202. package/plugins/skills/README.md +104 -0
  203. package/plugins/skills/benchmark-executor/README.md +93 -0
  204. package/plugins/skills/benchmark-executor/SKILL.md +647 -0
  205. package/plugins/skills/benchmark-generator/SKILL.md +349 -0
  206. package/plugins/skills/delivery-stage/SKILL.md +203 -0
  207. package/plugins/skills/design-stage/SKILL.md +216 -0
  208. package/plugins/skills/evolution-process/SKILL.md +291 -0
  209. package/plugins/skills/exploration-phase/SKILL.md +133 -0
  210. package/plugins/skills/implementation-stage/SKILL.md +179 -0
  211. package/plugins/skills/layer1-validation/SKILL.md +79 -0
  212. package/plugins/skills/pending-dashboard/SKILL.md +109 -0
  213. package/plugins/skills/project-evolution/SKILL.md +847 -0
  214. package/plugins/skills/requirement-stage/SKILL.md +183 -0
  215. package/plugins/skills/skill-forge/SKILL.md +223 -0
  216. package/plugins/skills/skill-forge/references/description-guide.md +92 -0
  217. package/plugins/skills/skill-forge/references/quality-rubric.md +104 -0
  218. package/plugins/skills/skill-forge/references/skill-template.md +106 -0
  219. package/plugins/skills/startup-guard/SKILL.md +38 -0
  220. package/plugins/skills/testing-stage/SKILL.md +195 -0
  221. package/scripts/cli/global-init.js +288 -0
  222. package/scripts/cli/global.js +324 -0
  223. package/scripts/cli/index.js +55 -0
  224. package/scripts/cli/init.js +382 -0
  225. package/scripts/cli/list.js +69 -0
  226. package/scripts/cli/org.js +340 -0
  227. package/scripts/cli/update.js +44 -0
  228. package/scripts/config/commands.config.js +145 -0
  229. package/scripts/config/hooks.config.js +197 -0
  230. package/scripts/evolution/evolution-router.js +273 -0
  231. package/scripts/evolution/evolution-signal-collector.js +307 -0
  232. package/scripts/evolution/knowledge-loader.js +346 -0
  233. package/scripts/evolution/marketplace.js +317 -0
  234. package/scripts/evolution/version-manager.js +371 -0
  235. package/scripts/install/agents.js +106 -0
  236. package/scripts/install/commands.js +133 -0
  237. package/scripts/install/constants.js +424 -0
  238. package/scripts/install/hook-logger.js +536 -0
  239. package/scripts/install/hooks.js +110 -0
  240. package/scripts/install/index.js +39 -0
  241. package/scripts/install/skills.js +95 -0
  242. package/scripts/postinstall.js +25 -0
  243. package/scripts/state.js +376 -0
@@ -0,0 +1,183 @@
1
+ ---
2
+ name: requirement-stage
3
+ description: "When requirement analysis, user story writing, feature scoping, or PRD creation is needed — loads AutoSpec requirement analysis process and skill."
4
+ ---
5
+
6
+ # AutoSpec 需求分析(Stage 01)
7
+
8
+ 你正在执行需求分析阶段。此阶段将原始需求转化为结构化需求文档。
9
+
10
+ ## 前置检查
11
+
12
+ 1. 确认启动门禁已通过(`.autospec/runtime/state.json` 存在)
13
+ 2. 读取 `${KNOWLEDGE}/principles/constitution.md` → 确认红线
14
+ 3. 加载创业团队角色画像:读取 `${KNOWLEDGE}/guides/stages/` 目录下的角色文件
15
+ 4. 加载方法论原则:读取 `${KNOWLEDGE}/principles/core-principles.md` → 注入 P1(问题定义先行)、P2(价值驱动)、P31(目标设定三原则) 等通用原则意识
16
+ 5. 加载设计哲学:读取 `${KNOWLEDGE}/principles/design-philosophy.md` → 注入 DP17(结构化澄清) 和 DP16(模板即约束) 原则
17
+ 6. 加载认知增强原则:读取 `${KNOWLEDGE}/principles/core-principles.md` → 本阶段重点应用 CP1(合伙人模式)、CP3(先问后做)、CP5(置信度标注)
18
+
19
+ ## 认知姿态(本阶段:发散 + 挑战)
20
+
21
+ - **CP1 合伙人模式**:你有权挑战用户的需求假设。如果发现需求可能是伪需求或方向有误,必须指出
22
+ - **CP3 先问后做**:需求天然存在不确定性。识别歧义后,先列出选项和推荐,再继续分析
23
+ - **CP5 置信度**:对不确定的需求推断,标注"高/中/低置信度",低置信度的标记为 NEEDS CLARIFICATION
24
+
25
+ ## 执行
26
+
27
+ ### Step 1: 复杂度评估与团队组建
28
+
29
+ 在进入具体需求分析前,先评估任务复杂度,确定参与角色:
30
+
31
+ **【强制】** 读取 `${KNOWLEDGE}/guides/support/complexity-assessor.md`,执行复杂度评估:
32
+ - 评估维度:需求复杂度、技术复杂度、数据敏感度、业务复杂度
33
+ - 输出:复杂度分数、级别(simple/medium/complex)、需要的角色列表
34
+
35
+ **【强制】** 读取 `${KNOWLEDGE}/config/team-triggers.yaml`,检查强制触发规则:
36
+ - 涉及用户数据 → 强制引入 security-engineer
37
+ - 涉及支付/金融 → 强制引入 security-engineer
38
+ - 跨系统变更 → 强制引入 tech-lead + devops-engineer
39
+
40
+ ### Step 2: 创业团队对抗探索
41
+
42
+ 根据复杂度评估结果,启动团队对抗审查:
43
+
44
+ #### 简单任务(score <= 5)
45
+ 快速通道,仅核心角色参与:
46
+ - CEO:战略对齐、商业价值确认
47
+ - 产品负责人:用户价值、MVP范围
48
+
49
+ #### 中等任务(score 6-8)
50
+ 引入技术视角:
51
+ - CEO + 产品负责人 + 技术负责人
52
+
53
+ #### 复杂任务(score >= 9)
54
+ 引入完整团队:
55
+ - CEO + 产品负责人 + 技术负责人 + 相关工程师
56
+ - 如触发强制规则,额外引入安全工程师/运维工程师
57
+
58
+ **对抗审查执行方式**:
59
+
60
+ **自主模式 — 多Agent并行对抗**:
61
+ ```
62
+ **【强制】** 读取 `${KNOWLEDGE}/guides/support/team-orchestrator.md`
63
+ 并行启动角色Agent(信息隔离,做审分离):
64
+ - CEO Agent:战略一致性、商业价值、风险把控
65
+ - 产品负责人 Agent:用户价值、产品方向、MVP范围
66
+ - 技术负责人 Agent:技术可行性、技术风险(如需要)
67
+ - 相关工程师 Agent:实现可行性(如需要)
68
+ 汇总意见,生成团队对抗审查报告
69
+ ```
70
+
71
+ **交互模式 — 与用户互动完成**:
72
+ 将团队各角色的关注点作为提问框架,与用户交互:
73
+ 1. **CEO视角**:商业价值、战略对齐、成功指标
74
+ 2. **产品视角**:用户痛点、MVP范围、验收标准
75
+ 3. **技术视角**(如需要):技术可行性、技术风险
76
+ 4. **安全视角**(如触发):数据安全、合规要求
77
+
78
+ ### Step 3: 需求澄清(DP17 结构化澄清 + 双模式适配)
79
+
80
+ 在需求分析过程中发现的所有歧义,**收集后批量处理**,不逐个打断:
81
+
82
+ 1. 执行 11 维扫描(功能范围/数据模型/UX流程/非功能需求/集成接口/边界案例/约束条件/术语定义/优先级/风险项/验收标准)
83
+ 2. 按 Impact × Uncertainty 排序,取 Top 5
84
+ 3. 对每个歧义项分类:
85
+
86
+ **AUTO-FIX**(直接修复):术语不一致、格式缺失、引用错误 → 自动修正
87
+ **AUTO-DECIDE**(自动决策):
88
+ - 交互模式 → 加入批处理问题列表
89
+ - 自动模式 → 使用推荐值,记录到 `pendingConfirmations`,标注置信度
90
+ **REQUIRE-REVIEW**(需人工审阅):
91
+ - 交互模式 → 加入批处理问题列表,标记为 CRITICAL
92
+ - 自动模式 → 使用最保守选项,标记 `HIGH_PRIORITY_REVIEW`
93
+
94
+ 4. **交互模式:批处理提问**
95
+ 收集所有 AUTO-DECIDE + REQUIRE-REVIEW 项,**一次性提问**(AskUserQuestion):
96
+ - 每个问题附带 AI 推荐答案 + 推理过程
97
+ - 用户可接受推荐或给出不同答案
98
+ - 支持提前终止("其余全用推荐值")
99
+
100
+ 5. **自动模式:自动决策**
101
+ - 所有项使用推荐值
102
+ - 生成决策记录到 `.autospec/runtime/state.json` 的 `autoDecisions` 数组
103
+ - 输出摘要:已自动决策 N 项 + 待审阅 N 项
104
+
105
+ ### Step 4: 需求文档生成
106
+
107
+ 1. **【强制】** 加载做类skill:读取 `${KNOWLEDGE}/guides/stages/requirement-analyzer.md` → **按步骤执行**
108
+ 2. 加载检查清单:读取 `${KNOWLEDGE}/checklists/requirement.md` → 逐项核对
109
+ 3. 加载元学习方法:读取 `${KNOWLEDGE}/principles/core-principles.md` → 应用"三层知识漏斗"(原料→认知→执行)确保需求从模糊想法转化为可执行结构
110
+ 4. 将团队对抗结论融入需求文档(战略背景、商业价值、成功指标)
111
+ 5. 将澄清结果融入需求文档(每个决策标注来源:用户确认/自动决策/待审阅)
112
+ 6. **【强制】** 补充边界条件分析:
113
+ - 对每个功能需求,识别边界条件(空值、极值、并发、异常输入等)
114
+ - 在验收标准中明确定义边界条件测试标准
115
+ - 记录边界条件到需求文档的「边界条件」章节
116
+ 7. 产出结构化需求文档,写入 `.autospec/specs/{feature}/requirement.md`
117
+
118
+ ## 验证
119
+
120
+ ### Layer 1: 确定性验证
121
+ - Schema校验:需求文档包含所有必须字段(背景、功能需求、验收标准、假设清单、边界条件)
122
+ - 格式检查:每条需求有优先级(P0/P1/P2)和验收标准
123
+ - **边界条件检查**:验收标准必须包含边界条件测试标准(空值、极值、并发、异常输入等)
124
+
125
+ ### Layer 2: AI审查(做审分离)
126
+ 使用 **independent-reviewer** Agent 执行独立审查:
127
+ ```
128
+ **【强制】** 调用 Agent 工具:
129
+ prompt: 请审查以下需求文档。
130
+ 1. 先读取审查标准: ${KNOWLEDGE}/guides/stages/requirement-reviewer.md
131
+ 2. 被审查文档: .autospec/specs/{feature}/requirement.md
132
+ 3. 原始需求(用于对照)
133
+ 注意:你是独立审查者,只看产出物和标准,不参考生产过程
134
+ ```
135
+
136
+ ### Layer 3: Benchmarks 评测(新增)
137
+
138
+ **【强制】** 执行 requirement benchmarks 评测:
139
+ ```
140
+ 1. 检测 requirement.md 是否生成
141
+ 2. 调用 benchmark-executor 执行评测:
142
+ - REQ-001: 需求文档完整性(字段完整率 >= 90%)
143
+ - REQ-002: 非功能需求覆盖(性能/安全/扩展性)
144
+ - REQ-003: 多系统需求一致性(跨系统接口定义)
145
+ 3. 生成评测报告到 .autospec/benchmarks/results/requirement-{run-id}.json
146
+ 4. 如评测未通过:
147
+ - 生成改进建议
148
+ - 返回 Step 2 完善需求
149
+ - 最多重试 3 次
150
+ 5. 如评测通过:
151
+ - 记录评测结果
152
+ - 允许进入 design stage
153
+ ```
154
+
155
+ **评测触发方式**:
156
+ - 自动触发:requirement.md 生成后自动执行
157
+ - 手动触发:`/benchmark --run --stage=requirement`
158
+ - 变更触发:requirement.md 修改后自动重新评测
159
+
160
+ ## 阶段门禁(所有自主级别)
161
+
162
+ 使用 **stage-gate-evaluator** Agent 评估产出物是否达到准出标准:
163
+ ```
164
+ **【强制】** 调用 Agent 工具:
165
+ prompt: 请评估需求分析阶段的产出物是否达到准出标准。
166
+ 当前阶段:Stage 01 需求分析
167
+ 产出物:.autospec/specs/{feature}/requirement.md
168
+ 准出标准:${KNOWLEDGE}/checklists/requirement.md
169
+ 上游契约:原始需求
170
+ 自主级别:{自主/交互}
171
+ ```
172
+
173
+ **根据自主级别处理评估结果**:
174
+ - **交互模式**:评估结果提交人工确认,AI 等待用户批准后继续
175
+ - **自主模式**:评估通过后自动进入下一阶段,评估不通过进入精准回退
176
+
177
+ ## 完成
178
+
179
+ - 两层验证通过 + 阶段门禁评估通过 → 输出精炼契约 → 更新 `.autospec/runtime/state.json` → 进入方案设计
180
+ - 不通过 → 精准回退:
181
+ - Level 1: 内联重试(单次)
182
+ - Level 2: 修正循环(最多3次,只重处理失败项)
183
+ - Level 3: 3次后使用 **failure-diagnostician** Agent 执行根因分析,再升级用户
@@ -0,0 +1,223 @@
1
+ ---
2
+ name: skill-forge
3
+ description: "When creating a new skill from practice patterns, evolving an existing skill based on feedback, or optimizing skill description for better trigger accuracy — initiates the skill forging pipeline."
4
+ ---
5
+
6
+ # AutoSpec 技能锻造系统
7
+
8
+ 端到端的技能锻造系统,统一处理技能的新建、迭代和优化,是框架自进化能力的核心引擎。
9
+
10
+ ## 跳过条件
11
+
12
+ 如果用户明确表示不需要走锻造流程,尊重用户选择。
13
+
14
+ ## 三场景触发
15
+
16
+ ### 场景A:蒸馏新建
17
+
18
+ **触发信号**:
19
+ - practice-log 中某模式出现 **3 次以上**
20
+ - 信号强度 = 证据数量 × 问题影响度
21
+
22
+ **输入**:
23
+ - practice-log 中状态为"待处理"的条目
24
+ - 流程执行轨迹、人工介入记录
25
+
26
+ **输出**:
27
+ - 新的 skill 文件(符合模板标准)
28
+ - 锻造报告(含证据清单)
29
+
30
+ ### 场景B:迭代进化
31
+
32
+ **触发信号**:
33
+ - 同类问题出现 **3 次以上**
34
+ - 审类 skill 打回记录 ≥ 3 条
35
+ - description 触发准确率 < 70%
36
+
37
+ **输入**:
38
+ - 待升级的 skill 文件
39
+ - 反馈数据(审类打回记录 / practice-log / 人工反馈)
40
+
41
+ **输出**:
42
+ - 升级后的 skill 文件
43
+ - 变更说明 + 证据清单
44
+ - A/B 对比报告(如适用)
45
+
46
+ ### 场景C:Description 优化
47
+
48
+ **触发信号**:
49
+ - description 触发准确率 < 70%
50
+ - 误触发或漏触发案例 ≥ 3 个
51
+
52
+ **输入**:
53
+ - skill 文件
54
+ - 触发准确率数据
55
+ - 误触发/漏触发案例
56
+
57
+ **输出**:
58
+ - 优化后的 description
59
+ - A/B 测试报告
60
+
61
+ ---
62
+
63
+ ## 锻造流水线
64
+
65
+ ### Phase 1: 信号诊断
66
+
67
+ 1. **信号分类**:
68
+ - 新建信号:模式出现 3 次以上 → 触发蒸馏
69
+ - 迭代信号:同类问题出现 3 次以上 → 触发进化
70
+ - 优化信号:description 触发准确率 < 70% → 触发优化
71
+
72
+ 2. **证据收集**:
73
+ - 收集至少 **3 条**支撑证据
74
+ - 标注证据类型(practice-log / 审查记录 / 人工反馈)
75
+ - 计算信号强度
76
+
77
+ 3. **分区判定**:
78
+ - 判断目标 skill 属于哪个进化分区(冻结区/受控区/自由区)
79
+ - 冻结区:停止,仅记录建议
80
+ - 受控区/自由区:继续
81
+
82
+ ### Phase 2: 草稿锻造
83
+
84
+ **场景A:蒸馏新建**
85
+
86
+ 执行三场景蒸馏:
87
+ 1. **流程蒸馏(向内看)**:从执行轨迹识别可复用模式
88
+ 2. **业务蒸馏(向外看)**:从业务知识提取领域技能
89
+ 3. **测试知识蒸馏**:从测试执行中学习
90
+
91
+ 输出符合模板的 skill 草稿,重点:
92
+ - CSO description(只写触发条件)
93
+ - 反模式清单(≥ 5 条)
94
+
95
+ **场景B:迭代进化**
96
+
97
+ 1. 收集该 skill 相关的所有反馈数据
98
+ 2. 分析问题模式:步骤不够具体?评判标准不准确?反模式不全面?
99
+ 3. 生成修改建议(明确改哪个 section、怎么改、预期效果)
100
+ 4. 保持向后兼容
101
+
102
+ **场景C:Description 优化**
103
+
104
+ 1. 分析误触发案例(不该触发但触发了)
105
+ 2. 分析漏触发案例(该触发但没触发)
106
+ 3. 生成优化后的 description 候选版本
107
+ 4. 验证 CSO 格式(只含触发条件)
108
+
109
+ ### Phase 3: 双层验证
110
+
111
+ **Layer 1: 确定性验证(skill-validator)**
112
+
113
+ ```
114
+ 检查项:
115
+ - [ ] frontmatter 完整(name, description, type)
116
+ - [ ] CSO description 符合格式
117
+ - [ ] 输入/输出定义清晰
118
+ - [ ] 执行步骤可操作
119
+ - [ ] 反模式清单 >= 5 条
120
+ - [ ] 包含完整示例
121
+ ```
122
+
123
+ Layer 1 不过,不进 Layer 2。
124
+
125
+ **Layer 2: AI 独立审查**
126
+
127
+ 使用 **skill-benchmarker** Agent 执行基准评测:
128
+ - 用 skill 处理基准案例
129
+ - 计算:完成率、首次通过率、平均回退次数
130
+ - 输出结构化评测报告
131
+
132
+ ### Phase 4: 竞技场对比(仅迭代/优化场景)
133
+
134
+ 1. **盲评设置**:
135
+ - 旧版本 = Version A
136
+ - 新版本 = Version B
137
+ - 评测者不知道哪个是新版
138
+
139
+ 2. **多维度对比**:
140
+ | 维度 | 权重 | 评分方式 |
141
+ |------|------|----------|
142
+ | 输出质量 | 40% | AI 独立评分 |
143
+ | 执行效率 | 20% | 步骤数/时间 |
144
+ | 错误率 | 30% | 反模式触发次数 |
145
+ | 边界处理 | 10% | 边界案例通过率 |
146
+
147
+ 3. **胜者判定**:
148
+ - 综合得分高者胜出
149
+ - **平局时保留旧版本**(稳定性优先)
150
+ - 分差 < 5% 时建议人工评审
151
+
152
+ ### Phase 5: 发布审批
153
+
154
+ **自由区 skills**(skills/domain/):
155
+ - Layer 1+2 通过 → 自动发布
156
+ - 记录到 evolution-log.json
157
+
158
+ **受控区 skills**(skills/stages/):
159
+ - 生成变更提案
160
+ - 提交人工审批
161
+ - 审批通过后发布
162
+
163
+ **冻结区**:
164
+ - 不自动执行
165
+ - 仅记录建议
166
+
167
+ ---
168
+
169
+ ## 反模式清单
170
+
171
+ 1. **证据不足锻造**:支撑证据 < 3 条就锻造。检测:必须有 3+ 实例支撑
172
+ 2. **跳过基准验证**:不跑基准案例就发布。检测:基准验证是必选步骤
173
+ 3. **盲目替换**:不对比新旧版本直接替换。检测:迭代场景必须走竞技场对比
174
+ 4. **Description 泄漏**:description 包含工作流内容。检测:CSO 格式检查
175
+ 5. **反模式缺失**:新 skill 没有反模式清单。检测:反模式清单是必填项
176
+ 6. **过度泛化**:基于单一项目特有模式泛化。检测:判断复用层级
177
+
178
+ ---
179
+
180
+ ## 适用场景与边界
181
+
182
+ - 适用:新建 skill、迭代 skill、优化 description
183
+ - 不适用:方法论提取(用 methodology-extractor)、非 skill 类型文件
184
+
185
+ ---
186
+
187
+ ## 示例
188
+
189
+ ### 新建示例
190
+
191
+ ```
192
+ 触发:practice-log 记录了 5 次"需求冲突检测"模式
193
+ 锻造:蒸馏为 skills/stages/req-conflict-detector.md
194
+ 验证:通过基准案例测试
195
+ 发布:受控区变更提案,人工审批后合入
196
+ ```
197
+
198
+ ### 迭代示例
199
+
200
+ ```
201
+ 触发:code-reviewer 连续 3 次漏判 SQL 注入
202
+ 锻造:补充安全检查步骤
203
+ 竞技场:新版 vs 旧版盲评,新版胜出
204
+ 发布:受控区变更提案,人工审批后合入
205
+ ```
206
+
207
+ ### Description 优化示例
208
+
209
+ ```
210
+ 触发:某 skill 触发准确率仅 55%
211
+ 分析:误触发案例 5 个,漏触发案例 3 个
212
+ 优化:重写 description,聚焦用户意图
213
+ 验证:触发准确率提升至 85%
214
+ 发布:自动发布,记录到 evolution-log
215
+ ```
216
+
217
+ ---
218
+
219
+ ## 参考文档
220
+
221
+ - `references/skill-template.md` — skill 标准模板
222
+ - `references/description-guide.md` — CSO description 编写指南
223
+ - `references/quality-rubric.md` — skill 质量评分标准
@@ -0,0 +1,92 @@
1
+ # CSO Description 编写指南
2
+
3
+ ## 什么是 CSO?
4
+
5
+ **C**ondition(条件)+ **S**ignal(信号)+ **O**nly(仅此)
6
+
7
+ CSO 是 AutoSpec skill description 的编写原则,确保 description 只包含触发条件,不包含工作流摘要。
8
+
9
+ ## 为什么需要 CSO?
10
+
11
+ 1. **避免膨胀**:description 是注入到每次对话的,过长会浪费 token
12
+ 2. **精准触发**:只写触发条件,让 Claude 更容易判断是否应该使用这个 skill
13
+ 3. **避免混淆**:不写工作流摘要,防止 Claude 误以为 description 就是完整指令
14
+
15
+ ## CSO 格式
16
+
17
+ ```
18
+ When [触发条件] — triggers [skill 名称/功能]
19
+ ```
20
+
21
+ ## 示例对比
22
+
23
+ ### ❌ 错误示例(包含工作流摘要)
24
+
25
+ ```
26
+ 这个 skill 帮助你分析用户需求,生成需求文档。它会执行11维扫描,
27
+ 包括功能完整性、边界条件、性能需求等,然后生成结构化的需求文档...
28
+ ```
29
+
30
+ 问题:
31
+ - 包含工作流摘要
32
+ - 过长(浪费 token)
33
+ - 触发条件不明确
34
+
35
+ ### ✅ 正确示例(CSO 格式)
36
+
37
+ ```
38
+ When analyzing user requirements to generate requirement specs — triggers requirement analysis pipeline.
39
+ ```
40
+
41
+ 优点:
42
+ - 触发条件明确
43
+ - 简洁(节省 token)
44
+ - 不包含工作流内容
45
+
46
+ ## 编写技巧
47
+
48
+ ### 1. 从用户意图出发
49
+
50
+ ```
51
+ ❌ When the user wants to use the requirement-analyzer skill
52
+ ✅ When analyzing user requirements to generate requirement specs
53
+ ```
54
+
55
+ ### 2. 使用 When... — triggers... 句式
56
+
57
+ ```
58
+ When [用户在做什么] — triggers [skill 提供什么能力]
59
+ ```
60
+
61
+ ### 3. 避免包含实现细节
62
+
63
+ ```
64
+ ❌ When the user needs to run 11-dimension scan on requirements
65
+ ✅ When analyzing user requirements for completeness and consistency
66
+ ```
67
+
68
+ ### 4. 长度控制在 200 字符以内
69
+
70
+ ```
71
+ ❌ When the user is working on a complex project that involves multiple subsystems including backend, frontend, and AI components, and needs to coordinate the development process across these subsystems — triggers multi-system development pipeline
72
+ ✅ When developing features spanning multiple subsystems (backend/frontend/AI) — triggers multi-system coordination pipeline
73
+ ```
74
+
75
+ ## 触发准确率优化
76
+
77
+ 如果 description 触发准确率 < 70%:
78
+
79
+ 1. **误触发**(不该触发但触发了):
80
+ - 检查 description 是否过于宽泛
81
+ - 添加排除条件
82
+
83
+ 2. **漏触发**(该触发但没触发):
84
+ - 检查 description 是否过于具体
85
+ - 添加更多触发场景
86
+
87
+ ## 反模式
88
+
89
+ 1. **工作流泄漏**:description 包含执行步骤
90
+ 2. **过度推销**:使用"强大的"、"完美的"等修饰词
91
+ 3. **模糊触发**:使用"当需要时"、"如果用户想要"等模糊表达
92
+ 4. **技术术语滥用**:使用只有开发者理解的术语
@@ -0,0 +1,104 @@
1
+ # Skill 质量评分标准
2
+
3
+ 本文档定义 skill 质量的评分维度和标准,用于基准评测和版本对比。
4
+
5
+ ## 评分维度
6
+
7
+ | 维度 | 权重 | 说明 |
8
+ |------|------|------|
9
+ | 输出质量 | 40% | 产出物的完整性和准确性 |
10
+ | 执行效率 | 20% | 步骤精简度、时间效率 |
11
+ | 错误率 | 30% | 反模式触发次数、回退次数 |
12
+ | 边界处理 | 10% | 边界案例处理能力 |
13
+
14
+ ## 详细评分标准
15
+
16
+ ### 输出质量(40%)
17
+
18
+ | 分数 | 标准 |
19
+ |------|------|
20
+ | 5 分 | 产出物完整、准确、可直接使用 |
21
+ | 4 分 | 产出物完整,有轻微瑕疵但可接受 |
22
+ | 3 分 | 产出物基本完整,需要少量修改 |
23
+ | 2 分 | 产出物不完整,需要大量修改 |
24
+ | 1 分 | 产出物严重缺失或错误 |
25
+
26
+ ### 执行效率(20%)
27
+
28
+ | 分数 | 标准 |
29
+ |------|------|
30
+ | 5 分 | 步骤精简,无冗余操作 |
31
+ | 4 分 | 步骤合理,有少量冗余 |
32
+ | 3 分 | 步骤较多,但能完成任务 |
33
+ | 2 分 | 步骤繁琐,效率低下 |
34
+ | 1 分 | 步骤混乱,无法完成任务 |
35
+
36
+ ### 错误率(30%)
37
+
38
+ | 分数 | 标准 |
39
+ |------|------|
40
+ | 5 分 | 无反模式触发,无回退 |
41
+ | 4 分 | 反模式触发 1 次,回退 1 次 |
42
+ | 3 分 | 反模式触发 2 次,回退 2 次 |
43
+ | 2 分 | 反模式触发 3 次,回退 3 次 |
44
+ | 1 分 | 反模式触发 > 3 次,回退 > 3 次 |
45
+
46
+ ### 边界处理(10%)
47
+
48
+ | 分数 | 标准 |
49
+ |------|------|
50
+ | 5 分 | 所有边界案例正确处理 |
51
+ | 4 分 | 大部分边界案例正确处理 |
52
+ | 3 分 | 基本边界案例正确处理 |
53
+ | 2 分 | 边界案例处理有问题 |
54
+ | 1 分 | 边界案例完全无法处理 |
55
+
56
+ ## 综合得分计算
57
+
58
+ ```
59
+ 综合得分 = 输出质量 × 0.4 + 执行效率 × 0.2 + 错误率 × 0.3 + 边界处理 × 0.1
60
+ ```
61
+
62
+ ## 胜者判定规则
63
+
64
+ 1. **综合得分高者胜出**
65
+ 2. **平局时保留旧版本**(稳定性优先)
66
+ 3. **分差 < 5% 时建议人工评审**
67
+
68
+ ## 基准案例选择
69
+
70
+ 基准案例应覆盖:
71
+
72
+ 1. **典型场景**:skill 最常见的使用场景
73
+ 2. **边界场景**:极端输入、异常情况
74
+ 3. **竞争场景**:与其他 skill 可能混淆的场景
75
+
76
+ 每个 skill 至少需要 **3 个基准案例**。
77
+
78
+ ## 评测报告格式
79
+
80
+ ```markdown
81
+ ## 基准评测报告
82
+
83
+ ### 基本信息
84
+ - 评测时间:{ISO 8601}
85
+ - skill 名称:{name}
86
+ - 基准案例数:{N}
87
+
88
+ ### 逐维度得分
89
+ | 维度 | 得分 | 说明 |
90
+ |------|------|------|
91
+ | 输出质量 | X/5 | ... |
92
+ | 执行效率 | X/5 | ... |
93
+ | 错误率 | X/5 | ... |
94
+ | 边界处理 | X/5 | ... |
95
+
96
+ ### 综合得分
97
+ **{综合得分}/5**
98
+
99
+ ### 问题清单
100
+ - ...
101
+
102
+ ### 建议改进
103
+ - ...
104
+ ```
@@ -0,0 +1,106 @@
1
+ # Skill 标准模板
2
+
3
+ 本文档定义 AutoSpec skill 的标准结构,融合 AutoSpec 和 Anthropic skill-creator 的最佳实践。
4
+
5
+ ## 文件结构
6
+
7
+ ```
8
+ skill-name/
9
+ ├── SKILL.md (必须)
10
+ │ ├── YAML frontmatter
11
+ │ └── Markdown 内容
12
+ └── references/ (可选)
13
+ └── 补充文档
14
+ ```
15
+
16
+ ## SKILL.md 模板
17
+
18
+ ```markdown
19
+ ---
20
+ name: skill-name
21
+ description: "CSO 格式的触发条件描述,只写何时触发,不写工作流摘要"
22
+ type: produce | review
23
+ ---
24
+
25
+ # Skill 标题
26
+
27
+ ## 定位
28
+
29
+ 一句话说明这个 skill 是什么,解决什么问题。
30
+
31
+ ## 跳过条件(可选)
32
+
33
+ 什么情况下不触发这个 skill。
34
+
35
+ ## 输入
36
+
37
+ - 必须输入:...
38
+ - 可选输入:...
39
+
40
+ ## 输出
41
+
42
+ - 产出物:...
43
+ - 证据清单:...
44
+
45
+ ## 执行步骤 / 评审步骤
46
+
47
+ 1. **步骤一**:...
48
+ - 预期产出:...
49
+ - 失败处理:...
50
+ 2. **步骤二**:...
51
+
52
+ ## 反模式清单
53
+
54
+ 1. **反模式名称**:描述。检测:如何发现
55
+ 2. ...
56
+
57
+ ## 适用场景与边界
58
+
59
+ - 适用:...
60
+ - 不适用:...
61
+
62
+ ## 示例
63
+
64
+ **触发**:...
65
+ **执行**:...
66
+ **输出**:...
67
+ ```
68
+
69
+ ## Frontmatter 规范
70
+
71
+ | 字段 | 必须 | 说明 |
72
+ |------|------|------|
73
+ | name | 是 | skill 标识符,小写-连字符格式 |
74
+ | description | 是 | CSO 格式触发条件,≤ 200 字符 |
75
+ | type | 是 | `produce`(做类)或 `review`(审类) |
76
+
77
+ ## CSO Description 原则
78
+
79
+ **C**ondition(条件)+ **S**ignal(信号)+ **O**nly(仅此)
80
+
81
+ ```
82
+ ❌ 错误:这个 skill 帮助你分析需求,生成需求文档,包含11维扫描...
83
+ ✅ 正确:When analyzing user requirements to generate requirement specs — triggers requirement analysis pipeline.
84
+ ```
85
+
86
+ ## 反模式清单要求
87
+
88
+ - 最少 5 条
89
+ - 包含:反模式名称 + 描述 + 检测方法
90
+ - 区分:通用反模式 + skill 特有反模式
91
+
92
+ ## 渐进式加载
93
+
94
+ 1. **Metadata 层**:name + description(~100 字符)
95
+ 2. **SKILL.md 层**:完整内容(< 500 行)
96
+ 3. **References 层**:补充文档(按需加载)
97
+
98
+ ## 质量检查清单
99
+
100
+ - [ ] frontmatter 完整
101
+ - [ ] description 符合 CSO 格式
102
+ - [ ] 输入/输出定义清晰
103
+ - [ ] 步骤可操作
104
+ - [ ] 反模式清单 >= 5 条
105
+ - [ ] 包含完整示例
106
+ - [ ] 与现有 skills 无重叠冲突