npm - @chongyan/autospec - Versions diffs - 1.0.1 - Mend

@chongyan/autospec 1.0.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (243) hide show

package/LICENSE +21 -0
package/README.en.md +472 -0
package/README.md +476 -0
package/bin/autospec.js +3 -0
package/knowledge/README.md +144 -0
package/knowledge/checklists/code.md +182 -0
package/knowledge/checklists/design.md +196 -0
package/knowledge/checklists/release.md +70 -0
package/knowledge/checklists/requirement.md +169 -0
package/knowledge/checklists/test.md +46 -0
package/knowledge/config/README.en.md +44 -0
package/knowledge/config/README.md +44 -0
package/knowledge/config/role-composition.yaml +98 -0
package/knowledge/config/role-extensions.yaml +140 -0
package/knowledge/config/skill-compositions.yaml +142 -0
package/knowledge/config/team-stage.yaml +95 -0
package/knowledge/config/team-tasks.yaml +139 -0
package/knowledge/config/team-triggers.yaml +198 -0
package/knowledge/config/validation-patterns.yaml +137 -0
package/knowledge/domain/README.md +115 -0
package/knowledge/domain/flows/README.md +194 -0
package/knowledge/domain/glossary.md +143 -0
package/knowledge/domain/rules.md +138 -0
package/knowledge/environment/README.en.md +36 -0
package/knowledge/environment/README.md +87 -0
package/knowledge/environment/component-knowledge.md +316 -0
package/knowledge/environment/detection-patterns.yaml +502 -0
package/knowledge/environment/middleware-knowledge.md +237 -0
package/knowledge/environment/template-registry.md +321 -0
package/knowledge/guides/domain-driven-design.md +345 -0
package/knowledge/guides/knowledge-management.md +369 -0
package/knowledge/guides/requirement-engineering.md +329 -0
package/knowledge/guides/stages/ai-effect-evaluator.md +93 -0
package/knowledge/guides/stages/code-implementer.md +205 -0
package/knowledge/guides/stages/code-reviewer.md +111 -0
package/knowledge/guides/stages/consistency-checker.md +177 -0
package/knowledge/guides/stages/design-planner.md +401 -0
package/knowledge/guides/stages/design-reviewer.md +83 -0
package/knowledge/guides/stages/integration-test-runner.md +105 -0
package/knowledge/guides/stages/release-checker.md +205 -0
package/knowledge/guides/stages/requirement-analyzer.md +195 -0
package/knowledge/guides/stages/requirement-reviewer.md +83 -0
package/knowledge/guides/stages/security-reviewer.md +89 -0
package/knowledge/guides/stages/test-context-analyzer.md +250 -0
package/knowledge/guides/stages/test-generator.md +241 -0
package/knowledge/guides/stages/test-planner.md +183 -0
package/knowledge/guides/stages/test-reviewer.md +76 -0
package/knowledge/guides/stages/unit-test-runner.md +83 -0
package/knowledge/guides/support/ai-agent-analyzer.md +362 -0
package/knowledge/guides/support/ai-anomaly-analyzer.md +213 -0
package/knowledge/guides/support/ai-artifact-evaluator.md +192 -0
package/knowledge/guides/support/ai-capability-analyzer.md +193 -0
package/knowledge/guides/support/ai-component-analyzer.md +169 -0
package/knowledge/guides/support/ai-data-validator.md +276 -0
package/knowledge/guides/support/ai-evaluation-planner.md +374 -0
package/knowledge/guides/support/ai-path-evaluator.md +274 -0
package/knowledge/guides/support/ai-pipeline-evaluator.md +219 -0
package/knowledge/guides/support/ai-rag-analyzer.md +339 -0
package/knowledge/guides/support/ai-task-assessor.md +418 -0
package/knowledge/guides/support/ai-test-diagnostics.md +133 -0
package/knowledge/guides/support/complexity-assessor.md +268 -0
package/knowledge/guides/support/component-discovery.md +183 -0
package/knowledge/guides/support/environment-scanner.md +207 -0
package/knowledge/guides/support/environment-validator.md +207 -0
package/knowledge/guides/support/knowledge-generator.md +234 -0
package/knowledge/guides/support/methodology-extractor.md +55 -0
package/knowledge/guides/support/pipeline-protocol.md +438 -0
package/knowledge/guides/support/practice-logger.md +359 -0
package/knowledge/guides/support/scope-inference.md +174 -0
package/knowledge/guides/support/skill-distiller.md +91 -0
package/knowledge/guides/support/skill-updater.md +45 -0
package/knowledge/guides/support/skill-validator.md +72 -0
package/knowledge/guides/support/team-orchestrator.md +323 -0
package/knowledge/guides/support/tech-stack-analyzer.md +139 -0
package/knowledge/guides/support/test-runner.md +254 -0
package/knowledge/guides/system-design.md +352 -0
package/knowledge/organization/ai-native-team.md +318 -0
package/knowledge/organization/team-metrics.md +228 -0
package/knowledge/principles/constitution.md +134 -0
package/knowledge/principles/core-principles.md +368 -0
package/knowledge/principles/design-philosophy.md +877 -0
package/knowledge/principles/evolution.md +553 -0
package/knowledge/process/01-requirement.md +113 -0
package/knowledge/process/02-design.md +123 -0
package/knowledge/process/03-implementation.md +90 -0
package/knowledge/process/04-review.md +80 -0
package/knowledge/process/05-testing.md +90 -0
package/knowledge/process/06-delivery.md +88 -0
package/knowledge/process/README.en.md +38 -0
package/knowledge/process/README.md +48 -0
package/knowledge/process/ai-sdlc.md +475 -0
package/knowledge/process/overview.md +319 -0
package/knowledge/standards/code-review.md +876 -0
package/knowledge/standards/coding-style.md +940 -0
package/knowledge/standards/data-consistency.md +1085 -0
package/knowledge/standards/document-versioning.md +210 -0
package/knowledge/standards/risk-detection.md +186 -0
package/knowledge/templates/ai-evaluation.md +150 -0
package/knowledge/templates/api-design.md +117 -0
package/knowledge/templates/database-design.md +132 -0
package/knowledge/templates/domain-driven-design.md +321 -0
package/knowledge/templates/product-proposal.md +201 -0
package/knowledge/templates/system-design.md +227 -0
package/knowledge/templates/task-breakdown.md +107 -0
package/knowledge/templates/test-case.md +170 -0
package/package.json +53 -0
package/plugins/.claude-plugin/plugin.json +134 -0
package/plugins/agents/roles/ai-engineer.md +129 -0
package/plugins/agents/roles/backend-engineer.md +165 -0
package/plugins/agents/roles/ceo.md +94 -0
package/plugins/agents/roles/data-engineer.md +135 -0
package/plugins/agents/roles/devops-engineer.md +181 -0
package/plugins/agents/roles/frontend-engineer.md +129 -0
package/plugins/agents/roles/product-owner.md +98 -0
package/plugins/agents/roles/quality-engineer.md +129 -0
package/plugins/agents/roles/security-engineer.md +180 -0
package/plugins/agents/roles/tech-lead.md +97 -0
package/plugins/agents/support/blind-comparator.md +88 -0
package/plugins/agents/support/consistency-checker.md +103 -0
package/plugins/agents/support/failure-diagnostician.md +141 -0
package/plugins/agents/support/independent-reviewer.md +80 -0
package/plugins/agents/support/safety-auditor.md +121 -0
package/plugins/agents/support/skill-benchmarker.md +86 -0
package/plugins/agents/support/skill-forger.md +105 -0
package/plugins/agents/support/stage-gate-evaluator.md +121 -0
package/plugins/agents/support/test-coverage-reviewer.md +73 -0
package/plugins/benchmarks/templates/README.md +44 -0
package/plugins/benchmarks/templates/commands/explore-template.yaml +48 -0
package/plugins/benchmarks/templates/pipeline/agile-template.yaml +84 -0
package/plugins/benchmarks/templates/pipeline/waterfall-template.yaml +106 -0
package/plugins/benchmarks/templates/skills/requirement-analyzer-template.yaml +48 -0
package/plugins/commands/README.en.md +96 -0
package/plugins/commands/README.md +96 -0
package/plugins/commands/apply.md +191 -0
package/plugins/commands/archive.md +76 -0
package/plugins/commands/env-export.md +79 -0
package/plugins/commands/env-sync.md +640 -0
package/plugins/commands/env-template.md +223 -0
package/plugins/commands/env-update.md +264 -0
package/plugins/commands/env-validate.md +176 -0
package/plugins/commands/env.md +79 -0
package/plugins/commands/explore.md +76 -0
package/plugins/commands/field-evolve.md +536 -0
package/plugins/commands/memory.md +249 -0
package/plugins/commands/project-evolve.md +821 -0
package/plugins/commands/propose.md +93 -0
package/plugins/commands/review.md +140 -0
package/plugins/commands/run.md +224 -0
package/plugins/commands/status.md +62 -0
package/plugins/commands/validate.md +108 -0
package/plugins/hooks/README.en.md +56 -0
package/plugins/hooks/README.md +56 -0
package/plugins/hooks/ai-project-guard.js +329 -0
package/plugins/hooks/artifact-evaluation-hook.js +237 -0
package/plugins/hooks/constitution-guard.js +211 -0
package/plugins/hooks/environment-autocommit.js +264 -0
package/plugins/hooks/environment-manager.js +778 -0
package/plugins/hooks/execution-tracker.js +354 -0
package/plugins/hooks/frozen-zone-guard.js +140 -0
package/plugins/hooks/layer1-validator.js +423 -0
package/plugins/hooks/lib/artifact-evaluator.js +414 -0
package/plugins/hooks/lib/benchmarks/change-detector.js +390 -0
package/plugins/hooks/lib/benchmarks/evaluator.js +605 -0
package/plugins/hooks/lib/benchmarks/integration-example.js +169 -0
package/plugins/hooks/lib/data-and-ai-detector.js +275 -0
package/plugins/hooks/lib/detection-pattern-loader.js +865 -0
package/plugins/hooks/lib/directory-discovery.js +395 -0
package/plugins/hooks/lib/environment-config-loader.js +341 -0
package/plugins/hooks/lib/environment-detector.js +553 -0
package/plugins/hooks/lib/environment-evolver.js +564 -0
package/plugins/hooks/lib/environment-registry.js +813 -0
package/plugins/hooks/lib/execution-path.js +427 -0
package/plugins/hooks/lib/hook-error-recorder.js +245 -0
package/plugins/hooks/lib/hook-logger.js +538 -0
package/plugins/hooks/lib/hook-runner.js +97 -0
package/plugins/hooks/lib/hook-runner.sh +44 -0
package/plugins/hooks/lib/hook-state-manager.js +480 -0
package/plugins/hooks/lib/memory-extractor.js +377 -0
package/plugins/hooks/lib/memory-manager.js +673 -0
package/plugins/hooks/lib/metrics-analyzer.js +489 -0
package/plugins/hooks/lib/project-evolution/auto-fixer.js +511 -0
package/plugins/hooks/lib/project-evolution/memory-manager.js +346 -0
package/plugins/hooks/lib/project-evolution/pattern-detector.js +476 -0
package/plugins/hooks/lib/project-evolution/semantic-indexer.js +480 -0
package/plugins/hooks/lib/project-structure-detector.js +326 -0
package/plugins/hooks/lib/rollback-tracker.js +346 -0
package/plugins/hooks/lib/source-code-scanner.js +596 -0
package/plugins/hooks/lib/technology-stack-detector.js +374 -0
package/plugins/hooks/lib/test-failure-analyzer.js +375 -0
package/plugins/hooks/lib/test-failure-fixer.js +268 -0
package/plugins/hooks/lib/trace-context.js +277 -0
package/plugins/hooks/lib/validation-patterns.js +415 -0
package/plugins/hooks/memory-sync.js +171 -0
package/plugins/hooks/pipeline-observer.js +413 -0
package/plugins/hooks/scope-sentinel.js +204 -0
package/plugins/hooks/trace-initialization.js +169 -0
package/plugins/memory/templates/code-quality.yaml +149 -0
package/plugins/memory/templates/multi-system.yaml +155 -0
package/plugins/memory/templates/team-habits.yaml +119 -0
package/plugins/memory/templates/testing.yaml +121 -0
package/plugins/skills/README.en.md +47 -0
package/plugins/skills/README.md +104 -0
package/plugins/skills/benchmark-executor/README.md +93 -0
package/plugins/skills/benchmark-executor/SKILL.md +647 -0
package/plugins/skills/benchmark-generator/SKILL.md +349 -0
package/plugins/skills/delivery-stage/SKILL.md +203 -0
package/plugins/skills/design-stage/SKILL.md +216 -0
package/plugins/skills/evolution-process/SKILL.md +291 -0
package/plugins/skills/exploration-phase/SKILL.md +133 -0
package/plugins/skills/implementation-stage/SKILL.md +179 -0
package/plugins/skills/layer1-validation/SKILL.md +79 -0
package/plugins/skills/pending-dashboard/SKILL.md +109 -0
package/plugins/skills/project-evolution/SKILL.md +847 -0
package/plugins/skills/requirement-stage/SKILL.md +183 -0
package/plugins/skills/skill-forge/SKILL.md +223 -0
package/plugins/skills/skill-forge/references/description-guide.md +92 -0
package/plugins/skills/skill-forge/references/quality-rubric.md +104 -0
package/plugins/skills/skill-forge/references/skill-template.md +106 -0
package/plugins/skills/startup-guard/SKILL.md +38 -0
package/plugins/skills/testing-stage/SKILL.md +195 -0
package/scripts/cli/global-init.js +288 -0
package/scripts/cli/global.js +324 -0
package/scripts/cli/index.js +55 -0
package/scripts/cli/init.js +382 -0
package/scripts/cli/list.js +69 -0
package/scripts/cli/org.js +340 -0
package/scripts/cli/update.js +44 -0
package/scripts/config/commands.config.js +145 -0
package/scripts/config/hooks.config.js +197 -0
package/scripts/evolution/evolution-router.js +273 -0
package/scripts/evolution/evolution-signal-collector.js +307 -0
package/scripts/evolution/knowledge-loader.js +346 -0
package/scripts/evolution/marketplace.js +317 -0
package/scripts/evolution/version-manager.js +371 -0
package/scripts/install/agents.js +106 -0
package/scripts/install/commands.js +133 -0
package/scripts/install/constants.js +424 -0
package/scripts/install/hook-logger.js +536 -0
package/scripts/install/hooks.js +110 -0
package/scripts/install/index.js +39 -0
package/scripts/install/skills.js +95 -0
package/scripts/postinstall.js +25 -0
package/scripts/state.js +376 -0

package/plugins/agents/support/skill-forger.md ADDED Viewed

@@ -0,0 +1,105 @@
+---
+name: skill-forger
+description: "AutoSpec 技能锻造 Agent。当需要执行 skill 蒸馏、迭代或优化时触发，负责草稿锻造和验证流程。"
+tools: Read, Glob, Grep, Bash, Write
+disallowedTools: Edit, Agent
+model: opus
+maxTurns: 50
+---
+# AutoSpec 技能锻造 Agent
+你是一个**技能锻造 Agent**，负责执行 skill 的蒸馏、迭代和优化。
+## 你的身份
+- 你是**生产者**，负责创建和修改 skill
+- 你遵循 skill-forge 的锻造流水线
+- 你的产出物需要经过 skill-validator 和 skill-benchmarker 验证
+## 锻造流程
+### Phase 1: 信号诊断
+1. 读取触发信号来源（practice-log / 反馈数据）
+2. 收集至少 **3 条**支撑证据
+3. 判断目标 skill 的进化分区
+### Phase 2: 草稿锻造
+**场景A：蒸馏新建**
+执行三场景蒸馏：
+1. **流程蒸馏**：从执行轨迹识别可复用模式
+2. **业务蒸馏**：从业务知识提取领域技能
+3. **测试知识蒸馏**：从测试执行中学习
+输出符合模板的 skill 草稿。
+**场景B：迭代进化**
+1. 收集该 skill 相关的所有反馈数据
+2. 分析问题模式
+3. 生成修改建议
+4. 执行修改
+**场景C：Description 优化**
+1. 分析误触发/漏触发案例
+2. 生成优化后的 description
+3. 验证 CSO 格式
+### Phase 3: 输出
+生成锻造报告：
+```markdown
+## 锻造报告
+### 基本信息
+- 锻造时间：{ISO 8601}
+- 锻造场景：{新建/迭代/优化}
+- 目标 skill：{path}
+### 证据清单
+| 序号 | 来源 | 内容摘要 |
+|------|------|----------|
+| 1 | practice-log/003 | ... |
+| 2 | ... | ... |
+### 变更内容
+- ...
+### 下一步
+- [ ] Layer 1 验证（skill-validator）
+- [ ] Layer 2 验证（skill-benchmarker）
+- [ ] 竞技场对比（如适用）
+```
+## 质量标准
+### CSO Description
+```
+When [触发条件] — triggers [skill 功能]
+```
+- 只写触发条件，不写工作流摘要
+- 长度 ≤ 200 字符
+### 反模式清单
+- 最少 **5 条**
+- 包含：反模式名称 + 描述 + 检测方法
+### 执行步骤
+- 可操作（人或 AI 能直接执行）
+- 包含预期产出和失败处理
+## 禁止行为
+- 不可在证据 < 3 条时锻造
+- 不可跳过 CSO 格式验证
+- 不可省略反模式清单
+- 不可修改冻结区文件

package/plugins/agents/support/stage-gate-evaluator.md ADDED Viewed

@@ -0,0 +1,121 @@
+---
+name: stage-gate-evaluator
+description: "AutoSpec 阶段门禁Agent。在每个流水线阶段完成后，独立评估产出物是否达到准出标准。适用于所有执行模式，交互模式提供评估建议，自主模式替代人工确认。"
+tools: Read, Glob, Grep, Bash, Write
+disallowedTools: Edit, Agent
+model: opus
+maxTurns: 20
+---
+# AutoSpec 阶段门禁Agent
+你是一个**独立的阶段门禁Agent**，负责在流水线阶段完成后评估产出物是否可以进入下一阶段。
+## 你的身份
+- 你是**质量守门人**，独立于生产Agent和审查Agent
+- 你的判断基于：阶段产出物 + 精炼契约 + 准出标准
+- 对应设计原则：DP1（双层验证）的最终把关环节
+## 自主级别适配
+根据传入的自主级别，你的评估结果有不同的处理方式：
+| 级别 | 评估结果处理 |
+|------|-------------|
+| **交互模式** | 提供结构化评估建议，**提交人工确认**。重点：列出关键风险点和建议 |
+| **自主模式** | 评估通过 → 自动进入下一阶段；评估不通过 → 进入精准回退 |
+**交互模式特别说明**：你的评估报告是人工决策的关键输入，必须：
+- 清晰列出所有检查项的通过/不通过状态
+- 对不通过项给出具体修复建议
+- 标注置信度和风险等级
+- 提供明确的"建议继续"或"建议回退"结论
+## 评估流程
+### Step 1: 确认上下文
+1. 读取 `.autospec/runtime/state.json` → 确认当前阶段和工作流类型
+2. 读取 `${KNOWLEDGE}/principles/constitution.md` → 加载红线（任何红线违规 = 直接 FAIL）
+3. 确定当前阶段的准出标准来源：
+   - Stage 01 需求分析 → `${KNOWLEDGE}/checklists/requirement.md`
+   - Stage 02 方案设计 → `${KNOWLEDGE}/checklists/design.md`
+   - Stage 03 编码实现 → `${KNOWLEDGE}/checklists/code.md`
+   - Stage 05 QA测试 → 测试报告 + 覆盖率要求
+   - Stage 06 交付部署 → `${KNOWLEDGE}/checklists/release.md`
+### Step 2: 检查 Layer 1 验证结果
+1. 从 `.autospec/runtime/state.json` 读取当前阶段的 Layer 1 执行记录
+2. 确认所有 Layer 1 项目状态为 PASS（有真实执行日志）
+3. 任何 Layer 1 项为 BLOCKED 或 FAIL → **门禁直接 FAIL**
+### Step 3: 检查 Layer 2 审查结果
+1. 确认 Layer 2 独立审查已执行（审查报告存在）
+2. 审查结论为"通过" → 继续
+3. 审查结论为"不通过" → 检查 blocking 项是否已修复
+### Step 4: 检查精炼契约完整性
+1. 确认当前阶段产出了精炼契约（下一阶段的输入）
+2. 契约包含：核心结论 + 关键决策 + 假设清单 + 风险标记
+3. 与上游契约做一致性比对（无矛盾、无遗漏）
+### Step 5: 宪法合规扫描
+逐条检查产出物是否触犯宪法红线，重点关注：
+- 敏感信息硬编码
+- 不可逆操作缺少确认机制
+- 安全漏洞
+- 测试结果伪造或缺失
+## 认知纪律
+- **CP5 置信度标注**：对每项判定标注置信度。不确定时标注"建议人工复核"
+- **CP4 逻辑链完整**：每个 FAIL 必须给出完整推理链：发现 → 依据 → 结论 → 修复路径
+- **CP10 自我质检**：评估完成前自问：我是否遗漏了关键检查项？我的 PASS 判定是否有充足证据？
+## 输出格式（必须严格遵循）
+```markdown
+## 阶段门禁评估：通过 / 不通过
+### 基本信息
+- 阶段：{Stage 名称}
+- 迭代模式：{waterfall/agile/experiment/hotfix}
+- 自主级别：{自主/交互}
+### Layer 1 验证状态
+| 检查项 | 状态 | 执行日志 |
+|--------|------|---------|
+| 编译检查 | PASS/FAIL/BLOCKED/N/A | {摘要} |
+| 测试执行 | PASS/FAIL/BLOCKED/N/A | {摘要} |
+| Lint检查 | PASS/FAIL/BLOCKED/N/A | {摘要} |
+| 类型检查 | PASS/FAIL/BLOCKED/N/A | {摘要} |
+### Layer 2 审查状态
+- 审查结论：{通过/不通过}
+- Blocking 项：{数量} — {是否已修复}
+### 准出标准逐项评估
+| 标准 | 状态 | 证据 | 备注 |
+|------|------|------|------|
+| ... | PASS/FAIL | {具体证据} | {说明} |
+### 宪法合规
+- {逐条扫描结果，仅列出有风险的项}
+### 精炼契约检查
+- 完整性：{完整/缺失字段列表}
+- 与上游一致性：{一致/存在偏差}
+### 总结
+- **结论**：{通过/不通过}
+- **理由**：{一句话}
+- **如不通过 — 修复路径**：{具体修复建议，按优先级排列}
+```
+## 禁止行为
+- **不可修改被评估的文件**（只能写入评估报告）
+- **不可启动子Agent**
+- **不可降低准出标准**（即使"差一点就通过了"）
+- **不可在没有 Layer 1 真实执行日志的情况下判 PASS**
+- **不可放过宪法违规** — 任何红线违规 = 直接 FAIL，无例外

package/plugins/agents/support/test-coverage-reviewer.md ADDED Viewed

@@ -0,0 +1,73 @@
+---
+name: test-coverage-reviewer
+description: "AutoSpec 测试审查专用Agent。当测试用例或测试报告完成、需要评审测试策略合理性和覆盖充分性时使用。与test-generator做审分离。"
+tools: Read, Glob, Grep, Bash
+disallowedTools: Write, Edit, Agent
+model: opus
+maxTurns: 20
+---
+# AutoSpec 测试审查Agent
+你是一个**独立的测试审查Agent**，专门负责评估测试策略和覆盖充分性。
+## 你的身份
+- 你是**测试审查者**，不是测试生成者
+- 你独立于 test-generator 运行（做审分离，DP2）
+- 你的核心职责是确保"测了该测的，而不是测了很多但关键的没测到"
+## 审查流程
+1. **加载审查标准**：读取 `${KNOWLEDGE}/guides/stages/test-reviewer.md`
+2. **加载需求文档**：逐条获取验收标准
+3. **加载测试用例和代码**：理解测试覆盖情况
+4. **加载测试执行报告**：确认执行结果
+5. **建立映射**：验收标准 → 测试用例 的覆盖映射表
+6. **逐项审查**：
+### 必须检查项
+- [ ] 需求文档中所有验收标准有对应的测试用例
+- [ ] 核心逻辑路径有测试覆盖
+- [ ] 所有测试执行结果为通过
+- [ ] 无严重级别的遗漏（Critical功能未测试）
+- [ ] 关键假设有对应的验证测试
+### 建议检查项
+- [ ] 边界条件有测试覆盖
+- [ ] 异常路径有测试覆盖
+- [ ] 测试用例描述清晰（步骤、预期结果明确）
+- [ ] 测试数据合理（不是全用默认值）
+- [ ] 没有过度mock（mock掉了真正需要测试的部分）
+## 输出格式
+```markdown
+## 测试审查结论：通过 / 不通过
+### 覆盖映射表
+| 验收标准 | 对应测试用例 | 覆盖状态 |
+|---------|------------|---------|
+| ... | ... | COVERED/MISSING/PARTIAL |
+### 逐项判定
+| 检查项 | 结论 | 证据 | 备注 |
+|--------|------|------|------|
+| ... | PASS/FAIL | {具体证据} | {修复建议} |
+### 覆盖缺口
+- {未被测试覆盖的需求点/场景}
+### 修复建议
+- {需要补充的测试用例方向}
+### 关键假设验证
+- 假设X：有对应测试/无对应测试（建议：...）
+```
+## 禁止行为
+- **不可修改任何文件**
+- **不可启动子Agent**
+- **不可参考测试生成过程的上下文**
+- **不可因为"覆盖率数字好看"就通过** — 覆盖率高但关键路径没测 = 不通过

package/plugins/benchmarks/templates/README.md ADDED Viewed

@@ -0,0 +1,44 @@
+# AutoSpec Benchmarks 模板
+本目录包含 field-evolve 使用的 benchmarks 模板。
+## 目录结构
+```
+plugins/benchmarks/templates/
+├── pipeline/          # 流程基准测试模板
+│   ├── waterfall-template.yaml
+│   └── agile-template.yaml
+├── commands/          # 命令基准测试模板
+│   └── explore-template.yaml
+└── skills/            # 技能基准测试模板
+    └── requirement-analyzer-template.yaml
+```
+## 使用方式
+1. **init 时自动复制**: 执行 `/init` 时，模板会自动复制到 `.autospec/benchmarks/`
+2. **手动复制**: 从模板目录复制到 `.autospec/benchmarks/` 后按需修改
+3. **自动生成**: 执行 `/autospec:field-evolve --mode=generate` 根据项目类型自动生成
+## 模板类型
+### Pipeline 模板
+用于测试完整流程的执行效果：
+- `waterfall-template.yaml`: 标准瀑布流开发
+- `agile-template.yaml`: 敏捷迭代开发
+### Command 模板
+用于测试单个命令的执行效果。
+### Skill 模板
+用于测试单个技能的执行效果。
+## 注意事项
+- 模板中的 `{project-name}` 需要替换为实际项目名称
+- 可根据项目特点调整复杂度、预期耗时等参数
+- 自定义检查点添加到 `custom.additionalChecks` 中

package/plugins/benchmarks/templates/commands/explore-template.yaml ADDED Viewed

@@ -0,0 +1,48 @@
+# AutoSpec Command Benchmark Template - Explore
+# 适用于: 测试 explore 命令
+# init 后复制到 .autospec/benchmarks/ 后按需修改
+version: "1.0"
+name: "command-explore"
+description: "Explore 命令基准测试"
+type: command
+target: explore
+testCases:
+  - name: "simple-feature"
+    input: "实现一个待办事项功能"
+    expected:
+      artifacts:
+        - "clarifications.md"
+        - "requirement.md"
+      quality:
+        minClarifications: 3
+        maxClarifications: 5
+        hasUserStories: true
+    maxDuration: 300
+  - name: "complex-feature"
+    input: "设计一个电商订单系统，支持多种支付方式、库存扣减、订单状态流转"
+    expected:
+      artifacts:
+        - "clarifications.md"
+        - "requirement.md"
+      quality:
+        minClarifications: 5
+        hasArchitectureConsideration: true
+    maxDuration: 600
+  - name: "ambiguous-requirement"
+    input: "做一个好用的后台管理系统"
+    expected:
+      artifacts:
+        - "clarifications.md"
+      quality:
+        minClarifications: 5
+        clarifiesAmbiguity: true
+    maxDuration: 300
+successCriteria:
+  passRate: 90
+  avgDuration: 400

package/plugins/benchmarks/templates/pipeline/agile-template.yaml ADDED Viewed

@@ -0,0 +1,84 @@
+# AutoSpec Pipeline Benchmark Template - Agile
+# 适用于: 敏捷迭代开发模式
+# init 后复制到 .autospec/benchmarks/ 后按需修改
+version: "1.0"
+name: "agile-{project-name}"
+description: "敏捷迭代开发模式 benchmark"
+type: pipeline
+scenario:
+  name: "敏捷迭代功能"
+  input: "在现有系统中添加一个评论功能"
+  complexity: 3
+  expectedStages:
+    - exploration
+    - requirement
+    - design
+    - implementation
+    - testing
+stageCriteria:
+  exploration:
+    expectedArtifacts:
+      - "clarifications.md"
+    layer1Check:
+      - "澄清问题已记录"
+    layer2Check:
+      - "问题质量"
+    maxDuration: 180
+  requirement:
+    expectedArtifacts:
+      - "requirement.md"
+    layer1Check:
+      - "字段完整性 >= 85%"
+    layer2Check:
+      - "需求清晰度"
+    maxDuration: 300
+  design:
+    expectedArtifacts:
+      - "design.md"
+    layer1Check:
+      - "设计文档存在"
+    layer2Check:
+      - "设计简洁性"
+    maxDuration: 300
+  implementation:
+    expectedArtifacts:
+      - "代码文件"
+    layer1Check:
+      - "编译通过"
+      - "测试通过"
+    layer2Check:
+      - "代码简洁"
+    maxDuration: 600
+  testing:
+    expectedArtifacts:
+      - "test-report.md"
+    layer1Check:
+      - "测试通过"
+    layer2Check:
+      - "覆盖关键路径"
+    maxDuration: 300
+pipelineMetrics:
+  expected:
+    totalDuration: 1680
+    maxRollbacks: 1
+    layer1PassRate: 85
+    layer2PassRate: 80
+    artifactCompletionRate: 90
+qualityThresholds:
+  pass:
+    overallScore: 75
+    layer1PassRate: 80
+    layer2PassRate: 75
+  excellent:
+    overallScore: 85
+    layer1PassRate: 90
+    layer2PassRate: 85

package/plugins/benchmarks/templates/pipeline/waterfall-template.yaml ADDED Viewed

@@ -0,0 +1,106 @@
+# AutoSpec Pipeline Benchmark Template - Waterfall
+# 适用于: 标准瀑布流开发模式
+# init 后复制到 .autospec/benchmarks/ 后按需修改
+version: "1.0"
+name: "waterfall-{project-name}"
+description: "标准瀑布流开发模式 benchmark"
+type: pipeline
+scenario:
+  name: "标准功能开发"
+  input: "实现一个用户管理模块，包含增删改查功能"
+  complexity: 5
+  expectedStages:
+    - exploration
+    - requirement
+    - design
+    - implementation
+    - testing
+    - delivery
+stageCriteria:
+  exploration:
+    expectedArtifacts:
+      - "clarifications.md"
+      - "requirement.md"
+    layer1Check:
+      - "文件存在性"
+      - "Schema 合规"
+    layer2Check:
+      - "需求完整性"
+      - "边界条件覆盖"
+    maxDuration: 300
+  requirement:
+    expectedArtifacts:
+      - "requirement.md"
+    layer1Check:
+      - "字段完整性 >= 90%"
+      - "无空值字段"
+    layer2Check:
+      - "需求可测试性"
+      - "验收标准明确"
+    maxDuration: 600
+  design:
+    expectedArtifacts:
+      - "design.md"
+      - "contracts/api.yaml"
+    layer1Check:
+      - "设计文档完整"
+      - "API 契约规范"
+    layer2Check:
+      - "架构合理性"
+      - "可扩展性评估"
+    maxDuration: 900
+  implementation:
+    expectedArtifacts:
+      - "代码文件"
+    layer1Check:
+      - "编译通过"
+      - "单元测试通过"
+      - "Lint 无错误"
+    layer2Check:
+      - "代码质量"
+      - "设计忠实度"
+    maxDuration: 1800
+  testing:
+    expectedArtifacts:
+      - "test-report.md"
+    layer1Check:
+      - "测试用例执行"
+      - "覆盖率达标"
+    layer2Check:
+      - "测试充分性"
+      - "边界覆盖"
+    maxDuration: 600
+  delivery:
+    expectedArtifacts:
+      - "delivery.md"
+    layer1Check:
+      - "文档完整"
+    layer2Check:
+      - "发布就绪性"
+    maxDuration: 300
+pipelineMetrics:
+  expected:
+    totalDuration: 4500
+    maxRollbacks: 2
+    layer1PassRate: 90
+    layer2PassRate: 85
+    artifactCompletionRate: 95
+qualityThresholds:
+  pass:
+    overallScore: 80
+    layer1PassRate: 85
+    layer2PassRate: 80
+  excellent:
+    overallScore: 90
+    layer1PassRate: 95
+    layer2PassRate: 90

package/plugins/benchmarks/templates/skills/requirement-analyzer-template.yaml ADDED Viewed

@@ -0,0 +1,48 @@
+# AutoSpec Skill Benchmark Template - Requirement Analyzer
+# 适用于: 测试 requirement-stage skill
+# init 后复制到 .autospec/benchmarks/ 后按需修改
+version: "1.0"
+name: "skill-requirement-analyzer"
+description: "Requirement Analyzer Skill 基准测试"
+type: skill
+target: requirement-stage
+testCases:
+  - name: "basic-requirement"
+    input:
+      context: "实现用户登录功能"
+      clarifications:
+        - "支持用户名密码登录"
+        - "需要记住密码功能"
+        - "支持手机号验证码登录"
+    expected:
+      artifacts:
+        - "requirement.md"
+      quality:
+        fieldCompletionRate: 90
+        hasAcceptanceCriteria: true
+        hasBoundaryConditions: true
+    maxDuration: 600
+  - name: "complex-requirement"
+    input:
+      context: "实现电商订单系统"
+      clarifications:
+        - "支持多种支付方式"
+        - "需要库存扣减"
+        - "支持订单取消和退款"
+    expected:
+      artifacts:
+        - "requirement.md"
+      quality:
+        fieldCompletionRate: 95
+        hasAcceptanceCriteria: true
+        hasBoundaryConditions: true
+        hasAssumptions: true
+    maxDuration: 900
+successCriteria:
+  passRate: 85
+  avgFieldCompletion: 90