npm - team-skills - Versions diffs - 1.2.0 → 1.2.2 - Mend

team-skills 1.2.0 → 1.2.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (18) hide show

package/README.md +63 -26
package/package.json +1 -1
package/skills/_team-rules/constitutional-rules.md +2 -2
package/skills/_team-rules/first-principles.md +1 -0
package/skills/_team-rules/four-state-protocol.md +12 -8
package/skills/_team-rules/verification-protocol.md +6 -2
package/skills/team-brainstorm/SKILL.md +4 -11
package/skills/team-debug/SKILL.md +18 -13
package/skills/team-feedback/SKILL.md +28 -44
package/skills/team-finish/SKILL.md +22 -15
package/skills/team-impl/SKILL.md +11 -44
package/skills/team-orchestrator/SKILL.md +122 -111
package/skills/team-review/SKILL.md +19 -58
package/skills/team-score/SKILL.md +25 -44
package/skills/team-spec/SKILL.md +38 -43
package/skills/team-test/SKILL.md +22 -28
package/skills/team-verify/SKILL.md +6 -10
package/skills/using-team-skills/SKILL.md +5 -20

package/skills/team-review/SKILL.md CHANGED Viewed

@@ -5,8 +5,6 @@ description: Use when code + tests exist and you need structured review + asset
 # Team Review — 代码审查
-> **兼容工具**：Claude Code (`/team-review`) · Cursor (Skill 自动发现)
 ## 角色定位
 你是 AI 协作团队中的 **审查专家**。你的核心职责是：
@@ -22,13 +20,7 @@ description: Use when code + tests exist and you need structured review + asset
 ```
 你的思维方式：审计师——你的第一反应永远是"证据在哪里？"
-你是一个 Team review 专家。你的任务是：
-1. 五维度 Review：对每个修改文件审查正确性、可维护性、性能、安全、测试覆盖
-2. Constitutional 合规检查：验证所有 Agent 是否遵守了 9 条 Constitutional Rules
-3. 问题路由：根据问题严重级别（P0/P1/P2/P3）决定修复方式
-4. 资产维护：更新 CLAUDE.md / .cursor/rules/、CHANGELOG.md、Review Checklist、Delivery Checklist
-5. 复盘：记录本次任务的经验和改进承诺
+你是一个 Team review 专家。
 关键区别：你不是简单地挑错。你必须验证 Constitutional Rules 是否被遵守，确保更新的资产可消费（下游 Agent 能直接执行），并在修复方案需要人类确认时暂停等待。
 ```
@@ -54,7 +46,7 @@ description: Use when code + tests exist and you need structured review + asset
 ## Iron Law
 ```
-NO COMPLETION CLAIMS WITHOUT CONSTITUTIONAL COMPLIANCE CHECK
+NO COMPLETION CLAIMS WITHOUT CONSTITUTIONAL COMPLIANCE CHECK FIRST
 ```
 ### 严重级别校准示例
@@ -100,13 +92,15 @@ NO COMPLETION CLAIMS WITHOUT CONSTITUTIONAL COMPLIANCE CHECK
 对每个修改的文件进行以下 5 个维度的审查：
-| 维度         | 检查内容                                                       | 严重级别                       |
-| ------------ | -------------------------------------------------------------- | ------------------------------ |
-| **正确性**   | 逻辑是否正确？边界条件是否处理？异常路径是否覆盖？             | P0（数据错误）/ P1（逻辑缺陷） |
-| **可维护性** | 命名是否清晰？函数是否过长？是否有重复代码？是否遵循项目约定？ | P2（可维护性问题）             |
-| **性能**     | 是否有不必要的循环？是否有内存泄漏风险？是否有不必要的渲染？   | P1（性能退化）/ P2（轻微问题） |
-| **安全**     | 是否有注入风险？是否有敏感信息泄露？是否有权限检查遗漏？       | P0（安全漏洞）                 |
-| **测试覆盖** | 测试是否覆盖了所有边界？测试命名是否清晰？测试是否可重复？     | P1（测试遗漏）                 |
+| 维度         | 检查内容                                                       |
+| ------------ | -------------------------------------------------------------- |
+| **正确性**   | 逻辑是否正确？边界条件是否处理？异常路径是否覆盖？             |
+| **可维护性** | 命名是否清晰？函数是否过长？是否有重复代码？是否遵循项目约定？ |
+| **性能**     | 是否有不必要的循环？是否有内存泄漏风险？是否有不必要的渲染？   |
+| **安全**     | 是否有注入风险？是否有敏感信息泄露？是否有权限检查遗漏？       |
+| **测试覆盖** | 测试是否覆盖了所有边界？测试命名是否清晰？测试是否可重复？     |
+> 发现的问题使用下方"问题分级标准"统一分级（P0-P3），不按维度预设级别。
 ### Phase 1.5：Constitutional 合规检查
@@ -143,6 +137,7 @@ NO COMPLETION CLAIMS WITHOUT CONSTITUTIONAL COMPLIANCE CHECK
 | 问题类型        | 路由                      | 条件                          |
 | --------------- | ------------------------- | ----------------------------- |
 | P0 实现 bug     | → implAgent（通过编排器） | 问题在实现层面，spec 定义正确 |
+| P0 设计/架构缺陷 | → specAgent（通过编排器） | 问题根源在 SDD 设计决策而非实现 |
 | P0 安全漏洞     | → H3（人类介入）          | 安全决策需要人类确认          |
 | P1 实现 bug     | → implAgent（通过编排器） | 问题在实现层面                |
 | P1 测试遗漏     | → implAgent（通过编排器） | 需要补写测试                  |
@@ -160,11 +155,11 @@ NO COMPLETION CLAIMS WITHOUT CONSTITUTIONAL COMPLIANCE CHECK
 - 建议的修复方案
 - 如果回退到 implAgent：提供修复后的期望测试用例
-### Phase 3：修复问题
+### Phase 3：执行路由决策
 对于路由到自己的问题（P2 及以下）：
-1. 直接修改代码/测试
+1. 直接修改代码/测试（**每个问题限 20 行以内的修改**——更大规模的重构记录为建议，不直接执行）
 2. 运行测试确认修复正确
 3. 运行项目 CI 检查命令确认无 lint 问题
 4. **边界约束**：如修复导致新测试失败或引入新问题，**立即停止自修**，将问题路由到 implAgent（通过编排器），附带修复尝试的上下文
@@ -184,6 +179,8 @@ NO COMPLETION CLAIMS WITHOUT CONSTITUTIONAL COMPLIANCE CHECK
 ### Phase 4：AI 协作资产维护（消费方契约）
+> **精简模式**：仅执行 4.0（任务规则）、4.3（CHANGELOG）、4.6（工具适配确认）。跳过 4.0.5、4.1、4.1.5、4.2、4.4、4.5、4.7——这些在精简模式下不产出或无需更新。
 更新以下资产文件（记录到 `12-asset-update.md`）。
 **消费方契约原则**：更新的资产必须能被下游 Agent 直接读取并执行，不需要额外解释。每条规则必须包含：
@@ -208,7 +205,7 @@ NO COMPLETION CLAIMS WITHOUT CONSTITUTIONAL COMPLIANCE CHECK
 #### 4.0.5 内容覆盖度检查
-逐项确认以下 8 个内容类别在项目资产中有明确对应文件或章节。对「需补充」项，在项目 AI 规范文件（CLAUDE.md / .cursor/rules/）对应章节新增内容；如果 `docs/review-checklist.md` 或 `docs/delivery-checklist.md` 不存在，创建之。
+逐项确认以下 8 个内容类别在项目资产中有明确对应文件或章节。对「需补充」项，在项目 AI 规范文件（CLAUDE.md / .cursor/rules/）对应章节新增内容；如果 `docs/review-checklist.md` 或 `docs/delivery-checklist.md` 不存在，创建之。项目类型不适用的类别标注 N/A（如 CLI 工具无需"系统架构"文档）。
 | 类别        | 典型位置                                            | 状态      |
 | ----------- | --------------------------------------------------- | --------- |
@@ -299,33 +296,7 @@ NO COMPLETION CLAIMS WITHOUT CONSTITUTIONAL COMPLIANCE CHECK
 #### 4.7 资产可维护性保障
-在项目 AI 规范文件（CLAUDE.md 或 .cursor/rules/）中确认存在以下维护机制段落（如不存在则新增）：
-```markdown
-## 资产维护机制
-### 更新触发条件
-- Review 发现新的通用规则 → 追加到对应章节
-- 缺陷修复发现新的反模式 → 追加到编码规范
-- AI 输出偏差 → 追加到约束规则
-### 版本记录
-| 日期 | 更新者 | 更新内容 | 关联任务 |
-| ---- | ------ | -------- | -------- |
-### 规则管理层级
-- 项目级规则集中在根目录 CLAUDE.md / .cursor/rules/
-- 模块级规则在各模块 CLAUDE.md / .cursor/rules/
-- 任务级规则在 docs/tasks/{slug}/task-rules.md
-- 冲突时优先级：项目级 > 模块级 > 任务级
-```
-每次更新项目 AI 规范文件后，向"版本记录"表追加一行。
+确认项目 AI 规范文件（CLAUDE.md 或 .cursor/rules/）中存在「资产维护机制」段落（含更新触发条件、版本记录表、规则管理层级），如不存在则按 CLAUDE.md §七.2 消费方契约原则新增。每次更新后向"版本记录"表追加一行。
 ### Phase 5：个人复盘
@@ -333,15 +304,13 @@ NO COMPLETION CLAIMS WITHOUT CONSTITUTIONAL COMPLIANCE CHECK
 1. **本次任务回顾**：做得好的 + 可以改进的 + 意外发现（具体事例，不是泛泛而谈）
 2. **AI 协作经验**：提示词优化经验 + 团队协作改进建议
-3. **新规则沉淀**（§二.5）：列出本次发现的可固化规则，注明写入位置和理由。对每条新规则，必须同时执行写入——追加到目标文件（项目 AI 规范 / 模块 AI 规范 / task-rules.md），并在 12-asset-update.md 中记录变更
+3. **新规则沉淀**（§二.5）：列出本次发现的可固化规则，注明写入位置和理由。**固化门槛**：同类问题在本次任务中出现 ≥ 2 次（模式），或该问题可在未来任务中导致 P0/P1（严重性）。一次性 P2/P3 发现仅记录到 task-rules.md。对每条新规则，必须同时执行写入——追加到目标文件（项目 AI 规范 / 模块 AI 规范 / task-rules.md），并在 12-asset-update.md 中记录变更
 4. **改进承诺**（§三）：具体行动 + 预期效果
 > 重点：§二.5 的新规则沉淀是质量检查 D4.4 的关键证据，不可省略。"发现规则但未写入目标文件"视为未完成。
 ## 产出文件
-每个文件必须严格遵循模板格式（模板文件见 `references/` 目录）。
 | 文件 | 模板位置 | 说明 |
 | ---- | -------- | ---- |
 | `11-review.md` | `references/11-review-template.md` | 代码审查报告 |
@@ -352,8 +321,6 @@ NO COMPLETION CLAIMS WITHOUT CONSTITUTIONAL COMPLIANCE CHECK
 ## STOP Signals
-如果你发现自己即将做以下任何一件事——立即停止，重新审视：
 - 只审查代码不检查 Constitutional 合规，或跳过三视角对抗审查
 - 发现 P0/P1 问题不路由而自己修复
 - 资产更新缺少消费方契约三要素（触发条件/可执行指令/示例）
@@ -385,12 +352,6 @@ reviewAgent 完成
 → 编排器将补全团队级证据并交付用户验收
 ```
-## 下一步
-- 产出 11-13 文件后，推荐使用 `team-orchestrator` 补全团队证据并交付
-- 如果收到审查反馈，使用 `team-feedback` 应对
-- 如果分支需要处理，使用 `team-finish`
 ## 集成关系
 **被谁调用：**

package/skills/team-score/SKILL.md CHANGED Viewed

@@ -39,7 +39,7 @@ description: Use when evaluating AI collaboration maturity of a project
 ## Iron Law
 ```
-NO SCORE WITHOUT EVIDENCE
+NO SCORE WITHOUT EVIDENCE FIRST
 ```
 ## 质量职责
@@ -137,7 +137,7 @@ NO SCORE WITHOUT EVIDENCE
 | 能迭代纠偏     | 3    | AI 输出偏离时，能指出问题并调整提示；不是复制粘贴结果      | AI 对话摘要、纠偏记录 |
 | 过程可追溯     | 2    | 保留关键 AI 对话摘要；能说明为什么采纳或拒绝 AI 建议       | AI 协作过程记录       |
 | 个人复盘有效   | 2    | 每位成员能总结本次沉淀的新规则，并说明下次如何提升协作质量 | 个人复盘文档          |
-| (评委自定)     | 3    | 评委根据答辩表现、整体成熟度酌情加分                       | 答辩现场              |
+| (评委自定)     | 3    | 评委根据答辩表现酌情加分。评估维度参考：技术决策解释清晰度、对 trade-off 的理解深度、对遗留风险的坦诚程度。无答辩环节时此项不评分，3 分归入其他项按比例分配 | 答辩现场 / 书面答辩 |
 ### 五、团队协作表现（10 分）
@@ -150,55 +150,44 @@ NO SCORE WITHOUT EVIDENCE
 ## 执行步骤
-> **精简模式（--compact）项目**：如果项目使用了 `team-orchestrator --compact`，部分文档（01-plan、02-context、05-risk、14-team、15-brief、prompt-template）不会产出。评分时应检查 `.checkpoint.json` 或任务目录结构判断模式。精简模式下，缺失这些文件不扣分，但对应评分项改为从已有文件（03-sdd、04-boundary、11-review 等）中寻找等效证据。硬门槛 #1（任务规划）改为检查 03-sdd.md 是否包含目标和设计决策。
+> **精简模式（--compact）项目**：如果项目使用了 `team-orchestrator --compact`，部分文档（01-plan、02-context、05-risk、14-team、15-brief、prompt-template）不会产出。模式判定优先级：(1) `.checkpoint.json` 的 `mode` 字段（权威来源）；(2) 如果 checkpoint 不存在，根据文件集推断——仅有 03-sdd + 04-boundary = 精简模式，有 01-05 全套 = 完整模式；(3) 模式不明 → 在评分报告中注明"模式未确定"。精简模式下，缺失这些文件不扣分，但对应评分项改为从已有文件（03-sdd、04-boundary、11-review 等）中寻找等效证据。硬门槛 #1（任务规划）改为检查 03-sdd.md 是否包含目标和设计决策。
 ### Step 1: 收集证据
 按以下 5 个维度收集证据（可并行执行以提高效率，具体并行方式取决于工具能力）：
-**Agent 1 — AI 协作资产扫描**
+**扫描维度 1 — AI 协作资产扫描**
-- 查找所有 CLAUDE.md / AGENTS.md / .cursorrules / .cursor/rules / .copilot-instructions.md / docs/ai/\* 文件
+- 查找所有 AI 规范文件：CLAUDE.md / AGENTS.md / .cursorrules / .cursor/rules / .copilot-instructions.md / docs/ai/\*
 - 查找任务级规则文件：docs/tasks/\*/task-rules.md
-- 检查内容是否分层（项目级 vs 模块级 vs 任务级）
-- 检查是否覆盖：业务术语表、系统架构（AGENTS.md / docs/architecture.md）、代码结构（AGENTS.md / CLAUDE.md）、接口约定、编码规范、测试规范、Review Checklist、Delivery Checklist、交付要求
-- 检查规则是否具体可执行（有无禁止项、必须项、示例、验证方式）
-- 检查有无 Prompt 模板（docs/tasks/\*/prompt-template.md）、检查清单等工具适配产物（≥ 2 类）
-- 检查有无维护说明、版本记录、复盘中新增规则机制（项目 AI 规范文件中的「资产维护机制」段落）
+- 检查分层组织（项目级 vs 模块级 vs 任务级）
+- 检查 8 类内容覆盖：业务术语表、系统架构、代码结构、接口约定、编码规范、测试规范、Review Checklist、Delivery Checklist
+- 检查规则可执行性（禁止项、必须项、示例、验证方式）
+- 检查工具适配产物 ≥ 2 类（Prompt 模板、检查清单等）
+- 检查维护机制（维护说明、版本记录、复盘新增规则机制）
-**Agent 2 — 任务规划扫描**
+**扫描维度 2 — 任务规划扫描**
 - 查找 docs/ 下的任务规划、PRD、设计文档、实现计划
-- 检查是否有目标澄清（成功标准、非目标）
-- 检查是否有上下文选择说明（必要文件清单、排除了不必要上下文）
-- 检查是否有分阶段执行计划（探索→方案→实现→验证→总结）
-- 检查是否有修改文件边界说明（allow/deny）
-- 检查是否有验证计划（每一步有可检查完成标准）
-- 检查是否有风险识别
-- 检查是否有停下来问人的条件
-- 检查是否有给 AI 的最终任务提示词（独立的 prompt-template.md 或文档内嵌 Prompt）
-**Agent 3 — 质量保障扫描**
-- 检查 tests/ 目录结构和测试文件数量
-- 检查是否有 SDD 规格文档（输入/输出/边界条件/异常场景/验收标准）
-- 检查 git log 中的测试提交历史（是否有先写测试再修复的 TDD 模式：test: 提交 → feat:/fix: 提交）
-- 检查测试覆盖范围（happy path / 边界 / 异常 / 回归）
-- 检查测试用例矩阵文档
-- 检查是否有缺陷修复代码及其测试验证（修复未破坏已有功能）
-- 检查是否有 Review 记录（含脆弱性、数据、安全、性能、兼容性维度）和风险识别文档
-- 检查测试运行结果记录
-- 运行项目测试命令列出测试用例（根据项目技术栈和 CLAUDE.md / .cursor/rules/ 中的定义选择对应命令）
-- 检查 CI 配置
-**Agent 4 — 使用过程扫描**
+- 逐项检查：目标澄清（成功标准、非目标）、上下文选择说明（必要文件清单、排除）、分阶段执行计划（探索→方案→实现→验证→总结）、修改文件边界（allow/deny）、验证计划（每步可检查标准）、风险识别、停下来问人条件、AI 任务提示词（prompt-template.md 或文档内嵌）
+**扫描维度 3 — 质量保障扫描**
+- 检查 tests/ 目录结构、测试文件数量、CI 配置
+- 检查 SDD 规格文档（输入/输出/边界条件/异常场景/验收标准）
+- 检查 git log 中 TDD 模式（test: 提交 → feat:/fix: 提交）
+- 检查测试覆盖范围（happy path / 边界 / 异常 / 回归）、测试用例矩阵、测试运行结果
+- 检查缺陷修复代码及测试验证、Review 记录（含脆弱性/数据/安全/性能/兼容性）、风险识别文档
+- 运行项目测试命令列出测试用例
+**扫描维度 4 — 使用过程扫描**
 - 查找 AI 对话记录、Prompt 记录（07-prompt-log.md）、纠偏记录
 - 查找个人复盘文档（13-retrospective.md），检查是否有「本次沉淀的新规则」段落
 - 检查 skills 和配置目录
 - 检查是否有结构化的 Prompt（五要素：目标+上下文+边界+输出格式+验证标准）
-**Agent 5 — 团队协作扫描**
+**扫描维度 5 — 团队协作扫描**
 - 检查 git log --format='%an' 统计贡献者
 - 查找分工说明文档（需求澄清、AI 操作、测试、Review 等角色分工）
@@ -222,6 +211,7 @@ NO SCORE WITHOUT EVIDENCE
 - 每个得分必须附带具体文件路径和内容片段作为证据
 - "文件存在但内容为占位符/模板未填充" = 0 分（不是满分）
+- **模板未填充判定**：满足以下任一条件即视为未填充 → 0 分：超过 20% 的行包含占位符（{N}/{slug}/[TODO]/[FIXME]）；总有效行数 < 5 行（仅有表头或框架）；内容与模板文件完全相同（未做任何定制化修改）
 - 找不到证据时写"未找到：{搜索过的路径}"而非空白
 - 对 TDD 流程评分（D3.2），必须验证 06-tdd-log.md 中 RED 记录的时间戳早于 GREEN 记录
 - 对测试覆盖评分（D3.3），必须验证测试代码实际存在且可运行，不仅看文档声明
@@ -295,8 +285,6 @@ NO SCORE WITHOUT EVIDENCE
 ## STOP Signals
-如果你发现自己即将做以下任何一件事——立即停止，重新审视：
 - 凭印象或推测给分，没有找到实际文件或代码作为证据
 - 找不到证据的评分项没有标注"未找到"就跳过
 - 只扫描代码目录，不检查文档、配置和测试目录
@@ -330,8 +318,6 @@ NO SCORE WITHOUT EVIDENCE
 等级：{优秀/良好/合格/不合格}
 ```
-> **执行注意事项**：评分必须以实际找到的证据为准，不能凭猜测给分。找不到证据的项给 0 分，但在评语中标注「未找到相关文件」。四、五两个维度涉及过程记录和团队协作，可能需要额外文件或现场演示，如果项目中没有相关记录，标注「需现场补充」。扫描时注意 docs/、tests/、skills 配置等多个目录。评分报告输出到对话，不写入文件（除非用户明确要求）。
 ## 集成关系
 **被谁调用：**
@@ -343,8 +329,3 @@ NO SCORE WITHOUT EVIDENCE
 - `team-spec` — 需要补充规格时使用
 - `team-test` — 需要补充测试时使用
-## 下一步
-- 评分完成后，根据改进建议优化项目
-- 需要补充规格使用 `team-spec`，需要补充测试使用 `team-test`

package/skills/team-spec/SKILL.md CHANGED Viewed

@@ -5,8 +5,6 @@ description: Use when starting a new feature, need SDD spec, or requirements are
 # Team Spec — 规格制定
-> **兼容工具**：Claude Code (`/team-spec`) · Cursor (Skill 自动发现)
 ## 角色定位
 你是 AI 协作团队中的 **规格制定专家**。你的职责是将一句话需求展开为可执行的完整规格。
@@ -16,14 +14,9 @@ description: Use when starting a new feature, need SDD spec, or requirements are
 ```
 你的思维方式：结构工程师——先问"承重约束在哪"，再画一条线。
-你是一个 Team spec 专家。你的任务是：
-1. 探索：精读用户需求，扫描相关源码，理解现状与约束
-2. 展示：向用户展示探索结论，等待确认
-3. 产出：写 6 个规格文档（01-plan.md / 02-context.md / 03-sdd.md / 04-boundary.md / 05-risk.md / prompt-template.md）
-4. 自检：执行 19 项自检清单，不通过则补全
+你是一个 Team spec 专家。
-关键区别：你不只是产出文档。你必须在每个关键决策点向用户展示方案并等待确认，确保规格与用户真实意图一致。
+关键区别：你不只是产出文档。你必须在每个关键决策点向用户展示方案并等待确认，确保规格与用户真实意图一致。探索要有深度——先识别承重约束（接口契约、数据流瓶颈、不可打破的假设），再围绕约束设计规格。
 ```
 ### 推理指引
@@ -83,9 +76,13 @@ NO CODE WITHOUT SPEC FIRST
 ### Phase 1：探索（不写文件）
 1. 精读用户需求，提取核心问题
-2. 读取项目规范：`CLAUDE.md`、`.cursor/rules/`、`AGENTS.md`、`CONTRIBUTING.md`、`docs/architecture.md`（如文件不存在则跳过）
+2. 读取项目规范并提取关键信息：
+   - `CLAUDE.md` / `.cursor/rules/`：提取测试/lint 命令、编码约定、技术栈约束
+   - `AGENTS.md`：提取模块边界、关键接口定义、依赖关系（如不存在则跳过）
+   - `CONTRIBUTING.md`：提取贡献流程约束（如不存在则跳过）
+   - `docs/architecture.md`：提取架构分层和数据流（如不存在则跳过）
 3. 读取已有验证体系：`docs/pm-truth-ledger.yaml`（如存在则读取，理解项目的声明式验证格式）
-4. 扫描相关源码模块（使用 grep / find / Read），理解现状与约束
+4. 扫描相关源码模块（使用 grep / find / Read）：从任务描述提取关键词，定位 3-5 个最相关的源文件，精读后再根据依赖关系向外扩展（仅在依赖不清晰时）
 5. 识别与任务相关的文件、接口、数据结构、已有测试
 6. **影响范围分析**（结构化输出，写入 Phase 1.5 展示给用户）：
    - 直接依赖：目标文件导入/调用了哪些模块？（grep import/require/use）
@@ -99,17 +96,9 @@ NO CODE WITHOUT SPEC FIRST
 > **执行顺序**：先扫描相关源码 → 精选上下文（非全量塞入） → 从源码提取术语定义 → 检查已有测试
-### Phase 1.5：Socratic 需求澄清 + 探索结论展示（人类介入点）
-在写任何文件之前，先通过 **结构化提问** 深入理解需求，再展示结论：
-**第一步：关键问题提问**（逐个提问，每次 1 个问题，优先用选项形式，最多 3 个问题）
+### Phase 1.5：探索结论展示 + Socratic 需求澄清（人类介入点）
-- 目标优先级："以下哪个是最重要的目标？A) ... B) ... C) ..."
-- 边界确认："以下范围是否正确？是否需要排除某些模块？"
-- 风险偏好："如果遇到 {具体风险}，你倾向于 A) 保守处理 B) 激进优化？"
-**第二步：展示探索结论**
+在写任何文件之前，**一次性**向用户展示探索结论和关键问题，等待用户一次回复：
 ```
@@ -129,31 +118,36 @@ NO CODE WITHOUT SPEC FIRST
 - 技术风险：...
 - 范围风险：...
+### 需要你确认的问题（最多 3 个，优先用选项形式）
+1. 目标优先级："以下哪个是最重要的目标？A) ... B) ... C) ..."
+2. 边界确认："以下范围是否正确？是否需要排除某些模块？"
+3. （仅在有歧义时提问）
 ### 请确认
-1. 以上理解是否正确？
-2. 以下假设是否成立？（列出 Step 3 中标注为「待验证」的假设）
-3. 是否有遗漏的需求或需要排除的范围？
+- 以上理解是否正确？
+- 以下假设是否成立？（列出 Phase 1 中标注为「待验证」的假设）
 ```
-> **执行顺序**：等待用户确认 → 展示结论含推理过程 → 识别具体风险 → 逐个提问等待回复后再继续
+> 如果 3 个问题仍不足以消除歧义，说明仍不清楚的部分并询问用户是否继续澄清还是按当前假设推进。
 **用户确认后**才能进入 Phase 2。如果用户提出修改意见，先调整理解再继续。如果用户否决任务，输出 `状态：CANCELLED` 并停止。
 ### Phase 2：写规格文档（6 个文件）
-按以下顺序产出，每个文件必须严格遵循模板格式（模板文件见 `references/` 目录）。
+按以下顺序产出（每个文件依赖前一个文件的输出，不可乱序）。
-| 文件 | 模板位置 | 说明 |
-| ---- | -------- | ---- |
-| `01-plan.md` | `references/01-plan-template.md` | 任务规划（目标、分期、预算） |
-| `prompt-template.md` | `references/prompt-template.md` | 工具适配产物 |
-| `02-context.md` | `references/02-context-template.md` | 上下文选择清单 |
-| `03-sdd.md` | `references/sdd-template.md` | 完整 SDD 规格 |
-| `03-sdd.md`（增量模式） | `references/delta-spec-template.md` | 仅修改类任务使用 |
-| `04-boundary.md` | `references/04-boundary-template.md` | 修改边界 |
-| `05-risk.md` | `references/05-risk-template.md` | 风险与验证计划 |
+| 顺序 | 文件 | 模板位置 | 说明 |
+| ---- | ---- | -------- | ---- |
+| 1 | `01-plan.md` | `references/01-plan-template.md` | 任务规划（目标、分期、预算） |
+| 2 | `02-context.md` | `references/02-context-template.md` | 上下文选择清单 |
+| 3 | `03-sdd.md` | `references/sdd-template.md` | 完整 SDD 规格 |
+| 3 | `03-sdd.md`（增量模式） | `references/delta-spec-template.md` | 仅修改类任务使用 |
+| 4 | `04-boundary.md` | `references/04-boundary-template.md` | 修改边界 |
+| 5 | `05-risk.md` | `references/05-risk-template.md` | 风险与验证计划 |
+| 6 | `prompt-template.md` | `references/prompt-template.md` | 工具适配产物（从 01-05 提炼） |
 **反面示例（不要这样做）**：
@@ -203,13 +197,19 @@ NO CODE WITHOUT SPEC FIRST
 ## STOP Signals
-如果你发现自己即将做以下任何一件事——立即停止，重新审视：
 - 跳过用户确认直接写文件，或一次抛出所有问题不等回复
 - 影响范围分析只列文件不列依赖关系
 - 风险预判写"无风险"，或产出文件后发现遗漏不补全
 - 凭记忆推断而非扫描源码，或"用户没说话就是默认同意"
+## Constitutional Rules 遵守
+引用 `_team-rules/constitutional-rules.md`。规格制定阶段尤其注意：
+- **Rule #1 人类介入是一等公民**：规格产出后必须等待 H2 人类确认，不可自动进入实现（FP-1）
+- **Rule #5 分期交付优先**：复杂任务必须拆分 P1/P2，不可一次性全量规格（FP-3）
+- **Rule #4 Kill Switch**：如果探索阶段发现需求不可行，必须立即暂停而非"先写个规格再说"（FP-1 + FP-3）
 ## 自检门禁
 在报告完成状态前，执行以下自检：
@@ -219,7 +219,7 @@ NO CODE WITHOUT SPEC FIRST
 - [ ] 用户已确认探索结论后才进入 Phase 2
 - [ ] 无占位符残留 — 验证：`grep -rE '\{N\}|\{slug\}|\{日期\}|TBD|TODO|待补充' docs/tasks/{slug}/*.md` 输出为空
 - [ ] 信息来源标签已使用 — 验证：`grep -cE '\{extracted\}|\{inferred\}|\{ambiguous\}' docs/tasks/{slug}/03-sdd.md` 输出 > 0
-- [ ] SDD 含数据流图（精简模式可省略）— 验证：`grep -cE '─|│|→|←|▼|▲|flowchart|graph' docs/tasks/{slug}/03-sdd.md` 输出 > 0
+- [ ] `[完整模式]` SDD 含数据流图 — 验证：`grep -cE '─|│|→|←|▼|▲|flowchart|graph' docs/tasks/{slug}/03-sdd.md` 输出 > 0
 ## 完成标志
@@ -233,11 +233,6 @@ specAgent 完成
 → 编排器将展示规格给用户确认后进入实现阶段
 ```
-## 下一步
-- 产出 01-05 文件后，推荐使用 `team-impl` 进行 TDD 实现
-- 如果需求有歧义，也可先使用 `team-brainstorm` 讨论澄清
 ## 集成关系
 **被谁调用：**

package/skills/team-test/SKILL.md CHANGED Viewed

@@ -5,8 +5,6 @@ description: Use when implementation exists and you need test matrix + coverage
 # Team Test — 测试审计
-> **兼容工具**：Claude Code (`/team-test`) · Cursor (Skill 自动发现)
 ## 角色定位
 你是 AI 协作团队中的 **测试专家**。你的核心职责是：
@@ -22,15 +20,9 @@ description: Use when implementation exists and you need test matrix + coverage
 ```
 你的思维方式：QA 对手——你的工作是试图证明代码错误，而非证明它正确。
-你是一个 Team test 专家。你的任务是：
-1. 分析测试覆盖：对照 SDD 规格和 implAgent 实现，找出测试缺口
-2. 设计四维矩阵：功能覆盖、边界覆盖、异常覆盖、代码覆盖
-3. 补充测试：补写 implAgent 未覆盖的测试
-4. 运行全量测试：记录结果，分析失败原因
-5. 路由决策：根据结果决定下一步（reviewAgent / implAgent / specAgent / H3）
+你是一个 Team test 专家。
-关键区别：你不是简单地运行测试。你必须主动发现 implAgent 遗漏的测试场景、specAgent 遗漏的边界条件，并根据问题类型路由到正确的 Agent。每个覆盖声明必须标注信息来源标签。
+关键区别：你不是简单地运行测试。你必须主动发现 implAgent 遗漏的测试场景、specAgent 遗漏的边界条件，并根据问题类型路由到正确的 Agent。你只写测试，不修改实现代码——发现 bug 路由回 implAgent。
 ```
 ### 推理指引
@@ -40,7 +32,7 @@ description: Use when implementation exists and you need test matrix + coverage
 **第一性原理推理框架**：在设计测试矩阵和路由决策时，依次推理——
 1. **SDD 规格覆盖**：SDD 的每条业务规则、每个边界条件、每个异常场景是否都有对应测试？
-2. **已有测试质量**：implAgent 写的测试是否真的在验证需求，还是仅仅在验证实现？（FP-2 的测试版本）
+2. **已有测试质量**：对每个测试自问"如果实现被完全重写，这个测试仍然有意义吗？"引用了内部实现细节（私有方法、内部数据结构）的测试是在测实现而非需求
 3. **测试缺口归因**：每个缺口是 implAgent 遗漏（回退 implAgent）还是 SDD 未定义（回退 specAgent）？
 4. **最佳路由方案**：根据缺口的根因，回退到哪个 Agent 能最有效地修复问题？
@@ -49,7 +41,7 @@ description: Use when implementation exists and you need test matrix + coverage
 ## Iron Law
 ```
-NO COVERAGE CLAIMS WITHOUT SDD TRACEABILITY
+NO COVERAGE CLAIMS WITHOUT SDD TRACEABILITY FIRST
 ```
 ## 质量职责
@@ -85,7 +77,7 @@ NO COVERAGE CLAIMS WITHOUT SDD TRACEABILITY
 2. **读取 TDD 日志**：从 `06-tdd-log.md` 了解 implAgent 已覆盖的测试
 3. **读取代码**：查看 implAgent 的实际实现，检查是否有未测试的分支
 4. **读取边界**：从 `04-boundary.md` 确认是否有需要验证的兼容性约束
-5. **识别 GWT 场景**：如果 SDD §二 包含 Given/When/Then 场景，每个场景必须对应至少一个测试用例；如果 SDD 使用其他格式描述业务规则，则从业务规则中提取等价的测试场景
+5. **识别 GWT 场景**：如果 SDD §二 包含 Given/When/Then 场景，每个场景必须对应至少一个测试用例；如果 SDD 使用其他格式描述业务规则，从每条业务规则的条件分支中提取 Given（前置状态）/When（触发动作）/Then（预期结果），每条业务规则至少产出 1 个正向 + 1 个反向测试场景
 > **执行顺序**：先对照 SDD 规格 → 再检查测试文件 → 覆盖 Happy Path + 边界 + 异常 → 发现 spec 遗漏回退 specAgent → 修改实现（非测试）让测试通过
@@ -98,22 +90,25 @@ NO COVERAGE CLAIMS WITHOUT SDD TRACEABILITY
 | **功能覆盖** | SDD 中每个输入、输出、业务规则至少一个测试 | 逐条对照 03-sdd.md §五/§六            |
 | **边界覆盖** | SDD §七 每个边界条件至少一个测试           | 逐条对照 03-sdd.md §七                |
 | **异常覆盖** | SDD §八 每个异常场景至少一个测试           | 逐条对照 03-sdd.md §八                |
-| **代码覆盖** | implAgent 实现中每个分支至少一个测试       | 阅读实现代码，检查 if/else/match 分支 |
+| **代码覆盖** | 如项目有覆盖率工具（istanbul/coverage.py 等），运行并报告分支覆盖率；如无工具，手动列出实现中所有 if/else/match/try-catch 分支并确认每个有对应测试。错误处理分支如不可通过业务输入触发可用 mock/inject；循环覆盖 0, 1, n 次 | 运行覆盖率工具 或 阅读实现代码逐分支确认 |
 > **维度标注**：矩阵中每个测试用例必须标注其覆盖的维度（功能/边界/异常/代码），一个用例可覆盖多个维度。
 ### Phase 3：补充测试
+**权限边界**：testAgent 只写测试代码，不修改实现代码。如果新测试揭示了真实 bug（测试失败），不要修复实现——路由回 implAgent 并附上失败证据。
 对于矩阵中 implAgent 未覆盖的测试：
-1. **补写测试**：按照项目测试风格（参考已有测试文件）编写
-2. **运行验证**：确保新测试通过
-3. **记录到矩阵**：在 `09-test-matrix.md` 中标记补充的测试
+1. **先运行已有测试**：记录当前通过/失败基线（Phase 4 对比用）
+2. **补写测试**：按照项目测试风格（参考已有测试文件）编写，使用 `test: (audit)` 前缀 commit 以区分 implAgent 的 TDD 测试
+3. **单独运行新测试**：逐个运行确认每个新测试独立通过（不依赖其他测试的状态）
+4. **记录到矩阵**：在 `09-test-matrix.md` 中标记补充的测试
 ### Phase 4：运行全量测试
-1. 运行项目测试命令（参考 CLAUDE.md / .cursor/rules/ 或 05-risk.md §一验证计划，精简模式下 05-risk.md 不存在则仅参考 CLAUDE.md）
-2. **测试隔离验证**：如果测试涉及外部状态（数据库、文件系统、网络），确认测试间无顺序依赖——随机化运行顺序或单独运行新增测试验证
+1. 运行项目测试命令（参考 CLAUDE.md / .cursor/rules/ 或 05-risk.md §一验证计划；精简模式下 05-risk.md 不存在属于正常，仅参考 CLAUDE.md / .cursor/rules/）
+2. **测试隔离验证**：单独运行每个新增测试确认它独立通过（不依赖其他测试创建的状态）。如果某个测试依赖其他测试的副作用，重构为使用 setup/teardown
 3. **输出证据记录**：将测试命令的最后 20 行输出粘贴到 `10-test-report.md` §三测试输出证据（含 pass/fail 统计行），同时记录退出码
 4. 记录测试结果到 `10-test-report.md`（按模板填写所有章节）
 5. 如果测试失败，分析失败原因——区分真实 bug、环境问题和测试隔离问题
@@ -142,8 +137,6 @@ NO COVERAGE CLAIMS WITHOUT SDD TRACEABILITY
 ### Phase 6：产出文件
-每个文件必须严格遵循模板格式（模板文件见 `references/` 目录）。
 | 文件 | 模板位置 | 说明 |
 | ---- | -------- | ---- |
 | `09-test-matrix.md` | `references/09-test-matrix-template.md` | 四维测试矩阵（含维度标注、SDD 追踪、来源标签） |
@@ -151,12 +144,18 @@ NO COVERAGE CLAIMS WITHOUT SDD TRACEABILITY
 ## STOP Signals
-如果你发现自己即将做以下任何一件事——立即停止，重新审视：
 - 只检查测试文件不对照 SDD 规格，或只检查 Happy Path 忽略边界异常
 - 发现 spec 遗漏自行决定实现（应回退 specAgent）
 - 修改测试让它通过，或测试覆盖声明无量化证据
+## Constitutional Rules 遵守
+引用 `_team-rules/constitutional-rules.md`。测试审计阶段尤其注意：
+- **Rule #8 验证先行**：覆盖率声明必须基于当次新鲜执行的完整输出，不可引用缓存结果（FP-4）
+- **Rule #3 产出必须验证**：测试矩阵中的每个覆盖声明必须有对应的测试运行证据（FP-4）
+- **Rule #2 有向图回退**：发现 spec 遗漏必须回退 specAgent，发现实现 bug 必须回退 implAgent，不可自行修改实现代码（FP-4）
 ## 自检门禁
 在报告完成状态前，执行以下自检：
@@ -184,11 +183,6 @@ testAgent 完成
 → 编排器将根据路由决策调度下一个 Agent
 ```
-## 下一步
-- 全部通过后，推荐使用 `team-review` 进行代码审查
-- 发现 bug 回退到 `team-impl`，发现 spec 遗漏回退到 `team-spec`
 ## 集成关系
 **被谁调用：**

package/skills/team-verify/SKILL.md CHANGED Viewed

@@ -42,7 +42,7 @@ description: Use when about to claim work is complete, fixed, or passing - requi
 ## Iron Law
 ```
-NO COMPLETION CLAIMS WITHOUT FRESH VERIFICATION EVIDENCE
+NO COMPLETION CLAIMS WITHOUT FRESH VERIFICATION EVIDENCE FIRST
 ```
 ## 质量职责
@@ -74,8 +74,8 @@ NO COMPLETION CLAIMS WITHOUT FRESH VERIFICATION EVIDENCE
 1. 确定验证命令
 2. 执行命令——不使用缓存结果，不引用上一轮输出
-3. 完整阅读输出——不截断，不跳过 warning，确认输出干净（无错误、无 warning）
-4. 检查退出码 = 0 且失败数 = 0
+3. 完整阅读输出——不截断，不跳过 warning
+4. 检查退出码 = 0 且失败数 = 0。Warning 处理：退出码 = 0 时 warning 不阻塞通过声明，但必须在验证报告中列出 warning 内容供人类判断
 5. 只有全部通过才可声明通过，否则记录失败详情
 ```
@@ -119,6 +119,9 @@ NO COMPLETION CLAIMS WITHOUT FRESH VERIFICATION EVIDENCE
 | 回归测试通过 | 红-绿循环验证通过 | 测试通过一次 |
 | Agent 完成 | VCS diff 显示变更 | Agent 报告"成功了" |
 | 需求满足 | 逐条对照 checklist | 测试通过了 |
+| 性能达标 | 性能基准测试通过 + 与 baseline 对比 | "看起来快了"、仅 CI 通过 |
+| 向后兼容 | 回归测试全通过 + 无 breaking API 变更 | "没改公共接口"但未运行旧版测试 |
+| 文档已更新 | git diff 显示文档变更 + 链接检查通过 | "代码改了，文档应该也对" |
 ## Constitutional Rules 遵守
@@ -146,8 +149,6 @@ NO COMPLETION CLAIMS WITHOUT FRESH VERIFICATION EVIDENCE
 ## STOP Signals
-如果你发现自己即将做以下任何一件事——立即停止，重新审视：
 - 使用"应该""可能""看起来"等推测性语言来声明通过
 - 引用上一轮运行结果而不是当次新鲜执行的输出
 - 只检查部分输出或跳过 warning 就声明通过
@@ -163,8 +164,3 @@ NO COMPLETION CLAIMS WITHOUT FRESH VERIFICATION EVIDENCE
 **配对使用：**
 - `team-debug` — 验证失败时定位根因
-## 下一步
-- 验证通过后，继续当前流程
-- 验证失败，使用 `team-debug` 定位根因