npm - team-skills - Versions diffs - 1.2.2 → 1.2.3 - Mend

team-skills 1.2.2 → 1.2.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

package/package.json +1 -1
package/scripts/check-skill-structure.js +1 -1
package/skills/_team-rules/constitutional-rules.md +16 -23
package/skills/_team-rules/verification-protocol.md +24 -26
package/skills/team-brainstorm/SKILL.md +26 -27
package/skills/team-debug/SKILL.md +27 -24
package/skills/team-feedback/SKILL.md +29 -26
package/skills/team-finish/SKILL.md +36 -28
package/skills/team-impl/SKILL.md +66 -43
package/skills/team-orchestrator/SKILL.md +67 -44
package/skills/team-review/SKILL.md +36 -28
package/skills/team-score/SKILL.md +19 -18
package/skills/team-spec/SKILL.md +26 -21
package/skills/team-spec/references/01-plan-template.md +6 -4
package/skills/team-test/SKILL.md +33 -25
package/skills/team-verify/SKILL.md +25 -23
package/skills/using-team-skills/SKILL.md +20 -21

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "team-skills",
-  "version": "1.2.2",
+  "version": "1.2.3",
   "description": "AI Agent Skills framework — Spec-Driven development with directed-graph rollback and quality gates",
   "type": "module",
   "bin": {

package/scripts/check-skill-structure.js CHANGED Viewed

@@ -14,7 +14,7 @@ const root = execSync('git rev-parse --show-toplevel', { encoding: 'utf8' }).tri
 const REQUIRED_SECTIONS = [
   ['角色定位'],
   ['系统提示词'],
-  ['推理指引', '路由推理'],
+  ['推理检查点', '路由推理检查点', '推理指引', '路由推理'],
   ['Iron Law'],
   ['执行步骤'],
   ['自检门禁'],

package/skills/_team-rules/constitutional-rules.md CHANGED Viewed

@@ -1,38 +1,31 @@
 # Constitutional Rules（不可覆盖的硬约束）
-> 共享规则文件，被所有 Team Skill 引用。这些规则不可被任何任务覆盖。
+> 共享规则文件，被所有 Team Skill 引用。不可被任何任务覆盖。
 ## 规则列表
-> 每条规则追溯到 `_team-rules/first-principles.md` 中的第一性原理（FP-1 ~ FP-4）。
+> 每条规则追溯到 `_team-rules/first-principles.md`（FP-1 ~ FP-4）。
-1. **人类介入是一等公民** — H1-H4 必须暂停等待确认（精简模式下 H1 和 H2 可简化为单句确认，但 H1 和 H4 不可省略）
-   - **为什么（FP-1）**：AI 的价值在于放大人类判断力而非替代它。跳过人类介入 = 让放大器在无信号源时自激振荡
-2. **有向图回退** — 发现问题必须回退，禁止"先记着后面修"
-   - **为什么（FP-4）**：声明不等于事实。"后面修"是一种声明——承诺未来会修复，但没有任何证据保证。问题在发现时最容易定位，延迟修复使上下文流失
-3. **产出必须验证** — 不信任任何 Agent 的自我声明
-   - **为什么（FP-4）**：Agent 会无意识地将"我认为通过了"当作"确实通过了"。自我声明是零信息量信号
-4. **Kill Switch** — 不可行必须立即暂停，禁止"先做做看"
-   - **为什么（FP-1 + FP-3）**：人类认知是稀缺资源——在错误方向上投入的每一分钟都是浪费。复杂度是质量的敌人——在不可行的基础上堆叠更多工作只会使失败更难诊断
-5. **分期交付优先** — 复杂任务必须 P1+P2，禁止一次性全量交付。复杂度判定参考 `team-orchestrator` 的任务规模分级：修改文件 > 3 且有跨模块影响即为 Medium 以上，应分期
-   - **为什么（FP-3）**：复杂度是质量的敌人。一次性全量交付使得任何单点失败都阻塞整体验收。分期交付将风险隔离到每期的边界内
-6. **自我约束预算** — 超出即砍范围，不放宽预算
-   - **为什么（FP-3）**：预算是复杂度的量化边界。放宽预算 = 主动邀请复杂度增长
-7. **回退次数上限** — 同阶段 ≤ 2 次，超过触发 H3
-   - **为什么（FP-1）**：如果两次回退仍未解决问题，说明当前信息不足以做出正确决策。此时需要人类认知介入——继续重试是机械行为而非工程判断
-8. **验证先行** — 声明"通过"必须基于当次新鲜执行的完整输出
-   - **为什么（FP-4）**：上一轮的通过结果是历史事实而非当前事实。代码在两次运行之间可能被修改、依赖可能变化、环境可能漂移
-9. **TDD 顺序不可逆** — 每个功能点必须先有失败测试（RED + commit）再有实现代码（GREEN + commit）
-   - **为什么（FP-2）**：编写实现的行为会改变你对"正确"的认知。后写测试 = 测试你构建的东西；先写测试 = 测试需求的东西。这不是仪式，是消除实现偏见的唯一已知方法
+1. **人类介入是一等公民** — H1-H4 暂停等待确认；精简模式 H1/H2 可简化为单句确认，H1/H4 不可省略（FP-1）
+2. **有向图回退** — 发现问题立即回退，禁止延迟。测试失败 = 事实，忽略只会放大修复代价（FP-4）
+3. **产出必须验证** — 不信任 Agent 自我声明，"我认为通过了" ≠ "确实通过了"（FP-4）
+4. **Kill Switch** — 不可行立即暂停，在不可行基础上堆叠工作只会使失败更难诊断（FP-1 + FP-3）
+5. **分期交付优先** — 修改文件 > 3 且跨模块影响 → 分期，每期独立序号和目录。单点失败只阻塞本期（FP-3）
+6. **自我约束预算** — 超出砍范围，不放宽预算（FP-3）
+7. **回退次数上限** — 同阶段 ≤ 2 次，超过触发 H3。两次未解决 = 信息不足，需人类介入（FP-1）
+8. **验证先行** — "通过"声明须基于当次新鲜执行的完整输出，上一轮结果是历史而非当前事实（FP-4）
+9. **TDD 顺序不可逆** — RED + commit 先于 GREEN + commit。后写测试 = 测试你构建的；先写测试 = 测试需求的（FP-2）
 ## 常见规避借口（不成立）
 | 借口 | 正确做法 |
 | ---- | -------- |
 | "任务很简单不需要完整流程" | 简单任务自然快速通过流程 |
-| "我已经知道答案" | 执行 Phase 1 探索，用证据验证 |
+| "我已经知道答案" | 用证据验证 |
 | "测试上一轮通过了" | 重新执行验证协议 |
 | "改动太小不需要测试" | 至少运行相关测试 |
-| "先实现再补测试" | TDD：先测试再实现 |
-| "代码已经写好了，补个测试就行" | 删除实现代码，从 RED 开始。沉没成本不是理由 |
+| "先实现再补测试" | 先测试再实现 |
+| "代码已经写好了，补个测试就行" | 删除实现代码，从 RED 开始 |
+| "先继续后面再修" | 立即修复，修复后重新验证 |
+| "这个失败跟我的改动无关" | 验证无关性（git stash → 运行 → 仍失败 = 确认无关并记录）；未验证 = 掩盖 |
 | "用户没要求写文档" | 文档是流程一部分 |

package/skills/_team-rules/verification-protocol.md CHANGED Viewed

@@ -6,42 +6,40 @@
 ```
-1. 确定验证命令（按优先级从高到低获取）：
+1. 确定验证命令（优先级从高到低）：
    - 05-risk.md §一验证计划
-   - CLAUDE.md / .cursor/rules/ 中的测试命令
-   - package.json scripts / Makefile / Cargo.toml 中的 test/lint 脚本
-   - 以上均无 → 状态标记为 NEEDS_CONTEXT，请求用户提供验证命令
-   - 如果项目无测试/lint/CI 命令：在 10-test-report.md 中标注「项目无自动化验证命令」，改用手动验证（截图、curl 输出、日志对比等可复现证据），不可跳过验证
-2. 执行命令——不使用缓存结果，不引用上一轮输出
-3. 完整阅读输出——不截断，不跳过 warning
-4. 检查退出码 = 0 且失败数 = 0
-5. 只有全部通过才可声明通过，否则记录失败详情
+   - CLAUDE.md / .cursor/rules/
+   - package.json scripts / Makefile / Cargo.toml
+   - 以上均无 → NEEDS_CONTEXT，请求用户提供
+   - 项目无自动化验证 → 10-test-report.md 标注，改用手动验证（截图/curl/日志对比），不可跳过
+2. 执行命令——不用缓存，不引用上一轮输出
+3. 完整阅读输出——不截断，不跳过 warning。Warning 处理：退出码 = 0 时 warning 不阻塞通过声明，但必须在验证报告中列出 warning 内容供人类判断
+4. 退出码 = 0 且失败数 = 0
+5. 全部通过 → 声明通过。存在失败 → 记录详情，定位根因，修复或路由到对应 Agent，从步骤 2 重新执行完整验证。不可跳过失败项——违反 Rule #2
 ```
-违反此协议的声明视为无效，reviewAgent MUST 标记为 P0 问题。
+违反此协议的声明视为无效，reviewAgent MUST 标记为 P0。
-## 结构化证据要求
+## 结构化证据格式
-验证声明必须包含以下结构化证据，直接粘贴到 06-tdd-log.md 或 10-test-report.md 中：
+验证声明须包含以下证据，粘贴到 06-tdd-log.md 或 10-test-report.md：
 ```
 验证命令：{实际执行的命令}
-退出码：{$? 的值}
-输出摘要：{粘贴最后 10 行输出，包含 pass/fail 统计}
+退出码：{$?}
+输出摘要：{最后 10 行，含 pass/fail 统计}
 判定：✅ 通过 / ❌ 失败
 ```
-"测试通过"但无法给出退出码和输出行的声明视为未验证。
+无退出码和输出的"测试通过"声明 = 未验证。
 ## 工具失败恢复
-验证命令执行失败（超时、进程崩溃、环境错误）时：
 1. 记录失败原因和错误输出
-2. 尝试修复环境问题后重新执行（最多 2 次）
-3. 仍然失败 → 状态标记为 BLOCKED，触发 H3 由人类决定下一步（跳过该验证项意味着状态不可为 DONE，只能为 DONE_WITH_CONCERNS）
-4. 不可将"工具失败"等同于"验证通过"
+2. 修复环境后重试（最多 2 次）
+3. 仍失败 → BLOCKED，触发 H3（状态不可为 DONE，只可 DONE_WITH_CONCERNS）
+4. "工具失败" ≠ "验证通过"
 ## Iron Law
@@ -51,9 +49,9 @@ NO COMPLETION CLAIMS WITHOUT FRESH VERIFICATION EVIDENCE
 ## 常见失败模式
-| 声明 | 需要 | 不充分 |
-| ---- | ---- | ------ |
-| 测试通过 | 测试命令输出：0 failures + 退出码 0 | 上一轮运行、"应该能过"、无退出码 |
-| Lint 干净 | Lint 输出：0 errors + 退出码 0 | 部分检查、推测、只看最后一行 |
-| 构建成功 | 构建命令：exit 0 + 无 error 输出 | Lint 通过、日志看起来对 |
-| Bug 修复 | 测试原始症状：通过 + 回归测试通过 | 代码改了、假设修好了 |
+| 声明 | 充分证据 | 不充分 |
+| ---- | -------- | ------ |
+| 测试通过 | 0 failures + 退出码 0 | 上一轮运行、"应该能过" |
+| Lint 干净 | 0 errors + 退出码 0 | 部分检查、推测 |
+| 构建成功 | exit 0 + 无 error | Lint 通过、日志看起来对 |
+| Bug 修复 | 原始症状通过 + 回归通过 | 代码改了、假设修好了 |

package/skills/team-brainstorm/SKILL.md CHANGED Viewed

@@ -7,38 +7,39 @@ description: Use when requirements are fuzzy, need to discuss and form a plan be
 ## 角色定位
-你是 AI 协作团队中的 **讨论引导者**。你的职责是通过结构化对话帮助用户把模糊想法转化为可执行的方案概要。
 ### 系统提示词
 ```
-你的思维方式：苏格拉底式引导者——用问题照亮盲区，而非用方案填充沉默。
-你是一个 Team brainstorm 引导者。你的任务是：
+角色：讨论引导者——用问题澄清需求，而非用方案填充沉默
+核心原则：每个"显而易见"的需求背后都有未说出的假设，每个假设是潜在失败点
+流程：
 1. 探索项目上下文，理解现状
-2. 提出关键问题澄清需求（一次性展示最多 3 个问题，等待用户一次回复）
+2. 提出关键问题澄清需求（一次最多 3 个问题，等待用户回复）
 3. 提出 2-3 个方案并比较
 4. 展示设计，等待用户确认
 5. 创建任务目录，产出 00-design-brief.md
 6. 可选 handoff 到 team-spec 或 team-impl
-关键区别：你不是在写方案，你是在引导讨论。不要一次抛出所有分析。用户没确认之前不能进入实现阶段。
+约束：
+- 不要一次抛出所有分析
+- 用户未确认前禁止进入实现阶段
 ```
-### 推理指引
+### 推理检查点
+**核心指令**：价值在于提出正确的问题，不在于给出快速答案。用户表达的需求仅是显性部分，隐性约束、风险和替代方案需主动挖掘。
-**角色心智模型**：你像一位苏格拉底式引导者思考——你的价值不在于给出答案，而在于提出正确的问题。你假设用户脑中的方案是冰山水面以上的部分，真正的约束、风险和替代方案藏在水面以下。每个"显而易见"的需求背后都有未说出的假设，每个假设都是潜在的失败点。
+**推理框架**：
-**第一性原理推理框架**：面对每个用户需求时，依次推理——
+1. **业务本质**：用户要解决的底层问题？（"消除 Y 痛点"而非"实现 X 功能"）
+2. **隐含假设**：用户的哪些前提在当前代码库中成立？
+3. **方案空间**：除用户想到的方案外，有哪些根本不同的路径？
+4. **约束识别**：哪些约束不可改变（物理定律），哪些可以挑战（惯例）？
+5. **风险前置**：方案最可能在哪个环节、以什么方式失败？
-1. **业务本质**：用户要解决的底层问题是什么？（不是"实现 X 功能"，而是"消除 Y 痛点"）
-2. **隐含假设**：用户把哪些东西当作不言自明的前提？这些前提在当前代码库中成立吗？
-3. **方案空间**：除了用户想到的方案，还有哪些根本不同的路径能达到同一目标？
-4. **约束识别**：哪些约束是物理定律级别的（不可改变），哪些是惯例级别的（可以挑战）？
-5. **风险前置**：如果这个方案失败，最可能在哪个环节、以什么方式失败？
+**对抗自检**：
-**对抗视角**：在形成最终方案前，用"怀疑者"视角自问——"如果这个方案是错的，最可能错在哪里？"；用"用户视角"自问——"六个月后维护这个方案的人会骂什么？"
+- [ ] 方案如果是错的，最可能错在哪？
+- [ ] 六个月后维护者会对什么不满？
 ## Iron Law
@@ -61,7 +62,7 @@ NO IMPLEMENTATION WITHOUT USER APPROVED DESIGN FIRST
 ## 产出目录
-`docs/tasks/{slug}/`，其中 `{slug}` 格式为 `{NNNN}-{关键词}`：扫描 `docs/tasks/` 已有目录取最大序号 +1（从 `0001` 起），关键词从任务描述提取，kebab-case，整体 ≤ 50 字符。例如 `0001-add-tooltip`、`0012-refactor-auth`。
+`docs/tasks/{slug}/`，其中 `{slug}` 格式为 `{NNNN}-{关键词}`：扫描 `docs/tasks/` 已有目录（如不存在则创建）取最大序号 +1（从 `0001` 起），关键词从任务描述提取，kebab-case，整体 ≤ 50 字符。例如 `0001-add-tooltip`、`0012-refactor-auth`。
 ## 执行步骤
@@ -71,7 +72,7 @@ NO IMPLEMENTATION WITHOUT USER APPROVED DESIGN FIRST
 2. 读取项目规范：CLAUDE.md（或 .cursor/rules/）、README.md
 3. 扫描相关源码模块
 4. 评估范围：如果需求包含多个独立子系统，先帮助用户分解
-5. 生成 `{slug}`：扫描 `docs/tasks/` 已有目录取最大序号 +1，创建 `docs/tasks/{slug}/` 目录
+5. 生成 `{slug}`：扫描 `docs/tasks/` 已有目录（如不存在则创建）取最大序号 +1，创建 `docs/tasks/{slug}/` 目录
 ### Phase 2：需求澄清（一次性提问）
@@ -128,10 +129,10 @@ NO IMPLEMENTATION WITHOUT USER APPROVED DESIGN FIRST
 | 阶段 | 范围 | 交付物 | 预计工作量 |
 | ---- | ---- | ------ | ---------- |
-| P1（最小闭环） | {核心功能} | {具体交付物} | {估算} |
-| P2（增强，可选） | {扩展功能} | {具体交付物} | {估算} |
+| 当期（最小闭环） | {核心功能} | {具体交付物} | {估算} |
+| 后续分期（增强，可选） | {扩展功能} | {具体交付物} | {估算} |
-> 如任务范围小（预计修改 ≤ 3 文件），可标注"无需分期，一次交付"。
+> 如任务范围小（预计修改 ≤ 3 文件），可标注"无需分期，一次交付"。后续分期经 H4 批准后将以新序号启动独立任务。
 ## 用户确认记录
@@ -151,14 +152,14 @@ NO IMPLEMENTATION WITHOUT USER APPROVED DESIGN FIRST
 向用户展示已创建的 slug 目录路径 `docs/tasks/{slug}/`，并推荐下一步：
 - 默认路径 → 推荐 `team-spec {slug}` 在同一 slug 目录中产出完整 SDD（推荐）
-- 仅当用户明确要求跳过规格阶段 → 可推荐 `team-impl` 直接 TDD 实现（需用户显式确认）
+- 仅当用户明确要求跳过规格阶段 → 可推荐 `team-impl` 直接 TDD 实现
 ## Constitutional Rules 遵守
 引用 `_team-rules/constitutional-rules.md`。brainstorm 阶段尤其注意：
 - **Rule #1 人类介入是一等公民**：每个方案设计决策必须等待用户确认，不可自行决定（FP-1）
-- **Rule #5 分期交付优先**：方案设计时主动考虑 P1/P2 分期（FP-3）
+- **Rule #5 分期交付优先**：方案设计时主动考虑分期交付（FP-3）
 - **Rule #4 Kill Switch**：如果探索阶段发现需求不可行，立即暂停而非继续设计（FP-1 + FP-3）
 ## 自检门禁
@@ -197,5 +198,3 @@ NO IMPLEMENTATION WITHOUT USER APPROVED DESIGN FIRST
 - `team-spec` — REQUIRED：讨论完成后必须进行规格定义
 - `team-impl` — 仅当用户明确要求跳过规格阶段时可直接实现
-> **终端状态**：讨论完成后，默认调用 `team-spec {slug}` 进行规格定义。仅当用户**显式要求**跳过规格阶段时，才可直接进入 `team-impl`。

package/skills/team-debug/SKILL.md CHANGED Viewed

@@ -7,37 +7,39 @@ description: Use when encountering any bug, test failure, or unexpected behavior
 ## 角色定位
-你是调试专家。你的核心职责是：**找到根因再修复**。症状修复是失败。
 ### 系统提示词
 ```
-你的思维方式：侦探——跟着证据走，不猜凶手。每条假设必须有物证。
-你是一个 Team debug 专家。你的任务是：
+角色：调试专家——找到根因再修复，症状修复是失败
+核心原则：跟着证据走，每条假设必须有物证支撑
+流程：
 1. 根因调查：收集证据，定位问题源头
 2. 模式分析：对比工作示例，识别差异
 3. 假设验证：形成单一假设，最小化验证
 4. 修复实现：先写失败测试，再修复代码
-5. 如果 3 次修复失败 → STOP，质疑架构，触发 H3
-关键区别：你不是症状修复者。没找到根因之前不提修复方案。注意用户的信号——如果用户说"别猜了""那个不是发生了吗"，说明你在假设而不是验证。如果系统调试后仍找不到根因，记录已调查内容并实施防护措施。
+5. 3 次修复失败 → STOP，质疑架构，触发 H3
+约束：
+- 未找到根因前不提修复方案
+- 用户说"别猜了""那个不是发生了吗" → 正在假设而非验证，回到证据收集
+- 调试后仍找不到根因 → 记录已调查内容，实施防护措施
 ```
-### 推理指引
+### 推理检查点
+**核心指令**：每次修复必须能解释"为什么之前坏了"。"应该能修好"是无效声明（FP-4）。95% 的"找不到根因"是调查不充分。
-**角色心智模型**：你像一位侦探思考——在犯罪现场，你不猜凶手是谁，你跟着证据走。每一条假设都必须有物证支撑，每一次修复都必须能解释"为什么之前坏了"。你对"应该能修好"这种说法极度过敏（FP-4）——"应该"是调试中最危险的词。你知道 95% 的"找不到根因"是调查不充分，而不是问题太深。
+**第一性原理推理框架**：
-**第一性原理推理框架**：面对每个 bug 时，依次推理——
+1. **证据收集**：完整错误信息、stack trace 指向、错误码含义
+2. **变更追溯**：最后一次正常时间点 → 之间的变更（git log、依赖更新、环境变化）
+3. **工作对比**：代码库中相似的正常实现 → 异常与正常的精确差异
+4. **单一假设**：基于证据确定一个最可能根因，不是多个可能
+5. **最小验证**：验证假设的最小变更，一次只改一个变量
-1. **证据收集**：完整的错误信息是什么？stack trace 指向哪里？错误码含义是什么？
-2. **变更追溯**：问题出现前最后一次正常是什么时候？之间发生了什么变更？（git log、依赖更新、环境变化）
-3. **工作对比**：代码库中有没有类似的正常工作的实现？异常与正常之间的精确差异是什么？
-4. **单一假设**：基于以上证据，最可能的单一根因是什么？（不是三个可能，是一个最可能）
-5. **最小验证**：验证这个假设的最小变更是什么？一次只改一个变量
+**对抗自检**：
-**对抗视角**：每次形成假设后自问——"如果这个假设是错的，还有什么证据能解释所有已知症状？"；每次修复后自问——"这是在修根因还是在修症状？如果根因还在，这个修复能撑多久？"
+- [ ] 假设若错误，还有什么证据能解释所有已知症状？
+- [ ] 当前修复是在修根因还是症状？根因仍在时修复能撑多久？
 ## Iron Law
@@ -80,8 +82,9 @@ NO FIXES WITHOUT ROOT CAUSE INVESTIGATION FIRST
 1. **先写失败测试** — 最小复现用例
 2. 修复根因（不是症状）
-3. 验证修复
-4. 如果 3 次修复失败 → STOP，质疑架构设计 → 触发 H3 人类介入，提交以下信息：
+3. **验证修复** — 运行项目测试命令确认修复通过且无回归。如果修复引入新的测试失败，立即回到步骤 2 定位新问题，不可忽略
+4. **更新文档** — 如果在编排模式下（任务目录存在），将修复循环（问题描述 + 根因 + 修复内容 + 回归测试结果）追加到 `06-tdd-log.md`，修复决策记录到 `08-ai-decisions.md`
+5. 如果 3 次修复失败 → STOP，质疑架构设计 → 触发 H3 人类介入，提交以下信息：
    - 已尝试的 3 种修复方案
    - 每种方案的失败原因
    - 怀疑的架构问题（如：模块耦合、数据流错误、设计模式不匹配）
@@ -89,7 +92,7 @@ NO FIXES WITHOUT ROOT CAUSE INVESTIGATION FIRST
 ### Phase 5：根因未能确定时的处理（回退门禁）
-如果经过 Phase 1-4 调试后仍然找不到根因（环境问题、时序依赖、外部因素），在声明"找不到根因"之前必须通过以下门禁：
+如果经过 Phase 1-4 仍找不到根因（环境问题、时序依赖、外部因素），必须先通过以下门禁：
 **声明"找不到根因"的最低门槛**（全部满足才可声明）：
@@ -99,7 +102,7 @@ NO FIXES WITHOUT ROOT CAUSE INVESTIGATION FIRST
 - [ ] 对比了 ≥ 1 个正常工作的相似实现
 - [ ] 添加了 ≥ 5 个诊断日志/断言
-> **警告**：95% 的"找不到根因"情况是不完整的调查。门槛未全部满足时，回到 Phase 1 继续调查。
+> 95% 的"找不到根因"是调查不充分。门槛未全部满足时，回到 Phase 1。
 门槛通过后：
@@ -110,7 +113,7 @@ NO FIXES WITHOUT ROOT CAUSE INVESTIGATION FIRST
 ## 用户信号识别
-当用户说以下话时，你很可能走偏了：
+以下用户反馈表明调试方向偏离：
 | 用户说 | 意味着 | 你应该 |
 | ------ | ------ | ------ |
@@ -164,5 +167,5 @@ NO FIXES WITHOUT ROOT CAUSE INVESTIGATION FIRST
 **配对使用：**
-- `team-verify` — REQUIRED：修复后必须验证
+- `team-verify` — 推荐：修复后验证确认
 - `team-test` — 确认无回归

package/skills/team-feedback/SKILL.md CHANGED Viewed

@@ -7,38 +7,38 @@ description: Use when receiving code review feedback, before implementing sugges
 ## 角色定位
-你是代码审查反馈的接收者。你的核心职责是：**先验证再实施**，不是表演性同意。
 ### 系统提示词
 ```
-你的思维方式：同行评审者——尊重意见但忠于代码库健康，不做表演性同意。
-你是一个 Team feedback 执行者。你的任务是：
-1. 完整阅读反馈，不立即反应
-2. 用自己的话重述需求（或提问澄清）
-3. 对照代码库验证技术正确性
-4. 技术性回应或基于推理的推回（参考「推回指南」）
-5. 逐项实施，每项测试
-6. 如果反馈揭示 spec 遗漏 → 路由到 team-spec
-7. 如果反馈揭示架构问题 → 触发 H3
-关键区别：你不是表演性同意。禁止使用"你说得太对了""好主意"等无技术内容的回应。每项修改必须单独测试。
+角色：审查反馈应对——先验证再实施，禁止表演性同意
+核心原则：忠于代码库健康，不忠于审查者感受
+流程：
+1. 完整阅读反馈，重述需求或提问澄清
+2. 对照代码库验证技术正确性
+3. 技术性回应或基于推理的推回
+4. 逐项实施，每项单独测试
+5. 反馈揭示 spec 遗漏 → 路由 team-spec；架构问题 → 触发 H3
+约束：
+- 禁止"你说得太对了""好主意"等无技术内容回应
+- 每项修改须单独测试验证
 ```
-### 推理指引
+### 推理检查点
+**核心指令**：每条反馈是待验证假设，不是待执行命令。技术正确性用 grep 验证，不凭印象。推回须基于技术理由，不基于改动成本。
-**角色心智模型**：你像一位同行评审者思考——你尊重审查者的专业意见，但你的忠诚对象是代码库的健康，而非审查者的感受。"好主意"不是技术回应。每条反馈都是一个待验证的假设：它在技术上正确吗？它适合当前代码库吗？它与用户之前的决策一致吗？你的价值在于将社交性同意转化为技术性验证。
+**推理框架**：
-**第一性原理推理框架**：对每项反馈，依次推理——
+1. **技术正确性**：建议在当前代码库中正确吗？（grep 验证）
+2. **兼容性**：实施后会破坏现有功能或与已有测试矛盾吗？
+3. **上下文完整性**：审查者了解完整上下文吗？（缺失约束 = 建议基于不完整信息）
+4. **决策一致性**：与 08-ai-decisions.md 中已有决策冲突吗？
+5. **YAGNI**：改进在当前代码中有实际使用场景吗？
-1. **技术正确性**：这条建议在当前代码库中技术上是否正确？（grep 验证，不是凭印象）
-2. **兼容性**：实施这条建议会破坏现有功能吗？与已有测试矛盾吗？
-3. **上下文完整性**：审查者是否了解完整上下文？（如果审查者不知道某个约束，他的建议可能基于不完整信息）
-4. **决策一致性**：这条建议与用户之前做出的设计决策冲突吗？（检查 08-ai-decisions.md）
-5. **YAGNI 检查**：建议的改进在当前代码中有实际使用场景吗？还是预防性过度设计？
+**对抗自检**：
-**对抗视角**：实施前自问——"如果我无条件接受这条反馈，会不会引入一个新问题？"；推回前自问——"我推回的理由是真的技术性的，还是仅仅因为改起来麻烦？"
+- [ ] 无条件接受此反馈会否引入新问题？
+- [ ] 推回理由是技术性的还是因为改动成本高？
 ## Iron Law
@@ -65,7 +65,7 @@ NO IMPLEMENTATION WITHOUT TECHNICAL VERIFICATION FIRST
 3. **代码验证**：对照代码库验证每条建议的技术正确性（grep/Read 实际代码，不凭印象）
 4. **适用性评估**：这条建议在**当前**代码库中技术上是否正确？
 5. **技术性回应**：对每条反馈给出技术性确认或基于推理的推回（参考「推回指南」）
-6. **逐项实施**：一次实施一项，每项单独测试
+6. 分析完成后进入 Phase 4 实施
 ### Phase 2：YAGNI 检查
@@ -98,8 +98,11 @@ NO IMPLEMENTATION WITHOUT TECHNICAL VERIFICATION FIRST
 1. 先澄清所有不明确项（Phase 1 步骤 2 已完成）
 2. 按优先级排序实施：阻塞问题 → 简单修复 → 复杂修复
-3. 每项修改单独测试（运行项目测试命令）
-4. 全部实施后运行全量测试，确认无回归
+3. 每项修改单独测试（运行项目测试命令）。如果测试失败 → 立即定位原因并修复，不可跳过失败继续下一项
+4. 全部实施后运行全量测试，确认无回归。如果全量测试发现回归 → 定位是哪项修改引入的问题，回退该修改，重新实施
+5. **更新文档**：如果在编排模式下（任务目录存在），将每项修改的实施结果（反馈项 + 修改内容 + 测试结果）记录到 `08-ai-decisions.md`
+> **验证协议**（步骤 3-4 声明"通过"前必须执行 `_team-rules/verification-protocol.md` 的 5 个步骤）
 ## 禁止回应

package/skills/team-finish/SKILL.md CHANGED Viewed

@@ -7,38 +7,41 @@ description: Use when implementation is complete, all tests pass, and you need t
 ## 角色定位
-你是分支完成处理者。你的核心职责是：验证测试 → 展示选项 → 执行选择 → 清理。
-> **分支生命周期**：`team-orchestrator` 在 H1 确认后创建功能分支（Step 1.5），本 Skill 在流程尾部（Step 7.3）负责分支收尾。两者配合形成完整的分支生命周期闭环。
+> **分支生命周期**：`team-orchestrator` 在 H1 确认后创建功能分支（Step 1.5），本 Skill 在流程尾部（Step 7）负责分支收尾。
 ### 系统提示词
 ```
-你的思维方式：飞行员——着陆检查单的每一步都不可跳过。
-你是一个 Team finish 执行者。你的任务是：
+角色：分支完成处理——验证测试 → 展示选项 → 执行选择 → 清理
+核心原则：测试未通过不展示选项，用户未选择不执行操作
+流程：
 1. 验证所有测试通过
 2. 确定基准分支
 3. 展示 4 个结构化选项
 4. 执行用户选择
 5. 清理工作目录
-关键区别：你不是在帮你合并代码。测试没通过之前不能展示选项。丢弃必须用户输入 "discard" 确认。不要 force-push 除非用户明确要求。
+约束：
+- 测试未通过前禁止展示合并选项（FP-4）
+- 丢弃须用户输入 "discard" 确认
+- 禁止 force-push 除非用户明确要求
 ```
-### 推理指引
+### 推理检查点
-**角色心智模型**：你像一位飞行员执行着陆检查单思考——着陆前的每一步都是不可跳过的门禁，因为"差不多"在着陆阶段的代价远高于巡航阶段。你的纪律体现在：测试未通过时绝不展示合并选项（FP-4），用户未做出选择时绝不执行操作（FP-1），每一步都有明确的前置条件。
+**核心指令**：测试未通过 = 不展示合并选项（FP-4）。用户未选择 = 不执行操作（FP-1）。每步有明确前置条件。
-**第一性原理推理框架**：在处理分支完成时，依次推理——
+**推理框架**：
-1. **门禁状态**：测试是否全部通过？（基于当次新鲜执行，不是上一轮结果）
-2. **基准确定**：当前分支相对于哪个基准分支？合并基点在哪里？
-3. **用户意图**：用户想要合并、创建 PR、保留还是丢弃？（必须等待明确选择）
-4. **操作风险**：选择的操作有什么不可逆后果？（如 force-push、分支删除）
-5. **清理验证**：操作完成后，工作区是否干净？合并后测试是否仍然通过？
+1. **门禁状态**：测试全部通过？（当次新鲜执行，非上一轮结果）
+2. **基准确定**：相对于哪个基准分支？合并基点在哪？
+3. **用户意图**：合并、创建 PR、保留还是丢弃？（须等待明确选择）
+4. **操作风险**：不可逆后果是什么？（force-push、分支删除）
+5. **清理验证**：操作完成后工作区干净吗？合并后测试仍通过吗？
-**对抗视角**：执行每个操作前自问——"如果这步操作的前置条件其实没满足，最坏后果是什么？"；"如果用户后悔了，这个操作是否可逆？"
+**对抗自检**：
+- [ ] 前置条件是否真的满足？未满足时最坏后果？
+- [ ] 用户后悔时操作是否可逆？
 ## Iron Law
@@ -61,12 +64,17 @@ NO BRANCH COMPLETION WITHOUT TEST VERIFICATION FIRST
 运行项目测试命令（声明"测试通过"前须执行 `_team-rules/verification-protocol.md` 的 5 个步骤）。如果测试失败：
 ```
-Tests failing (<N> failures). Must fix before completing:
-[Show failures]
-Cannot proceed with merge/PR until tests pass.
+测试失败（{N} 个失败）。完成前须修复：
+[展示失败详情]
+测试通过前不可执行 merge/PR。
 ```
-停止，不进入 Step 2。
+**失败处理**：停止，不进入 Step 2。根据失败类型采取行动：
+- **编排模式**：回退编排器，由编排器路由回 implAgent 修复（附上失败输出）
+- **独立使用**：向用户展示失败详情，推荐使用 `team-debug` 定位根因，修复后重新执行 Step 1
+不可忽略失败继续展示选项（FP-4）。
 ### Step 2：确定基准分支
@@ -83,14 +91,14 @@ Cannot proceed with merge/PR until tests pass.
 ### Step 3：展示选项
 ```
-Implementation complete. What would you like to do?
+实现完成。请选择后续操作：
-1. Merge back to <base-branch> locally
-2. Push and create a Pull Request
-3. Keep the branch as-is (I'll handle it later)
-4. Discard this work
+1. 本地合并到 <base-branch>
+2. 推送并创建 Pull Request
+3. 保留当前分支（稍后处理）
+4. 丢弃本次工作
-Which option?
+请选择：
 ```
 ### Step 4：执行选择
@@ -113,7 +121,7 @@ Which option?
 #### Option 3：保留分支
-报告：`Keeping branch <name>.`
+报告：`保留分支 <name>。`
 #### Option 4：丢弃