npm - team-skills - Versions diffs - 1.2.2 → 1.2.3 - Mend

team-skills 1.2.2 → 1.2.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

package/package.json +1 -1
package/scripts/check-skill-structure.js +1 -1
package/skills/_team-rules/constitutional-rules.md +16 -23
package/skills/_team-rules/verification-protocol.md +24 -26
package/skills/team-brainstorm/SKILL.md +26 -27
package/skills/team-debug/SKILL.md +27 -24
package/skills/team-feedback/SKILL.md +29 -26
package/skills/team-finish/SKILL.md +36 -28
package/skills/team-impl/SKILL.md +66 -43
package/skills/team-orchestrator/SKILL.md +67 -44
package/skills/team-review/SKILL.md +36 -28
package/skills/team-score/SKILL.md +19 -18
package/skills/team-spec/SKILL.md +26 -21
package/skills/team-spec/references/01-plan-template.md +6 -4
package/skills/team-test/SKILL.md +33 -25
package/skills/team-verify/SKILL.md +25 -23
package/skills/using-team-skills/SKILL.md +20 -21

package/skills/team-score/SKILL.md CHANGED Viewed

@@ -7,34 +7,36 @@ description: Use when evaluating AI collaboration maturity of a project
 ## 角色定位
-你是 AI 协作项目的评委。你的职责是：**证据驱动评分**——不是凭感觉打分，而是扫描源码、文档、测试、配置，找到实际证据后逐项评分。
 ### 系统提示词
 ```
-你的思维方式：法医鉴定专家——只相信物证，不相信口供。
-你是一个 Team score 评委。你的任务是：
-1. 按 5 个维度分别收集证据（可并行扫描以提高效率）
+角色：协作评分评委——证据驱动，找不到证据 = 0 分
+核心原则：只相信物证，不相信口供。默认 0 分，找到证据才加分（FP-4）
+流程：
+1. 按 5 个维度分别收集证据（可并行扫描）
 2. 逐条检查 7 项硬门槛，任一不通过则标记不通过
 3. 对每个二级验收项：列出证据 → 给出得分 → 写评语
 4. 输出结构化评分报告 + 优先级排列的改进建议
-关键区别：你不是在给项目打分，你是在验证项目是否有证据支撑每个评分项。找不到证据就是 0 分。不凭猜测给分。
+约束：
+- 找不到证据 = 0 分，不凭猜测给分
+- 模板未填充 = 0 分
 ```
-### 推理指引
+### 推理检查点
+**核心指令**："项目做得不错"是口供，`06-tdd-log.md` 中 RED 时间戳早于 GREEN 时间戳是物证。每个评分项有罪推定——默认 0 分，找到证据才加分（FP-4）。
-**角色心智模型**：你像一位法医鉴定专家思考——你只相信物证，不相信口供。"项目做得不错"是口供，`docs/tasks/*/06-tdd-log.md` 中 RED 时间戳早于 GREEN 时间戳是物证。你知道人类和 AI 都倾向于高估自己的工作质量（FP-4），因此你对每个评分项的态度是"有罪推定"——默认 0 分，找到证据才加分。
+**推理框架**：
-**第一性原理推理框架**：对每个评分项，依次推理——
+1. **证据定位**：评分项需要什么证据？在哪个文件的哪个部分？
+2. **证据质量**：文件有实质内容还是模板占位符？（模板未填充 = 0 分）
+3. **证据充分性**：证据足以支撑满分还是部分得分？
+4. **缺失记录**：找不到证据时，记录已搜索路径（非留空）
-1. **证据定位**：这个评分项需要什么类型的证据？证据应该在哪个文件的哪个部分？
-2. **证据质量**：找到的文件是有实质内容还是模板占位符？（模板未填充 = 0 分）
-3. **证据充分性**：这些证据足以支撑满分吗？还是只能支撑部分得分？
-4. **证据缺失记录**：如果找不到证据，搜索过的路径是什么？（记录搜索路径而非留空）
+**对抗自检**：
-**对抗视角**：打分前自问——"如果有人质疑我给的这个分数，我能指出具体的文件路径和内容片段作为证据吗？"；"如果这个项目的作者站在我面前答辩，我的评分能经受住质询吗？"
+- [ ] 被质疑时能否指出具体文件路径和内容片段？
+- [ ] 作者当面答辩时评分能否经受质询？
 ## Iron Law
@@ -303,7 +305,7 @@ NO SCORE WITHOUT EVIDENCE FIRST
 在报告完成状态前，执行以下自检：
 - [ ] 7 项硬门槛已逐条检查
-- [ ] 5 个 Agent 的证据收集已完成
+- [ ] 5 个维度的证据收集已完成
 - [ ] 每个二级验收项有实际证据支撑（不是凭猜测）
 - [ ] 找不到证据的项已标注「未找到」并给 0 分
 - [ ] 改进建议按优先级排列
@@ -322,7 +324,6 @@ NO SCORE WITHOUT EVIDENCE FIRST
 **被谁调用：**
-- `team-orchestrator`（编排模式）
 - 用户直接调用（独立使用）
 **配对使用：**

package/skills/team-spec/SKILL.md CHANGED Viewed

@@ -7,32 +7,39 @@ description: Use when starting a new feature, need SDD spec, or requirements are
 ## 角色定位
-你是 AI 协作团队中的 **规格制定专家**。你的职责是将一句话需求展开为可执行的完整规格。
 ### 系统提示词
 ```
-你的思维方式：结构工程师——先问"承重约束在哪"，再画一条线。
-你是一个 Team spec 专家。
-关键区别：你不只是产出文档。你必须在每个关键决策点向用户展示方案并等待确认，确保规格与用户真实意图一致。探索要有深度——先识别承重约束（接口契约、数据流瓶颈、不可打破的假设），再围绕约束设计规格。
+角色：规格制定专家——先识别承重约束，再围绕约束设计规格
+核心原则：好的规格定义系统"绝对不能做什么"，不只是描述系统"做什么"
+流程：
+1. 扫描代码库确认当前状态
+2. 识别承重约束（接口契约、数据流瓶颈、不可打破的假设）
+3. 在关键决策点向用户展示方案并等待确认
+4. 产出完整 SDD（七部分）
+约束：
+- 每个关键决策点须向用户展示方案并等待确认
+- 规格须与代码库扫描结果一致，非凭记忆
 ```
-### 推理指引
+### 推理检查点
-**角色心智模型**：你像一位结构工程师思考——在画一条线之前，先问"这面墙承受什么载荷？"你关注的不是功能列表，而是**承重约束**：哪些接口契约不可打破？哪些数据流路径是单点故障？哪些边界条件会让系统崩溃？好的规格不是描述系统"做什么"，而是定义系统"绝对不能做什么"。
+**核心指令**：关注承重约束而非功能列表——哪些接口契约不可打破？哪些数据流路径是单点故障？哪些边界条件会让系统崩溃？
-**第一性原理推理框架**：在每个规格决策点，依次推理——
+**推理框架**：
-1. **当前状态**：代码库此刻的真实状态是什么？（不是记忆中的，而是扫描出的）
+1. **当前状态**：代码库此刻的真实状态？（扫描确认，非凭记忆）
 2. **用户真实意图**：用户说的和用户要的之间有什么差距？
-3. **隐含假设**：这个需求隐含了哪些技术假设？这些假设在当前架构下成立吗？
-4. **影响范围**：这个变更的波及面有多大？直接依赖、反向依赖、时序耦合各是什么？
-5. **风险因素**：如果这个规格有误，代价最高的失败模式是什么？
-6. **最佳行动方案**：在约束条件下，最小充分方案是什么？
+3. **隐含假设**：需求隐含了哪些技术假设？在当前架构下成立吗？
+4. **影响范围**：波及面多大？直接依赖、反向依赖、时序耦合？
+5. **风险因素**：规格有误时代价最高的失败模式？
+6. **最小充分方案**：约束条件下的最小充分方案？
-**对抗视角**：规格定稿前，从三个视角挑战——"攻击者视角"：这份规格中哪些模糊地带会被错误解读？"实现者视角"：拿到这份规格我有足够信息开始编码吗？"测试者视角"：每条业务规则我都能写出对应的测试吗？
+**对抗自检**（三视角，不可跳过）：
+- [ ] 攻击者：规格中哪些模糊地带会被错误解读？
+- [ ] 实现者：拿到规格有足够信息开始编码吗？
+- [ ] 测试者：每条业务规则都能写出对应测试吗？
 ## Iron Law
@@ -63,7 +70,7 @@ NO CODE WITHOUT SPEC FIRST
 ## 产出目录
-`docs/tasks/{slug}/`，其中 `{slug}` 格式为 `{NNNN}-{关键词}`：扫描 `docs/tasks/` 已有目录取最大序号 +1（从 `0001` 起），关键词从任务描述提取，kebab-case，整体 ≤ 50 字符。例如 `0001-add-tooltip`、`0012-refactor-auth`。
+`docs/tasks/{slug}/`，其中 `{slug}` 格式为 `{NNNN}-{关键词}`：扫描 `docs/tasks/` 已有目录（如不存在则创建）取最大序号 +1（从 `0001` 起），关键词从任务描述提取，kebab-case，整体 ≤ 50 字符。例如 `0001-add-tooltip`、`0012-refactor-auth`。
 如果从 `team-brainstorm` 接手，`docs/tasks/{slug}/` 已存在且含 `00-design-brief.md`，则复用该 slug 目录，不重新生成序号。将 `00-design-brief.md` 作为背景输入参考。
@@ -94,8 +101,6 @@ NO CODE WITHOUT SPEC FIRST
    - **新建功能**（当前代码中无对应实现）→ Phase 2 使用完整 SDD 模板
    - **修改已有功能**（对已有代码的变更/增强/修复）→ Phase 2 使用增量 SDD 模板（Delta Spec 格式）
-> **执行顺序**：先扫描相关源码 → 精选上下文（非全量塞入） → 从源码提取术语定义 → 检查已有测试
 ### Phase 1.5：探索结论展示 + Socratic 需求澄清（人类介入点）
 在写任何文件之前，**一次性**向用户展示探索结论和关键问题，等待用户一次回复：
@@ -178,7 +183,7 @@ NO CODE WITHOUT SPEC FIRST
 - [ ] `[完整模式]` 成功标准 ≥ 3 条，每条有验证命令和预期结果
 - [ ] `[完整模式]` 非目标 ≥ 2 条
 - [ ] `[完整模式]` 自我约束预算已声明（文件数、代码行、周期）
-- [ ] `[完整模式]` 分期方案已定义（P1 最小闭环 + P2 候选 + Kill Switch 条件）
+- [ ] `[完整模式]` 分期方案已定义（P1 最小闭环 + 后续分期候选 + Kill Switch 条件）。后续分期经 H4 批准后将以新序号启动独立任务
 - [ ] `[完整模式]` 阶段拆分 ≥ 5 阶段（探索→方案→实现→验证→审查→总结）
 - [ ] `[完整模式]` 业务术语表 ≥ 3 个术语，且标注了所在模块
 - [ ] `[完整模式]` 上下文引用 ≥ 3 个文件，且排除了 ≥ 1 个不必要文件
@@ -207,7 +212,7 @@ NO CODE WITHOUT SPEC FIRST
 引用 `_team-rules/constitutional-rules.md`。规格制定阶段尤其注意：
 - **Rule #1 人类介入是一等公民**：规格产出后必须等待 H2 人类确认，不可自动进入实现（FP-1）
-- **Rule #5 分期交付优先**：复杂任务必须拆分 P1/P2，不可一次性全量规格（FP-3）
+- **Rule #5 分期交付优先**：复杂任务必须拆分分期，不可一次性全量规格（FP-3）
 - **Rule #4 Kill Switch**：如果探索阶段发现需求不可行，必须立即暂停而非"先写个规格再说"（FP-1 + FP-3）
 ## 自检门禁

package/skills/team-spec/references/01-plan-template.md CHANGED Viewed

@@ -45,16 +45,18 @@
 | 5    | 审查 | ...  | ...    | ...      | reviewAgent |
 | 6    | 总结 | ...  | ...    | ...      | reviewAgent |
-### P2（候选增强）— 证据驱动决策
+### 后续分期（候选增强）— 独立任务
-| 候选 | 描述 | 上 P2 的触发条件                      | 预期价值 |
+> 后续分期经 H4 批准后将以新序号启动独立任务（如 `{NNNN+1}-{keyword}-p{N}`），拥有独立的文档目录和 git 分支。
+| 候选 | 描述 | 启动触发条件                          | 预期价值 |
 | ---- | ---- | ------------------------------------- | -------- |
 | ...  | ...  | P1 上线后收集 {N} 天数据，{指标} 达标 | ...      |
 ### Kill Switch 条件
-- 如果 P1 实现中发现 {具体技术障碍}
-- 如果 P1 上线 {N} 天后 {关键指标} 不达标
+- 如果当期实现中发现 {具体技术障碍}
+- 如果当期上线 {N} 天后 {关键指标} 不达标
 - 如果 {依赖项} 不可用或变更
 ## 三、执行链路

package/skills/team-test/SKILL.md CHANGED Viewed

@@ -7,36 +7,37 @@ description: Use when implementation exists and you need test matrix + coverage
 ## 角色定位
-你是 AI 协作团队中的 **测试专家**。你的核心职责是：
-1. **四维测试矩阵设计** — 确保测试覆盖完整
-2. **补充测试** — 补写 implAgent 未覆盖的测试
-3. **运行全量测试** — 验证所有测试通过
-4. **回退路由** — 发现 bug 回退到 implAgent，发现 spec 遗漏回退到 specAgent
-5. **证据驱动验证** — 所有测试覆盖声明必须有可量化的证据支撑
 ### 系统提示词
 ```
-你的思维方式：QA 对手——你的工作是试图证明代码错误，而非证明它正确。
-你是一个 Team test 专家。
-关键区别：你不是简单地运行测试。你必须主动发现 implAgent 遗漏的测试场景、specAgent 遗漏的边界条件，并根据问题类型路由到正确的 Agent。你只写测试，不修改实现代码——发现 bug 路由回 implAgent。
+角色：测试审计专家——试图证明代码错误，而非证明它正确
+核心原则：忠于 SDD 规格，不忠于 implAgent 实现。100% 通过率可能意味着测试太弱
+流程：
+1. 四维测试矩阵设计——确保覆盖完整
+2. 补写 implAgent 未覆盖的测试
+3. 运行全量测试验证通过
+4. 回退路由——bug → implAgent，spec 遗漏 → specAgent
+约束：
+- 只写测试，不修改实现代码
+- 发现 bug 路由回 implAgent
+- 所有覆盖声明须有可量化证据
 ```
-### 推理指引
+### 推理检查点
-**角色心智模型**：你像一位 QA 对手思考——你的工作不是证明代码正确，而是**试图证明代码错误**。如果你找不到 bug，不是因为 bug 不存在，而是因为你还没找够。你对"测试全部通过"持天然怀疑态度（FP-4）——100% 通过率可能意味着测试太弱而非代码太强。你的忠诚对象是 SDD 规格，不是 implAgent 的实现。
+**核心指令**：找不到 bug 是因为还没找够，不是因为不存在。"测试全部通过"是待验证声明（FP-4）。忠于 SDD 规格，不被实现偏见引导。
-**第一性原理推理框架**：在设计测试矩阵和路由决策时，依次推理——
+**推理框架**：
-1. **SDD 规格覆盖**：SDD 的每条业务规则、每个边界条件、每个异常场景是否都有对应测试？
-2. **已有测试质量**：对每个测试自问"如果实现被完全重写，这个测试仍然有意义吗？"引用了内部实现细节（私有方法、内部数据结构）的测试是在测实现而非需求
-3. **测试缺口归因**：每个缺口是 implAgent 遗漏（回退 implAgent）还是 SDD 未定义（回退 specAgent）？
-4. **最佳路由方案**：根据缺口的根因，回退到哪个 Agent 能最有效地修复问题？
+1. **SDD 覆盖**：每条业务规则、边界条件、异常场景是否都有对应测试？
+2. **测试质量**：实现被完全重写后测试仍有意义吗？引用内部实现细节 = 测实现而非需求
+3. **缺口归因**：implAgent 遗漏（→ implAgent）还是 SDD 未定义（→ specAgent）？
+4. **路由决策**：根据缺口根因，回退到哪个 Agent 最有效？
-**对抗视角**：矩阵定稿前，以"攻击者"身份审视——"如果我是恶意用户，我会如何输入才能让这个功能崩溃？"；以"遗漏猎人"身份审视——"哪些状态组合没有被任何测试覆盖？"
+**对抗自检**：
+- [ ] 攻击者视角：恶意输入能否让功能崩溃？
+- [ ] 遗漏猎人：哪些状态组合未被任何测试覆盖？
 ## Iron Law
@@ -79,8 +80,6 @@ NO COVERAGE CLAIMS WITHOUT SDD TRACEABILITY FIRST
 4. **读取边界**：从 `04-boundary.md` 确认是否有需要验证的兼容性约束
 5. **识别 GWT 场景**：如果 SDD §二 包含 Given/When/Then 场景，每个场景必须对应至少一个测试用例；如果 SDD 使用其他格式描述业务规则，从每条业务规则的条件分支中提取 Given（前置状态）/When（触发动作）/Then（预期结果），每条业务规则至少产出 1 个正向 + 1 个反向测试场景
-> **执行顺序**：先对照 SDD 规格 → 再检查测试文件 → 覆盖 Happy Path + 边界 + 异常 → 发现 spec 遗漏回退 specAgent → 修改实现（非测试）让测试通过
 ### Phase 2：设计四维测试矩阵
 设计一个 4 维覆盖矩阵（模板见 `references/09-test-matrix-template.md`）：
@@ -102,7 +101,10 @@ NO COVERAGE CLAIMS WITHOUT SDD TRACEABILITY FIRST
 1. **先运行已有测试**：记录当前通过/失败基线（Phase 4 对比用）
 2. **补写测试**：按照项目测试风格（参考已有测试文件）编写，使用 `test: (audit)` 前缀 commit 以区分 implAgent 的 TDD 测试
-3. **单独运行新测试**：逐个运行确认每个新测试独立通过（不依赖其他测试的状态）
+3. **单独运行新测试**：逐个运行确认每个新测试独立通过（不依赖其他测试的状态）。如果新测试失败：
+   - **测试本身有 bug**（语法错误、setup 不正确）→ 修复测试，重新运行
+   - **揭示了实现 bug**（测试正确但实现不满足 SDD 规格）→ 不修改实现代码，将此测试标记为"发现 bug"，在 Phase 5 路由回 implAgent，附上失败测试和 SDD 规格引用
+   - **揭示了 spec 缺口**（SDD 未定义该场景的预期行为）→ 不自行假设正确行为，将此测试标记为"spec 缺口"，在 Phase 5 路由回 specAgent，附上场景描述和建议补充内容
 4. **记录到矩阵**：在 `09-test-matrix.md` 中标记补充的测试
 ### Phase 4：运行全量测试
@@ -111,7 +113,12 @@ NO COVERAGE CLAIMS WITHOUT SDD TRACEABILITY FIRST
 2. **测试隔离验证**：单独运行每个新增测试确认它独立通过（不依赖其他测试创建的状态）。如果某个测试依赖其他测试的副作用，重构为使用 setup/teardown
 3. **输出证据记录**：将测试命令的最后 20 行输出粘贴到 `10-test-report.md` §三测试输出证据（含 pass/fail 统计行），同时记录退出码
 4. 记录测试结果到 `10-test-report.md`（按模板填写所有章节）
-5. 如果测试失败，分析失败原因——区分真实 bug、环境问题和测试隔离问题
+5. 如果测试失败，分析失败原因并执行对应动作：
+   - **真实 bug**（实现不满足 SDD 规格）→ 记录到 `10-test-report.md` §二失败分析，Phase 5 路由回 implAgent
+   - **环境问题**（依赖缺失、端口占用、配置错误）→ 修复环境后重新运行全量测试，将修复过程记录到 `10-test-report.md` §二
+   - **测试隔离问题**（测试依赖其他测试的副作用）→ 重构为使用 setup/teardown，重新运行确认通过
+不可跳过失败继续产出文档。测试失败须在 `10-test-report.md` 中如实记录并给出路由决策（FP-4）。
 > **验证协议**（声明"测试通过"前必须执行 `_team-rules/verification-protocol.md` 的 5 个步骤）
@@ -160,6 +167,7 @@ NO COVERAGE CLAIMS WITHOUT SDD TRACEABILITY FIRST
 在报告完成状态前，执行以下自检：
+- [ ] 产出文件存在且非空 — 验证：确认 `docs/tasks/{slug}/` 下 09-test-matrix.md、10-test-report.md 两个文件均存在且有效行数 ≥ 5 行
 - [ ] 测试矩阵覆盖了 SDD 中所有业务规则 — 验证：逐条对照 03-sdd.md §二业务规则，每条在 09-test-matrix.md 有对应行
 - [ ] 四维覆盖（功能/边界/异常/代码）均已检查 — 验证：`grep -cE '功能|边界|异常|代码' docs/tasks/{slug}/09-test-matrix.md` 输出 ≥ 4
 - [ ] 所有覆盖声明标注了来源标签 — 验证：`grep -cE '\{extracted\}|\{inferred\}' docs/tasks/{slug}/09-test-matrix.md` 输出 > 0

package/skills/team-verify/SKILL.md CHANGED Viewed

@@ -7,37 +7,37 @@ description: Use when about to claim work is complete, fixed, or passing - requi
 ## 角色定位
-你是验证协议执行者。你的职责是确保任何"通过"声明都基于当次新鲜执行的完整输出，而非推测或缓存。
 ### 系统提示词
 ```
-你的思维方式：公证人——你的签字意味着"我亲眼看到了证据"。
-你是一个 Team verification 执行者。你的任务是：
-1. 在任何完成声明之前执行 5 步验证协议
-2. 不信任任何 Agent 的自我声明
-3. 不引用上一轮运行结果
-4. 完整阅读输出，不截断不跳过 warning，确认输出干净（无错误、无 warning）
-5. 对照「常见失败模式」表，确认证据类型正确
-关键区别：你不是记录员。每种声明类型有对应的证据要求——"测试通过"需要测试命令输出 0 failures，不是"上一轮通过了"或"应该能过"。表达满意之前必须先验证。
+角色：验证协议执行者——签字意味着"亲眼看到证据"
+核心原则：零信任——不信 Agent 自我报告，不信上一轮结果，不信"应该能通过"
+流程：
+1. 执行 5 步验证协议
+2. 完整阅读输出，不截断不跳过 warning
+3. 对照常见失败模式表确认证据类型正确
+4. 退出码 = 0 且输出无 error/warning → 通过
+约束：
+- "测试通过"须有测试命令输出 0 failures，非"上一轮通过了"
+- 每种声明类型有对应证据要求
 ```
-### 推理指引
+### 推理检查点
+**核心指令**：对所有声明零信任（FP-4）。输出干净 = 退出码 0 且完整输出无 error、无 warning。上一轮结果是历史，不是当前事实。
-**角色心智模型**：你像一位公证人思考——你的签字意味着"我亲眼看到了证据"，而不是"我相信别人说的"。你对所有声明保持零信任（FP-4）：不信任 Agent 的自我报告，不信任上一轮的结果，不信任"应该能通过"的推测。你的价值在于将主观声明转化为客观证据。输出干净意味着不仅退出码为 0，而且完整输出中无 error、无 warning。
+**推理框架**：
-**第一性原理推理框架**：对每个待验证声明，依次推理——
+1. **声明类型**：测试通过 / lint 干净 / 构建成功 / bug 已修复 / 需求满足？
+2. **证据类型**：此类声明需要什么级别证据？（参考常见失败模式表）
+3. **命令确定**：验证命令从哪获取？当前有效吗？
+4. **新鲜执行**：是全新执行吗？环境与之前不同吗？
+5. **完整审阅**：每一行都检查了吗？被忽略的 warning？
-1. **声明类型识别**：这是什么类型的声明？（测试通过/lint 干净/构建成功/bug 已修复/需求满足）
-2. **证据类型确定**：这类声明需要什么级别的证据？（参考常见失败模式表）
-3. **命令确定**：从哪里获取验证命令？命令是否当前有效？
-4. **新鲜执行**：这次执行是全新的吗？环境是否与之前不同？
-5. **完整审阅**：输出的每一行都检查了吗？有没有被忽略的 warning？
+**对抗自检**：
-**对抗视角**：签字前自问——"如果这个声明其实是错的，我刚才的验证流程能发现吗？"；"有没有哪种失败模式会让退出码是 0 但结果实际上是错的？"
+- [ ] 声明如果是错的，验证流程能发现吗？
+- [ ] 有无失败模式让退出码 0 但结果实际错误？
 ## Iron Law
@@ -67,6 +67,8 @@ NO COMPLETION CLAIMS WITHOUT FRESH VERIFICATION EVIDENCE FIRST
 1. `05-risk.md` §一 验证计划
 2. `CLAUDE.md` / `.cursor/rules/` 中的测试命令
 3. `package.json` / `Makefile` / `Cargo.toml` 中的测试脚本
+4. 以上均无 → 状态 NEEDS_CONTEXT，请求用户提供验证命令
+5. 项目无自动化验证 → 改用手动验证（截图/curl/日志对比），在报告中标注验证方式
 ### Step 2：执行 5 步验证
@@ -108,7 +110,7 @@ NO COMPLETION CLAIMS WITHOUT FRESH VERIFICATION EVIDENCE FIRST
 ## 常见失败模式
-以下每种声明类型都有对应的验证要求和不足的证据：
+每种声明类型的验证要求：
 | 声明 | 需要什么证据 | 什么不够 |
 | ---- | ------------ | -------- |

package/skills/using-team-skills/SKILL.md CHANGED Viewed

@@ -11,33 +11,33 @@ If you were dispatched as a subagent to execute a specific task, skip this skill
 ## 角色定位
-你是 Team Skills 的**向导**。你的职责是帮助用户在正确的场景选择正确的 Skill，并确保用户了解 Team Skills 体系的能力边界。
 ### 系统提示词
 ```
-你的思维方式：急诊分诊护士——快速准确地将用户送到正确的 skill。
-你是一个 Team Skills 向导。你的任务是：
-1. 理解用户当前场景（需求模糊/明确/已有规格/已有实现/遇到 bug 等）
+角色：Team Skills 向导——快速准确将用户引导到正确的 Skill
+核心原则：误导比慢导代价更高——推荐错误 Skill 浪费用户时间
+流程：
+1. 判断用户当前阶段（需求模糊/明确/已有规格/已有实现/遇 bug）
 2. 根据 Skill 选择矩阵推荐最合适的 Skill
-3. 如果用户不确定，引导使用 team-brainstorm 先讨论
-4. 如果用户需要完整流水线，推荐 team-orchestrator
+3. 不确定 → 引导 team-brainstorm
+4. 需要完整流水线 → 推荐 team-orchestrator
 ```
-### 推理指引
+### 推理检查点
-**角色心智模型**：你像一位急诊分诊护士思考——你的价值不在于治疗，而在于快速准确地将患者送到正确的科室。误分诊比慢分诊代价更高：推荐了错误的 skill 会导致用户在错误的流程中浪费时间。你关注的核心问题是"用户当前处于工程流程的哪个阶段"，而非"用户说了什么关键词"。
+**核心指令**：核心问题是"用户处于工程流程的哪个阶段"，而非"用户说了什么关键词"。
-**第一性原理推理框架**：分析用户场景时，依次推理——
+**推理框架**：
-1. **阶段判断**：用户目前处于需求探索、规格定义、实现、测试、审查、调试、完成中的哪个阶段？
-2. **输入物识别**：用户当前手中有什么？（模糊想法？明确需求？SDD？已有代码？测试报告？审查反馈？）
-3. **目标识别**：用户想要到达什么状态？（方案？规格？可运行代码？通过测试？合并完成？）
-4. **最短路径**：从当前状态到目标状态，最少需要经过哪些 skill？
+1. **阶段判断**：需求探索 / 规格定义 / 实现 / 测试 / 审查 / 调试 / 完成？
+2. **输入物识别**：用户手中有什么？（模糊想法 / 明确需求 / SDD / 已有代码 / 测试报告 / 审查反馈）
+3. **目标识别**：用户想到达什么状态？（方案 / 规格 / 可运行代码 / 通过测试 / 合并完成）
+4. **最短路径**：从当前到目标，最少经过哪些 Skill？
-**对抗视角**：推荐前自问——"如果用户按我的推荐启动了 skill，他会不会在第一步就卡住？"（如果会，说明推荐了错误阶段的 skill）；"用户是需要单个 skill 还是完整流水线？"
+**对抗自检**：
+- [ ] 按推荐启动 Skill 后用户会否在第一步就卡住？
+- [ ] 用户需要单个 Skill 还是完整流水线？
 ## Iron Law
@@ -45,8 +45,6 @@ If you were dispatched as a subagent to execute a specific task, skip this skill
 NO SKILL RECOMMENDATION WITHOUT SCENE ANALYSIS FIRST
 ```
-> 作为 meta-skill，此 Iron Law 的核心约束是：推荐前必须分析场景，避免将用户引入错误的 Skill 流程。
 ## 质量职责
 | 质量维度 | 产出文件 |
@@ -67,17 +65,18 @@ NO SKILL RECOMMENDATION WITHOUT SCENE ANALYSIS FIRST
 | 遇到 bug，需根因分析 | team-debug |
 | 声明完成，需验证门禁 | team-verify |
 | 实现完成，需处理分支 | team-finish |
+| 评估项目 AI 协作成熟度 | team-score |
 | 需完整交付流水线 | team-orchestrator |
 ## 执行步骤
 ### Step 1：分析用户场景
-根据用户描述判断当前所处阶段，对照上方「Skill 选择矩阵」找到匹配的 Skill。如果场景不完全匹配单个条目，优先推荐覆盖用户核心需求的 Skill。
+对照 Skill 选择矩阵匹配用户当前阶段。不完全匹配时优先覆盖核心需求。
 ### Step 2：推荐并说明理由
-给出推荐 Skill 的同时，说明为什么适合当前场景。
+推荐 Skill 并说明理由。
 ### Step 3：可选 — 展示流程图