npm - @chongyan/autospec - Versions diffs - 1.0.1 → 1.0.2 - Mend

@chongyan/autospec 1.0.1 → 1.0.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (283) hide show

package/knowledge/09-templates/06-test-design.md ADDED Viewed

@@ -0,0 +1,268 @@
+# 测试设计：{项目/功能名}
+> **版本**: v1.0
+> **模板来源**: ISTQB 测试标准、测试金字塔理论、Google 测试方法论
+> **适用范围**: 单元测试、集成测试、端到端测试、性能测试设计
+> **生成模式**: 测试策略 → 测试用例 → 测试数据 → 测试执行
+---
+## 1. 测试概述
+### 1.1 基本信息
+| 字段 | 值 |
+|------|-----|
+| 测试项目名称 | |
+| 被测系统/功能 | |
+| 测试类型 | 单元/集成/E2E/性能/安全 |
+| 测试负责人 | |
+| 测试环境 | |
+### 1.2 测试目标
+- [ ] 功能正确性验证
+- [ ] 边界条件覆盖
+- [ ] 异常场景处理
+- [ ] 性能指标达标
+- [ ] 安全漏洞检测
+### 1.3 测试范围
+**包含内容**：
+- 功能模块 A
+- 功能模块 B
+**不包含内容**：
+- 第三方系统集成（由集成测试覆盖）
+---
+## 2. 测试策略
+### 2.1 测试金字塔
+```
+        /\
+       /  \
+      / E2E \     端到端测试 (10%)
+     /______\
+    /        \
+   / 集成测试  \   集成测试 (20%)
+  /____________\
+ /              \
+/   单元测试      \  单元测试 (70%)
+__________________\
+```
+### 2.2 测试类型分布
+| 测试类型 | 占比 | 工具 | 执行频率 |
+|---------|------|------|---------|
+| 单元测试 | 70% | Jest/JUnit/pytest | 每次提交 |
+| 集成测试 | 20% | TestContainer | 每日 |
+| E2E 测试 | 10% | Selenium/Cypress | 每周 |
+---
+## 3. 测试用例
+### 3.1 测试用例模板
+#### TC-{编号}: {测试用例名称}
+| 属性 | 值 |
+|------|-----|
+| 测试用例 ID | TC-{编号} |
+| 测试名称 | |
+| 测试类型 | 功能/性能/安全 |
+| 优先级 | P0/P1/P2 |
+| 前置条件 | |
+**测试步骤**：
+| 步骤 | 操作 | 预期结果 |
+|------|------|---------|
+| 1 | | |
+| 2 | | |
+**测试数据**：
+```json
+{
+  "input": {},
+  "expected": {}
+}
+```
+---
+### 3.2 测试用例列表
+| 用例 ID | 用例名称 | 类型 | 优先级 | 状态 |
+|--------|---------|------|--------|------|
+| TC-001 | | 功能 | P0 | 设计中 |
+| TC-002 | | 边界 | P1 | 设计中 |
+---
+## 4. 测试场景
+### 4.1 正常场景
+| 场景 ID | 场景描述 | 输入 | 预期输出 |
+|--------|---------|------|---------|
+| SC-001 | 正常流程 | | |
+### 4.2 边界场景
+| 场景 ID | 边界类型 | 输入值 | 预期行为 |
+|--------|---------|-------|---------|
+| SC-002 | 最小值 | 0 | |
+| SC-003 | 最大值 | MAX_INT | |
+| SC-004 | 空值 | null/empty | |
+### 4.3 异常场景
+| 场景 ID | 异常类型 | 触发条件 | 预期处理 |
+|--------|---------|---------|---------|
+| SC-005 | 网络异常 | 超时 | 重试 3 次后失败 |
+| SC-006 | 数据异常 | 无效输入 | 返回验证错误 |
+---
+## 5. 测试数据
+### 5.1 数据来源
+| 数据类型 | 来源 | 说明 |
+|---------|------|------|
+| 基础数据 | 测试数据库 | 预置数据 |
+| 动态数据 | API 生成 | 运行时创建 |
+### 5.2 数据准备
+```sql
+-- 测试数据准备脚本
+INSERT INTO users (id, name, email) VALUES (1, 'Test User', 'test@example.com');
+```
+### 5.3 数据清理
+```sql
+-- 测试后清理脚本
+DELETE FROM users WHERE id IN (1, 2, 3);
+```
+---
+## 6. 测试执行
+### 6.1 执行环境
+| 环境 | 配置 | 用途 |
+|------|------|------|
+| 本地开发 | MacBook Pro 16G | 单元测试 |
+| CI 环境 | GitHub Actions | 集成测试 |
+| 测试环境 | AWS EC2 | E2E 测试 |
+### 6.2 执行命令
+```bash
+# 单元测试
+npm test
+# 集成测试
+npm run test:integration
+# E2E 测试
+npm run test:e2e
+```
+### 6.3 执行计划
+| 阶段 | 时间 | 执行内容 | 负责人 |
+|------|------|---------|--------|
+| 阶段一 | | 单元测试 | |
+| 阶段二 | | 集成测试 | |
+---
+## 7. 测试覆盖率
+### 7.1 覆盖率目标
+| 指标 | 目标值 | 当前值 |
+|------|-------|-------|
+| 代码覆盖率 | > 80% | |
+| 分支覆盖率 | > 70% | |
+| 需求覆盖率 | 100% | |
+### 7.2 覆盖率报告
+```
+=============================== coverage summary ===============================
+Stmts     : 85% ( 100/120 )
+Branches  : 75% ( 50/67 )
+Funcs     : 90% ( 45/50 )
+Lines     : 84% ( 95/113 )
+================================================================================
+```
+---
+## 8. 缺陷管理
+### 8.1 缺陷记录
+| 缺陷 ID | 缺陷描述 | 严重程度 | 状态 | 关联用例 |
+|--------|---------|---------|------|---------|
+| BUG-001 | | 高/中/低 | 新建/修复中/已修复 | TC-001 |
+### 8.2 缺陷流程
+```mermaid
+flowchart LR
+    A[新建] --> B[确认]
+    B --> C[修复中]
+    C --> D[已修复]
+    D --> E[验证]
+    E --> F[关闭]
+```
+---
+## 9. 测试报告
+### 9.1 测试结果
+| 测试类型 | 总数 | 通过 | 失败 | 跳过 | 通过率 |
+|---------|------|------|------|------|-------|
+| 单元测试 | | | | | |
+| 集成测试 | | | | | |
+| E2E 测试 | | | | | |
+### 9.2 测试结论
+- [ ] 测试通过，可以发布
+- [ ] 测试通过，但有已知问题
+- [ ] 测试失败，需要修复
+---
+## 10. 附录
+### 10.1 测试工具
+| 工具名称 | 用途 | 版本 |
+|---------|------|------|
+| | | |
+### 10.2 参考资料
+- [ISTQB 测试标准](url)
+- [Google 测试方法论](url)
+---
+**维护者**: QA 团队
+**进化分区**: 自由区
+**关联文档**: `knowledge/09-templates/09-evaluation-design.md`, `knowledge/09-templates/01-architecture-design.md`

package/knowledge/09-templates/07-evaluation-design.md ADDED Viewed

@@ -0,0 +1,372 @@
+# 评测设计：{AI 模型/功能名}
+> **版本**: v1.0
+> **模板来源**: AI 评测最佳实践、ML 评估方法论、业界评测基准
+> **适用范围**: AI 模型效果评测、LLM 应用评测、RAG 系统评测
+> **生成模式**: 评测目标 → 评测数据集 → 评测指标 → 评测执行
+---
+## 1. 评测概述
+### 1.1 基本信息
+| 字段 | 值 |
+|------|-----|
+| 评测项目名称 | |
+| 被测 AI 系统/模型 | |
+| 评测类型 | 效果评测/性能评测/安全评测 |
+| 评测负责人 | |
+| 评测环境 | |
+### 1.2 评测目标
+- [ ] 验证模型效果是否达标
+- [ ] 对比不同模型/版本
+- [ ] 发现 Badcase 并优化
+- [ ] 评估上线风险
+### 1.3 评测范围
+**包含内容**：
+- 核心场景评测
+- 边界场景评测
+**不包含内容**：
+- 极端场景（由专项评测覆盖）
+---
+## 2. 评测数据集
+### 2.1 数据集概述
+| 数据集名称 | 数据来源 | 数据量 | 用途 |
+|-----------|---------|-------|------|
+| 测试集 A | 线上采样 | 1000 | 核心场景评测 |
+| 测试集 B | 人工构造 | 200 | 边界场景评测 |
+### 2.2 数据分布
+| 类别 | 训练集 | 验证集 | 测试集 |
+|------|-------|-------|-------|
+| 类别 A | 70% | 15% | 15% |
+| 类别 B | 70% | 15% | 15% |
+### 2.3 数据样例
+```json
+{
+  "id": "eval-001",
+  "input": "用户输入",
+  "expected_output": "期望输出",
+  "metadata": {
+    "scene": "场景类型",
+    "difficulty": "简单/中等/困难"
+  }
+}
+```
+---
+## 3. 评测指标
+### 3.1 效果指标
+| 指标名称 | 定义 | 计算方式 | 目标值 |
+|---------|------|---------|-------|
+| 准确率 | 预测正确的比例 | (TP+TN)/(TP+TN+FP+FN) | > 90% |
+| 精确率 | 预测为正的准确率 | TP/(TP+FP) | > 85% |
+| 召回率 | 正例被找出的比例 | TP/(TP+FN) | > 85% |
+| F1 分数 | 精确率和召回率的调和平均 | 2PR/(P+R) | > 85% |
+### 3.2 LLM 专用指标
+| 指标名称 | 说明 | 评估方式 |
+|---------|------|---------|
+| 回答准确性 | 回答是否正确 | 人工评分/LLM 评判 |
+| 回答完整性 | 是否覆盖所有要点 | 人工评分 |
+| 回答相关性 | 是否切题 | 人工评分 |
+| 安全性 | 是否有有害内容 | 规则检测 + 人工 |
+| 困惑度 (Perplexity) | 语言模型预测不确定性 | 计算生成文本的 PPL 值 |
+| BERTScore | 语义相似度评估 | 基于 BERT 嵌入的 F1 分数 |
+| 毒性评分 (Toxicity) | 有害/偏见内容检测 | Perspective API/ toxicity 模型 |
+| 有帮助性评分 | RLHF 对齐程度 | 人工评分 (1-5 分) |
+### 3.3 RAG 系统专用指标
+| 指标名称 | 说明 | 计算方式 |
+|---------|------|---------|
+| 检索精确率 (Retrieval Precision) | 检索到的相关文档比例 | 相关文档数 / 检索总数 |
+| 检索召回率 (Retrieval Recall) | 被检索到的相关文档比例 | 检索到的相关数 / 总相关数 |
+| 上下文相关性 (Context Relevance) | 检索内容与查询的相关性 | 人工评分/LLM 评判 |
+| 答案忠实度 (Faithfulness) | 答案是否源自检索内容 | 事实一致性检测 |
+| 引用准确率 | 引用来源的准确性 | 正确引用数 / 总引用数 |
+### 3.4 性能指标
+| 指标名称 | 目标值 | 说明 |
+|---------|-------|------|
+| 响应时间 (P50) | < 500ms | 50% 请求的响应时间 |
+| 响应时间 (P99) | < 2s | 99% 请求的响应时间 |
+| QPS | > 100 | 每秒查询数 |
+| 并发数 | > 50 | 最大并发连接数 |
+---
+## 4. 评测执行
+### 4.1 评测准备
+**Step 1: 准备评测环境**
+1. 检查是否有评测方案（`evaluation-plan.md`）
+2. 检查是否有评测数据集（`evaluation/dataset/`）
+3. 检查是否有评测脚本（`tests/evaluation/`, `evaluation/`）
+**Step 2: 加载评测数据集**
+1. 读取评测数据集
+2. 验证数据集格式
+3. 统计数据集规模
+### 4.2 评测流程
+```mermaid
+flowchart TD
+    A[准备评测数据] --> B[执行评测]
+    B --> C[收集结果]
+    C --> D[分析指标]
+    D --> E{是否达标？}
+    E -->|是 | F[通过评测]
+    E -->|否 | G[分析 Badcase]
+    G --> H[优化模型]
+    H --> B
+```
+### 4.3 评测执行步骤
+**Step 3: 执行评测**
+1. 初始化被评测的 AI/模型组件
+2. 对每个测试用例执行推理
+3. 收集预测结果
+**Step 4: 计算评测指标**
+根据评测方案中的指标定义计算：
+1. **准确率指标**：
+   - 激活准确率、匹配准确率等
+2. **质量指标**：
+   - 响应质量、任务完成率等
+3. **性能指标**：
+   - 响应时间、吞吐量等
+**Step 5: 生成评测报告**
+1. 汇总各项指标
+2. 与目标值对比
+3. 识别 badcase
+### 4.4 评测命令
+```bash
+# 执行评测
+python evaluate.py --model {model_name} --dataset {dataset_name}
+# 生成报告
+python generate_report.py --output report.md
+```
+### 4.5 评测配置
+```yaml
+evaluation:
+  model:
+    name: {model_name}
+    version: v1.0
+  dataset:
+    name: {dataset_name}
+    path: data/test.jsonl
+  metrics:
+    - accuracy
+    - precision
+    - recall
+    - f1
+```
+---
+## 5. Badcase 分析
+### 5.1 Badcase 分类
+| 分类 | 数量 | 占比 | 说明 |
+|------|------|------|------|
+| 数据质量问题 | | | 标注错误/数据噪声 |
+| 模型能力不足 | | | 模型无法理解某类输入 |
+| 边界场景 | | | 极端输入 |
+| 其他 | | | |
+### 5.2 Badcase 示例
+| ID | 输入 | 期望输出 | 实际输出 | 错误类型 |
+|----|------|---------|---------|---------|
+| 001 | | | | |
+### 5.3 改进建议
+| 问题 | 改进方案 | 优先级 |
+|------|---------|--------|
+| | | P0/P1/P2 |
+---
+## 6. 评测结果
+### 6.1 结果汇总
+| 评测集 | 样本数 | 准确率 | 精确率 | 召回率 | F1 分数 |
+|-------|-------|--------|-------|-------|--------|
+| 测试集 A | 1000 | | | | |
+| 测试集 B | 200 | | | | |
+| 总计 | 1200 | | | | |
+### 6.2 评测报告格式
+```markdown
+## 效果评测结果
+### 评测对象
+- 组件名称：{component_name}
+- 评测数据集：{dataset_path}
+- 测试用例数：{total_cases}
+### 评测指标
+| 指标名称 | 目标值 | 实际值 | 状态 |
+|----------|--------|--------|------|
+| ... | ... | ... | ✅/❌ |
+### Badcase 分析
+| 用例 ID | 输入 | 预期输出 | 实际输出 | 问题描述 |
+|--------|------|----------|----------|----------|
+| ... | ... | ... | ... | ... |
+### 结论
+- 评测通过：✅ 是/❌ 否
+- 达标指标：{passed_count}/{total_count}
+- 需要优化：{需要优化的点}
+```
+### 6.3 结果分析
+**优势**：
+- 在 XX 场景表现优秀
+**不足**：
+- 在 XX 场景需要改进
+### 6.4 与基线对比
+| 模型 | 准确率 | 精确率 | 召回率 | F1 分数 |
+|------|-------|-------|-------|--------|
+| 基线模型 | | | | |
+| 当前模型 | | | | |
+| 提升 | +X% | +X% | +X% | +X% |
+---
+## 7. 判定标准
+| 判定结果 | 说明 |
+|---------|------|
+| **通过** | 所有指标达到目标值，可以上线 |
+| **部分通过** | 部分指标达标，需要评估风险后决定 |
+| **不通过** | 主要指标未达标，需要优化后重新评测 |
+### 判定流程
+```mermaid
+flowchart TD
+    A[评测完成] --> B{所有指标达标？}
+    B -->|是 | C[评测通过]
+    B -->|否 | D{主要指标达标？}
+    D -->|是 | E[部分通过，风险评估]
+    D -->|否 | F[不通过，需要优化]
+    E --> G{风险可接受？}
+    G -->|是 | H[有条件通过]
+    G -->|否 | F
+```
+---
+## 8. 评测结论
+### 8.1 结论
+- [ ] 评测通过，可以上线
+- [ ] 评测通过，但有已知问题
+- [ ] 评测失败，需要优化
+### 8.2 风险提示
+| 风险 | 影响 | 缓解措施 |
+|------|------|---------|
+| | | |
+### 8.3 后续计划
+| 任务 | 负责人 | 时间 |
+|------|-------|------|
+| | | |
+---
+## 9. 附录
+### 9.1 评测工具
+| 工具名称 | 用途 | 版本 |
+|---------|------|------|
+| | | |
+### 9.2 评测执行步骤（来自 08-evaluate-ai-effect.md）
+**Step 1: 准备评测环境**
+- 检查评测方案（`evaluation-plan.md`）
+- 检查评测数据集（`evaluation/dataset/`）
+- 检查评测脚本（`tests/evaluation/`, `evaluation/`）
+**Step 2: 加载评测数据集**
+- 读取评测数据集
+- 验证数据集格式
+- 统计数据集规模
+**Step 3: 执行评测**
+- 初始化被评测的 AI/模型组件
+- 对每个测试用例执行推理
+- 收集预测结果
+**Step 4: 计算评测指标**
+- 准确率指标
+- 质量指标
+- 性能指标
+**Step 5: 生成评测报告**
+- 汇总各项指标
+- 与目标值对比
+- 识别 badcase
+### 9.3 参考资料
+- [AI 评测最佳实践](url)
+- [LLM 评测方法论](url)
+---
+**维护者**: AI 团队 + QA 团队
+**进化分区**: 自由区
+**关联文档**: `knowledge/09-templates/08-test-design.md`, `knowledge/09-templates/02-api-design.md`