dev-playbooks-cn 1.4.0 → 1.5.0
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
package/package.json
CHANGED
|
@@ -0,0 +1,394 @@
|
|
|
1
|
+
---
|
|
2
|
+
name: devbooks-convergence-audit
|
|
3
|
+
description: devbooks-convergence-audit:以证据优先、声明存疑的原则评估 DevBooks 工作流收敛性,检测"西西弗斯反模式"和"假完成"。主动验证而非信任文档声明。用户说"评估收敛性/检查升级健康度/西西弗斯检测/工作流审计"等时使用。
|
|
4
|
+
allowed-tools:
|
|
5
|
+
- Glob
|
|
6
|
+
- Grep
|
|
7
|
+
- Read
|
|
8
|
+
- Bash
|
|
9
|
+
---
|
|
10
|
+
|
|
11
|
+
# DevBooks:收敛性审计(Convergence Audit)
|
|
12
|
+
|
|
13
|
+
## 核心原则:反迷惑设计
|
|
14
|
+
|
|
15
|
+
> **黄金法则**:**证据 > 声明**。永远不要相信文档中的任何断言,必须通过可验证的证据确认。
|
|
16
|
+
|
|
17
|
+
### AI 容易被迷惑的场景(必须防范)
|
|
18
|
+
|
|
19
|
+
| 迷惑场景 | AI 错误行为 | 正确行为 |
|
|
20
|
+
|----------|-------------|----------|
|
|
21
|
+
| 文档写 `Status: Done` | 相信已完成 | 验证:测试是否真的全绿?证据是否存在? |
|
|
22
|
+
| AC 矩阵全部 `[x]` | 相信全覆盖 | 验证:每个 AC 对应的测试文件是否存在且通过? |
|
|
23
|
+
| 文档写"测试通过" | 相信通过 | 验证:实际运行测试或检查 CI 日志时间戳 |
|
|
24
|
+
| `evidence/` 目录存在 | 相信有证据 | 验证:目录非空?内容是否为有效测试日志? |
|
|
25
|
+
| tasks.md 全部 `[x]` | 相信已实现 | 验证:对应代码文件是否存在且有实质内容? |
|
|
26
|
+
| 提交信息说"修复了" | 相信已修复 | 验证:相关测试是否从红变绿? |
|
|
27
|
+
|
|
28
|
+
### 反迷惑三原则
|
|
29
|
+
|
|
30
|
+
```
|
|
31
|
+
1. 声明存疑(Distrust Declarations)
|
|
32
|
+
- 任何文档中的"完成/通过/覆盖"声明都是待验证的假设
|
|
33
|
+
- 默认立场:声明可能是错误的、过时的、或乐观的
|
|
34
|
+
|
|
35
|
+
2. 证据优先(Evidence First)
|
|
36
|
+
- 代码/测试结果是唯一真理
|
|
37
|
+
- 日志时间戳必须晚于最后一次代码修改
|
|
38
|
+
- 空目录/空文件 = 无证据
|
|
39
|
+
|
|
40
|
+
3. 交叉验证(Cross Validation)
|
|
41
|
+
- 声明 vs 证据:检查是否一致
|
|
42
|
+
- 代码 vs 测试:检查是否匹配
|
|
43
|
+
- 多个文档:检查是否矛盾
|
|
44
|
+
```
|
|
45
|
+
|
|
46
|
+
---
|
|
47
|
+
|
|
48
|
+
## 验证检查清单(逐项执行)
|
|
49
|
+
|
|
50
|
+
### 检查 1:Status 字段真实性验证
|
|
51
|
+
|
|
52
|
+
**文档声明**:`verification.md` 中 `Status: Done` 或 `Status: Verified`
|
|
53
|
+
|
|
54
|
+
**验证步骤**:
|
|
55
|
+
```bash
|
|
56
|
+
# 1. 检查 verification.md 是否存在
|
|
57
|
+
[[ -f "verification.md" ]] || echo "❌ verification.md 不存在"
|
|
58
|
+
|
|
59
|
+
# 2. 检查 evidence/green-final/ 是否有内容
|
|
60
|
+
if [[ -z "$(ls -A evidence/green-final/ 2>/dev/null)" ]]; then
|
|
61
|
+
echo "❌ Status 声称完成,但 evidence/green-final/ 为空"
|
|
62
|
+
fi
|
|
63
|
+
|
|
64
|
+
# 3. 检查证据时间戳是否晚于代码最后修改
|
|
65
|
+
code_mtime=$(stat -f %m src/ 2>/dev/null || stat -c %Y src/)
|
|
66
|
+
evidence_mtime=$(stat -f %m evidence/green-final/* 2>/dev/null | sort -n | tail -1)
|
|
67
|
+
if [[ $evidence_mtime -lt $code_mtime ]]; then
|
|
68
|
+
echo "❌ 证据时间早于代码修改,证据可能过时"
|
|
69
|
+
fi
|
|
70
|
+
```
|
|
71
|
+
|
|
72
|
+
**迷惑检测**:
|
|
73
|
+
- ⚠️ Status=Done 但 evidence/ 为空 → **假完成**
|
|
74
|
+
- ⚠️ Status=Done 但证据时间戳过旧 → **过时证据**
|
|
75
|
+
- ⚠️ Status=Done 但测试实际运行失败 → **虚假状态**
|
|
76
|
+
|
|
77
|
+
---
|
|
78
|
+
|
|
79
|
+
### 检查 2:AC 覆盖矩阵真实性验证
|
|
80
|
+
|
|
81
|
+
**文档声明**:AC 矩阵中 `[x]` 表示已覆盖
|
|
82
|
+
|
|
83
|
+
**验证步骤**:
|
|
84
|
+
```bash
|
|
85
|
+
# 1. 提取所有声称已覆盖的 AC
|
|
86
|
+
grep -E '^\| AC-[0-9]+.*\[x\]' verification.md | while read line; do
|
|
87
|
+
ac_id=$(echo "$line" | grep -oE 'AC-[0-9]+')
|
|
88
|
+
test_id=$(echo "$line" | grep -oE 'T-[0-9]+')
|
|
89
|
+
|
|
90
|
+
# 2. 验证对应测试是否存在
|
|
91
|
+
if ! grep -rq "$test_id\|$ac_id" tests/; then
|
|
92
|
+
echo "❌ $ac_id 声称已覆盖,但找不到对应测试"
|
|
93
|
+
fi
|
|
94
|
+
done
|
|
95
|
+
|
|
96
|
+
# 3. 实际运行测试验证(最可靠)
|
|
97
|
+
npm test 2>&1 | tee /tmp/test-output.log
|
|
98
|
+
if grep -q "FAIL\|Error\|failed" /tmp/test-output.log; then
|
|
99
|
+
echo "❌ AC 声称全覆盖,但测试实际有失败"
|
|
100
|
+
fi
|
|
101
|
+
```
|
|
102
|
+
|
|
103
|
+
**迷惑检测**:
|
|
104
|
+
- ⚠️ AC 打勾但对应测试文件不存在 → **虚假覆盖**
|
|
105
|
+
- ⚠️ AC 打勾但测试实际失败 → **假绿**
|
|
106
|
+
- ⚠️ AC 打勾但测试内容为空/占位符 → **占位符测试**
|
|
107
|
+
|
|
108
|
+
---
|
|
109
|
+
|
|
110
|
+
### 检查 3:tasks.md 完成度真实性验证
|
|
111
|
+
|
|
112
|
+
**文档声明**:tasks.md 中 `[x]` 表示已完成
|
|
113
|
+
|
|
114
|
+
**验证步骤**:
|
|
115
|
+
```bash
|
|
116
|
+
# 1. 提取所有声称已完成的任务
|
|
117
|
+
grep -E '^\- \[x\]' tasks.md | while read line; do
|
|
118
|
+
# 2. 提取任务描述中的关键词(函数名/文件名/功能)
|
|
119
|
+
keywords=$(echo "$line" | grep -oE '[A-Za-z]+[A-Za-z0-9]*' | head -5)
|
|
120
|
+
|
|
121
|
+
# 3. 验证代码中是否有对应实现
|
|
122
|
+
for kw in $keywords; do
|
|
123
|
+
if ! grep -rq "$kw" src/; then
|
|
124
|
+
echo "⚠️ 任务声称完成,但代码中找不到关键词: $kw"
|
|
125
|
+
fi
|
|
126
|
+
done
|
|
127
|
+
done
|
|
128
|
+
|
|
129
|
+
# 4. 检查是否有"骨架代码"(只有函数签名没有实现)
|
|
130
|
+
grep -rE 'throw new Error\(.*not implemented|TODO|FIXME|pass$|\.\.\.}' src/ && \
|
|
131
|
+
echo "⚠️ 发现未实现的占位符代码"
|
|
132
|
+
```
|
|
133
|
+
|
|
134
|
+
**迷惑检测**:
|
|
135
|
+
- ⚠️ 任务打勾但代码不存在 → **虚假完成**
|
|
136
|
+
- ⚠️ 任务打勾但代码是占位符 → **骨架代码**
|
|
137
|
+
- ⚠️ 任务打勾但功能不可调用 → **死代码**
|
|
138
|
+
|
|
139
|
+
---
|
|
140
|
+
|
|
141
|
+
### 检查 4:证据有效性验证
|
|
142
|
+
|
|
143
|
+
**文档声明**:`evidence/` 目录包含测试证据
|
|
144
|
+
|
|
145
|
+
**验证步骤**:
|
|
146
|
+
```bash
|
|
147
|
+
# 1. 检查目录是否存在且非空
|
|
148
|
+
if [[ ! -d "evidence" ]] || [[ -z "$(ls -A evidence/)" ]]; then
|
|
149
|
+
echo "❌ evidence/ 不存在或为空"
|
|
150
|
+
exit 1
|
|
151
|
+
fi
|
|
152
|
+
|
|
153
|
+
# 2. 检查证据文件是否有实质内容
|
|
154
|
+
for f in evidence/**/*; do
|
|
155
|
+
if [[ -f "$f" ]]; then
|
|
156
|
+
lines=$(wc -l < "$f")
|
|
157
|
+
if [[ $lines -lt 5 ]]; then
|
|
158
|
+
echo "⚠️ 证据文件内容过少: $f ($lines 行)"
|
|
159
|
+
fi
|
|
160
|
+
|
|
161
|
+
# 3. 检查是否为有效测试日志(包含测试框架输出特征)
|
|
162
|
+
if ! grep -qE 'PASS|FAIL|✓|✗|passed|failed|test|spec' "$f"; then
|
|
163
|
+
echo "⚠️ 证据文件不像测试日志: $f"
|
|
164
|
+
fi
|
|
165
|
+
fi
|
|
166
|
+
done
|
|
167
|
+
|
|
168
|
+
# 4. 检查 red-baseline 证据是否真的是红色(有失败)
|
|
169
|
+
if [[ -d "evidence/red-baseline" ]]; then
|
|
170
|
+
if ! grep -rqE 'FAIL|Error|✗|failed' evidence/red-baseline/; then
|
|
171
|
+
echo "❌ red-baseline 声称是红色,但没有失败记录"
|
|
172
|
+
fi
|
|
173
|
+
fi
|
|
174
|
+
|
|
175
|
+
# 5. 检查 green-final 证据是否真的是绿色(全通过)
|
|
176
|
+
if [[ -d "evidence/green-final" ]]; then
|
|
177
|
+
if grep -rqE 'FAIL|Error|✗|failed' evidence/green-final/; then
|
|
178
|
+
echo "❌ green-final 声称是绿色,但包含失败记录"
|
|
179
|
+
fi
|
|
180
|
+
fi
|
|
181
|
+
```
|
|
182
|
+
|
|
183
|
+
**迷惑检测**:
|
|
184
|
+
- ⚠️ evidence/ 存在但内容为空 → **空证据**
|
|
185
|
+
- ⚠️ 证据文件太小(< 5 行)→ **占位符证据**
|
|
186
|
+
- ⚠️ red-baseline 没有失败记录 → **伪造红色**
|
|
187
|
+
- ⚠️ green-final 包含失败记录 → **伪造绿色**
|
|
188
|
+
|
|
189
|
+
---
|
|
190
|
+
|
|
191
|
+
### 检查 5:Git 历史交叉验证
|
|
192
|
+
|
|
193
|
+
**原理**:Git 历史不会撒谎,用它来验证文档声明
|
|
194
|
+
|
|
195
|
+
**验证步骤**:
|
|
196
|
+
```bash
|
|
197
|
+
# 1. 检查声称完成的变更是否有对应的代码提交
|
|
198
|
+
change_id="xxx"
|
|
199
|
+
commits=$(git log --oneline --all --grep="$change_id" | wc -l)
|
|
200
|
+
if [[ $commits -eq 0 ]]; then
|
|
201
|
+
echo "❌ 变更 $change_id 声称完成,但 git 历史中没有相关提交"
|
|
202
|
+
fi
|
|
203
|
+
|
|
204
|
+
# 2. 检查测试文件是否在代码之后添加(TDD 违规检测)
|
|
205
|
+
for test_file in tests/**/*.test.*; do
|
|
206
|
+
test_added=$(git log --format=%at --follow -- "$test_file" | tail -1)
|
|
207
|
+
# 找到对应的源文件
|
|
208
|
+
src_file=$(echo "$test_file" | sed 's/tests/src/' | sed 's/.test//')
|
|
209
|
+
if [[ -f "$src_file" ]]; then
|
|
210
|
+
src_added=$(git log --format=%at --follow -- "$src_file" | tail -1)
|
|
211
|
+
if [[ $test_added -gt $src_added ]]; then
|
|
212
|
+
echo "⚠️ 测试后于代码添加(非 TDD): $test_file"
|
|
213
|
+
fi
|
|
214
|
+
fi
|
|
215
|
+
done
|
|
216
|
+
|
|
217
|
+
# 3. 检查是否有"一次性大提交"(可能是绕过流程)
|
|
218
|
+
git log --oneline -20 | while read line; do
|
|
219
|
+
commit=$(echo "$line" | cut -d' ' -f1)
|
|
220
|
+
files_changed=$(git show --stat "$commit" | grep -E '[0-9]+ file' | grep -oE '[0-9]+' | head -1)
|
|
221
|
+
if [[ $files_changed -gt 20 ]]; then
|
|
222
|
+
echo "⚠️ 大提交检测: $commit 修改了 $files_changed 个文件,可能绕过增量验证"
|
|
223
|
+
fi
|
|
224
|
+
done
|
|
225
|
+
```
|
|
226
|
+
|
|
227
|
+
**迷惑检测**:
|
|
228
|
+
- ⚠️ 声称完成但无 git 提交 → **虚假变更**
|
|
229
|
+
- ⚠️ 测试后于代码添加 → **事后补测试**
|
|
230
|
+
- ⚠️ 大量文件一次提交 → **绕过增量验证**
|
|
231
|
+
|
|
232
|
+
---
|
|
233
|
+
|
|
234
|
+
### 检查 6:实时测试运行验证(最可靠)
|
|
235
|
+
|
|
236
|
+
**原理**:不信任任何日志,实际运行测试
|
|
237
|
+
|
|
238
|
+
**验证步骤**:
|
|
239
|
+
```bash
|
|
240
|
+
# 1. 运行完整测试
|
|
241
|
+
echo "=== 实时测试验证 ==="
|
|
242
|
+
npm test 2>&1 | tee /tmp/live-test.log
|
|
243
|
+
|
|
244
|
+
# 2. 检查结果
|
|
245
|
+
if grep -qE 'FAIL|Error|failed' /tmp/live-test.log; then
|
|
246
|
+
echo "❌ 实时测试失败,文档声明不可信"
|
|
247
|
+
grep -E 'FAIL|Error|failed' /tmp/live-test.log
|
|
248
|
+
else
|
|
249
|
+
echo "✅ 实时测试通过"
|
|
250
|
+
fi
|
|
251
|
+
|
|
252
|
+
# 3. 对比实时结果与证据文件
|
|
253
|
+
if [[ -f "evidence/green-final/latest.log" ]]; then
|
|
254
|
+
live_pass=$(grep -c 'PASS\|✓\|passed' /tmp/live-test.log)
|
|
255
|
+
evidence_pass=$(grep -c 'PASS\|✓\|passed' evidence/green-final/latest.log)
|
|
256
|
+
if [[ $live_pass -ne $evidence_pass ]]; then
|
|
257
|
+
echo "⚠️ 实时通过数 ($live_pass) ≠ 证据通过数 ($evidence_pass)"
|
|
258
|
+
fi
|
|
259
|
+
fi
|
|
260
|
+
```
|
|
261
|
+
|
|
262
|
+
**迷惑检测**:
|
|
263
|
+
- ⚠️ 证据说绿色但实时运行失败 → **过时证据/假绿**
|
|
264
|
+
- ⚠️ 实时通过数与证据不符 → **证据伪造/环境差异**
|
|
265
|
+
|
|
266
|
+
---
|
|
267
|
+
|
|
268
|
+
## 综合评分算法
|
|
269
|
+
|
|
270
|
+
### 可信度评分(0-100)
|
|
271
|
+
|
|
272
|
+
```python
|
|
273
|
+
def calculate_trustworthiness(checks):
|
|
274
|
+
score = 100
|
|
275
|
+
|
|
276
|
+
# 严重问题(每个 -20 分)
|
|
277
|
+
critical = [
|
|
278
|
+
"证据为空",
|
|
279
|
+
"实时测试失败",
|
|
280
|
+
"Status 声称完成但测试失败",
|
|
281
|
+
"green-final 包含失败记录"
|
|
282
|
+
]
|
|
283
|
+
|
|
284
|
+
# 警告问题(每个 -10 分)
|
|
285
|
+
warnings = [
|
|
286
|
+
"证据时间戳过旧",
|
|
287
|
+
"AC 对应测试不存在",
|
|
288
|
+
"占位符代码",
|
|
289
|
+
"大提交检测"
|
|
290
|
+
]
|
|
291
|
+
|
|
292
|
+
# 轻微问题(每个 -5 分)
|
|
293
|
+
minor = [
|
|
294
|
+
"测试后于代码添加",
|
|
295
|
+
"证据文件过小"
|
|
296
|
+
]
|
|
297
|
+
|
|
298
|
+
for issue in checks.critical_issues:
|
|
299
|
+
score -= 20
|
|
300
|
+
for issue in checks.warnings:
|
|
301
|
+
score -= 10
|
|
302
|
+
for issue in checks.minor_issues:
|
|
303
|
+
score -= 5
|
|
304
|
+
|
|
305
|
+
return max(0, score)
|
|
306
|
+
```
|
|
307
|
+
|
|
308
|
+
### 收敛性判定
|
|
309
|
+
|
|
310
|
+
| 可信度 | 判定 | 建议 |
|
|
311
|
+
|--------|------|------|
|
|
312
|
+
| 90-100 | ✅ 可信收敛 | 继续当前流程 |
|
|
313
|
+
| 70-89 | ⚠️ 部分可信 | 需要补充验证 |
|
|
314
|
+
| 50-69 | 🟠 存疑 | 需要返工部分环节 |
|
|
315
|
+
| < 50 | 🔴 不可信 | 西西弗斯困境,需要全面审查 |
|
|
316
|
+
|
|
317
|
+
---
|
|
318
|
+
|
|
319
|
+
## 输出格式
|
|
320
|
+
|
|
321
|
+
```markdown
|
|
322
|
+
# DevBooks 收敛性审计报告(反迷惑版)
|
|
323
|
+
|
|
324
|
+
## 审计原则
|
|
325
|
+
本报告采用"证据优先、声明存疑"原则,所有结论基于可验证证据,而非文档声明。
|
|
326
|
+
|
|
327
|
+
## 声明 vs 证据对比
|
|
328
|
+
|
|
329
|
+
| 检查项 | 文档声明 | 实际验证 | 结论 |
|
|
330
|
+
|--------|----------|----------|------|
|
|
331
|
+
| Status | Done | 测试实际失败 | ❌ 假完成 |
|
|
332
|
+
| AC 覆盖 | 5/5 已打勾 | 2 个 AC 无对应测试 | ❌ 虚假覆盖 |
|
|
333
|
+
| 测试状态 | 全绿 | 实时运行 3 个失败 | ❌ 过时证据 |
|
|
334
|
+
| tasks.md | 10/10 完成 | 3 个任务代码不存在 | ❌ 虚假完成 |
|
|
335
|
+
| evidence/ | 存在 | 目录非空,内容有效 | ✅ 有效 |
|
|
336
|
+
|
|
337
|
+
## 可信度评分
|
|
338
|
+
|
|
339
|
+
**总分**:45/100 🔴 不可信
|
|
340
|
+
|
|
341
|
+
**扣分明细**:
|
|
342
|
+
- -20:Status=Done 但实时测试失败
|
|
343
|
+
- -20:AC 声称全覆盖但 2 个无测试
|
|
344
|
+
- -10:tasks.md 3 个任务无代码
|
|
345
|
+
- -5:证据时间戳早于代码修改
|
|
346
|
+
|
|
347
|
+
## 迷惑检测结果
|
|
348
|
+
|
|
349
|
+
### 🔴 检测到的假完成
|
|
350
|
+
1. `change-auth`:Status=Done,但 `npm test` 失败 3 个
|
|
351
|
+
2. `fix-cache`:AC-003 打勾,但 `tests/cache.test.ts` 不存在
|
|
352
|
+
|
|
353
|
+
### 🟡 可疑项
|
|
354
|
+
1. `refactor-api`:evidence/green-final/ 时间戳早于最后代码提交 2 天
|
|
355
|
+
2. `feature-login`:tasks.md 全部打勾,但 `src/login.ts` 包含 TODO
|
|
356
|
+
|
|
357
|
+
## 真实状态判定
|
|
358
|
+
|
|
359
|
+
| 变更包 | 声明状态 | 真实状态 | 差距 |
|
|
360
|
+
|--------|----------|----------|------|
|
|
361
|
+
| change-auth | Done | 测试失败 | 🔴 严重 |
|
|
362
|
+
| fix-cache | Verified | 覆盖不全 | 🟠 中等 |
|
|
363
|
+
| refactor-api | Ready | 证据过时 | 🟡 轻微 |
|
|
364
|
+
|
|
365
|
+
## 建议行动
|
|
366
|
+
|
|
367
|
+
### 立即行动
|
|
368
|
+
1. 将 `change-auth` 状态回退到 `In Progress`
|
|
369
|
+
2. 为 `fix-cache` 的 AC-003 补充测试
|
|
370
|
+
|
|
371
|
+
### 短期改进
|
|
372
|
+
1. 建立证据时效性检查(证据必须晚于代码)
|
|
373
|
+
2. AC 打勾前强制运行对应测试
|
|
374
|
+
|
|
375
|
+
### 流程改进
|
|
376
|
+
1. 禁止手动修改 Status,只能通过脚本验证后自动更新
|
|
377
|
+
2. CI 集成收敛性检查,阻止假完成合入
|
|
378
|
+
```
|
|
379
|
+
|
|
380
|
+
---
|
|
381
|
+
|
|
382
|
+
## 完成状态
|
|
383
|
+
|
|
384
|
+
**状态**:✅ AUDIT_COMPLETED
|
|
385
|
+
|
|
386
|
+
**核心发现**:
|
|
387
|
+
- 文档声明可信度:X%
|
|
388
|
+
- 检测到的假完成:N 个
|
|
389
|
+
- 需要返工的变更:M 个
|
|
390
|
+
|
|
391
|
+
**下一步**:
|
|
392
|
+
- 假完成 → 立即回退状态,重新验证
|
|
393
|
+
- 存疑项 → 补充证据或重新运行测试
|
|
394
|
+
- 可信项 → 继续当前流程
|