@saulwade/swl-ses 1.4.2 → 1.5.1
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CLAUDE.md +209 -208
- package/README.md +561 -560
- package/bin/swl-mcp-server.js +214 -187
- package/bin/swl-ses.js +74 -0
- package/comandos/swl/ejecutar-fase.md +33 -4
- package/comandos/swl/metricas.md +72 -0
- package/habilidades/discutir-fase/SKILL.md +50 -2
- package/habilidades/ejecutar-task-iterativo/SKILL.md +278 -0
- package/habilidades/meta-skills-estandar/SKILL.md +22 -1
- package/habilidades/node-experto/SKILL.md +13 -2
- package/habilidades/protocolo-revision-swl/SKILL.md +276 -0
- package/habilidades/tdd-workflow/SKILL.md +33 -4
- package/habilidades/verificar-trabajo/SKILL.md +54 -5
- package/manifiestos/modulos.json +1321 -1267
- package/package.json +3 -3
- package/plugin.json +351 -351
- package/scripts/derivar-feature-list.js +489 -0
- package/scripts/doctor.js +62 -8
- package/scripts/instalador.js +56 -5
- package/scripts/lib/detectar-runtime.js +75 -9
- package/scripts/lib/estado.js +13 -1
- package/scripts/lib/expandir-targets.js +71 -0
- package/scripts/lib/parsear-opciones.js +3 -0
- package/scripts/lib/toml-merge.js +204 -0
- package/scripts/lib/transformadores/base.js +43 -9
- package/scripts/lib/transformadores/codex.js +375 -115
- package/scripts/lib/transformadores/cursor.js +359 -0
- package/scripts/lib/transformadores/index.js +2 -0
- package/scripts/mcp-server/README.md +170 -128
- package/scripts/mcp-server/auth.js +105 -0
- package/scripts/mcp-server/cache.js +106 -0
- package/scripts/mcp-server/handlers.js +190 -10
- package/scripts/mcp-server/telemetry.js +78 -0
|
@@ -0,0 +1,276 @@
|
|
|
1
|
+
---
|
|
2
|
+
name: protocolo-revision-swl
|
|
3
|
+
description: >
|
|
4
|
+
Protocolo de revisión adversarial per-task con git diff como single source of
|
|
5
|
+
truth. Adapta el patrón task-local review de cc-sdd al ecosistema SWL: los
|
|
6
|
+
revisores existentes (revisor-codigo-swl, revisor-seguridad-swl, revisor-*-swl)
|
|
7
|
+
aplican este protocolo cuando trabajan sobre una sola tarea atómica en lugar
|
|
8
|
+
de una fase completa. Devuelve APPROVED o REJECTED con findings de severidad
|
|
9
|
+
estructurados y boundary checks. Cargar desde el agente revisor cuando
|
|
10
|
+
ejecutar-fase corre en modo --iterative (task por task) o cuando se solicita
|
|
11
|
+
revisión acotada a un commit / patch específico.
|
|
12
|
+
version: "1.0.0"
|
|
13
|
+
herramientasPermitidas: [Read, Grep, Glob, Bash]
|
|
14
|
+
exclusiones:
|
|
15
|
+
- "No cargar para revisión de fase completa multi-archivo — usar el flujo estándar del revisor con `/swl:revisar` y `/swl:verificar`."
|
|
16
|
+
- "No cargar para auditoría de seguridad profunda — usar `revisor-seguridad-swl` con `checklist-seguridad`."
|
|
17
|
+
- "No cargar como sustituto de la verificación goal-backward post-ejecución — `verificar-trabajo` cubre eso a nivel de fase."
|
|
18
|
+
- "No cargar para revisar código que no ha sido staged ni commiteado todavía — el protocolo requiere un diff o set de archivos definido."
|
|
19
|
+
evolvable: true
|
|
20
|
+
---
|
|
21
|
+
|
|
22
|
+
# Protocolo de revisión per-task
|
|
23
|
+
|
|
24
|
+
## Propósito
|
|
25
|
+
|
|
26
|
+
Revisar el resultado de UNA tarea atómica de implementación (no una fase
|
|
27
|
+
completa) con el rigor de un revisor adversarial. El protocolo está diseñado
|
|
28
|
+
para coexistir con los revisores especializados existentes (`revisor-codigo-swl`,
|
|
29
|
+
`revisor-react-swl`, `revisor-typescript-swl`, etc.): esos agentes cargan
|
|
30
|
+
este skill cuando el alcance es task-local en lugar de phase-wide.
|
|
31
|
+
|
|
32
|
+
Adaptado del patrón `kiro-review` de cc-sdd. Mantiene los principios de
|
|
33
|
+
swl-ses (separación revisor/ejecutor de `reglas/gobernanza.md`, veto items
|
|
34
|
+
y cap enforcement, scoring 9.0+ obligatorio para APPROVED).
|
|
35
|
+
|
|
36
|
+
## Cuándo cargar
|
|
37
|
+
|
|
38
|
+
- El orquestador ejecuta `/swl:ejecutar-fase --iterative` y necesita revisión task-por-task
|
|
39
|
+
- Un agente implementador reportó `READY_FOR_REVIEW` para una sub-tarea específica
|
|
40
|
+
- El usuario pide "revisa este último commit" o "revisa lo que acabo de hacer"
|
|
41
|
+
- Tras una remediación de un finding previo y se necesita re-verificación acotada
|
|
42
|
+
|
|
43
|
+
## Cuándo NO cargar
|
|
44
|
+
|
|
45
|
+
Ver `exclusiones` en frontmatter.
|
|
46
|
+
|
|
47
|
+
---
|
|
48
|
+
|
|
49
|
+
## Inputs requeridos
|
|
50
|
+
|
|
51
|
+
Antes de empezar, identifica los siguientes inputs. Si falta cualquiera, pide
|
|
52
|
+
clarificación al caller (orquestador o implementador) en lugar de proceder
|
|
53
|
+
con asunciones.
|
|
54
|
+
|
|
55
|
+
| Input | Forma | Obligatorio |
|
|
56
|
+
|-------|-------|-------------|
|
|
57
|
+
| Task ID | Texto de la tarea desde PLAN.md (ej. "3.2 — Crear endpoint POST /facturas") | Sí |
|
|
58
|
+
| Boundary scope | Lista de paths/módulos que la tarea puede modificar | Sí |
|
|
59
|
+
| Spec references | IDs de requirements y design sections que la tarea satisface | Sí — si existen |
|
|
60
|
+
| Diff | `git diff <base>..HEAD` o set de archivos modificados | Sí |
|
|
61
|
+
| Validation commands | Comandos descubiertos por el caller (test, build, lint, smoke) | Sí — si aplica el stack |
|
|
62
|
+
| Implementer status report | El reporte estructurado del ejecutor (`READY_FOR_REVIEW`, archivos tocados, decisiones) | Recomendado |
|
|
63
|
+
|
|
64
|
+
---
|
|
65
|
+
|
|
66
|
+
## Paso 1 — Primera acción obligatoria: `git diff`
|
|
67
|
+
|
|
68
|
+
Antes de leer cualquier otro archivo, ejecuta:
|
|
69
|
+
|
|
70
|
+
```bash
|
|
71
|
+
git diff --stat # alcance del cambio
|
|
72
|
+
git diff <base>..HEAD # contenido real
|
|
73
|
+
```
|
|
74
|
+
|
|
75
|
+
El reporte del implementador NO es fuente de verdad. El diff sí. Si el diff
|
|
76
|
+
es grande, lee los archivos modificados directamente — no resuamen ni inferas
|
|
77
|
+
desde el reporte del ejecutor.
|
|
78
|
+
|
|
79
|
+
**Por qué**: el implementador puede honestamente reportar "implementé X" pero
|
|
80
|
+
haber introducido Y como efecto colateral. El diff captura todo, incluido lo
|
|
81
|
+
que el ejecutor no recuerda haber tocado.
|
|
82
|
+
|
|
83
|
+
---
|
|
84
|
+
|
|
85
|
+
## Paso 2 — Checks mecánicos (resultado = señal primaria)
|
|
86
|
+
|
|
87
|
+
Estos checks son determinísticos y producen evidencia directa. Aplica TODOS
|
|
88
|
+
antes de pasar a interpretación.
|
|
89
|
+
|
|
90
|
+
### Check 1: Regression safety
|
|
91
|
+
|
|
92
|
+
Corre la suite de tests del proyecto con las `validation_commands` provistas.
|
|
93
|
+
Ejemplo:
|
|
94
|
+
|
|
95
|
+
```bash
|
|
96
|
+
npm test # o pytest, o cargo test, etc.
|
|
97
|
+
```
|
|
98
|
+
|
|
99
|
+
- **Tests pasan** → continuar.
|
|
100
|
+
- **Tests fallan** → `REJECTED` inmediato. Incluye el conteo y nombres de tests fallidos en el reporte.
|
|
101
|
+
- **Tests skipped aumentan vs base** → riesgo de regresión silenciosa (regla `monitor-ci.md`). Reportar el delta como finding de severidad MAJOR.
|
|
102
|
+
|
|
103
|
+
### Check 2: Sin marcadores placeholder nuevos
|
|
104
|
+
|
|
105
|
+
```bash
|
|
106
|
+
git diff <base>..HEAD | grep -E "\+.*\b(TBD|TODO|FIXME|HACK|XXX)\b" || true
|
|
107
|
+
```
|
|
108
|
+
|
|
109
|
+
Marcadores nuevos solo se aceptan con justificación explícita en el reporte
|
|
110
|
+
del implementador asociada al PLAN.md vigente (referencia a task ID, no texto suelto).
|
|
111
|
+
Sin justificación → finding MAYOR.
|
|
112
|
+
|
|
113
|
+
### Check 3: Sin secretos hardcodeados
|
|
114
|
+
|
|
115
|
+
```bash
|
|
116
|
+
git diff <base>..HEAD | grep -E "(api[_-]?key|password|secret|token)\s*[=:]\s*[\"'][^\"'\s]{8,}[\"']" -i || true
|
|
117
|
+
```
|
|
118
|
+
|
|
119
|
+
Cualquier match → `REJECTED` con finding CRÍTICO. Aplica los patrones
|
|
120
|
+
documentados en `reglas/seguridad-agentes.md` § "Protección de secretos".
|
|
121
|
+
|
|
122
|
+
### Check 4: Boundary violations
|
|
123
|
+
|
|
124
|
+
Lista de archivos modificados:
|
|
125
|
+
|
|
126
|
+
```bash
|
|
127
|
+
git diff --name-only <base>..HEAD
|
|
128
|
+
```
|
|
129
|
+
|
|
130
|
+
Cada archivo modificado DEBE estar dentro del `boundary scope` declarado en
|
|
131
|
+
la tarea. Si un archivo fuera del boundary aparece modificado:
|
|
132
|
+
|
|
133
|
+
- Si es modificación trivial (formateo, comentario) → finding MENOR.
|
|
134
|
+
- Si es modificación funcional → finding MAYOR. La tarea debe declarar el
|
|
135
|
+
boundary extendido o el cambio se devuelve al implementador para extraer
|
|
136
|
+
a una tarea aparte.
|
|
137
|
+
|
|
138
|
+
---
|
|
139
|
+
|
|
140
|
+
## Paso 3 — Verificación de alineación con spec
|
|
141
|
+
|
|
142
|
+
Lee directamente:
|
|
143
|
+
|
|
144
|
+
- El texto de la tarea en `PLAN.md` (no parafrases — copia literal).
|
|
145
|
+
- Los requirements citados en el campo `requirements` de la tarea.
|
|
146
|
+
- Las secciones de design citadas si existen.
|
|
147
|
+
|
|
148
|
+
Para cada requirement/design ref, verifica:
|
|
149
|
+
|
|
150
|
+
| Pregunta | Cómo verificar |
|
|
151
|
+
|----------|----------------|
|
|
152
|
+
| ¿El código implementa lo que el requirement dice? | Mapear líneas concretas del diff al texto del requirement |
|
|
153
|
+
| ¿Falta algo del requirement que el código no cubre? | Listar gaps específicos |
|
|
154
|
+
| ¿Hay código fuera del scope del requirement? | Comparar con design — si no está justificado, es scope creep |
|
|
155
|
+
|
|
156
|
+
Si hay gap de cobertura → finding MAYOR con cita del requirement y línea
|
|
157
|
+
faltante en el diff.
|
|
158
|
+
|
|
159
|
+
---
|
|
160
|
+
|
|
161
|
+
## Paso 4 — Veto items (heredados del revisor base)
|
|
162
|
+
|
|
163
|
+
Los revisores SWL existentes declaran sus propios veto items (ver
|
|
164
|
+
`reglas/gobernanza.md` § "Veto items y cap enforcement"). Cuando este
|
|
165
|
+
protocolo se carga desde uno de ellos, los veto items del revisor padre
|
|
166
|
+
aplican íntegros.
|
|
167
|
+
|
|
168
|
+
**Si detectas CUALQUIER veto item**:
|
|
169
|
+
|
|
170
|
+
- Score CAP automático a 6.0/10.
|
|
171
|
+
- Verdict pasa a `REJECTED` independientemente de qué tan limpio esté el resto.
|
|
172
|
+
- 2+ veto items → cap a 3.0/10.
|
|
173
|
+
|
|
174
|
+
Lista de veto items del revisor padre debe estar disponible en su SKILL/agente.
|
|
175
|
+
Si no se puede determinar, reporta `MANUAL_VERIFY_REQUIRED` en lugar de inventar.
|
|
176
|
+
|
|
177
|
+
---
|
|
178
|
+
|
|
179
|
+
## Paso 5 — Emitir veredicto estructurado
|
|
180
|
+
|
|
181
|
+
### Formato del reporte
|
|
182
|
+
|
|
183
|
+
```json
|
|
184
|
+
{
|
|
185
|
+
"protocol": "protocolo-revision-swl",
|
|
186
|
+
"task_id": "3.2 — Crear endpoint POST /facturas",
|
|
187
|
+
"verdict": "APPROVED | REJECTED",
|
|
188
|
+
"score": 9.2,
|
|
189
|
+
"score_cap_applied": null,
|
|
190
|
+
"mechanical_checks": {
|
|
191
|
+
"regression_safety": "PASS",
|
|
192
|
+
"no_new_placeholders": "PASS",
|
|
193
|
+
"no_hardcoded_secrets": "PASS",
|
|
194
|
+
"boundary_respected": "PASS | VIOLATIONS_FOUND"
|
|
195
|
+
},
|
|
196
|
+
"spec_alignment": {
|
|
197
|
+
"requirements_covered": ["R-12", "R-13"],
|
|
198
|
+
"requirements_gap": [],
|
|
199
|
+
"design_drift": "NONE | SLIGHT | SIGNIFICANT"
|
|
200
|
+
},
|
|
201
|
+
"veto_items": [],
|
|
202
|
+
"findings": [
|
|
203
|
+
{
|
|
204
|
+
"severity": "CRITICAL | MAJOR | MINOR",
|
|
205
|
+
"file": "app/api/facturas.py:42",
|
|
206
|
+
"issue": "Descripción breve",
|
|
207
|
+
"remediation": "Qué cambiar y cómo"
|
|
208
|
+
}
|
|
209
|
+
],
|
|
210
|
+
"summary": "Una oración resumiendo el veredicto y la razón principal.",
|
|
211
|
+
"next_action": "MERGE | FIX_AND_RE_REVIEW | ESCALATE_TO_HUMAN"
|
|
212
|
+
}
|
|
213
|
+
```
|
|
214
|
+
|
|
215
|
+
### Reglas de scoring (compatibles con `checklist-calidad`)
|
|
216
|
+
|
|
217
|
+
- `APPROVED` requiere `score >= 9.0` Y `veto_items.length === 0` Y todos los
|
|
218
|
+
mechanical_checks en PASS.
|
|
219
|
+
- Severidad MAJOR baja el score 1.0 punto cada una.
|
|
220
|
+
- Severidad MINOR baja 0.3 puntos cada una.
|
|
221
|
+
- Severidad CRITICAL → automaticamente `REJECTED` (score irrelevante).
|
|
222
|
+
- 1 veto item → cap a 6.0. 2+ veto items → cap a 3.0.
|
|
223
|
+
|
|
224
|
+
### Reglas del `next_action`
|
|
225
|
+
|
|
226
|
+
- `MERGE`: APPROVED — el caller (orquestador) puede commitear y avanzar a la siguiente tarea.
|
|
227
|
+
- `FIX_AND_RE_REVIEW`: REJECTED con findings MAYORES — el implementador aplica remediation, se vuelve a invocar este protocolo. Máximo 2 ciclos antes de escalar.
|
|
228
|
+
- `ESCALATE_TO_HUMAN`: 2 ciclos de FIX no convergieron, O hay CRÍTICO sin remediación clara, O hay decisión de scope ambigua. Activa el `notificador-swl` si está configurado.
|
|
229
|
+
|
|
230
|
+
---
|
|
231
|
+
|
|
232
|
+
## Persistencia del veredicto
|
|
233
|
+
|
|
234
|
+
El veredicto JSON se persiste en:
|
|
235
|
+
|
|
236
|
+
```
|
|
237
|
+
.planning/audit/reviews/<task-id>-<timestamp>.json
|
|
238
|
+
```
|
|
239
|
+
|
|
240
|
+
Esto permite que `auto-evolucion-swl` y `/swl:metricas` calculen tasas de
|
|
241
|
+
APPROVED vs REJECTED por agente revisor y por tipo de tarea — datos
|
|
242
|
+
necesarios para identificar revisores con calibración floja o tipos de
|
|
243
|
+
tarea sistemáticamente problemáticos.
|
|
244
|
+
|
|
245
|
+
---
|
|
246
|
+
|
|
247
|
+
## Gotchas / Errores comunes no obvios
|
|
248
|
+
|
|
249
|
+
- **Confiar en el reporte del implementador como source of truth**: el primer paso obligatorio es `git diff`. Saltarse esto y derivar el veredicto del status report del implementador deja pasar bugs colaterales no reportados. Causa: optimización falsa para ahorrar tokens. Solución: `git diff --stat` siempre antes de cualquier interpretación.
|
|
250
|
+
- **Boundary violation reportada como MENOR sin verificar funcionalidad**: el revisor ve que se modificó un archivo fuera del boundary y lo marca MENOR porque "se ve pequeño". Causa: no se inspeccionó qué hace el cambio. Solución: para CUALQUIER archivo fuera del boundary, abrir el cambio y clasificar trivial vs funcional antes de asignar severidad.
|
|
251
|
+
- **Tests skipped tratados como tests pasados**: el conteo de tests verde no distingue entre pasados y saltados. Causa: parsing superficial del output del runner. Solución: comparar `skipped` count vs base — si aumenta sin causa documentada en el diff, es regresión silenciosa (regla `monitor-ci.md`).
|
|
252
|
+
- **APPROVED con score < 9.0 "porque la tarea era pequeña"**: el revisor reduce el umbral subjetivamente. Causa: ceder a presión de entrega. Solución: la regla es 9.0 estricto; tareas pequeñas que no llegan a 9.0 indican findings que valen MENOR o MAYOR — emitir como findings y devolver al implementador.
|
|
253
|
+
- **Veto items ignorados porque "el resto está limpio"**: el cap de score es no-negociable. Causa: el revisor pondera "promedio" de calidad. Solución: 1 veto item = score capped automáticamente, sin compensación posible desde otras dimensiones.
|
|
254
|
+
|
|
255
|
+
---
|
|
256
|
+
|
|
257
|
+
## Relación con otros componentes SWL
|
|
258
|
+
|
|
259
|
+
| Componente | Relación |
|
|
260
|
+
|-----------|----------|
|
|
261
|
+
| `revisor-codigo-swl` y revisores de lenguaje | Cargan este skill cuando trabajan task-local en lugar de phase-wide |
|
|
262
|
+
| `ejecutar-task-iterativo` (Sub-fase 4) | Invoca este protocolo después de cada implementer dispatch en modo `--iterative` |
|
|
263
|
+
| `verificar-trabajo` | Complementario — verificar-trabajo es goal-backward post-fase; este protocolo es task-local post-implementación |
|
|
264
|
+
| `reglas/gobernanza.md` | Veto items + cap enforcement heredados |
|
|
265
|
+
| `checklist-calidad` | Score >=9.0 unificado |
|
|
266
|
+
| `auto-evolucion-swl` | Consume los veredictos persistidos para detectar revisores descalibrados |
|
|
267
|
+
|
|
268
|
+
## Checklist de cierre del protocolo
|
|
269
|
+
|
|
270
|
+
- [ ] `git diff --stat` ejecutado y diff leído antes de cualquier interpretación
|
|
271
|
+
- [ ] 4 mechanical checks ejecutados (regression, placeholders, secretos, boundary)
|
|
272
|
+
- [ ] Alineación con spec verificada citando IDs concretos
|
|
273
|
+
- [ ] Veto items del revisor padre evaluados
|
|
274
|
+
- [ ] Score calculado y cap aplicado si corresponde
|
|
275
|
+
- [ ] Veredicto JSON persistido en `.planning/audit/reviews/`
|
|
276
|
+
- [ ] `next_action` claro (MERGE / FIX_AND_RE_REVIEW / ESCALATE_TO_HUMAN)
|
|
@@ -1,12 +1,12 @@
|
|
|
1
1
|
---
|
|
2
2
|
name: tdd-workflow
|
|
3
3
|
description: Flujo completo de Test-Driven Development. Ciclo RED (el test falla) → GREEN (implementación mínima) → REFACTOR (limpieza). Incluye cobertura mínima obligatoria, tests de frontera, factories, fixtures y estrategias para diferentes tipos de código (APIs, services, componentes Angular).
|
|
4
|
-
version: "1.0.
|
|
4
|
+
version: "1.0.3"
|
|
5
5
|
evolved: true
|
|
6
|
-
evolved-from: "1.0.
|
|
7
|
-
evolved-at: "2026-05-
|
|
6
|
+
evolved-from: "1.0.2"
|
|
7
|
+
evolved-at: "2026-05-15"
|
|
8
8
|
evolved-by: "aprender"
|
|
9
|
-
evolved-note: "
|
|
9
|
+
evolved-note: "Gotcha process.cwd() cacheado al require() rompe tests con process.chdir(): fix con parámetro cwd opcional + fallback dinámico. Caso real scripts/derivar-feature-list.js v1.5.0."
|
|
10
10
|
herramientasPermitidas: [Read, Bash]
|
|
11
11
|
evolvable: true # default para skill estandar
|
|
12
12
|
exclusiones:
|
|
@@ -330,3 +330,32 @@ assert.equal(b.consumir(5, T0 + 5000), true); // 5 seg después: 5 tokens
|
|
|
330
330
|
Aplica también a tests de clock skew (tiempo retrocede por NTP): pasar `T0 - 1000` y validar que la lógica no rompe. Origen: rate-limit-ip.js + webhook-dedup.js sesión 2026-05-13.
|
|
331
331
|
|
|
332
332
|
**Tests nombrados por feature (`test_emitir_factura_exitosa`) pierden poder regresivo; nombrados por causa raíz (`test_repository_no_usa_columna_inexistente_p_monto`) detectan regresiones específicas sin reproducción manual** [CONFIRMADO en SIGM Opción C F1.4]: cuando se descubre un bug por una causa raíz concreta (typo en nombre de columna SQL, omisión de `selectinload`, mock que devuelve dict en vez de objeto, schema obsoleto), el test de regresión que se escribe debe llevar el nombre de la causa, no del feature afectado. Caso real: durante F1.4 de SIGM, el repository de pagos referenciaba `p.monto` cuando la columna se llamaba `p.monto_pagado`; el test escrito como `test_repository_no_usa_columna_inexistente_p_monto` falló inmediatamente en la siguiente sesión cuando otro agente reintrodujo el typo, sin necesidad de reproducir el escenario de negocio (emitir cobro real, verificar respuesta). Causa: los nombres orientados a feature (`test_pago_exitoso`) son ambiguos sobre QUÉ falla — si el test falla, el desarrollador debe diagnosticar; los nombres orientados a causa raíz (`test_X_no_usa_Y`, `test_query_incluye_selectinload_Z`, `test_service_devuelve_dict_no_objeto`) son auto-diagnósticos. Fix: para cada bug que cueste >30 min diagnosticar, escribir UN test adicional cuyo nombre describa la condición técnica violada, no el escenario de negocio. Convención: `test_<componente>_<condicion_tecnica>` o `test_<componente>_no_<anti_patron>`. Estos tests son tu segunda línea de defensa contra regresiones de la misma causa raíz, complementarios a los tests de comportamiento.
|
|
333
|
+
|
|
334
|
+
**`process.cwd()` cacheado al `require()` rompe tests con `process.chdir(sandbox)`** [PATRÓN GENÉRICO TESTING CLI]: scripts Node exportables que leen `process.cwd()` en el scope del módulo (al cargar) congelan el cwd al directorio de invocación. Los tests que crean sandboxes con `fs.mkdtempSync()` y luego `process.chdir(sandbox)` no afectan al cwd cacheado — el script sigue leyendo del cwd original y los assertions fallan con paths inesperados. Caso real (swl-ses `scripts/derivar-feature-list.js` 2026-05-15): la función `enriquecerDesdeFases(fases)` leía `const CWD = process.cwd()` calculado al `require()`; 2 tests con `process.chdir(sandbox)` retornaron `[]` en lugar de detectar el PLAN.md fixture. Causa: el constante se evaluó cuando el `node --test` cargó el módulo desde el cwd del proyecto, no desde el sandbox del test individual. Fix obligatorio: funciones exportables deben aceptar `cwd` como parámetro opcional con fallback dinámico (`function fn(args, opciones = {}) { const cwd = opciones.cwd || process.cwd(); ... }`). El código de producción no cambia (sin args extras), pero los tests pueden inyectar el cwd correcto. Aplica también a Python (`def fn(args, cwd: str | None = None): cwd = cwd or os.getcwd()`) y a cualquier lenguaje con tests que usen chdir.
|
|
335
|
+
|
|
336
|
+
```js
|
|
337
|
+
// MAL — cwd cacheado al require, tests con process.chdir() fallan
|
|
338
|
+
const CWD = process.cwd();
|
|
339
|
+
const PLANNING_DIR = path.join(CWD, '.planning');
|
|
340
|
+
|
|
341
|
+
function enriquecerDesdeFases(fases) {
|
|
342
|
+
const archivos = fs.readdirSync(path.join(PLANNING_DIR, 'fases')); // cwd congelado
|
|
343
|
+
// ...
|
|
344
|
+
}
|
|
345
|
+
|
|
346
|
+
// BIEN — cwd dinámico con parámetro opcional para tests
|
|
347
|
+
function enriquecerDesdeFases(fases, opciones = {}) {
|
|
348
|
+
const cwd = opciones.cwd || process.cwd(); // recalcula al llamar
|
|
349
|
+
const archivos = fs.readdirSync(path.join(cwd, '.planning', 'fases'));
|
|
350
|
+
// ...
|
|
351
|
+
}
|
|
352
|
+
|
|
353
|
+
// En el test:
|
|
354
|
+
const sandbox = fs.mkdtempSync(path.join(os.tmpdir(), 'test-'));
|
|
355
|
+
fs.mkdirSync(path.join(sandbox, '.planning', 'fases'), { recursive: true });
|
|
356
|
+
// Opción A: pasar cwd explícito (recomendado)
|
|
357
|
+
const r = enriquecerDesdeFases([], { cwd: sandbox });
|
|
358
|
+
// Opción B: process.chdir() — solo funciona con cwd dinámico
|
|
359
|
+
process.chdir(sandbox);
|
|
360
|
+
const r2 = enriquecerDesdeFases([]);
|
|
361
|
+
```
|
|
@@ -1,12 +1,12 @@
|
|
|
1
1
|
---
|
|
2
2
|
name: verificar-trabajo
|
|
3
|
-
description: Verificación goal-backward del trabajo ejecutado en 4 niveles progresivos — EXISTE, SUSTANTIVO, CONECTADO, DATOS_FLUYEN. Detecta stubs, componentes huérfanos, integraciones rotas y flujos incompletos. Produce veredictos estructurados JSON con clasificación de riesgo (Low/Medium/High) y evidencia verificable. Soporta loop de reparación cuando el veredicto es Fail.
|
|
4
|
-
version: "1.
|
|
3
|
+
description: Verificación goal-backward del trabajo ejecutado en 4 niveles progresivos — EXISTE, SUSTANTIVO, CONECTADO, DATOS_FLUYEN. Clasifica claims en 4 tipos (TASK, FIX, TEST_OR_BUILD, FEATURE_GO) con evidencia proporcional. Detecta stubs, componentes huérfanos, integraciones rotas y flujos incompletos. Produce veredictos estructurados JSON con clasificación de riesgo (Low/Medium/High) y evidencia verificable. Soporta loop de reparación cuando el veredicto es Fail.
|
|
4
|
+
version: "1.2.1"
|
|
5
5
|
evolved: true
|
|
6
|
-
evolved-from: "1.
|
|
7
|
-
evolved-at: "2026-05-
|
|
6
|
+
evolved-from: "1.2.0"
|
|
7
|
+
evolved-at: "2026-05-15"
|
|
8
8
|
evolved-by: "aprender"
|
|
9
|
-
evolved-note: "
|
|
9
|
+
evolved-note: "Gotchas v1.5.1 acumulados en este ciclo: (1) health-check post-hoc que recalcula contexto del install desde cwd actual → falso positivo (caso doctor 2026-05-15); (2) smoke E2E obligatorio para features cross-cutting (Sub-fase 11.5: transformarAgente nunca invocado pese a suite 100% verde); (3) auto-reparación debe verificar que el chequeo subsecuente ya no detecta el problema, si no → loop infinito (Sub-fase 12: doctor)."
|
|
10
10
|
herramientasPermitidas: [Read, Write, Edit, Bash, Glob, Grep]
|
|
11
11
|
exclusiones:
|
|
12
12
|
- "No cargar durante la implementación activa de una tarea; la verificación es posterior a la implementación, no concurrente."
|
|
@@ -60,6 +60,50 @@ El skill `verificacion-evidencia` tiene el detalle completo de este protocolo.
|
|
|
60
60
|
|
|
61
61
|
---
|
|
62
62
|
|
|
63
|
+
## Taxonomía de claims (clasifica ANTES de verificar)
|
|
64
|
+
|
|
65
|
+
El nivel de evidencia requerido depende del tipo de claim que se quiere validar.
|
|
66
|
+
Antes de aplicar los 4 niveles, identifica qué clase de claim estás verificando.
|
|
67
|
+
|
|
68
|
+
Inspirado en `kiro-verify-completion` (cc-sdd) — ver `temp/cc-sdd-main/tools/cc-sdd/templates/agents/claude-code-skills/skills/kiro-verify-completion/SKILL.md`.
|
|
69
|
+
|
|
70
|
+
### Los 4 tipos de claim
|
|
71
|
+
|
|
72
|
+
| Claim type | Cuándo aplica | Evidencia mínima obligatoria |
|
|
73
|
+
|------------|---------------|-------------------------------|
|
|
74
|
+
| **TASK** | "Esta tarea está completa" — una sub-tarea atómica del PLAN.md | Niveles 1-3; tests locales de la tarea pasan; sin findings de revisor bloqueantes; evidencia alineada al boundary de la tarea |
|
|
75
|
+
| **FIX** | "Este bug está arreglado" — corrección de un defecto reportado | Síntoma original reproducido antes del fix + ya no se reproduce después; sin regresiones en el scope relevante |
|
|
76
|
+
| **TEST_OR_BUILD** | "Los tests pasan" / "el build pasa" — claim mecánico | Output literal del comando + exit code 0; conteo de pass/fail/skipped explícito; NO inferir desde checks no relacionados |
|
|
77
|
+
| **FEATURE_GO** | "Esta feature/fase está lista para producción" — claim de cierre mayor | Suite de tests completa verde + smoke test runtime (la app realmente arranca a estado usable) + cobertura de requisitos evaluada + alineación end-to-end con design + integración cross-task verificada |
|
|
78
|
+
|
|
79
|
+
### Reglas duras
|
|
80
|
+
|
|
81
|
+
1. **Identifica el claim type ANTES** de seleccionar evidencia. No reverse-engineer "qué tipo es" desde la evidencia que ya tienes.
|
|
82
|
+
2. **Rechaza claims más amplios que la evidencia**. Si solo verificaste una tarea (TASK), no puedes emitir FEATURE_GO. Reporta el alcance real.
|
|
83
|
+
3. **Para TEST_OR_BUILD**: la evidencia es el output del comando, no la inferencia. Si los tests pasan pero hay 47 skipped por preconditions falsas, NO es un Pass limpio — reporta los skipped como riesgo (ver regla `monitor-ci.md` § "verde con N skipped").
|
|
84
|
+
4. **Para FEATURE_GO**: un test suite verde NO basta. Requiere también smoke runtime, cobertura de requisitos y alineación end-to-end.
|
|
85
|
+
5. **Si la validación canónica no puede completarse** (sin BD disponible, sin red, sin runtime), retorna `MANUAL_VERIFY_REQUIRED` en lugar de inventar evidencia.
|
|
86
|
+
|
|
87
|
+
### Mapeo a salidas del veredicto
|
|
88
|
+
|
|
89
|
+
El claim type se incluye en el veredicto estructurado JSON:
|
|
90
|
+
|
|
91
|
+
```json
|
|
92
|
+
{
|
|
93
|
+
"claim_type": "TASK | FIX | TEST_OR_BUILD | FEATURE_GO",
|
|
94
|
+
"claim_text": "Tarea 3.2 — Crear endpoint POST /facturas",
|
|
95
|
+
"verdict": "VERIFIED | NOT_VERIFIED | MANUAL_VERIFY_REQUIRED",
|
|
96
|
+
"scope_evidence_match": "exact | broader_claim_than_evidence | narrower_claim_than_evidence",
|
|
97
|
+
...
|
|
98
|
+
}
|
|
99
|
+
```
|
|
100
|
+
|
|
101
|
+
Si `scope_evidence_match` es `broader_claim_than_evidence`, el verdict se
|
|
102
|
+
degrada automáticamente a `NOT_VERIFIED` con instrucción de re-emitir el
|
|
103
|
+
claim con scope acotado.
|
|
104
|
+
|
|
105
|
+
---
|
|
106
|
+
|
|
63
107
|
## Los 4 niveles de verificación
|
|
64
108
|
|
|
65
109
|
### Nivel 1 — EXISTE
|
|
@@ -296,6 +340,11 @@ estructurado JSON, ver [recursos/plantilla-verificacion.md](recursos/plantilla-v
|
|
|
296
340
|
- **Loop de reparación sin re-verificación completa**: tras el fix, el agente re-verifica solo el item que falló en lugar del veredicto completo. Causa: optimización incorrecta para ahorrar tiempo. Solución: el paso 3 del loop de reparación dice explícitamente "re-ejecutar la verificación COMPLETA" — un fix puede resolver un fallo pero introducir otro.
|
|
297
341
|
- **Hollow Component no detectado en Nivel 2**: el componente Angular tiene template pero no usa ninguna señal del componente. El agente verifica que el archivo existe (Nivel 1) y que tiene contenido (Nivel 2), pero no detecta que el contenido es decorativo. Causa: la definición de "stub" en Nivel 2 no se aplicó al caso de templates sin binding. Solución: verificar explícitamente que el template usa al menos una variable/señal del componente.
|
|
298
342
|
- **Verificación con tests + linter pasa pero al levantar BD fresca todo se rompe**: tests Python con mocks y `ruff check` retornan verde, pero `docker compose down -v && up` falla porque hay drift entre `database/schemas/`, seeds, funciones SQL y vistas. Caso real (SIGM 2026-05-04): primera pasada de `/swl:verificar` reportó "APROBADO 21/22" sin detectar que ~10 seeds tenían columnas obsoletas, UUIDs inválidos y un script `02-crear-buckets-minio.sh` que abortaba initdb del contenedor postgres. Causa: la verificación corre solo contra el código (que mockea BD); nunca aplica el SQL real. Solución: cuando el alcance toca cualquier archivo en `database/schemas/`, `database/seeds/`, `database/functions/` o `database/views/`, ejecutar como Nivel 4 (DATOS_FLUYEN) obligatorio: `docker compose down -v && docker compose up -d db && wait_for_health && docker logs <db_container> | grep -E "ERROR|skipped"`. Cualquier ERROR en logs de init invalida el veredicto Pass.
|
|
343
|
+
- **Health-check post-hoc que recalcula contexto del install desde cwd actual produce falso positivo**: un verificador (doctor, validador, monitor) que recalcula filtros — aplicados al momento del install — desde el `process.cwd()` actual genera discrepancia falsa cuando se ejecuta desde un dir distinto. Caso real (swl-ses doctor v1.4.3, 2026-05-15): reportaba "reglas: 65 (perfil esperaba 25)" porque recalculaba `filtrarReglasPorStack(detectarStack(cwd))` con `cwd` vacío de indicadores, mientras las 40 reglas-lenguajes se habían instalado correctamente con stack detectado en el dir del proyecto. Causa: el filtro depende del contexto del momento del install, no del momento del check. Solución obligatoria: **persistir el contexto del install en el state file** (en este caso `allLangs` + `stackInstalado` en `.swl-install-state.json`). Si el state es legacy (sin estos campos), **inferir el contexto desde los archivos realmente instalados** (ej: subdirs presentes bajo `reglas/lenguajes/<lang>/`), NO recalcular desde cwd. Aplica como regla general a cualquier check post-hoc cuya validez depende del contexto del install.
|
|
344
|
+
|
|
345
|
+
- **Suite 100% verde con bug latente cross-cutting que solo aparece en smoke E2E real**: las unit tests del transformador pasaban, los tests del instalador pasaban, los tests del manifiesto pasaban — pero el smoke `install --target codex --local --force` reveló que `instalarArchivo()` hacía `fs.copyFileSync(archivo.origen, destino)` literal sin invocar `transformarAgente()`. Los `.toml` de Codex y los `.md` normalizados de Cursor NUNCA se generaban en disco aunque las unit tests del transformador retornaran contenido correcto. Caso real (Sub-fase 11.5 v1.5.1, 2026-05-15): la integración de las dos capas (transformador + instalador) jamás se testeaba E2E porque cada una se probaba en aislamiento con mocks. **Regla obligatoria para features cross-cutting** (multi-capa: transformador + instalador + filesystem; o lib + bin + cliente; o backend + frontend + cache): el Nivel 4 DATOS_FLUYEN exige al menos un smoke E2E real que ejercite las tres capas con archivos reales en disco temporal. NO sustituible por unit tests aunque la suite sea 100% verde. Comando mínimo: `mkdir tmp && cd tmp && bin/CLI <comando-happy-path> && ls -R` + inspección del primer archivo generado.
|
|
346
|
+
|
|
347
|
+
- **Auto-reparación ejecuta acción sin verificar que el chequeo subsecuente ya no detecta el problema**: el doctor reporta "faltan reglas: 0/25" en Codex, el usuario elige "reparar automáticamente", el doctor invoca `instalador.install({force:true})`, reinstala 230 archivos, vuelve a chequear y reporta lo mismo. Loop infinito. Caso real (Sub-fase 12 v1.5.1, 2026-05-15): los 4 falsos positivos del doctor sobre Codex/Cursor persistían tras cada "reparación" porque la causa raíz era un filtro hardcoded (`tiposPrincipales = ['agentes', 'habilidades', 'comandos', 'reglas']` sin respetar `runtime.tiposSoportados` ni `dir<Tipo>`). Cada reinstalación dejaba el filtro intacto, el chequeo seguía detectando el "problema". **Regla**: toda función de auto-reparación debe ejecutar el chequeo subsecuente ANTES de reportar "Reparado" — si el chequeo sigue detectando el problema, NO marcar como reparado y reportar "no se pudo reparar, requiere diagnóstico manual". Implementación: wrap la acción en `try { accion(); const res = chequeo(); if (!res.ok) throw new Error('reparación sin efecto'); }`.
|
|
299
348
|
|
|
300
349
|
## Regla de oro del verificador
|
|
301
350
|
|