@saulwade/swl-ses 1.7.4 → 1.9.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (97) hide show
  1. package/CLAUDE.md +196 -196
  2. package/README.md +579 -579
  3. package/agentes/auto-evolucion-swl.md +7 -7
  4. package/agentes/disenador-ui-swl.md +12 -0
  5. package/agentes/investigador-ux-swl.md +9 -0
  6. package/agentes/orquestador-swl.md +89 -1
  7. package/agentes/perfilador-usuario-swl.md +2 -2
  8. package/agentes/revisor-codigo-swl.md +34 -10
  9. package/agentes/revisor-seguridad-swl.md +7 -0
  10. package/agentes/tdd-qa-swl.md +23 -2
  11. package/agentes/ux-disenador-swl.md +6 -0
  12. package/comandos/swl/autoresearch.md +102 -6
  13. package/comandos/swl/evaluar-skill.md +1 -1
  14. package/comandos/swl/evolucion-estado.md +5 -5
  15. package/comandos/swl/evolucionar.md +2 -2
  16. package/comandos/swl/inbox.md +1 -1
  17. package/comandos/swl/metricas.md +34 -0
  18. package/comandos/swl/nemesis.md +42 -1
  19. package/comandos/swl/planear-fase.md +8 -0
  20. package/comandos/swl/predecir.md +139 -0
  21. package/comandos/swl/reflect-skills.md +2 -2
  22. package/comandos/swl/salud.md +1 -1
  23. package/comandos/swl/verificar.md +50 -7
  24. package/habilidades/ai-runtime-security/SKILL.md +2 -2
  25. package/habilidades/angular-moderno/SKILL.md +44 -1
  26. package/habilidades/auto-evolucion-protocolo/SKILL.md +2 -2
  27. package/habilidades/autoresearch/SKILL.md +15 -1
  28. package/habilidades/benchmark-memoria/SKILL.md +2 -2
  29. package/habilidades/calidad-mutation-testing/SKILL.md +170 -0
  30. package/habilidades/changelog-generator/scripts/parse-commits.js +2 -1
  31. package/habilidades/checklist-seguridad/SKILL.md +29 -1
  32. package/habilidades/checklist-seguridad/recursos/stride-cobertura.md +60 -0
  33. package/habilidades/css-moderno/SKILL.md +3 -1
  34. package/habilidades/drift-detection/SKILL.md +3 -3
  35. package/habilidades/eval-framework/SKILL.md +1 -1
  36. package/habilidades/fastapi-experto/SKILL.md +56 -5
  37. package/habilidades/guardrail-semantico/SKILL.md +4 -4
  38. package/habilidades/patrones-python/SKILL.md +8 -5
  39. package/habilidades/proceso-ddia-streaming/SKILL.md +4 -4
  40. package/habilidades/proceso-debate-adversarial/SKILL.md +164 -0
  41. package/habilidades/proceso-debate-adversarial/recursos/personas.md +105 -0
  42. package/habilidades/proceso-dynamic-workflows/SKILL.md +138 -0
  43. package/habilidades/proceso-dynamic-workflows/recursos/template-adversarial-verify.js +65 -0
  44. package/habilidades/proceso-dynamic-workflows/recursos/template-triage.js +65 -0
  45. package/habilidades/swl-claudemd/SKILL.md +2 -2
  46. package/habilidades/tdd-workflow/SKILL.md +14 -1
  47. package/habilidades/tdd-workflow/recursos/gherkin-bdd.md +111 -0
  48. package/habilidades/testing-python/SKILL.md +1 -1
  49. package/habilidades/tracing-processor/SKILL.md +1 -1
  50. package/hooks/actualizar-perfil-usuario.js +2 -2
  51. package/hooks/aiisms-detector.js +2 -2
  52. package/hooks/auto-evolucion.js +1 -1
  53. package/hooks/captura-feedback-usuario.js +2 -2
  54. package/hooks/claudemd-bloat-detector.js +2 -2
  55. package/hooks/claudemd-duplicacion-detector.js +1 -1
  56. package/hooks/contexto-iteracion.js +144 -0
  57. package/hooks/guardrail-modelo.js +2 -2
  58. package/hooks/lib/loop-telemetry.js +321 -0
  59. package/hooks/lib/memory-search.js +1 -1
  60. package/hooks/lib/nudge-tracker.js +1 -1
  61. package/hooks/metricas-evolucion.js +3 -3
  62. package/hooks/notificacion-telegram.js +11 -3
  63. package/hooks/rotar-audit-auto.js +2 -2
  64. package/hooks/validar-formato-post-subagente.js +2 -2
  65. package/hooks/validar-intent-spec.js +1 -1
  66. package/hooks/validar-planning-paths.js +134 -0
  67. package/llms.txt +29 -0
  68. package/manifiestos/hooks-config.json +30 -12
  69. package/manifiestos/modulos.json +1358 -1351
  70. package/manifiestos/planning-paths.json +44 -0
  71. package/manifiestos/skills-lock.json +1275 -1254
  72. package/package.json +93 -92
  73. package/plugin.json +375 -372
  74. package/reglas/arquitectura.evolved.json +7 -0
  75. package/reglas/arquitectura.md +65 -0
  76. package/reglas/gobernanza.md +1 -1
  77. package/reglas/memoria-consolidada.md +7 -7
  78. package/reglas/seguridad.evolved.json +7 -0
  79. package/reglas/seguridad.md +144 -0
  80. package/reglas/sin-duplicacion-reglas-globales.md +1 -1
  81. package/scripts/auditar-agentes-gaps.js +1 -1
  82. package/scripts/auditar-cobertura-frameworks.js +2 -2
  83. package/scripts/auditar-skills-gaps.js +2 -2
  84. package/scripts/benchmark-memoria.js +3 -3
  85. package/scripts/generar-inventario.js +64 -1
  86. package/scripts/inferir-herramientas-permitidas.js +1 -1
  87. package/scripts/instalador.js +80 -2
  88. package/scripts/lib/dashboard-widgets.js +3 -3
  89. package/scripts/lib/drift-detector.js +3 -3
  90. package/scripts/lib/eval-metrics-store.js +3 -3
  91. package/scripts/lib/gitignore-manifest.js +3 -3
  92. package/scripts/mcp-server/README.md +1 -1
  93. package/scripts/mcp-server/telemetry.js +2 -2
  94. package/scripts/reflect-skills.js +4 -4
  95. package/scripts/rotar-audit-logs.js +2 -2
  96. package/scripts/run-skill-evals.js +2 -2
  97. package/scripts/smoke-test.js +24 -2
@@ -0,0 +1,138 @@
1
+ ---
2
+ name: proceso-dynamic-workflows
3
+ description: >
4
+ Patrones canónicos de dynamic workflows en Claude Code (Workflow tool / ultracode):
5
+ classify-and-act, fan-out-and-synthesize, adversarial-verification, generate-and-filter,
6
+ tournament. Cubre los 3 modos de falla que justifican orquestar (agentic laziness,
7
+ self-preferential bias, goal drift), cuándo NO usar workflows, token budgets, revisión
8
+ cross-modelo, y el anti-patrón de envolver skills auto-iterantes en /loop|/cron. Cargar
9
+ cuando se diseñe una orquestación multi-agente, se decida si una tarea amerita workflow,
10
+ o se quiera empaquetar un workflow como plantilla reutilizable en un skill.
11
+ when_to_use: >
12
+ Usar cuando el usuario diga "ultracode", "workflow", "orquesta esto", "fan-out", "panel
13
+ de revisores", "tournament", o cuando una tarea sea larga, masivamente paralela o
14
+ adversarial y un solo context window sufra laziness/goal-drift.
15
+ herramientasPermitidas: [Read, Grep, Glob]
16
+ exclusiones:
17
+ - "No cargar para tareas de codificación normales de un solo paso — la mayoría NO necesitan un workflow; el harness por defecto basta y un workflow gasta muchos más tokens."
18
+ - "No cargar para el detalle de evaluator-optimizer del nemesis — eso vive en nemesis-evaluacion-json y el comando /swl:nemesis."
19
+ - "No cargar para escribir el .js de un workflow concreto — este skill da los patrones; el script se escribe con el Workflow tool directamente."
20
+ ---
21
+
22
+ # Dynamic workflows: patrones, modos de falla y cuándo orquestar
23
+
24
+ Síntesis del blog oficial de Anthropic *"A harness for every task: dynamic workflows
25
+ in Claude Code"* + patrones validados en swl-ses (nemesis evaluator-optimizer,
26
+ `/swl:verificar --until-converge`, `/swl:autoresearch`). Un dynamic workflow deja que
27
+ Claude escriba su propio harness (JS que coordina subagentes con ventanas aisladas).
28
+
29
+ ## Cuándo cargar
30
+
31
+ - Se va a diseñar una orquestación multi-agente o decidir si una tarea amerita workflow.
32
+ - La tarea es larga, masivamente paralela, o adversarial (review, research, migración, triage).
33
+ - Se quiere empaquetar un workflow como plantilla reutilizable en un skill.
34
+
35
+ ## Cuándo NO cargar
36
+
37
+ - Tarea de codificación normal de 1-2 archivos — el harness por defecto basta. Un workflow
38
+ gasta significativamente más tokens; la mayoría de tareas de coding NO necesitan un panel
39
+ de 5 revisores.
40
+ - Ya estás dentro del detalle del nemesis (`nemesis-evaluacion-json`).
41
+ - Solo necesitas escribir el `.js` — usa el Workflow tool directo con los patrones de abajo.
42
+
43
+ ## Los 3 modos de falla que JUSTIFICAN orquestar
44
+
45
+ Un solo context window largo degrada de tres formas — nombrarlas guía cuándo separar Claudes:
46
+
47
+ 1. **Agentic laziness** — Claude se detiene antes de terminar una tarea multi-parte y la
48
+ declara hecha con progreso parcial (ej. 20 de 50 ítems de un security review). Mitiga:
49
+ fan-out (un subagente por ítem, ventana limpia) + `/goal` (requisito de completitud duro).
50
+ 2. **Self-preferential bias** — Claude prefiere sus propios resultados al verificarlos contra
51
+ un rubric. Mitiga: **adversarial-verification** con subagente separado, y mejor aún
52
+ **revisión cross-modelo** (el reviewer es OTRO modelo). Es el mismo principio que
53
+ `gobernanza.md § Separación revisor/ejecutor`.
54
+ 3. **Goal drift** — pérdida gradual de fidelidad al objetivo tras muchos turnos y compaction
55
+ (cada resumen es lossy; se pierde "no hagas X"). Mitiga: subagentes con goal aislado y
56
+ constraints explícitas por invocación; `/goal` como ancla.
57
+
58
+ ## Los 5 patrones canónicos
59
+
60
+ | Patrón | Cuándo | Forma |
61
+ |--------|--------|-------|
62
+ | **Classify-and-act** | Rutear según tipo de tarea/ítem | Clasificador → ramas distintas (al inicio o al final para decidir output) |
63
+ | **Fan-out-and-synthesize** | Muchos sub-pasos; cada uno se beneficia de ventana limpia sin cross-contaminación | N agentes en paralelo → barrier → synthesize merge. **Default** para descomponer |
64
+ | **Adversarial-verification** | Evitar self-preferential bias | Por cada agente, un agente separado verifica su output contra rubric. Diversificar lentes |
65
+ | **Generate-and-filter** | Espacio de ideas amplio (taste-based) | Generar N → filtrar por rubric/verificación → dedupe → solo las mejores probadas |
66
+ | **Tournament** | Solución taste-based con criterio | N agentes compiten con enfoques distintos → juez pairwise hasta ganador |
67
+
68
+ `pipeline()` (sin barrier entre stages) es el default; usa barrier (`parallel()` entre
69
+ stages) SOLO cuando el stage N necesita TODOS los resultados del N-1 (dedup global,
70
+ early-exit por conteo cero, comparación cruzada).
71
+
72
+ ## Revisión cross-modelo (combate self-preferential bias estructuralmente)
73
+
74
+ El reviewer adversarial en el MISMO modelo aún arrastra sesgo. La mejora: **executor en un
75
+ modelo, reviewer en otro** (Claude ejecuta → Gemini/Codex/otro revisa). Patrón de ARIS
76
+ (`mcp-servers/gemini-review`): MCP que expone `review`/`review_reply`, devuelve JSON con
77
+ `threadId` + `response` → rastro auditable de un veredicto independiente.
78
+
79
+ En swl-ses esto es **opt-in** vía `/swl:nemesis --cross-model` (ver el comando): si hay un
80
+ MCP reviewer configurado, la verificación se rutea a un modelo externo; si no, degrada al
81
+ reviewer same-model sin fallar (regla `arreglar-al-detectar.md` / no-fallback-silencioso →
82
+ se anuncia la degradación). Mejoras del reviewer (de ARIS `auto-review-loop`):
83
+ - **Reviewer memory**: el reviewer arrastra sus sospechas entre rondas (un solo `threadId`),
84
+ no parte de cero cada iteración.
85
+ - **Debate protocol**: el executor puede rebatir; el reviewer falla el veredicto final —
86
+ *"it can drive, never acquit"* (el loop conduce, el jurado decide).
87
+ - **POSITIVE_THRESHOLD compuesto**: `score ≥ N` **AND** `verdict ∈ {ready, almost}` — un
88
+ score alto con verdict "not ready" NO detiene el loop.
89
+
90
+ ## Anti-patrón: no envolver un skill auto-iterante en /loop · /cron · /schedule
91
+
92
+ Si un skill YA itera internamente (review→fix→re-review con memoria de reviewer en un
93
+ `threadId`), envolverlo en `/loop`, `/schedule` o `CronCreate` lo re-entra desde cero cada
94
+ tick → `threadId` nuevo, memoria del reviewer reseteada → dispara el veredicto por
95
+ wall-clock en vez de por cambio de artefacto: cero señal nueva, costo de tokens completo.
96
+ Aplica a `/swl:autoresearch`, `/swl:verificar --until-converge`, nemesis `--remediar`. Si
97
+ hay que agendar algo, agenda **la espera externa que lo precede** (ej. experimentos listos →
98
+ entonces corre el loop UNA vez), no el loop mismo.
99
+
100
+ ## Token budgets, /goal y model routing
101
+
102
+ - **Token budget en workflows**: el global `budget` (o "use 10k tokens" en el prompt) pone
103
+ cap duro. Alinea con `scripts/lib/budget-enforcer.js` de swl-ses.
104
+ - **/goal + /loop**: para workflows repetibles (triage, research, verificación), `/goal` da
105
+ requisito de completitud y `/loop` la cadencia. NO sobre skills auto-iterantes (arriba).
106
+ - **Dynamic model routing**: un agente clasificador investiga la complejidad real del scope
107
+ y rutea a Sonnet vs Opus por tarea (más fino que el Model-Tier estático del frontmatter).
108
+
109
+ ## Workflows como plantillas en skills
110
+
111
+ Un `.js` de workflow puede vivir en `recursos/` de un skill y referenciarse en su SKILL.md
112
+ como **plantilla** (no script verbatim) — Claude lo adapta al caso. Plantillas incluidas:
113
+
114
+ - `recursos/template-adversarial-verify.js` — fan-out de hallazgos + verificación adversarial
115
+ por hallazgo (filtra los reales).
116
+ - `recursos/template-triage.js` — clasifica ítems de un backlog, dedupe contra lo ya
117
+ trackeado, y rutea (fix automático vs escalar a humano) con patrón quarantine.
118
+
119
+ ## Quarantine (triage de contenido no confiable)
120
+
121
+ En triage que lee contenido público/no confiable, los agentes lectores quedan **barred** de
122
+ acciones de alto privilegio; esas las ejecutan agentes distintos que actúan sobre la info ya
123
+ saneada. Coherente con `seguridad-agentes.md § Prompt injection` y el quarantine de SWL.
124
+
125
+ ## Gotchas
126
+
127
+ - **Workflows gastan más tokens** — úsalos cuando la tarea de verdad necesita más cómputo
128
+ (adversarial, masivamente paralela), no por reflejo.
129
+ - **Subagentes heredan el contexto del padre** (CLAUDE.md + reglas globales). En proyectos
130
+ rule-heavy pueden saturar al arrancar (autocompact thrashing). Pasa scope acotado y evita
131
+ hacer que el subagente explore el codebase completo (ver `harness-claude-code`).
132
+ - **Barrier injustificado** mata wall-clock: si no hay dependencia cross-ítem entre stages,
133
+ usa `pipeline()`, no `parallel()` entre stages.
134
+
135
+ ## Origen
136
+
137
+ Adoptado 2026-06-05 desde análisis de `temp/` (blog Anthropic dynamic-workflows +
138
+ ARIS `auto-review-loop`/`mcp-servers`). Ver APRENDIZAJES.md Tipo D 2026-06-05.
@@ -0,0 +1,65 @@
1
+ // PLANTILLA (no ejecutar verbatim) — Workflow tool de Claude Code.
2
+ // Patrón: fan-out de hallazgos -> verificación adversarial por hallazgo -> filtrar reales.
3
+ // Combate self-preferential bias y agentic laziness. Adapta DIMENSIONS, rubrics y schemas.
4
+ //
5
+ // Uso: el agente lee esta plantilla, la ajusta al caso concreto y la pasa al Workflow tool.
6
+
7
+ export const meta = {
8
+ name: 'adversarial-verify',
9
+ description: 'Revisa por dimensiones y verifica cada hallazgo adversarialmente antes de aceptarlo',
10
+ phases: [{ title: 'Review' }, { title: 'Verify' }],
11
+ }
12
+
13
+ // Dimensiones de revisión — una por lente independiente (no se contaminan entre sí).
14
+ const DIMENSIONS = [
15
+ { key: 'correctness', prompt: 'Revisa SOLO correctness del scope. Devuelve hallazgos.' },
16
+ { key: 'security', prompt: 'Revisa SOLO seguridad del scope. Devuelve hallazgos.' },
17
+ { key: 'dry', prompt: 'Revisa SOLO duplicación/DRY del scope. Devuelve hallazgos.' },
18
+ ]
19
+
20
+ const FINDINGS = {
21
+ type: 'object', additionalProperties: false,
22
+ properties: {
23
+ findings: {
24
+ type: 'array',
25
+ items: {
26
+ type: 'object', additionalProperties: false,
27
+ properties: {
28
+ title: { type: 'string' }, file: { type: 'string' }, line: { type: 'string' },
29
+ severity: { type: 'string', enum: ['critico', 'mayor', 'menor'] },
30
+ },
31
+ required: ['title', 'file', 'severity'],
32
+ },
33
+ },
34
+ },
35
+ required: ['findings'],
36
+ }
37
+
38
+ const VERDICT = {
39
+ type: 'object', additionalProperties: false,
40
+ properties: {
41
+ isReal: { type: 'boolean' },
42
+ reason: { type: 'string' },
43
+ },
44
+ required: ['isReal', 'reason'],
45
+ }
46
+
47
+ // pipeline (sin barrier): cada dimensión verifica sus hallazgos en cuanto su review termina.
48
+ const results = await pipeline(
49
+ DIMENSIONS,
50
+ (d) => agent(d.prompt, { label: `review:${d.key}`, phase: 'Review', schema: FINDINGS }),
51
+ (review, d) =>
52
+ parallel(
53
+ (review?.findings || []).map((f) => () =>
54
+ // Verificador adversarial: prompt orientado a REFUTAR (default refutado si dudoso).
55
+ agent(
56
+ `Intenta REFUTAR este hallazgo contra el código real (cita archivo:linea). ` +
57
+ `Si no puedes probarlo, isReal=false: ${JSON.stringify(f)}`,
58
+ { label: `verify:${f.file}`, phase: 'Verify', schema: VERDICT }
59
+ ).then((v) => ({ ...f, verdict: v }))
60
+ )
61
+ )
62
+ )
63
+
64
+ const confirmados = results.flat().filter(Boolean).filter((f) => f.verdict?.isReal)
65
+ return { confirmados }
@@ -0,0 +1,65 @@
1
+ // PLANTILLA (no ejecutar verbatim) — Workflow tool de Claude Code.
2
+ // Patrón: classify-and-act + quarantine. Clasifica ítems de un backlog, dedupe contra lo
3
+ // ya trackeado, y rutea: fix automático (bajo riesgo) vs escalar a humano (alto riesgo).
4
+ // Quarantine: el agente que LEE contenido no confiable NO ejecuta acciones de alto privilegio.
5
+ //
6
+ // `args` = lista de ítems del backlog (issues, reportes, etc.). Adapta schemas y umbrales.
7
+
8
+ export const meta = {
9
+ name: 'triage',
10
+ description: 'Clasifica un backlog, dedupe contra lo trackeado y rutea fix-vs-escalar (con quarantine)',
11
+ phases: [{ title: 'Clasificar' }, { title: 'Actuar' }],
12
+ }
13
+
14
+ const items = Array.isArray(args) ? args : []
15
+
16
+ const CLASIFICACION = {
17
+ type: 'object', additionalProperties: false,
18
+ properties: {
19
+ categoria: { type: 'string', enum: ['bug', 'feature', 'duplicado', 'ruido'] },
20
+ yaTrackeado: { type: 'boolean' },
21
+ riesgo: { type: 'string', enum: ['bajo', 'alto'] },
22
+ resumen: { type: 'string' },
23
+ },
24
+ required: ['categoria', 'yaTrackeado', 'riesgo', 'resumen'],
25
+ }
26
+
27
+ const ACCION = {
28
+ type: 'object', additionalProperties: false,
29
+ properties: {
30
+ accion: { type: 'string', enum: ['fix-aplicado', 'escalado-humano', 'descartado'] },
31
+ detalle: { type: 'string' },
32
+ },
33
+ required: ['accion', 'detalle'],
34
+ }
35
+
36
+ // Stage 1 (quarantine): clasificador LEE el ítem (posible contenido no confiable) pero NO
37
+ // tiene permiso de actuar — solo emite estructura. Stage 2 actúa sobre data ya saneada.
38
+ const triaged = await pipeline(
39
+ items,
40
+ (item) =>
41
+ agent(
42
+ `Clasifica este ítem del backlog. NO ejecutes ninguna acción: solo describe. ` +
43
+ `Marca yaTrackeado=true si ya existe ticket. Ítem: ${JSON.stringify(item)}`,
44
+ { label: 'clasificar', phase: 'Clasificar', schema: CLASIFICACION }
45
+ ),
46
+ (clf, item) => {
47
+ if (!clf || clf.yaTrackeado || clf.categoria === 'ruido' || clf.categoria === 'duplicado') {
48
+ return { accion: 'descartado', detalle: clf?.resumen || 'sin señal' }
49
+ }
50
+ if (clf.riesgo === 'alto') {
51
+ // Alto riesgo: escalar a humano, no auto-actuar.
52
+ return agent(
53
+ `Redacta un escalamiento conciso para humano sobre: ${clf.resumen}`,
54
+ { label: 'escalar', phase: 'Actuar', schema: ACCION }
55
+ )
56
+ }
57
+ // Bajo riesgo: el agente que ACTÚA es distinto del que leyó contenido no confiable.
58
+ return agent(
59
+ `Aplica el fix de bajo riesgo para: ${clf.resumen}. Devuelve qué hiciste.`,
60
+ { label: 'fix', phase: 'Actuar', schema: ACCION }
61
+ )
62
+ }
63
+ )
64
+
65
+ return triaged.filter(Boolean)
@@ -279,7 +279,7 @@ El sistema tiene dos capas de protección complementarias:
279
279
  | Capa | Mecanismo | Cuándo actúa | Bloqueo |
280
280
  |------|-----------|--------------|---------|
281
281
  | Síncrona | Paso 6.5 de `/swl:aprender` (y equivalente en otros comandos) | Justo después del Write/Edit, antes del reporte final | Bloquea pasos posteriores hasta resolver |
282
- | Asíncrona | Hook `claudemd-bloat-detector.js` (PostToolUse) | Tras cualquier Write/Edit/MultiEdit a CLAUDE.md (incluso fuera de comandos SWL) | No bloquea — emite nudge a `.planning/evolucion/nudges.jsonl` |
282
+ | Asíncrona | Hook `claudemd-bloat-detector.js` (PostToolUse) | Tras cualquier Write/Edit/MultiEdit a CLAUDE.md (incluso fuera de comandos SWL) | No bloquea — emite nudge a `.planning/evolution/nudges.jsonl` |
283
283
 
284
284
  La capa síncrona es proactiva (detiene el comando antes de reportar
285
285
  éxito). La asíncrona es retroactiva (cubre escrituras desde fuera de
@@ -370,7 +370,7 @@ Reglas incluidas en v1.7.0:
370
370
 
371
371
  `hooks/claudemd-duplicacion-detector.js` (PostToolUse, no bloquea)
372
372
  ejecuta el detector tras cualquier Write/Edit a CLAUDE.md y emite
373
- nudge a `.planning/evolucion/nudges.jsonl` con `kind:
373
+ nudge a `.planning/evolution/nudges.jsonl` con `kind:
374
374
  claudemd-duplicacion-reglas`. Opt-out: `SWL_CLAUDEMD_DUPLICACION=0`.
375
375
 
376
376
  ### Cómo refactorizar duplicaciones detectadas
@@ -1,7 +1,7 @@
1
1
  ---
2
2
  name: tdd-workflow
3
3
  description: Flujo completo de Test-Driven Development. Ciclo RED (el test falla) → GREEN (implementación mínima) → REFACTOR (limpieza). Incluye cobertura mínima obligatoria, tests de frontera, factories, fixtures y estrategias para diferentes tipos de código (APIs, services, componentes Angular).
4
- version: "1.0.6"
4
+ version: "1.1.0"
5
5
  evolved: true
6
6
  evolved-from: "1.0.4"
7
7
  evolved-at: "2026-05-16"
@@ -40,6 +40,19 @@ que los tests exigen — ni más, ni menos.
40
40
 
41
41
  ---
42
42
 
43
+ ## Etapa opcional previa: Gherkin (BDD) y gate de mutación
44
+
45
+ Dos extensiones opt-in del ciclo, ambas con guía completa en recursos:
46
+
47
+ - **Antes del ciclo** — si la fase tiene criterios de aceptación de negocio,
48
+ convertirlos en escenarios Given–When–Then validados por el usuario ANTES de
49
+ implementar; cada escenario es el test RED de su criterio. Guía, runners por
50
+ stack y anti-patrones en [recursos/gherkin-bdd.md](recursos/gherkin-bdd.md).
51
+ - **Después del ciclo** — en módulos críticos, verificar la calidad de los
52
+ asserts con mutation testing incremental sobre el diff:
53
+ `Skill("calidad-mutation-testing")`. La cobertura mide ejecución; los
54
+ mutantes sobrevivientes miden si los tests detectarían un bug.
55
+
43
56
  ## El ciclo fundamental RED → GREEN → REFACTOR
44
57
 
45
58
  ### Fase RED — El test debe fallar por la razón correcta
@@ -0,0 +1,111 @@
1
+ # Etapa Gherkin (BDD) — de criterios de aceptación a tests ejecutables
2
+
3
+ Etapa opt-in previa al ciclo RED→GREEN→REFACTOR que convierte los criterios de
4
+ aceptación del CONTEXTO.md/PRD en escenarios **Given–When–Then** ejecutables.
5
+ Cierra el hueco entre "lo que el negocio pidió" y "lo que los tests verifican":
6
+ cada escenario es a la vez especificación legible por el usuario y esqueleto
7
+ del test.
8
+
9
+ Inspirada en el flujo de Robert C. Martin (spec → hard spec → Gherkin → TDD →
10
+ mutation testing): el Gherkin es la "hard spec" verificable; el ciclo TDD la
11
+ implementa; el mutation testing (`Skill("calidad-mutation-testing")`) verifica
12
+ la suite resultante.
13
+
14
+ ## Cuándo usar la etapa (y cuándo no)
15
+
16
+ **Usar cuando**: la fase tiene criterios de aceptación de negocio (PRD o
17
+ CONTEXTO.md con decisiones cerradas), el comportamiento tiene reglas con casos
18
+ distinguibles (descuentos, permisos, estados), o el usuario validará la spec
19
+ sin leer código.
20
+
21
+ **NO usar cuando**: la fase es técnica pura (refactor, migración, infra), los
22
+ criterios son triviales (CRUD sin reglas), o no hay quien lea los escenarios —
23
+ Gherkin sin lector de negocio es ceremonia que duplica los tests.
24
+
25
+ ## Formato
26
+
27
+ ```gherkin
28
+ # language: es
29
+ Característica: Descuento por nivel de cliente
30
+ Como cliente premium quiero recibir mi descuento automático
31
+ para no capturar cupones manualmente.
32
+
33
+ Escenario: Cliente premium recibe 15% en compras normales
34
+ Dado un cliente con nivel "premium"
35
+ Cuando realiza una compra de $100.00 MXN
36
+ Entonces el descuento aplicado es de $15.00 MXN
37
+
38
+ Esquema del escenario: Descuento por nivel
39
+ Dado un cliente con nivel "<nivel>"
40
+ Cuando realiza una compra de $<monto> MXN
41
+ Entonces el descuento aplicado es de $<descuento> MXN
42
+
43
+ Ejemplos:
44
+ | nivel | monto | descuento |
45
+ | normal | 100.00 | 0.00 |
46
+ | premium | 100.00 | 15.00 |
47
+ | mayorista| 100.00 | 22.00 |
48
+ ```
49
+
50
+ Reglas de redacción:
51
+
52
+ - **Un comportamiento por escenario** — si necesitas "Y cuando..." encadenados,
53
+ son dos escenarios.
54
+ - **Lenguaje del dominio, no de la implementación**: "Dado un cliente premium",
55
+ NUNCA "Dado un row en la tabla clientes con tipo=2".
56
+ - **Valores concretos** en los ejemplos — los criterios vagos ("un monto
57
+ válido") no son verificables.
58
+ - **Esquema del escenario** para reglas con tabla de casos — es la forma
59
+ natural de los tests de frontera de `pruebas.md`.
60
+ - Español de México (`# language: es`) — los escenarios los lee el usuario.
61
+
62
+ ## Derivación desde CONTEXTO.md / PRD
63
+
64
+ 1. Tomar cada criterio de aceptación cerrado del CONTEXTO.md (o historia del PRD).
65
+ 2. Reescribirlo como 1-N escenarios: el caso feliz + las fronteras + el caso de error.
66
+ 3. Presentar los escenarios al usuario para validación ANTES de implementar —
67
+ este es el checkpoint humano del flujo: corregir una spec cuesta una
68
+ conversación; corregir la implementación cuesta un refactor.
69
+ 4. Los escenarios validados se guardan en `tests/features/<dominio>.feature`
70
+ y el PLAN.md referencia qué tarea implementa cada escenario.
71
+
72
+ ## Runners por stack
73
+
74
+ | Stack | Runner | Binding típico |
75
+ |-------|--------|----------------|
76
+ | Python | `pytest-bdd` (o `behave`) | `@scenario("features/descuento.feature", "Cliente premium...")` + steps con `@given/@when/@then` |
77
+ | JS/TS | `@cucumber/cucumber` | steps en `features/steps/*.ts` con `Given/When/Then` |
78
+ | C#/.NET | Reqnroll (sucesor de SpecFlow) | bindings `[Given]/[When]/[Then]` |
79
+ | Java | Cucumber-JVM | anotaciones `@Given/@When/@Then` |
80
+
81
+ Verificar versión vigente con Context7 antes de instalar (regla `usar-context7.md`).
82
+
83
+ Los steps son **pegamento delgado**: parsean el Gherkin y llaman al mismo
84
+ código de test que usaría el ciclo TDD (factories incluidas). La lógica de
85
+ verificación vive en los asserts, no en los steps.
86
+
87
+ ## Integración con el ciclo TDD
88
+
89
+ ```
90
+ CONTEXTO.md/PRD → escenarios Gherkin → validación del usuario (checkpoint)
91
+ → por cada escenario: RED (step sin implementar falla)
92
+ → GREEN (implementación mínima) → REFACTOR
93
+ → al cierre de fase: mutation testing opcional sobre el diff
94
+ ```
95
+
96
+ Cada escenario Gherkin ES un test RED al inicio: el runner reporta steps sin
97
+ implementar como fallos — exactamente la fase RED del ciclo. No escribir tests
98
+ unitarios duplicados del mismo criterio: el escenario cubre el comportamiento
99
+ de negocio; los tests unitarios cubren los detalles internos que el Gherkin
100
+ no expresa (errores de infraestructura, edge cases técnicos).
101
+
102
+ ## Anti-patrones
103
+
104
+ - **Gherkin imperativo de UI**: "Cuando hago clic en el botón #submit" — eso
105
+ es un script de Selenium disfrazado. Los escenarios describen comportamiento
106
+ de dominio; la UI cambia sin que la regla de negocio cambie.
107
+ - **Escenarios escritos DESPUÉS de implementar** para "documentar" — pierde el
108
+ checkpoint de validación, que es el valor de la etapa.
109
+ - **Steps con lógica de negocio** — la duplican; los steps solo traducen.
110
+ - **Un .feature gigante por módulo** — un archivo por característica, como el
111
+ código.
@@ -221,7 +221,7 @@ Para ejemplos detallados MAL vs BIEN de anti-patrones, ver [recursos/ejemplos-co
221
221
  - **`mock.patch` parcheado en el módulo de tests en lugar de en el módulo que lo usa**: el mock no tiene efecto porque la función ya fue importada en el módulo objetivo antes del patch. Causa: `mock.patch("tests.test_factura.calcular_iva")` parchea la referencia en el módulo de tests, pero `factura_service.py` ya importó `calcular_iva` directamente y sigue usando la original. Solución: patchear siempre en el lugar donde se usa la función: `mock.patch("factura_service.calcular_iva")` — el destino del patch debe ser la ruta del módulo que importó la función, no donde está definida.
222
222
  - **`pytest-asyncio` marca el test como `async def` y pasa, pero el `await` dentro no se ejecuta**: el test parece correr sin errores pero la coroutine interna nunca se ejecuta. Causa: sin `@pytest.mark.asyncio` o sin `asyncio_mode = "auto"` en pytest.ini, pytest ejecuta la función async como síncrona — la coroutine se crea y se descarta sin ejecutar. Solución: agregar `@pytest.mark.asyncio` al test o configurar `asyncio_mode = "auto"` en `pytest.ini`; verificar con `pytest --tb=short -v` que el test no termina instantáneamente.
223
223
  - **Factory Boy `SubFactory` genera objetos nuevos en cada test aunque el fixture del objeto padre ya existe**: la factory crea una instancia nueva del modelo relacionado en la BD aunque ya exista el objeto padre en el test. Causa: `factory.SubFactory(ClienteFactory)` siempre instancia un nuevo `Cliente` — no reutiliza el fixture del test. Solución: pasar el objeto padre existente al instanciar la factory: `FacturaFactory(cliente=cliente_existente)` — la factory sobreescribe el campo `cliente` con el objeto ya creado en lugar de crear uno nuevo.
224
- - **`os.chdir()` (Python) o `process.chdir()` (Node) en tests no afecta módulos cargados con paths relativos basados en `__dirname`/`__file__`**: si un módulo calcula su ruta de datos al cargar con `path.resolve(__dirname, ...)` o `Path(__file__).parent`, los tests no pueden redirigir esa ruta cambiando el cwd — el path se evaluó al `require`/`import` y queda fijado. Caso real: test que cambia `process.chdir(tmpDir)` antes de llamar funciones que escriben a `.planning/evolucion/nudges.jsonl` pero `RUTA_NUDGES = path.resolve(__dirname, '..', '..', '.planning', ...)` apunta al proyecto real. Solución: dos opciones: (1) test de integración con backup/restore del archivo real (más simple cuando son pocos tests), o (2) refactor del módulo para aceptar override de ruta vía parámetro o variable de entorno (preferible si el módulo es muy testeable). Aplica también a Python con `pathlib.Path(__file__).parent`.
224
+ - **`os.chdir()` (Python) o `process.chdir()` (Node) en tests no afecta módulos cargados con paths relativos basados en `__dirname`/`__file__`**: si un módulo calcula su ruta de datos al cargar con `path.resolve(__dirname, ...)` o `Path(__file__).parent`, los tests no pueden redirigir esa ruta cambiando el cwd — el path se evaluó al `require`/`import` y queda fijado. Caso real: test que cambia `process.chdir(tmpDir)` antes de llamar funciones que escriben a `.planning/evolution/nudges.jsonl` pero `RUTA_NUDGES = path.resolve(__dirname, '..', '..', '.planning', ...)` apunta al proyecto real. Solución: dos opciones: (1) test de integración con backup/restore del archivo real (más simple cuando son pocos tests), o (2) refactor del módulo para aceptar override de ruta vía parámetro o variable de entorno (preferible si el módulo es muy testeable). Aplica también a Python con `pathlib.Path(__file__).parent`.
225
225
  - **Sanitizar antes de truncar invalida assertions de longitud en tests**: un test que verifica `truncar('a'.repeat(300), 100).length === 100` falla porque `'a'.repeat(300)` matchea la regex de redact `\b[A-Za-z0-9_-]{32,}\b` y la función sanitiza primero produciendo `[REDACTED]` (10 chars) que no se trunca. Causa: el orden `sanitizar → truncar` reduce el texto antes de que truncar opere. Solución en tests: usar fixtures que NO triggeren patrones de redact (ej: texto con espacios cada N chars como `'palabra corta '.repeat(N)`); separar tests de sanitización y truncado en casos disjuntos. NO modificar la función para reordenar — sanitizar antes es correcto en producción.
226
226
 
227
227
  ## Refactorizar parsers: fixtures multi-formato ANTES del cambio
@@ -169,7 +169,7 @@ Endpoint: `JAEGER_OTLP_ENDPOINT` (por defecto `http://localhost:4318/v1/traces`)
169
169
 
170
170
  En lugar de persistir spans crudos, un exportador puede agregar en memoria:
171
171
  contar spans por tipo, sumar duraciones, detectar anomalías. En `onTraceEnd`
172
- emite las métricas agregadas a `.planning/evolucion/metricas.json` usando
172
+ emite las métricas agregadas a `.planning/evolution/metricas.json` usando
173
173
  `atomicWriteJSON` de `hooks/lib/atomic-write.js`.
174
174
 
175
175
  ---
@@ -10,7 +10,7 @@
10
10
  * persistente del usuario (instintos/perfil-usuario.yaml).
11
11
  *
12
12
  * No modifica el perfil directamente — solo acumula señales en un
13
- * "dirty-bit" (.planning/perfil-usuario/dirty.json) y, cuando el umbral
13
+ * "dirty-bit" (.planning/user-profile/dirty.json) y, cuando el umbral
14
14
  * se cruza, emite un nudge por stderr sugiriendo invocar el agente
15
15
  * perfilador-usuario-swl.
16
16
  *
@@ -60,7 +60,7 @@ try {
60
60
  // ---------------------------------------------------------------------------
61
61
 
62
62
  const UMBRAL_NUDGE = parseInt(process.env.SWL_PERFIL_UMBRAL || '3', 10);
63
- const DIR_PERFIL = path.join(process.cwd(), '.planning', 'perfil-usuario');
63
+ const DIR_PERFIL = path.join(process.cwd(), '.planning', 'user-profile');
64
64
  const DIRTY_PATH = path.join(DIR_PERFIL, 'dirty.json');
65
65
  const PERFIL_PATH = path.join(process.cwd(), 'instintos', 'perfil-usuario.yaml');
66
66
  const APRENDIZAJES_PATH = path.join(process.cwd(), '.planning', 'APRENDIZAJES.md');
@@ -7,7 +7,7 @@
7
7
  *
8
8
  * Ejecuta el detector portable `habilidades/estilo-sin-ai-isms/scripts/detectar_aiisms.py`
9
9
  * contra archivos .md recién modificados y emite un nudge a
10
- * `.planning/evolucion/nudges.jsonl` si encuentra al menos un AI-ism
10
+ * `.planning/evolution/nudges.jsonl` si encuentra al menos un AI-ism
11
11
  * de severidad P0.
12
12
  *
13
13
  * Opt-out: SWL_AIISMS_HOOK=0 desactiva completamente el hook.
@@ -160,7 +160,7 @@ const nudge = {
160
160
 
161
161
  // Persistir a nudges.jsonl (JSONL append, no reescribir)
162
162
  try {
163
- const nudgesPath = path.join(CWD, '.planning', 'evolucion', 'nudges.jsonl');
163
+ const nudgesPath = path.join(CWD, '.planning', 'evolution', 'nudges.jsonl');
164
164
  const nudgesDir = path.dirname(nudgesPath);
165
165
  if (!fs.existsSync(nudgesDir)) {
166
166
  fs.mkdirSync(nudgesDir, { recursive: true });
@@ -105,7 +105,7 @@ const VENTANA_DIAS = 14;
105
105
  const MIN_TOOL_CALLS = 5; // por debajo se considera trivial
106
106
  const MIN_INVOCACIONES_LOOP = 6; // mínimo para que el ratio de convergencia sea significativo
107
107
 
108
- const DIR_AUTOEVOL = path.join(process.cwd(), '.planning', 'auto-evolucion');
108
+ const DIR_AUTOEVOL = path.join(process.cwd(), '.planning', 'auto-evolution');
109
109
  const DIR_TRACES = path.join(process.cwd(), '.planning', 'traces');
110
110
  const LOG_PATH = path.join(DIR_AUTOEVOL, 'agentes.jsonl');
111
111
  const NUDGES_PATH = path.join(DIR_AUTOEVOL, 'nudges.json');
@@ -6,7 +6,7 @@
6
6
  * Tipo: UserPromptSubmit
7
7
  *
8
8
  * Detecta correcciones explícitas del usuario ("no hagas X", "recuerda Y",
9
- * "prefiero Z") y las encola en .planning/evolucion/feedback-queue.jsonl
9
+ * "prefiero Z") y las encola en .planning/evolution/feedback-queue.jsonl
10
10
  * para que el perfilador-usuario-swl, el ciclo AGP y /swl:aprender puedan
11
11
  * consumirlas sin depender de que el usuario ejecute comandos manualmente.
12
12
  *
@@ -104,7 +104,7 @@ function detectarFeedback(prompt) {
104
104
  */
105
105
  function encolar(hallazgo, meta) {
106
106
  try {
107
- const dir = path.join(process.cwd(), '.planning', 'evolucion');
107
+ const dir = path.join(process.cwd(), '.planning', 'evolution');
108
108
  if (!fs.existsSync(dir)) fs.mkdirSync(dir, { recursive: true });
109
109
 
110
110
  const entrada = {
@@ -6,7 +6,7 @@
6
6
  * Tipo: PostToolUse (aplica a: Write, Edit, MultiEdit)
7
7
  *
8
8
  * Ejecuta `scripts/auditar-claudemd.js` contra archivos `CLAUDE.md`
9
- * recién modificados y emite un nudge a `.planning/evolucion/nudges.jsonl`
9
+ * recién modificados y emite un nudge a `.planning/evolution/nudges.jsonl`
10
10
  * si el veredicto es WARN o ERROR.
11
11
  *
12
12
  * Aplica ADR-0016 (best practices Anthropic "The CLAUDE.md file"):
@@ -148,7 +148,7 @@ const nudge = {
148
148
 
149
149
  // ─── Persistir a nudges.jsonl ─────────────────────────────────────────────
150
150
  try {
151
- const nudgesPath = path.join(CWD, '.planning', 'evolucion', 'nudges.jsonl');
151
+ const nudgesPath = path.join(CWD, '.planning', 'evolution', 'nudges.jsonl');
152
152
  const nudgesDir = path.dirname(nudgesPath);
153
153
  if (!fs.existsSync(nudgesDir)) {
154
154
  fs.mkdirSync(nudgesDir, { recursive: true });
@@ -157,7 +157,7 @@ const nudge = {
157
157
 
158
158
  // ─── Persistir a nudges.jsonl ─────────────────────────────────────────────
159
159
  try {
160
- const nudgesPath = path.join(CWD, '.planning', 'evolucion', 'nudges.jsonl');
160
+ const nudgesPath = path.join(CWD, '.planning', 'evolution', 'nudges.jsonl');
161
161
  const nudgesDir = path.dirname(nudgesPath);
162
162
  if (!fs.existsSync(nudgesDir)) {
163
163
  fs.mkdirSync(nudgesDir, { recursive: true });