@saulwade/swl-ses 1.3.8 → 1.4.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (148) hide show
  1. package/CLAUDE.md +15 -6
  2. package/README.md +15 -14
  3. package/agentes/nemesis-auditor-swl.md +161 -0
  4. package/bin/swl-mcp-server.js +187 -187
  5. package/bin/swl-webhook-server.js +198 -0
  6. package/comandos/swl/.evolved.json +22 -22
  7. package/comandos/swl/adoptar-proyecto.md +21 -1
  8. package/comandos/swl/claudemd.md +14 -1
  9. package/comandos/swl/contribuir.md +233 -233
  10. package/comandos/swl/exportar-vault.md +108 -0
  11. package/comandos/swl/nemesis.md +122 -0
  12. package/comandos/swl/nuevo-proyecto.md +24 -2
  13. package/comandos/swl/salud.md +34 -0
  14. package/comandos/swl/verificar.md +45 -0
  15. package/gateway/adapters/base.js +109 -0
  16. package/gateway/adapters/discord.js +167 -0
  17. package/gateway/adapters/email.js +221 -0
  18. package/gateway/adapters/slack.js +192 -0
  19. package/gateway/adapters/telegram.js +183 -0
  20. package/gateway/adapters/webhook.js +113 -0
  21. package/gateway/adapters/whatsapp.js +214 -0
  22. package/gateway/agent-executor.js +322 -0
  23. package/gateway/command-relay.js +271 -0
  24. package/gateway/cron/jobs.js +263 -0
  25. package/gateway/cron/scheduler.js +322 -0
  26. package/gateway/cron/store.js +335 -0
  27. package/gateway/index.js +320 -0
  28. package/gateway/lib/event-channel.js +191 -0
  29. package/gateway/session.js +131 -0
  30. package/gateway/webhook-server.js +324 -0
  31. package/habilidades/backend-production-resilience/SKILL.md +288 -288
  32. package/habilidades/benchmark-memoria/SKILL.md +186 -186
  33. package/habilidades/build-errors-nextjs/SKILL.md +55 -1
  34. package/habilidades/diagrama-arquitectura/assets/template.html +276 -276
  35. package/habilidades/doubt-driven-review/SKILL.md +171 -171
  36. package/habilidades/doubt-driven-review/recursos/EXAMPLES.md +130 -130
  37. package/habilidades/eval-framework/SKILL.md +212 -212
  38. package/habilidades/extractor-de-aprendizajes/SKILL.md +20 -10
  39. package/habilidades/feynman-auditor-swl/SKILL.md +123 -0
  40. package/habilidades/feynman-auditor-swl/recursos/preguntas-language-agnostic.md +108 -0
  41. package/habilidades/harness-claude-code/SKILL.md +299 -299
  42. package/habilidades/infra-github-actions/SKILL.md +166 -166
  43. package/habilidades/legacy-code-rescue/SKILL.md +267 -267
  44. package/habilidades/manejo-errores/.evolved.json +8 -8
  45. package/habilidades/meta-skills-estandar/recursos/convencion-examples.md +93 -93
  46. package/habilidades/meta-skills-estandar/recursos/skills-as-agents.md +163 -163
  47. package/habilidades/nextjs-testing/SKILL.md +89 -5
  48. package/habilidades/node-experto/SKILL.md +37 -1
  49. package/habilidades/patrones-python/SKILL.md +229 -229
  50. package/habilidades/patrones-python/recursos/patrones-avanzados.md +469 -469
  51. package/habilidades/planear-fase/SKILL.md +319 -319
  52. package/habilidades/react-experto/SKILL.md +45 -4
  53. package/habilidades/release-semver/.evolved.json +8 -8
  54. package/habilidades/state-inconsistency-auditor-swl/SKILL.md +166 -0
  55. package/habilidades/state-inconsistency-auditor-swl/recursos/coupled-state-patterns.md +147 -0
  56. package/habilidades/tdd-workflow/SKILL.md +36 -4
  57. package/habilidades/testing-python/SKILL.md +340 -340
  58. package/habilidades/web-fetcher-routing/SKILL.md +75 -0
  59. package/hooks/claudemd-bloat-detector.js +161 -161
  60. package/hooks/inyeccion-contexto.js +8 -3
  61. package/hooks/lib/agent-routing.js +107 -107
  62. package/hooks/lib/auto-consolidator.js +335 -335
  63. package/hooks/lib/error-classifier.js +308 -308
  64. package/hooks/lib/merkle-audit.js +96 -96
  65. package/hooks/lib/provenance-tracker.js +191 -191
  66. package/hooks/lib/rate-limit-ip.js +177 -0
  67. package/hooks/lib/rate-limit-tracker.js +253 -253
  68. package/hooks/lib/resource-quota.js +122 -122
  69. package/hooks/lib/retry-jitter.js +165 -165
  70. package/hooks/lib/security-net.js +201 -0
  71. package/hooks/lib/skill-auditor.js +588 -588
  72. package/hooks/lib/sync-status.js +228 -228
  73. package/hooks/lib/taint-tracker.js +107 -107
  74. package/hooks/lib/text-similarity.js +241 -241
  75. package/hooks/lib/toon-compressor.js +245 -245
  76. package/hooks/lib/webhook-dedup.js +184 -0
  77. package/hooks/lib/webhook-verify.js +123 -0
  78. package/hooks/proteccion-rutas.js +120 -15
  79. package/hooks/registro-turnos.js +209 -209
  80. package/hooks/sugerir-regenerar-inventario.js +170 -170
  81. package/hooks/validar-formato-post-subagente.js +140 -140
  82. package/hooks/validar-memoria-hook.js +218 -218
  83. package/instintos/prompt-appendices.yaml +57 -57
  84. package/manifiestos/agent-output-schemas.json +57 -57
  85. package/manifiestos/modulos.json +31 -0
  86. package/manifiestos/skills-lock.json +1114 -1093
  87. package/package.json +6 -4
  88. package/plantillas/auditor-veto-template.md +105 -105
  89. package/plantillas/github-workflows/README.md +47 -47
  90. package/plantillas/github-workflows/release-please.yml +44 -44
  91. package/plantillas/github-workflows/swl-ci.yml +107 -107
  92. package/plantillas/github-workflows/swl-security.yml +51 -51
  93. package/plugin.json +2 -2
  94. package/reglas/analisis-previo-tareas-grandes.md +172 -172
  95. package/reglas/arreglar-al-detectar.md +147 -147
  96. package/reglas/fragmentos-compartidos.md +152 -152
  97. package/reglas/harness-claude-code.md +213 -213
  98. package/reglas/usar-context7.md +226 -226
  99. package/reglas/usar-sistema-swl.md +251 -0
  100. package/schemas/diary-entry.schema.json +80 -80
  101. package/scripts/audit-tools/audit-history.js +330 -0
  102. package/scripts/audit-tools/bundle-tracker.js +290 -0
  103. package/scripts/audit-tools/canary-monitor.js +352 -0
  104. package/scripts/audit-tools/code-profiler.js +605 -0
  105. package/scripts/audit-tools/dep-doctor.js +320 -0
  106. package/scripts/audit-tools/env-validator.js +206 -0
  107. package/scripts/audit-tools/lib/fs-walk.js +48 -0
  108. package/scripts/audit-tools/lib/output.js +23 -0
  109. package/scripts/audit-tools/migration-checker.js +392 -0
  110. package/scripts/audit-tools/pentest-scanner.js +1436 -0
  111. package/scripts/benchmark-memoria.js +167 -167
  112. package/scripts/comandos/skills.js +251 -2
  113. package/scripts/configurar-branch-protection.js +418 -418
  114. package/scripts/detectar-aprendizajes-duplicados.js +151 -151
  115. package/scripts/field-report.js +199 -199
  116. package/scripts/generar-checklists-consolidados.js +273 -273
  117. package/scripts/generar-inventario.js +420 -420
  118. package/scripts/generar-matriz-lenguajes.js +271 -271
  119. package/scripts/lib/artefactos-python.js +43 -43
  120. package/scripts/lib/benchmark-metrics.js +160 -160
  121. package/scripts/lib/budget-enforcer.js +252 -252
  122. package/scripts/lib/configurar-ci.js +380 -380
  123. package/scripts/lib/contadores-inventario.js +217 -217
  124. package/scripts/lib/detectar-stack-detallado.js +307 -307
  125. package/scripts/lib/diary-entry.js +234 -234
  126. package/scripts/lib/eval-metrics-store.js +218 -218
  127. package/scripts/lib/eval-quality.js +171 -171
  128. package/scripts/lib/eval-schemas.js +144 -144
  129. package/scripts/lib/eval-self-correct.js +106 -106
  130. package/scripts/lib/eval-validator.js +185 -185
  131. package/scripts/lib/jaccard-similarity.js +98 -98
  132. package/scripts/lib/longmemeval-runner.js +125 -125
  133. package/scripts/lib/npm-version.js +261 -261
  134. package/scripts/lib/paquetes-conocidos.js +50 -50
  135. package/scripts/lib/prompt-builder.js +264 -264
  136. package/scripts/lib/rrf-fusion.js +175 -175
  137. package/scripts/lib/scoring-instintos.js +277 -277
  138. package/scripts/lib/semantic-search.js +252 -252
  139. package/scripts/limpiar-artefactos-python.js +131 -131
  140. package/scripts/mcp-server/README.md +128 -128
  141. package/scripts/mcp-server/handlers.js +206 -206
  142. package/scripts/migrar-csv-a-array.js +168 -168
  143. package/scripts/migrar-fase-dominio.js +201 -201
  144. package/scripts/publicar.js +511 -511
  145. package/scripts/run-eval.js +141 -141
  146. package/scripts/validar-manifest.js +195 -195
  147. package/scripts/validar-userland-vacio.js +110 -110
  148. package/scripts/verificar-release.js +110 -0
@@ -1,186 +1,186 @@
1
- ---
2
- name: benchmark-memoria
3
- description: >
4
- Benchmark de retrieval para `hooks/lib/memory-search` que mide R@5, R@10,
5
- MRR y nDCG@10 contra un dataset de queries con respuestas conocidas
6
- (gold_ids). Útil para detectar regresión de calidad de búsqueda al cambiar
7
- RRF weights, scoring o fuentes. Cargar cuando se modifique
8
- `memory-search.js`, `rrf-fusion.js` o `session-fts.js` para verificar que
9
- no degrada retrieval. NO cargar para uso operacional ni para evaluar
10
- outputs de agentes (eso es `eval-framework`).
11
- version: "1.0.0"
12
- herramientasPermitidas: [Read, Bash]
13
- exclusiones:
14
- - "No cargar para evaluar outputs de agentes (aprendizajes, observaciones, resúmenes); eso es `eval-framework`."
15
- - "No cargar como gate de release sin un dataset ≥30 entries con status='real' — las métricas con dataset placeholder no son estadísticamente significativas."
16
- - "No cargar para benchmark de performance (latencia, throughput); eso es `performance-baseline`."
17
- - "No cargar si el repo no tiene `.planning/APRENDIZAJES.md` ni sesiones — sin contenido no hay nada que recuperar."
18
- evolvable: true # default para skill estandar
19
- ---
20
- # Benchmark de Memoria — LongMemEval-S adaptado a SWL
21
-
22
- ## Cuándo cargar esta skill
23
-
24
- - Tras modificar `hooks/lib/memory-search.js`, `scripts/lib/rrf-fusion.js`,
25
- pesos de fusión o algoritmo de scoring de relevancia.
26
- - Tras agregar fuentes de búsqueda nuevas (ej. evals, instintos globales).
27
- - Antes de un release que toque la capa de memoria, para confirmar que no
28
- hay regresión en R@5.
29
- - Como parte opcional de `/swl:salud` cuando `SWL_BENCHMARK_MEMORIA=1`.
30
-
31
- ---
32
-
33
- ## Componentes del benchmark
34
-
35
- | Módulo | Propósito |
36
- |---|---|
37
- | `scripts/lib/benchmark-metrics.js` | Funciones puras: `recallAt`, `precisionAt`, `mrr`, `ndcgAt`, `dcg`, `calcularMetricas`, `promediar`. |
38
- | `scripts/lib/longmemeval-runner.js` | Adapter que ejecuta queries contra `memory-search` y compara con gold. |
39
- | `scripts/benchmark-memoria.js` | CLI runner principal. |
40
- | `.planning/benchmark/dataset.jsonl` | Dataset (placeholder por defecto, debe expandirse). |
41
-
42
- ---
43
-
44
- ## Estado del dataset (CRÍTICO leer antes de usar)
45
-
46
- El dataset por defecto en `.planning/benchmark/dataset.jsonl` es **placeholder**
47
- con 10 entries marcadas explícitamente como `"status": "placeholder"`. Las
48
- métricas calculadas con este dataset son **indicativas, no estadísticamente
49
- significativas**.
50
-
51
- ### Limitaciones del dataset placeholder
52
-
53
- 1. **IDs volátiles**: los `gold_ids` referencian `apr-N` (índice de entrada en
54
- `APRENDIZAJES.md`). Si se agregan/borran entradas, los índices cambian y
55
- el dataset queda desincronizado. Para dataset real considerar IDs estables
56
- (sesiones tienen timestamp; instintos tienen `id` propio).
57
- 2. **N=10 es ruido estadístico**: para que R@5=80% sea significativo
58
- estadísticamente (vs 70% baseline), se requieren al menos 30 queries
59
- con N=10 random. Por debajo, las métricas reflejan suerte.
60
- 3. **Cobertura limitada**: el placeholder cubre solo categorías técnicas
61
- (patrones, gotchas, decisiones). Falta cobertura de:
62
- - Bug fixes históricos
63
- - Workflow questions ("qué hicimos antes de X")
64
- - Cross-session ("cuándo se decidió Y")
65
- - Negative queries (preguntas cuya respuesta es "no aplica")
66
-
67
- ### Cómo expandir a dataset real
68
-
69
- ```bash
70
- # 1. Identifica una pregunta real de uso
71
- QUERY="qué hicimos sobre force push a main protegida"
72
-
73
- # 2. Ejecuta búsqueda y anota top-5 IDs
74
- node -e "console.log(require('./hooks/lib/memory-search').search('.', '$QUERY').slice(0, 5).map(r => r.id + ' / ' + r.titulo).join('\n'))"
75
-
76
- # 3. Verifica manualmente qué IDs son CORRECTOS (revisión humana,
77
- # no se inventa). Solo esos van en gold_ids.
78
-
79
- # 4. Agrega la entry al dataset:
80
- cat >> .planning/benchmark/dataset.jsonl << 'EOF'
81
- {"question_id": "q-real-001", "question": "qué hicimos sobre force push a main protegida", "gold_ids": ["apr-313"], "category": "decision", "status": "real"}
82
- EOF
83
- ```
84
-
85
- Repetir hasta tener ≥30 entries con `status: "real"`. Solo entonces el
86
- benchmark es gate de release.
87
-
88
- ---
89
-
90
- ## Uso
91
-
92
- ### CLI básico
93
-
94
- ```bash
95
- # Ejecutar benchmark con dataset por defecto
96
- node scripts/benchmark-memoria.js
97
-
98
- # Output esperado:
99
- # Recall @ 5: 85.0%
100
- # Recall @ 10: 92.0%
101
- # MRR: 0.741
102
- # nDCG @ 10: 0.812
103
- # Precision @ 5: 41.3%
104
- ```
105
-
106
- ### Opciones
107
-
108
- ```bash
109
- # Dataset alternativo
110
- node scripts/benchmark-memoria.js --dataset .planning/benchmark/custom.jsonl
111
-
112
- # Top-k personalizado (default 20)
113
- node scripts/benchmark-memoria.js --limit 30
114
-
115
- # Output JSON (para scripts)
116
- node scripts/benchmark-memoria.js --json
117
-
118
- # Detalle por query (útil para debugging)
119
- node scripts/benchmark-memoria.js --verbose
120
- ```
121
-
122
- ### Tracking histórico opcional
123
-
124
- Si se setea `SWL_BENCHMARK_PERSIST=1`, el benchmark escribe el resumen
125
- agregado a `.planning/evolucion/benchmark-memoria.jsonl` (append-only)
126
- para detectar regresión entre releases:
127
-
128
- ```bash
129
- SWL_BENCHMARK_PERSIST=1 node scripts/benchmark-memoria.js
130
- ```
131
-
132
- Comparar entre releases:
133
- ```bash
134
- tail -5 .planning/evolucion/benchmark-memoria.jsonl | jq -c '{ts: .timestamp, r5: .promedio.recall_at_5}'
135
- ```
136
-
137
- ---
138
-
139
- ## Métricas explicadas
140
-
141
- | Métrica | Significado | Rango |
142
- |---|---|---|
143
- | **Recall @ k** | ¿El sistema recuperó al menos un gold ID en los primeros k? | 0 o 1 por query, promediado en [0, 1] |
144
- | **Precision @ k** | ¿Qué porcentaje de los primeros k son gold? | [0, 1] |
145
- | **MRR** | 1 / posición del primer gold encontrado | [0, 1] — alto = gold cerca del top |
146
- | **nDCG @ k** | DCG normalizado: penaliza gold en posiciones bajas | [0, 1] — mide ranking quality |
147
-
148
- **Interpretación**:
149
- - R@5 alto + MRR bajo → encuentra gold pero no en posición 1.
150
- - R@5 bajo + R@10 alto → necesita expandir top-k para alcanzar.
151
- - nDCG@10 alto → ranking respeta orden de relevancia.
152
-
153
- ---
154
-
155
- ## Anti-patrones (qué NO hacer)
156
-
157
- - **Usar el dataset placeholder como gate de CI**: no significativo, da
158
- falsa sensación de seguridad. Marcar el job como informativo solamente
159
- hasta tener dataset real ≥30.
160
- - **Inventar gold_ids "que se ven correctos"**: el dataset SOLO sirve si
161
- los gold_ids son verificados manualmente como correctos por un humano
162
- con conocimiento del proyecto.
163
- - **Optimizar el algoritmo solo para que las métricas suban**: si el
164
- dataset es placeholder, "mejorar" R@5 puede ser overfitting al
165
- placeholder. Dataset real primero, optimización después.
166
- - **Borrar entries que dan métricas bajas**: una query con R@5=0 puede
167
- estar revelando un bug real del sistema de búsqueda, no un problema
168
- del dataset. Debug antes de borrar.
169
-
170
- ---
171
-
172
- ## Gotchas / Errores comunes no obvios
173
-
174
- - **Dataset JSONL acepta comentarios `//`**: las líneas que empiezan con
175
- `//` son ignoradas. Útil para documentar inline. NO es JSON estándar
176
- pero el parser de `longmemeval-runner` lo respeta.
177
- - **Si la query no matchea ningún token mínimo (<= 3 chars), `search()`
178
- devuelve `[]`**: las stop words están filtradas en
179
- `hooks/lib/memory-search.js`. Asegurar que cada query tenga ≥2
180
- términos significativos.
181
- - **Los `gold_ids` deben usar el formato `apr-N`/`ses-YYYYMMDD-HHmm`/etc.
182
- EXACTO** que devuelve `memory-search`. Si se anota `apr-14` cuando el
183
- search devuelve `apr-014`, el match falla silenciosamente.
184
- - **El benchmark mide `memory-search` específicamente, no toda la memoria
185
- SWL**: instintos globales no entran si solo se buscan locales; sesiones
186
- archivadas no entran. Documentar el scope de cada query.
1
+ ---
2
+ name: benchmark-memoria
3
+ description: >
4
+ Benchmark de retrieval para `hooks/lib/memory-search` que mide R@5, R@10,
5
+ MRR y nDCG@10 contra un dataset de queries con respuestas conocidas
6
+ (gold_ids). Útil para detectar regresión de calidad de búsqueda al cambiar
7
+ RRF weights, scoring o fuentes. Cargar cuando se modifique
8
+ `memory-search.js`, `rrf-fusion.js` o `session-fts.js` para verificar que
9
+ no degrada retrieval. NO cargar para uso operacional ni para evaluar
10
+ outputs de agentes (eso es `eval-framework`).
11
+ version: "1.0.0"
12
+ herramientasPermitidas: [Read, Bash]
13
+ exclusiones:
14
+ - "No cargar para evaluar outputs de agentes (aprendizajes, observaciones, resúmenes); eso es `eval-framework`."
15
+ - "No cargar como gate de release sin un dataset ≥30 entries con status='real' — las métricas con dataset placeholder no son estadísticamente significativas."
16
+ - "No cargar para benchmark de performance (latencia, throughput); eso es `performance-baseline`."
17
+ - "No cargar si el repo no tiene `.planning/APRENDIZAJES.md` ni sesiones — sin contenido no hay nada que recuperar."
18
+ evolvable: true # default para skill estandar
19
+ ---
20
+ # Benchmark de Memoria — LongMemEval-S adaptado a SWL
21
+
22
+ ## Cuándo cargar esta skill
23
+
24
+ - Tras modificar `hooks/lib/memory-search.js`, `scripts/lib/rrf-fusion.js`,
25
+ pesos de fusión o algoritmo de scoring de relevancia.
26
+ - Tras agregar fuentes de búsqueda nuevas (ej. evals, instintos globales).
27
+ - Antes de un release que toque la capa de memoria, para confirmar que no
28
+ hay regresión en R@5.
29
+ - Como parte opcional de `/swl:salud` cuando `SWL_BENCHMARK_MEMORIA=1`.
30
+
31
+ ---
32
+
33
+ ## Componentes del benchmark
34
+
35
+ | Módulo | Propósito |
36
+ |---|---|
37
+ | `scripts/lib/benchmark-metrics.js` | Funciones puras: `recallAt`, `precisionAt`, `mrr`, `ndcgAt`, `dcg`, `calcularMetricas`, `promediar`. |
38
+ | `scripts/lib/longmemeval-runner.js` | Adapter que ejecuta queries contra `memory-search` y compara con gold. |
39
+ | `scripts/benchmark-memoria.js` | CLI runner principal. |
40
+ | `.planning/benchmark/dataset.jsonl` | Dataset (placeholder por defecto, debe expandirse). |
41
+
42
+ ---
43
+
44
+ ## Estado del dataset (CRÍTICO leer antes de usar)
45
+
46
+ El dataset por defecto en `.planning/benchmark/dataset.jsonl` es **placeholder**
47
+ con 10 entries marcadas explícitamente como `"status": "placeholder"`. Las
48
+ métricas calculadas con este dataset son **indicativas, no estadísticamente
49
+ significativas**.
50
+
51
+ ### Limitaciones del dataset placeholder
52
+
53
+ 1. **IDs volátiles**: los `gold_ids` referencian `apr-N` (índice de entrada en
54
+ `APRENDIZAJES.md`). Si se agregan/borran entradas, los índices cambian y
55
+ el dataset queda desincronizado. Para dataset real considerar IDs estables
56
+ (sesiones tienen timestamp; instintos tienen `id` propio).
57
+ 2. **N=10 es ruido estadístico**: para que R@5=80% sea significativo
58
+ estadísticamente (vs 70% baseline), se requieren al menos 30 queries
59
+ con N=10 random. Por debajo, las métricas reflejan suerte.
60
+ 3. **Cobertura limitada**: el placeholder cubre solo categorías técnicas
61
+ (patrones, gotchas, decisiones). Falta cobertura de:
62
+ - Bug fixes históricos
63
+ - Workflow questions ("qué hicimos antes de X")
64
+ - Cross-session ("cuándo se decidió Y")
65
+ - Negative queries (preguntas cuya respuesta es "no aplica")
66
+
67
+ ### Cómo expandir a dataset real
68
+
69
+ ```bash
70
+ # 1. Identifica una pregunta real de uso
71
+ QUERY="qué hicimos sobre force push a main protegida"
72
+
73
+ # 2. Ejecuta búsqueda y anota top-5 IDs
74
+ node -e "console.log(require('./hooks/lib/memory-search').search('.', '$QUERY').slice(0, 5).map(r => r.id + ' / ' + r.titulo).join('\n'))"
75
+
76
+ # 3. Verifica manualmente qué IDs son CORRECTOS (revisión humana,
77
+ # no se inventa). Solo esos van en gold_ids.
78
+
79
+ # 4. Agrega la entry al dataset:
80
+ cat >> .planning/benchmark/dataset.jsonl << 'EOF'
81
+ {"question_id": "q-real-001", "question": "qué hicimos sobre force push a main protegida", "gold_ids": ["apr-313"], "category": "decision", "status": "real"}
82
+ EOF
83
+ ```
84
+
85
+ Repetir hasta tener ≥30 entries con `status: "real"`. Solo entonces el
86
+ benchmark es gate de release.
87
+
88
+ ---
89
+
90
+ ## Uso
91
+
92
+ ### CLI básico
93
+
94
+ ```bash
95
+ # Ejecutar benchmark con dataset por defecto
96
+ node scripts/benchmark-memoria.js
97
+
98
+ # Output esperado:
99
+ # Recall @ 5: 85.0%
100
+ # Recall @ 10: 92.0%
101
+ # MRR: 0.741
102
+ # nDCG @ 10: 0.812
103
+ # Precision @ 5: 41.3%
104
+ ```
105
+
106
+ ### Opciones
107
+
108
+ ```bash
109
+ # Dataset alternativo
110
+ node scripts/benchmark-memoria.js --dataset .planning/benchmark/custom.jsonl
111
+
112
+ # Top-k personalizado (default 20)
113
+ node scripts/benchmark-memoria.js --limit 30
114
+
115
+ # Output JSON (para scripts)
116
+ node scripts/benchmark-memoria.js --json
117
+
118
+ # Detalle por query (útil para debugging)
119
+ node scripts/benchmark-memoria.js --verbose
120
+ ```
121
+
122
+ ### Tracking histórico opcional
123
+
124
+ Si se setea `SWL_BENCHMARK_PERSIST=1`, el benchmark escribe el resumen
125
+ agregado a `.planning/evolucion/benchmark-memoria.jsonl` (append-only)
126
+ para detectar regresión entre releases:
127
+
128
+ ```bash
129
+ SWL_BENCHMARK_PERSIST=1 node scripts/benchmark-memoria.js
130
+ ```
131
+
132
+ Comparar entre releases:
133
+ ```bash
134
+ tail -5 .planning/evolucion/benchmark-memoria.jsonl | jq -c '{ts: .timestamp, r5: .promedio.recall_at_5}'
135
+ ```
136
+
137
+ ---
138
+
139
+ ## Métricas explicadas
140
+
141
+ | Métrica | Significado | Rango |
142
+ |---|---|---|
143
+ | **Recall @ k** | ¿El sistema recuperó al menos un gold ID en los primeros k? | 0 o 1 por query, promediado en [0, 1] |
144
+ | **Precision @ k** | ¿Qué porcentaje de los primeros k son gold? | [0, 1] |
145
+ | **MRR** | 1 / posición del primer gold encontrado | [0, 1] — alto = gold cerca del top |
146
+ | **nDCG @ k** | DCG normalizado: penaliza gold en posiciones bajas | [0, 1] — mide ranking quality |
147
+
148
+ **Interpretación**:
149
+ - R@5 alto + MRR bajo → encuentra gold pero no en posición 1.
150
+ - R@5 bajo + R@10 alto → necesita expandir top-k para alcanzar.
151
+ - nDCG@10 alto → ranking respeta orden de relevancia.
152
+
153
+ ---
154
+
155
+ ## Anti-patrones (qué NO hacer)
156
+
157
+ - **Usar el dataset placeholder como gate de CI**: no significativo, da
158
+ falsa sensación de seguridad. Marcar el job como informativo solamente
159
+ hasta tener dataset real ≥30.
160
+ - **Inventar gold_ids "que se ven correctos"**: el dataset SOLO sirve si
161
+ los gold_ids son verificados manualmente como correctos por un humano
162
+ con conocimiento del proyecto.
163
+ - **Optimizar el algoritmo solo para que las métricas suban**: si el
164
+ dataset es placeholder, "mejorar" R@5 puede ser overfitting al
165
+ placeholder. Dataset real primero, optimización después.
166
+ - **Borrar entries que dan métricas bajas**: una query con R@5=0 puede
167
+ estar revelando un bug real del sistema de búsqueda, no un problema
168
+ del dataset. Debug antes de borrar.
169
+
170
+ ---
171
+
172
+ ## Gotchas / Errores comunes no obvios
173
+
174
+ - **Dataset JSONL acepta comentarios `//`**: las líneas que empiezan con
175
+ `//` son ignoradas. Útil para documentar inline. NO es JSON estándar
176
+ pero el parser de `longmemeval-runner` lo respeta.
177
+ - **Si la query no matchea ningún token mínimo (<= 3 chars), `search()`
178
+ devuelve `[]`**: las stop words están filtradas en
179
+ `hooks/lib/memory-search.js`. Asegurar que cada query tenga ≥2
180
+ términos significativos.
181
+ - **Los `gold_ids` deben usar el formato `apr-N`/`ses-YYYYMMDD-HHmm`/etc.
182
+ EXACTO** que devuelve `memory-search`. Si se anota `apr-14` cuando el
183
+ search devuelve `apr-014`, el match falla silenciosamente.
184
+ - **El benchmark mide `memory-search` específicamente, no toda la memoria
185
+ SWL**: instintos globales no entran si solo se buscan locales; sesiones
186
+ archivadas no entran. Documentar el scope de cada query.
@@ -5,7 +5,12 @@ description: >
5
5
  Components, hydration mismatch, Turbopack y middleware. Incluye errores de
6
6
  ISR, optimización de imágenes, CSS modules y variables de entorno.
7
7
  Cargar cuando un build Next.js falle o haya errores de renderizado.
8
- version: "1.0.0"
8
+ version: "1.1.0"
9
+ evolved: true
10
+ evolved-from: "1.0.0"
11
+ evolved-at: "2026-05-12"
12
+ evolved-by: "aprender"
13
+ evolved-note: "Backport L-135 SIGM: sección diagnóstico — loop de fetches infinito = HMR panic del bundler (Turbopack), NO useEffect mal escrito; síntomas distintivos + orden de diagnóstico"
9
14
  herramientasPermitidas: [Read, Bash, Grep]
10
15
  exclusiones:
11
16
  - "No cargar para errores de TypeScript puros en un proyecto Next.js (TS2322, TS2345, errores de tipos en archivos .ts/.tsx) — para esos cargar `build-errors-typescript`; este skill cubre errores específicos de la plataforma Next.js."
@@ -293,6 +298,55 @@ module.exports = nextConfig;
293
298
 
294
299
  ---
295
300
 
301
+ ## Diagnóstico — Loop de fetches infinito = HMR panic del bundler, NO `useEffect` mal escrito
302
+
303
+ **Síntoma** (L-135 SIGM 2026-05-12): el navegador entra en loop infinito fetcheando los mismos endpoints al backend (4+ sockets paralelos, requests cada 300-500ms, backend respondiendo 200 OK siempre). El primer instinto es auditar `useEffect` con dependencias inestables — pero las deps están bien (`[fetchPage]` con `useCallback(..., [])` interno) y el loop sigue.
304
+
305
+ **Causa raíz**: el bundler del dev server (Turbopack en Next.js 16+ por default, ocasionalmente webpack) está en estado de panic — emite updates HMR erróneos que re-montan toda la rama del árbol React, disparando los fetches iniciales una y otra vez. El log del container/proceso muestra:
306
+
307
+ ```
308
+ FATAL: An unexpected Turbopack error occurred ...
309
+ Failed to write app endpoint /(dashboard)/ruta/page ...
310
+ Next.js package not found
311
+ ```
312
+
313
+ (o errores equivalentes del bundler en uso).
314
+
315
+ **Síntomas distintivos del loop por HMR panic** vs `useEffect` mal escrito:
316
+
317
+ | Indicador | HMR panic del bundler | `useEffect` mal escrito |
318
+ |---|---|---|
319
+ | Sockets simultáneos al mismo endpoint | 4+ paralelos | 1 secuencial |
320
+ | Frecuencia entre requests | ~300-500ms (delay retry HMR) | depende del state que cambia |
321
+ | Backend response | 200 OK siempre (data correcta) | puede variar |
322
+ | Logs del dev server | FATAL/panic recurrente | sin errores |
323
+ | Reload manual del navegador | el loop continúa tras reload | el loop suele resetear |
324
+
325
+ **Orden de diagnóstico obligatorio** (saltarse paso 1 puede costar horas):
326
+
327
+ 1. **Logs del dev server primero**: `docker logs <web> --tail 100 | grep -iE "FATAL|panic|error"` o equivalente local. Buscar panics del bundler.
328
+ 2. **DevTools Network del navegador**: confirmar si los requests vienen del cliente JS (fetch/XHR) o de navegación de página (document).
329
+ 3. **DevTools Console**: warnings de React, hidratación, hooks.
330
+ 4. **SOLO ENTONCES** auditar componentes/hooks/effects.
331
+
332
+ **Solución típica** cuando es Turbopack en bind mount Windows↔Linux: forzar webpack explícitamente en el dev server.
333
+
334
+ ```yaml
335
+ # docker-compose.yml — MAL (Next.js 16+ defaultea a Turbopack)
336
+ services:
337
+ web:
338
+ command: ["npx", "next", "dev"]
339
+
340
+ # docker-compose.yml — BIEN (declarar bundler explícito)
341
+ services:
342
+ web:
343
+ command: ["npx", "next", "dev", "--webpack"]
344
+ ```
345
+
346
+ Patrón general: cuando un dev server soporta múltiples runtimes (webpack/turbopack, vite/esbuild), declarar explícitamente cuál se usa en `command` o `scripts/dev` — nunca asumir defaults que cambian entre versiones mayores.
347
+
348
+ ---
349
+
296
350
  ## Gotchas / Errores comunes no obvios
297
351
 
298
352
  - **Hydration mismatch solo en producción, no en desarrollo**: `next dev` no detecta el mismatch porque usa renderizado del lado del cliente más permisivo, pero `next build` + `next start` (o producción) aplica comparación estricta del HTML. Causa: el componente usa `new Date()`, `Math.random()`, o `window` en el render inicial, que producen valores diferentes entre servidor y cliente. Solución: mover las llamadas a `new Date()` y valores dinámicos a `useEffect` o `useState` con valor inicial `null`, renderizando el contenido dinámico solo en cliente.