@saulwade/swl-ses 1.5.1 → 1.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (155) hide show
  1. package/CLAUDE.md +225 -209
  2. package/README.md +578 -561
  3. package/agentes/arquitecto-swl.md +33 -1
  4. package/agentes/nemesis-auditor-swl.md +59 -19
  5. package/bin/swl-mcp-server.js +214 -214
  6. package/bin/swl-ses.js +49 -7
  7. package/comandos/swl/.evolved.json +22 -22
  8. package/comandos/swl/contribuir.md +233 -233
  9. package/comandos/swl/nemesis.md +230 -56
  10. package/gateway/lib/event-channel.js +191 -191
  11. package/habilidades/backend-production-resilience/SKILL.md +288 -288
  12. package/habilidades/benchmark-memoria/SKILL.md +186 -186
  13. package/habilidades/diagrama-arquitectura/assets/template.html +276 -276
  14. package/habilidades/doubt-driven-review/SKILL.md +171 -171
  15. package/habilidades/doubt-driven-review/recursos/EXAMPLES.md +130 -130
  16. package/habilidades/ejecutar-task-iterativo/SKILL.md +278 -278
  17. package/habilidades/eval-framework/SKILL.md +212 -212
  18. package/habilidades/feynman-auditor-swl/SKILL.md +123 -123
  19. package/habilidades/feynman-auditor-swl/recursos/preguntas-language-agnostic.md +108 -108
  20. package/habilidades/harness-claude-code/SKILL.md +299 -299
  21. package/habilidades/infra-github-actions/SKILL.md +166 -166
  22. package/habilidades/legacy-code-rescue/SKILL.md +267 -267
  23. package/habilidades/manejo-errores/.evolved.json +8 -8
  24. package/habilidades/meta-skills-estandar/SKILL.md +207 -4
  25. package/habilidades/meta-skills-estandar/recursos/convencion-examples.md +93 -93
  26. package/habilidades/meta-skills-estandar/recursos/skills-as-agents.md +163 -163
  27. package/habilidades/nemesis-evaluacion-json/SKILL.md +266 -0
  28. package/habilidades/nemesis-redistribuir/SKILL.md +341 -0
  29. package/habilidades/node-experto/SKILL.md +94 -4
  30. package/habilidades/patrones-python/SKILL.md +229 -229
  31. package/habilidades/patrones-python/recursos/patrones-avanzados.md +469 -469
  32. package/habilidades/planear-fase/SKILL.md +319 -319
  33. package/habilidades/protocolo-revision-swl/SKILL.md +350 -276
  34. package/habilidades/release-semver/.evolved.json +8 -8
  35. package/habilidades/state-inconsistency-auditor-swl/SKILL.md +166 -166
  36. package/habilidades/state-inconsistency-auditor-swl/recursos/coupled-state-patterns.md +147 -147
  37. package/habilidades/tdd-workflow/SKILL.md +121 -4
  38. package/habilidades/testing-python/SKILL.md +340 -340
  39. package/habilidades/web-fetcher-routing/SKILL.md +75 -75
  40. package/hooks/check-update.js +31 -3
  41. package/hooks/claudemd-bloat-detector.js +161 -161
  42. package/hooks/extraccion-aprendizajes.js +11 -0
  43. package/hooks/lib/agent-routing.js +107 -107
  44. package/hooks/lib/auto-consolidator.js +335 -335
  45. package/hooks/lib/error-classifier.js +308 -308
  46. package/hooks/lib/merkle-audit.js +96 -96
  47. package/hooks/lib/provenance-tracker.js +191 -191
  48. package/hooks/lib/rate-limit-tracker.js +253 -253
  49. package/hooks/lib/resource-quota.js +122 -122
  50. package/hooks/lib/retry-jitter.js +165 -165
  51. package/hooks/lib/security-net.js +201 -201
  52. package/hooks/lib/skill-auditor.js +588 -588
  53. package/hooks/lib/sync-status.js +228 -228
  54. package/hooks/lib/taint-tracker.js +107 -107
  55. package/hooks/lib/text-similarity.js +241 -241
  56. package/hooks/lib/toon-compressor.js +245 -245
  57. package/hooks/registro-turnos.js +209 -209
  58. package/hooks/sugerir-regenerar-inventario.js +170 -170
  59. package/hooks/validar-formato-post-subagente.js +140 -140
  60. package/hooks/validar-memoria-hook.js +218 -218
  61. package/instintos/prompt-appendices.yaml +57 -57
  62. package/manifiestos/agent-output-schemas.json +57 -57
  63. package/manifiestos/modulos.json +1324 -1321
  64. package/manifiestos/skills-lock.json +1142 -1114
  65. package/package.json +5 -4
  66. package/plantillas/auditor-veto-template.md +105 -105
  67. package/plantillas/github-workflows/README.md +47 -47
  68. package/plantillas/github-workflows/release-please.yml +44 -44
  69. package/plantillas/github-workflows/swl-ci.yml +107 -107
  70. package/plantillas/github-workflows/swl-security.yml +51 -51
  71. package/plugin.json +355 -351
  72. package/reglas/analisis-previo-tareas-grandes.md +172 -172
  73. package/reglas/arreglar-al-detectar.md +147 -147
  74. package/reglas/fragmentos-compartidos.md +152 -152
  75. package/reglas/harness-claude-code.md +213 -213
  76. package/reglas/registro-componentes-nuevos.md +192 -0
  77. package/reglas/usar-context7.md +226 -226
  78. package/schemas/diary-entry.schema.json +80 -80
  79. package/scripts/actualizar.js +110 -1
  80. package/scripts/audit-tools/audit-history.js +330 -330
  81. package/scripts/audit-tools/bundle-tracker.js +290 -290
  82. package/scripts/audit-tools/canary-monitor.js +352 -352
  83. package/scripts/audit-tools/code-profiler.js +605 -605
  84. package/scripts/audit-tools/dep-doctor.js +320 -320
  85. package/scripts/audit-tools/env-validator.js +206 -206
  86. package/scripts/audit-tools/lib/fs-walk.js +48 -48
  87. package/scripts/audit-tools/lib/output.js +23 -23
  88. package/scripts/audit-tools/migration-checker.js +392 -392
  89. package/scripts/audit-tools/pentest-scanner.js +1436 -1436
  90. package/scripts/benchmark-memoria.js +167 -167
  91. package/scripts/configurar-branch-protection.js +418 -418
  92. package/scripts/derivar-feature-list.js +489 -489
  93. package/scripts/desinstalar.js +105 -24
  94. package/scripts/detectar-aprendizajes-duplicados.js +151 -151
  95. package/scripts/doctor.js +27 -0
  96. package/scripts/field-report.js +199 -199
  97. package/scripts/generar-checklists-consolidados.js +273 -273
  98. package/scripts/generar-inventario.js +420 -420
  99. package/scripts/generar-matriz-lenguajes.js +271 -271
  100. package/scripts/instalador.js +55 -4
  101. package/scripts/lib/artefactos-python.js +43 -43
  102. package/scripts/lib/benchmark-metrics.js +160 -160
  103. package/scripts/lib/budget-enforcer.js +252 -252
  104. package/scripts/lib/configurar-ci.js +380 -380
  105. package/scripts/lib/contadores-inventario.js +217 -217
  106. package/scripts/lib/detectar-stack-detallado.js +307 -307
  107. package/scripts/lib/diary-entry.js +234 -234
  108. package/scripts/lib/eval-metrics-store.js +218 -218
  109. package/scripts/lib/eval-quality.js +171 -171
  110. package/scripts/lib/eval-schemas.js +144 -144
  111. package/scripts/lib/eval-self-correct.js +106 -106
  112. package/scripts/lib/eval-validator.js +185 -185
  113. package/scripts/lib/expandir-targets.js +71 -71
  114. package/scripts/lib/jaccard-similarity.js +98 -98
  115. package/scripts/lib/longmemeval-runner.js +125 -125
  116. package/scripts/lib/mcp_config.py +127 -0
  117. package/scripts/lib/npm-version.js +261 -261
  118. package/scripts/lib/paquetes-conocidos.js +50 -50
  119. package/scripts/lib/parsear-opciones.js +3 -0
  120. package/scripts/lib/prompt-builder.js +264 -264
  121. package/scripts/lib/rrf-fusion.js +175 -175
  122. package/scripts/lib/scoring-instintos.js +277 -277
  123. package/scripts/lib/semantic-search.js +252 -252
  124. package/scripts/lib/toml-merge.js +204 -204
  125. package/scripts/lib/transformadores/codex.js +375 -375
  126. package/scripts/lib/transformadores/cursor.js +359 -359
  127. package/scripts/lib/ui.js +148 -22
  128. package/scripts/limpiar-artefactos-python.js +131 -131
  129. package/scripts/mcp-orchestrator.py +8 -18
  130. package/scripts/mcp-pool-manager.py +12 -23
  131. package/scripts/mcp-server/README.md +170 -170
  132. package/scripts/mcp-server/auth.js +105 -105
  133. package/scripts/mcp-server/cache.js +106 -106
  134. package/scripts/mcp-server/telemetry.js +78 -78
  135. package/scripts/migrar-csv-a-array.js +168 -168
  136. package/scripts/migrar-fase-dominio.js +201 -201
  137. package/scripts/publicar.js +511 -511
  138. package/scripts/run-eval.js +141 -141
  139. package/scripts/tui/componentes/selector-multi.js +189 -0
  140. package/scripts/tui/componentes/selector-unico.js +158 -0
  141. package/scripts/tui/ejecutores.js +375 -0
  142. package/scripts/tui/index.js +162 -0
  143. package/scripts/tui/lib/colores.js +129 -0
  144. package/scripts/tui/lib/render.js +264 -0
  145. package/scripts/tui/lib/teclas.js +113 -0
  146. package/scripts/tui/pantallas/inspect.js +173 -0
  147. package/scripts/tui/pantallas/install-wizard.js +334 -0
  148. package/scripts/tui/pantallas/menu-principal.js +52 -0
  149. package/scripts/tui/pantallas/progreso.js +274 -0
  150. package/scripts/tui/pantallas/resumen.js +132 -0
  151. package/scripts/tui/pantallas/uninstall-wizard.js +208 -0
  152. package/scripts/tui/pantallas/update-wizard.js +232 -0
  153. package/scripts/tui/pantallas/welcome.js +187 -0
  154. package/scripts/validar-userland-vacio.js +110 -110
  155. package/scripts/verificar-docs-vs-codigo.js +425 -0
@@ -1,186 +1,186 @@
1
- ---
2
- name: benchmark-memoria
3
- description: >
4
- Benchmark de retrieval para `hooks/lib/memory-search` que mide R@5, R@10,
5
- MRR y nDCG@10 contra un dataset de queries con respuestas conocidas
6
- (gold_ids). Útil para detectar regresión de calidad de búsqueda al cambiar
7
- RRF weights, scoring o fuentes. Cargar cuando se modifique
8
- `memory-search.js`, `rrf-fusion.js` o `session-fts.js` para verificar que
9
- no degrada retrieval. NO cargar para uso operacional ni para evaluar
10
- outputs de agentes (eso es `eval-framework`).
11
- version: "1.0.0"
12
- herramientasPermitidas: [Read, Bash]
13
- exclusiones:
14
- - "No cargar para evaluar outputs de agentes (aprendizajes, observaciones, resúmenes); eso es `eval-framework`."
15
- - "No cargar como gate de release sin un dataset ≥30 entries con status='real' — las métricas con dataset placeholder no son estadísticamente significativas."
16
- - "No cargar para benchmark de performance (latencia, throughput); eso es `performance-baseline`."
17
- - "No cargar si el repo no tiene `.planning/APRENDIZAJES.md` ni sesiones — sin contenido no hay nada que recuperar."
18
- evolvable: true # default para skill estandar
19
- ---
20
- # Benchmark de Memoria — LongMemEval-S adaptado a SWL
21
-
22
- ## Cuándo cargar esta skill
23
-
24
- - Tras modificar `hooks/lib/memory-search.js`, `scripts/lib/rrf-fusion.js`,
25
- pesos de fusión o algoritmo de scoring de relevancia.
26
- - Tras agregar fuentes de búsqueda nuevas (ej. evals, instintos globales).
27
- - Antes de un release que toque la capa de memoria, para confirmar que no
28
- hay regresión en R@5.
29
- - Como parte opcional de `/swl:salud` cuando `SWL_BENCHMARK_MEMORIA=1`.
30
-
31
- ---
32
-
33
- ## Componentes del benchmark
34
-
35
- | Módulo | Propósito |
36
- |---|---|
37
- | `scripts/lib/benchmark-metrics.js` | Funciones puras: `recallAt`, `precisionAt`, `mrr`, `ndcgAt`, `dcg`, `calcularMetricas`, `promediar`. |
38
- | `scripts/lib/longmemeval-runner.js` | Adapter que ejecuta queries contra `memory-search` y compara con gold. |
39
- | `scripts/benchmark-memoria.js` | CLI runner principal. |
40
- | `.planning/benchmark/dataset.jsonl` | Dataset (placeholder por defecto, debe expandirse). |
41
-
42
- ---
43
-
44
- ## Estado del dataset (CRÍTICO leer antes de usar)
45
-
46
- El dataset por defecto en `.planning/benchmark/dataset.jsonl` es **placeholder**
47
- con 10 entries marcadas explícitamente como `"status": "placeholder"`. Las
48
- métricas calculadas con este dataset son **indicativas, no estadísticamente
49
- significativas**.
50
-
51
- ### Limitaciones del dataset placeholder
52
-
53
- 1. **IDs volátiles**: los `gold_ids` referencian `apr-N` (índice de entrada en
54
- `APRENDIZAJES.md`). Si se agregan/borran entradas, los índices cambian y
55
- el dataset queda desincronizado. Para dataset real considerar IDs estables
56
- (sesiones tienen timestamp; instintos tienen `id` propio).
57
- 2. **N=10 es ruido estadístico**: para que R@5=80% sea significativo
58
- estadísticamente (vs 70% baseline), se requieren al menos 30 queries
59
- con N=10 random. Por debajo, las métricas reflejan suerte.
60
- 3. **Cobertura limitada**: el placeholder cubre solo categorías técnicas
61
- (patrones, gotchas, decisiones). Falta cobertura de:
62
- - Bug fixes históricos
63
- - Workflow questions ("qué hicimos antes de X")
64
- - Cross-session ("cuándo se decidió Y")
65
- - Negative queries (preguntas cuya respuesta es "no aplica")
66
-
67
- ### Cómo expandir a dataset real
68
-
69
- ```bash
70
- # 1. Identifica una pregunta real de uso
71
- QUERY="qué hicimos sobre force push a main protegida"
72
-
73
- # 2. Ejecuta búsqueda y anota top-5 IDs
74
- node -e "console.log(require('./hooks/lib/memory-search').search('.', '$QUERY').slice(0, 5).map(r => r.id + ' / ' + r.titulo).join('\n'))"
75
-
76
- # 3. Verifica manualmente qué IDs son CORRECTOS (revisión humana,
77
- # no se inventa). Solo esos van en gold_ids.
78
-
79
- # 4. Agrega la entry al dataset:
80
- cat >> .planning/benchmark/dataset.jsonl << 'EOF'
81
- {"question_id": "q-real-001", "question": "qué hicimos sobre force push a main protegida", "gold_ids": ["apr-313"], "category": "decision", "status": "real"}
82
- EOF
83
- ```
84
-
85
- Repetir hasta tener ≥30 entries con `status: "real"`. Solo entonces el
86
- benchmark es gate de release.
87
-
88
- ---
89
-
90
- ## Uso
91
-
92
- ### CLI básico
93
-
94
- ```bash
95
- # Ejecutar benchmark con dataset por defecto
96
- node scripts/benchmark-memoria.js
97
-
98
- # Output esperado:
99
- # Recall @ 5: 85.0%
100
- # Recall @ 10: 92.0%
101
- # MRR: 0.741
102
- # nDCG @ 10: 0.812
103
- # Precision @ 5: 41.3%
104
- ```
105
-
106
- ### Opciones
107
-
108
- ```bash
109
- # Dataset alternativo
110
- node scripts/benchmark-memoria.js --dataset .planning/benchmark/custom.jsonl
111
-
112
- # Top-k personalizado (default 20)
113
- node scripts/benchmark-memoria.js --limit 30
114
-
115
- # Output JSON (para scripts)
116
- node scripts/benchmark-memoria.js --json
117
-
118
- # Detalle por query (útil para debugging)
119
- node scripts/benchmark-memoria.js --verbose
120
- ```
121
-
122
- ### Tracking histórico opcional
123
-
124
- Si se setea `SWL_BENCHMARK_PERSIST=1`, el benchmark escribe el resumen
125
- agregado a `.planning/evolucion/benchmark-memoria.jsonl` (append-only)
126
- para detectar regresión entre releases:
127
-
128
- ```bash
129
- SWL_BENCHMARK_PERSIST=1 node scripts/benchmark-memoria.js
130
- ```
131
-
132
- Comparar entre releases:
133
- ```bash
134
- tail -5 .planning/evolucion/benchmark-memoria.jsonl | jq -c '{ts: .timestamp, r5: .promedio.recall_at_5}'
135
- ```
136
-
137
- ---
138
-
139
- ## Métricas explicadas
140
-
141
- | Métrica | Significado | Rango |
142
- |---|---|---|
143
- | **Recall @ k** | ¿El sistema recuperó al menos un gold ID en los primeros k? | 0 o 1 por query, promediado en [0, 1] |
144
- | **Precision @ k** | ¿Qué porcentaje de los primeros k son gold? | [0, 1] |
145
- | **MRR** | 1 / posición del primer gold encontrado | [0, 1] — alto = gold cerca del top |
146
- | **nDCG @ k** | DCG normalizado: penaliza gold en posiciones bajas | [0, 1] — mide ranking quality |
147
-
148
- **Interpretación**:
149
- - R@5 alto + MRR bajo → encuentra gold pero no en posición 1.
150
- - R@5 bajo + R@10 alto → necesita expandir top-k para alcanzar.
151
- - nDCG@10 alto → ranking respeta orden de relevancia.
152
-
153
- ---
154
-
155
- ## Anti-patrones (qué NO hacer)
156
-
157
- - **Usar el dataset placeholder como gate de CI**: no significativo, da
158
- falsa sensación de seguridad. Marcar el job como informativo solamente
159
- hasta tener dataset real ≥30.
160
- - **Inventar gold_ids "que se ven correctos"**: el dataset SOLO sirve si
161
- los gold_ids son verificados manualmente como correctos por un humano
162
- con conocimiento del proyecto.
163
- - **Optimizar el algoritmo solo para que las métricas suban**: si el
164
- dataset es placeholder, "mejorar" R@5 puede ser overfitting al
165
- placeholder. Dataset real primero, optimización después.
166
- - **Borrar entries que dan métricas bajas**: una query con R@5=0 puede
167
- estar revelando un bug real del sistema de búsqueda, no un problema
168
- del dataset. Debug antes de borrar.
169
-
170
- ---
171
-
172
- ## Gotchas / Errores comunes no obvios
173
-
174
- - **Dataset JSONL acepta comentarios `//`**: las líneas que empiezan con
175
- `//` son ignoradas. Útil para documentar inline. NO es JSON estándar
176
- pero el parser de `longmemeval-runner` lo respeta.
177
- - **Si la query no matchea ningún token mínimo (<= 3 chars), `search()`
178
- devuelve `[]`**: las stop words están filtradas en
179
- `hooks/lib/memory-search.js`. Asegurar que cada query tenga ≥2
180
- términos significativos.
181
- - **Los `gold_ids` deben usar el formato `apr-N`/`ses-YYYYMMDD-HHmm`/etc.
182
- EXACTO** que devuelve `memory-search`. Si se anota `apr-14` cuando el
183
- search devuelve `apr-014`, el match falla silenciosamente.
184
- - **El benchmark mide `memory-search` específicamente, no toda la memoria
185
- SWL**: instintos globales no entran si solo se buscan locales; sesiones
186
- archivadas no entran. Documentar el scope de cada query.
1
+ ---
2
+ name: benchmark-memoria
3
+ description: >
4
+ Benchmark de retrieval para `hooks/lib/memory-search` que mide R@5, R@10,
5
+ MRR y nDCG@10 contra un dataset de queries con respuestas conocidas
6
+ (gold_ids). Útil para detectar regresión de calidad de búsqueda al cambiar
7
+ RRF weights, scoring o fuentes. Cargar cuando se modifique
8
+ `memory-search.js`, `rrf-fusion.js` o `session-fts.js` para verificar que
9
+ no degrada retrieval. NO cargar para uso operacional ni para evaluar
10
+ outputs de agentes (eso es `eval-framework`).
11
+ version: "1.0.0"
12
+ herramientasPermitidas: [Read, Bash]
13
+ exclusiones:
14
+ - "No cargar para evaluar outputs de agentes (aprendizajes, observaciones, resúmenes); eso es `eval-framework`."
15
+ - "No cargar como gate de release sin un dataset ≥30 entries con status='real' — las métricas con dataset placeholder no son estadísticamente significativas."
16
+ - "No cargar para benchmark de performance (latencia, throughput); eso es `performance-baseline`."
17
+ - "No cargar si el repo no tiene `.planning/APRENDIZAJES.md` ni sesiones — sin contenido no hay nada que recuperar."
18
+ evolvable: true # default para skill estandar
19
+ ---
20
+ # Benchmark de Memoria — LongMemEval-S adaptado a SWL
21
+
22
+ ## Cuándo cargar esta skill
23
+
24
+ - Tras modificar `hooks/lib/memory-search.js`, `scripts/lib/rrf-fusion.js`,
25
+ pesos de fusión o algoritmo de scoring de relevancia.
26
+ - Tras agregar fuentes de búsqueda nuevas (ej. evals, instintos globales).
27
+ - Antes de un release que toque la capa de memoria, para confirmar que no
28
+ hay regresión en R@5.
29
+ - Como parte opcional de `/swl:salud` cuando `SWL_BENCHMARK_MEMORIA=1`.
30
+
31
+ ---
32
+
33
+ ## Componentes del benchmark
34
+
35
+ | Módulo | Propósito |
36
+ |---|---|
37
+ | `scripts/lib/benchmark-metrics.js` | Funciones puras: `recallAt`, `precisionAt`, `mrr`, `ndcgAt`, `dcg`, `calcularMetricas`, `promediar`. |
38
+ | `scripts/lib/longmemeval-runner.js` | Adapter que ejecuta queries contra `memory-search` y compara con gold. |
39
+ | `scripts/benchmark-memoria.js` | CLI runner principal. |
40
+ | `.planning/benchmark/dataset.jsonl` | Dataset (placeholder por defecto, debe expandirse). |
41
+
42
+ ---
43
+
44
+ ## Estado del dataset (CRÍTICO leer antes de usar)
45
+
46
+ El dataset por defecto en `.planning/benchmark/dataset.jsonl` es **placeholder**
47
+ con 10 entries marcadas explícitamente como `"status": "placeholder"`. Las
48
+ métricas calculadas con este dataset son **indicativas, no estadísticamente
49
+ significativas**.
50
+
51
+ ### Limitaciones del dataset placeholder
52
+
53
+ 1. **IDs volátiles**: los `gold_ids` referencian `apr-N` (índice de entrada en
54
+ `APRENDIZAJES.md`). Si se agregan/borran entradas, los índices cambian y
55
+ el dataset queda desincronizado. Para dataset real considerar IDs estables
56
+ (sesiones tienen timestamp; instintos tienen `id` propio).
57
+ 2. **N=10 es ruido estadístico**: para que R@5=80% sea significativo
58
+ estadísticamente (vs 70% baseline), se requieren al menos 30 queries
59
+ con N=10 random. Por debajo, las métricas reflejan suerte.
60
+ 3. **Cobertura limitada**: el placeholder cubre solo categorías técnicas
61
+ (patrones, gotchas, decisiones). Falta cobertura de:
62
+ - Bug fixes históricos
63
+ - Workflow questions ("qué hicimos antes de X")
64
+ - Cross-session ("cuándo se decidió Y")
65
+ - Negative queries (preguntas cuya respuesta es "no aplica")
66
+
67
+ ### Cómo expandir a dataset real
68
+
69
+ ```bash
70
+ # 1. Identifica una pregunta real de uso
71
+ QUERY="qué hicimos sobre force push a main protegida"
72
+
73
+ # 2. Ejecuta búsqueda y anota top-5 IDs
74
+ node -e "console.log(require('./hooks/lib/memory-search').search('.', '$QUERY').slice(0, 5).map(r => r.id + ' / ' + r.titulo).join('\n'))"
75
+
76
+ # 3. Verifica manualmente qué IDs son CORRECTOS (revisión humana,
77
+ # no se inventa). Solo esos van en gold_ids.
78
+
79
+ # 4. Agrega la entry al dataset:
80
+ cat >> .planning/benchmark/dataset.jsonl << 'EOF'
81
+ {"question_id": "q-real-001", "question": "qué hicimos sobre force push a main protegida", "gold_ids": ["apr-313"], "category": "decision", "status": "real"}
82
+ EOF
83
+ ```
84
+
85
+ Repetir hasta tener ≥30 entries con `status: "real"`. Solo entonces el
86
+ benchmark es gate de release.
87
+
88
+ ---
89
+
90
+ ## Uso
91
+
92
+ ### CLI básico
93
+
94
+ ```bash
95
+ # Ejecutar benchmark con dataset por defecto
96
+ node scripts/benchmark-memoria.js
97
+
98
+ # Output esperado:
99
+ # Recall @ 5: 85.0%
100
+ # Recall @ 10: 92.0%
101
+ # MRR: 0.741
102
+ # nDCG @ 10: 0.812
103
+ # Precision @ 5: 41.3%
104
+ ```
105
+
106
+ ### Opciones
107
+
108
+ ```bash
109
+ # Dataset alternativo
110
+ node scripts/benchmark-memoria.js --dataset .planning/benchmark/custom.jsonl
111
+
112
+ # Top-k personalizado (default 20)
113
+ node scripts/benchmark-memoria.js --limit 30
114
+
115
+ # Output JSON (para scripts)
116
+ node scripts/benchmark-memoria.js --json
117
+
118
+ # Detalle por query (útil para debugging)
119
+ node scripts/benchmark-memoria.js --verbose
120
+ ```
121
+
122
+ ### Tracking histórico opcional
123
+
124
+ Si se setea `SWL_BENCHMARK_PERSIST=1`, el benchmark escribe el resumen
125
+ agregado a `.planning/evolucion/benchmark-memoria.jsonl` (append-only)
126
+ para detectar regresión entre releases:
127
+
128
+ ```bash
129
+ SWL_BENCHMARK_PERSIST=1 node scripts/benchmark-memoria.js
130
+ ```
131
+
132
+ Comparar entre releases:
133
+ ```bash
134
+ tail -5 .planning/evolucion/benchmark-memoria.jsonl | jq -c '{ts: .timestamp, r5: .promedio.recall_at_5}'
135
+ ```
136
+
137
+ ---
138
+
139
+ ## Métricas explicadas
140
+
141
+ | Métrica | Significado | Rango |
142
+ |---|---|---|
143
+ | **Recall @ k** | ¿El sistema recuperó al menos un gold ID en los primeros k? | 0 o 1 por query, promediado en [0, 1] |
144
+ | **Precision @ k** | ¿Qué porcentaje de los primeros k son gold? | [0, 1] |
145
+ | **MRR** | 1 / posición del primer gold encontrado | [0, 1] — alto = gold cerca del top |
146
+ | **nDCG @ k** | DCG normalizado: penaliza gold en posiciones bajas | [0, 1] — mide ranking quality |
147
+
148
+ **Interpretación**:
149
+ - R@5 alto + MRR bajo → encuentra gold pero no en posición 1.
150
+ - R@5 bajo + R@10 alto → necesita expandir top-k para alcanzar.
151
+ - nDCG@10 alto → ranking respeta orden de relevancia.
152
+
153
+ ---
154
+
155
+ ## Anti-patrones (qué NO hacer)
156
+
157
+ - **Usar el dataset placeholder como gate de CI**: no significativo, da
158
+ falsa sensación de seguridad. Marcar el job como informativo solamente
159
+ hasta tener dataset real ≥30.
160
+ - **Inventar gold_ids "que se ven correctos"**: el dataset SOLO sirve si
161
+ los gold_ids son verificados manualmente como correctos por un humano
162
+ con conocimiento del proyecto.
163
+ - **Optimizar el algoritmo solo para que las métricas suban**: si el
164
+ dataset es placeholder, "mejorar" R@5 puede ser overfitting al
165
+ placeholder. Dataset real primero, optimización después.
166
+ - **Borrar entries que dan métricas bajas**: una query con R@5=0 puede
167
+ estar revelando un bug real del sistema de búsqueda, no un problema
168
+ del dataset. Debug antes de borrar.
169
+
170
+ ---
171
+
172
+ ## Gotchas / Errores comunes no obvios
173
+
174
+ - **Dataset JSONL acepta comentarios `//`**: las líneas que empiezan con
175
+ `//` son ignoradas. Útil para documentar inline. NO es JSON estándar
176
+ pero el parser de `longmemeval-runner` lo respeta.
177
+ - **Si la query no matchea ningún token mínimo (<= 3 chars), `search()`
178
+ devuelve `[]`**: las stop words están filtradas en
179
+ `hooks/lib/memory-search.js`. Asegurar que cada query tenga ≥2
180
+ términos significativos.
181
+ - **Los `gold_ids` deben usar el formato `apr-N`/`ses-YYYYMMDD-HHmm`/etc.
182
+ EXACTO** que devuelve `memory-search`. Si se anota `apr-14` cuando el
183
+ search devuelve `apr-014`, el match falla silenciosamente.
184
+ - **El benchmark mide `memory-search` específicamente, no toda la memoria
185
+ SWL**: instintos globales no entran si solo se buscan locales; sesiones
186
+ archivadas no entran. Documentar el scope de cada query.