@saulwade/swl-ses 1.4.1 → 1.4.2
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CLAUDE.md +1 -1
- package/README.md +1 -1
- package/agentes/nemesis-auditor-swl.md +161 -161
- package/bin/swl-mcp-server.js +187 -187
- package/comandos/swl/.evolved.json +22 -22
- package/comandos/swl/contribuir.md +233 -233
- package/comandos/swl/nemesis.md +122 -122
- package/gateway/lib/event-channel.js +191 -191
- package/habilidades/backend-production-resilience/SKILL.md +288 -288
- package/habilidades/benchmark-memoria/SKILL.md +186 -186
- package/habilidades/diagrama-arquitectura/assets/template.html +276 -276
- package/habilidades/doubt-driven-review/SKILL.md +171 -171
- package/habilidades/doubt-driven-review/recursos/EXAMPLES.md +130 -130
- package/habilidades/eval-framework/SKILL.md +212 -212
- package/habilidades/feynman-auditor-swl/SKILL.md +123 -123
- package/habilidades/feynman-auditor-swl/recursos/preguntas-language-agnostic.md +108 -108
- package/habilidades/harness-claude-code/SKILL.md +299 -299
- package/habilidades/infra-github-actions/SKILL.md +166 -166
- package/habilidades/legacy-code-rescue/SKILL.md +267 -267
- package/habilidades/manejo-errores/.evolved.json +8 -8
- package/habilidades/meta-skills-estandar/recursos/convencion-examples.md +93 -93
- package/habilidades/meta-skills-estandar/recursos/skills-as-agents.md +163 -163
- package/habilidades/patrones-python/SKILL.md +229 -229
- package/habilidades/patrones-python/recursos/patrones-avanzados.md +469 -469
- package/habilidades/planear-fase/SKILL.md +319 -319
- package/habilidades/release-semver/.evolved.json +8 -8
- package/habilidades/state-inconsistency-auditor-swl/SKILL.md +166 -166
- package/habilidades/state-inconsistency-auditor-swl/recursos/coupled-state-patterns.md +147 -147
- package/habilidades/testing-python/SKILL.md +340 -340
- package/habilidades/web-fetcher-routing/SKILL.md +75 -75
- package/hooks/claudemd-bloat-detector.js +161 -161
- package/hooks/lib/agent-routing.js +107 -107
- package/hooks/lib/auto-consolidator.js +335 -335
- package/hooks/lib/error-classifier.js +308 -308
- package/hooks/lib/merkle-audit.js +96 -96
- package/hooks/lib/provenance-tracker.js +191 -191
- package/hooks/lib/rate-limit-tracker.js +253 -253
- package/hooks/lib/resource-quota.js +122 -122
- package/hooks/lib/retry-jitter.js +165 -165
- package/hooks/lib/security-net.js +201 -201
- package/hooks/lib/skill-auditor.js +588 -588
- package/hooks/lib/sync-status.js +228 -228
- package/hooks/lib/taint-tracker.js +107 -107
- package/hooks/lib/text-similarity.js +241 -241
- package/hooks/lib/toon-compressor.js +245 -245
- package/hooks/registro-turnos.js +209 -209
- package/hooks/sugerir-regenerar-inventario.js +170 -170
- package/hooks/validar-formato-post-subagente.js +140 -140
- package/hooks/validar-memoria-hook.js +218 -218
- package/instintos/prompt-appendices.yaml +57 -57
- package/manifiestos/agent-output-schemas.json +57 -57
- package/manifiestos/modulos.json +11 -6
- package/manifiestos/perfiles.json +2 -1
- package/manifiestos/skills-lock.json +1114 -1114
- package/package.json +1 -1
- package/plantillas/auditor-veto-template.md +105 -105
- package/plantillas/github-workflows/README.md +47 -47
- package/plantillas/github-workflows/release-please.yml +44 -44
- package/plantillas/github-workflows/swl-ci.yml +107 -107
- package/plantillas/github-workflows/swl-security.yml +51 -51
- package/plugin.json +9 -1
- package/reglas/analisis-previo-tareas-grandes.md +172 -172
- package/reglas/arreglar-al-detectar.md +147 -147
- package/reglas/fragmentos-compartidos.md +152 -152
- package/reglas/harness-claude-code.md +213 -213
- package/reglas/usar-context7.md +226 -226
- package/schemas/diary-entry.schema.json +80 -80
- package/scripts/audit-tools/audit-history.js +330 -330
- package/scripts/audit-tools/bundle-tracker.js +290 -290
- package/scripts/audit-tools/canary-monitor.js +352 -352
- package/scripts/audit-tools/code-profiler.js +605 -605
- package/scripts/audit-tools/dep-doctor.js +320 -320
- package/scripts/audit-tools/env-validator.js +206 -206
- package/scripts/audit-tools/lib/fs-walk.js +48 -48
- package/scripts/audit-tools/lib/output.js +23 -23
- package/scripts/audit-tools/migration-checker.js +392 -392
- package/scripts/audit-tools/pentest-scanner.js +1436 -1436
- package/scripts/benchmark-memoria.js +167 -167
- package/scripts/configurar-branch-protection.js +418 -418
- package/scripts/detectar-aprendizajes-duplicados.js +151 -151
- package/scripts/field-report.js +199 -199
- package/scripts/generar-checklists-consolidados.js +273 -273
- package/scripts/generar-inventario.js +420 -420
- package/scripts/generar-matriz-lenguajes.js +271 -271
- package/scripts/lib/artefactos-python.js +43 -43
- package/scripts/lib/benchmark-metrics.js +160 -160
- package/scripts/lib/budget-enforcer.js +252 -252
- package/scripts/lib/configurar-ci.js +380 -380
- package/scripts/lib/contadores-inventario.js +217 -217
- package/scripts/lib/detectar-stack-detallado.js +307 -307
- package/scripts/lib/diary-entry.js +234 -234
- package/scripts/lib/eval-metrics-store.js +218 -218
- package/scripts/lib/eval-quality.js +171 -171
- package/scripts/lib/eval-schemas.js +144 -144
- package/scripts/lib/eval-self-correct.js +106 -106
- package/scripts/lib/eval-validator.js +185 -185
- package/scripts/lib/jaccard-similarity.js +98 -98
- package/scripts/lib/longmemeval-runner.js +125 -125
- package/scripts/lib/manifiestos.js +42 -1
- package/scripts/lib/npm-version.js +261 -261
- package/scripts/lib/paquetes-conocidos.js +50 -50
- package/scripts/lib/prompt-builder.js +264 -264
- package/scripts/lib/rrf-fusion.js +175 -175
- package/scripts/lib/scoring-instintos.js +277 -277
- package/scripts/lib/semantic-search.js +252 -252
- package/scripts/limpiar-artefactos-python.js +131 -131
- package/scripts/mcp-server/README.md +128 -128
- package/scripts/mcp-server/handlers.js +206 -206
- package/scripts/migrar-csv-a-array.js +168 -168
- package/scripts/migrar-fase-dominio.js +201 -201
- package/scripts/publicar.js +511 -511
- package/scripts/run-eval.js +141 -141
- package/scripts/validar-manifest.js +231 -195
- package/scripts/validar-userland-vacio.js +110 -110
|
@@ -1,186 +1,186 @@
|
|
|
1
|
-
---
|
|
2
|
-
name: benchmark-memoria
|
|
3
|
-
description: >
|
|
4
|
-
Benchmark de retrieval para `hooks/lib/memory-search` que mide R@5, R@10,
|
|
5
|
-
MRR y nDCG@10 contra un dataset de queries con respuestas conocidas
|
|
6
|
-
(gold_ids). Útil para detectar regresión de calidad de búsqueda al cambiar
|
|
7
|
-
RRF weights, scoring o fuentes. Cargar cuando se modifique
|
|
8
|
-
`memory-search.js`, `rrf-fusion.js` o `session-fts.js` para verificar que
|
|
9
|
-
no degrada retrieval. NO cargar para uso operacional ni para evaluar
|
|
10
|
-
outputs de agentes (eso es `eval-framework`).
|
|
11
|
-
version: "1.0.0"
|
|
12
|
-
herramientasPermitidas: [Read, Bash]
|
|
13
|
-
exclusiones:
|
|
14
|
-
- "No cargar para evaluar outputs de agentes (aprendizajes, observaciones, resúmenes); eso es `eval-framework`."
|
|
15
|
-
- "No cargar como gate de release sin un dataset ≥30 entries con status='real' — las métricas con dataset placeholder no son estadísticamente significativas."
|
|
16
|
-
- "No cargar para benchmark de performance (latencia, throughput); eso es `performance-baseline`."
|
|
17
|
-
- "No cargar si el repo no tiene `.planning/APRENDIZAJES.md` ni sesiones — sin contenido no hay nada que recuperar."
|
|
18
|
-
evolvable: true # default para skill estandar
|
|
19
|
-
---
|
|
20
|
-
# Benchmark de Memoria — LongMemEval-S adaptado a SWL
|
|
21
|
-
|
|
22
|
-
## Cuándo cargar esta skill
|
|
23
|
-
|
|
24
|
-
- Tras modificar `hooks/lib/memory-search.js`, `scripts/lib/rrf-fusion.js`,
|
|
25
|
-
pesos de fusión o algoritmo de scoring de relevancia.
|
|
26
|
-
- Tras agregar fuentes de búsqueda nuevas (ej. evals, instintos globales).
|
|
27
|
-
- Antes de un release que toque la capa de memoria, para confirmar que no
|
|
28
|
-
hay regresión en R@5.
|
|
29
|
-
- Como parte opcional de `/swl:salud` cuando `SWL_BENCHMARK_MEMORIA=1`.
|
|
30
|
-
|
|
31
|
-
---
|
|
32
|
-
|
|
33
|
-
## Componentes del benchmark
|
|
34
|
-
|
|
35
|
-
| Módulo | Propósito |
|
|
36
|
-
|---|---|
|
|
37
|
-
| `scripts/lib/benchmark-metrics.js` | Funciones puras: `recallAt`, `precisionAt`, `mrr`, `ndcgAt`, `dcg`, `calcularMetricas`, `promediar`. |
|
|
38
|
-
| `scripts/lib/longmemeval-runner.js` | Adapter que ejecuta queries contra `memory-search` y compara con gold. |
|
|
39
|
-
| `scripts/benchmark-memoria.js` | CLI runner principal. |
|
|
40
|
-
| `.planning/benchmark/dataset.jsonl` | Dataset (placeholder por defecto, debe expandirse). |
|
|
41
|
-
|
|
42
|
-
---
|
|
43
|
-
|
|
44
|
-
## Estado del dataset (CRÍTICO leer antes de usar)
|
|
45
|
-
|
|
46
|
-
El dataset por defecto en `.planning/benchmark/dataset.jsonl` es **placeholder**
|
|
47
|
-
con 10 entries marcadas explícitamente como `"status": "placeholder"`. Las
|
|
48
|
-
métricas calculadas con este dataset son **indicativas, no estadísticamente
|
|
49
|
-
significativas**.
|
|
50
|
-
|
|
51
|
-
### Limitaciones del dataset placeholder
|
|
52
|
-
|
|
53
|
-
1. **IDs volátiles**: los `gold_ids` referencian `apr-N` (índice de entrada en
|
|
54
|
-
`APRENDIZAJES.md`). Si se agregan/borran entradas, los índices cambian y
|
|
55
|
-
el dataset queda desincronizado. Para dataset real considerar IDs estables
|
|
56
|
-
(sesiones tienen timestamp; instintos tienen `id` propio).
|
|
57
|
-
2. **N=10 es ruido estadístico**: para que R@5=80% sea significativo
|
|
58
|
-
estadísticamente (vs 70% baseline), se requieren al menos 30 queries
|
|
59
|
-
con N=10 random. Por debajo, las métricas reflejan suerte.
|
|
60
|
-
3. **Cobertura limitada**: el placeholder cubre solo categorías técnicas
|
|
61
|
-
(patrones, gotchas, decisiones). Falta cobertura de:
|
|
62
|
-
- Bug fixes históricos
|
|
63
|
-
- Workflow questions ("qué hicimos antes de X")
|
|
64
|
-
- Cross-session ("cuándo se decidió Y")
|
|
65
|
-
- Negative queries (preguntas cuya respuesta es "no aplica")
|
|
66
|
-
|
|
67
|
-
### Cómo expandir a dataset real
|
|
68
|
-
|
|
69
|
-
```bash
|
|
70
|
-
# 1. Identifica una pregunta real de uso
|
|
71
|
-
QUERY="qué hicimos sobre force push a main protegida"
|
|
72
|
-
|
|
73
|
-
# 2. Ejecuta búsqueda y anota top-5 IDs
|
|
74
|
-
node -e "console.log(require('./hooks/lib/memory-search').search('.', '$QUERY').slice(0, 5).map(r => r.id + ' / ' + r.titulo).join('\n'))"
|
|
75
|
-
|
|
76
|
-
# 3. Verifica manualmente qué IDs son CORRECTOS (revisión humana,
|
|
77
|
-
# no se inventa). Solo esos van en gold_ids.
|
|
78
|
-
|
|
79
|
-
# 4. Agrega la entry al dataset:
|
|
80
|
-
cat >> .planning/benchmark/dataset.jsonl << 'EOF'
|
|
81
|
-
{"question_id": "q-real-001", "question": "qué hicimos sobre force push a main protegida", "gold_ids": ["apr-313"], "category": "decision", "status": "real"}
|
|
82
|
-
EOF
|
|
83
|
-
```
|
|
84
|
-
|
|
85
|
-
Repetir hasta tener ≥30 entries con `status: "real"`. Solo entonces el
|
|
86
|
-
benchmark es gate de release.
|
|
87
|
-
|
|
88
|
-
---
|
|
89
|
-
|
|
90
|
-
## Uso
|
|
91
|
-
|
|
92
|
-
### CLI básico
|
|
93
|
-
|
|
94
|
-
```bash
|
|
95
|
-
# Ejecutar benchmark con dataset por defecto
|
|
96
|
-
node scripts/benchmark-memoria.js
|
|
97
|
-
|
|
98
|
-
# Output esperado:
|
|
99
|
-
# Recall @ 5: 85.0%
|
|
100
|
-
# Recall @ 10: 92.0%
|
|
101
|
-
# MRR: 0.741
|
|
102
|
-
# nDCG @ 10: 0.812
|
|
103
|
-
# Precision @ 5: 41.3%
|
|
104
|
-
```
|
|
105
|
-
|
|
106
|
-
### Opciones
|
|
107
|
-
|
|
108
|
-
```bash
|
|
109
|
-
# Dataset alternativo
|
|
110
|
-
node scripts/benchmark-memoria.js --dataset .planning/benchmark/custom.jsonl
|
|
111
|
-
|
|
112
|
-
# Top-k personalizado (default 20)
|
|
113
|
-
node scripts/benchmark-memoria.js --limit 30
|
|
114
|
-
|
|
115
|
-
# Output JSON (para scripts)
|
|
116
|
-
node scripts/benchmark-memoria.js --json
|
|
117
|
-
|
|
118
|
-
# Detalle por query (útil para debugging)
|
|
119
|
-
node scripts/benchmark-memoria.js --verbose
|
|
120
|
-
```
|
|
121
|
-
|
|
122
|
-
### Tracking histórico opcional
|
|
123
|
-
|
|
124
|
-
Si se setea `SWL_BENCHMARK_PERSIST=1`, el benchmark escribe el resumen
|
|
125
|
-
agregado a `.planning/evolucion/benchmark-memoria.jsonl` (append-only)
|
|
126
|
-
para detectar regresión entre releases:
|
|
127
|
-
|
|
128
|
-
```bash
|
|
129
|
-
SWL_BENCHMARK_PERSIST=1 node scripts/benchmark-memoria.js
|
|
130
|
-
```
|
|
131
|
-
|
|
132
|
-
Comparar entre releases:
|
|
133
|
-
```bash
|
|
134
|
-
tail -5 .planning/evolucion/benchmark-memoria.jsonl | jq -c '{ts: .timestamp, r5: .promedio.recall_at_5}'
|
|
135
|
-
```
|
|
136
|
-
|
|
137
|
-
---
|
|
138
|
-
|
|
139
|
-
## Métricas explicadas
|
|
140
|
-
|
|
141
|
-
| Métrica | Significado | Rango |
|
|
142
|
-
|---|---|---|
|
|
143
|
-
| **Recall @ k** | ¿El sistema recuperó al menos un gold ID en los primeros k? | 0 o 1 por query, promediado en [0, 1] |
|
|
144
|
-
| **Precision @ k** | ¿Qué porcentaje de los primeros k son gold? | [0, 1] |
|
|
145
|
-
| **MRR** | 1 / posición del primer gold encontrado | [0, 1] — alto = gold cerca del top |
|
|
146
|
-
| **nDCG @ k** | DCG normalizado: penaliza gold en posiciones bajas | [0, 1] — mide ranking quality |
|
|
147
|
-
|
|
148
|
-
**Interpretación**:
|
|
149
|
-
- R@5 alto + MRR bajo → encuentra gold pero no en posición 1.
|
|
150
|
-
- R@5 bajo + R@10 alto → necesita expandir top-k para alcanzar.
|
|
151
|
-
- nDCG@10 alto → ranking respeta orden de relevancia.
|
|
152
|
-
|
|
153
|
-
---
|
|
154
|
-
|
|
155
|
-
## Anti-patrones (qué NO hacer)
|
|
156
|
-
|
|
157
|
-
- **Usar el dataset placeholder como gate de CI**: no significativo, da
|
|
158
|
-
falsa sensación de seguridad. Marcar el job como informativo solamente
|
|
159
|
-
hasta tener dataset real ≥30.
|
|
160
|
-
- **Inventar gold_ids "que se ven correctos"**: el dataset SOLO sirve si
|
|
161
|
-
los gold_ids son verificados manualmente como correctos por un humano
|
|
162
|
-
con conocimiento del proyecto.
|
|
163
|
-
- **Optimizar el algoritmo solo para que las métricas suban**: si el
|
|
164
|
-
dataset es placeholder, "mejorar" R@5 puede ser overfitting al
|
|
165
|
-
placeholder. Dataset real primero, optimización después.
|
|
166
|
-
- **Borrar entries que dan métricas bajas**: una query con R@5=0 puede
|
|
167
|
-
estar revelando un bug real del sistema de búsqueda, no un problema
|
|
168
|
-
del dataset. Debug antes de borrar.
|
|
169
|
-
|
|
170
|
-
---
|
|
171
|
-
|
|
172
|
-
## Gotchas / Errores comunes no obvios
|
|
173
|
-
|
|
174
|
-
- **Dataset JSONL acepta comentarios `//`**: las líneas que empiezan con
|
|
175
|
-
`//` son ignoradas. Útil para documentar inline. NO es JSON estándar
|
|
176
|
-
pero el parser de `longmemeval-runner` lo respeta.
|
|
177
|
-
- **Si la query no matchea ningún token mínimo (<= 3 chars), `search()`
|
|
178
|
-
devuelve `[]`**: las stop words están filtradas en
|
|
179
|
-
`hooks/lib/memory-search.js`. Asegurar que cada query tenga ≥2
|
|
180
|
-
términos significativos.
|
|
181
|
-
- **Los `gold_ids` deben usar el formato `apr-N`/`ses-YYYYMMDD-HHmm`/etc.
|
|
182
|
-
EXACTO** que devuelve `memory-search`. Si se anota `apr-14` cuando el
|
|
183
|
-
search devuelve `apr-014`, el match falla silenciosamente.
|
|
184
|
-
- **El benchmark mide `memory-search` específicamente, no toda la memoria
|
|
185
|
-
SWL**: instintos globales no entran si solo se buscan locales; sesiones
|
|
186
|
-
archivadas no entran. Documentar el scope de cada query.
|
|
1
|
+
---
|
|
2
|
+
name: benchmark-memoria
|
|
3
|
+
description: >
|
|
4
|
+
Benchmark de retrieval para `hooks/lib/memory-search` que mide R@5, R@10,
|
|
5
|
+
MRR y nDCG@10 contra un dataset de queries con respuestas conocidas
|
|
6
|
+
(gold_ids). Útil para detectar regresión de calidad de búsqueda al cambiar
|
|
7
|
+
RRF weights, scoring o fuentes. Cargar cuando se modifique
|
|
8
|
+
`memory-search.js`, `rrf-fusion.js` o `session-fts.js` para verificar que
|
|
9
|
+
no degrada retrieval. NO cargar para uso operacional ni para evaluar
|
|
10
|
+
outputs de agentes (eso es `eval-framework`).
|
|
11
|
+
version: "1.0.0"
|
|
12
|
+
herramientasPermitidas: [Read, Bash]
|
|
13
|
+
exclusiones:
|
|
14
|
+
- "No cargar para evaluar outputs de agentes (aprendizajes, observaciones, resúmenes); eso es `eval-framework`."
|
|
15
|
+
- "No cargar como gate de release sin un dataset ≥30 entries con status='real' — las métricas con dataset placeholder no son estadísticamente significativas."
|
|
16
|
+
- "No cargar para benchmark de performance (latencia, throughput); eso es `performance-baseline`."
|
|
17
|
+
- "No cargar si el repo no tiene `.planning/APRENDIZAJES.md` ni sesiones — sin contenido no hay nada que recuperar."
|
|
18
|
+
evolvable: true # default para skill estandar
|
|
19
|
+
---
|
|
20
|
+
# Benchmark de Memoria — LongMemEval-S adaptado a SWL
|
|
21
|
+
|
|
22
|
+
## Cuándo cargar esta skill
|
|
23
|
+
|
|
24
|
+
- Tras modificar `hooks/lib/memory-search.js`, `scripts/lib/rrf-fusion.js`,
|
|
25
|
+
pesos de fusión o algoritmo de scoring de relevancia.
|
|
26
|
+
- Tras agregar fuentes de búsqueda nuevas (ej. evals, instintos globales).
|
|
27
|
+
- Antes de un release que toque la capa de memoria, para confirmar que no
|
|
28
|
+
hay regresión en R@5.
|
|
29
|
+
- Como parte opcional de `/swl:salud` cuando `SWL_BENCHMARK_MEMORIA=1`.
|
|
30
|
+
|
|
31
|
+
---
|
|
32
|
+
|
|
33
|
+
## Componentes del benchmark
|
|
34
|
+
|
|
35
|
+
| Módulo | Propósito |
|
|
36
|
+
|---|---|
|
|
37
|
+
| `scripts/lib/benchmark-metrics.js` | Funciones puras: `recallAt`, `precisionAt`, `mrr`, `ndcgAt`, `dcg`, `calcularMetricas`, `promediar`. |
|
|
38
|
+
| `scripts/lib/longmemeval-runner.js` | Adapter que ejecuta queries contra `memory-search` y compara con gold. |
|
|
39
|
+
| `scripts/benchmark-memoria.js` | CLI runner principal. |
|
|
40
|
+
| `.planning/benchmark/dataset.jsonl` | Dataset (placeholder por defecto, debe expandirse). |
|
|
41
|
+
|
|
42
|
+
---
|
|
43
|
+
|
|
44
|
+
## Estado del dataset (CRÍTICO leer antes de usar)
|
|
45
|
+
|
|
46
|
+
El dataset por defecto en `.planning/benchmark/dataset.jsonl` es **placeholder**
|
|
47
|
+
con 10 entries marcadas explícitamente como `"status": "placeholder"`. Las
|
|
48
|
+
métricas calculadas con este dataset son **indicativas, no estadísticamente
|
|
49
|
+
significativas**.
|
|
50
|
+
|
|
51
|
+
### Limitaciones del dataset placeholder
|
|
52
|
+
|
|
53
|
+
1. **IDs volátiles**: los `gold_ids` referencian `apr-N` (índice de entrada en
|
|
54
|
+
`APRENDIZAJES.md`). Si se agregan/borran entradas, los índices cambian y
|
|
55
|
+
el dataset queda desincronizado. Para dataset real considerar IDs estables
|
|
56
|
+
(sesiones tienen timestamp; instintos tienen `id` propio).
|
|
57
|
+
2. **N=10 es ruido estadístico**: para que R@5=80% sea significativo
|
|
58
|
+
estadísticamente (vs 70% baseline), se requieren al menos 30 queries
|
|
59
|
+
con N=10 random. Por debajo, las métricas reflejan suerte.
|
|
60
|
+
3. **Cobertura limitada**: el placeholder cubre solo categorías técnicas
|
|
61
|
+
(patrones, gotchas, decisiones). Falta cobertura de:
|
|
62
|
+
- Bug fixes históricos
|
|
63
|
+
- Workflow questions ("qué hicimos antes de X")
|
|
64
|
+
- Cross-session ("cuándo se decidió Y")
|
|
65
|
+
- Negative queries (preguntas cuya respuesta es "no aplica")
|
|
66
|
+
|
|
67
|
+
### Cómo expandir a dataset real
|
|
68
|
+
|
|
69
|
+
```bash
|
|
70
|
+
# 1. Identifica una pregunta real de uso
|
|
71
|
+
QUERY="qué hicimos sobre force push a main protegida"
|
|
72
|
+
|
|
73
|
+
# 2. Ejecuta búsqueda y anota top-5 IDs
|
|
74
|
+
node -e "console.log(require('./hooks/lib/memory-search').search('.', '$QUERY').slice(0, 5).map(r => r.id + ' / ' + r.titulo).join('\n'))"
|
|
75
|
+
|
|
76
|
+
# 3. Verifica manualmente qué IDs son CORRECTOS (revisión humana,
|
|
77
|
+
# no se inventa). Solo esos van en gold_ids.
|
|
78
|
+
|
|
79
|
+
# 4. Agrega la entry al dataset:
|
|
80
|
+
cat >> .planning/benchmark/dataset.jsonl << 'EOF'
|
|
81
|
+
{"question_id": "q-real-001", "question": "qué hicimos sobre force push a main protegida", "gold_ids": ["apr-313"], "category": "decision", "status": "real"}
|
|
82
|
+
EOF
|
|
83
|
+
```
|
|
84
|
+
|
|
85
|
+
Repetir hasta tener ≥30 entries con `status: "real"`. Solo entonces el
|
|
86
|
+
benchmark es gate de release.
|
|
87
|
+
|
|
88
|
+
---
|
|
89
|
+
|
|
90
|
+
## Uso
|
|
91
|
+
|
|
92
|
+
### CLI básico
|
|
93
|
+
|
|
94
|
+
```bash
|
|
95
|
+
# Ejecutar benchmark con dataset por defecto
|
|
96
|
+
node scripts/benchmark-memoria.js
|
|
97
|
+
|
|
98
|
+
# Output esperado:
|
|
99
|
+
# Recall @ 5: 85.0%
|
|
100
|
+
# Recall @ 10: 92.0%
|
|
101
|
+
# MRR: 0.741
|
|
102
|
+
# nDCG @ 10: 0.812
|
|
103
|
+
# Precision @ 5: 41.3%
|
|
104
|
+
```
|
|
105
|
+
|
|
106
|
+
### Opciones
|
|
107
|
+
|
|
108
|
+
```bash
|
|
109
|
+
# Dataset alternativo
|
|
110
|
+
node scripts/benchmark-memoria.js --dataset .planning/benchmark/custom.jsonl
|
|
111
|
+
|
|
112
|
+
# Top-k personalizado (default 20)
|
|
113
|
+
node scripts/benchmark-memoria.js --limit 30
|
|
114
|
+
|
|
115
|
+
# Output JSON (para scripts)
|
|
116
|
+
node scripts/benchmark-memoria.js --json
|
|
117
|
+
|
|
118
|
+
# Detalle por query (útil para debugging)
|
|
119
|
+
node scripts/benchmark-memoria.js --verbose
|
|
120
|
+
```
|
|
121
|
+
|
|
122
|
+
### Tracking histórico opcional
|
|
123
|
+
|
|
124
|
+
Si se setea `SWL_BENCHMARK_PERSIST=1`, el benchmark escribe el resumen
|
|
125
|
+
agregado a `.planning/evolucion/benchmark-memoria.jsonl` (append-only)
|
|
126
|
+
para detectar regresión entre releases:
|
|
127
|
+
|
|
128
|
+
```bash
|
|
129
|
+
SWL_BENCHMARK_PERSIST=1 node scripts/benchmark-memoria.js
|
|
130
|
+
```
|
|
131
|
+
|
|
132
|
+
Comparar entre releases:
|
|
133
|
+
```bash
|
|
134
|
+
tail -5 .planning/evolucion/benchmark-memoria.jsonl | jq -c '{ts: .timestamp, r5: .promedio.recall_at_5}'
|
|
135
|
+
```
|
|
136
|
+
|
|
137
|
+
---
|
|
138
|
+
|
|
139
|
+
## Métricas explicadas
|
|
140
|
+
|
|
141
|
+
| Métrica | Significado | Rango |
|
|
142
|
+
|---|---|---|
|
|
143
|
+
| **Recall @ k** | ¿El sistema recuperó al menos un gold ID en los primeros k? | 0 o 1 por query, promediado en [0, 1] |
|
|
144
|
+
| **Precision @ k** | ¿Qué porcentaje de los primeros k son gold? | [0, 1] |
|
|
145
|
+
| **MRR** | 1 / posición del primer gold encontrado | [0, 1] — alto = gold cerca del top |
|
|
146
|
+
| **nDCG @ k** | DCG normalizado: penaliza gold en posiciones bajas | [0, 1] — mide ranking quality |
|
|
147
|
+
|
|
148
|
+
**Interpretación**:
|
|
149
|
+
- R@5 alto + MRR bajo → encuentra gold pero no en posición 1.
|
|
150
|
+
- R@5 bajo + R@10 alto → necesita expandir top-k para alcanzar.
|
|
151
|
+
- nDCG@10 alto → ranking respeta orden de relevancia.
|
|
152
|
+
|
|
153
|
+
---
|
|
154
|
+
|
|
155
|
+
## Anti-patrones (qué NO hacer)
|
|
156
|
+
|
|
157
|
+
- **Usar el dataset placeholder como gate de CI**: no significativo, da
|
|
158
|
+
falsa sensación de seguridad. Marcar el job como informativo solamente
|
|
159
|
+
hasta tener dataset real ≥30.
|
|
160
|
+
- **Inventar gold_ids "que se ven correctos"**: el dataset SOLO sirve si
|
|
161
|
+
los gold_ids son verificados manualmente como correctos por un humano
|
|
162
|
+
con conocimiento del proyecto.
|
|
163
|
+
- **Optimizar el algoritmo solo para que las métricas suban**: si el
|
|
164
|
+
dataset es placeholder, "mejorar" R@5 puede ser overfitting al
|
|
165
|
+
placeholder. Dataset real primero, optimización después.
|
|
166
|
+
- **Borrar entries que dan métricas bajas**: una query con R@5=0 puede
|
|
167
|
+
estar revelando un bug real del sistema de búsqueda, no un problema
|
|
168
|
+
del dataset. Debug antes de borrar.
|
|
169
|
+
|
|
170
|
+
---
|
|
171
|
+
|
|
172
|
+
## Gotchas / Errores comunes no obvios
|
|
173
|
+
|
|
174
|
+
- **Dataset JSONL acepta comentarios `//`**: las líneas que empiezan con
|
|
175
|
+
`//` son ignoradas. Útil para documentar inline. NO es JSON estándar
|
|
176
|
+
pero el parser de `longmemeval-runner` lo respeta.
|
|
177
|
+
- **Si la query no matchea ningún token mínimo (<= 3 chars), `search()`
|
|
178
|
+
devuelve `[]`**: las stop words están filtradas en
|
|
179
|
+
`hooks/lib/memory-search.js`. Asegurar que cada query tenga ≥2
|
|
180
|
+
términos significativos.
|
|
181
|
+
- **Los `gold_ids` deben usar el formato `apr-N`/`ses-YYYYMMDD-HHmm`/etc.
|
|
182
|
+
EXACTO** que devuelve `memory-search`. Si se anota `apr-14` cuando el
|
|
183
|
+
search devuelve `apr-014`, el match falla silenciosamente.
|
|
184
|
+
- **El benchmark mide `memory-search` específicamente, no toda la memoria
|
|
185
|
+
SWL**: instintos globales no entran si solo se buscan locales; sesiones
|
|
186
|
+
archivadas no entran. Documentar el scope de cada query.
|