@saulwade/swl-ses 1.1.3 → 1.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (37) hide show
  1. package/CLAUDE.md +5 -3
  2. package/README.md +3 -3
  3. package/bin/swl-mcp-server.js +187 -0
  4. package/habilidades/benchmark-memoria/SKILL.md +186 -0
  5. package/habilidades/contenedores-docker/SKILL.md +8 -1
  6. package/habilidades/datos-etl/SKILL.md +18 -1
  7. package/habilidades/eval-framework/SKILL.md +212 -0
  8. package/habilidades/memoria-busqueda/SKILL.md +24 -1
  9. package/habilidades/planear-fase/SKILL.md +299 -269
  10. package/habilidades/postgresql-experto/SKILL.md +24 -1
  11. package/habilidades/verificar-trabajo/SKILL.md +7 -1
  12. package/hooks/lib/evolution-tracker.js +65 -11
  13. package/hooks/lib/memory-search.js +44 -13
  14. package/hooks/sugerir-contribuir.js +226 -0
  15. package/manifiestos/hooks-config.json +9 -0
  16. package/manifiestos/modulos.json +36 -2
  17. package/manifiestos/perfiles.json +2 -1
  18. package/manifiestos/skills-lock.json +1 -1
  19. package/package.json +4 -3
  20. package/plugin.json +343 -343
  21. package/reglas/analisis-previo-tareas-grandes.md +172 -0
  22. package/reglas/arreglar-al-detectar.md +147 -0
  23. package/scripts/benchmark-memoria.js +167 -0
  24. package/scripts/detectar-aprendizajes-duplicados.js +151 -0
  25. package/scripts/lib/benchmark-metrics.js +160 -0
  26. package/scripts/lib/eval-metrics-store.js +218 -0
  27. package/scripts/lib/eval-quality.js +171 -0
  28. package/scripts/lib/eval-schemas.js +144 -0
  29. package/scripts/lib/eval-self-correct.js +106 -0
  30. package/scripts/lib/eval-validator.js +185 -0
  31. package/scripts/lib/jaccard-similarity.js +98 -0
  32. package/scripts/lib/longmemeval-runner.js +125 -0
  33. package/scripts/lib/rrf-fusion.js +175 -0
  34. package/scripts/lib/scoring-instintos.js +40 -3
  35. package/scripts/mcp-server/README.md +128 -0
  36. package/scripts/mcp-server/handlers.js +206 -0
  37. package/scripts/run-eval.js +141 -0
@@ -0,0 +1,172 @@
1
+ # Regla: Análisis previo ante tareas grandes
2
+
3
+ Esta regla es OBLIGATORIA y aplica a todo trabajo donde la solicitud del usuario
4
+ implique cambio masivo: porte de sistema, refactor cross-módulo, replicación de
5
+ arquitectura externa, migración de stack, instalación de framework completo,
6
+ adopción de patrón en N módulos.
7
+
8
+ ---
9
+
10
+ ## Principio
11
+
12
+ > Cuando el usuario pide "replicar íntegramente X", "portar todo Y", "implementar
13
+ > el sistema completo Z", **responde primero con análisis comparativo (qué ya
14
+ > existe vs. qué falta) y propón 3 opciones de alcance** (mínima / media /
15
+ > completa) antes de escribir código. Nunca arrancar el porte literal sin
16
+ > confirmación explícita tras presentar opciones.
17
+
18
+ ---
19
+
20
+ ## Cómo aplicar
21
+
22
+ ### Detección — qué cuenta como "tarea grande"
23
+
24
+ Cualquier solicitud que tenga al menos uno de estos atributos:
25
+
26
+ - Más de ~10 archivos a crear, mover o reescribir.
27
+ - Más de ~500 LOC estimadas a tocar en un solo turno.
28
+ - Toca más de un dominio (backend + frontend, o varios módulos backend).
29
+ - "Replicar X" donde X es un sistema externo con su propia arquitectura.
30
+ - "Portar todo de Y" donde Y es un repo, framework o lib voluminoso.
31
+ - "Implementar todo Z" donde Z es una fase, un sub-sistema, una capa nueva.
32
+ - Análisis de un repo en `temp/` con la pregunta abierta "¿qué adoptamos?".
33
+
34
+ Si la solicitud encaja en cualquiera de estas, aplicar la regla.
35
+
36
+ ### Paso 1 — Auditar lo que ya existe
37
+
38
+ Antes de proponer el porte:
39
+
40
+ - `Glob` / `Grep` / `Read` para mapear el código actual del usuario.
41
+ - Identificar componentes que ya cubren parte de la solicitud.
42
+ - Verificar versiones, dependencias, convenciones del proyecto.
43
+ - Si es repo externo en `temp/`: aplicar **filtro de dominio** primero
44
+ (ver `reglas/arquitectura.md` § "Análisis de repositorios externos").
45
+ Descartar 80-95% del contenido vertical antes de análisis profundo.
46
+
47
+ ### Paso 2 — Tabla comparativa
48
+
49
+ Producir una tabla con tres columnas:
50
+
51
+ | Componente del sistema externo | Equivalente actual del usuario | Gap |
52
+ |---|---|---|
53
+ | ... | ya existe / parcial / no existe | qué falta agregar |
54
+
55
+ Sin la tabla, no se proponen opciones. La tabla es la base objetiva de la decisión.
56
+
57
+ ### Paso 3 — Tres opciones de alcance
58
+
59
+ Siempre presentar tres opciones:
60
+
61
+ - **Mínima** — solo cierra los gaps críticos (lo que NO existe). Esfuerzo
62
+ estimado bajo. Usuario acepta vivir con diferencias menores en lo demás.
63
+ - **Media** — cierra gaps + alinea componentes parciales con el patrón externo.
64
+ Esfuerzo medio. Convergencia parcial sin reescribir lo que ya funciona.
65
+ - **Completa** — porte literal de todo lo que el usuario pidió, sin reusar
66
+ componentes existentes. Esfuerzo alto. Justificable solo cuando la
67
+ arquitectura externa es estrictamente superior.
68
+
69
+ Cada opción incluye:
70
+
71
+ - Estimación de esfuerzo (turnos, LOC, archivos afectados).
72
+ - Lista de tareas concretas si se elige.
73
+ - Riesgos / tradeoffs específicos.
74
+
75
+ ### Paso 4 — Recomendación explícita
76
+
77
+ Tras las tres opciones, **recomendar una** con razonamiento. No dejar la
78
+ decisión "abierta" — el usuario espera tu juicio técnico.
79
+
80
+ Patrón de recomendación:
81
+
82
+ > **Recomiendo la opción [N]** porque [razón concreta]. Las opciones [otras]
83
+ > son válidas si [condición específica].
84
+
85
+ ### Paso 5 — Esperar confirmación
86
+
87
+ Después de presentar tabla + opciones + recomendación: detenerse y esperar.
88
+
89
+ NO arrancar a escribir código asumiendo aprobación implícita. La autorización
90
+ debe ser literal del usuario ("procede con la opción 2", "adelante con la
91
+ mínima", "hagamos la completa").
92
+
93
+ ---
94
+
95
+ ## Excepciones — cuándo NO aplicar la regla
96
+
97
+ NO aplicar cuando:
98
+
99
+ 1. **El usuario ya pidió explícitamente la opción**: "implementa la versión
100
+ mínima de X" o "porta solo el módulo Y" — la elección ya está hecha.
101
+ 2. **El alcance es trivial** — menos de 5 archivos, una sola dependencia.
102
+ 3. **El usuario pidió análisis y ya decidió**: si ya hubo una sesión previa con
103
+ la tabla comparativa y el usuario eligió, proceder sin re-presentar.
104
+ 4. **Es un fix urgente de producción** — bug crítico, vulnerabilidad activa,
105
+ incidente. El análisis se reduce a confirmar la causa y aplicar el fix
106
+ específico.
107
+
108
+ ---
109
+
110
+ ## Cómo presentar la tabla y opciones
111
+
112
+ ### Formato de tabla comparativa (mínimo)
113
+
114
+ ```markdown
115
+ | Componente | Sistema externo | Tu sistema actual | Gap |
116
+ |---|---|---|---|
117
+ | Auth | OAuth2 + PKCE | JWT custom | parcial — falta PKCE |
118
+ | Storage | S3 + presigned | filesystem local | falta — pendiente migración |
119
+ | ... | ... | ... | ... |
120
+ ```
121
+
122
+ ### Formato de las tres opciones (mínimo)
123
+
124
+ ```markdown
125
+ **Opción A — Mínima** (~3 turnos, ~15 archivos)
126
+ - Cerrar solo gaps críticos: PKCE, presigned URLs.
127
+ - No tocar lo que ya funciona.
128
+ - Riesgo: leve divergencia con sistema externo en convenciones menores.
129
+
130
+ **Opción B — Media** (~6 turnos, ~30 archivos)
131
+ - Cerrar gaps + alinear `auth/` con patrón OAuth2 completo.
132
+ - Mantener storage actual con migración planeada en fase futura.
133
+ - Riesgo: refactor en `auth/` puede romper integraciones existentes.
134
+
135
+ **Opción C — Completa** (~15 turnos, ~80 archivos)
136
+ - Porte literal del sistema externo completo.
137
+ - Reemplaza todo lo equivalente, no importa que ya funcione.
138
+ - Riesgo: regresiones en funcionalidad madura.
139
+
140
+ **Recomiendo la Opción A**: el sistema actual cubre el 80% del valor;
141
+ los gaps específicos resuelven el caso concreto sin riesgo de regresión.
142
+ ```
143
+
144
+ ---
145
+
146
+ ## Anti-patrones
147
+
148
+ - Arrancar a escribir código tras "replícame X" sin tabla comparativa.
149
+ - Presentar las opciones sin recomendar — pasar la pelota al usuario.
150
+ - Listar 5+ opciones cuando 3 son suficientes (mínima / media / completa).
151
+ - Estimar esfuerzo en términos vagos ("bastante trabajo", "no mucho") sin
152
+ cuantificar turnos / archivos / LOC.
153
+ - Omitir la auditoría de lo que ya existe y proponer porte literal de todo.
154
+ - Cuando el usuario pide la opción mínima, expandir el alcance "porque
155
+ conviene" sin pedir confirmación.
156
+
157
+ ---
158
+
159
+ ## Origen de esta regla
160
+
161
+ Consolidada el 2026-05-04 desde feedback del usuario en sesión 2026-04-18 sobre
162
+ porte de Hermes Agent: tras pedir "replicar íntegramente Hermes Agent" (~960
163
+ archivos Python), aceptó la propuesta de cerrar solo 3 gaps específicos
164
+ (perfil de usuario, cron natural, auto-evolución). Lección: la auditoría previa
165
+ + opciones explícitas evita re-implementar 80% de funcionalidad ya existente.
166
+
167
+ Reforzada en análisis de repos en `temp/` durante v1.1.0 de swl-ses (2026-04-23):
168
+ filtro de dominio descartó 97% del contenido de 5 repos antes de análisis
169
+ profundo, ahorrando horas de trabajo en arquitectura externa irrelevante.
170
+
171
+ Memoria nativa local correspondiente (`feedback_analisis_previo.md` en swl-ses):
172
+ redundante tras esta regla; el contenido operativo vive aquí.
@@ -0,0 +1,147 @@
1
+ # Regla: Detectar → Informar → Arreglar en el mismo turno
2
+
3
+ Esta regla es OBLIGATORIA y aplica a todo trabajo que Claude ejecute en cualquier
4
+ proyecto del usuario. Consolida cuatro feedbacks repetidos en sesiones distintas
5
+ entre 2026-04-23 y 2026-05-03 con la misma señal: el usuario rechaza entregas
6
+ parciales, deuda silenciosa y bypass de errores ajenos.
7
+
8
+ ---
9
+
10
+ ## Principio
11
+
12
+ > Cuando detectes un error, bug, inconsistencia, anomalía o problema secundario
13
+ > durante la ejecución de cualquier trabajo, **informa al usuario brevemente Y
14
+ > procede a resolverlo en el mismo turno**. Nunca lo dejes como pendiente, deuda
15
+ > implícita, "ya estaba antes" ni "fuera del scope".
16
+
17
+ Esta regla resume cuatro feedbacks separados que el usuario reforzó como mismo
18
+ principio:
19
+
20
+ - "No me gustan las cosas a medias" — rechazo de entregas parciales (2026-04-23).
21
+ - "Cuando detectes errores, bugs, inconsistencias y demás informes al usuario y
22
+ procedas a solucionar y/o arreglar, además nunca debes dejar pendientes, ni
23
+ diferir" (2026-04-30).
24
+ - "Resuelve los test que fallan, no bypass" — al detectar intento de excluir
25
+ tests del glob para evitar arreglarlos (2026-04-30).
26
+ - "Si el job CI falla, hay que arreglarlo todo" — al ver tests rotos
27
+ presentados como "preexistentes, no críticos" (2026-05-03).
28
+
29
+ ---
30
+
31
+ ## Cómo aplicar
32
+
33
+ ### Al detectar un problema secundario durante el trabajo principal
34
+
35
+ - Reportarlo brevemente al usuario: qué se detectó, dónde, severidad.
36
+ - Resolverlo en el mismo turno o en commit separado de la misma sesión.
37
+ - NUNCA ofrecer "lo documento como deuda" como primera opción.
38
+ - NUNCA usar frases como "son tests con mocks pre-existentes que ya estaban rotos",
39
+ "esto estaba antes", "no es del scope inmediato" para evitar el trabajo.
40
+
41
+ ### Al ejecutar tests, builds, lints, validadores
42
+
43
+ - Si hay failures, listarlos todos y atacarlos todos.
44
+ - No distinguir "bugs reales" vs "tests con mocks mal configurados" como excusa
45
+ para arreglar solo unos. Si están rotos, arreglarlos.
46
+ - Excepción: bugs que requieran decisión arquitectural ambigua del usuario —
47
+ pedir esa decisión explícitamente, no diferir como "tu decisión".
48
+
49
+ ### Al modificar código adyacente
50
+
51
+ - Si tocas líneas con problemas adyacentes (None checks faltantes, schemas
52
+ obsoletos, mocks inconsistentes, contadores stale, paths inválidos),
53
+ arreglarlos en el mismo commit o en commit separado de la misma sesión.
54
+
55
+ ### Al refactorizar
56
+
57
+ - Si encuentras código adyacente que se quedó obsoleto por un refactor previo,
58
+ actualizarlo. No dejar deuda residual.
59
+
60
+ ### Al detectar un error ajeno al trabajo actual
61
+
62
+ - NO bypassear (excluir tests del glob, comentar checks, `|| true`,
63
+ downgradear a warning, ignorar).
64
+ - Resolver de raíz o, si requiere decisión, abrir explícitamente la decisión
65
+ con el usuario antes de bypassear.
66
+ - El default es resolver, no esquivar.
67
+
68
+ ### Al presentar planes con sub-tareas
69
+
70
+ - Dar primero la opción "todo completo" con esfuerzo estimado.
71
+ - Si por capacity hay que partir el trabajo, hacerlo explícito con razón
72
+ concreta: "esta sesión cubre 3.1 a 3.4; la 3.5 va en commit separado por
73
+ X razón concreta", no por preferencia genérica.
74
+
75
+ ### Al recomendar diferir un patrón o feature
76
+
77
+ - Redactar **simultáneamente** el ítem de deuda formal con criterio de disparo
78
+ verificable. La oferta "lo dejo apuntado" sin entrada formal no es aceptable.
79
+ - Distinción de categorías:
80
+ - **DT (deuda técnica)** con plan de cierre.
81
+ - **DA (decisión arquitectural)** con trigger verificable.
82
+ - **OP (pendiente operacional)** con responsable.
83
+ - "Mediano plazo / Q3 / cuando aparezca demanda" sin trigger verificable es
84
+ deuda silenciosa. Convertir a DA formal en mismo commit.
85
+ - Trigger verificable significa condición observable: "≥2 clientes distintos
86
+ reportan", "p95 > 60s en producción documentado", "uso > N veces/mes",
87
+ no "cuando sea relevante" o "más adelante".
88
+
89
+ ---
90
+
91
+ ## Excepciones legítimas
92
+
93
+ NO aplicar la regla al pie de la letra cuando:
94
+
95
+ 1. **El fix es ambiguo** — varias opciones razonables sin criterio claro para
96
+ elegir. Presentar opciones concretas con la recomendación y esperar
97
+ decisión rápida.
98
+ 2. **El fix es destructivo** — `rm -rf`, `git reset --hard`, `git push --force`,
99
+ eliminar tablas de BD. Esos siguen requiriendo confirmación explícita por
100
+ separado, sin importar que el problema esté detectado.
101
+ 3. **El fix tiene blast radius alto** — modifica configuración de CI, infra
102
+ compartida, contratos públicos de API. Presentar plan, pedir confirmación.
103
+ 4. **El bug requiere decisión de producto** — comportamiento esperado ambiguo,
104
+ breaking change. Explícito al usuario y esperar.
105
+
106
+ En todos los casos: presentar la opción y la recomendación, NO dejar el
107
+ problema sin reportar.
108
+
109
+ ---
110
+
111
+ ## Anti-patrones explícitos
112
+
113
+ - "Lo dejo como deuda residual" — sin DT/DA formal con criterio de disparo.
114
+ - "Esos tests ya estaban rotos antes" — usado para evitar arreglarlos.
115
+ - "No es parte del scope inmediato" — para esquivar un fix obvio.
116
+ - "Lo documento y tú decides" — para diferir trabajo claro al usuario.
117
+ - "Mediano plazo" sin trigger verificable.
118
+ - Excluir tests del glob, comentar checks, `|| true`, downgradear severidad de
119
+ un linter — para que el CI deje de fallar sin arreglar la causa.
120
+ - Mover archivos a `legacy/` o `deprecated/` sin plan de eliminación con
121
+ criterio de disparo.
122
+
123
+ ---
124
+
125
+ ## Relación con otras reglas
126
+
127
+ - `seguridad-agentes.md` — sección "Anti-fallback silencioso y anti-degradación"
128
+ cubre el mismo principio aplicado a agentes autónomos. Esta regla lo extiende
129
+ al trabajo del usuario.
130
+ - `git-workflow.md` — los commits siguen siendo atómicos; arreglar un problema
131
+ detectado puede requerir varios commits, no uno solo gigante.
132
+ - `pruebas.md` — los tests rotos son violaciones a esta regla. No se mergea
133
+ con tests rotos (excepción: tests rotos por decisión de producto en proceso).
134
+
135
+ ---
136
+
137
+ ## Origen de esta regla
138
+
139
+ Consolidada el 2026-05-04 a partir de cuatro feedbacks repetidos del usuario en
140
+ memorias nativas de Claude Code de los proyectos sigm, swl-ses y emaia
141
+ (2026-04-23 a 2026-05-03). Antes vivía duplicada en 4 archivos de feedback
142
+ distintos en 2 de los 3 proyectos. Promovida a regla global para eliminar
143
+ duplicación y aplicar uniformemente a todo proyecto del usuario.
144
+
145
+ Memoria nativa local correspondiente: redundante tras esta regla; mantener solo
146
+ una mención mínima en MEMORY.md de cada proyecto si se desea preservar el rastro
147
+ histórico, pero el contenido operativo vive aquí.
@@ -0,0 +1,167 @@
1
+ #!/usr/bin/env node
2
+ 'use strict';
3
+
4
+ /**
5
+ * benchmark-memoria.js — CLI runner para benchmark de retrieval sobre memoria SWL.
6
+ *
7
+ * Ejecuta queries de un dataset JSONL contra `hooks/lib/memory-search`
8
+ * (que usa RRF fusion sobre aprendizajes/sesiones/instintos) y reporta
9
+ * métricas R@5, R@10, R@20, MRR, nDCG@10, P@5.
10
+ *
11
+ * Patrón adoptado de `temp/agentmemory-main/benchmark/longmemeval-bench.ts`.
12
+ * Adaptado para swl-ses: file-based, sin embeddings ML, dataset SWL-específico.
13
+ *
14
+ * Uso:
15
+ * node scripts/benchmark-memoria.js [opciones]
16
+ *
17
+ * Opciones:
18
+ * --dataset <ruta> Dataset JSONL (default: .planning/benchmark/dataset.jsonl)
19
+ * --limit <n> Top-k a recuperar por query (default: 20)
20
+ * --json Output en JSON (para scripts)
21
+ * --verbose Detalle por query
22
+ *
23
+ * Exit codes:
24
+ * 0 - OK
25
+ * 1 - Error de I/O o dataset inválido
26
+ * 2 - Argumentos inválidos
27
+ *
28
+ * Persistencia opcional: si se setea SWL_BENCHMARK_PERSIST=1, escribe
29
+ * el resultado agregado a `.planning/evolucion/benchmark-memoria.jsonl`
30
+ * para tracking histórico.
31
+ */
32
+
33
+ const fs = require('fs');
34
+ const path = require('path');
35
+
36
+ const { ejecutarDataset } = require('./lib/longmemeval-runner');
37
+
38
+ const DATASET_DEFAULT = '.planning/benchmark/dataset.jsonl';
39
+ const HISTORICO_PATH = '.planning/evolucion/benchmark-memoria.jsonl';
40
+
41
+ function uso() {
42
+ console.error('Uso: node scripts/benchmark-memoria.js [--dataset <ruta>] [--limit <n>] [--json] [--verbose]');
43
+ process.exit(2);
44
+ }
45
+
46
+ function parseArgs(argv) {
47
+ const opts = {
48
+ dataset: DATASET_DEFAULT,
49
+ limit: 20,
50
+ json: false,
51
+ verbose: false,
52
+ };
53
+ for (let i = 0; i < argv.length; i++) {
54
+ const arg = argv[i];
55
+ if (arg === '--dataset') opts.dataset = argv[++i];
56
+ else if (arg === '--limit') opts.limit = parseInt(argv[++i], 10) || 20;
57
+ else if (arg === '--json') opts.json = true;
58
+ else if (arg === '--verbose') opts.verbose = true;
59
+ else if (arg === '--help' || arg === '-h') uso();
60
+ }
61
+ return opts;
62
+ }
63
+
64
+ function persistirHistorico(baseDir, resumen) {
65
+ if (process.env.SWL_BENCHMARK_PERSIST !== '1') return;
66
+ try {
67
+ const dirEvolucion = path.join(baseDir, '.planning', 'evolucion');
68
+ if (!fs.existsSync(dirEvolucion)) fs.mkdirSync(dirEvolucion, { recursive: true });
69
+ const linea = JSON.stringify({
70
+ timestamp: new Date().toISOString(),
71
+ ...resumen,
72
+ });
73
+ fs.appendFileSync(path.join(baseDir, HISTORICO_PATH), linea + '\n', 'utf8');
74
+ } catch (_) {
75
+ // best-effort
76
+ }
77
+ }
78
+
79
+ function reportarTexto(resultado, opts) {
80
+ const { promedio, dataset, entries } = resultado;
81
+
82
+ console.log('================================================================');
83
+ console.log(' Benchmark de retrieval de memoria SWL');
84
+ console.log('================================================================');
85
+ console.log('');
86
+ console.log(`Dataset: ${opts.dataset}`);
87
+ console.log(`Total queries: ${dataset.total}`);
88
+ console.log(` Reales: ${dataset.real}`);
89
+ console.log(` Placeholder: ${dataset.placeholder}`);
90
+ console.log(`Significativo: ${dataset.significativo ? 'sí' : 'NO (requiere ≥30 reales)'}`);
91
+ console.log('');
92
+
93
+ if (!dataset.significativo) {
94
+ console.log('⚠ ADVERTENCIA: dataset con menos de 30 queries reales.');
95
+ console.log(' Las métricas son INDICATIVAS, no estadísticamente significativas.');
96
+ console.log(' Para usar como gate de release, expandir el dataset con preguntas');
97
+ console.log(' curadas extraídas de uso real (ver SKILL.md de benchmark-memoria).');
98
+ console.log('');
99
+ }
100
+
101
+ console.log('────────────── Métricas agregadas ──────────────');
102
+ console.log(` Recall @ 5: ${(promedio.recall_at_5 * 100).toFixed(1)}%`);
103
+ console.log(` Recall @ 10: ${(promedio.recall_at_10 * 100).toFixed(1)}%`);
104
+ console.log(` Recall @ 20: ${(promedio.recall_at_20 * 100).toFixed(1)}%`);
105
+ console.log(` MRR: ${promedio.mrr.toFixed(3)}`);
106
+ console.log(` nDCG @ 10: ${promedio.ndcg_at_10.toFixed(3)}`);
107
+ console.log(` Precision @ 5: ${(promedio.precision_at_5 * 100).toFixed(1)}%`);
108
+ console.log('');
109
+
110
+ if (opts.verbose) {
111
+ console.log('────────────── Detalle por query ──────────────');
112
+ for (const r of entries) {
113
+ const mark = r.metricas.recall_at_5 > 0 ? '✓' : '✗';
114
+ console.log(` ${mark} ${r.question_id} [${r.category || 'n/a'}, ${r.status}] ` +
115
+ `R@5=${r.metricas.recall_at_5} R@10=${r.metricas.recall_at_10} ` +
116
+ `MRR=${r.metricas.mrr.toFixed(2)} (${r.latencyMs}ms)`);
117
+ if (r.metricas.recall_at_5 === 0 && opts.verbose) {
118
+ console.log(` Q: ${r.question.slice(0, 80)}`);
119
+ console.log(` Gold: ${r.goldIds.slice(0, 3).join(', ')}${r.goldIds.length > 3 ? '...' : ''}`);
120
+ console.log(` Retrieved: ${r.retrievedIds.slice(0, 5).join(', ')}`);
121
+ }
122
+ }
123
+ console.log('');
124
+ }
125
+ }
126
+
127
+ function main() {
128
+ const opts = parseArgs(process.argv.slice(2));
129
+ const baseDir = process.cwd();
130
+
131
+ if (!fs.existsSync(opts.dataset)) {
132
+ console.error(`Dataset no encontrado: ${opts.dataset}`);
133
+ console.error(`Crea uno o usa el placeholder en ${DATASET_DEFAULT}.`);
134
+ process.exit(1);
135
+ }
136
+
137
+ let resultado;
138
+ try {
139
+ resultado = ejecutarDataset(baseDir, opts.dataset, { limit: opts.limit });
140
+ } catch (err) {
141
+ console.error(`Error ejecutando benchmark: ${err.message}`);
142
+ process.exit(1);
143
+ }
144
+
145
+ if (opts.json) {
146
+ console.log(JSON.stringify(resultado, null, 2));
147
+ } else {
148
+ reportarTexto(resultado, opts);
149
+ }
150
+
151
+ persistirHistorico(baseDir, {
152
+ dataset: opts.dataset,
153
+ n: resultado.dataset.total,
154
+ significativo: resultado.dataset.significativo,
155
+ promedio: resultado.promedio,
156
+ });
157
+
158
+ process.exit(0);
159
+ }
160
+
161
+ if (require.main === module) {
162
+ main();
163
+ }
164
+
165
+ module.exports = {
166
+ parseArgs,
167
+ };
@@ -0,0 +1,151 @@
1
+ #!/usr/bin/env node
2
+ 'use strict';
3
+
4
+ /**
5
+ * detectar-aprendizajes-duplicados.js
6
+ *
7
+ * Detecta pares de entradas en `.planning/APRENDIZAJES.md` con alta similitud
8
+ * de tokens (Jaccard > umbral). Útil para identificar candidatos a fusionar
9
+ * cuando el hook de auto-extracción genera entradas redundantes.
10
+ *
11
+ * Patrón adoptado de `temp/agentmemory-main/src/functions/auto-forget.ts`
12
+ * (contradiction detection con Jaccard >= 0.9). Aquí se usa con threshold
13
+ * configurable más bajo (0.6 default) porque queremos sugerir, no auto-borrar.
14
+ *
15
+ * NO modifica APRENDIZAJES.md. Solo reporta. La acción de fusión queda en
16
+ * manos del usuario o de un comando separado (`/swl:aprender consolidar`).
17
+ *
18
+ * Uso:
19
+ * node scripts/detectar-aprendizajes-duplicados.js [threshold]
20
+ *
21
+ * Argumentos:
22
+ * threshold - Similitud mínima para reportar (default: 0.6, rango [0, 1]).
23
+ *
24
+ * Exit codes:
25
+ * 0 - Ejecución OK (haya o no duplicados)
26
+ * 1 - Error de I/O o parseo
27
+ *
28
+ * Output: tabla legible en stdout. Si se detectan ≥ 1 duplicados, también
29
+ * imprime sugerencia para revisar/consolidar.
30
+ */
31
+
32
+ const fs = require('fs');
33
+ const path = require('path');
34
+
35
+ const { tokenize, jaccard } = require('./lib/jaccard-similarity');
36
+
37
+ const RUTA_APRENDIZAJES = path.join(process.cwd(), '.planning', 'APRENDIZAJES.md');
38
+ const DEFAULT_THRESHOLD = 0.6;
39
+ const MAX_PARES_REPORTADOS = 30;
40
+
41
+ function parsearEntradas(contenido) {
42
+ const lineas = contenido.split('\n');
43
+ const entradas = [];
44
+ let actual = null;
45
+
46
+ for (let i = 0; i < lineas.length; i++) {
47
+ const linea = lineas[i];
48
+ if (linea.startsWith('## ')) {
49
+ if (actual) entradas.push(actual);
50
+ actual = {
51
+ lineaInicio: i + 1,
52
+ titulo: linea.slice(3).trim(),
53
+ contenido: '',
54
+ };
55
+ } else if (actual) {
56
+ actual.contenido += linea + '\n';
57
+ }
58
+ }
59
+ if (actual) entradas.push(actual);
60
+
61
+ // Filtrar entradas vacías o triviales (< 50 chars de contenido real)
62
+ return entradas.filter(e => e.contenido.replace(/\s/g, '').length >= 50);
63
+ }
64
+
65
+ function detectarDuplicados(entradas, threshold) {
66
+ const tokensCache = entradas.map(e => tokenize(e.titulo + ' ' + e.contenido));
67
+ const pares = [];
68
+
69
+ for (let i = 0; i < entradas.length; i++) {
70
+ for (let j = i + 1; j < entradas.length; j++) {
71
+ const sim = jaccard(tokensCache[i], tokensCache[j]);
72
+ if (sim >= threshold) {
73
+ pares.push({
74
+ entradaA: entradas[i],
75
+ entradaB: entradas[j],
76
+ similitud: sim,
77
+ });
78
+ }
79
+ }
80
+ }
81
+
82
+ pares.sort((a, b) => b.similitud - a.similitud);
83
+ return pares;
84
+ }
85
+
86
+ function reportarTexto(pares) {
87
+ if (pares.length === 0) {
88
+ console.log('Sin duplicados detectados sobre el umbral.');
89
+ return;
90
+ }
91
+
92
+ console.log(`Pares con similitud Jaccard ≥ umbral: ${pares.length}`);
93
+ console.log('');
94
+
95
+ const limite = Math.min(pares.length, MAX_PARES_REPORTADOS);
96
+ for (let i = 0; i < limite; i++) {
97
+ const p = pares[i];
98
+ console.log(` [${(p.similitud * 100).toFixed(1)}%] ` +
99
+ `L${p.entradaA.lineaInicio} ↔ L${p.entradaB.lineaInicio}`);
100
+ console.log(' A: ' + p.entradaA.titulo.slice(0, 80));
101
+ console.log(' B: ' + p.entradaB.titulo.slice(0, 80));
102
+ console.log('');
103
+ }
104
+
105
+ if (pares.length > limite) {
106
+ console.log(` ... ${pares.length - limite} pares adicionales no mostrados`);
107
+ }
108
+
109
+ console.log('Sugerencia: revisa los pares con mayor similitud y considera ' +
110
+ 'fusionarlos en una sola entrada con `/swl:aprender consolidar` o manualmente.');
111
+ }
112
+
113
+ function main() {
114
+ const threshold = parseFloat(process.argv[2]) || DEFAULT_THRESHOLD;
115
+
116
+ if (!Number.isFinite(threshold) || threshold < 0 || threshold > 1) {
117
+ console.error(`Threshold inválido: ${process.argv[2]}. Usar valor en [0, 1].`);
118
+ process.exit(1);
119
+ }
120
+
121
+ if (!fs.existsSync(RUTA_APRENDIZAJES)) {
122
+ console.error(`No existe ${RUTA_APRENDIZAJES}.`);
123
+ process.exit(1);
124
+ }
125
+
126
+ let contenido;
127
+ try {
128
+ contenido = fs.readFileSync(RUTA_APRENDIZAJES, 'utf8');
129
+ } catch (err) {
130
+ console.error(`Error leyendo ${RUTA_APRENDIZAJES}: ${err.message}`);
131
+ process.exit(1);
132
+ }
133
+
134
+ const entradas = parsearEntradas(contenido);
135
+ console.log(`Entradas encontradas: ${entradas.length}`);
136
+ console.log(`Threshold de similitud: ${threshold}`);
137
+ console.log('');
138
+
139
+ const pares = detectarDuplicados(entradas, threshold);
140
+ reportarTexto(pares);
141
+ }
142
+
143
+ if (require.main === module) {
144
+ main();
145
+ }
146
+
147
+ module.exports = {
148
+ parsearEntradas,
149
+ detectarDuplicados,
150
+ reportarTexto,
151
+ };