@saulwade/swl-ses 1.1.4 → 1.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (34) hide show
  1. package/CLAUDE.md +2 -2
  2. package/README.md +3 -3
  3. package/bin/swl-mcp-server.js +187 -0
  4. package/habilidades/benchmark-memoria/SKILL.md +186 -0
  5. package/habilidades/contenedores-docker/SKILL.md +8 -1
  6. package/habilidades/datos-etl/SKILL.md +18 -1
  7. package/habilidades/eval-framework/SKILL.md +212 -0
  8. package/habilidades/memoria-busqueda/SKILL.md +24 -1
  9. package/habilidades/planear-fase/SKILL.md +299 -269
  10. package/habilidades/postgresql-experto/SKILL.md +24 -1
  11. package/habilidades/verificar-trabajo/SKILL.md +7 -1
  12. package/hooks/lib/evolution-tracker.js +65 -11
  13. package/hooks/lib/memory-search.js +44 -13
  14. package/hooks/sugerir-contribuir.js +226 -0
  15. package/manifiestos/hooks-config.json +9 -0
  16. package/manifiestos/modulos.json +33 -1
  17. package/manifiestos/perfiles.json +2 -1
  18. package/package.json +4 -3
  19. package/plugin.json +343 -343
  20. package/scripts/benchmark-memoria.js +167 -0
  21. package/scripts/detectar-aprendizajes-duplicados.js +151 -0
  22. package/scripts/lib/benchmark-metrics.js +160 -0
  23. package/scripts/lib/eval-metrics-store.js +218 -0
  24. package/scripts/lib/eval-quality.js +171 -0
  25. package/scripts/lib/eval-schemas.js +144 -0
  26. package/scripts/lib/eval-self-correct.js +106 -0
  27. package/scripts/lib/eval-validator.js +185 -0
  28. package/scripts/lib/jaccard-similarity.js +98 -0
  29. package/scripts/lib/longmemeval-runner.js +125 -0
  30. package/scripts/lib/rrf-fusion.js +175 -0
  31. package/scripts/lib/scoring-instintos.js +40 -3
  32. package/scripts/mcp-server/README.md +128 -0
  33. package/scripts/mcp-server/handlers.js +206 -0
  34. package/scripts/run-eval.js +141 -0
@@ -0,0 +1,167 @@
1
+ #!/usr/bin/env node
2
+ 'use strict';
3
+
4
+ /**
5
+ * benchmark-memoria.js — CLI runner para benchmark de retrieval sobre memoria SWL.
6
+ *
7
+ * Ejecuta queries de un dataset JSONL contra `hooks/lib/memory-search`
8
+ * (que usa RRF fusion sobre aprendizajes/sesiones/instintos) y reporta
9
+ * métricas R@5, R@10, R@20, MRR, nDCG@10, P@5.
10
+ *
11
+ * Patrón adoptado de `temp/agentmemory-main/benchmark/longmemeval-bench.ts`.
12
+ * Adaptado para swl-ses: file-based, sin embeddings ML, dataset SWL-específico.
13
+ *
14
+ * Uso:
15
+ * node scripts/benchmark-memoria.js [opciones]
16
+ *
17
+ * Opciones:
18
+ * --dataset <ruta> Dataset JSONL (default: .planning/benchmark/dataset.jsonl)
19
+ * --limit <n> Top-k a recuperar por query (default: 20)
20
+ * --json Output en JSON (para scripts)
21
+ * --verbose Detalle por query
22
+ *
23
+ * Exit codes:
24
+ * 0 - OK
25
+ * 1 - Error de I/O o dataset inválido
26
+ * 2 - Argumentos inválidos
27
+ *
28
+ * Persistencia opcional: si se setea SWL_BENCHMARK_PERSIST=1, escribe
29
+ * el resultado agregado a `.planning/evolucion/benchmark-memoria.jsonl`
30
+ * para tracking histórico.
31
+ */
32
+
33
+ const fs = require('fs');
34
+ const path = require('path');
35
+
36
+ const { ejecutarDataset } = require('./lib/longmemeval-runner');
37
+
38
+ const DATASET_DEFAULT = '.planning/benchmark/dataset.jsonl';
39
+ const HISTORICO_PATH = '.planning/evolucion/benchmark-memoria.jsonl';
40
+
41
+ function uso() {
42
+ console.error('Uso: node scripts/benchmark-memoria.js [--dataset <ruta>] [--limit <n>] [--json] [--verbose]');
43
+ process.exit(2);
44
+ }
45
+
46
+ function parseArgs(argv) {
47
+ const opts = {
48
+ dataset: DATASET_DEFAULT,
49
+ limit: 20,
50
+ json: false,
51
+ verbose: false,
52
+ };
53
+ for (let i = 0; i < argv.length; i++) {
54
+ const arg = argv[i];
55
+ if (arg === '--dataset') opts.dataset = argv[++i];
56
+ else if (arg === '--limit') opts.limit = parseInt(argv[++i], 10) || 20;
57
+ else if (arg === '--json') opts.json = true;
58
+ else if (arg === '--verbose') opts.verbose = true;
59
+ else if (arg === '--help' || arg === '-h') uso();
60
+ }
61
+ return opts;
62
+ }
63
+
64
+ function persistirHistorico(baseDir, resumen) {
65
+ if (process.env.SWL_BENCHMARK_PERSIST !== '1') return;
66
+ try {
67
+ const dirEvolucion = path.join(baseDir, '.planning', 'evolucion');
68
+ if (!fs.existsSync(dirEvolucion)) fs.mkdirSync(dirEvolucion, { recursive: true });
69
+ const linea = JSON.stringify({
70
+ timestamp: new Date().toISOString(),
71
+ ...resumen,
72
+ });
73
+ fs.appendFileSync(path.join(baseDir, HISTORICO_PATH), linea + '\n', 'utf8');
74
+ } catch (_) {
75
+ // best-effort
76
+ }
77
+ }
78
+
79
+ function reportarTexto(resultado, opts) {
80
+ const { promedio, dataset, entries } = resultado;
81
+
82
+ console.log('================================================================');
83
+ console.log(' Benchmark de retrieval de memoria SWL');
84
+ console.log('================================================================');
85
+ console.log('');
86
+ console.log(`Dataset: ${opts.dataset}`);
87
+ console.log(`Total queries: ${dataset.total}`);
88
+ console.log(` Reales: ${dataset.real}`);
89
+ console.log(` Placeholder: ${dataset.placeholder}`);
90
+ console.log(`Significativo: ${dataset.significativo ? 'sí' : 'NO (requiere ≥30 reales)'}`);
91
+ console.log('');
92
+
93
+ if (!dataset.significativo) {
94
+ console.log('⚠ ADVERTENCIA: dataset con menos de 30 queries reales.');
95
+ console.log(' Las métricas son INDICATIVAS, no estadísticamente significativas.');
96
+ console.log(' Para usar como gate de release, expandir el dataset con preguntas');
97
+ console.log(' curadas extraídas de uso real (ver SKILL.md de benchmark-memoria).');
98
+ console.log('');
99
+ }
100
+
101
+ console.log('────────────── Métricas agregadas ──────────────');
102
+ console.log(` Recall @ 5: ${(promedio.recall_at_5 * 100).toFixed(1)}%`);
103
+ console.log(` Recall @ 10: ${(promedio.recall_at_10 * 100).toFixed(1)}%`);
104
+ console.log(` Recall @ 20: ${(promedio.recall_at_20 * 100).toFixed(1)}%`);
105
+ console.log(` MRR: ${promedio.mrr.toFixed(3)}`);
106
+ console.log(` nDCG @ 10: ${promedio.ndcg_at_10.toFixed(3)}`);
107
+ console.log(` Precision @ 5: ${(promedio.precision_at_5 * 100).toFixed(1)}%`);
108
+ console.log('');
109
+
110
+ if (opts.verbose) {
111
+ console.log('────────────── Detalle por query ──────────────');
112
+ for (const r of entries) {
113
+ const mark = r.metricas.recall_at_5 > 0 ? '✓' : '✗';
114
+ console.log(` ${mark} ${r.question_id} [${r.category || 'n/a'}, ${r.status}] ` +
115
+ `R@5=${r.metricas.recall_at_5} R@10=${r.metricas.recall_at_10} ` +
116
+ `MRR=${r.metricas.mrr.toFixed(2)} (${r.latencyMs}ms)`);
117
+ if (r.metricas.recall_at_5 === 0 && opts.verbose) {
118
+ console.log(` Q: ${r.question.slice(0, 80)}`);
119
+ console.log(` Gold: ${r.goldIds.slice(0, 3).join(', ')}${r.goldIds.length > 3 ? '...' : ''}`);
120
+ console.log(` Retrieved: ${r.retrievedIds.slice(0, 5).join(', ')}`);
121
+ }
122
+ }
123
+ console.log('');
124
+ }
125
+ }
126
+
127
+ function main() {
128
+ const opts = parseArgs(process.argv.slice(2));
129
+ const baseDir = process.cwd();
130
+
131
+ if (!fs.existsSync(opts.dataset)) {
132
+ console.error(`Dataset no encontrado: ${opts.dataset}`);
133
+ console.error(`Crea uno o usa el placeholder en ${DATASET_DEFAULT}.`);
134
+ process.exit(1);
135
+ }
136
+
137
+ let resultado;
138
+ try {
139
+ resultado = ejecutarDataset(baseDir, opts.dataset, { limit: opts.limit });
140
+ } catch (err) {
141
+ console.error(`Error ejecutando benchmark: ${err.message}`);
142
+ process.exit(1);
143
+ }
144
+
145
+ if (opts.json) {
146
+ console.log(JSON.stringify(resultado, null, 2));
147
+ } else {
148
+ reportarTexto(resultado, opts);
149
+ }
150
+
151
+ persistirHistorico(baseDir, {
152
+ dataset: opts.dataset,
153
+ n: resultado.dataset.total,
154
+ significativo: resultado.dataset.significativo,
155
+ promedio: resultado.promedio,
156
+ });
157
+
158
+ process.exit(0);
159
+ }
160
+
161
+ if (require.main === module) {
162
+ main();
163
+ }
164
+
165
+ module.exports = {
166
+ parseArgs,
167
+ };
@@ -0,0 +1,151 @@
1
+ #!/usr/bin/env node
2
+ 'use strict';
3
+
4
+ /**
5
+ * detectar-aprendizajes-duplicados.js
6
+ *
7
+ * Detecta pares de entradas en `.planning/APRENDIZAJES.md` con alta similitud
8
+ * de tokens (Jaccard > umbral). Útil para identificar candidatos a fusionar
9
+ * cuando el hook de auto-extracción genera entradas redundantes.
10
+ *
11
+ * Patrón adoptado de `temp/agentmemory-main/src/functions/auto-forget.ts`
12
+ * (contradiction detection con Jaccard >= 0.9). Aquí se usa con threshold
13
+ * configurable más bajo (0.6 default) porque queremos sugerir, no auto-borrar.
14
+ *
15
+ * NO modifica APRENDIZAJES.md. Solo reporta. La acción de fusión queda en
16
+ * manos del usuario o de un comando separado (`/swl:aprender consolidar`).
17
+ *
18
+ * Uso:
19
+ * node scripts/detectar-aprendizajes-duplicados.js [threshold]
20
+ *
21
+ * Argumentos:
22
+ * threshold - Similitud mínima para reportar (default: 0.6, rango [0, 1]).
23
+ *
24
+ * Exit codes:
25
+ * 0 - Ejecución OK (haya o no duplicados)
26
+ * 1 - Error de I/O o parseo
27
+ *
28
+ * Output: tabla legible en stdout. Si se detectan ≥ 1 duplicados, también
29
+ * imprime sugerencia para revisar/consolidar.
30
+ */
31
+
32
+ const fs = require('fs');
33
+ const path = require('path');
34
+
35
+ const { tokenize, jaccard } = require('./lib/jaccard-similarity');
36
+
37
+ const RUTA_APRENDIZAJES = path.join(process.cwd(), '.planning', 'APRENDIZAJES.md');
38
+ const DEFAULT_THRESHOLD = 0.6;
39
+ const MAX_PARES_REPORTADOS = 30;
40
+
41
+ function parsearEntradas(contenido) {
42
+ const lineas = contenido.split('\n');
43
+ const entradas = [];
44
+ let actual = null;
45
+
46
+ for (let i = 0; i < lineas.length; i++) {
47
+ const linea = lineas[i];
48
+ if (linea.startsWith('## ')) {
49
+ if (actual) entradas.push(actual);
50
+ actual = {
51
+ lineaInicio: i + 1,
52
+ titulo: linea.slice(3).trim(),
53
+ contenido: '',
54
+ };
55
+ } else if (actual) {
56
+ actual.contenido += linea + '\n';
57
+ }
58
+ }
59
+ if (actual) entradas.push(actual);
60
+
61
+ // Filtrar entradas vacías o triviales (< 50 chars de contenido real)
62
+ return entradas.filter(e => e.contenido.replace(/\s/g, '').length >= 50);
63
+ }
64
+
65
+ function detectarDuplicados(entradas, threshold) {
66
+ const tokensCache = entradas.map(e => tokenize(e.titulo + ' ' + e.contenido));
67
+ const pares = [];
68
+
69
+ for (let i = 0; i < entradas.length; i++) {
70
+ for (let j = i + 1; j < entradas.length; j++) {
71
+ const sim = jaccard(tokensCache[i], tokensCache[j]);
72
+ if (sim >= threshold) {
73
+ pares.push({
74
+ entradaA: entradas[i],
75
+ entradaB: entradas[j],
76
+ similitud: sim,
77
+ });
78
+ }
79
+ }
80
+ }
81
+
82
+ pares.sort((a, b) => b.similitud - a.similitud);
83
+ return pares;
84
+ }
85
+
86
+ function reportarTexto(pares) {
87
+ if (pares.length === 0) {
88
+ console.log('Sin duplicados detectados sobre el umbral.');
89
+ return;
90
+ }
91
+
92
+ console.log(`Pares con similitud Jaccard ≥ umbral: ${pares.length}`);
93
+ console.log('');
94
+
95
+ const limite = Math.min(pares.length, MAX_PARES_REPORTADOS);
96
+ for (let i = 0; i < limite; i++) {
97
+ const p = pares[i];
98
+ console.log(` [${(p.similitud * 100).toFixed(1)}%] ` +
99
+ `L${p.entradaA.lineaInicio} ↔ L${p.entradaB.lineaInicio}`);
100
+ console.log(' A: ' + p.entradaA.titulo.slice(0, 80));
101
+ console.log(' B: ' + p.entradaB.titulo.slice(0, 80));
102
+ console.log('');
103
+ }
104
+
105
+ if (pares.length > limite) {
106
+ console.log(` ... ${pares.length - limite} pares adicionales no mostrados`);
107
+ }
108
+
109
+ console.log('Sugerencia: revisa los pares con mayor similitud y considera ' +
110
+ 'fusionarlos en una sola entrada con `/swl:aprender consolidar` o manualmente.');
111
+ }
112
+
113
+ function main() {
114
+ const threshold = parseFloat(process.argv[2]) || DEFAULT_THRESHOLD;
115
+
116
+ if (!Number.isFinite(threshold) || threshold < 0 || threshold > 1) {
117
+ console.error(`Threshold inválido: ${process.argv[2]}. Usar valor en [0, 1].`);
118
+ process.exit(1);
119
+ }
120
+
121
+ if (!fs.existsSync(RUTA_APRENDIZAJES)) {
122
+ console.error(`No existe ${RUTA_APRENDIZAJES}.`);
123
+ process.exit(1);
124
+ }
125
+
126
+ let contenido;
127
+ try {
128
+ contenido = fs.readFileSync(RUTA_APRENDIZAJES, 'utf8');
129
+ } catch (err) {
130
+ console.error(`Error leyendo ${RUTA_APRENDIZAJES}: ${err.message}`);
131
+ process.exit(1);
132
+ }
133
+
134
+ const entradas = parsearEntradas(contenido);
135
+ console.log(`Entradas encontradas: ${entradas.length}`);
136
+ console.log(`Threshold de similitud: ${threshold}`);
137
+ console.log('');
138
+
139
+ const pares = detectarDuplicados(entradas, threshold);
140
+ reportarTexto(pares);
141
+ }
142
+
143
+ if (require.main === module) {
144
+ main();
145
+ }
146
+
147
+ module.exports = {
148
+ parsearEntradas,
149
+ detectarDuplicados,
150
+ reportarTexto,
151
+ };
@@ -0,0 +1,160 @@
1
+ 'use strict';
2
+
3
+ /**
4
+ * benchmark-metrics.js — Métricas de retrieval para benchmark de memoria SWL.
5
+ *
6
+ * Patrón adoptado de `temp/agentmemory-main/benchmark/longmemeval-bench.ts`.
7
+ * Funciones puras zero-deps. Adaptado a IDs SWL (aprendizaje, sesion,
8
+ * instinto) en lugar de session_id de agentmemory.
9
+ *
10
+ * Métricas:
11
+ * - recallAt(k): 1.0 si al menos un gold ID está en los top-k, sino 0.0
12
+ * - precisionAt(k): proporción de top-k que son gold
13
+ * - mrr: Mean Reciprocal Rank (1/rank del primer gold encontrado)
14
+ * - ndcgAt(k): Normalized Discounted Cumulative Gain
15
+ *
16
+ * @module scripts/lib/benchmark-metrics
17
+ */
18
+
19
+ // ── helpers ───────────────────────────────────────────────────────────────────
20
+
21
+ function asSet(arr) {
22
+ return new Set(Array.isArray(arr) ? arr : []);
23
+ }
24
+
25
+ // ── métricas individuales ─────────────────────────────────────────────────────
26
+
27
+ /**
28
+ * Recall @ k: 1.0 si ALGÚN id gold está en los primeros k retrieved.
29
+ *
30
+ * @param {string[]} retrievedIds - IDs ordenados (mejor primero).
31
+ * @param {string[]} goldIds - IDs correctos esperados.
32
+ * @param {number} k
33
+ * @returns {number} 0 o 1
34
+ */
35
+ function recallAt(retrievedIds, goldIds, k) {
36
+ if (!Array.isArray(retrievedIds) || !Array.isArray(goldIds)) return 0;
37
+ const topK = new Set(retrievedIds.slice(0, k));
38
+ return goldIds.some(g => topK.has(g)) ? 1.0 : 0.0;
39
+ }
40
+
41
+ /**
42
+ * Precision @ k: proporción de los primeros k retrieved que son gold.
43
+ *
44
+ * @param {string[]} retrievedIds
45
+ * @param {string[]} goldIds
46
+ * @param {number} k
47
+ * @returns {number} en [0, 1]
48
+ */
49
+ function precisionAt(retrievedIds, goldIds, k) {
50
+ if (!Array.isArray(retrievedIds) || !Array.isArray(goldIds) || k <= 0) return 0;
51
+ const goldSet = asSet(goldIds);
52
+ const topK = retrievedIds.slice(0, k);
53
+ if (topK.length === 0) return 0;
54
+ const hits = topK.filter(id => goldSet.has(id)).length;
55
+ return hits / topK.length;
56
+ }
57
+
58
+ /**
59
+ * Mean Reciprocal Rank: 1/rank del primer gold encontrado, o 0 si ninguno.
60
+ *
61
+ * @param {string[]} retrievedIds
62
+ * @param {string[]} goldIds
63
+ * @returns {number} en [0, 1]
64
+ */
65
+ function mrr(retrievedIds, goldIds) {
66
+ if (!Array.isArray(retrievedIds) || !Array.isArray(goldIds)) return 0;
67
+ const goldSet = asSet(goldIds);
68
+ for (let i = 0; i < retrievedIds.length; i++) {
69
+ if (goldSet.has(retrievedIds[i])) {
70
+ return 1 / (i + 1);
71
+ }
72
+ }
73
+ return 0;
74
+ }
75
+
76
+ function dcg(relevancias, k) {
77
+ let suma = 0;
78
+ for (let i = 0; i < Math.min(k, relevancias.length); i++) {
79
+ suma += (relevancias[i] ? 1 : 0) / Math.log2(i + 2);
80
+ }
81
+ return suma;
82
+ }
83
+
84
+ /**
85
+ * Normalized Discounted Cumulative Gain @ k.
86
+ *
87
+ * @param {string[]} retrievedIds
88
+ * @param {string[]} goldIds
89
+ * @param {number} k
90
+ * @returns {number} en [0, 1]
91
+ */
92
+ function ndcgAt(retrievedIds, goldIds, k) {
93
+ if (!Array.isArray(retrievedIds) || !Array.isArray(goldIds) || k <= 0) return 0;
94
+ const goldSet = asSet(goldIds);
95
+ const rels = retrievedIds.slice(0, k).map(id => goldSet.has(id));
96
+ const idealRels = Array.from({ length: Math.min(k, goldSet.size) }, () => true);
97
+ const idealDCG = dcg(idealRels, k);
98
+ if (idealDCG === 0) return 0;
99
+ return dcg(rels, k) / idealDCG;
100
+ }
101
+
102
+ // ── agregados ─────────────────────────────────────────────────────────────────
103
+
104
+ /**
105
+ * Calcula el conjunto completo de métricas para una query.
106
+ *
107
+ * @param {string[]} retrievedIds
108
+ * @param {string[]} goldIds
109
+ * @returns {{ recall_at_5, recall_at_10, recall_at_20, mrr, ndcg_at_10, precision_at_5 }}
110
+ */
111
+ function calcularMetricas(retrievedIds, goldIds) {
112
+ return {
113
+ recall_at_5: recallAt(retrievedIds, goldIds, 5),
114
+ recall_at_10: recallAt(retrievedIds, goldIds, 10),
115
+ recall_at_20: recallAt(retrievedIds, goldIds, 20),
116
+ mrr: mrr(retrievedIds, goldIds),
117
+ ndcg_at_10: ndcgAt(retrievedIds, goldIds, 10),
118
+ precision_at_5: precisionAt(retrievedIds, goldIds, 5),
119
+ };
120
+ }
121
+
122
+ /**
123
+ * Promedia métricas sobre múltiples queries.
124
+ *
125
+ * @param {Array<object>} resultados - Array de objetos producidos por calcularMetricas().
126
+ * @returns {object} Promedios con campo `n` (cantidad de queries).
127
+ */
128
+ function promediar(resultados) {
129
+ if (!Array.isArray(resultados) || resultados.length === 0) {
130
+ return {
131
+ n: 0,
132
+ recall_at_5: 0,
133
+ recall_at_10: 0,
134
+ recall_at_20: 0,
135
+ mrr: 0,
136
+ ndcg_at_10: 0,
137
+ precision_at_5: 0,
138
+ };
139
+ }
140
+
141
+ const claves = ['recall_at_5', 'recall_at_10', 'recall_at_20', 'mrr', 'ndcg_at_10', 'precision_at_5'];
142
+ const promedio = { n: resultados.length };
143
+ for (const k of claves) {
144
+ const sum = resultados.reduce((a, r) => a + (r[k] || 0), 0);
145
+ promedio[k] = sum / resultados.length;
146
+ }
147
+ return promedio;
148
+ }
149
+
150
+ // ── exports ───────────────────────────────────────────────────────────────────
151
+
152
+ module.exports = {
153
+ recallAt,
154
+ precisionAt,
155
+ mrr,
156
+ ndcgAt,
157
+ dcg,
158
+ calcularMetricas,
159
+ promediar,
160
+ };
@@ -0,0 +1,218 @@
1
+ 'use strict';
2
+
3
+ /**
4
+ * eval-metrics-store.js — Persistencia agregada de métricas de evaluación.
5
+ *
6
+ * Patrón adoptado de `temp/agentmemory-main/src/eval/metrics-store.ts`.
7
+ * Adaptado a swl-ses: file-based en lugar de SQLite. Persiste:
8
+ * - JSONL append-only: `.planning/evolucion/eval-results.jsonl` (cada eval individual)
9
+ * - JSON agregado: `.planning/evolucion/eval-metrics.json` (totales por functionId)
10
+ *
11
+ * El JSONL preserva el detalle histórico (un evento por evaluación). El JSON
12
+ * agregado se recalcula incrementalmente: avg latency, avg quality, success
13
+ * rate por functionId. Lectura barata sin escanear todo el JSONL.
14
+ *
15
+ * Funciones puras donde es posible. Las funciones I/O usan escrituras atómicas
16
+ * (atomicWriteJSON) para `eval-metrics.json`. El JSONL usa appendFileSync
17
+ * (regla SWL: JSONL para alta frecuencia).
18
+ *
19
+ * @module scripts/lib/eval-metrics-store
20
+ */
21
+
22
+ const fs = require('fs');
23
+ const path = require('path');
24
+
25
+ let atomicWriteJSON;
26
+ try {
27
+ ({ atomicWriteJSON } = require('../../hooks/lib/atomic-write'));
28
+ } catch {
29
+ atomicWriteJSON = (p, o) => fs.writeFileSync(p, JSON.stringify(o, null, 2), 'utf8');
30
+ }
31
+
32
+ // ── constantes ────────────────────────────────────────────────────────────────
33
+
34
+ const DIR_EVOLUCION = path.join('.planning', 'evolucion');
35
+ const RUTA_JSONL = path.join(DIR_EVOLUCION, 'eval-results.jsonl');
36
+ const RUTA_AGREGADO = path.join(DIR_EVOLUCION, 'eval-metrics.json');
37
+
38
+ // ── helpers ───────────────────────────────────────────────────────────────────
39
+
40
+ function asegurarDir(baseDir) {
41
+ const dir = path.join(baseDir, DIR_EVOLUCION);
42
+ if (!fs.existsSync(dir)) {
43
+ fs.mkdirSync(dir, { recursive: true });
44
+ }
45
+ }
46
+
47
+ function leerAgregado(baseDir) {
48
+ const ruta = path.join(baseDir, RUTA_AGREGADO);
49
+ if (!fs.existsSync(ruta)) return {};
50
+ try {
51
+ return JSON.parse(fs.readFileSync(ruta, 'utf8'));
52
+ } catch {
53
+ return {};
54
+ }
55
+ }
56
+
57
+ // ── API pública ───────────────────────────────────────────────────────────────
58
+
59
+ /**
60
+ * Registra una evaluación completada.
61
+ *
62
+ * Append-only al JSONL + actualización incremental del agregado.
63
+ *
64
+ * @param {string} baseDir - Raíz del proyecto.
65
+ * @param {object} evento
66
+ * @param {string} evento.functionId - Identificador de la función evaluada.
67
+ * @param {number} evento.latencyMs
68
+ * @param {boolean} evento.success
69
+ * @param {number} [evento.qualityScore] - en [0, 100]
70
+ * @param {object} [evento.metadata]
71
+ * @returns {{ recorded: boolean, error?: string }}
72
+ */
73
+ function registrar(baseDir, evento) {
74
+ if (!evento || typeof evento.functionId !== 'string') {
75
+ return { recorded: false, error: 'functionId requerido' };
76
+ }
77
+
78
+ asegurarDir(baseDir);
79
+
80
+ const ts = new Date().toISOString();
81
+ const lineaJSONL = JSON.stringify({
82
+ timestamp: ts,
83
+ functionId: evento.functionId,
84
+ latencyMs: typeof evento.latencyMs === 'number' ? evento.latencyMs : 0,
85
+ success: Boolean(evento.success),
86
+ qualityScore: typeof evento.qualityScore === 'number' ? evento.qualityScore : null,
87
+ metadata: evento.metadata || null,
88
+ });
89
+
90
+ try {
91
+ fs.appendFileSync(path.join(baseDir, RUTA_JSONL), lineaJSONL + '\n', 'utf8');
92
+ } catch (err) {
93
+ return { recorded: false, error: 'JSONL append failed: ' + err.message };
94
+ }
95
+
96
+ // Actualizar agregado
97
+ try {
98
+ const agregado = leerAgregado(baseDir);
99
+ const fid = evento.functionId;
100
+ const m = agregado[fid] || {
101
+ functionId: fid,
102
+ totalCalls: 0,
103
+ successCount: 0,
104
+ failureCount: 0,
105
+ avgLatencyMs: 0,
106
+ avgQualityScore: 0,
107
+ qualityCallCounts: 0,
108
+ lastUpdatedAt: ts,
109
+ };
110
+
111
+ const prev = m.totalCalls;
112
+ m.totalCalls += 1;
113
+ m.avgLatencyMs = (m.avgLatencyMs * prev + (evento.latencyMs || 0)) / m.totalCalls;
114
+ if (evento.success) m.successCount += 1;
115
+ else m.failureCount += 1;
116
+
117
+ if (typeof evento.qualityScore === 'number') {
118
+ const prevQ = m.qualityCallCounts || 0;
119
+ m.avgQualityScore = (m.avgQualityScore * prevQ + evento.qualityScore) / (prevQ + 1);
120
+ m.qualityCallCounts = prevQ + 1;
121
+ }
122
+
123
+ m.lastUpdatedAt = ts;
124
+ agregado[fid] = m;
125
+ atomicWriteJSON(path.join(baseDir, RUTA_AGREGADO), agregado);
126
+ } catch (err) {
127
+ return { recorded: true, error: 'Aggregate update failed: ' + err.message };
128
+ }
129
+
130
+ return { recorded: true };
131
+ }
132
+
133
+ /**
134
+ * Lee las métricas agregadas para un functionId específico.
135
+ * @param {string} baseDir
136
+ * @param {string} functionId
137
+ * @returns {object|null}
138
+ */
139
+ function obtener(baseDir, functionId) {
140
+ const agregado = leerAgregado(baseDir);
141
+ return agregado[functionId] || null;
142
+ }
143
+
144
+ /**
145
+ * Lee todas las métricas agregadas.
146
+ * @param {string} baseDir
147
+ * @returns {object[]}
148
+ */
149
+ function obtenerTodos(baseDir) {
150
+ const agregado = leerAgregado(baseDir);
151
+ return Object.values(agregado);
152
+ }
153
+
154
+ /**
155
+ * Recorre el JSONL y reconstruye el agregado desde cero.
156
+ * Útil tras corrupción del agregado o auditoría histórica.
157
+ *
158
+ * @param {string} baseDir
159
+ * @returns {{ rebuilt: number, functions: number }}
160
+ */
161
+ function reconstruirAgregado(baseDir) {
162
+ const ruta = path.join(baseDir, RUTA_JSONL);
163
+ if (!fs.existsSync(ruta)) return { rebuilt: 0, functions: 0 };
164
+
165
+ const agregado = {};
166
+ let lineas = 0;
167
+ const contenido = fs.readFileSync(ruta, 'utf8');
168
+ for (const linea of contenido.split('\n')) {
169
+ if (!linea.trim()) continue;
170
+ let evento;
171
+ try { evento = JSON.parse(linea); } catch { continue; }
172
+
173
+ const fid = evento.functionId;
174
+ if (!fid) continue;
175
+ lineas++;
176
+
177
+ const m = agregado[fid] || {
178
+ functionId: fid,
179
+ totalCalls: 0,
180
+ successCount: 0,
181
+ failureCount: 0,
182
+ avgLatencyMs: 0,
183
+ avgQualityScore: 0,
184
+ qualityCallCounts: 0,
185
+ lastUpdatedAt: evento.timestamp,
186
+ };
187
+
188
+ const prev = m.totalCalls;
189
+ m.totalCalls += 1;
190
+ m.avgLatencyMs = (m.avgLatencyMs * prev + (evento.latencyMs || 0)) / m.totalCalls;
191
+ if (evento.success) m.successCount += 1;
192
+ else m.failureCount += 1;
193
+
194
+ if (typeof evento.qualityScore === 'number') {
195
+ const prevQ = m.qualityCallCounts || 0;
196
+ m.avgQualityScore = (m.avgQualityScore * prevQ + evento.qualityScore) / (prevQ + 1);
197
+ m.qualityCallCounts = prevQ + 1;
198
+ }
199
+
200
+ m.lastUpdatedAt = evento.timestamp;
201
+ agregado[fid] = m;
202
+ }
203
+
204
+ asegurarDir(baseDir);
205
+ atomicWriteJSON(path.join(baseDir, RUTA_AGREGADO), agregado);
206
+ return { rebuilt: lineas, functions: Object.keys(agregado).length };
207
+ }
208
+
209
+ // ── exports ───────────────────────────────────────────────────────────────────
210
+
211
+ module.exports = {
212
+ registrar,
213
+ obtener,
214
+ obtenerTodos,
215
+ reconstruirAgregado,
216
+ RUTA_JSONL,
217
+ RUTA_AGREGADO,
218
+ };