@saulwade/swl-ses 1.1.4 → 1.2.0
This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
- package/CLAUDE.md +2 -2
- package/README.md +3 -3
- package/bin/swl-mcp-server.js +187 -0
- package/habilidades/benchmark-memoria/SKILL.md +186 -0
- package/habilidades/contenedores-docker/SKILL.md +8 -1
- package/habilidades/datos-etl/SKILL.md +18 -1
- package/habilidades/eval-framework/SKILL.md +212 -0
- package/habilidades/memoria-busqueda/SKILL.md +24 -1
- package/habilidades/planear-fase/SKILL.md +299 -269
- package/habilidades/postgresql-experto/SKILL.md +24 -1
- package/habilidades/verificar-trabajo/SKILL.md +7 -1
- package/hooks/lib/evolution-tracker.js +65 -11
- package/hooks/lib/memory-search.js +44 -13
- package/hooks/sugerir-contribuir.js +226 -0
- package/manifiestos/hooks-config.json +9 -0
- package/manifiestos/modulos.json +33 -1
- package/manifiestos/perfiles.json +2 -1
- package/package.json +4 -3
- package/plugin.json +343 -343
- package/scripts/benchmark-memoria.js +167 -0
- package/scripts/detectar-aprendizajes-duplicados.js +151 -0
- package/scripts/lib/benchmark-metrics.js +160 -0
- package/scripts/lib/eval-metrics-store.js +218 -0
- package/scripts/lib/eval-quality.js +171 -0
- package/scripts/lib/eval-schemas.js +144 -0
- package/scripts/lib/eval-self-correct.js +106 -0
- package/scripts/lib/eval-validator.js +185 -0
- package/scripts/lib/jaccard-similarity.js +98 -0
- package/scripts/lib/longmemeval-runner.js +125 -0
- package/scripts/lib/rrf-fusion.js +175 -0
- package/scripts/lib/scoring-instintos.js +40 -3
- package/scripts/mcp-server/README.md +128 -0
- package/scripts/mcp-server/handlers.js +206 -0
- package/scripts/run-eval.js +141 -0
|
@@ -0,0 +1,167 @@
|
|
|
1
|
+
#!/usr/bin/env node
|
|
2
|
+
'use strict';
|
|
3
|
+
|
|
4
|
+
/**
|
|
5
|
+
* benchmark-memoria.js — CLI runner para benchmark de retrieval sobre memoria SWL.
|
|
6
|
+
*
|
|
7
|
+
* Ejecuta queries de un dataset JSONL contra `hooks/lib/memory-search`
|
|
8
|
+
* (que usa RRF fusion sobre aprendizajes/sesiones/instintos) y reporta
|
|
9
|
+
* métricas R@5, R@10, R@20, MRR, nDCG@10, P@5.
|
|
10
|
+
*
|
|
11
|
+
* Patrón adoptado de `temp/agentmemory-main/benchmark/longmemeval-bench.ts`.
|
|
12
|
+
* Adaptado para swl-ses: file-based, sin embeddings ML, dataset SWL-específico.
|
|
13
|
+
*
|
|
14
|
+
* Uso:
|
|
15
|
+
* node scripts/benchmark-memoria.js [opciones]
|
|
16
|
+
*
|
|
17
|
+
* Opciones:
|
|
18
|
+
* --dataset <ruta> Dataset JSONL (default: .planning/benchmark/dataset.jsonl)
|
|
19
|
+
* --limit <n> Top-k a recuperar por query (default: 20)
|
|
20
|
+
* --json Output en JSON (para scripts)
|
|
21
|
+
* --verbose Detalle por query
|
|
22
|
+
*
|
|
23
|
+
* Exit codes:
|
|
24
|
+
* 0 - OK
|
|
25
|
+
* 1 - Error de I/O o dataset inválido
|
|
26
|
+
* 2 - Argumentos inválidos
|
|
27
|
+
*
|
|
28
|
+
* Persistencia opcional: si se setea SWL_BENCHMARK_PERSIST=1, escribe
|
|
29
|
+
* el resultado agregado a `.planning/evolucion/benchmark-memoria.jsonl`
|
|
30
|
+
* para tracking histórico.
|
|
31
|
+
*/
|
|
32
|
+
|
|
33
|
+
const fs = require('fs');
|
|
34
|
+
const path = require('path');
|
|
35
|
+
|
|
36
|
+
const { ejecutarDataset } = require('./lib/longmemeval-runner');
|
|
37
|
+
|
|
38
|
+
const DATASET_DEFAULT = '.planning/benchmark/dataset.jsonl';
|
|
39
|
+
const HISTORICO_PATH = '.planning/evolucion/benchmark-memoria.jsonl';
|
|
40
|
+
|
|
41
|
+
function uso() {
|
|
42
|
+
console.error('Uso: node scripts/benchmark-memoria.js [--dataset <ruta>] [--limit <n>] [--json] [--verbose]');
|
|
43
|
+
process.exit(2);
|
|
44
|
+
}
|
|
45
|
+
|
|
46
|
+
function parseArgs(argv) {
|
|
47
|
+
const opts = {
|
|
48
|
+
dataset: DATASET_DEFAULT,
|
|
49
|
+
limit: 20,
|
|
50
|
+
json: false,
|
|
51
|
+
verbose: false,
|
|
52
|
+
};
|
|
53
|
+
for (let i = 0; i < argv.length; i++) {
|
|
54
|
+
const arg = argv[i];
|
|
55
|
+
if (arg === '--dataset') opts.dataset = argv[++i];
|
|
56
|
+
else if (arg === '--limit') opts.limit = parseInt(argv[++i], 10) || 20;
|
|
57
|
+
else if (arg === '--json') opts.json = true;
|
|
58
|
+
else if (arg === '--verbose') opts.verbose = true;
|
|
59
|
+
else if (arg === '--help' || arg === '-h') uso();
|
|
60
|
+
}
|
|
61
|
+
return opts;
|
|
62
|
+
}
|
|
63
|
+
|
|
64
|
+
function persistirHistorico(baseDir, resumen) {
|
|
65
|
+
if (process.env.SWL_BENCHMARK_PERSIST !== '1') return;
|
|
66
|
+
try {
|
|
67
|
+
const dirEvolucion = path.join(baseDir, '.planning', 'evolucion');
|
|
68
|
+
if (!fs.existsSync(dirEvolucion)) fs.mkdirSync(dirEvolucion, { recursive: true });
|
|
69
|
+
const linea = JSON.stringify({
|
|
70
|
+
timestamp: new Date().toISOString(),
|
|
71
|
+
...resumen,
|
|
72
|
+
});
|
|
73
|
+
fs.appendFileSync(path.join(baseDir, HISTORICO_PATH), linea + '\n', 'utf8');
|
|
74
|
+
} catch (_) {
|
|
75
|
+
// best-effort
|
|
76
|
+
}
|
|
77
|
+
}
|
|
78
|
+
|
|
79
|
+
function reportarTexto(resultado, opts) {
|
|
80
|
+
const { promedio, dataset, entries } = resultado;
|
|
81
|
+
|
|
82
|
+
console.log('================================================================');
|
|
83
|
+
console.log(' Benchmark de retrieval de memoria SWL');
|
|
84
|
+
console.log('================================================================');
|
|
85
|
+
console.log('');
|
|
86
|
+
console.log(`Dataset: ${opts.dataset}`);
|
|
87
|
+
console.log(`Total queries: ${dataset.total}`);
|
|
88
|
+
console.log(` Reales: ${dataset.real}`);
|
|
89
|
+
console.log(` Placeholder: ${dataset.placeholder}`);
|
|
90
|
+
console.log(`Significativo: ${dataset.significativo ? 'sí' : 'NO (requiere ≥30 reales)'}`);
|
|
91
|
+
console.log('');
|
|
92
|
+
|
|
93
|
+
if (!dataset.significativo) {
|
|
94
|
+
console.log('⚠ ADVERTENCIA: dataset con menos de 30 queries reales.');
|
|
95
|
+
console.log(' Las métricas son INDICATIVAS, no estadísticamente significativas.');
|
|
96
|
+
console.log(' Para usar como gate de release, expandir el dataset con preguntas');
|
|
97
|
+
console.log(' curadas extraídas de uso real (ver SKILL.md de benchmark-memoria).');
|
|
98
|
+
console.log('');
|
|
99
|
+
}
|
|
100
|
+
|
|
101
|
+
console.log('────────────── Métricas agregadas ──────────────');
|
|
102
|
+
console.log(` Recall @ 5: ${(promedio.recall_at_5 * 100).toFixed(1)}%`);
|
|
103
|
+
console.log(` Recall @ 10: ${(promedio.recall_at_10 * 100).toFixed(1)}%`);
|
|
104
|
+
console.log(` Recall @ 20: ${(promedio.recall_at_20 * 100).toFixed(1)}%`);
|
|
105
|
+
console.log(` MRR: ${promedio.mrr.toFixed(3)}`);
|
|
106
|
+
console.log(` nDCG @ 10: ${promedio.ndcg_at_10.toFixed(3)}`);
|
|
107
|
+
console.log(` Precision @ 5: ${(promedio.precision_at_5 * 100).toFixed(1)}%`);
|
|
108
|
+
console.log('');
|
|
109
|
+
|
|
110
|
+
if (opts.verbose) {
|
|
111
|
+
console.log('────────────── Detalle por query ──────────────');
|
|
112
|
+
for (const r of entries) {
|
|
113
|
+
const mark = r.metricas.recall_at_5 > 0 ? '✓' : '✗';
|
|
114
|
+
console.log(` ${mark} ${r.question_id} [${r.category || 'n/a'}, ${r.status}] ` +
|
|
115
|
+
`R@5=${r.metricas.recall_at_5} R@10=${r.metricas.recall_at_10} ` +
|
|
116
|
+
`MRR=${r.metricas.mrr.toFixed(2)} (${r.latencyMs}ms)`);
|
|
117
|
+
if (r.metricas.recall_at_5 === 0 && opts.verbose) {
|
|
118
|
+
console.log(` Q: ${r.question.slice(0, 80)}`);
|
|
119
|
+
console.log(` Gold: ${r.goldIds.slice(0, 3).join(', ')}${r.goldIds.length > 3 ? '...' : ''}`);
|
|
120
|
+
console.log(` Retrieved: ${r.retrievedIds.slice(0, 5).join(', ')}`);
|
|
121
|
+
}
|
|
122
|
+
}
|
|
123
|
+
console.log('');
|
|
124
|
+
}
|
|
125
|
+
}
|
|
126
|
+
|
|
127
|
+
function main() {
|
|
128
|
+
const opts = parseArgs(process.argv.slice(2));
|
|
129
|
+
const baseDir = process.cwd();
|
|
130
|
+
|
|
131
|
+
if (!fs.existsSync(opts.dataset)) {
|
|
132
|
+
console.error(`Dataset no encontrado: ${opts.dataset}`);
|
|
133
|
+
console.error(`Crea uno o usa el placeholder en ${DATASET_DEFAULT}.`);
|
|
134
|
+
process.exit(1);
|
|
135
|
+
}
|
|
136
|
+
|
|
137
|
+
let resultado;
|
|
138
|
+
try {
|
|
139
|
+
resultado = ejecutarDataset(baseDir, opts.dataset, { limit: opts.limit });
|
|
140
|
+
} catch (err) {
|
|
141
|
+
console.error(`Error ejecutando benchmark: ${err.message}`);
|
|
142
|
+
process.exit(1);
|
|
143
|
+
}
|
|
144
|
+
|
|
145
|
+
if (opts.json) {
|
|
146
|
+
console.log(JSON.stringify(resultado, null, 2));
|
|
147
|
+
} else {
|
|
148
|
+
reportarTexto(resultado, opts);
|
|
149
|
+
}
|
|
150
|
+
|
|
151
|
+
persistirHistorico(baseDir, {
|
|
152
|
+
dataset: opts.dataset,
|
|
153
|
+
n: resultado.dataset.total,
|
|
154
|
+
significativo: resultado.dataset.significativo,
|
|
155
|
+
promedio: resultado.promedio,
|
|
156
|
+
});
|
|
157
|
+
|
|
158
|
+
process.exit(0);
|
|
159
|
+
}
|
|
160
|
+
|
|
161
|
+
if (require.main === module) {
|
|
162
|
+
main();
|
|
163
|
+
}
|
|
164
|
+
|
|
165
|
+
module.exports = {
|
|
166
|
+
parseArgs,
|
|
167
|
+
};
|
|
@@ -0,0 +1,151 @@
|
|
|
1
|
+
#!/usr/bin/env node
|
|
2
|
+
'use strict';
|
|
3
|
+
|
|
4
|
+
/**
|
|
5
|
+
* detectar-aprendizajes-duplicados.js
|
|
6
|
+
*
|
|
7
|
+
* Detecta pares de entradas en `.planning/APRENDIZAJES.md` con alta similitud
|
|
8
|
+
* de tokens (Jaccard > umbral). Útil para identificar candidatos a fusionar
|
|
9
|
+
* cuando el hook de auto-extracción genera entradas redundantes.
|
|
10
|
+
*
|
|
11
|
+
* Patrón adoptado de `temp/agentmemory-main/src/functions/auto-forget.ts`
|
|
12
|
+
* (contradiction detection con Jaccard >= 0.9). Aquí se usa con threshold
|
|
13
|
+
* configurable más bajo (0.6 default) porque queremos sugerir, no auto-borrar.
|
|
14
|
+
*
|
|
15
|
+
* NO modifica APRENDIZAJES.md. Solo reporta. La acción de fusión queda en
|
|
16
|
+
* manos del usuario o de un comando separado (`/swl:aprender consolidar`).
|
|
17
|
+
*
|
|
18
|
+
* Uso:
|
|
19
|
+
* node scripts/detectar-aprendizajes-duplicados.js [threshold]
|
|
20
|
+
*
|
|
21
|
+
* Argumentos:
|
|
22
|
+
* threshold - Similitud mínima para reportar (default: 0.6, rango [0, 1]).
|
|
23
|
+
*
|
|
24
|
+
* Exit codes:
|
|
25
|
+
* 0 - Ejecución OK (haya o no duplicados)
|
|
26
|
+
* 1 - Error de I/O o parseo
|
|
27
|
+
*
|
|
28
|
+
* Output: tabla legible en stdout. Si se detectan ≥ 1 duplicados, también
|
|
29
|
+
* imprime sugerencia para revisar/consolidar.
|
|
30
|
+
*/
|
|
31
|
+
|
|
32
|
+
const fs = require('fs');
|
|
33
|
+
const path = require('path');
|
|
34
|
+
|
|
35
|
+
const { tokenize, jaccard } = require('./lib/jaccard-similarity');
|
|
36
|
+
|
|
37
|
+
const RUTA_APRENDIZAJES = path.join(process.cwd(), '.planning', 'APRENDIZAJES.md');
|
|
38
|
+
const DEFAULT_THRESHOLD = 0.6;
|
|
39
|
+
const MAX_PARES_REPORTADOS = 30;
|
|
40
|
+
|
|
41
|
+
function parsearEntradas(contenido) {
|
|
42
|
+
const lineas = contenido.split('\n');
|
|
43
|
+
const entradas = [];
|
|
44
|
+
let actual = null;
|
|
45
|
+
|
|
46
|
+
for (let i = 0; i < lineas.length; i++) {
|
|
47
|
+
const linea = lineas[i];
|
|
48
|
+
if (linea.startsWith('## ')) {
|
|
49
|
+
if (actual) entradas.push(actual);
|
|
50
|
+
actual = {
|
|
51
|
+
lineaInicio: i + 1,
|
|
52
|
+
titulo: linea.slice(3).trim(),
|
|
53
|
+
contenido: '',
|
|
54
|
+
};
|
|
55
|
+
} else if (actual) {
|
|
56
|
+
actual.contenido += linea + '\n';
|
|
57
|
+
}
|
|
58
|
+
}
|
|
59
|
+
if (actual) entradas.push(actual);
|
|
60
|
+
|
|
61
|
+
// Filtrar entradas vacías o triviales (< 50 chars de contenido real)
|
|
62
|
+
return entradas.filter(e => e.contenido.replace(/\s/g, '').length >= 50);
|
|
63
|
+
}
|
|
64
|
+
|
|
65
|
+
function detectarDuplicados(entradas, threshold) {
|
|
66
|
+
const tokensCache = entradas.map(e => tokenize(e.titulo + ' ' + e.contenido));
|
|
67
|
+
const pares = [];
|
|
68
|
+
|
|
69
|
+
for (let i = 0; i < entradas.length; i++) {
|
|
70
|
+
for (let j = i + 1; j < entradas.length; j++) {
|
|
71
|
+
const sim = jaccard(tokensCache[i], tokensCache[j]);
|
|
72
|
+
if (sim >= threshold) {
|
|
73
|
+
pares.push({
|
|
74
|
+
entradaA: entradas[i],
|
|
75
|
+
entradaB: entradas[j],
|
|
76
|
+
similitud: sim,
|
|
77
|
+
});
|
|
78
|
+
}
|
|
79
|
+
}
|
|
80
|
+
}
|
|
81
|
+
|
|
82
|
+
pares.sort((a, b) => b.similitud - a.similitud);
|
|
83
|
+
return pares;
|
|
84
|
+
}
|
|
85
|
+
|
|
86
|
+
function reportarTexto(pares) {
|
|
87
|
+
if (pares.length === 0) {
|
|
88
|
+
console.log('Sin duplicados detectados sobre el umbral.');
|
|
89
|
+
return;
|
|
90
|
+
}
|
|
91
|
+
|
|
92
|
+
console.log(`Pares con similitud Jaccard ≥ umbral: ${pares.length}`);
|
|
93
|
+
console.log('');
|
|
94
|
+
|
|
95
|
+
const limite = Math.min(pares.length, MAX_PARES_REPORTADOS);
|
|
96
|
+
for (let i = 0; i < limite; i++) {
|
|
97
|
+
const p = pares[i];
|
|
98
|
+
console.log(` [${(p.similitud * 100).toFixed(1)}%] ` +
|
|
99
|
+
`L${p.entradaA.lineaInicio} ↔ L${p.entradaB.lineaInicio}`);
|
|
100
|
+
console.log(' A: ' + p.entradaA.titulo.slice(0, 80));
|
|
101
|
+
console.log(' B: ' + p.entradaB.titulo.slice(0, 80));
|
|
102
|
+
console.log('');
|
|
103
|
+
}
|
|
104
|
+
|
|
105
|
+
if (pares.length > limite) {
|
|
106
|
+
console.log(` ... ${pares.length - limite} pares adicionales no mostrados`);
|
|
107
|
+
}
|
|
108
|
+
|
|
109
|
+
console.log('Sugerencia: revisa los pares con mayor similitud y considera ' +
|
|
110
|
+
'fusionarlos en una sola entrada con `/swl:aprender consolidar` o manualmente.');
|
|
111
|
+
}
|
|
112
|
+
|
|
113
|
+
function main() {
|
|
114
|
+
const threshold = parseFloat(process.argv[2]) || DEFAULT_THRESHOLD;
|
|
115
|
+
|
|
116
|
+
if (!Number.isFinite(threshold) || threshold < 0 || threshold > 1) {
|
|
117
|
+
console.error(`Threshold inválido: ${process.argv[2]}. Usar valor en [0, 1].`);
|
|
118
|
+
process.exit(1);
|
|
119
|
+
}
|
|
120
|
+
|
|
121
|
+
if (!fs.existsSync(RUTA_APRENDIZAJES)) {
|
|
122
|
+
console.error(`No existe ${RUTA_APRENDIZAJES}.`);
|
|
123
|
+
process.exit(1);
|
|
124
|
+
}
|
|
125
|
+
|
|
126
|
+
let contenido;
|
|
127
|
+
try {
|
|
128
|
+
contenido = fs.readFileSync(RUTA_APRENDIZAJES, 'utf8');
|
|
129
|
+
} catch (err) {
|
|
130
|
+
console.error(`Error leyendo ${RUTA_APRENDIZAJES}: ${err.message}`);
|
|
131
|
+
process.exit(1);
|
|
132
|
+
}
|
|
133
|
+
|
|
134
|
+
const entradas = parsearEntradas(contenido);
|
|
135
|
+
console.log(`Entradas encontradas: ${entradas.length}`);
|
|
136
|
+
console.log(`Threshold de similitud: ${threshold}`);
|
|
137
|
+
console.log('');
|
|
138
|
+
|
|
139
|
+
const pares = detectarDuplicados(entradas, threshold);
|
|
140
|
+
reportarTexto(pares);
|
|
141
|
+
}
|
|
142
|
+
|
|
143
|
+
if (require.main === module) {
|
|
144
|
+
main();
|
|
145
|
+
}
|
|
146
|
+
|
|
147
|
+
module.exports = {
|
|
148
|
+
parsearEntradas,
|
|
149
|
+
detectarDuplicados,
|
|
150
|
+
reportarTexto,
|
|
151
|
+
};
|
|
@@ -0,0 +1,160 @@
|
|
|
1
|
+
'use strict';
|
|
2
|
+
|
|
3
|
+
/**
|
|
4
|
+
* benchmark-metrics.js — Métricas de retrieval para benchmark de memoria SWL.
|
|
5
|
+
*
|
|
6
|
+
* Patrón adoptado de `temp/agentmemory-main/benchmark/longmemeval-bench.ts`.
|
|
7
|
+
* Funciones puras zero-deps. Adaptado a IDs SWL (aprendizaje, sesion,
|
|
8
|
+
* instinto) en lugar de session_id de agentmemory.
|
|
9
|
+
*
|
|
10
|
+
* Métricas:
|
|
11
|
+
* - recallAt(k): 1.0 si al menos un gold ID está en los top-k, sino 0.0
|
|
12
|
+
* - precisionAt(k): proporción de top-k que son gold
|
|
13
|
+
* - mrr: Mean Reciprocal Rank (1/rank del primer gold encontrado)
|
|
14
|
+
* - ndcgAt(k): Normalized Discounted Cumulative Gain
|
|
15
|
+
*
|
|
16
|
+
* @module scripts/lib/benchmark-metrics
|
|
17
|
+
*/
|
|
18
|
+
|
|
19
|
+
// ── helpers ───────────────────────────────────────────────────────────────────
|
|
20
|
+
|
|
21
|
+
function asSet(arr) {
|
|
22
|
+
return new Set(Array.isArray(arr) ? arr : []);
|
|
23
|
+
}
|
|
24
|
+
|
|
25
|
+
// ── métricas individuales ─────────────────────────────────────────────────────
|
|
26
|
+
|
|
27
|
+
/**
|
|
28
|
+
* Recall @ k: 1.0 si ALGÚN id gold está en los primeros k retrieved.
|
|
29
|
+
*
|
|
30
|
+
* @param {string[]} retrievedIds - IDs ordenados (mejor primero).
|
|
31
|
+
* @param {string[]} goldIds - IDs correctos esperados.
|
|
32
|
+
* @param {number} k
|
|
33
|
+
* @returns {number} 0 o 1
|
|
34
|
+
*/
|
|
35
|
+
function recallAt(retrievedIds, goldIds, k) {
|
|
36
|
+
if (!Array.isArray(retrievedIds) || !Array.isArray(goldIds)) return 0;
|
|
37
|
+
const topK = new Set(retrievedIds.slice(0, k));
|
|
38
|
+
return goldIds.some(g => topK.has(g)) ? 1.0 : 0.0;
|
|
39
|
+
}
|
|
40
|
+
|
|
41
|
+
/**
|
|
42
|
+
* Precision @ k: proporción de los primeros k retrieved que son gold.
|
|
43
|
+
*
|
|
44
|
+
* @param {string[]} retrievedIds
|
|
45
|
+
* @param {string[]} goldIds
|
|
46
|
+
* @param {number} k
|
|
47
|
+
* @returns {number} en [0, 1]
|
|
48
|
+
*/
|
|
49
|
+
function precisionAt(retrievedIds, goldIds, k) {
|
|
50
|
+
if (!Array.isArray(retrievedIds) || !Array.isArray(goldIds) || k <= 0) return 0;
|
|
51
|
+
const goldSet = asSet(goldIds);
|
|
52
|
+
const topK = retrievedIds.slice(0, k);
|
|
53
|
+
if (topK.length === 0) return 0;
|
|
54
|
+
const hits = topK.filter(id => goldSet.has(id)).length;
|
|
55
|
+
return hits / topK.length;
|
|
56
|
+
}
|
|
57
|
+
|
|
58
|
+
/**
|
|
59
|
+
* Mean Reciprocal Rank: 1/rank del primer gold encontrado, o 0 si ninguno.
|
|
60
|
+
*
|
|
61
|
+
* @param {string[]} retrievedIds
|
|
62
|
+
* @param {string[]} goldIds
|
|
63
|
+
* @returns {number} en [0, 1]
|
|
64
|
+
*/
|
|
65
|
+
function mrr(retrievedIds, goldIds) {
|
|
66
|
+
if (!Array.isArray(retrievedIds) || !Array.isArray(goldIds)) return 0;
|
|
67
|
+
const goldSet = asSet(goldIds);
|
|
68
|
+
for (let i = 0; i < retrievedIds.length; i++) {
|
|
69
|
+
if (goldSet.has(retrievedIds[i])) {
|
|
70
|
+
return 1 / (i + 1);
|
|
71
|
+
}
|
|
72
|
+
}
|
|
73
|
+
return 0;
|
|
74
|
+
}
|
|
75
|
+
|
|
76
|
+
function dcg(relevancias, k) {
|
|
77
|
+
let suma = 0;
|
|
78
|
+
for (let i = 0; i < Math.min(k, relevancias.length); i++) {
|
|
79
|
+
suma += (relevancias[i] ? 1 : 0) / Math.log2(i + 2);
|
|
80
|
+
}
|
|
81
|
+
return suma;
|
|
82
|
+
}
|
|
83
|
+
|
|
84
|
+
/**
|
|
85
|
+
* Normalized Discounted Cumulative Gain @ k.
|
|
86
|
+
*
|
|
87
|
+
* @param {string[]} retrievedIds
|
|
88
|
+
* @param {string[]} goldIds
|
|
89
|
+
* @param {number} k
|
|
90
|
+
* @returns {number} en [0, 1]
|
|
91
|
+
*/
|
|
92
|
+
function ndcgAt(retrievedIds, goldIds, k) {
|
|
93
|
+
if (!Array.isArray(retrievedIds) || !Array.isArray(goldIds) || k <= 0) return 0;
|
|
94
|
+
const goldSet = asSet(goldIds);
|
|
95
|
+
const rels = retrievedIds.slice(0, k).map(id => goldSet.has(id));
|
|
96
|
+
const idealRels = Array.from({ length: Math.min(k, goldSet.size) }, () => true);
|
|
97
|
+
const idealDCG = dcg(idealRels, k);
|
|
98
|
+
if (idealDCG === 0) return 0;
|
|
99
|
+
return dcg(rels, k) / idealDCG;
|
|
100
|
+
}
|
|
101
|
+
|
|
102
|
+
// ── agregados ─────────────────────────────────────────────────────────────────
|
|
103
|
+
|
|
104
|
+
/**
|
|
105
|
+
* Calcula el conjunto completo de métricas para una query.
|
|
106
|
+
*
|
|
107
|
+
* @param {string[]} retrievedIds
|
|
108
|
+
* @param {string[]} goldIds
|
|
109
|
+
* @returns {{ recall_at_5, recall_at_10, recall_at_20, mrr, ndcg_at_10, precision_at_5 }}
|
|
110
|
+
*/
|
|
111
|
+
function calcularMetricas(retrievedIds, goldIds) {
|
|
112
|
+
return {
|
|
113
|
+
recall_at_5: recallAt(retrievedIds, goldIds, 5),
|
|
114
|
+
recall_at_10: recallAt(retrievedIds, goldIds, 10),
|
|
115
|
+
recall_at_20: recallAt(retrievedIds, goldIds, 20),
|
|
116
|
+
mrr: mrr(retrievedIds, goldIds),
|
|
117
|
+
ndcg_at_10: ndcgAt(retrievedIds, goldIds, 10),
|
|
118
|
+
precision_at_5: precisionAt(retrievedIds, goldIds, 5),
|
|
119
|
+
};
|
|
120
|
+
}
|
|
121
|
+
|
|
122
|
+
/**
|
|
123
|
+
* Promedia métricas sobre múltiples queries.
|
|
124
|
+
*
|
|
125
|
+
* @param {Array<object>} resultados - Array de objetos producidos por calcularMetricas().
|
|
126
|
+
* @returns {object} Promedios con campo `n` (cantidad de queries).
|
|
127
|
+
*/
|
|
128
|
+
function promediar(resultados) {
|
|
129
|
+
if (!Array.isArray(resultados) || resultados.length === 0) {
|
|
130
|
+
return {
|
|
131
|
+
n: 0,
|
|
132
|
+
recall_at_5: 0,
|
|
133
|
+
recall_at_10: 0,
|
|
134
|
+
recall_at_20: 0,
|
|
135
|
+
mrr: 0,
|
|
136
|
+
ndcg_at_10: 0,
|
|
137
|
+
precision_at_5: 0,
|
|
138
|
+
};
|
|
139
|
+
}
|
|
140
|
+
|
|
141
|
+
const claves = ['recall_at_5', 'recall_at_10', 'recall_at_20', 'mrr', 'ndcg_at_10', 'precision_at_5'];
|
|
142
|
+
const promedio = { n: resultados.length };
|
|
143
|
+
for (const k of claves) {
|
|
144
|
+
const sum = resultados.reduce((a, r) => a + (r[k] || 0), 0);
|
|
145
|
+
promedio[k] = sum / resultados.length;
|
|
146
|
+
}
|
|
147
|
+
return promedio;
|
|
148
|
+
}
|
|
149
|
+
|
|
150
|
+
// ── exports ───────────────────────────────────────────────────────────────────
|
|
151
|
+
|
|
152
|
+
module.exports = {
|
|
153
|
+
recallAt,
|
|
154
|
+
precisionAt,
|
|
155
|
+
mrr,
|
|
156
|
+
ndcgAt,
|
|
157
|
+
dcg,
|
|
158
|
+
calcularMetricas,
|
|
159
|
+
promediar,
|
|
160
|
+
};
|
|
@@ -0,0 +1,218 @@
|
|
|
1
|
+
'use strict';
|
|
2
|
+
|
|
3
|
+
/**
|
|
4
|
+
* eval-metrics-store.js — Persistencia agregada de métricas de evaluación.
|
|
5
|
+
*
|
|
6
|
+
* Patrón adoptado de `temp/agentmemory-main/src/eval/metrics-store.ts`.
|
|
7
|
+
* Adaptado a swl-ses: file-based en lugar de SQLite. Persiste:
|
|
8
|
+
* - JSONL append-only: `.planning/evolucion/eval-results.jsonl` (cada eval individual)
|
|
9
|
+
* - JSON agregado: `.planning/evolucion/eval-metrics.json` (totales por functionId)
|
|
10
|
+
*
|
|
11
|
+
* El JSONL preserva el detalle histórico (un evento por evaluación). El JSON
|
|
12
|
+
* agregado se recalcula incrementalmente: avg latency, avg quality, success
|
|
13
|
+
* rate por functionId. Lectura barata sin escanear todo el JSONL.
|
|
14
|
+
*
|
|
15
|
+
* Funciones puras donde es posible. Las funciones I/O usan escrituras atómicas
|
|
16
|
+
* (atomicWriteJSON) para `eval-metrics.json`. El JSONL usa appendFileSync
|
|
17
|
+
* (regla SWL: JSONL para alta frecuencia).
|
|
18
|
+
*
|
|
19
|
+
* @module scripts/lib/eval-metrics-store
|
|
20
|
+
*/
|
|
21
|
+
|
|
22
|
+
const fs = require('fs');
|
|
23
|
+
const path = require('path');
|
|
24
|
+
|
|
25
|
+
let atomicWriteJSON;
|
|
26
|
+
try {
|
|
27
|
+
({ atomicWriteJSON } = require('../../hooks/lib/atomic-write'));
|
|
28
|
+
} catch {
|
|
29
|
+
atomicWriteJSON = (p, o) => fs.writeFileSync(p, JSON.stringify(o, null, 2), 'utf8');
|
|
30
|
+
}
|
|
31
|
+
|
|
32
|
+
// ── constantes ────────────────────────────────────────────────────────────────
|
|
33
|
+
|
|
34
|
+
const DIR_EVOLUCION = path.join('.planning', 'evolucion');
|
|
35
|
+
const RUTA_JSONL = path.join(DIR_EVOLUCION, 'eval-results.jsonl');
|
|
36
|
+
const RUTA_AGREGADO = path.join(DIR_EVOLUCION, 'eval-metrics.json');
|
|
37
|
+
|
|
38
|
+
// ── helpers ───────────────────────────────────────────────────────────────────
|
|
39
|
+
|
|
40
|
+
function asegurarDir(baseDir) {
|
|
41
|
+
const dir = path.join(baseDir, DIR_EVOLUCION);
|
|
42
|
+
if (!fs.existsSync(dir)) {
|
|
43
|
+
fs.mkdirSync(dir, { recursive: true });
|
|
44
|
+
}
|
|
45
|
+
}
|
|
46
|
+
|
|
47
|
+
function leerAgregado(baseDir) {
|
|
48
|
+
const ruta = path.join(baseDir, RUTA_AGREGADO);
|
|
49
|
+
if (!fs.existsSync(ruta)) return {};
|
|
50
|
+
try {
|
|
51
|
+
return JSON.parse(fs.readFileSync(ruta, 'utf8'));
|
|
52
|
+
} catch {
|
|
53
|
+
return {};
|
|
54
|
+
}
|
|
55
|
+
}
|
|
56
|
+
|
|
57
|
+
// ── API pública ───────────────────────────────────────────────────────────────
|
|
58
|
+
|
|
59
|
+
/**
|
|
60
|
+
* Registra una evaluación completada.
|
|
61
|
+
*
|
|
62
|
+
* Append-only al JSONL + actualización incremental del agregado.
|
|
63
|
+
*
|
|
64
|
+
* @param {string} baseDir - Raíz del proyecto.
|
|
65
|
+
* @param {object} evento
|
|
66
|
+
* @param {string} evento.functionId - Identificador de la función evaluada.
|
|
67
|
+
* @param {number} evento.latencyMs
|
|
68
|
+
* @param {boolean} evento.success
|
|
69
|
+
* @param {number} [evento.qualityScore] - en [0, 100]
|
|
70
|
+
* @param {object} [evento.metadata]
|
|
71
|
+
* @returns {{ recorded: boolean, error?: string }}
|
|
72
|
+
*/
|
|
73
|
+
function registrar(baseDir, evento) {
|
|
74
|
+
if (!evento || typeof evento.functionId !== 'string') {
|
|
75
|
+
return { recorded: false, error: 'functionId requerido' };
|
|
76
|
+
}
|
|
77
|
+
|
|
78
|
+
asegurarDir(baseDir);
|
|
79
|
+
|
|
80
|
+
const ts = new Date().toISOString();
|
|
81
|
+
const lineaJSONL = JSON.stringify({
|
|
82
|
+
timestamp: ts,
|
|
83
|
+
functionId: evento.functionId,
|
|
84
|
+
latencyMs: typeof evento.latencyMs === 'number' ? evento.latencyMs : 0,
|
|
85
|
+
success: Boolean(evento.success),
|
|
86
|
+
qualityScore: typeof evento.qualityScore === 'number' ? evento.qualityScore : null,
|
|
87
|
+
metadata: evento.metadata || null,
|
|
88
|
+
});
|
|
89
|
+
|
|
90
|
+
try {
|
|
91
|
+
fs.appendFileSync(path.join(baseDir, RUTA_JSONL), lineaJSONL + '\n', 'utf8');
|
|
92
|
+
} catch (err) {
|
|
93
|
+
return { recorded: false, error: 'JSONL append failed: ' + err.message };
|
|
94
|
+
}
|
|
95
|
+
|
|
96
|
+
// Actualizar agregado
|
|
97
|
+
try {
|
|
98
|
+
const agregado = leerAgregado(baseDir);
|
|
99
|
+
const fid = evento.functionId;
|
|
100
|
+
const m = agregado[fid] || {
|
|
101
|
+
functionId: fid,
|
|
102
|
+
totalCalls: 0,
|
|
103
|
+
successCount: 0,
|
|
104
|
+
failureCount: 0,
|
|
105
|
+
avgLatencyMs: 0,
|
|
106
|
+
avgQualityScore: 0,
|
|
107
|
+
qualityCallCounts: 0,
|
|
108
|
+
lastUpdatedAt: ts,
|
|
109
|
+
};
|
|
110
|
+
|
|
111
|
+
const prev = m.totalCalls;
|
|
112
|
+
m.totalCalls += 1;
|
|
113
|
+
m.avgLatencyMs = (m.avgLatencyMs * prev + (evento.latencyMs || 0)) / m.totalCalls;
|
|
114
|
+
if (evento.success) m.successCount += 1;
|
|
115
|
+
else m.failureCount += 1;
|
|
116
|
+
|
|
117
|
+
if (typeof evento.qualityScore === 'number') {
|
|
118
|
+
const prevQ = m.qualityCallCounts || 0;
|
|
119
|
+
m.avgQualityScore = (m.avgQualityScore * prevQ + evento.qualityScore) / (prevQ + 1);
|
|
120
|
+
m.qualityCallCounts = prevQ + 1;
|
|
121
|
+
}
|
|
122
|
+
|
|
123
|
+
m.lastUpdatedAt = ts;
|
|
124
|
+
agregado[fid] = m;
|
|
125
|
+
atomicWriteJSON(path.join(baseDir, RUTA_AGREGADO), agregado);
|
|
126
|
+
} catch (err) {
|
|
127
|
+
return { recorded: true, error: 'Aggregate update failed: ' + err.message };
|
|
128
|
+
}
|
|
129
|
+
|
|
130
|
+
return { recorded: true };
|
|
131
|
+
}
|
|
132
|
+
|
|
133
|
+
/**
|
|
134
|
+
* Lee las métricas agregadas para un functionId específico.
|
|
135
|
+
* @param {string} baseDir
|
|
136
|
+
* @param {string} functionId
|
|
137
|
+
* @returns {object|null}
|
|
138
|
+
*/
|
|
139
|
+
function obtener(baseDir, functionId) {
|
|
140
|
+
const agregado = leerAgregado(baseDir);
|
|
141
|
+
return agregado[functionId] || null;
|
|
142
|
+
}
|
|
143
|
+
|
|
144
|
+
/**
|
|
145
|
+
* Lee todas las métricas agregadas.
|
|
146
|
+
* @param {string} baseDir
|
|
147
|
+
* @returns {object[]}
|
|
148
|
+
*/
|
|
149
|
+
function obtenerTodos(baseDir) {
|
|
150
|
+
const agregado = leerAgregado(baseDir);
|
|
151
|
+
return Object.values(agregado);
|
|
152
|
+
}
|
|
153
|
+
|
|
154
|
+
/**
|
|
155
|
+
* Recorre el JSONL y reconstruye el agregado desde cero.
|
|
156
|
+
* Útil tras corrupción del agregado o auditoría histórica.
|
|
157
|
+
*
|
|
158
|
+
* @param {string} baseDir
|
|
159
|
+
* @returns {{ rebuilt: number, functions: number }}
|
|
160
|
+
*/
|
|
161
|
+
function reconstruirAgregado(baseDir) {
|
|
162
|
+
const ruta = path.join(baseDir, RUTA_JSONL);
|
|
163
|
+
if (!fs.existsSync(ruta)) return { rebuilt: 0, functions: 0 };
|
|
164
|
+
|
|
165
|
+
const agregado = {};
|
|
166
|
+
let lineas = 0;
|
|
167
|
+
const contenido = fs.readFileSync(ruta, 'utf8');
|
|
168
|
+
for (const linea of contenido.split('\n')) {
|
|
169
|
+
if (!linea.trim()) continue;
|
|
170
|
+
let evento;
|
|
171
|
+
try { evento = JSON.parse(linea); } catch { continue; }
|
|
172
|
+
|
|
173
|
+
const fid = evento.functionId;
|
|
174
|
+
if (!fid) continue;
|
|
175
|
+
lineas++;
|
|
176
|
+
|
|
177
|
+
const m = agregado[fid] || {
|
|
178
|
+
functionId: fid,
|
|
179
|
+
totalCalls: 0,
|
|
180
|
+
successCount: 0,
|
|
181
|
+
failureCount: 0,
|
|
182
|
+
avgLatencyMs: 0,
|
|
183
|
+
avgQualityScore: 0,
|
|
184
|
+
qualityCallCounts: 0,
|
|
185
|
+
lastUpdatedAt: evento.timestamp,
|
|
186
|
+
};
|
|
187
|
+
|
|
188
|
+
const prev = m.totalCalls;
|
|
189
|
+
m.totalCalls += 1;
|
|
190
|
+
m.avgLatencyMs = (m.avgLatencyMs * prev + (evento.latencyMs || 0)) / m.totalCalls;
|
|
191
|
+
if (evento.success) m.successCount += 1;
|
|
192
|
+
else m.failureCount += 1;
|
|
193
|
+
|
|
194
|
+
if (typeof evento.qualityScore === 'number') {
|
|
195
|
+
const prevQ = m.qualityCallCounts || 0;
|
|
196
|
+
m.avgQualityScore = (m.avgQualityScore * prevQ + evento.qualityScore) / (prevQ + 1);
|
|
197
|
+
m.qualityCallCounts = prevQ + 1;
|
|
198
|
+
}
|
|
199
|
+
|
|
200
|
+
m.lastUpdatedAt = evento.timestamp;
|
|
201
|
+
agregado[fid] = m;
|
|
202
|
+
}
|
|
203
|
+
|
|
204
|
+
asegurarDir(baseDir);
|
|
205
|
+
atomicWriteJSON(path.join(baseDir, RUTA_AGREGADO), agregado);
|
|
206
|
+
return { rebuilt: lineas, functions: Object.keys(agregado).length };
|
|
207
|
+
}
|
|
208
|
+
|
|
209
|
+
// ── exports ───────────────────────────────────────────────────────────────────
|
|
210
|
+
|
|
211
|
+
module.exports = {
|
|
212
|
+
registrar,
|
|
213
|
+
obtener,
|
|
214
|
+
obtenerTodos,
|
|
215
|
+
reconstruirAgregado,
|
|
216
|
+
RUTA_JSONL,
|
|
217
|
+
RUTA_AGREGADO,
|
|
218
|
+
};
|