@saulwade/swl-ses 1.1.3 → 1.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (37) hide show
  1. package/CLAUDE.md +5 -3
  2. package/README.md +3 -3
  3. package/bin/swl-mcp-server.js +187 -0
  4. package/habilidades/benchmark-memoria/SKILL.md +186 -0
  5. package/habilidades/contenedores-docker/SKILL.md +8 -1
  6. package/habilidades/datos-etl/SKILL.md +18 -1
  7. package/habilidades/eval-framework/SKILL.md +212 -0
  8. package/habilidades/memoria-busqueda/SKILL.md +24 -1
  9. package/habilidades/planear-fase/SKILL.md +299 -269
  10. package/habilidades/postgresql-experto/SKILL.md +24 -1
  11. package/habilidades/verificar-trabajo/SKILL.md +7 -1
  12. package/hooks/lib/evolution-tracker.js +65 -11
  13. package/hooks/lib/memory-search.js +44 -13
  14. package/hooks/sugerir-contribuir.js +226 -0
  15. package/manifiestos/hooks-config.json +9 -0
  16. package/manifiestos/modulos.json +36 -2
  17. package/manifiestos/perfiles.json +2 -1
  18. package/manifiestos/skills-lock.json +1 -1
  19. package/package.json +4 -3
  20. package/plugin.json +343 -343
  21. package/reglas/analisis-previo-tareas-grandes.md +172 -0
  22. package/reglas/arreglar-al-detectar.md +147 -0
  23. package/scripts/benchmark-memoria.js +167 -0
  24. package/scripts/detectar-aprendizajes-duplicados.js +151 -0
  25. package/scripts/lib/benchmark-metrics.js +160 -0
  26. package/scripts/lib/eval-metrics-store.js +218 -0
  27. package/scripts/lib/eval-quality.js +171 -0
  28. package/scripts/lib/eval-schemas.js +144 -0
  29. package/scripts/lib/eval-self-correct.js +106 -0
  30. package/scripts/lib/eval-validator.js +185 -0
  31. package/scripts/lib/jaccard-similarity.js +98 -0
  32. package/scripts/lib/longmemeval-runner.js +125 -0
  33. package/scripts/lib/rrf-fusion.js +175 -0
  34. package/scripts/lib/scoring-instintos.js +40 -3
  35. package/scripts/mcp-server/README.md +128 -0
  36. package/scripts/mcp-server/handlers.js +206 -0
  37. package/scripts/run-eval.js +141 -0
@@ -39,6 +39,10 @@ const HARMFUL_PENALTY_WEIGHT = 0.5;
39
39
  const PROVEN_CONFIDENCE_THRESHOLD = 0.7;
40
40
  const ESTABLISHED_THRESHOLD = 0.5;
41
41
  const PROVEN_EVIDENCE_THRESHOLD = 3;
42
+ // Modelo de reforzamiento por feedback positivo (estilo agentmemory/lessons.ts).
43
+ // Cada feedback positivo cierra un (1 - REINFORCEMENT_DECAY) = 10% del gap
44
+ // entre la confianza actual y 1.0 — diminishing returns naturales.
45
+ const REINFORCEMENT_DECAY = 0.9;
42
46
 
43
47
  // ── helpers ───────────────────────────────────────────────────────────────────
44
48
 
@@ -98,7 +102,38 @@ function harmfulRatio(instinto) {
98
102
  }
99
103
 
100
104
  /**
101
- * Confianza efectiva considerando decay temporal y feedback negativo.
105
+ * Confianza reforzada por feedback positivo acumulado.
106
+ *
107
+ * Aplica un modelo de diminishing returns inspirado en `lessons.ts` de
108
+ * agentmemory: cada feedback positivo cierra una fracción del gap entre la
109
+ * confianza actual y 1.0. Aplicado N veces sobre la confianza base:
110
+ *
111
+ * c_N = 1 - REINFORCEMENT_DECAY^N · (1 - c_0)
112
+ *
113
+ * Con `REINFORCEMENT_DECAY = 0.9`:
114
+ * - 1 feedback: c_0=0.5 → 0.55
115
+ * - 5 feedback: c_0=0.5 → 0.705
116
+ * - 10 feedback: c_0=0.5 → 0.826
117
+ * - 50 feedback: c_0=0.5 → 0.997
118
+ *
119
+ * Si no hay `helpful_count` (o es 0), devuelve la confianza base sin tocar.
120
+ * Backward compatible: instintos sin el campo siguen comportándose igual.
121
+ *
122
+ * No persiste el resultado — se computa on-demand desde `helpful_count`. Eso
123
+ * preserva el invariante "confidence original es estática".
124
+ */
125
+ function reinforcedConfidence(instinto) {
126
+ const baseConfidence = clamp(instinto.confidence || 0, 0, 1);
127
+ const helpful = instinto.helpful_count || 0;
128
+ if (helpful <= 0) return baseConfidence;
129
+ return 1 - Math.pow(REINFORCEMENT_DECAY, helpful) * (1 - baseConfidence);
130
+ }
131
+
132
+ /**
133
+ * Confianza efectiva considerando reforzamiento, decay temporal y feedback
134
+ * negativo.
135
+ *
136
+ * effective = reinforced × decay − harmful_penalty
102
137
  *
103
138
  * @param {object} instinto
104
139
  * @param {string|Date} [currentDate=now] — fecha de referencia
@@ -111,10 +146,10 @@ function effectiveConfidence(instinto, currentDate) {
111
146
 
112
147
  const days = validatedAt ? daysBetween(validatedAt, now) : 0;
113
148
  const decay = decayFactor(days, halfLife);
114
- const baseConfidence = clamp(instinto.confidence || 0, 0, 1);
149
+ const reinforced = reinforcedConfidence(instinto);
115
150
  const penalty = HARMFUL_PENALTY_WEIGHT * harmfulRatio(instinto);
116
151
 
117
- return clamp(baseConfidence * decay - penalty, 0, 1);
152
+ return clamp(reinforced * decay - penalty, 0, 1);
118
153
  }
119
154
 
120
155
  /**
@@ -223,6 +258,7 @@ module.exports = {
223
258
  daysBetween,
224
259
  decayFactor,
225
260
  harmfulRatio,
261
+ reinforcedConfidence,
226
262
  effectiveConfidence,
227
263
  shouldAutoDeprecate,
228
264
  maturityState,
@@ -237,4 +273,5 @@ module.exports = {
237
273
  PROVEN_CONFIDENCE_THRESHOLD,
238
274
  ESTABLISHED_THRESHOLD,
239
275
  PROVEN_EVIDENCE_THRESHOLD,
276
+ REINFORCEMENT_DECAY,
240
277
  };
@@ -0,0 +1,128 @@
1
+ # swl-mcp-server — STUB EXPERIMENTAL
2
+
3
+ > ⚠ **NO USAR EN PRODUCCIÓN**. Este es un stub experimental que demuestra
4
+ > el patrón de exponer la memoria de swl-ses a clientes MCP externos. La
5
+ > implementación completa requiere trabajo adicional (auth, observabilidad,
6
+ > tests de integración, schema migration). Ver sección "Limitaciones" más
7
+ > abajo.
8
+
9
+ ## Qué hace
10
+
11
+ `bin/swl-mcp-server.js` es un servidor MCP en modo stdio que expone 3
12
+ endpoints de solo lectura:
13
+
14
+ 1. **`swl_memory_search`** — búsqueda hybrid sobre memoria SWL
15
+ (aprendizajes + sesiones + instintos) usando `hooks/lib/memory-search`
16
+ con RRF fusion.
17
+ 2. **`swl_aprendizajes_recientes`** — últimos N aprendizajes de
18
+ `.planning/APRENDIZAJES.md`.
19
+ 3. **`swl_instintos_activos`** — instintos con `effective_confidence ≥
20
+ umbral`.
21
+
22
+ El server lee el estado file-based de swl-ses tal como existe en `cwd`
23
+ (o el directorio especificado por `SWL_MCP_BASE_DIR`). NO escribe — solo
24
+ lectura.
25
+
26
+ ## Cómo arrancar (para testing)
27
+
28
+ ```bash
29
+ # Modo standalone (smoke test)
30
+ echo '{"jsonrpc":"2.0","id":1,"method":"initialize"}' | node bin/swl-mcp-server.js
31
+
32
+ # Output esperado en stdout:
33
+ # {"jsonrpc":"2.0","id":1,"result":{"protocolVersion":"2024-11-05","capabilities":{"tools":{"listChanged":false}},"serverInfo":{"name":"swl-mcp-server","version":"0.1.0-experimental"}}}
34
+
35
+ # Listar herramientas
36
+ echo '{"jsonrpc":"2.0","id":2,"method":"tools/list"}' | node bin/swl-mcp-server.js
37
+
38
+ # Buscar memoria
39
+ echo '{"jsonrpc":"2.0","id":3,"method":"tools/call","params":{"name":"swl_memory_search","arguments":{"query":"RRF fusion","limit":3}}}' | node bin/swl-mcp-server.js
40
+ ```
41
+
42
+ ## Cómo configurar en clientes MCP (NO recomendado en producción)
43
+
44
+ ### Cursor (~/.cursor/mcp.json)
45
+
46
+ ```json
47
+ {
48
+ "mcpServers": {
49
+ "swl-memory": {
50
+ "command": "node",
51
+ "args": ["/ruta/absoluta/a/swl-ses/bin/swl-mcp-server.js"],
52
+ "env": {
53
+ "SWL_MCP_BASE_DIR": "/ruta/al/proyecto/que/quiero/recuperar"
54
+ }
55
+ }
56
+ }
57
+ }
58
+ ```
59
+
60
+ ### Gemini CLI
61
+
62
+ Similar, agregando el server a la config del cliente que soporte MCP stdio.
63
+
64
+ ### Claude Code (NO necesario)
65
+
66
+ Claude Code ya tiene acceso directo a los archivos de swl-ses dentro de
67
+ su propio runtime. NO usar el MCP server desde Claude Code en el mismo
68
+ proyecto — sería redundante y agregaría latencia.
69
+
70
+ ## Limitaciones (lo que NO se hace en este stub)
71
+
72
+ | Limitación | Impacto | Cuándo se debe arreglar |
73
+ |---|---|---|
74
+ | **Sin auth** | Cualquier proceso con acceso al stdio puede leer toda la memoria | Antes de exponer en redes públicas o multi-usuario |
75
+ | **Sin rate limiting** | Cliente malicioso/buggy puede saturar lectura de archivos | Cuando se observen ≥1 incidentes de saturación |
76
+ | **Sin HTTP transport** | Solo stdio; no se puede conectar remotamente | Cuando el caso de uso requiera servidor de red |
77
+ | **Sin tests de integración** | Solo smoke tests manuales | Antes de v1.0 del MCP server |
78
+ | **Sin observabilidad / métricas** | Logs JSON a stderr son lo único que hay | Cuando se use en >1 cliente simultáneo |
79
+ | **Sin hot-reload** | Cambios en swl-ses no se reflejan hasta restart del server | Ya — el server lee files en cada call, así que SÍ se reflejan; documentado por completitud |
80
+ | **Sin caching** | Cada call lee files de disco | Cuando latencia sea problema (~10ms hoy) |
81
+ | **Sin schema versioning** | Si cambia formato de APRENDIZAJES.md, los handlers pueden romper | Cuando se introduzca breaking change en el formato |
82
+ | **Sin support de resources/prompts** | Solo tools | Cuando el caso de uso lo demande |
83
+ | **Sin paginación** | Resultados grandes se truncan a `limit` | Cuando se requiera browse de >50 entries |
84
+ | **Single-tenant** | Asume un solo proyecto por instancia | Multi-tenancy necesita rediseño |
85
+
86
+ ## Trigger para implementación completa
87
+
88
+ **Hoy**: 0 instalaciones reportadas. Mantener como stub.
89
+
90
+ **Trigger para invertir esfuerzo en implementación robusta**: el usuario
91
+ reporta uso real consistente de ≥2 runtimes distintos (Cursor + Claude
92
+ Code, o Gemini + Claude Code, etc.) sobre el mismo proyecto SWL durante
93
+ ≥1 mes. Sin esto, la inversión de ~25 horas en hardening del server
94
+ no se justifica.
95
+
96
+ ## Diseño futuro (cuando se implemente completo)
97
+
98
+ 1. **Auth**: API key estática + bearer token con scopes:
99
+ - `swl:memory:read` (búsqueda y lectura)
100
+ - `swl:memory:write` (crear aprendizajes desde MCP — requiere validación)
101
+ - `swl:instintos:write` (modificar confidence — alto riesgo)
102
+ 2. **HTTP transport opcional**: además de stdio, ofrecer servidor HTTP/SSE
103
+ con TLS y CORS configurable.
104
+ 3. **Telemetría**: requests por handler, latencia p50/p95, errores por
105
+ tipo. Persistir en `.planning/evolucion/mcp-metrics.jsonl`.
106
+ 4. **Caching invalidable**: caché en memoria de las lecturas de
107
+ APRENDIZAJES.md / instintos con `mtime`-based invalidation.
108
+ 5. **Schema versioning**: cada handler declara `schema_version`. El
109
+ cliente puede pedir un version range. Breaking changes bumpan major.
110
+ 6. **Tests de integración**: arrancar el server contra una fixture y
111
+ ejecutar 50+ scenarios. Smoke en CI.
112
+
113
+ ## Estado de seguridad (auditoría rápida del stub)
114
+
115
+ - ✓ NO expone credenciales ni archivos fuera de `baseDir`.
116
+ - ✓ NO ejecuta código (solo lee files y devuelve JSON).
117
+ - ✓ NO modifica archivos.
118
+ - ✗ NO valida que `baseDir` sea un proyecto SWL válido — un cliente
119
+ podría apuntarlo a un directorio arbitrario y leer cualquier
120
+ archivo `*.md` que llamemos `APRENDIZAJES.md`.
121
+ - ✗ NO sanitiza queries de búsqueda (los regex en `instintos.yaml` parser
122
+ son seguros, pero falta hardening).
123
+ - ✗ NO hay timeout — un proyecto enorme con miles de sesiones podría
124
+ hacer colgar el server.
125
+
126
+ Estos puntos son ACEPTABLES para un stub experimental usado por el
127
+ mantenedor en un proyecto propio. NO ACEPTABLES para uso multi-usuario
128
+ o expuesto a la red.
@@ -0,0 +1,206 @@
1
+ 'use strict';
2
+
3
+ /**
4
+ * handlers.js — Handlers para los 3 endpoints MCP stub de swl-ses.
5
+ *
6
+ * **EXPERIMENTAL** — no producción. Sin auth, sin rate limiting, sin
7
+ * tests robustos. Ver `scripts/mcp-server/README.md` para limitaciones.
8
+ *
9
+ * Los handlers leen el estado file-based de swl-ses (APRENDIZAJES.md,
10
+ * .planning/sessions/, instintos/proyecto.yaml) y devuelven datos
11
+ * estructurados al cliente MCP. NO escriben — solo lectura.
12
+ *
13
+ * @module scripts/mcp-server/handlers
14
+ */
15
+
16
+ const fs = require('fs');
17
+ const path = require('path');
18
+
19
+ const memorySearch = require('../../hooks/lib/memory-search');
20
+ const scoringInstintos = require('../lib/scoring-instintos');
21
+
22
+ // ── handler: swl_memory_search ────────────────────────────────────────────────
23
+
24
+ /**
25
+ * Búsqueda hybrid sobre memoria SWL (aprendizajes + sesiones + instintos).
26
+ *
27
+ * @param {object} args - { query: string, limit?: number, tipo?: string }
28
+ * @returns {object} { results: Array, count: number }
29
+ */
30
+ function swlMemorySearch(baseDir, args) {
31
+ if (!args || typeof args.query !== 'string' || !args.query.trim()) {
32
+ return { error: 'query (string) requerido', results: [] };
33
+ }
34
+
35
+ const filtros = {};
36
+ if (typeof args.limit === 'number' && args.limit > 0) filtros.limit = Math.min(args.limit, 50);
37
+ if (typeof args.tipo === 'string') filtros.tipo = args.tipo;
38
+
39
+ const results = memorySearch.search(baseDir, args.query, filtros);
40
+ return {
41
+ results: results.map(r => ({
42
+ id: r.id,
43
+ tipo: r.tipo,
44
+ titulo: r.titulo,
45
+ fecha: r.fecha,
46
+ relevancia: r.relevancia,
47
+ combinedScore: r.combinedScore,
48
+ })),
49
+ count: results.length,
50
+ };
51
+ }
52
+
53
+ // ── handler: swl_aprendizajes_recientes ───────────────────────────────────────
54
+
55
+ /**
56
+ * Devuelve los N aprendizajes más recientes de APRENDIZAJES.md.
57
+ *
58
+ * @param {object} args - { limit?: number (default 10) }
59
+ * @returns {object} { results, count }
60
+ */
61
+ function swlAprendizajesRecientes(baseDir, args = {}) {
62
+ const limit = (typeof args.limit === 'number' && args.limit > 0)
63
+ ? Math.min(args.limit, 50)
64
+ : 10;
65
+
66
+ const ruta = path.join(baseDir, '.planning', 'APRENDIZAJES.md');
67
+ if (!fs.existsSync(ruta)) {
68
+ return { error: 'APRENDIZAJES.md no encontrado', results: [] };
69
+ }
70
+
71
+ let contenido;
72
+ try {
73
+ contenido = fs.readFileSync(ruta, 'utf8');
74
+ } catch (err) {
75
+ return { error: 'Error de lectura: ' + err.message, results: [] };
76
+ }
77
+
78
+ const bloques = contenido.split(/^## /m).filter(b => b.trim().length > 0);
79
+ // Los más recientes están al FINAL del archivo (append-only por convención)
80
+ const recientes = bloques.slice(-limit).reverse();
81
+
82
+ return {
83
+ results: recientes.map((b, i) => {
84
+ const primeraLinea = b.split('\n')[0].trim();
85
+ const cuerpoTrim = b.split('\n').slice(1).join('\n').trim().slice(0, 500);
86
+ return {
87
+ index: bloques.length - i,
88
+ titulo: primeraLinea,
89
+ contenido: cuerpoTrim,
90
+ };
91
+ }),
92
+ count: recientes.length,
93
+ total: bloques.length,
94
+ };
95
+ }
96
+
97
+ // ── handler: swl_instintos_activos ────────────────────────────────────────────
98
+
99
+ /**
100
+ * Devuelve instintos con effective_confidence ≥ umbral.
101
+ *
102
+ * @param {object} args - { minConfidence?: number (default 0.5), limit?: number }
103
+ * @returns {object} { results, count }
104
+ */
105
+ function swlInstintosActivos(baseDir, args = {}) {
106
+ const minConfidence = (typeof args.minConfidence === 'number')
107
+ ? args.minConfidence : 0.5;
108
+ const limit = (typeof args.limit === 'number' && args.limit > 0)
109
+ ? Math.min(args.limit, 100) : 20;
110
+
111
+ const ruta = path.join(baseDir, 'instintos', 'proyecto.yaml');
112
+ if (!fs.existsSync(ruta)) {
113
+ return { error: 'instintos/proyecto.yaml no encontrado', results: [] };
114
+ }
115
+
116
+ let contenido;
117
+ try {
118
+ contenido = fs.readFileSync(ruta, 'utf8');
119
+ } catch (err) {
120
+ return { error: 'Error de lectura: ' + err.message, results: [] };
121
+ }
122
+
123
+ // Parser simple sin dep YAML (mismo patrón que memory-search.js)
124
+ const instinto_re = /- id:\s*(\S+)[\s\S]*?pattern:\s*"([^"]+)"[\s\S]*?confidence:\s*([\d.]+)[\s\S]*?status:\s*(\w+)/g;
125
+ const results = [];
126
+ let match;
127
+ const ahora = new Date();
128
+
129
+ while ((match = instinto_re.exec(contenido)) !== null) {
130
+ const [, id, pattern, confidenceStr, status] = match;
131
+ const confidence = parseFloat(confidenceStr);
132
+ if (status !== 'active') continue;
133
+
134
+ // Construir objeto mínimo para scoring
135
+ const instinto = {
136
+ id,
137
+ pattern,
138
+ confidence,
139
+ status,
140
+ // Sin más metadata, effective_confidence ≈ confidence
141
+ };
142
+ const effective = scoringInstintos.effectiveConfidence(instinto, ahora);
143
+ if (effective < minConfidence) continue;
144
+
145
+ results.push({
146
+ id,
147
+ pattern,
148
+ confidence,
149
+ effective_confidence: Math.round(effective * 1000) / 1000,
150
+ status,
151
+ });
152
+ }
153
+
154
+ results.sort((a, b) => b.effective_confidence - a.effective_confidence);
155
+ return {
156
+ results: results.slice(0, limit),
157
+ count: Math.min(results.length, limit),
158
+ total: results.length,
159
+ };
160
+ }
161
+
162
+ // ── exports ───────────────────────────────────────────────────────────────────
163
+
164
+ const HANDLERS = {
165
+ swl_memory_search: {
166
+ description: 'Búsqueda hybrid sobre memoria SWL (aprendizajes + sesiones + instintos) con RRF fusion.',
167
+ inputSchema: {
168
+ type: 'object',
169
+ properties: {
170
+ query: { type: 'string', description: 'Texto libre de búsqueda' },
171
+ limit: { type: 'number', description: 'Máximo de resultados (default 20, max 50)' },
172
+ tipo: { type: 'string', enum: ['aprendizaje', 'sesion', 'instinto'], description: 'Filtrar por tipo' },
173
+ },
174
+ required: ['query'],
175
+ },
176
+ handler: swlMemorySearch,
177
+ },
178
+ swl_aprendizajes_recientes: {
179
+ description: 'Últimos N aprendizajes de .planning/APRENDIZAJES.md (más recientes primero).',
180
+ inputSchema: {
181
+ type: 'object',
182
+ properties: {
183
+ limit: { type: 'number', description: 'Cuántos retornar (default 10, max 50)' },
184
+ },
185
+ },
186
+ handler: swlAprendizajesRecientes,
187
+ },
188
+ swl_instintos_activos: {
189
+ description: 'Instintos con effective_confidence ≥ umbral. Default 0.5.',
190
+ inputSchema: {
191
+ type: 'object',
192
+ properties: {
193
+ minConfidence: { type: 'number', description: 'Umbral mínimo (default 0.5)' },
194
+ limit: { type: 'number', description: 'Máximo (default 20, max 100)' },
195
+ },
196
+ },
197
+ handler: swlInstintosActivos,
198
+ },
199
+ };
200
+
201
+ module.exports = {
202
+ HANDLERS,
203
+ swlMemorySearch,
204
+ swlAprendizajesRecientes,
205
+ swlInstintosActivos,
206
+ };
@@ -0,0 +1,141 @@
1
+ #!/usr/bin/env node
2
+ 'use strict';
3
+
4
+ /**
5
+ * run-eval.js — CLI para ejecutar evaluaciones del eval framework.
6
+ *
7
+ * Uso:
8
+ * node scripts/run-eval.js <ruta-eval.json>
9
+ *
10
+ * Formato del archivo JSON de eval:
11
+ * {
12
+ * "functionId": "memoria-busqueda::search",
13
+ * "schemaName": "MEMORY_SEARCH_RESULT_SCHEMA", // opcional, valida output
14
+ * "qualityScorer": "scoreObservacion", // opcional, calcula calidad
15
+ * "input": { ... }, // datos de entrada
16
+ * "expectedKeys": ["id", "tipo", "titulo"], // opcional, valida presencia
17
+ * "output": { ... } // output a evaluar
18
+ * }
19
+ *
20
+ * Exit codes:
21
+ * 0 - eval pasa (valid: true)
22
+ * 1 - eval falla (valid: false) o error de I/O
23
+ * 2 - error de uso (argumentos inválidos)
24
+ */
25
+
26
+ const fs = require('fs');
27
+ const path = require('path');
28
+
29
+ const schemas = require('./lib/eval-schemas');
30
+ const validator = require('./lib/eval-validator');
31
+ const quality = require('./lib/eval-quality');
32
+ const metricsStore = require('./lib/eval-metrics-store');
33
+
34
+ function uso() {
35
+ console.error('Uso: node scripts/run-eval.js <ruta-eval.json>');
36
+ console.error(' node scripts/run-eval.js --rebuild-aggregate');
37
+ process.exit(2);
38
+ }
39
+
40
+ function ejecutarEval(ruta) {
41
+ if (!fs.existsSync(ruta)) {
42
+ console.error(`Archivo no existe: ${ruta}`);
43
+ return 1;
44
+ }
45
+
46
+ let definicion;
47
+ try {
48
+ definicion = JSON.parse(fs.readFileSync(ruta, 'utf8'));
49
+ } catch (err) {
50
+ console.error(`Error parseando ${ruta}: ${err.message}`);
51
+ return 1;
52
+ }
53
+
54
+ const { functionId, schemaName, qualityScorer, output } = definicion;
55
+ if (!functionId || typeof functionId !== 'string') {
56
+ console.error('functionId requerido en el archivo de eval');
57
+ return 1;
58
+ }
59
+
60
+ const inicio = Date.now();
61
+ let valid = true;
62
+ let errors = [];
63
+ let qualityScore = null;
64
+
65
+ // Validar contra schema si se especifica
66
+ if (schemaName) {
67
+ const schema = schemas[schemaName];
68
+ if (!schema) {
69
+ console.error(`Schema desconocido: ${schemaName}. Disponibles: ${Object.keys(schemas).filter(k => k.endsWith('_SCHEMA')).join(', ')}`);
70
+ return 1;
71
+ }
72
+ const r = validator.validar(output, schema);
73
+ valid = valid && r.valid;
74
+ if (!r.valid) errors.push(...r.errors);
75
+ }
76
+
77
+ // Validar campos esperados si se especifican
78
+ if (Array.isArray(definicion.expectedKeys)) {
79
+ for (const key of definicion.expectedKeys) {
80
+ if (!output || !(key in output)) {
81
+ valid = false;
82
+ errors.push(`expectedKey faltante: ${key}`);
83
+ }
84
+ }
85
+ }
86
+
87
+ // Calcular quality score si se especifica
88
+ if (qualityScorer) {
89
+ const scorer = quality[qualityScorer];
90
+ if (typeof scorer !== 'function') {
91
+ console.error(`Quality scorer desconocido: ${qualityScorer}. Disponibles: ${Object.keys(quality).join(', ')}`);
92
+ return 1;
93
+ }
94
+ qualityScore = scorer(output);
95
+ }
96
+
97
+ const latencyMs = Date.now() - inicio;
98
+ const exito = valid;
99
+
100
+ // Persistir resultado
101
+ const baseDir = process.cwd();
102
+ metricsStore.registrar(baseDir, {
103
+ functionId,
104
+ latencyMs,
105
+ success: exito,
106
+ qualityScore,
107
+ metadata: { schemaName, qualityScorer, evalFile: path.basename(ruta) },
108
+ });
109
+
110
+ // Reportar
111
+ console.log(JSON.stringify({
112
+ functionId,
113
+ valid,
114
+ errors: errors.length > 0 ? errors : undefined,
115
+ qualityScore,
116
+ latencyMs,
117
+ }, null, 2));
118
+
119
+ return valid ? 0 : 1;
120
+ }
121
+
122
+ function main() {
123
+ const args = process.argv.slice(2);
124
+ if (args.length === 0) uso();
125
+
126
+ if (args[0] === '--rebuild-aggregate') {
127
+ const r = metricsStore.reconstruirAgregado(process.cwd());
128
+ console.log(`Agregado reconstruido: ${r.rebuilt} eventos, ${r.functions} funciones únicas.`);
129
+ process.exit(0);
130
+ }
131
+
132
+ process.exit(ejecutarEval(args[0]));
133
+ }
134
+
135
+ if (require.main === module) {
136
+ main();
137
+ }
138
+
139
+ module.exports = {
140
+ ejecutarEval,
141
+ };