@saulwade/swl-ses 1.3.4 → 1.3.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (110) hide show
  1. package/CLAUDE.md +2 -2
  2. package/README.md +34 -34
  3. package/bin/swl-mcp-server.js +187 -187
  4. package/bin/swl-ses.js +4 -62
  5. package/comandos/swl/.evolved.json +22 -22
  6. package/comandos/swl/adoptar-proyecto.md +207 -207
  7. package/comandos/swl/contribuir.md +233 -233
  8. package/habilidades/backend-production-resilience/SKILL.md +288 -288
  9. package/habilidades/benchmark-memoria/SKILL.md +186 -186
  10. package/habilidades/diagrama-arquitectura/assets/template.html +276 -276
  11. package/habilidades/doubt-driven-review/SKILL.md +171 -171
  12. package/habilidades/doubt-driven-review/recursos/EXAMPLES.md +130 -130
  13. package/habilidades/eval-framework/SKILL.md +212 -212
  14. package/habilidades/extractor-de-aprendizajes/SKILL.md +321 -321
  15. package/habilidades/harness-claude-code/SKILL.md +299 -299
  16. package/habilidades/infra-github-actions/SKILL.md +166 -166
  17. package/habilidades/legacy-code-rescue/SKILL.md +267 -267
  18. package/habilidades/manejo-errores/.evolved.json +8 -8
  19. package/habilidades/meta-skills-estandar/recursos/convencion-examples.md +93 -93
  20. package/habilidades/meta-skills-estandar/recursos/skills-as-agents.md +163 -163
  21. package/habilidades/patrones-python/SKILL.md +229 -229
  22. package/habilidades/patrones-python/recursos/patrones-avanzados.md +469 -469
  23. package/habilidades/planear-fase/SKILL.md +319 -319
  24. package/habilidades/release-semver/.evolved.json +8 -8
  25. package/habilidades/swl-claudemd/SKILL.md +220 -220
  26. package/habilidades/testing-python/SKILL.md +340 -340
  27. package/hooks/claudemd-bloat-detector.js +161 -161
  28. package/hooks/extraccion-aprendizajes.js +19 -12
  29. package/hooks/lib/agent-routing.js +107 -107
  30. package/hooks/lib/auto-consolidator.js +335 -335
  31. package/hooks/lib/error-classifier.js +308 -308
  32. package/hooks/lib/merkle-audit.js +96 -96
  33. package/hooks/lib/provenance-tracker.js +191 -191
  34. package/hooks/lib/rate-limit-tracker.js +253 -253
  35. package/hooks/lib/resource-quota.js +122 -122
  36. package/hooks/lib/retry-jitter.js +165 -165
  37. package/hooks/lib/skill-auditor.js +588 -588
  38. package/hooks/lib/sync-status.js +228 -228
  39. package/hooks/lib/taint-tracker.js +107 -107
  40. package/hooks/lib/text-similarity.js +241 -241
  41. package/hooks/lib/toon-compressor.js +245 -245
  42. package/hooks/registro-turnos.js +209 -209
  43. package/hooks/sugerir-regenerar-inventario.js +170 -170
  44. package/hooks/validar-formato-post-subagente.js +140 -140
  45. package/hooks/validar-memoria-hook.js +218 -218
  46. package/instintos/prompt-appendices.yaml +57 -57
  47. package/manifiestos/agent-output-schemas.json +57 -57
  48. package/manifiestos/skills-lock.json +1093 -1093
  49. package/package.json +1 -1
  50. package/plantillas/auditor-veto-template.md +105 -105
  51. package/plantillas/github-workflows/README.md +47 -47
  52. package/plantillas/github-workflows/release-please.yml +44 -44
  53. package/plantillas/github-workflows/swl-ci.yml +107 -107
  54. package/plantillas/github-workflows/swl-security.yml +51 -51
  55. package/plugin.json +1 -1
  56. package/reglas/analisis-previo-tareas-grandes.md +172 -172
  57. package/reglas/arreglar-al-detectar.md +147 -147
  58. package/reglas/fragmentos-compartidos.md +152 -152
  59. package/reglas/harness-claude-code.md +213 -213
  60. package/reglas/usar-context7.md +226 -226
  61. package/schemas/diary-entry.schema.json +80 -80
  62. package/scripts/benchmark-memoria.js +167 -167
  63. package/scripts/comandos/info.js +1 -1
  64. package/scripts/configurar-branch-protection.js +418 -418
  65. package/scripts/detectar-aprendizajes-duplicados.js +151 -151
  66. package/scripts/doctor.js +77 -3
  67. package/scripts/field-report.js +199 -199
  68. package/scripts/generar-checklists-consolidados.js +273 -273
  69. package/scripts/generar-inventario.js +420 -420
  70. package/scripts/generar-matriz-lenguajes.js +271 -271
  71. package/scripts/inicializar.js +2 -2
  72. package/scripts/instalador.js +40 -3
  73. package/scripts/instalar-git-hook.js +2 -2
  74. package/scripts/lib/artefactos-python.js +43 -43
  75. package/scripts/lib/benchmark-metrics.js +160 -160
  76. package/scripts/lib/budget-enforcer.js +252 -252
  77. package/scripts/lib/configurar-ci.js +380 -380
  78. package/scripts/lib/contadores-inventario.js +217 -217
  79. package/scripts/lib/detectar-stack-detallado.js +307 -307
  80. package/scripts/lib/diary-entry.js +234 -234
  81. package/scripts/lib/eval-metrics-store.js +218 -218
  82. package/scripts/lib/eval-quality.js +171 -171
  83. package/scripts/lib/eval-schemas.js +144 -144
  84. package/scripts/lib/eval-self-correct.js +106 -106
  85. package/scripts/lib/eval-validator.js +185 -185
  86. package/scripts/lib/gitignore-manifest.js +1 -1
  87. package/scripts/lib/jaccard-similarity.js +98 -98
  88. package/scripts/lib/longmemeval-runner.js +125 -125
  89. package/scripts/lib/npm-version.js +261 -261
  90. package/scripts/lib/paquetes-conocidos.js +50 -50
  91. package/scripts/lib/parsear-opciones.js +136 -0
  92. package/scripts/lib/prompt-builder.js +264 -264
  93. package/scripts/lib/rrf-fusion.js +175 -175
  94. package/scripts/lib/scoring-instintos.js +277 -277
  95. package/scripts/lib/semantic-search.js +252 -252
  96. package/scripts/lib/transformadores/claude.js +200 -200
  97. package/scripts/lib/transformadores/codex.js +1 -1
  98. package/scripts/lib/transformadores/copilot.js +1 -1
  99. package/scripts/lib/transformadores/gemini.js +1 -1
  100. package/scripts/lib/transformadores/opencode.js +1 -1
  101. package/scripts/limpiar-artefactos-python.js +131 -131
  102. package/scripts/mcp-server/README.md +128 -128
  103. package/scripts/mcp-server/handlers.js +206 -206
  104. package/scripts/migrar-csv-a-array.js +168 -168
  105. package/scripts/migrar-fase-dominio.js +201 -201
  106. package/scripts/publicar.js +511 -511
  107. package/scripts/run-eval.js +141 -141
  108. package/scripts/validar-manifest.js +195 -195
  109. package/scripts/validar-userland-vacio.js +110 -110
  110. package/scripts/verificar-release.js +5 -1
@@ -1,212 +1,212 @@
1
- ---
2
- name: eval-framework
3
- description: >
4
- Eval framework para validar y puntuar outputs estructurados de SWL
5
- (aprendizajes, instintos, observaciones, resúmenes, contextos). Cargar
6
- cuando un agente produzca un output estructurado y se quiera medir su
7
- calidad antes de persistir, o cuando se audite la calidad histórica de
8
- funciones críticas (extractor-de-aprendizajes, perfilador-usuario,
9
- consolidador, planificador).
10
- version: "1.0.0"
11
- herramientasPermitidas: [Read, Bash]
12
- exclusiones:
13
- - "No cargar para validación de input de usuario o request HTTP — eso es validación de boundary, usar Pydantic/Zod en el endpoint."
14
- - "No cargar para auditoría de seguridad — usar `revisor-seguridad-swl` y `escaneo-secretos`."
15
- - "No cargar para tests unitarios de código — usar `tdd-workflow` y Vitest."
16
- - "No cargar cuando el output no tiene estructura definida (texto libre): el eval framework requiere schemas declarados o quality scorers específicos."
17
- evolvable: true # default para skill estandar
18
- ---
19
- # Eval Framework — Validación + Calidad de Outputs SWL
20
-
21
- ## Cuándo cargar
22
-
23
- - Tras producir un output estructurado (observación, aprendizaje, resumen,
24
- resultado de búsqueda) cuando se quiera puntuar su calidad antes de
25
- persistir.
26
- - Para auditar histórico de calidad de una función crítica (ver métricas
27
- agregadas en `.planning/evolucion/eval-metrics.json`).
28
- - En tests/CI cuando el contrato del output tenga campos obligatorios y
29
- quality thresholds.
30
- - En loops de auto-corrección donde un output inválido debe regenerarse
31
- con un prompt más estricto.
32
-
33
- ---
34
-
35
- ## Componentes del framework
36
-
37
- | Módulo | Propósito |
38
- |---|---|
39
- | `scripts/lib/eval-schemas.js` | Schemas JSON-lite para outputs (observación, resumen, search input, etc.). |
40
- | `scripts/lib/eval-validator.js` | Validador zero-deps de schemas (sin Zod). |
41
- | `scripts/lib/eval-quality.js` | Funciones de scoring: `scoreObservacion`, `scoreResumen`, `scoreAprendizaje`, `scoreInstinto`, `scoreRelevanciaContexto`. |
42
- | `scripts/lib/eval-self-correct.js` | Loop de retry con sufijo estricto cuando validador falla. |
43
- | `scripts/lib/eval-metrics-store.js` | Persistencia: JSONL append-only (`eval-results.jsonl`) + agregado JSON (`eval-metrics.json`). |
44
- | `scripts/run-eval.js` | CLI para evaluar un output desde archivo JSON. |
45
-
46
- ---
47
-
48
- ## Uso típico desde agente o test
49
-
50
- ### Validar output contra schema
51
-
52
- ```js
53
- const { validar } = require('./scripts/lib/eval-validator');
54
- const { COMPRESS_OUTPUT_SCHEMA } = require('./scripts/lib/eval-schemas');
55
-
56
- const observacion = {
57
- type: 'discovery',
58
- title: 'Detalle relevante',
59
- facts: ['fact 1', 'fact 2'],
60
- narrative: 'Narrativa con suficiente detalle para evaluar',
61
- concepts: ['c1'],
62
- files: ['ruta/al/archivo.js'],
63
- importance: 7,
64
- };
65
-
66
- const r = validar(observacion, COMPRESS_OUTPUT_SCHEMA);
67
- if (!r.valid) {
68
- console.error('Output inválido:', r.errors);
69
- } else {
70
- // Persistir
71
- }
72
- ```
73
-
74
- ### Puntuar calidad (independiente de validez)
75
-
76
- ```js
77
- const { scoreObservacion, scoreAprendizaje, scoreInstinto } = require('./scripts/lib/eval-quality');
78
-
79
- const score = scoreObservacion(observacion);
80
- // score ∈ [0, 100]. 100 = todos los campos óptimos.
81
- ```
82
-
83
- ### Loop de auto-corrección
84
-
85
- ```js
86
- const { compresseConReintento } = require('./scripts/lib/eval-self-correct');
87
-
88
- const productor = async (sysPrompt, userPrompt) => {
89
- // Llamar al LLM o ejecutar Skill que produzca el output
90
- return await llamarClaude(sysPrompt, userPrompt);
91
- };
92
-
93
- const validador = (output) => {
94
- const parsed = JSON.parse(output);
95
- return validar(parsed, COMPRESS_OUTPUT_SCHEMA);
96
- };
97
-
98
- const r = await compresseConReintento({
99
- productor, validador,
100
- sysPrompt: '...', userPrompt: '...',
101
- maxRetries: 2,
102
- });
103
-
104
- if (r.valid) {
105
- // r.output es válido (puede haber requerido r.intentos retries)
106
- }
107
- ```
108
-
109
- ### Persistir métricas para auditoría histórica
110
-
111
- ```js
112
- const ms = require('./scripts/lib/eval-metrics-store');
113
-
114
- ms.registrar(process.cwd(), {
115
- functionId: 'extractor-de-aprendizajes::scorer',
116
- latencyMs: 42,
117
- success: true,
118
- qualityScore: 85,
119
- });
120
-
121
- // Lectura agregada
122
- const m = ms.obtener(process.cwd(), 'extractor-de-aprendizajes::scorer');
123
- // → { totalCalls, successCount, failureCount, avgLatencyMs, avgQualityScore, ... }
124
- ```
125
-
126
- ### CLI desde Bash (para CI o manual)
127
-
128
- ```bash
129
- # Crear archivo de eval
130
- cat > /tmp/eval.json << 'EOF'
131
- {
132
- "functionId": "memoria-busqueda::search",
133
- "schemaName": "MEMORY_SEARCH_RESULT_SCHEMA",
134
- "qualityScorer": null,
135
- "expectedKeys": ["id", "tipo", "titulo", "fecha", "relevancia"],
136
- "output": { ... }
137
- }
138
- EOF
139
-
140
- # Ejecutar
141
- node scripts/run-eval.js /tmp/eval.json
142
- # Exit 0 si valid, 1 si inválido. Persiste métricas automáticamente.
143
-
144
- # Reconstruir agregado desde JSONL si se corrompe
145
- node scripts/run-eval.js --rebuild-aggregate
146
- ```
147
-
148
- ---
149
-
150
- ## Schemas disponibles
151
-
152
- - `COMPRESS_OUTPUT_SCHEMA` — observación comprimida con type, title, facts,
153
- narrative, concepts, files, importance.
154
- - `SUMMARY_OUTPUT_SCHEMA` — resumen de sesión con title, narrative,
155
- keyDecisions, filesModified, concepts.
156
- - `SEARCH_INPUT_SCHEMA` — input de búsqueda { query, limit? }.
157
- - `REMEMBER_INPUT_SCHEMA` — input de "remember" { content, type?,
158
- concepts?, files? }.
159
- - `EVAL_RESULT_SCHEMA` — resultado de evaluación { valid, errors?,
160
- qualityScore, latencyMs, functionId, metadata? }.
161
- - `MEMORY_SEARCH_RESULT_SCHEMA` — resultado de `hooks/lib/memory-search`
162
- con id, tipo, titulo, fecha, relevancia, combinedScore?, confidence?.
163
-
164
- Agregar más schemas en `scripts/lib/eval-schemas.js` siguiendo el formato
165
- JSON Schema-lite (subset documentado en `eval-validator.js`).
166
-
167
- ---
168
-
169
- ## Quality scorers disponibles
170
-
171
- - `scoreObservacion(obs)` — observación con type/title/facts/narrative/concepts/importance.
172
- - `scoreResumen(summary)` — resumen con title/narrative/keyDecisions/filesModified/concepts.
173
- - `scoreAprendizaje(aprendizaje)` — aprendizaje SWL con titulo/contenido/tipo (específico de SWL).
174
- - `scoreInstinto(instinto)` — instinto con pattern/confidence/status/source_*/evidence_count (específico de SWL).
175
- - `scoreRelevanciaContexto(context, project)` — contexto inyectado en sesión.
176
-
177
- Cada scorer devuelve un número en [0, 100]. Los criterios están documentados
178
- en cada función en `scripts/lib/eval-quality.js`.
179
-
180
- ---
181
-
182
- ## Diferencias con tests unitarios
183
-
184
- | Eval framework | Tests unitarios |
185
- |---|---|
186
- | Mide calidad subjetiva sobre estructura | Mide correctitud lógica |
187
- | Score graduado [0, 100] | Pass/fail binario |
188
- | Persiste histórico para auditoría | No persiste (corre en CI) |
189
- | Para outputs estructurados de agentes | Para funciones puras / API |
190
- | Permite retry con prompt estricto | No aplicable |
191
-
192
- Los dos son complementarios: tests unitarios para `scoring-instintos.js`,
193
- eval framework para "¿el aprendizaje que extrajo el hook es de calidad?".
194
-
195
- ---
196
-
197
- ## Gotchas / Errores comunes no obvios
198
-
199
- - **Validez estructural ≠ calidad**: un aprendizaje con `titulo: "X"` y
200
- `contenido: "trivial"` puede pasar `expectedKeys` pero tener
201
- `qualityScore: 0`. El framework los distingue. En CI gates, considerar
202
- ambos: `valid && qualityScore >= 60`.
203
- - **Métricas agregadas se reescriben atómicamente**: si dos procesos
204
- llaman `registrar()` en paralelo sobre el mismo `functionId`, el último
205
- gana (race condition en agregado). Para alta concurrencia usar
206
- `reconstruirAgregado()` periódicamente desde el JSONL append-only.
207
- - **`run-eval.js` exit code**: 0 = valid, 1 = inválido o error de I/O,
208
- 2 = error de uso. No confundir con quality threshold — el CLI no
209
- bloquea por quality bajo, solo por validez.
210
- - **`compresseConReintento` no reintenta indefinidamente**: respeta
211
- `maxRetries`. Tras agotar reintentos devuelve el último output con
212
- `valid: false`. El caller decide qué hacer.
1
+ ---
2
+ name: eval-framework
3
+ description: >
4
+ Eval framework para validar y puntuar outputs estructurados de SWL
5
+ (aprendizajes, instintos, observaciones, resúmenes, contextos). Cargar
6
+ cuando un agente produzca un output estructurado y se quiera medir su
7
+ calidad antes de persistir, o cuando se audite la calidad histórica de
8
+ funciones críticas (extractor-de-aprendizajes, perfilador-usuario,
9
+ consolidador, planificador).
10
+ version: "1.0.0"
11
+ herramientasPermitidas: [Read, Bash]
12
+ exclusiones:
13
+ - "No cargar para validación de input de usuario o request HTTP — eso es validación de boundary, usar Pydantic/Zod en el endpoint."
14
+ - "No cargar para auditoría de seguridad — usar `revisor-seguridad-swl` y `escaneo-secretos`."
15
+ - "No cargar para tests unitarios de código — usar `tdd-workflow` y Vitest."
16
+ - "No cargar cuando el output no tiene estructura definida (texto libre): el eval framework requiere schemas declarados o quality scorers específicos."
17
+ evolvable: true # default para skill estandar
18
+ ---
19
+ # Eval Framework — Validación + Calidad de Outputs SWL
20
+
21
+ ## Cuándo cargar
22
+
23
+ - Tras producir un output estructurado (observación, aprendizaje, resumen,
24
+ resultado de búsqueda) cuando se quiera puntuar su calidad antes de
25
+ persistir.
26
+ - Para auditar histórico de calidad de una función crítica (ver métricas
27
+ agregadas en `.planning/evolucion/eval-metrics.json`).
28
+ - En tests/CI cuando el contrato del output tenga campos obligatorios y
29
+ quality thresholds.
30
+ - En loops de auto-corrección donde un output inválido debe regenerarse
31
+ con un prompt más estricto.
32
+
33
+ ---
34
+
35
+ ## Componentes del framework
36
+
37
+ | Módulo | Propósito |
38
+ |---|---|
39
+ | `scripts/lib/eval-schemas.js` | Schemas JSON-lite para outputs (observación, resumen, search input, etc.). |
40
+ | `scripts/lib/eval-validator.js` | Validador zero-deps de schemas (sin Zod). |
41
+ | `scripts/lib/eval-quality.js` | Funciones de scoring: `scoreObservacion`, `scoreResumen`, `scoreAprendizaje`, `scoreInstinto`, `scoreRelevanciaContexto`. |
42
+ | `scripts/lib/eval-self-correct.js` | Loop de retry con sufijo estricto cuando validador falla. |
43
+ | `scripts/lib/eval-metrics-store.js` | Persistencia: JSONL append-only (`eval-results.jsonl`) + agregado JSON (`eval-metrics.json`). |
44
+ | `scripts/run-eval.js` | CLI para evaluar un output desde archivo JSON. |
45
+
46
+ ---
47
+
48
+ ## Uso típico desde agente o test
49
+
50
+ ### Validar output contra schema
51
+
52
+ ```js
53
+ const { validar } = require('./scripts/lib/eval-validator');
54
+ const { COMPRESS_OUTPUT_SCHEMA } = require('./scripts/lib/eval-schemas');
55
+
56
+ const observacion = {
57
+ type: 'discovery',
58
+ title: 'Detalle relevante',
59
+ facts: ['fact 1', 'fact 2'],
60
+ narrative: 'Narrativa con suficiente detalle para evaluar',
61
+ concepts: ['c1'],
62
+ files: ['ruta/al/archivo.js'],
63
+ importance: 7,
64
+ };
65
+
66
+ const r = validar(observacion, COMPRESS_OUTPUT_SCHEMA);
67
+ if (!r.valid) {
68
+ console.error('Output inválido:', r.errors);
69
+ } else {
70
+ // Persistir
71
+ }
72
+ ```
73
+
74
+ ### Puntuar calidad (independiente de validez)
75
+
76
+ ```js
77
+ const { scoreObservacion, scoreAprendizaje, scoreInstinto } = require('./scripts/lib/eval-quality');
78
+
79
+ const score = scoreObservacion(observacion);
80
+ // score ∈ [0, 100]. 100 = todos los campos óptimos.
81
+ ```
82
+
83
+ ### Loop de auto-corrección
84
+
85
+ ```js
86
+ const { compresseConReintento } = require('./scripts/lib/eval-self-correct');
87
+
88
+ const productor = async (sysPrompt, userPrompt) => {
89
+ // Llamar al LLM o ejecutar Skill que produzca el output
90
+ return await llamarClaude(sysPrompt, userPrompt);
91
+ };
92
+
93
+ const validador = (output) => {
94
+ const parsed = JSON.parse(output);
95
+ return validar(parsed, COMPRESS_OUTPUT_SCHEMA);
96
+ };
97
+
98
+ const r = await compresseConReintento({
99
+ productor, validador,
100
+ sysPrompt: '...', userPrompt: '...',
101
+ maxRetries: 2,
102
+ });
103
+
104
+ if (r.valid) {
105
+ // r.output es válido (puede haber requerido r.intentos retries)
106
+ }
107
+ ```
108
+
109
+ ### Persistir métricas para auditoría histórica
110
+
111
+ ```js
112
+ const ms = require('./scripts/lib/eval-metrics-store');
113
+
114
+ ms.registrar(process.cwd(), {
115
+ functionId: 'extractor-de-aprendizajes::scorer',
116
+ latencyMs: 42,
117
+ success: true,
118
+ qualityScore: 85,
119
+ });
120
+
121
+ // Lectura agregada
122
+ const m = ms.obtener(process.cwd(), 'extractor-de-aprendizajes::scorer');
123
+ // → { totalCalls, successCount, failureCount, avgLatencyMs, avgQualityScore, ... }
124
+ ```
125
+
126
+ ### CLI desde Bash (para CI o manual)
127
+
128
+ ```bash
129
+ # Crear archivo de eval
130
+ cat > /tmp/eval.json << 'EOF'
131
+ {
132
+ "functionId": "memoria-busqueda::search",
133
+ "schemaName": "MEMORY_SEARCH_RESULT_SCHEMA",
134
+ "qualityScorer": null,
135
+ "expectedKeys": ["id", "tipo", "titulo", "fecha", "relevancia"],
136
+ "output": { ... }
137
+ }
138
+ EOF
139
+
140
+ # Ejecutar
141
+ node scripts/run-eval.js /tmp/eval.json
142
+ # Exit 0 si valid, 1 si inválido. Persiste métricas automáticamente.
143
+
144
+ # Reconstruir agregado desde JSONL si se corrompe
145
+ node scripts/run-eval.js --rebuild-aggregate
146
+ ```
147
+
148
+ ---
149
+
150
+ ## Schemas disponibles
151
+
152
+ - `COMPRESS_OUTPUT_SCHEMA` — observación comprimida con type, title, facts,
153
+ narrative, concepts, files, importance.
154
+ - `SUMMARY_OUTPUT_SCHEMA` — resumen de sesión con title, narrative,
155
+ keyDecisions, filesModified, concepts.
156
+ - `SEARCH_INPUT_SCHEMA` — input de búsqueda { query, limit? }.
157
+ - `REMEMBER_INPUT_SCHEMA` — input de "remember" { content, type?,
158
+ concepts?, files? }.
159
+ - `EVAL_RESULT_SCHEMA` — resultado de evaluación { valid, errors?,
160
+ qualityScore, latencyMs, functionId, metadata? }.
161
+ - `MEMORY_SEARCH_RESULT_SCHEMA` — resultado de `hooks/lib/memory-search`
162
+ con id, tipo, titulo, fecha, relevancia, combinedScore?, confidence?.
163
+
164
+ Agregar más schemas en `scripts/lib/eval-schemas.js` siguiendo el formato
165
+ JSON Schema-lite (subset documentado en `eval-validator.js`).
166
+
167
+ ---
168
+
169
+ ## Quality scorers disponibles
170
+
171
+ - `scoreObservacion(obs)` — observación con type/title/facts/narrative/concepts/importance.
172
+ - `scoreResumen(summary)` — resumen con title/narrative/keyDecisions/filesModified/concepts.
173
+ - `scoreAprendizaje(aprendizaje)` — aprendizaje SWL con titulo/contenido/tipo (específico de SWL).
174
+ - `scoreInstinto(instinto)` — instinto con pattern/confidence/status/source_*/evidence_count (específico de SWL).
175
+ - `scoreRelevanciaContexto(context, project)` — contexto inyectado en sesión.
176
+
177
+ Cada scorer devuelve un número en [0, 100]. Los criterios están documentados
178
+ en cada función en `scripts/lib/eval-quality.js`.
179
+
180
+ ---
181
+
182
+ ## Diferencias con tests unitarios
183
+
184
+ | Eval framework | Tests unitarios |
185
+ |---|---|
186
+ | Mide calidad subjetiva sobre estructura | Mide correctitud lógica |
187
+ | Score graduado [0, 100] | Pass/fail binario |
188
+ | Persiste histórico para auditoría | No persiste (corre en CI) |
189
+ | Para outputs estructurados de agentes | Para funciones puras / API |
190
+ | Permite retry con prompt estricto | No aplicable |
191
+
192
+ Los dos son complementarios: tests unitarios para `scoring-instintos.js`,
193
+ eval framework para "¿el aprendizaje que extrajo el hook es de calidad?".
194
+
195
+ ---
196
+
197
+ ## Gotchas / Errores comunes no obvios
198
+
199
+ - **Validez estructural ≠ calidad**: un aprendizaje con `titulo: "X"` y
200
+ `contenido: "trivial"` puede pasar `expectedKeys` pero tener
201
+ `qualityScore: 0`. El framework los distingue. En CI gates, considerar
202
+ ambos: `valid && qualityScore >= 60`.
203
+ - **Métricas agregadas se reescriben atómicamente**: si dos procesos
204
+ llaman `registrar()` en paralelo sobre el mismo `functionId`, el último
205
+ gana (race condition en agregado). Para alta concurrencia usar
206
+ `reconstruirAgregado()` periódicamente desde el JSONL append-only.
207
+ - **`run-eval.js` exit code**: 0 = valid, 1 = inválido o error de I/O,
208
+ 2 = error de uso. No confundir con quality threshold — el CLI no
209
+ bloquea por quality bajo, solo por validez.
210
+ - **`compresseConReintento` no reintenta indefinidamente**: respeta
211
+ `maxRetries`. Tras agotar reintentos devuelve el último output con
212
+ `valid: false`. El caller decide qué hacer.