npm - @saulwade/swl-ses - Versions diffs - 1.3.4 → 1.3.5 - Mend

@saulwade/swl-ses 1.3.4 → 1.3.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (102) hide show

package/CLAUDE.md +1 -1
package/README.md +1 -1
package/bin/swl-mcp-server.js +187 -187
package/bin/swl-ses.js +4 -62
package/comandos/swl/.evolved.json +22 -22
package/comandos/swl/adoptar-proyecto.md +207 -207
package/comandos/swl/contribuir.md +233 -233
package/habilidades/backend-production-resilience/SKILL.md +288 -288
package/habilidades/benchmark-memoria/SKILL.md +186 -186
package/habilidades/diagrama-arquitectura/assets/template.html +276 -276
package/habilidades/doubt-driven-review/SKILL.md +171 -171
package/habilidades/doubt-driven-review/recursos/EXAMPLES.md +130 -130
package/habilidades/eval-framework/SKILL.md +212 -212
package/habilidades/extractor-de-aprendizajes/SKILL.md +321 -321
package/habilidades/harness-claude-code/SKILL.md +299 -299
package/habilidades/infra-github-actions/SKILL.md +166 -166
package/habilidades/legacy-code-rescue/SKILL.md +267 -267
package/habilidades/manejo-errores/.evolved.json +8 -8
package/habilidades/meta-skills-estandar/recursos/convencion-examples.md +93 -93
package/habilidades/meta-skills-estandar/recursos/skills-as-agents.md +163 -163
package/habilidades/patrones-python/SKILL.md +229 -229
package/habilidades/patrones-python/recursos/patrones-avanzados.md +469 -469
package/habilidades/planear-fase/SKILL.md +319 -319
package/habilidades/release-semver/.evolved.json +8 -8
package/habilidades/swl-claudemd/SKILL.md +220 -220
package/habilidades/testing-python/SKILL.md +340 -340
package/hooks/claudemd-bloat-detector.js +161 -161
package/hooks/extraccion-aprendizajes.js +19 -12
package/hooks/lib/agent-routing.js +107 -107
package/hooks/lib/auto-consolidator.js +335 -335
package/hooks/lib/error-classifier.js +308 -308
package/hooks/lib/merkle-audit.js +96 -96
package/hooks/lib/provenance-tracker.js +191 -191
package/hooks/lib/rate-limit-tracker.js +253 -253
package/hooks/lib/resource-quota.js +122 -122
package/hooks/lib/retry-jitter.js +165 -165
package/hooks/lib/skill-auditor.js +588 -588
package/hooks/lib/sync-status.js +228 -228
package/hooks/lib/taint-tracker.js +107 -107
package/hooks/lib/text-similarity.js +241 -241
package/hooks/lib/toon-compressor.js +245 -245
package/hooks/registro-turnos.js +209 -209
package/hooks/sugerir-regenerar-inventario.js +170 -170
package/hooks/validar-formato-post-subagente.js +140 -140
package/hooks/validar-memoria-hook.js +218 -218
package/instintos/prompt-appendices.yaml +57 -57
package/manifiestos/agent-output-schemas.json +57 -57
package/manifiestos/skills-lock.json +1093 -1093
package/package.json +1 -1
package/plantillas/auditor-veto-template.md +105 -105
package/plantillas/github-workflows/README.md +47 -47
package/plantillas/github-workflows/release-please.yml +44 -44
package/plantillas/github-workflows/swl-ci.yml +107 -107
package/plantillas/github-workflows/swl-security.yml +51 -51
package/plugin.json +1 -1
package/reglas/analisis-previo-tareas-grandes.md +172 -172
package/reglas/arreglar-al-detectar.md +147 -147
package/reglas/fragmentos-compartidos.md +152 -152
package/reglas/harness-claude-code.md +213 -213
package/reglas/usar-context7.md +226 -226
package/schemas/diary-entry.schema.json +80 -80
package/scripts/benchmark-memoria.js +167 -167
package/scripts/configurar-branch-protection.js +418 -418
package/scripts/detectar-aprendizajes-duplicados.js +151 -151
package/scripts/doctor.js +77 -3
package/scripts/field-report.js +199 -199
package/scripts/generar-checklists-consolidados.js +273 -273
package/scripts/generar-inventario.js +420 -420
package/scripts/generar-matriz-lenguajes.js +271 -271
package/scripts/instalador.js +38 -1
package/scripts/lib/artefactos-python.js +43 -43
package/scripts/lib/benchmark-metrics.js +160 -160
package/scripts/lib/budget-enforcer.js +252 -252
package/scripts/lib/configurar-ci.js +380 -380
package/scripts/lib/contadores-inventario.js +217 -217
package/scripts/lib/detectar-stack-detallado.js +307 -307
package/scripts/lib/diary-entry.js +234 -234
package/scripts/lib/eval-metrics-store.js +218 -218
package/scripts/lib/eval-quality.js +171 -171
package/scripts/lib/eval-schemas.js +144 -144
package/scripts/lib/eval-self-correct.js +106 -106
package/scripts/lib/eval-validator.js +185 -185
package/scripts/lib/jaccard-similarity.js +98 -98
package/scripts/lib/longmemeval-runner.js +125 -125
package/scripts/lib/npm-version.js +261 -261
package/scripts/lib/paquetes-conocidos.js +50 -50
package/scripts/lib/parsear-opciones.js +136 -0
package/scripts/lib/prompt-builder.js +264 -264
package/scripts/lib/rrf-fusion.js +175 -175
package/scripts/lib/scoring-instintos.js +277 -277
package/scripts/lib/semantic-search.js +252 -252
package/scripts/lib/transformadores/claude.js +200 -200
package/scripts/limpiar-artefactos-python.js +131 -131
package/scripts/mcp-server/README.md +128 -128
package/scripts/mcp-server/handlers.js +206 -206
package/scripts/migrar-csv-a-array.js +168 -168
package/scripts/migrar-fase-dominio.js +201 -201
package/scripts/publicar.js +511 -511
package/scripts/run-eval.js +141 -141
package/scripts/validar-manifest.js +195 -195
package/scripts/validar-userland-vacio.js +110 -110
package/scripts/verificar-release.js +5 -1

package/scripts/benchmark-memoria.js CHANGED Viewed

@@ -1,167 +1,167 @@
-#!/usr/bin/env node
-'use strict';
-/**
- * benchmark-memoria.js — CLI runner para benchmark de retrieval sobre memoria SWL.
- *
- * Ejecuta queries de un dataset JSONL contra `hooks/lib/memory-search`
- * (que usa RRF fusion sobre aprendizajes/sesiones/instintos) y reporta
- * métricas R@5, R@10, R@20, MRR, nDCG@10, P@5.
- *
- * Patrón adoptado de `temp/agentmemory-main/benchmark/longmemeval-bench.ts`.
- * Adaptado para swl-ses: file-based, sin embeddings ML, dataset SWL-específico.
- *
- * Uso:
- *   node scripts/benchmark-memoria.js [opciones]
- *
- * Opciones:
- *   --dataset <ruta>   Dataset JSONL (default: .planning/benchmark/dataset.jsonl)
- *   --limit <n>        Top-k a recuperar por query (default: 20)
- *   --json             Output en JSON (para scripts)
- *   --verbose          Detalle por query
- *
- * Exit codes:
- *   0 - OK
- *   1 - Error de I/O o dataset inválido
- *   2 - Argumentos inválidos
- *
- * Persistencia opcional: si se setea SWL_BENCHMARK_PERSIST=1, escribe
- * el resultado agregado a `.planning/evolucion/benchmark-memoria.jsonl`
- * para tracking histórico.
- */
-const fs   = require('fs');
-const path = require('path');
-const { ejecutarDataset } = require('./lib/longmemeval-runner');
-const DATASET_DEFAULT = '.planning/benchmark/dataset.jsonl';
-const HISTORICO_PATH  = '.planning/evolucion/benchmark-memoria.jsonl';
-function uso() {
-  console.error('Uso: node scripts/benchmark-memoria.js [--dataset <ruta>] [--limit <n>] [--json] [--verbose]');
-  process.exit(2);
-}
-function parseArgs(argv) {
-  const opts = {
-    dataset: DATASET_DEFAULT,
-    limit: 20,
-    json: false,
-    verbose: false,
-  };
-  for (let i = 0; i < argv.length; i++) {
-    const arg = argv[i];
-    if (arg === '--dataset') opts.dataset = argv[++i];
-    else if (arg === '--limit') opts.limit = parseInt(argv[++i], 10) || 20;
-    else if (arg === '--json') opts.json = true;
-    else if (arg === '--verbose') opts.verbose = true;
-    else if (arg === '--help' || arg === '-h') uso();
-  }
-  return opts;
-}
-function persistirHistorico(baseDir, resumen) {
-  if (process.env.SWL_BENCHMARK_PERSIST !== '1') return;
-  try {
-    const dirEvolucion = path.join(baseDir, '.planning', 'evolucion');
-    if (!fs.existsSync(dirEvolucion)) fs.mkdirSync(dirEvolucion, { recursive: true });
-    const linea = JSON.stringify({
-      timestamp: new Date().toISOString(),
-      ...resumen,
-    });
-    fs.appendFileSync(path.join(baseDir, HISTORICO_PATH), linea + '\n', 'utf8');
-  } catch (_) {
-    // best-effort
-  }
-}
-function reportarTexto(resultado, opts) {
-  const { promedio, dataset, entries } = resultado;
-  console.log('================================================================');
-  console.log('   Benchmark de retrieval de memoria SWL');
-  console.log('================================================================');
-  console.log('');
-  console.log(`Dataset:      ${opts.dataset}`);
-  console.log(`Total queries: ${dataset.total}`);
-  console.log(`  Reales:      ${dataset.real}`);
-  console.log(`  Placeholder: ${dataset.placeholder}`);
-  console.log(`Significativo: ${dataset.significativo ? 'sí' : 'NO (requiere ≥30 reales)'}`);
-  console.log('');
-  if (!dataset.significativo) {
-    console.log('⚠ ADVERTENCIA: dataset con menos de 30 queries reales.');
-    console.log('  Las métricas son INDICATIVAS, no estadísticamente significativas.');
-    console.log('  Para usar como gate de release, expandir el dataset con preguntas');
-    console.log('  curadas extraídas de uso real (ver SKILL.md de benchmark-memoria).');
-    console.log('');
-  }
-  console.log('────────────── Métricas agregadas ──────────────');
-  console.log(`  Recall @ 5:     ${(promedio.recall_at_5 * 100).toFixed(1)}%`);
-  console.log(`  Recall @ 10:    ${(promedio.recall_at_10 * 100).toFixed(1)}%`);
-  console.log(`  Recall @ 20:    ${(promedio.recall_at_20 * 100).toFixed(1)}%`);
-  console.log(`  MRR:            ${promedio.mrr.toFixed(3)}`);
-  console.log(`  nDCG @ 10:      ${promedio.ndcg_at_10.toFixed(3)}`);
-  console.log(`  Precision @ 5:  ${(promedio.precision_at_5 * 100).toFixed(1)}%`);
-  console.log('');
-  if (opts.verbose) {
-    console.log('────────────── Detalle por query ──────────────');
-    for (const r of entries) {
-      const mark = r.metricas.recall_at_5 > 0 ? '✓' : '✗';
-      console.log(`  ${mark} ${r.question_id} [${r.category || 'n/a'}, ${r.status}] ` +
-        `R@5=${r.metricas.recall_at_5} R@10=${r.metricas.recall_at_10} ` +
-        `MRR=${r.metricas.mrr.toFixed(2)} (${r.latencyMs}ms)`);
-      if (r.metricas.recall_at_5 === 0 && opts.verbose) {
-        console.log(`      Q: ${r.question.slice(0, 80)}`);
-        console.log(`      Gold:      ${r.goldIds.slice(0, 3).join(', ')}${r.goldIds.length > 3 ? '...' : ''}`);
-        console.log(`      Retrieved: ${r.retrievedIds.slice(0, 5).join(', ')}`);
-      }
-    }
-    console.log('');
-  }
-}
-function main() {
-  const opts = parseArgs(process.argv.slice(2));
-  const baseDir = process.cwd();
-  if (!fs.existsSync(opts.dataset)) {
-    console.error(`Dataset no encontrado: ${opts.dataset}`);
-    console.error(`Crea uno o usa el placeholder en ${DATASET_DEFAULT}.`);
-    process.exit(1);
-  }
-  let resultado;
-  try {
-    resultado = ejecutarDataset(baseDir, opts.dataset, { limit: opts.limit });
-  } catch (err) {
-    console.error(`Error ejecutando benchmark: ${err.message}`);
-    process.exit(1);
-  }
-  if (opts.json) {
-    console.log(JSON.stringify(resultado, null, 2));
-  } else {
-    reportarTexto(resultado, opts);
-  }
-  persistirHistorico(baseDir, {
-    dataset: opts.dataset,
-    n: resultado.dataset.total,
-    significativo: resultado.dataset.significativo,
-    promedio: resultado.promedio,
-  });
-  process.exit(0);
-}
-if (require.main === module) {
-  main();
-}
-module.exports = {
-  parseArgs,
-};
+#!/usr/bin/env node
+'use strict';
+/**
+ * benchmark-memoria.js — CLI runner para benchmark de retrieval sobre memoria SWL.
+ *
+ * Ejecuta queries de un dataset JSONL contra `hooks/lib/memory-search`
+ * (que usa RRF fusion sobre aprendizajes/sesiones/instintos) y reporta
+ * métricas R@5, R@10, R@20, MRR, nDCG@10, P@5.
+ *
+ * Patrón adoptado de `temp/agentmemory-main/benchmark/longmemeval-bench.ts`.
+ * Adaptado para swl-ses: file-based, sin embeddings ML, dataset SWL-específico.
+ *
+ * Uso:
+ *   node scripts/benchmark-memoria.js [opciones]
+ *
+ * Opciones:
+ *   --dataset <ruta>   Dataset JSONL (default: .planning/benchmark/dataset.jsonl)
+ *   --limit <n>        Top-k a recuperar por query (default: 20)
+ *   --json             Output en JSON (para scripts)
+ *   --verbose          Detalle por query
+ *
+ * Exit codes:
+ *   0 - OK
+ *   1 - Error de I/O o dataset inválido
+ *   2 - Argumentos inválidos
+ *
+ * Persistencia opcional: si se setea SWL_BENCHMARK_PERSIST=1, escribe
+ * el resultado agregado a `.planning/evolucion/benchmark-memoria.jsonl`
+ * para tracking histórico.
+ */
+const fs   = require('fs');
+const path = require('path');
+const { ejecutarDataset } = require('./lib/longmemeval-runner');
+const DATASET_DEFAULT = '.planning/benchmark/dataset.jsonl';
+const HISTORICO_PATH  = '.planning/evolucion/benchmark-memoria.jsonl';
+function uso() {
+  console.error('Uso: node scripts/benchmark-memoria.js [--dataset <ruta>] [--limit <n>] [--json] [--verbose]');
+  process.exit(2);
+}
+function parseArgs(argv) {
+  const opts = {
+    dataset: DATASET_DEFAULT,
+    limit: 20,
+    json: false,
+    verbose: false,
+  };
+  for (let i = 0; i < argv.length; i++) {
+    const arg = argv[i];
+    if (arg === '--dataset') opts.dataset = argv[++i];
+    else if (arg === '--limit') opts.limit = parseInt(argv[++i], 10) || 20;
+    else if (arg === '--json') opts.json = true;
+    else if (arg === '--verbose') opts.verbose = true;
+    else if (arg === '--help' || arg === '-h') uso();
+  }
+  return opts;
+}
+function persistirHistorico(baseDir, resumen) {
+  if (process.env.SWL_BENCHMARK_PERSIST !== '1') return;
+  try {
+    const dirEvolucion = path.join(baseDir, '.planning', 'evolucion');
+    if (!fs.existsSync(dirEvolucion)) fs.mkdirSync(dirEvolucion, { recursive: true });
+    const linea = JSON.stringify({
+      timestamp: new Date().toISOString(),
+      ...resumen,
+    });
+    fs.appendFileSync(path.join(baseDir, HISTORICO_PATH), linea + '\n', 'utf8');
+  } catch (_) {
+    // best-effort
+  }
+}
+function reportarTexto(resultado, opts) {
+  const { promedio, dataset, entries } = resultado;
+  console.log('================================================================');
+  console.log('   Benchmark de retrieval de memoria SWL');
+  console.log('================================================================');
+  console.log('');
+  console.log(`Dataset:      ${opts.dataset}`);
+  console.log(`Total queries: ${dataset.total}`);
+  console.log(`  Reales:      ${dataset.real}`);
+  console.log(`  Placeholder: ${dataset.placeholder}`);
+  console.log(`Significativo: ${dataset.significativo ? 'sí' : 'NO (requiere ≥30 reales)'}`);
+  console.log('');
+  if (!dataset.significativo) {
+    console.log('⚠ ADVERTENCIA: dataset con menos de 30 queries reales.');
+    console.log('  Las métricas son INDICATIVAS, no estadísticamente significativas.');
+    console.log('  Para usar como gate de release, expandir el dataset con preguntas');
+    console.log('  curadas extraídas de uso real (ver SKILL.md de benchmark-memoria).');
+    console.log('');
+  }
+  console.log('────────────── Métricas agregadas ──────────────');
+  console.log(`  Recall @ 5:     ${(promedio.recall_at_5 * 100).toFixed(1)}%`);
+  console.log(`  Recall @ 10:    ${(promedio.recall_at_10 * 100).toFixed(1)}%`);
+  console.log(`  Recall @ 20:    ${(promedio.recall_at_20 * 100).toFixed(1)}%`);
+  console.log(`  MRR:            ${promedio.mrr.toFixed(3)}`);
+  console.log(`  nDCG @ 10:      ${promedio.ndcg_at_10.toFixed(3)}`);
+  console.log(`  Precision @ 5:  ${(promedio.precision_at_5 * 100).toFixed(1)}%`);
+  console.log('');
+  if (opts.verbose) {
+    console.log('────────────── Detalle por query ──────────────');
+    for (const r of entries) {
+      const mark = r.metricas.recall_at_5 > 0 ? '✓' : '✗';
+      console.log(`  ${mark} ${r.question_id} [${r.category || 'n/a'}, ${r.status}] ` +
+        `R@5=${r.metricas.recall_at_5} R@10=${r.metricas.recall_at_10} ` +
+        `MRR=${r.metricas.mrr.toFixed(2)} (${r.latencyMs}ms)`);
+      if (r.metricas.recall_at_5 === 0 && opts.verbose) {
+        console.log(`      Q: ${r.question.slice(0, 80)}`);
+        console.log(`      Gold:      ${r.goldIds.slice(0, 3).join(', ')}${r.goldIds.length > 3 ? '...' : ''}`);
+        console.log(`      Retrieved: ${r.retrievedIds.slice(0, 5).join(', ')}`);
+      }
+    }
+    console.log('');
+  }
+}
+function main() {
+  const opts = parseArgs(process.argv.slice(2));
+  const baseDir = process.cwd();
+  if (!fs.existsSync(opts.dataset)) {
+    console.error(`Dataset no encontrado: ${opts.dataset}`);
+    console.error(`Crea uno o usa el placeholder en ${DATASET_DEFAULT}.`);
+    process.exit(1);
+  }
+  let resultado;
+  try {
+    resultado = ejecutarDataset(baseDir, opts.dataset, { limit: opts.limit });
+  } catch (err) {
+    console.error(`Error ejecutando benchmark: ${err.message}`);
+    process.exit(1);
+  }
+  if (opts.json) {
+    console.log(JSON.stringify(resultado, null, 2));
+  } else {
+    reportarTexto(resultado, opts);
+  }
+  persistirHistorico(baseDir, {
+    dataset: opts.dataset,
+    n: resultado.dataset.total,
+    significativo: resultado.dataset.significativo,
+    promedio: resultado.promedio,
+  });
+  process.exit(0);
+}
+if (require.main === module) {
+  main();
+}
+module.exports = {
+  parseArgs,
+};