npm - @machinespirits/eval - Versions diffs - 0.2.0 → 0.3.0 - Mend

@machinespirits/eval 0.2.0 → 0.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (74) hide show

package/README.md +91 -9
package/config/eval-settings.yaml +3 -3
package/config/paper-manifest.json +486 -0
package/config/providers.yaml +9 -6
package/config/tutor-agents.yaml +2261 -0
package/content/README.md +23 -0
package/content/courses/479/course.md +53 -0
package/content/courses/479/lecture-1.md +361 -0
package/content/courses/479/lecture-2.md +360 -0
package/content/courses/479/lecture-3.md +655 -0
package/content/courses/479/lecture-4.md +530 -0
package/content/courses/479/lecture-5.md +326 -0
package/content/courses/479/lecture-6.md +346 -0
package/content/courses/479/lecture-7.md +326 -0
package/content/courses/479/lecture-8.md +273 -0
package/content/courses/479/roadmap-slides.md +656 -0
package/content/manifest.yaml +8 -0
package/docs/research/build.sh +44 -20
package/docs/research/figures/figure10.png +0 -0
package/docs/research/figures/figure11.png +0 -0
package/docs/research/figures/figure3.png +0 -0
package/docs/research/figures/figure4.png +0 -0
package/docs/research/figures/figure5.png +0 -0
package/docs/research/figures/figure6.png +0 -0
package/docs/research/figures/figure7.png +0 -0
package/docs/research/figures/figure8.png +0 -0
package/docs/research/figures/figure9.png +0 -0
package/docs/research/header.tex +23 -2
package/docs/research/paper-full.md +941 -285
package/docs/research/paper-short.md +216 -585
package/docs/research/references.bib +132 -0
package/docs/research/slides-header.tex +188 -0
package/docs/research/slides-pptx.md +363 -0
package/docs/research/slides.md +531 -0
package/docs/research/style-reference-pptx.py +199 -0
package/package.json +6 -5
package/scripts/analyze-eval-results.js +69 -17
package/scripts/analyze-mechanism-traces.js +763 -0
package/scripts/analyze-modulation-learning.js +498 -0
package/scripts/analyze-prosthesis.js +144 -0
package/scripts/analyze-run.js +264 -79
package/scripts/assess-transcripts.js +853 -0
package/scripts/browse-transcripts.js +854 -0
package/scripts/check-parse-failures.js +73 -0
package/scripts/code-dialectical-modulation.js +1320 -0
package/scripts/download-data.sh +55 -0
package/scripts/eval-cli.js +106 -18
package/scripts/generate-paper-figures.js +663 -0
package/scripts/generate-paper-figures.py +577 -76
package/scripts/generate-paper-tables.js +299 -0
package/scripts/qualitative-analysis-ai.js +3 -3
package/scripts/render-sequence-diagram.js +694 -0
package/scripts/test-latency.js +210 -0
package/scripts/test-rate-limit.js +95 -0
package/scripts/test-token-budget.js +332 -0
package/scripts/validate-paper-manifest.js +670 -0
package/services/__tests__/evalConfigLoader.test.js +2 -2
package/services/__tests__/learnerRubricEvaluator.test.js +361 -0
package/services/__tests__/learnerTutorInteractionEngine.test.js +326 -0
package/services/evaluationRunner.js +975 -98
package/services/evaluationStore.js +12 -4
package/services/learnerTutorInteractionEngine.js +27 -2
package/services/mockProvider.js +133 -0
package/services/promptRewriter.js +1471 -5
package/services/rubricEvaluator.js +55 -2
package/services/transcriptFormatter.js +675 -0
package/docs/EVALUATION-VARIABLES.md +0 -589
package/docs/REPLICATION-PLAN.md +0 -577
package/scripts/analyze-run.mjs +0 -282
package/scripts/compare-runs.js +0 -44
package/scripts/compare-suggestions.js +0 -80
package/scripts/dig-into-run.js +0 -158
package/scripts/show-failed-suggestions.js +0 -64
/package/scripts/{check-run.mjs → check-run.js} +0 -0

package/services/rubricEvaluator.js CHANGED Viewed

@@ -16,6 +16,59 @@ function debugLog(...args) {
   }
 }
+/**
+ * Normalize a judge model label to a canonical, human-readable form.
+ * Strips routing prefixes (e.g. "openrouter/anthropic/") and maps
+ * known model IDs to short names with version numbers.
+ *
+ * Examples:
+ *   "openrouter/anthropic/claude-sonnet-4.5" → "claude-sonnet-4.5"
+ *   "openrouter/openai/gpt-5.2"             → "gpt-5.2"
+ *   "openrouter/moonshotai/kimi-k2.5"       → "kimi-k2.5"
+ *   "anthropic/claude-opus-4-5"              → "claude-opus-4.5"
+ *   "openrouter/nvidia/nemotron-..."         → "nemotron"
+ */
+export function normalizeJudgeLabel(provider, model) {
+  // For known model IDs, extract the canonical name
+  const MODEL_MAP = {
+    'anthropic/claude-opus-4.5':      'claude-opus-4.5',
+    'anthropic/claude-opus-4-5':      'claude-opus-4.5',
+    'anthropic/claude-opus-4-6':      'claude-opus-4.6',
+    'anthropic/claude-sonnet-4.5':    'claude-sonnet-4.5',
+    'anthropic/claude-sonnet-4-5':    'claude-sonnet-4.5',
+    'anthropic/claude-haiku-4.5':     'claude-haiku-4.5',
+    'anthropic/claude-haiku-4-5':     'claude-haiku-4.5',
+    'openai/gpt-5.2':                'gpt-5.2',
+    'openai/gpt-5-mini':             'gpt-5-mini',
+    'openai/gpt-oss-120b':           'gpt-oss-120b',
+    'moonshotai/kimi-k2.5':          'kimi-k2.5',
+    'moonshotai/kimi-k2-thinking':   'kimi-k2',
+    'deepseek/deepseek-v3.2':        'deepseek-v3.2',
+    'z-ai/glm-4.7':                  'glm-4.7',
+    'z-ai/glm-5':                    'glm-5',
+    'google/gemini-3-flash-preview':  'gemini-3-flash',
+    'google/gemini-3-pro-preview':    'gemini-3-pro',
+    'minimax/minimax-m2.5':          'minimax-m2.5',
+  };
+  // Try direct model lookup (handles openrouter paths like "anthropic/claude-sonnet-4.5")
+  if (MODEL_MAP[model]) return MODEL_MAP[model];
+  // Try full provider/model path
+  const fullPath = `${provider}/${model}`;
+  if (MODEL_MAP[fullPath]) return MODEL_MAP[fullPath];
+  // For nvidia/nemotron variants, normalize to "nemotron"
+  if (model.includes('nemotron')) return 'nemotron';
+  // Fallback: strip common routing prefixes, keep the model name
+  const stripped = model
+    .replace(/^(anthropic|openai|moonshotai|deepseek|z-ai|google|minimax|nvidia)\//, '')
+    .replace(/:free$/, '');
+  return stripped || `${provider}/${model}`;
+}
 /**
  * Get available judge configuration, resolving model references via providers.yaml
  * Tries primary model first, then fallback if primary is not configured
@@ -929,7 +982,7 @@ export async function evaluateSuggestion(suggestion, scenario, context = {}, ove
       requiredMissing: parsed.validation?.required_missing || [],
       forbiddenFound: parsed.validation?.forbidden_found || [],
       summary: parsed.summary,
-      judgeModel: `${judge.provider}/${judge.model}`,
+      judgeModel: normalizeJudgeLabel(judge.provider, judge.model),
       evaluationTimeMs: Date.now() - startTime,
     };
   } catch (error) {
@@ -940,7 +993,7 @@ export async function evaluateSuggestion(suggestion, scenario, context = {}, ove
       baseScore: null,
       recognitionScore: null,
       error: error.message,
-      judgeModel: `${judge.provider}/${judge.model}`,
+      judgeModel: normalizeJudgeLabel(judge.provider, judge.model),
       evaluationTimeMs: Date.now() - startTime,
     };
   }