npm - @machinespirits/eval - Versions diffs - 0.2.0 → 0.3.0 - Mend

@machinespirits/eval 0.2.0 → 0.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (74) hide show

package/README.md +91 -9
package/config/eval-settings.yaml +3 -3
package/config/paper-manifest.json +486 -0
package/config/providers.yaml +9 -6
package/config/tutor-agents.yaml +2261 -0
package/content/README.md +23 -0
package/content/courses/479/course.md +53 -0
package/content/courses/479/lecture-1.md +361 -0
package/content/courses/479/lecture-2.md +360 -0
package/content/courses/479/lecture-3.md +655 -0
package/content/courses/479/lecture-4.md +530 -0
package/content/courses/479/lecture-5.md +326 -0
package/content/courses/479/lecture-6.md +346 -0
package/content/courses/479/lecture-7.md +326 -0
package/content/courses/479/lecture-8.md +273 -0
package/content/courses/479/roadmap-slides.md +656 -0
package/content/manifest.yaml +8 -0
package/docs/research/build.sh +44 -20
package/docs/research/figures/figure10.png +0 -0
package/docs/research/figures/figure11.png +0 -0
package/docs/research/figures/figure3.png +0 -0
package/docs/research/figures/figure4.png +0 -0
package/docs/research/figures/figure5.png +0 -0
package/docs/research/figures/figure6.png +0 -0
package/docs/research/figures/figure7.png +0 -0
package/docs/research/figures/figure8.png +0 -0
package/docs/research/figures/figure9.png +0 -0
package/docs/research/header.tex +23 -2
package/docs/research/paper-full.md +941 -285
package/docs/research/paper-short.md +216 -585
package/docs/research/references.bib +132 -0
package/docs/research/slides-header.tex +188 -0
package/docs/research/slides-pptx.md +363 -0
package/docs/research/slides.md +531 -0
package/docs/research/style-reference-pptx.py +199 -0
package/package.json +6 -5
package/scripts/analyze-eval-results.js +69 -17
package/scripts/analyze-mechanism-traces.js +763 -0
package/scripts/analyze-modulation-learning.js +498 -0
package/scripts/analyze-prosthesis.js +144 -0
package/scripts/analyze-run.js +264 -79
package/scripts/assess-transcripts.js +853 -0
package/scripts/browse-transcripts.js +854 -0
package/scripts/check-parse-failures.js +73 -0
package/scripts/code-dialectical-modulation.js +1320 -0
package/scripts/download-data.sh +55 -0
package/scripts/eval-cli.js +106 -18
package/scripts/generate-paper-figures.js +663 -0
package/scripts/generate-paper-figures.py +577 -76
package/scripts/generate-paper-tables.js +299 -0
package/scripts/qualitative-analysis-ai.js +3 -3
package/scripts/render-sequence-diagram.js +694 -0
package/scripts/test-latency.js +210 -0
package/scripts/test-rate-limit.js +95 -0
package/scripts/test-token-budget.js +332 -0
package/scripts/validate-paper-manifest.js +670 -0
package/services/__tests__/evalConfigLoader.test.js +2 -2
package/services/__tests__/learnerRubricEvaluator.test.js +361 -0
package/services/__tests__/learnerTutorInteractionEngine.test.js +326 -0
package/services/evaluationRunner.js +975 -98
package/services/evaluationStore.js +12 -4
package/services/learnerTutorInteractionEngine.js +27 -2
package/services/mockProvider.js +133 -0
package/services/promptRewriter.js +1471 -5
package/services/rubricEvaluator.js +55 -2
package/services/transcriptFormatter.js +675 -0
package/docs/EVALUATION-VARIABLES.md +0 -589
package/docs/REPLICATION-PLAN.md +0 -577
package/scripts/analyze-run.mjs +0 -282
package/scripts/compare-runs.js +0 -44
package/scripts/compare-suggestions.js +0 -80
package/scripts/dig-into-run.js +0 -158
package/scripts/show-failed-suggestions.js +0 -64
/package/scripts/{check-run.mjs → check-run.js} +0 -0

package/config/providers.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 # Shared AI Provider Configuration
 # Used by both tutor-agents.yaml and evaluation-rubric.yaml
 #
-# Model IDs are current as of January 2025. Update when new models release.
+# Model IDs are current as of February 2026. Update when new models release.
 providers:
   anthropic:
@@ -11,7 +11,7 @@ providers:
     models:
       haiku: claude-haiku-4-5
       sonnet: claude-sonnet-4-5
-      opus: claude-opus-4-5
+      opus: claude-opus-4-6
   openai:
     api_key_env: OPENAI_API_KEY
@@ -26,21 +26,24 @@ providers:
     base_url: https://openrouter.ai/api/v1/chat/completions
     default_model: nvidia/nemotron-3-nano-30b-a3b:free
     models:
-      # Budget-friendly options (free tier)
+      # Budget-friendly options
       nemotron: nvidia/nemotron-3-nano-30b-a3b:free
       glm47: z-ai/glm-4.7
+      glm5: z-ai/glm-5
       kimi-k2: moonshotai/kimi-k2-thinking
       "kimi-k2.5": moonshotai/kimi-k2.5
       deepseek: deepseek/deepseek-v3.2
-      minimax: minimax/minimax-m2.1ate
+      minimax: minimax/minimax-m2.5
       haiku: anthropic/claude-haiku-4.5
       gpt-oss: openai/gpt-oss-120b
+      qwen3.5-plus: qwen/qwen3.5-plus-02-15
+      qwen3.5: qwen/qwen3.5-397b-a17b
       # Mid-tier options
-      sonnet: anthropic/claude-sonnet-4.5
+      sonnet: anthropic/claude-sonnet-4.6
       gpt-mini: openai/gpt-5-mini
       gemini-flash: google/gemini-3-flash-preview
       # Premium options
-      opus: anthropic/claude-opus-4.5
+      opus: anthropic/claude-opus-4.6
       gpt: openai/gpt-5.2
       gemini-pro: google/gemini-3-pro-preview