npm - @machinespirits/eval - Versions diffs - 0.1.2 → 0.2.1 - Mend

@machinespirits/eval 0.1.2 → 0.2.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (102) hide show

package/LICENSE +21 -0
package/README.md +161 -0
package/config/eval-settings.yaml +18 -0
package/config/evaluation-rubric-learner.yaml +277 -0
package/config/evaluation-rubric.yaml +613 -0
package/config/interaction-eval-scenarios.yaml +93 -50
package/config/learner-agents.yaml +124 -193
package/config/machinespirits-eval.code-workspace +11 -0
package/config/providers.yaml +60 -0
package/config/suggestion-scenarios.yaml +1399 -0
package/config/tutor-agents.yaml +716 -0
package/docs/EVALUATION-VARIABLES.md +589 -0
package/docs/REPLICATION-PLAN.md +577 -0
package/index.js +15 -6
package/package.json +16 -22
package/routes/evalRoutes.js +88 -36
package/scripts/analyze-judge-reliability.js +401 -0
package/scripts/analyze-run.js +97 -0
package/scripts/analyze-run.mjs +282 -0
package/scripts/analyze-validation-failures.js +141 -0
package/scripts/check-run.mjs +17 -0
package/scripts/code-impasse-strategies.js +1132 -0
package/scripts/compare-runs.js +44 -0
package/scripts/compare-suggestions.js +80 -0
package/scripts/compare-transformation.js +116 -0
package/scripts/dig-into-run.js +158 -0
package/scripts/eval-cli.js +2626 -0
package/scripts/generate-paper-figures.py +452 -0
package/scripts/qualitative-analysis-ai.js +1313 -0
package/scripts/qualitative-analysis.js +688 -0
package/scripts/seed-db.js +87 -0
package/scripts/show-failed-suggestions.js +64 -0
package/scripts/validate-content.js +192 -0
package/server.js +3 -2
package/services/__tests__/evalConfigLoader.test.js +338 -0
package/services/anovaStats.js +499 -0
package/services/contentResolver.js +407 -0
package/services/dialogueTraceAnalyzer.js +454 -0
package/services/evalConfigLoader.js +625 -0
package/services/evaluationRunner.js +2171 -270
package/services/evaluationStore.js +564 -29
package/services/learnerConfigLoader.js +75 -5
package/services/learnerRubricEvaluator.js +284 -0
package/services/learnerTutorInteractionEngine.js +375 -0
package/services/processUtils.js +18 -0
package/services/progressLogger.js +98 -0
package/services/promptRecommendationService.js +31 -26
package/services/promptRewriter.js +427 -0
package/services/rubricEvaluator.js +543 -70
package/services/streamingReporter.js +104 -0
package/services/turnComparisonAnalyzer.js +494 -0
package/components/MobileEvalDashboard.tsx +0 -267
package/components/comparison/DeltaAnalysisTable.tsx +0 -137
package/components/comparison/ProfileComparisonCard.tsx +0 -176
package/components/comparison/RecognitionABMode.tsx +0 -385
package/components/comparison/RecognitionMetricsPanel.tsx +0 -135
package/components/comparison/WinnerIndicator.tsx +0 -64
package/components/comparison/index.ts +0 -5
package/components/mobile/BottomSheet.tsx +0 -233
package/components/mobile/DimensionBreakdown.tsx +0 -210
package/components/mobile/DocsView.tsx +0 -363
package/components/mobile/LogsView.tsx +0 -481
package/components/mobile/PsychodynamicQuadrant.tsx +0 -261
package/components/mobile/QuickTestView.tsx +0 -1098
package/components/mobile/RecognitionTypeChart.tsx +0 -124
package/components/mobile/RecognitionView.tsx +0 -809
package/components/mobile/RunDetailView.tsx +0 -261
package/components/mobile/RunHistoryView.tsx +0 -367
package/components/mobile/ScoreRadial.tsx +0 -211
package/components/mobile/StreamingLogPanel.tsx +0 -230
package/components/mobile/SynthesisStrategyChart.tsx +0 -140
package/docs/research/ABLATION-DIALOGUE-ROUNDS.md +0 -52
package/docs/research/ABLATION-MODEL-SELECTION.md +0 -53
package/docs/research/ADVANCED-EVAL-ANALYSIS.md +0 -60
package/docs/research/ANOVA-RESULTS-2026-01-14.md +0 -257
package/docs/research/COMPREHENSIVE-EVALUATION-PLAN.md +0 -586
package/docs/research/COST-ANALYSIS.md +0 -56
package/docs/research/CRITICAL-REVIEW-RECOGNITION-TUTORING.md +0 -340
package/docs/research/DYNAMIC-VS-SCRIPTED-ANALYSIS.md +0 -291
package/docs/research/EVAL-SYSTEM-ANALYSIS.md +0 -306
package/docs/research/FACTORIAL-RESULTS-2026-01-14.md +0 -301
package/docs/research/IMPLEMENTATION-PLAN-CRITIQUE-RESPONSE.md +0 -1988
package/docs/research/LONGITUDINAL-DYADIC-EVALUATION.md +0 -282
package/docs/research/MULTI-JUDGE-VALIDATION-2026-01-14.md +0 -147
package/docs/research/PAPER-EXTENSION-DYADIC.md +0 -204
package/docs/research/PAPER-UNIFIED.md +0 -659
package/docs/research/PAPER-UNIFIED.pdf +0 -0
package/docs/research/PROMPT-IMPROVEMENTS-2026-01-14.md +0 -356
package/docs/research/SESSION-NOTES-2026-01-11-RECOGNITION-EVAL.md +0 -419
package/docs/research/apa.csl +0 -2133
package/docs/research/archive/PAPER-DRAFT-RECOGNITION-TUTORING.md +0 -1637
package/docs/research/archive/paper-multiagent-tutor.tex +0 -978
package/docs/research/paper-draft/full-paper.md +0 -136
package/docs/research/paper-draft/images/pasted-image-2026-01-24T03-47-47-846Z-d76a7ae2.png +0 -0
package/docs/research/paper-draft/references.bib +0 -515
package/docs/research/transcript-baseline.md +0 -139
package/docs/research/transcript-recognition-multiagent.md +0 -187
package/hooks/useEvalData.ts +0 -625
package/server-init.js +0 -45
package/services/benchmarkService.js +0 -1892
package/types.ts +0 -165
package/utils/haptics.ts +0 -45

package/services/learnerTutorInteractionEngine.js CHANGED Viewed

@@ -847,11 +847,386 @@ function calculateMemoryDelta(before, after) {
   };
 }
+// ============================================================================
+// Standalone Learner Response (for evaluation pipeline)
+// ============================================================================
+// Retry delays for 429 rate limits (matches evaluationRunner pattern)
+const LEARNER_RETRY_DELAYS = [2000, 4000, 8000];
+/**
+ * Call the LLM for a learner agent using the same raw fetch layer as
+ * tutorDialogueEngine.callAI — same headers, error handling, and response
+ * parsing per provider. This ensures learner and tutor calls go through
+ * identical network code paths.
+ *
+ * Includes built-in retry with exponential backoff for 429 rate limits.
+ *
+ * @param {Object} agentConfig - From learnerConfig.getAgentConfig()
+ * @param {string} systemPrompt - Static system/persona prompt (cacheable)
+ * @param {string} userPrompt - Dynamic per-call user content
+ * @param {string} agentRole - For logging (e.g. 'ego', 'superego', 'synthesis')
+ * @returns {Promise<Object>} { content, usage: { inputTokens, outputTokens }, latencyMs }
+ */
+async function callLearnerAI(agentConfig, systemPrompt, userPrompt, agentRole = 'learner') {
+  let lastError;
+  for (let attempt = 0; attempt <= LEARNER_RETRY_DELAYS.length; attempt++) {
+    try {
+      return await _callLearnerAIOnce(agentConfig, systemPrompt, userPrompt, agentRole);
+    } catch (error) {
+      lastError = error;
+      const is429 = error?.message?.includes('429') ||
+                    error?.message?.toLowerCase()?.includes('rate limit');
+      if (!is429 || attempt >= LEARNER_RETRY_DELAYS.length) throw error;
+      const delay = LEARNER_RETRY_DELAYS[attempt];
+      console.warn(`[${agentRole}] Rate limit hit, retrying in ${delay}ms (attempt ${attempt + 1}/${LEARNER_RETRY_DELAYS.length})`);
+      await new Promise(resolve => setTimeout(resolve, delay));
+    }
+  }
+  throw lastError;
+}
+/**
+ * Single-attempt LLM call. Mirrors tutorDialogueEngine.callAI per-provider
+ * fetch logic: same headers, same body format, same error parsing.
+ * Accepts system and user prompts separately for provider-level caching.
+ */
+async function _callLearnerAIOnce(agentConfig, systemPrompt, userPrompt, agentRole) {
+  const { provider, providerConfig, model, hyperparameters = {} } = agentConfig;
+  let { temperature = 0.7, max_tokens = 300, top_p } = hyperparameters;
+  // Thinking models (kimi-k2.5, deepseek-r1, etc.) use reasoning tokens that consume
+  // the max_tokens budget. Increase significantly to allow for both reasoning and output.
+  const isThinkingModel = model?.includes('kimi-k2') || model?.includes('deepseek-r1');
+  if (isThinkingModel && max_tokens < 2000) {
+    max_tokens = 2000;
+  }
+  if (!providerConfig?.isConfigured) {
+    throw new Error(`Learner provider ${provider} not configured (missing API key)`);
+  }
+  const startTime = Date.now();
+  // --- Anthropic ---
+  if (provider === 'anthropic') {
+    const bodyParams = {
+      model,
+      max_tokens,
+      temperature,
+      system: systemPrompt,
+      messages: [{ role: 'user', content: userPrompt }],
+    };
+    if (top_p !== undefined) {
+      delete bodyParams.temperature;
+      bodyParams.top_p = top_p;
+    }
+    const res = await fetch(providerConfig.base_url, {
+      method: 'POST',
+      headers: {
+        'Content-Type': 'application/json',
+        'x-api-key': providerConfig.apiKey,
+        'anthropic-version': '2023-06-01',
+      },
+      body: JSON.stringify(bodyParams),
+    });
+    if (!res.ok) {
+      const data = await res.json().catch(() => ({}));
+      throw new Error(`Anthropic API error: ${res.status} - ${data?.error?.message || 'Unknown error'}`);
+    }
+    const data = await res.json();
+    return {
+      content: data?.content?.[0]?.text?.trim() || '',
+      usage: {
+        inputTokens: data?.usage?.input_tokens || 0,
+        outputTokens: data?.usage?.output_tokens || 0,
+      },
+      latencyMs: Date.now() - startTime,
+    };
+  }
+  // --- OpenAI ---
+  if (provider === 'openai') {
+    const res = await fetch(providerConfig.base_url, {
+      method: 'POST',
+      headers: {
+        'Content-Type': 'application/json',
+        Authorization: `Bearer ${providerConfig.apiKey}`,
+      },
+      body: JSON.stringify({
+        model,
+        temperature,
+        max_tokens,
+        top_p,
+        messages: [
+          { role: 'system', content: systemPrompt },
+          { role: 'user', content: userPrompt },
+        ],
+      }),
+    });
+    if (!res.ok) {
+      const data = await res.json().catch(() => ({}));
+      throw new Error(`OpenAI API error: ${res.status} - ${data?.error?.message || 'Unknown error'}`);
+    }
+    const data = await res.json();
+    return {
+      content: data?.choices?.[0]?.message?.content?.trim() || '',
+      usage: {
+        inputTokens: data?.usage?.prompt_tokens || 0,
+        outputTokens: data?.usage?.completion_tokens || 0,
+      },
+      latencyMs: Date.now() - startTime,
+    };
+  }
+  // --- OpenRouter ---
+  if (provider === 'openrouter') {
+    const res = await fetch(providerConfig.base_url, {
+      method: 'POST',
+      headers: {
+        'Content-Type': 'application/json',
+        Authorization: `Bearer ${providerConfig.apiKey}`,
+        'HTTP-Referer': process.env.OPENROUTER_REFERER || 'https://machine-spirits.com',
+        'X-Title': 'Machine Spirits Tutor',
+      },
+      body: JSON.stringify({
+        model,
+        temperature,
+        max_tokens,
+        top_p,
+        messages: [
+          { role: 'system', content: systemPrompt },
+          { role: 'user', content: userPrompt },
+        ],
+      }),
+    });
+    if (!res.ok) {
+      const data = await res.json().catch(() => ({}));
+      throw new Error(`OpenRouter API error: ${res.status} - ${data?.error?.message || 'Unknown error'}`);
+    }
+    const data = await res.json();
+    const content = data?.choices?.[0]?.message?.content?.trim() || '';
+    if (!content) {
+      console.warn(`[${agentRole}] OpenRouter returned empty content. Model: ${model}, finish_reason: ${data?.choices?.[0]?.finish_reason}`);
+    }
+    return {
+      content,
+      usage: {
+        inputTokens: data?.usage?.prompt_tokens || 0,
+        outputTokens: data?.usage?.completion_tokens || 0,
+      },
+      latencyMs: Date.now() - startTime,
+    };
+  }
+  // --- Gemini ---
+  if (provider === 'gemini') {
+    const { GoogleGenAI } = await import('@google/genai');
+    const gemini = new GoogleGenAI({ apiKey: providerConfig.apiKey });
+    const result = await gemini.models.generateContent({
+      model,
+      systemInstruction: systemPrompt,
+      contents: [{ role: 'user', parts: [{ text: userPrompt }] }],
+      config: { temperature, maxOutputTokens: max_tokens, topP: top_p },
+    });
+    const content = result?.text?.() || result?.response?.text?.() || '';
+    return {
+      content,
+      usage: { inputTokens: 0, outputTokens: 0 },
+      latencyMs: Date.now() - startTime,
+    };
+  }
+  // --- Local (LM Studio / Ollama / llama.cpp) ---
+  if (provider === 'local') {
+    const res = await fetch(providerConfig.base_url, {
+      method: 'POST',
+      headers: { 'Content-Type': 'application/json' },
+      body: JSON.stringify({
+        model,
+        temperature,
+        max_tokens,
+        messages: [
+          { role: 'system', content: systemPrompt },
+          { role: 'user', content: userPrompt },
+        ],
+      }),
+    });
+    if (!res.ok) {
+      const data = await res.json().catch(() => ({}));
+      throw new Error(`Local LLM error: ${res.status} - ${data?.error?.message || 'Is LM Studio running?'}`);
+    }
+    const data = await res.json();
+    return {
+      content: data?.choices?.[0]?.message?.content?.trim() || '',
+      usage: {
+        inputTokens: data?.usage?.prompt_tokens || 0,
+        outputTokens: data?.usage?.completion_tokens || 0,
+      },
+      latencyMs: Date.now() - startTime,
+    };
+  }
+  throw new Error(`Unsupported learner provider: ${provider}`);
+}
+/**
+ * Generate a single learner response for use by the evaluation pipeline.
+ * Runs ego→superego→synthesis if profile is multi-agent, or single call if unified.
+ *
+ * Uses callLearnerAI internally — the same raw fetch layer as the tutor's
+ * tutorDialogueEngine.callAI — so learner and tutor LLM calls go through
+ * identical provider code paths with identical retry logic.
+ *
+ * @param {Object} options
+ * @param {string} options.tutorMessage - The tutor's message to respond to
+ * @param {string} options.topic - Current topic
+ * @param {Array}  options.conversationHistory - [{role, content}, ...]
+ * @param {string} options.learnerProfile - Profile name ('ego_superego' or 'unified')
+ * @param {string} options.personaId - Persona identifier (default: 'eager_novice')
+ * @param {string|Object} [options.modelOverride] - Optional model override (e.g. 'openrouter.nemotron') applied to all learner agents
+ * @returns {Promise<Object>} { message, internalDeliberation, emotionalState, understandingLevel, tokenUsage }
+ */
+export async function generateLearnerResponse(options) {
+  const {
+    tutorMessage,
+    topic,
+    conversationHistory = [],
+    learnerProfile = 'unified',
+    personaId = 'eager_novice',
+    modelOverride,
+  } = options;
+  // Resolve model override once (if provided) so all learner agents use the same model
+  let resolvedOverride = null;
+  if (modelOverride) {
+    const r = learnerConfig.resolveModel(modelOverride);
+    const providerConfig = learnerConfig.getProviderConfig(r.provider);
+    const modelFullId = providerConfig.models?.[r.model] || r.model;
+    resolvedOverride = { provider: r.provider, providerConfig, model: modelFullId, modelAlias: r.model };
+  }
+  const applyOverride = (cfg) => {
+    if (!resolvedOverride || !cfg) return cfg;
+    return { ...cfg, provider: resolvedOverride.provider, providerConfig: resolvedOverride.providerConfig, model: resolvedOverride.model, modelAlias: resolvedOverride.modelAlias };
+  };
+  const persona = learnerConfig.getPersona(personaId);
+  const profile = learnerConfig.getActiveProfile(learnerProfile);
+  const agentRoles = learnerConfig.getProfileAgentRoles(profile.name);
+  const internalDeliberation = [];
+  const tokenUsage = { inputTokens: 0, outputTokens: 0, apiCalls: 0 };
+  // Build conversation context string from history
+  const conversationContext = conversationHistory
+    .slice(-6)
+    .map(m => `${m.role.toUpperCase()}: ${m.content}`)
+    .join('\n\n');
+  // Psychodynamic flow: Ego (initial) → Superego (critique) → Ego (revision/final)
+  // This mirrors the tutor architecture where the ego has final authority over output,
+  // accepting, rejecting, or modifying the superego's suggestions.
+  const hasMultiAgent = agentRoles.includes('ego') && agentRoles.includes('superego');
+  if (hasMultiAgent) {
+    // === STEP 1: Ego initial reaction ===
+    const egoConfig = applyOverride(learnerConfig.getAgentConfig('ego', profile.name));
+    const egoContext = `Topic: ${topic}\n\nRecent conversation:\n${conversationContext}\n\nThe tutor just said:\n"${tutorMessage}"\n\nGenerate your initial internal reaction as the learner's ego.`;
+    const egoSystemPrompt = buildLearnerPrompt(egoConfig, persona, egoContext);
+    const egoInitialResponse = await callLearnerAI(egoConfig, egoSystemPrompt, "React to the tutor's message.", 'learner_ego_initial');
+    internalDeliberation.push({ role: 'ego_initial', content: egoInitialResponse.content });
+    tokenUsage.inputTokens += egoInitialResponse.usage?.inputTokens || 0;
+    tokenUsage.outputTokens += egoInitialResponse.usage?.outputTokens || 0;
+    tokenUsage.apiCalls++;
+    // === STEP 2: Superego critique ===
+    const superegoConfig = applyOverride(learnerConfig.getAgentConfig('superego', profile.name));
+    const superegoContext = `Topic: ${topic}\n\nRecent conversation:\n${conversationContext}\n\nThe tutor just said:\n"${tutorMessage}"\n\nThe EGO's initial reaction was:\n"${egoInitialResponse.content}"\n\nReview the EGO's response. Is it accurate? What's being missed? What should be reconsidered?`;
+    const superegoSystemPrompt = buildLearnerPrompt(superegoConfig, persona, superegoContext);
+    const superegoResponse = await callLearnerAI(superegoConfig, superegoSystemPrompt, "Critique the EGO's reaction.", 'learner_superego');
+    internalDeliberation.push({ role: 'superego', content: superegoResponse.content });
+    tokenUsage.inputTokens += superegoResponse.usage?.inputTokens || 0;
+    tokenUsage.outputTokens += superegoResponse.usage?.outputTokens || 0;
+    tokenUsage.apiCalls++;
+    // === STEP 3: Ego revision (final authority) ===
+    // The ego considers the superego's feedback and decides what to actually say.
+    // It may accept, reject, or modify the superego's suggestions.
+    const egoRevisionContext = `Topic: ${topic}\n\nRecent conversation:\n${conversationContext}\n\nThe tutor just said:\n"${tutorMessage}"\n\nYour initial reaction was:\n"${egoInitialResponse.content}"\n\nThe SUPEREGO's critique:\n"${superegoResponse.content}"\n\nConsider the superego's feedback. You have final authority — accept, reject, or modify its suggestions as you see fit. Then produce a realistic external response (1-4 sentences) that the learner would actually say to the tutor.`;
+    const egoRevisionSystemPrompt = buildLearnerPrompt(egoConfig, persona, egoRevisionContext);
+    const egoFinalResponse = await callLearnerAI(egoConfig, egoRevisionSystemPrompt, "Produce your final response to the tutor.", 'learner_ego_revision');
+    internalDeliberation.push({ role: 'ego_revision', content: egoFinalResponse.content });
+    tokenUsage.inputTokens += egoFinalResponse.usage?.inputTokens || 0;
+    tokenUsage.outputTokens += egoFinalResponse.usage?.outputTokens || 0;
+    tokenUsage.apiCalls++;
+    // Log deliberation for debugging/analysis
+    if (process.env.LEARNER_DEBUG) {
+      console.log('\n┌─────────────────────────────────────────────────────────────');
+      console.log('│ LEARNER DELIBERATION (ego→superego→ego_revision)');
+      console.log('├─────────────────────────────────────────────────────────────');
+      console.log(`│ EGO INITIAL: ${egoInitialResponse.content.substring(0, 200)}...`);
+      console.log('├─────────────────────────────────────────────────────────────');
+      console.log(`│ SUPEREGO: ${superegoResponse.content.substring(0, 200)}...`);
+      console.log('├─────────────────────────────────────────────────────────────');
+      console.log(`│ EGO REVISION (FINAL): ${egoFinalResponse.content.substring(0, 200)}...`);
+      console.log('└─────────────────────────────────────────────────────────────\n');
+    }
+  } else {
+    // Single-agent (unified) flow — run each role sequentially as before
+    for (const role of agentRoles) {
+      const agentConfig = applyOverride(learnerConfig.getAgentConfig(role, profile.name));
+      if (!agentConfig) continue;
+      let roleContext = `Topic: ${topic}\n\nRecent conversation:\n${conversationContext}\n\nThe tutor just said:\n"${tutorMessage}"`;
+      roleContext += `\n\nGenerate your internal reaction as this dimension of the learner's experience.`;
+      const systemPrompt = buildLearnerPrompt(agentConfig, persona, roleContext);
+      const response = await callLearnerAI(agentConfig, systemPrompt, "React to the tutor's message.", `learner_${role}`);
+      internalDeliberation.push({ role, content: response.content });
+      tokenUsage.inputTokens += response.usage?.inputTokens || 0;
+      tokenUsage.outputTokens += response.usage?.outputTokens || 0;
+      tokenUsage.apiCalls++;
+    }
+  }
+  // Get final message from the last deliberation step
+  // For multi-agent: ego_revision. For unified: the single agent's output.
+  const finalDeliberation = internalDeliberation[internalDeliberation.length - 1];
+  return {
+    message: finalDeliberation.content,
+    internalDeliberation,
+    emotionalState: detectEmotionalState(internalDeliberation),
+    understandingLevel: detectUnderstandingLevel(internalDeliberation),
+    tokenUsage,
+  };
+}
 // ============================================================================
 // Exports
 // ============================================================================
 export default {
   runInteraction,
+  generateLearnerResponse,
   INTERACTION_OUTCOMES,
 };

package/services/processUtils.js ADDED Viewed

@@ -0,0 +1,18 @@
+/**
+ * Process utility functions shared across eval services and CLI.
+ */
+/**
+ * Check if a process with the given PID is still running.
+ * @param {number} pid - Process ID to check
+ * @returns {boolean|null} true if alive, false if dead, null if pid is falsy
+ */
+export function isPidAlive(pid) {
+  if (!pid || typeof pid !== 'number') return null;
+  try {
+    process.kill(pid, 0); // Signal 0 = check existence without killing
+    return true;
+  } catch (e) {
+    return e.code === 'EPERM'; // EPERM means process exists but we can't signal it
+  }
+}

package/services/progressLogger.js ADDED Viewed

@@ -0,0 +1,98 @@
+/**
+ * Progress Logger — JSONL event writer for cross-process eval monitoring.
+ *
+ * One file per run at logs/eval-progress/<runId>.jsonl.
+ * Each line is a self-contained JSON object with timestamp + runId + eventType.
+ */
+import fs from 'fs';
+import path from 'path';
+import { fileURLToPath } from 'url';
+const __filename = fileURLToPath(import.meta.url);
+const __dirname = path.dirname(__filename);
+const ROOT_DIR = path.resolve(__dirname, '..');
+const PROGRESS_DIR = path.join(ROOT_DIR, 'logs', 'eval-progress');
+export class ProgressLogger {
+  constructor(runId) {
+    this.runId = runId;
+    // Ensure directory exists
+    fs.mkdirSync(PROGRESS_DIR, { recursive: true });
+    this.filePath = path.join(PROGRESS_DIR, `${runId}.jsonl`);
+  }
+  /** Append a single JSON line */
+  writeEvent(eventType, data = {}) {
+    const event = {
+      timestamp: new Date().toISOString(),
+      runId: this.runId,
+      eventType,
+      ...data,
+    };
+    fs.appendFileSync(this.filePath, JSON.stringify(event) + '\n');
+  }
+  // ── Convenience methods ──────────────────────────────────────────
+  runStart({ totalTests, totalScenarios, totalConfigurations, scenarios, profiles, description }) {
+    this.writeEvent('run_start', {
+      totalTests,
+      totalScenarios,
+      totalConfigurations,
+      scenarios,
+      profiles,
+      description,
+    });
+  }
+  testStart({ scenarioId, scenarioName, profileName }) {
+    this.writeEvent('test_start', { scenarioId, scenarioName, profileName });
+  }
+  testComplete({ scenarioId, scenarioName, profileName, success, overallScore, baseScore, recognitionScore, latencyMs, completedCount, totalTests }) {
+    this.writeEvent('test_complete', {
+      scenarioId, scenarioName, profileName,
+      success, overallScore, baseScore, recognitionScore, latencyMs,
+      completedCount, totalTests,
+    });
+  }
+  testError({ scenarioId, scenarioName, profileName, errorMessage, completedCount, totalTests }) {
+    this.writeEvent('test_error', {
+      scenarioId, scenarioName, profileName, errorMessage,
+      completedCount, totalTests,
+    });
+  }
+  scenarioComplete({ scenarioId, scenarioName, profileNames, avgScore, completedScenarios, totalScenarios }) {
+    this.writeEvent('scenario_complete', {
+      scenarioId, scenarioName, profileNames, avgScore,
+      completedScenarios, totalScenarios,
+    });
+  }
+  runComplete({ totalTests, successfulTests, failedTests, durationMs }) {
+    this.writeEvent('run_complete', {
+      totalTests, successfulTests, failedTests, durationMs,
+    });
+  }
+}
+/** Resolve the JSONL path for a given runId (may not exist yet). */
+export function getProgressLogPath(runId) {
+  return path.join(PROGRESS_DIR, `${runId}.jsonl`);
+}
+/** Read all events from a JSONL progress file. Returns [] if missing. */
+export function readProgressLog(runId) {
+  const filePath = path.join(PROGRESS_DIR, `${runId}.jsonl`);
+  if (!fs.existsSync(filePath)) return [];
+  const lines = fs.readFileSync(filePath, 'utf-8').split('\n').filter(Boolean);
+  return lines.map(line => {
+    try { return JSON.parse(line); }
+    catch { return null; }
+  }).filter(Boolean);
+}
+export default { ProgressLogger, getProgressLogPath, readProgressLog };

package/services/promptRecommendationService.js CHANGED Viewed

@@ -2,18 +2,17 @@
  * Prompt Recommendation Service
  *
  * Analyzes evaluation results and generates recommendations to improve
- * tutor prompts. Uses a powerful evaluator model to analyze failures
+ * tutor prompts. Uses a powerful recommender model to analyze failures
  * and weaknesses from weaker tutor models.
  *
- * Evaluator configuration is loaded from config/evaluation-rubric.yaml
+ * Recommender configuration is loaded from config/evaluation-rubric.yaml
  * Provider details are resolved from config/providers.yaml
  */
 import fs from 'fs';
 import path from 'path';
 import { fileURLToPath } from 'url';
-import Anthropic from '@anthropic-ai/sdk';
-import { tutorApiService as tutorApi, tutorConfigLoader as configLoader } from '@machinespirits/tutor-core';
+import * as evalConfigLoader from './evalConfigLoader.js';
 const __filename = fileURLToPath(import.meta.url);
 const __dirname = path.dirname(__filename);
@@ -22,12 +21,11 @@ const PROMPTS_DIR = path.join(ROOT_DIR, 'prompts');
 /**
  * Get recommender config, resolving model references via providers.yaml
- * Uses 'recommender' config from evaluation-rubric.yaml (falls back to 'evaluator')
+ * Uses 'recommender' config from evaluation-rubric.yaml
  */
-function getEvaluatorConfig() {
-  const rubric = tutorApi.loadRubric();
-  // Prefer 'recommender' for prompt analysis, fall back to legacy 'evaluator'
-  const evalConfig = rubric?.recommender || rubric?.evaluator;
+function getRecommenderConfig() {
+  const rubric = evalConfigLoader.loadRubric();
+  const evalConfig = rubric?.recommender;
   if (!evalConfig?.model) {
     console.warn('[promptRecommendation] No recommender in evaluation-rubric.yaml, using defaults');
@@ -40,7 +38,7 @@ function getEvaluatorConfig() {
   // Try to resolve primary model
   try {
-    const resolved = configLoader.resolveModel(evalConfig.model);
+    const resolved = evalConfigLoader.resolveModel(evalConfig.model);
     if (resolved.isConfigured) {
       return {
         provider: resolved.provider,
@@ -57,7 +55,7 @@ function getEvaluatorConfig() {
   // Try fallback
   if (evalConfig.fallback?.model) {
     try {
-      const fallback = configLoader.resolveModel(evalConfig.fallback.model);
+      const fallback = evalConfigLoader.resolveModel(evalConfig.fallback.model);
       if (fallback.isConfigured) {
         console.log(`[promptRecommendation] Using fallback: ${fallback.provider}/${fallback.model}`);
         return {
@@ -74,7 +72,7 @@ function getEvaluatorConfig() {
   }
   // Return primary anyway - will fail with helpful error
-  const resolved = configLoader.resolveModel(evalConfig.model);
+  const resolved = evalConfigLoader.resolveModel(evalConfig.model);
   return {
     provider: resolved.provider,
     model: resolved.model,
@@ -157,7 +155,7 @@ function analyzeResults(results) {
 }
 /**
- * Build the analysis prompt for the evaluator
+ * Build the analysis prompt for the recommender
  */
 function buildAnalysisPrompt(analysis, egoPrompt, superegoPrompt, profileName) {
   const sections = [];
@@ -273,14 +271,14 @@ Be specific and actionable. Quote exact text to change when possible.
 }
 /**
- * Call the evaluator model to generate recommendations
+ * Call the recommender model to generate recommendations
  * Uses config from evaluation-rubric.yaml
  */
-async function callEvaluator(prompt, options = {}) {
+async function callRecommender(prompt, options = {}) {
   const { budget = false } = options;
   // Get config from yaml (handles fallbacks automatically)
-  const config = getEvaluatorConfig();
+  const config = getRecommenderConfig();
   const { provider, model, hyperparameters } = config;
   const maxTokens = hyperparameters?.max_tokens ?? 4000;
   const temperature = hyperparameters?.temperature ?? 0.3;
@@ -298,6 +296,13 @@ async function callEvaluator(prompt, options = {}) {
     throw new Error('ANTHROPIC_API_KEY not set');
   }
+  let Anthropic;
+  try {
+    Anthropic = (await import('@anthropic-ai/sdk')).default;
+  } catch {
+    throw new Error('@anthropic-ai/sdk is not installed. Install it to use the Anthropic provider for recommendations.');
+  }
   const client = new Anthropic({ apiKey });
   const response = await client.messages.create({
@@ -377,9 +382,9 @@ async function callOpenRouterEvaluator(prompt, model, options = {}) {
  * @param {string} options.profileName - Profile that was evaluated
  * @param {string} options.egoPromptFile - Ego prompt file to analyze
  * @param {string} options.superegoPromptFile - Superego prompt file to analyze
- * @param {string} options.evaluatorModel - Model to use for analysis (default: claude-sonnet-4)
- * @param {string} options.evaluatorProvider - Provider: 'anthropic' or 'openrouter'
- * @param {boolean} options.budget - Use budget evaluator model
+ * @param {string} options.recommenderModel - Model to use for analysis (default: claude-sonnet-4)
+ * @param {string} options.recommenderProvider - Provider: 'anthropic' or 'openrouter'
+ * @param {boolean} options.budget - Use budget recommender model
  * @returns {Promise<Object>} Recommendations
  */
 export async function generateRecommendations(options = {}) {
@@ -388,8 +393,8 @@ export async function generateRecommendations(options = {}) {
     profileName = 'unknown',
     egoPromptFile = 'tutor-ego.md',
     superegoPromptFile = 'tutor-superego.md',
-    evaluatorModel = null,
-    evaluatorProvider = 'anthropic',
+    recommenderModel = null,
+    recommenderProvider = 'anthropic',
     budget = false,
   } = options;
@@ -421,18 +426,18 @@ export async function generateRecommendations(options = {}) {
   // Build analysis prompt
   const analysisPrompt = buildAnalysisPrompt(analysis, egoPrompt, superegoPrompt, profileName);
-  // Get evaluator config from yaml
-  const evalConfig = getEvaluatorConfig();
+  // Get recommender config from yaml
+  const evalConfig = getRecommenderConfig();
   console.log(`\nGenerating recommendations using ${evalConfig.provider}/${evalConfig.model}...`);
-  const evalResult = await callEvaluator(analysisPrompt);
+  const evalResult = await callRecommender(analysisPrompt);
   return {
     success: true,
     needsImprovement: true,
     analysis,
     recommendations: evalResult.content,
-    evaluatorModel: evalResult.model,
+    recommenderModel: evalResult.model,
     usage: {
       inputTokens: evalResult.inputTokens,
       outputTokens: evalResult.outputTokens,
@@ -479,7 +484,7 @@ export function formatRecommendations(result) {
   lines.push(result.recommendations);
   lines.push('');
   lines.push('─'.repeat(80));
-  lines.push(`Evaluator: ${result.evaluatorModel}`);
+  lines.push(`Recommender: ${result.recommenderModel}`);
   lines.push(`Tokens: ${result.usage.inputTokens} in / ${result.usage.outputTokens} out`);
   lines.push('═'.repeat(80));