npm - @machinespirits/eval - Versions diffs - 0.1.2 → 0.2.1 - Mend

@machinespirits/eval 0.1.2 → 0.2.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (102) hide show

package/LICENSE +21 -0
package/README.md +161 -0
package/config/eval-settings.yaml +18 -0
package/config/evaluation-rubric-learner.yaml +277 -0
package/config/evaluation-rubric.yaml +613 -0
package/config/interaction-eval-scenarios.yaml +93 -50
package/config/learner-agents.yaml +124 -193
package/config/machinespirits-eval.code-workspace +11 -0
package/config/providers.yaml +60 -0
package/config/suggestion-scenarios.yaml +1399 -0
package/config/tutor-agents.yaml +716 -0
package/docs/EVALUATION-VARIABLES.md +589 -0
package/docs/REPLICATION-PLAN.md +577 -0
package/index.js +15 -6
package/package.json +16 -22
package/routes/evalRoutes.js +88 -36
package/scripts/analyze-judge-reliability.js +401 -0
package/scripts/analyze-run.js +97 -0
package/scripts/analyze-run.mjs +282 -0
package/scripts/analyze-validation-failures.js +141 -0
package/scripts/check-run.mjs +17 -0
package/scripts/code-impasse-strategies.js +1132 -0
package/scripts/compare-runs.js +44 -0
package/scripts/compare-suggestions.js +80 -0
package/scripts/compare-transformation.js +116 -0
package/scripts/dig-into-run.js +158 -0
package/scripts/eval-cli.js +2626 -0
package/scripts/generate-paper-figures.py +452 -0
package/scripts/qualitative-analysis-ai.js +1313 -0
package/scripts/qualitative-analysis.js +688 -0
package/scripts/seed-db.js +87 -0
package/scripts/show-failed-suggestions.js +64 -0
package/scripts/validate-content.js +192 -0
package/server.js +3 -2
package/services/__tests__/evalConfigLoader.test.js +338 -0
package/services/anovaStats.js +499 -0
package/services/contentResolver.js +407 -0
package/services/dialogueTraceAnalyzer.js +454 -0
package/services/evalConfigLoader.js +625 -0
package/services/evaluationRunner.js +2171 -270
package/services/evaluationStore.js +564 -29
package/services/learnerConfigLoader.js +75 -5
package/services/learnerRubricEvaluator.js +284 -0
package/services/learnerTutorInteractionEngine.js +375 -0
package/services/processUtils.js +18 -0
package/services/progressLogger.js +98 -0
package/services/promptRecommendationService.js +31 -26
package/services/promptRewriter.js +427 -0
package/services/rubricEvaluator.js +543 -70
package/services/streamingReporter.js +104 -0
package/services/turnComparisonAnalyzer.js +494 -0
package/components/MobileEvalDashboard.tsx +0 -267
package/components/comparison/DeltaAnalysisTable.tsx +0 -137
package/components/comparison/ProfileComparisonCard.tsx +0 -176
package/components/comparison/RecognitionABMode.tsx +0 -385
package/components/comparison/RecognitionMetricsPanel.tsx +0 -135
package/components/comparison/WinnerIndicator.tsx +0 -64
package/components/comparison/index.ts +0 -5
package/components/mobile/BottomSheet.tsx +0 -233
package/components/mobile/DimensionBreakdown.tsx +0 -210
package/components/mobile/DocsView.tsx +0 -363
package/components/mobile/LogsView.tsx +0 -481
package/components/mobile/PsychodynamicQuadrant.tsx +0 -261
package/components/mobile/QuickTestView.tsx +0 -1098
package/components/mobile/RecognitionTypeChart.tsx +0 -124
package/components/mobile/RecognitionView.tsx +0 -809
package/components/mobile/RunDetailView.tsx +0 -261
package/components/mobile/RunHistoryView.tsx +0 -367
package/components/mobile/ScoreRadial.tsx +0 -211
package/components/mobile/StreamingLogPanel.tsx +0 -230
package/components/mobile/SynthesisStrategyChart.tsx +0 -140
package/docs/research/ABLATION-DIALOGUE-ROUNDS.md +0 -52
package/docs/research/ABLATION-MODEL-SELECTION.md +0 -53
package/docs/research/ADVANCED-EVAL-ANALYSIS.md +0 -60
package/docs/research/ANOVA-RESULTS-2026-01-14.md +0 -257
package/docs/research/COMPREHENSIVE-EVALUATION-PLAN.md +0 -586
package/docs/research/COST-ANALYSIS.md +0 -56
package/docs/research/CRITICAL-REVIEW-RECOGNITION-TUTORING.md +0 -340
package/docs/research/DYNAMIC-VS-SCRIPTED-ANALYSIS.md +0 -291
package/docs/research/EVAL-SYSTEM-ANALYSIS.md +0 -306
package/docs/research/FACTORIAL-RESULTS-2026-01-14.md +0 -301
package/docs/research/IMPLEMENTATION-PLAN-CRITIQUE-RESPONSE.md +0 -1988
package/docs/research/LONGITUDINAL-DYADIC-EVALUATION.md +0 -282
package/docs/research/MULTI-JUDGE-VALIDATION-2026-01-14.md +0 -147
package/docs/research/PAPER-EXTENSION-DYADIC.md +0 -204
package/docs/research/PAPER-UNIFIED.md +0 -659
package/docs/research/PAPER-UNIFIED.pdf +0 -0
package/docs/research/PROMPT-IMPROVEMENTS-2026-01-14.md +0 -356
package/docs/research/SESSION-NOTES-2026-01-11-RECOGNITION-EVAL.md +0 -419
package/docs/research/apa.csl +0 -2133
package/docs/research/archive/PAPER-DRAFT-RECOGNITION-TUTORING.md +0 -1637
package/docs/research/archive/paper-multiagent-tutor.tex +0 -978
package/docs/research/paper-draft/full-paper.md +0 -136
package/docs/research/paper-draft/images/pasted-image-2026-01-24T03-47-47-846Z-d76a7ae2.png +0 -0
package/docs/research/paper-draft/references.bib +0 -515
package/docs/research/transcript-baseline.md +0 -139
package/docs/research/transcript-recognition-multiagent.md +0 -187
package/hooks/useEvalData.ts +0 -625
package/server-init.js +0 -45
package/services/benchmarkService.js +0 -1892
package/types.ts +0 -165
package/utils/haptics.ts +0 -45

package/services/dialogueTraceAnalyzer.js ADDED Viewed

@@ -0,0 +1,454 @@
+/**
+ * Dialogue Trace Analyzer Service
+ *
+ * Analyzes the internal dialogue traces from ego-superego interactions.
+ * Tracks how superego feedback influences ego revisions and identifies
+ * signals of bilateral transformation in the dialogue.
+ *
+ * Theoretical basis: The superego acts as the "external perspective" that
+ * enables genuine recognition. By tracking how feedback is incorporated,
+ * we can measure whether the dialogue achieves mutual transformation or
+ * remains one-directional instruction.
+ */
+/**
+ * Analyze superego feedback incorporation patterns.
+ *
+ * @param {Array} dialogueTrace - Array of trace entries from tutor-core dialogue
+ * @returns {Object} Incorporation analysis metrics
+ */
+export function analyzeSuperegoIncorporation(dialogueTrace) {
+  if (!dialogueTrace || !Array.isArray(dialogueTrace)) {
+    return {
+      incorporationRate: null,
+      feedbackPatterns: { enhance: 0, revise: 0, approve: 0, reject: 0 },
+      confidenceProgression: [],
+      totalFeedbackEvents: 0,
+      totalRevisions: 0,
+      avgConfidence: null,
+      transformationSignals: [],
+    };
+  }
+  const superegoFeedback = dialogueTrace.filter(e => e.agent === 'superego');
+  const egoRevisions = dialogueTrace.filter(e =>
+    e.agent === 'ego' && (e.action === 'revision' || e.action === 'revise')
+  );
+  // Count feedback patterns
+  const feedbackPatterns = { enhance: 0, revise: 0, approve: 0, reject: 0 };
+  const confidenceProgression = [];
+  for (const feedback of superegoFeedback) {
+    // Track intervention type
+    const interventionType = feedback.interventionType ||
+                            feedback.verdict?.interventionType ||
+                            feedback.action;
+    if (interventionType === 'enhance') feedbackPatterns.enhance++;
+    else if (interventionType === 'revise') feedbackPatterns.revise++;
+    else if (feedback.verdict?.approved === true) feedbackPatterns.approve++;
+    else if (feedback.verdict?.approved === false) feedbackPatterns.reject++;
+    // Track confidence
+    const confidence = feedback.confidence ||
+                      feedback.verdict?.confidence ||
+                      feedback.score;
+    if (typeof confidence === 'number') {
+      confidenceProgression.push({
+        turnIndex: feedback.turnIndex,
+        confidence,
+        timestamp: feedback.timestamp,
+      });
+    }
+  }
+  // Calculate incorporation rate
+  // How often does an ego revision follow superego feedback?
+  const incorporationRate = superegoFeedback.length > 0
+    ? egoRevisions.length / superegoFeedback.length
+    : null;
+  // Average confidence
+  const avgConfidence = confidenceProgression.length > 0
+    ? confidenceProgression.reduce((sum, c) => sum + c.confidence, 0) / confidenceProgression.length
+    : null;
+  // Extract transformation signals
+  const transformationSignals = extractTransformationSignals(dialogueTrace);
+  return {
+    incorporationRate,
+    feedbackPatterns,
+    confidenceProgression,
+    totalFeedbackEvents: superegoFeedback.length,
+    totalRevisions: egoRevisions.length,
+    avgConfidence,
+    transformationSignals,
+  };
+}
+/**
+ * Extract transformation signals from dialogue trace.
+ * Identifies moments where tutor or learner explicitly transform their position.
+ *
+ * @param {Array} dialogueTrace - Array of trace entries
+ * @returns {Array} Array of transformation signal objects
+ */
+export function extractTransformationSignals(dialogueTrace) {
+  if (!dialogueTrace || !Array.isArray(dialogueTrace)) {
+    return [];
+  }
+  const signals = [];
+  // Transformation language patterns
+  const tutorTransformationPatterns = [
+    /you'?ve? (helped|pushed|made) me (see|think|understand|reconsider)/i,
+    /that changes (how I|my)/i,
+    /(reconsidering|revising) (my|the) (approach|framing|understanding)/i,
+    /building on (your|that)/i,
+    /your (insight|point|question) (complicates|enriches|changes)/i,
+    /I hadn'?t (thought|considered)/i,
+    /let me (revise|adjust|rethink)/i,
+  ];
+  const learnerTransformationPatterns = [
+    /oh (wait|I see|that makes sense)/i,
+    /my (understanding|thinking|frame) (is|has) (changed|shifted|evolved)/i,
+    /(I was wrong|I see now|this is clicking)/i,
+    /that changes (how I|my)/i,
+    /so it'?s (not just|more like|actually)/i,
+    /the whole way I (think|thought|was thinking)/i,
+  ];
+  const superegoAcknowledgmentPatterns = [
+    /genuinely responsive/i,
+    /mutual (recognition|transformation)/i,
+    /adapted (to|based on)/i,
+    /evolved (through|during)/i,
+    /bilateral/i,
+    /both parties/i,
+  ];
+  for (const entry of dialogueTrace) {
+    // Check ego entries for tutor transformation
+    if (entry.agent === 'ego') {
+      const text = entry.reasoning || entry.detail || entry.contextSummary || '';
+      for (const pattern of tutorTransformationPatterns) {
+        if (pattern.test(text)) {
+          signals.push({
+            turn: entry.turnIndex,
+            type: 'tutor_transformation',
+            source: 'ego_reasoning',
+            pattern: pattern.source,
+            content: text.substring(0, 150),
+            timestamp: entry.timestamp,
+          });
+          break; // One signal per entry
+        }
+      }
+    }
+    // Check superego feedback for acknowledgment of adaptation
+    if (entry.agent === 'superego') {
+      const text = entry.verdict?.feedback ||
+                  entry.verdict?.reasoning ||
+                  entry.detail ||
+                  entry.contextSummary ||
+                  '';
+      for (const pattern of superegoAcknowledgmentPatterns) {
+        if (pattern.test(text)) {
+          signals.push({
+            turn: entry.turnIndex,
+            type: 'superego_noted_adaptation',
+            source: 'superego_feedback',
+            pattern: pattern.source,
+            content: text.substring(0, 150),
+            timestamp: entry.timestamp,
+          });
+          break;
+        }
+      }
+    }
+    // Check learner entries for growth signals
+    if (entry.agent === 'user' || entry.agent?.startsWith('learner')) {
+      const text = entry.detail || entry.contextSummary || '';
+      for (const pattern of learnerTransformationPatterns) {
+        if (pattern.test(text)) {
+          signals.push({
+            turn: entry.turnIndex,
+            type: 'learner_transformation',
+            source: entry.agent,
+            pattern: pattern.source,
+            content: text.substring(0, 150),
+            timestamp: entry.timestamp,
+          });
+          break;
+        }
+      }
+    }
+  }
+  return signals;
+}
+/**
+ * Analyze the bilateral transformation balance in a dialogue.
+ * Measures whether transformation is mutual or one-directional.
+ *
+ * @param {Array} dialogueTrace - Array of trace entries
+ * @returns {Object} Bilateral analysis
+ */
+export function analyzeBilateralTransformation(dialogueTrace) {
+  const signals = extractTransformationSignals(dialogueTrace);
+  const tutorSignals = signals.filter(s => s.type === 'tutor_transformation');
+  const learnerSignals = signals.filter(s => s.type === 'learner_transformation');
+  const acknowledgmentSignals = signals.filter(s => s.type === 'superego_noted_adaptation');
+  const tutorCount = tutorSignals.length;
+  const learnerCount = learnerSignals.length;
+  const total = tutorCount + learnerCount;
+  // Calculate balance (1.0 = perfectly balanced)
+  let balance = null;
+  if (total > 0) {
+    const maxCount = Math.max(tutorCount, learnerCount);
+    const minCount = Math.min(tutorCount, learnerCount);
+    balance = maxCount > 0 ? minCount / maxCount : 0;
+  }
+  // Determine if transformation is genuine mutual recognition
+  const isMutual = tutorCount > 0 && learnerCount > 0;
+  const isAcknowledged = acknowledgmentSignals.length > 0;
+  return {
+    tutorTransformationCount: tutorCount,
+    learnerTransformationCount: learnerCount,
+    superegoAcknowledgmentCount: acknowledgmentSignals.length,
+    bilateralBalance: balance,
+    isMutualTransformation: isMutual,
+    isAcknowledgedBySystem: isAcknowledged,
+    transformationTimeline: signals.sort((a, b) => (a.turn || 0) - (b.turn || 0)),
+    summary: generateTransformationSummary(tutorCount, learnerCount, balance, isMutual),
+  };
+}
+/**
+ * Generate a human-readable summary of transformation analysis.
+ *
+ * @param {number} tutorCount - Tutor transformation signals
+ * @param {number} learnerCount - Learner transformation signals
+ * @param {number|null} balance - Bilateral balance score
+ * @param {boolean} isMutual - Whether transformation is mutual
+ * @returns {string} Summary text
+ */
+function generateTransformationSummary(tutorCount, learnerCount, balance, isMutual) {
+  if (tutorCount === 0 && learnerCount === 0) {
+    return 'No explicit transformation signals detected in dialogue.';
+  }
+  if (!isMutual) {
+    if (tutorCount > 0) {
+      return `One-directional: Tutor shows ${tutorCount} adaptation signal(s), but learner shows no growth.`;
+    } else {
+      return `One-directional: Learner shows ${learnerCount} growth signal(s), but tutor shows no adaptation.`;
+    }
+  }
+  if (balance !== null && balance >= 0.7) {
+    return `Mutual transformation achieved: ${tutorCount} tutor adaptation(s), ${learnerCount} learner growth(s), balance=${(balance * 100).toFixed(0)}%.`;
+  } else if (balance !== null && balance >= 0.3) {
+    return `Partial mutual transformation: ${tutorCount} tutor, ${learnerCount} learner signals, balance=${(balance * 100).toFixed(0)}% (asymmetric).`;
+  } else {
+    return `Imbalanced transformation: ${tutorCount} tutor, ${learnerCount} learner signals, balance=${(balance * 100).toFixed(0)}% (highly asymmetric).`;
+  }
+}
+/**
+ * Analyze superego intervention effectiveness.
+ * Tracks whether superego interventions lead to improved outcomes.
+ *
+ * @param {Array} dialogueTrace - Array of trace entries
+ * @param {Array} turnResults - Array of turn result objects (for score comparison)
+ * @returns {Object} Intervention effectiveness analysis
+ */
+export function analyzeInterventionEffectiveness(dialogueTrace, turnResults) {
+  if (!dialogueTrace || !turnResults) {
+    return {
+      interventionCount: 0,
+      scoreImprovementAfterIntervention: null,
+      mostEffectiveInterventionType: null,
+      interventionsByType: {},
+    };
+  }
+  const interventions = dialogueTrace.filter(e =>
+    e.agent === 'superego' && e.action === 'revise'
+  );
+  const interventionsByType = {};
+  let totalImprovement = 0;
+  let measuredInterventions = 0;
+  for (const intervention of interventions) {
+    const turnIndex = intervention.turnIndex;
+    const type = intervention.interventionType || 'revise';
+    // Track by type
+    if (!interventionsByType[type]) {
+      interventionsByType[type] = { count: 0, avgImprovement: 0, improvements: [] };
+    }
+    interventionsByType[type].count++;
+    // Find score before and after intervention
+    const turnBefore = turnResults.find(t => t.turnIndex === turnIndex - 1);
+    const turnAfter = turnResults.find(t => t.turnIndex === turnIndex);
+    if (turnBefore?.turnScore !== null && turnAfter?.turnScore !== null) {
+      const improvement = turnAfter.turnScore - turnBefore.turnScore;
+      interventionsByType[type].improvements.push(improvement);
+      totalImprovement += improvement;
+      measuredInterventions++;
+    }
+  }
+  // Calculate averages
+  for (const type of Object.keys(interventionsByType)) {
+    const imps = interventionsByType[type].improvements;
+    if (imps.length > 0) {
+      interventionsByType[type].avgImprovement = imps.reduce((a, b) => a + b, 0) / imps.length;
+    }
+  }
+  // Find most effective type
+  let mostEffectiveType = null;
+  let bestAvgImprovement = -Infinity;
+  for (const [type, data] of Object.entries(interventionsByType)) {
+    if (data.avgImprovement > bestAvgImprovement) {
+      bestAvgImprovement = data.avgImprovement;
+      mostEffectiveType = type;
+    }
+  }
+  return {
+    interventionCount: interventions.length,
+    scoreImprovementAfterIntervention: measuredInterventions > 0
+      ? totalImprovement / measuredInterventions
+      : null,
+    mostEffectiveInterventionType: mostEffectiveType,
+    interventionsByType,
+  };
+}
+/**
+ * Generate a comprehensive transformation report for a dialogue.
+ *
+ * @param {Array} dialogueTrace - Array of trace entries
+ * @param {Array} turnResults - Array of turn result objects
+ * @returns {Object} Comprehensive transformation report
+ */
+export function generateTransformationReport(dialogueTrace, turnResults) {
+  const superegoAnalysis = analyzeSuperegoIncorporation(dialogueTrace);
+  const bilateralAnalysis = analyzeBilateralTransformation(dialogueTrace);
+  const interventionAnalysis = analyzeInterventionEffectiveness(dialogueTrace, turnResults);
+  return {
+    // Superego feedback patterns
+    superegoMetrics: {
+      incorporationRate: superegoAnalysis.incorporationRate,
+      feedbackPatterns: superegoAnalysis.feedbackPatterns,
+      avgConfidence: superegoAnalysis.avgConfidence,
+      totalFeedbackEvents: superegoAnalysis.totalFeedbackEvents,
+    },
+    // Bilateral transformation
+    bilateralMetrics: {
+      tutorTransformationCount: bilateralAnalysis.tutorTransformationCount,
+      learnerTransformationCount: bilateralAnalysis.learnerTransformationCount,
+      bilateralBalance: bilateralAnalysis.bilateralBalance,
+      isMutualTransformation: bilateralAnalysis.isMutualTransformation,
+      summary: bilateralAnalysis.summary,
+    },
+    // Intervention effectiveness
+    interventionMetrics: {
+      interventionCount: interventionAnalysis.interventionCount,
+      avgScoreImprovement: interventionAnalysis.scoreImprovementAfterIntervention,
+      mostEffectiveType: interventionAnalysis.mostEffectiveInterventionType,
+    },
+    // All transformation signals for timeline analysis
+    transformationSignals: superegoAnalysis.transformationSignals,
+    transformationTimeline: bilateralAnalysis.transformationTimeline,
+    // Summary assessment
+    overallAssessment: {
+      hasMutualTransformation: bilateralAnalysis.isMutualTransformation,
+      bilateralBalance: bilateralAnalysis.bilateralBalance,
+      superegoEffective: superegoAnalysis.incorporationRate !== null &&
+                        superegoAnalysis.incorporationRate > 0.5,
+      transformationQuality: calculateTransformationQuality(
+        bilateralAnalysis,
+        superegoAnalysis,
+        interventionAnalysis
+      ),
+    },
+  };
+}
+/**
+ * Calculate an overall transformation quality score.
+ *
+ * @param {Object} bilateral - Bilateral transformation analysis
+ * @param {Object} superego - Superego analysis
+ * @param {Object} intervention - Intervention analysis
+ * @returns {number} Quality score (0-100)
+ */
+function calculateTransformationQuality(bilateral, superego, intervention) {
+  let score = 0;
+  let factors = 0;
+  // Bilateral balance (weight: 40%)
+  if (bilateral.bilateralBalance !== null) {
+    score += bilateral.bilateralBalance * 40;
+    factors += 40;
+  }
+  // Mutual transformation (weight: 20%)
+  if (bilateral.isMutualTransformation) {
+    score += 20;
+  }
+  factors += 20;
+  // Superego incorporation (weight: 20%)
+  if (superego.incorporationRate !== null) {
+    score += Math.min(1, superego.incorporationRate) * 20;
+    factors += 20;
+  }
+  // Intervention effectiveness (weight: 20%)
+  if (intervention.scoreImprovementAfterIntervention !== null) {
+    // Normalize improvement (assume max reasonable improvement is 20 points)
+    const normalizedImprovement = Math.min(1, Math.max(0,
+      intervention.scoreImprovementAfterIntervention / 20
+    ));
+    score += normalizedImprovement * 20;
+    factors += 20;
+  }
+  return factors > 0 ? (score / factors) * 100 : 0;
+}
+export default {
+  analyzeSuperegoIncorporation,
+  extractTransformationSignals,
+  analyzeBilateralTransformation,
+  analyzeInterventionEffectiveness,
+  generateTransformationReport,
+};