npm - @elizaos/training - Versions diffs - 2.0.0-alpha.13 → 2.0.0-alpha.15 - Mend

@elizaos/training 2.0.0-alpha.13 → 2.0.0-alpha.15

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (87) hide show

package/package.json +2 -2
package/research-output/training-runs/training-run-1773726941205.json +38 -0
package/scripts/rank_trajectories.ts +0 -1
package/scripts/run_task_benchmark.ts +4 -11
package/src/adapter.ts +96 -49
package/src/archetypes/ArchetypeConfigService.ts +188 -185
package/src/archetypes/derive-archetype.ts +47 -47
package/src/archetypes/index.ts +2 -2
package/src/benchmark/ArchetypeMatchupBenchmark.ts +70 -70
package/src/benchmark/BenchmarkChartGenerator.ts +70 -69
package/src/benchmark/BenchmarkDataGenerator.ts +136 -136
package/src/benchmark/BenchmarkDataViewer.ts +32 -30
package/src/benchmark/BenchmarkHistoryService.ts +13 -12
package/src/benchmark/BenchmarkRunner.ts +87 -83
package/src/benchmark/BenchmarkValidator.ts +48 -46
package/src/benchmark/FastEvalRunner.ts +17 -16
package/src/benchmark/MetricsValidator.ts +20 -21
package/src/benchmark/MetricsVisualizer.ts +92 -85
package/src/benchmark/ModelBenchmarkService.ts +90 -82
package/src/benchmark/ModelRegistry.ts +44 -44
package/src/benchmark/RulerBenchmarkIntegration.ts +24 -24
package/src/benchmark/SimulationA2AInterface.ts +118 -118
package/src/benchmark/SimulationEngine.ts +51 -51
package/src/benchmark/TaskRunner.ts +87 -79
package/src/benchmark/__tests__/BenchmarkRunner.test.ts +80 -80
package/src/benchmark/__tests__/HeadToHead.test.ts +26 -26
package/src/benchmark/index.ts +27 -27
package/src/benchmark/parseSimulationMetrics.ts +32 -32
package/src/benchmark/simulation-types.ts +10 -10
package/src/dependencies.ts +34 -34
package/src/generation/TrajectoryGenerator.ts +39 -37
package/src/generation/index.ts +1 -1
package/src/huggingface/HuggingFaceDatasetUploader.ts +72 -72
package/src/huggingface/HuggingFaceIntegrationService.ts +59 -53
package/src/huggingface/HuggingFaceModelUploader.ts +60 -59
package/src/huggingface/index.ts +6 -6
package/src/huggingface/shared/HuggingFaceUploadUtil.ts +32 -32
package/src/index.ts +27 -27
package/src/init-training.ts +6 -6
package/src/metrics/TrajectoryMetricsExtractor.ts +70 -71
package/src/metrics/__tests__/TrajectoryMetricsExtractor.test.ts +182 -182
package/src/metrics/index.ts +2 -2
package/src/rubrics/__tests__/index.test.ts +73 -73
package/src/rubrics/ass-kisser.ts +6 -6
package/src/rubrics/degen.ts +6 -6
package/src/rubrics/goody-twoshoes.ts +6 -6
package/src/rubrics/index.ts +50 -50
package/src/rubrics/information-trader.ts +6 -6
package/src/rubrics/infosec.ts +6 -6
package/src/rubrics/liar.ts +6 -6
package/src/rubrics/perps-trader.ts +6 -6
package/src/rubrics/researcher.ts +6 -6
package/src/rubrics/scammer.ts +6 -6
package/src/rubrics/social-butterfly.ts +7 -7
package/src/rubrics/super-predictor.ts +6 -6
package/src/rubrics/trader.ts +5 -5
package/src/scoring/ArchetypeScoringService.ts +56 -54
package/src/scoring/JudgePromptBuilder.ts +96 -96
package/src/scoring/LLMJudgeCache.ts +26 -23
package/src/scoring/index.ts +3 -3
package/src/training/AutomationPipeline.ts +149 -140
package/src/training/BenchmarkService.ts +49 -45
package/src/training/ConfigValidator.ts +38 -32
package/src/training/MarketOutcomesTracker.ts +22 -12
package/src/training/ModelDeployer.ts +15 -15
package/src/training/ModelFetcher.ts +7 -7
package/src/training/ModelSelectionService.ts +32 -32
package/src/training/ModelUsageVerifier.ts +31 -24
package/src/training/MultiModelOrchestrator.ts +44 -44
package/src/training/RLModelConfig.ts +57 -57
package/src/training/RewardBackpropagationService.ts +18 -17
package/src/training/RulerScoringService.ts +73 -72
package/src/training/TrainingMonitor.ts +29 -29
package/src/training/TrajectoryRecorder.ts +25 -27
package/src/training/__tests__/TrajectoryRecorder.test.ts +105 -105
package/src/training/index.ts +36 -36
package/src/training/logRLConfig.ts +7 -7
package/src/training/pipeline.ts +13 -16
package/src/training/storage/ModelStorageService.ts +32 -32
package/src/training/storage/TrainingDataArchiver.ts +21 -21
package/src/training/storage/index.ts +2 -2
package/src/training/types.ts +6 -6
package/src/training/window-utils.ts +14 -14
package/src/utils/index.ts +7 -7
package/src/utils/logger.ts +5 -5
package/src/utils/snowflake.ts +1 -1
package/src/utils/synthetic-detector.ts +7 -7

package/src/benchmark/BenchmarkChartGenerator.ts CHANGED Viewed

@@ -5,9 +5,9 @@
  * Creates interactive HTML reports with embedded charts.
  */
-import { promises as fs } from 'fs';
-import * as path from 'path';
-import type { SimulationMetrics } from './SimulationEngine';
+import { promises as fs } from "node:fs";
+import * as path from "node:path";
+import type { SimulationMetrics } from "./SimulationEngine";
 export interface ChartData {
   labels: string[];
@@ -41,19 +41,20 @@ export interface BenchmarkHistoryEntry {
  * Color palette for charts
  */
 const CHART_COLORS = {
-  primary: '#3b82f6',
-  success: '#10b981',
-  warning: '#f59e0b',
-  danger: '#ef4444',
-  purple: '#8b5cf6',
-  cyan: '#06b6d4',
-  pink: '#ec4899',
-  gray: '#6b7280',
+  primary: "#3b82f6",
+  success: "#10b981",
+  warning: "#f59e0b",
+  danger: "#ef4444",
+  purple: "#8b5cf6",
+  cyan: "#06b6d4",
+  pink: "#ec4899",
+  gray: "#6b7280",
 };
 /**
  * Generates benchmark charts and reports
  */
+// biome-ignore lint/complexity/noStaticOnlyClass: Chart generator namespace - methods are logically grouped
 export class BenchmarkChartGenerator {
   /**
    * Generate a comprehensive HTML report with charts
@@ -65,10 +66,10 @@ export class BenchmarkChartGenerator {
       title?: string;
       benchmarkId?: string;
       includeHistory?: BenchmarkHistoryEntry[];
-    } = {}
+    } = {},
   ): Promise<string> {
-    const title = options.title ?? 'Benchmark Report';
-    const benchmarkId = options.benchmarkId ?? 'unknown';
+    const title = options.title ?? "Benchmark Report";
+    const benchmarkId = options.benchmarkId ?? "unknown";
     const html = `
 <!DOCTYPE html>
@@ -273,21 +274,21 @@ export class BenchmarkChartGenerator {
       <p class="subtitle">Benchmark: ${benchmarkId} | Models: ${results.length}</p>
     </header>
-    ${this.generateSummaryStats(results)}
+    ${BenchmarkChartGenerator.generateSummaryStats(results)}
     <div class="grid grid-2" style="margin-top: 1.5rem;">
-      ${this.generatePnLChartCard()}
-      ${this.generateAccuracyChartCard()}
+      ${BenchmarkChartGenerator.generatePnLChartCard()}
+      ${BenchmarkChartGenerator.generateAccuracyChartCard()}
     </div>
     <div class="grid grid-2" style="margin-top: 1.5rem;">
-      ${this.generatePerpMetricsChartCard()}
-      ${this.generateTimingChartCard()}
+      ${BenchmarkChartGenerator.generatePerpMetricsChartCard()}
+      ${BenchmarkChartGenerator.generateTimingChartCard()}
     </div>
-    ${this.generateComparisonTable(results)}
+    ${BenchmarkChartGenerator.generateComparisonTable(results)}
-    ${options.includeHistory ? this.generateHistorySection(options.includeHistory) : ''}
+    ${options.includeHistory ? BenchmarkChartGenerator.generateHistorySection(options.includeHistory) : ""}
     <p class="timestamp">Generated: ${new Date().toLocaleString()}</p>
   </div>
@@ -296,13 +297,13 @@ export class BenchmarkChartGenerator {
     Chart.defaults.color = '#94a3b8';
     Chart.defaults.borderColor = '#475569';
-    ${this.generateChartScripts(results)}
+    ${BenchmarkChartGenerator.generateChartScripts(results)}
   </script>
 </body>
 </html>`;
     await fs.mkdir(path.dirname(outputPath), { recursive: true });
-    await fs.writeFile(outputPath, html, 'utf-8');
+    await fs.writeFile(outputPath, html, "utf-8");
     return outputPath;
   }
@@ -311,31 +312,31 @@ export class BenchmarkChartGenerator {
    * Generate summary stats section
    */
   private static generateSummaryStats(results: ModelComparisonData[]): string {
-    if (results.length === 0) return '';
+    if (results.length === 0) return "";
     // Find best model for each metric
     const bestPnl = results.reduce((best, curr) =>
-      curr.metrics.totalPnl > best.metrics.totalPnl ? curr : best
+      curr.metrics.totalPnl > best.metrics.totalPnl ? curr : best,
     );
     const bestAccuracy = results.reduce((best, curr) =>
       curr.metrics.predictionMetrics.accuracy >
       best.metrics.predictionMetrics.accuracy
         ? curr
-        : best
+        : best,
     );
     const avgPnl =
       results.reduce((sum, r) => sum + r.metrics.totalPnl, 0) / results.length;
     const avgAccuracy =
       results.reduce(
         (sum, r) => sum + r.metrics.predictionMetrics.accuracy,
-        0
+        0,
       ) / results.length;
     return `
     <div class="stats-grid">
       <div class="stat-card">
-        <div class="stat-value ${bestPnl.metrics.totalPnl >= 0 ? 'positive' : 'negative'}">
-          ${bestPnl.metrics.totalPnl >= 0 ? '+' : ''}$${bestPnl.metrics.totalPnl.toFixed(0)}
+        <div class="stat-value ${bestPnl.metrics.totalPnl >= 0 ? "positive" : "negative"}">
+          ${bestPnl.metrics.totalPnl >= 0 ? "+" : ""}$${bestPnl.metrics.totalPnl.toFixed(0)}
         </div>
         <div class="stat-label">Best P&L (${bestPnl.modelName})</div>
       </div>
@@ -344,8 +345,8 @@ export class BenchmarkChartGenerator {
         <div class="stat-label">Best Accuracy (${bestAccuracy.modelName})</div>
       </div>
       <div class="stat-card">
-        <div class="stat-value ${avgPnl >= 0 ? 'positive' : 'negative'}">
-          ${avgPnl >= 0 ? '+' : ''}$${avgPnl.toFixed(0)}
+        <div class="stat-value ${avgPnl >= 0 ? "positive" : "negative"}">
+          ${avgPnl >= 0 ? "+" : ""}$${avgPnl.toFixed(0)}
         </div>
         <div class="stat-label">Average P&L</div>
       </div>
@@ -416,33 +417,33 @@ export class BenchmarkChartGenerator {
    * Generate comparison table
    */
   private static generateComparisonTable(
-    results: ModelComparisonData[]
+    results: ModelComparisonData[],
   ): string {
     // Sort by P&L descending
     const sorted = [...results].sort(
-      (a, b) => b.metrics.totalPnl - a.metrics.totalPnl
+      (a, b) => b.metrics.totalPnl - a.metrics.totalPnl,
     );
     const bestPnlModel = sorted[0]?.modelId;
     const rows = sorted
       .map((r) => {
-        const pnlClass = r.metrics.totalPnl >= 0 ? 'positive' : 'negative';
+        const pnlClass = r.metrics.totalPnl >= 0 ? "positive" : "negative";
         const isWinner = r.modelId === bestPnlModel;
         const accuracyBadge =
           r.metrics.predictionMetrics.accuracy >= 0.6
-            ? 'badge-success'
+            ? "badge-success"
             : r.metrics.predictionMetrics.accuracy >= 0.4
-              ? 'badge-warning'
-              : 'badge-danger';
+              ? "badge-warning"
+              : "badge-danger";
         return `
       <tr>
         <td>
           <strong>${r.modelName}</strong>
-          ${isWinner ? '<span class="winner-tag">🏆 Winner</span>' : ''}
+          ${isWinner ? '<span class="winner-tag">🏆 Winner</span>' : ""}
         </td>
         <td class="${pnlClass}">
-          ${r.metrics.totalPnl >= 0 ? '+' : ''}$${r.metrics.totalPnl.toFixed(2)}
+          ${r.metrics.totalPnl >= 0 ? "+" : ""}$${r.metrics.totalPnl.toFixed(2)}
         </td>
         <td>
           <span class="badge ${accuracyBadge}">
@@ -456,7 +457,7 @@ export class BenchmarkChartGenerator {
         <td>${(r.metrics.timing.totalDuration / 1000).toFixed(1)}s</td>
       </tr>`;
       })
-      .join('');
+      .join("");
     return `
     <div class="card" style="margin-top: 1.5rem;">
@@ -485,9 +486,9 @@ export class BenchmarkChartGenerator {
    * Generate history section
    */
   private static generateHistorySection(
-    history: BenchmarkHistoryEntry[]
+    history: BenchmarkHistoryEntry[],
   ): string {
-    if (history.length === 0) return '';
+    if (history.length === 0) return "";
     // Group by model
     const byModel = new Map<string, BenchmarkHistoryEntry[]>();
@@ -513,16 +514,16 @@ export class BenchmarkChartGenerator {
     const labels = results.map((r) => r.modelName);
     const pnlData = results.map((r) => r.metrics.totalPnl);
     const accuracyData = results.map(
-      (r) => r.metrics.predictionMetrics.accuracy * 100
+      (r) => r.metrics.predictionMetrics.accuracy * 100,
     );
     const winRateData = results.map((r) => r.metrics.perpMetrics.winRate * 100);
     const optimalityData = results.map((r) => r.metrics.optimalityScore);
     const durationData = results.map(
-      (r) => r.metrics.timing.totalDuration / 1000
+      (r) => r.metrics.timing.totalDuration / 1000,
     );
     const pnlColors = pnlData.map((v) =>
-      v >= 0 ? CHART_COLORS.success : CHART_COLORS.danger
+      v >= 0 ? CHART_COLORS.success : CHART_COLORS.danger,
     );
     return `
@@ -660,7 +661,7 @@ export class BenchmarkChartGenerator {
   static generateTerminalChart(
     title: string,
     data: Array<{ label: string; value: number }>,
-    options: { width?: number; valueFormat?: (v: number) => string } = {}
+    options: { width?: number; valueFormat?: (v: number) => string } = {},
   ): string {
     const width = options.width ?? 40;
     const formatValue = options.valueFormat ?? ((v: number) => v.toFixed(2));
@@ -670,25 +671,25 @@ export class BenchmarkChartGenerator {
     const lines: string[] = [];
     lines.push(`\n  ${title}`);
-    lines.push('  ' + '─'.repeat(width + maxLabelLen + 20));
+    lines.push(`  ${"─".repeat(width + maxLabelLen + 20)}`);
     for (const item of data) {
       const normalizedValue =
         maxValue > 0 ? Math.abs(item.value) / maxValue : 0;
       const barLen = Math.round(normalizedValue * width);
-      const bar = item.value >= 0 ? '█'.repeat(barLen) : '░'.repeat(barLen);
-      const color = item.value >= 0 ? '\x1b[32m' : '\x1b[31m';
-      const reset = '\x1b[0m';
+      const bar = item.value >= 0 ? "█".repeat(barLen) : "░".repeat(barLen);
+      const color = item.value >= 0 ? "\x1b[32m" : "\x1b[31m";
+      const reset = "\x1b[0m";
       const paddedLabel = item.label.padEnd(maxLabelLen);
       lines.push(
-        `  ${paddedLabel} │${color}${bar}${reset} ${formatValue(item.value)}`
+        `  ${paddedLabel} │${color}${bar}${reset} ${formatValue(item.value)}`,
       );
     }
-    lines.push('  ' + '─'.repeat(width + maxLabelLen + 20));
+    lines.push(`  ${"─".repeat(width + maxLabelLen + 20)}`);
-    return lines.join('\n');
+    return lines.join("\n");
   }
   /**
@@ -696,34 +697,34 @@ export class BenchmarkChartGenerator {
    */
   static generateTerminalSummary(results: ModelComparisonData[]): string {
     const sorted = [...results].sort(
-      (a, b) => b.metrics.totalPnl - a.metrics.totalPnl
+      (a, b) => b.metrics.totalPnl - a.metrics.totalPnl,
     );
     const winner = sorted[0];
     const lines: string[] = [];
-    lines.push('\n━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━');
-    lines.push('📊 BENCHMARK RESULTS');
-    lines.push('━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━');
+    lines.push("\n━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━");
+    lines.push("📊 BENCHMARK RESULTS");
+    lines.push("━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━");
     // P&L Chart
     lines.push(
-      this.generateTerminalChart(
-        '💰 Total P&L',
+      BenchmarkChartGenerator.generateTerminalChart(
+        "💰 Total P&L",
         sorted.map((r) => ({ label: r.modelName, value: r.metrics.totalPnl })),
-        { valueFormat: (v) => `$${v.toFixed(2)}` }
-      )
+        { valueFormat: (v) => `$${v.toFixed(2)}` },
+      ),
     );
     // Accuracy Chart
     lines.push(
-      this.generateTerminalChart(
-        '🎯 Prediction Accuracy',
+      BenchmarkChartGenerator.generateTerminalChart(
+        "🎯 Prediction Accuracy",
         sorted.map((r) => ({
           label: r.modelName,
           value: r.metrics.predictionMetrics.accuracy * 100,
         })),
-        { valueFormat: (v) => `${v.toFixed(1)}%` }
-      )
+        { valueFormat: (v) => `${v.toFixed(1)}%` },
+      ),
     );
     // Winner
@@ -731,18 +732,18 @@ export class BenchmarkChartGenerator {
       const loser = sorted[sorted.length - 1];
       const pnlDelta = winner.metrics.totalPnl - (loser?.metrics.totalPnl ?? 0);
-      lines.push('\n━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━');
+      lines.push("\n━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━");
       lines.push(`🏆 WINNER: ${winner.modelName}`);
       lines.push(`   P&L: $${winner.metrics.totalPnl.toFixed(2)}`);
       lines.push(
-        `   Accuracy: ${(winner.metrics.predictionMetrics.accuracy * 100).toFixed(1)}%`
+        `   Accuracy: ${(winner.metrics.predictionMetrics.accuracy * 100).toFixed(1)}%`,
       );
       if (results.length > 1 && loser) {
         lines.push(`   Lead: $${pnlDelta.toFixed(2)} over ${loser.modelName}`);
       }
-      lines.push('━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\n');
+      lines.push("━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━\n");
     }
-    return lines.join('\n');
+    return lines.join("\n");
   }
 }