npm - @elizaos/training - Versions diffs - 2.0.0-alpha.13 → 2.0.0-alpha.14 - Mend

@elizaos/training 2.0.0-alpha.13 → 2.0.0-alpha.14

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (86) hide show

package/package.json +2 -2
package/scripts/rank_trajectories.ts +0 -1
package/scripts/run_task_benchmark.ts +4 -11
package/src/adapter.ts +96 -49
package/src/archetypes/ArchetypeConfigService.ts +188 -185
package/src/archetypes/derive-archetype.ts +47 -47
package/src/archetypes/index.ts +2 -2
package/src/benchmark/ArchetypeMatchupBenchmark.ts +70 -70
package/src/benchmark/BenchmarkChartGenerator.ts +70 -69
package/src/benchmark/BenchmarkDataGenerator.ts +136 -136
package/src/benchmark/BenchmarkDataViewer.ts +32 -30
package/src/benchmark/BenchmarkHistoryService.ts +13 -12
package/src/benchmark/BenchmarkRunner.ts +87 -83
package/src/benchmark/BenchmarkValidator.ts +48 -46
package/src/benchmark/FastEvalRunner.ts +17 -16
package/src/benchmark/MetricsValidator.ts +20 -21
package/src/benchmark/MetricsVisualizer.ts +92 -85
package/src/benchmark/ModelBenchmarkService.ts +90 -82
package/src/benchmark/ModelRegistry.ts +44 -44
package/src/benchmark/RulerBenchmarkIntegration.ts +24 -24
package/src/benchmark/SimulationA2AInterface.ts +118 -118
package/src/benchmark/SimulationEngine.ts +51 -51
package/src/benchmark/TaskRunner.ts +87 -79
package/src/benchmark/__tests__/BenchmarkRunner.test.ts +80 -80
package/src/benchmark/__tests__/HeadToHead.test.ts +26 -26
package/src/benchmark/index.ts +27 -27
package/src/benchmark/parseSimulationMetrics.ts +32 -32
package/src/benchmark/simulation-types.ts +10 -10
package/src/dependencies.ts +34 -34
package/src/generation/TrajectoryGenerator.ts +39 -37
package/src/generation/index.ts +1 -1
package/src/huggingface/HuggingFaceDatasetUploader.ts +72 -72
package/src/huggingface/HuggingFaceIntegrationService.ts +59 -53
package/src/huggingface/HuggingFaceModelUploader.ts +60 -59
package/src/huggingface/index.ts +6 -6
package/src/huggingface/shared/HuggingFaceUploadUtil.ts +32 -32
package/src/index.ts +27 -27
package/src/init-training.ts +6 -6
package/src/metrics/TrajectoryMetricsExtractor.ts +70 -71
package/src/metrics/__tests__/TrajectoryMetricsExtractor.test.ts +182 -182
package/src/metrics/index.ts +2 -2
package/src/rubrics/__tests__/index.test.ts +73 -73
package/src/rubrics/ass-kisser.ts +6 -6
package/src/rubrics/degen.ts +6 -6
package/src/rubrics/goody-twoshoes.ts +6 -6
package/src/rubrics/index.ts +50 -50
package/src/rubrics/information-trader.ts +6 -6
package/src/rubrics/infosec.ts +6 -6
package/src/rubrics/liar.ts +6 -6
package/src/rubrics/perps-trader.ts +6 -6
package/src/rubrics/researcher.ts +6 -6
package/src/rubrics/scammer.ts +6 -6
package/src/rubrics/social-butterfly.ts +7 -7
package/src/rubrics/super-predictor.ts +6 -6
package/src/rubrics/trader.ts +5 -5
package/src/scoring/ArchetypeScoringService.ts +56 -54
package/src/scoring/JudgePromptBuilder.ts +96 -96
package/src/scoring/LLMJudgeCache.ts +26 -23
package/src/scoring/index.ts +3 -3
package/src/training/AutomationPipeline.ts +149 -140
package/src/training/BenchmarkService.ts +49 -45
package/src/training/ConfigValidator.ts +38 -32
package/src/training/MarketOutcomesTracker.ts +22 -12
package/src/training/ModelDeployer.ts +15 -15
package/src/training/ModelFetcher.ts +7 -7
package/src/training/ModelSelectionService.ts +32 -32
package/src/training/ModelUsageVerifier.ts +31 -24
package/src/training/MultiModelOrchestrator.ts +44 -44
package/src/training/RLModelConfig.ts +57 -57
package/src/training/RewardBackpropagationService.ts +18 -17
package/src/training/RulerScoringService.ts +73 -72
package/src/training/TrainingMonitor.ts +29 -29
package/src/training/TrajectoryRecorder.ts +25 -27
package/src/training/__tests__/TrajectoryRecorder.test.ts +105 -105
package/src/training/index.ts +36 -36
package/src/training/logRLConfig.ts +7 -7
package/src/training/pipeline.ts +13 -16
package/src/training/storage/ModelStorageService.ts +32 -32
package/src/training/storage/TrainingDataArchiver.ts +21 -21
package/src/training/storage/index.ts +2 -2
package/src/training/types.ts +6 -6
package/src/training/window-utils.ts +14 -14
package/src/utils/index.ts +7 -7
package/src/utils/logger.ts +5 -5
package/src/utils/snowflake.ts +1 -1
package/src/utils/synthetic-detector.ts +7 -7

package/package.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "name": "@elizaos/training",
-  "version": "2.0.0-alpha.13",
+  "version": "2.0.0-alpha.14",
   "description": "ElizaOS RL training pipeline with benchmarking and model publishing support",
   "main": "./src/index.ts",
   "types": "./src/index.ts",
@@ -53,5 +53,5 @@
     "bun-types": "^1.3.2",
     "typescript": "^5.9.3"
   },
-  "gitHead": "9448dcfc32d38873e1e2596d4ff4eca444fadca0"
+  "gitHead": "4eb31c47081d48bec956e6b9751f3c9aee3eb38d"
 }

package/scripts/rank_trajectories.ts CHANGED Viewed

@@ -67,7 +67,6 @@ async function main() {
     // Initialize Judge Runtime
     const character = {
         name: 'JudgeAgent',
-        modelProvider: "openai" as any,
         bio: ['I am an impartial AI judge.'],
         settings: {
             secrets: {

package/scripts/run_task_benchmark.ts CHANGED Viewed

@@ -50,7 +50,6 @@ class BenchmarkRuntimeManager implements IAgentRuntimeManager {
         // Create a new runtime
         const character = {
             name: 'BenchmarkAgent',
-            modelProvider: "openai" as any,
             bio: 'A helpful assistant for benchmarking.',
             settings: {
                 secrets: {
@@ -60,13 +59,7 @@ class BenchmarkRuntimeManager implements IAgentRuntimeManager {
         };
         const runtime = new AgentRuntime({
-            token: process.env.OPENAI_API_KEY || '',
-            modelProvider: "openai" as any,
             character,
-            plugins: [],
-            providers: [],
-            actions: [],
-            evaluators: [],
         });
         // We must initialize with allowNoDatabase to avoid DB error
@@ -227,11 +220,11 @@ async function main() {
         agentService: new BenchmarkAgentService(),
         agentRuntimeManager: new BenchmarkRuntimeManager(),
         autonomousCoordinator: {
-            executeAutonomousTick: async () => ({ success: true })
-        } as any,
+            executeAutonomousTick: async () => ({ success: true }),
+        },
         llmCaller: {
-            callGroqDirect: async () => "mock response"
-        } as any,
+            callGroqDirect: async () => "mock response",
+        },
     });
     // Import task interactor config

package/src/adapter.ts CHANGED Viewed

@@ -24,7 +24,7 @@ export type JsonValue =
 /**
  * UUID-like string identifier.
  */
-export type UUID = string & { readonly __brand: 'UUID' };
+export type UUID = string & { readonly __brand: "UUID" };
 // ─── Record types (replace schema-derived types from @elizaos/db) ───────
@@ -170,7 +170,9 @@ export interface ITrainingDataAdapter {
    * Get scenario groups with counts.
    * Returns groups where count >= minGroupSize.
    */
-  getScenarioGroups(minGroupSize: number): Promise<Array<{ scenarioId: string | null; count: number }>>;
+  getScenarioGroups(
+    minGroupSize: number,
+  ): Promise<Array<{ scenarioId: string | null; count: number }>>;
   /**
    * Sample recent trajectories for data quality assessment.
@@ -194,10 +196,17 @@ export interface ITrainingDataAdapter {
   getTrajectoryById(trajectoryId: string): Promise<TrajectoryRecord | null>;
   /** Mark trajectories as used in a training batch. */
-  markTrajectoriesAsUsed(trajectoryIds: string[], batchId: string): Promise<void>;
+  markTrajectoriesAsUsed(
+    trajectoryIds: string[],
+    batchId: string,
+  ): Promise<void>;
   /** Update trajectory reward data. */
-  updateTrajectoryRewards(id: string, stepsJson: string, totalReward: number): Promise<void>;
+  updateTrajectoryRewards(
+    id: string,
+    stepsJson: string,
+    totalReward: number,
+  ): Promise<void>;
   /** Update trajectory with judge score. */
   updateTrajectoryScore(
@@ -207,7 +216,9 @@ export interface ITrainingDataAdapter {
   ): Promise<void>;
   /** Insert a new trajectory record. */
-  insertTrajectory(data: Omit<TrajectoryRecord, 'createdAt' | 'updatedAt'>): Promise<void>;
+  insertTrajectory(
+    data: Omit<TrajectoryRecord, "createdAt" | "updatedAt">,
+  ): Promise<void>;
   /**
    * Count trajectories created since a given timestamp.
@@ -227,7 +238,10 @@ export interface ITrainingDataAdapter {
   getModelByVersion(version: string): Promise<TrainedModelRecord | null>;
   /** Get model associated with a training batch and status. */
-  getModelByBatchAndStatus(batchId: string, status: string): Promise<TrainedModelRecord | null>;
+  getModelByBatchAndStatus(
+    batchId: string,
+    status: string,
+  ): Promise<TrainedModelRecord | null>;
   /** Count deployed models. */
   countDeployedModels(): Promise<number>;
@@ -254,7 +268,7 @@ export interface ITrainingDataAdapter {
   updateModelHuggingFaceRepo(modelId: string, repoName: string): Promise<void>;
   /** Insert a new trained model record. */
-  insertModel(data: Omit<TrainedModelRecord, 'createdAt'>): Promise<void>;
+  insertModel(data: Omit<TrainedModelRecord, "createdAt">): Promise<void>;
   // ── Batch operations ───────────────────────────────────────────────
@@ -271,10 +285,16 @@ export interface ITrainingDataAdapter {
   getLastCompletedBatch(): Promise<TrainingBatchRecord | null>;
   /** Update batch status. */
-  updateBatchStatus(batchId: string, status: string, error?: string): Promise<void>;
+  updateBatchStatus(
+    batchId: string,
+    status: string,
+    error?: string,
+  ): Promise<void>;
   /** Insert a new training batch. */
-  insertBatch(data: Omit<TrainingBatchRecord, 'startedAt' | 'completedAt'>): Promise<string>;
+  insertBatch(
+    data: Omit<TrainingBatchRecord, "startedAt" | "completedAt">,
+  ): Promise<string>;
   // ── Benchmark operations ───────────────────────────────────────────
@@ -285,13 +305,15 @@ export interface ITrainingDataAdapter {
   countBenchmarksSince(since: Date): Promise<number>;
   /** Insert a benchmark result. */
-  insertBenchmarkResult(data: Omit<BenchmarkResultRecord, 'createdAt'>): Promise<void>;
+  insertBenchmarkResult(
+    data: Omit<BenchmarkResultRecord, "createdAt">,
+  ): Promise<void>;
   // ── User/Agent operations ──────────────────────────────────────────
   /** Get agent users (isAgent=true). Supports optional strategy filtering. */
   getAgentUsers(filter?: {
-    strategy?: 'all' | 'gradual' | 'test';
+    strategy?: "all" | "gradual" | "test";
     rolloutPercentage?: number;
     testAgentIds?: string[];
   }): Promise<UserRecord[]>;
@@ -317,7 +339,10 @@ export interface ITrainingDataAdapter {
   createAgentConfig(data: Record<string, unknown>): Promise<void>;
   /** Update an agent configuration by userId. */
-  updateAgentConfig(userId: string, data: Record<string, unknown>): Promise<void>;
+  updateAgentConfig(
+    userId: string,
+    data: Record<string, unknown>,
+  ): Promise<void>;
   /**
    * Flexible benchmark result query with optional filters.
@@ -332,15 +357,17 @@ export interface ITrainingDataAdapter {
   }): Promise<BenchmarkResultRecord[]>;
   /** Aggregate benchmark statistics per model, ordered by avgPnl descending. */
-  getBenchmarkModelSummary(): Promise<Array<{
-    modelId: string;
-    runCount: number;
-    avgPnl: number;
-    avgAccuracy: number;
-    avgOptimality: number;
-    bestPnl: number;
-    latestRun: Date;
-  }>>;
+  getBenchmarkModelSummary(): Promise<
+    Array<{
+      modelId: string;
+      runCount: number;
+      avgPnl: number;
+      avgAccuracy: number;
+      avgOptimality: number;
+      bestPnl: number;
+      latestRun: Date;
+    }>
+  >;
   /**
    * Get scored training trajectories (isTrainingData=true with judge scores).
@@ -366,10 +393,15 @@ export interface ITrainingDataAdapter {
   // ── Additional operations (added for service refactoring) ────────
   /** Get the best benchmarked model, optionally excluding a model ID. Status 'ready'/'deployed', non-null benchmarkScore, ordered by score desc. */
-  getBestBenchmarkedModel(excludeModelId?: string): Promise<TrainedModelRecord | null>;
+  getBestBenchmarkedModel(
+    excludeModelId?: string,
+  ): Promise<TrainedModelRecord | null>;
   /** Update model with detailed benchmark results (score, accuracy, eval metrics). */
-  updateModelBenchmarkResults(modelId: string, data: { benchmarkScore: number; accuracy: number; evalMetrics: JsonValue }): Promise<void>;
+  updateModelBenchmarkResults(
+    modelId: string,
+    data: { benchmarkScore: number; accuracy: number; evalMetrics: JsonValue },
+  ): Promise<void>;
   /** Get models with benchmark scores, ordered by score descending. */
   getBenchmarkedModels(limit: number): Promise<TrainedModelRecord[]>;
@@ -387,7 +419,10 @@ export interface ITrainingDataAdapter {
   getTrajectoriesByIds(trajectoryIds: string[]): Promise<TrajectoryRecord[]>;
   /** Get unscored trajectories, optionally filtered by IDs or limited. */
-  getUnscoredTrajectories(options?: { trajectoryIds?: string[]; limit?: number }): Promise<TrajectoryRecord[]>;
+  getUnscoredTrajectories(options?: {
+    trajectoryIds?: string[];
+    limit?: number;
+  }): Promise<TrajectoryRecord[]>;
   /** Get unscored trajectory IDs for a specific window. */
   getUnscoredWindowTrajectoryIds(windowId: string): Promise<string[]>;
@@ -399,32 +434,44 @@ export interface ITrainingDataAdapter {
  */
 export interface IMarketDataAdapter {
   /** Get perpetual positions within a time window. */
-  getPerpPositionsForWindow(windowStart: Date, windowEnd: Date): Promise<Array<{
-    id: string;
-    ticker?: string;
-    direction: string;
-    entryPrice: number;
-    currentPrice?: number | null;
-    exitPrice: number | null;
-    closedAt?: Date | null;
-    pnl: number | null;
-    [key: string]: JsonValue | Date | null | undefined;
-  }>>;
+  getPerpPositionsForWindow(
+    windowStart: Date,
+    windowEnd: Date,
+  ): Promise<
+    Array<{
+      id: string;
+      ticker?: string;
+      direction: string;
+      entryPrice: number;
+      currentPrice?: number | null;
+      exitPrice: number | null;
+      closedAt?: Date | null;
+      pnl: number | null;
+      [key: string]: JsonValue | Date | null | undefined;
+    }>
+  >;
   /** Get resolved prediction markets within a time window. */
-  getResolvedMarketsForWindow(windowStart: Date, windowEnd: Date): Promise<Array<{
-    id: string;
-    question: string;
-    outcome: boolean | null;
-    finalProbability: number | null;
-    [key: string]: JsonValue | boolean | Date | null | undefined;
-  }>>;
+  getResolvedMarketsForWindow(
+    windowStart: Date,
+    windowEnd: Date,
+  ): Promise<
+    Array<{
+      id: string;
+      question: string;
+      outcome: boolean | null;
+      finalProbability: number | null;
+      [key: string]: JsonValue | boolean | Date | null | undefined;
+    }>
+  >;
   /** Get market outcomes for a window ID. */
-  getMarketOutcomesByWindow(windowId: string): Promise<Array<{
-    windowId: string;
-    [key: string]: JsonValue | undefined;
-  }>>;
+  getMarketOutcomesByWindow(windowId: string): Promise<
+    Array<{
+      windowId: string;
+      [key: string]: JsonValue | undefined;
+    }>
+  >;
   /** Insert a market outcome record. */
   insertMarketOutcome(data: Record<string, JsonValue>): Promise<void>;
@@ -462,9 +509,9 @@ let _llmLogAdapter: ILlmLogAdapter | null = null;
  * Must be called before any training operations that need database access.
  */
 export function setTrainingDataAdapter(adapter: ITrainingDataAdapter): void {
-  if (!adapter || typeof adapter.countScoredTrajectoriesReady !== 'function') {
+  if (!adapter || typeof adapter.countScoredTrajectoriesReady !== "function") {
     throw new TypeError(
-      'setTrainingDataAdapter: provided object does not implement ITrainingDataAdapter'
+      "setTrainingDataAdapter: provided object does not implement ITrainingDataAdapter",
     );
   }
   _dataAdapter = adapter;
@@ -487,7 +534,7 @@ export function setLlmLogAdapter(adapter: ILlmLogAdapter): void {
 export function getTrainingDataAdapter(): ITrainingDataAdapter {
   if (!_dataAdapter) {
     throw new Error(
-      'Training data adapter not registered. Call setTrainingDataAdapter() before using training operations.'
+      "Training data adapter not registered. Call setTrainingDataAdapter() before using training operations.",
     );
   }
   return _dataAdapter;