npm - @elizaos/training - Versions diffs - 2.0.0-alpha.11 - Mend

@elizaos/training 2.0.0-alpha.11

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (207) hide show

package/Dockerfile +75 -0
package/Makefile +374 -0
package/README.md +346 -0
package/config/rubrics.json +137 -0
package/data/.gitkeep +0 -0
package/data/degen/.gitkeep +2 -0
package/data/trader/.gitkeep +2 -0
package/docker-compose.test.yml +57 -0
package/package.json +58 -0
package/python/config/babylon_atropos.yaml +90 -0
package/python/config/profiles/12gb.json +11 -0
package/python/config/profiles/16gb.json +10 -0
package/python/config/profiles/24gb.json +10 -0
package/python/config/profiles/48gb.json +10 -0
package/python/config/profiles/cpu.json +11 -0
package/python/config/profiles/l40-2gpu-safe.json +20 -0
package/python/config/profiles/l40-2gpu.json +22 -0
package/python/config/profiles/l40-4gpu.json +21 -0
package/python/config/profiles/l40.json +17 -0
package/python/config/tinker_training.yaml +143 -0
package/python/curriculum_state.json +165 -0
package/python/env.template +86 -0
package/python/env.training.template +46 -0
package/python/pyproject.toml +41 -0
package/python/requirements-ci.txt +31 -0
package/python/requirements.txt +87 -0
package/python/scripts/__init__.py +4 -0
package/python/scripts/import_json_trajectories.py +412 -0
package/python/scripts/local-finetune/README.md +63 -0
package/python/scripts/local-finetune/ingest_and_score.py +139 -0
package/python/scripts/local-finetune/merge_model.py +32 -0
package/python/scripts/local-finetune/test_adapter.py +91 -0
package/python/scripts/local-finetune/train_from_csv.py +132 -0
package/python/scripts/merge_trajectories.py +318 -0
package/python/scripts/run_ab_test.py +143 -0
package/python/scripts/run_full_pipeline.py +544 -0
package/python/scripts/run_tinker_training.py +192 -0
package/python/scripts/run_training.py +914 -0
package/python/scripts/test_judge.py +155 -0
package/python/scripts/test_pipeline.py +356 -0
package/python/scripts/test_trained_model.py +380 -0
package/python/scripts/train_local.py +528 -0
package/python/setup.py +20 -0
package/python/src/__init__.py +190 -0
package/python/src/data_bridge/__init__.py +24 -0
package/python/src/data_bridge/converter.py +435 -0
package/python/src/data_bridge/reader.py +393 -0
package/python/src/models.py +283 -0
package/python/src/training/__init__.py +605 -0
package/python/src/training/ab_testing.py +404 -0
package/python/src/training/action_executor.py +621 -0
package/python/src/training/archetype_trainer.py +347 -0
package/python/src/training/atropos_trainer.py +980 -0
package/python/src/training/babylon_env.py +1254 -0
package/python/src/training/error_recovery.py +647 -0
package/python/src/training/evaluation.py +856 -0
package/python/src/training/fast_simulator.py +880 -0
package/python/src/training/format_validator.py +584 -0
package/python/src/training/hybrid_env.py +522 -0
package/python/src/training/kl_controller.py +628 -0
package/python/src/training/multi_prompt_dataset.py +883 -0
package/python/src/training/multi_turn.py +656 -0
package/python/src/training/online_env.py +1084 -0
package/python/src/training/quality_scorer.py +391 -0
package/python/src/training/quality_utils.py +633 -0
package/python/src/training/rewards.py +1344 -0
package/python/src/training/rlaif_env.py +17 -0
package/python/src/training/rollout_generator.py +502 -0
package/python/src/training/rubric_loader.py +198 -0
package/python/src/training/scenario_pool.py +1072 -0
package/python/src/training/schemas.py +481 -0
package/python/src/training/service_manager.py +552 -0
package/python/src/training/simulation_bridge.py +535 -0
package/python/src/training/tick_reward_attribution.py +399 -0
package/python/src/training/tinker_client.py +575 -0
package/python/src/training/tinker_trainer.py +646 -0
package/python/src/training/tokenization_utils.py +402 -0
package/python/tests/e2e/__init__.py +13 -0
package/python/tests/e2e/conftest.py +258 -0
package/python/tests/e2e/test_full_pipeline.py +643 -0
package/python/tests/e2e/test_online_training_e2e.py +365 -0
package/python/tests/integration/__init__.py +12 -0
package/python/tests/integration/conftest.py +383 -0
package/python/tests/integration/test_db_integration.py +649 -0
package/python/tests/integration/test_json_mode_integration.py +554 -0
package/python/tests/test_action_executor.py +594 -0
package/python/tests/test_archetype_scoring.py +1027 -0
package/python/tests/test_atropos_integration.py +360 -0
package/python/tests/test_evaluation.py +727 -0
package/python/tests/test_format_validator.py +486 -0
package/python/tests/test_kl_controller.py +432 -0
package/python/tests/test_lr_scheduler.py +579 -0
package/python/tests/test_multi_turn.py +590 -0
package/python/tests/test_online_env.py +519 -0
package/python/tests/test_quality_scorer.py +474 -0
package/python/tests/test_scenario_pool.py +735 -0
package/python/tests/test_service_manager.py +585 -0
package/python/tests/test_simulation_rollout.py +581 -0
package/python/tests/test_tokenization_utils.py +501 -0
package/python/tests/test_training_orchestrator.py +497 -0
package/python/tests/test_training_output_structure.py +661 -0
package/research-output/training-runs/training-run-1770772042899.json +26 -0
package/research-output/training-runs/training-run-1770930079670.json +32 -0
package/research-output/training-runs/training-run-1770930143700.json +44 -0
package/research-output/training-runs/training-run-1770930183638.json +38 -0
package/research-output/training-runs/training-run-1770930442049.json +38 -0
package/research-output/training-runs/training-run-1770930793243.json +38 -0
package/scripts/assess-training-data.ts +422 -0
package/scripts/e2e-training-test.ts +550 -0
package/scripts/export-rubrics.ts +64 -0
package/scripts/generate-research-report.ts +1523 -0
package/scripts/generate_dataset.sh +173 -0
package/scripts/json-mode-benchmark.ts +399 -0
package/scripts/real-archetype-benchmark.ts +210 -0
package/scripts/run-baseline-comparison.ts +116 -0
package/scripts/run-full-pipeline.ts +272 -0
package/scripts/runpod_setup.sh +137 -0
package/scripts/runpod_validate.sh +147 -0
package/scripts/test-model-in-game.ts +955 -0
package/scripts/test-scoring.ts +73 -0
package/scripts/test-trained-model.ts +209 -0
package/scripts/train-and-test.ts +824 -0
package/scripts/verify-final.ts +118 -0
package/src/adapter.ts +516 -0
package/src/archetypes/ArchetypeConfigService.ts +626 -0
package/src/archetypes/derive-archetype.ts +249 -0
package/src/archetypes/index.ts +22 -0
package/src/benchmark/ArchetypeMatchupBenchmark.ts +825 -0
package/src/benchmark/BenchmarkChartGenerator.ts +748 -0
package/src/benchmark/BenchmarkDataGenerator.ts +1288 -0
package/src/benchmark/BenchmarkDataViewer.ts +324 -0
package/src/benchmark/BenchmarkHistoryService.ts +221 -0
package/src/benchmark/BenchmarkRunner.ts +685 -0
package/src/benchmark/BenchmarkValidator.ts +206 -0
package/src/benchmark/FastEvalRunner.ts +225 -0
package/src/benchmark/MetricsValidator.ts +165 -0
package/src/benchmark/MetricsVisualizer.ts +909 -0
package/src/benchmark/ModelBenchmarkService.ts +611 -0
package/src/benchmark/ModelRegistry.ts +158 -0
package/src/benchmark/RulerBenchmarkIntegration.ts +235 -0
package/src/benchmark/SimulationA2AInterface.ts +1169 -0
package/src/benchmark/SimulationEngine.ts +832 -0
package/src/benchmark/__tests__/BenchmarkRunner.test.ts +534 -0
package/src/benchmark/__tests__/HeadToHead.test.ts +126 -0
package/src/benchmark/index.ts +89 -0
package/src/benchmark/parseSimulationMetrics.ts +124 -0
package/src/benchmark/simulation-types.ts +78 -0
package/src/dependencies.ts +439 -0
package/src/generation/TrajectoryGenerator.ts +387 -0
package/src/generation/index.ts +12 -0
package/src/huggingface/HuggingFaceDatasetUploader.ts +636 -0
package/src/huggingface/HuggingFaceIntegrationService.ts +426 -0
package/src/huggingface/HuggingFaceModelUploader.ts +532 -0
package/src/huggingface/index.ts +27 -0
package/src/huggingface/shared/HuggingFaceUploadUtil.ts +206 -0
package/src/index.ts +102 -0
package/src/init-training.ts +53 -0
package/src/metrics/TrajectoryMetricsExtractor.ts +653 -0
package/src/metrics/__tests__/TrajectoryMetricsExtractor.test.ts +759 -0
package/src/metrics/index.ts +8 -0
package/src/metrics/types.ts +200 -0
package/src/rubrics/__tests__/index.test.ts +184 -0
package/src/rubrics/ass-kisser.ts +85 -0
package/src/rubrics/degen.ts +80 -0
package/src/rubrics/goody-twoshoes.ts +84 -0
package/src/rubrics/index.ts +236 -0
package/src/rubrics/information-trader.ts +84 -0
package/src/rubrics/infosec.ts +101 -0
package/src/rubrics/liar.ts +104 -0
package/src/rubrics/perps-trader.ts +87 -0
package/src/rubrics/researcher.ts +81 -0
package/src/rubrics/scammer.ts +82 -0
package/src/rubrics/social-butterfly.ts +73 -0
package/src/rubrics/super-predictor.ts +97 -0
package/src/rubrics/trader.ts +67 -0
package/src/scoring/ArchetypeScoringService.ts +486 -0
package/src/scoring/JudgePromptBuilder.ts +556 -0
package/src/scoring/LLMJudgeCache.ts +401 -0
package/src/scoring/index.ts +9 -0
package/src/training/AutomationPipeline.ts +916 -0
package/src/training/BenchmarkService.ts +518 -0
package/src/training/ConfigValidator.ts +220 -0
package/src/training/MarketOutcomesTracker.ts +187 -0
package/src/training/ModelDeployer.ts +186 -0
package/src/training/ModelFetcher.ts +76 -0
package/src/training/ModelSelectionService.ts +341 -0
package/src/training/ModelUsageVerifier.ts +160 -0
package/src/training/MultiModelOrchestrator.ts +580 -0
package/src/training/RLModelConfig.ts +407 -0
package/src/training/RewardBackpropagationService.ts +149 -0
package/src/training/RulerScoringService.ts +666 -0
package/src/training/TrainingMonitor.ts +166 -0
package/src/training/TrajectoryRecorder.ts +399 -0
package/src/training/__tests__/TrajectoryRecorder.test.ts +472 -0
package/src/training/index.ts +100 -0
package/src/training/logRLConfig.ts +34 -0
package/src/training/pipeline.ts +129 -0
package/src/training/storage/ModelStorageService.ts +279 -0
package/src/training/storage/TrainingDataArchiver.ts +197 -0
package/src/training/storage/index.ts +17 -0
package/src/training/types.ts +207 -0
package/src/training/window-utils.ts +138 -0
package/src/utils/index.ts +101 -0
package/src/utils/logger.ts +59 -0
package/src/utils/snowflake.ts +17 -0
package/src/utils/synthetic-detector.ts +111 -0
package/tsconfig.json +20 -0

package/python/src/training/tinker_trainer.py ADDED Viewed

@@ -0,0 +1,646 @@
+"""
+Tinker Trainer
+Lightweight GRPO trainer using Tinker API.
+Replaces heavy local vLLM + PyTorch training with cloud-based training.
+This trainer:
+1. Uses TinkerClient for training and inference
+2. Integrates with RLAIFEnv for trajectory collection
+3. Implements GRPO/IS training loop
+4. Handles weight synchronization
+Benefits over local training:
+- No local GPU required
+- Access to larger models (Qwen3-235B)
+- Faster weight sync (no vLLM restarts)
+- Better on-policy training with low staleness
+- Pay only for training time, not idle GPU
+Based on: tinker-atropos integration (Nous Research)
+"""
+import json
+import logging
+import os
+from dataclasses import dataclass, field
+from datetime import datetime, timezone
+from pathlib import Path
+from typing import List
+import numpy as np
+from dotenv import load_dotenv
+from pydantic import BaseModel, Field
+from .tinker_client import (
+    TinkerClient,
+    TinkerConfig,
+    TinkerDatum,
+    TINKER_AVAILABLE,
+)
+logger = logging.getLogger(__name__)
+# Load environment variables
+project_root = Path(__file__).parent.parent.parent.parent
+env_path = project_root / ".env"
+env_local_path = project_root / ".env.local"
+if env_local_path.exists():
+    load_dotenv(env_local_path, override=True)
+if env_path.exists():
+    load_dotenv(env_path, override=False)
+class TinkerTrainingConfig(BaseModel):
+    """Configuration for Tinker-based training"""
+    # Model settings
+    base_model: str = Field(
+        default="Qwen/Qwen3-30B-A3B-Instruct",
+        description="Base model from Tinker's supported models",
+    )
+    lora_rank: int = Field(default=32, description="LoRA rank for fine-tuning")
+    # Training hyperparameters
+    learning_rate: float = Field(default=4e-5, description="Learning rate")
+    training_steps: int = Field(default=100, description="Number of training steps")
+    group_size: int = Field(default=4, description="Group size for GRPO comparison")
+    # Weight sync settings
+    weight_sync_interval: int = Field(
+        default=5, description="Sync weights to sampler every N steps"
+    )
+    # Environment settings
+    database_url: str = Field(
+        default_factory=lambda: os.getenv("DATABASE_URL", ""),
+        description="PostgreSQL connection URL",
+    )
+    lookback_hours: int = Field(
+        default=72, description="Hours to look back for trajectories"
+    )
+    min_agents_per_window: int = Field(
+        default=2, description="Minimum agents per window"
+    )
+    min_actions_per_trajectory: int = Field(
+        default=3, description="Minimum actions per trajectory"
+    )
+    max_steps_per_trajectory: int = Field(
+        default=20, description="Max steps to include per trajectory"
+    )
+    max_token_length: int = Field(default=4096, description="Maximum sequence length")
+    # RLAIF Judge settings
+    judge_model: str = Field(default="gpt-4o-mini", description="Model for RLAIF judge")
+    judge_temperature: float = Field(default=0.3, description="Judge temperature")
+    # Logging settings
+    log_to_file: bool = Field(default=True, description="Log metrics to file")
+    log_file: str = Field(
+        default="./logs/tinker_training_metrics.jsonl", description="Metrics log file"
+    )
+    # Inference settings
+    inference_max_tokens: int = Field(
+        default=512, description="Max tokens for inference"
+    )
+    inference_temperature: float = Field(
+        default=0.7, description="Temperature for inference"
+    )
+@dataclass
+class TrainingMetrics:
+    """Metrics from training"""
+    step: int
+    loss: float
+    num_samples: int
+    logprobs_mean: float = 0.0
+    pos_advantage_mean: float = 0.0
+    neg_advantage_mean: float = 0.0
+    avg_score: float = 0.0
+    windows_processed: int = 0
+    timestamp: str = field(default_factory=lambda: datetime.now(timezone.utc).isoformat())
+class TinkerTrainer:
+    """
+    GRPO Trainer using Tinker API.
+    This replaces local heavyweight trainer flows with a lighter implementation:
+    - No local vLLM management
+    - No GPU requirements on training machine
+    - Training happens in Tinker cloud
+    - Only data loading runs locally
+    The training loop:
+    1. Load trajectory groups from database
+    2. Score trajectories using LLM judge (RLAIF)
+    3. Convert to training format
+    4. Call Tinker for forward_backward + optim_step
+    5. Periodically sync weights to sampling client
+    """
+    def __init__(self, config: TinkerTrainingConfig):
+        if not TINKER_AVAILABLE:
+            raise RuntimeError(
+                "Tinker not installed. Install with: pip install tinker"
+            )
+        self.config = config
+        self.tinker_config = TinkerConfig(
+            base_model=config.base_model,
+            lora_rank=config.lora_rank,
+            learning_rate=config.learning_rate,
+            default_max_tokens=config.inference_max_tokens,
+            default_temperature=config.inference_temperature,
+        )
+        self.tinker_client = TinkerClient(self.tinker_config)
+        self.current_step = 0
+        self.run_id = datetime.now(timezone.utc).strftime("%Y%m%d-%H%M%S")
+        self.all_metrics: List[TrainingMetrics] = []
+        # Database pool (lazy init)
+        self._db_pool = None
+        # Judge client (lazy init)
+        self._judge_client = None
+    async def setup(self) -> None:
+        """Initialize Tinker client and database connection"""
+        logger.info(f"Setting up Tinker trainer with {self.config.base_model}")
+        logger.info(f"Run ID: {self.run_id}")
+        # Initialize Tinker
+        self.tinker_client.setup()
+        logger.info("Tinker client initialized")
+        # Setup logging
+        if self.config.log_to_file:
+            log_dir = Path(self.config.log_file).parent
+            log_dir.mkdir(parents=True, exist_ok=True)
+            logger.info(f"Metrics will be logged to: {self.config.log_file}")
+        # Connect to database
+        await self._connect_database()
+        # Initialize judge
+        await self._init_judge()
+        logger.info("Setup complete")
+    async def _connect_database(self) -> None:
+        """Connect to PostgreSQL database"""
+        import asyncpg
+        if not self.config.database_url:
+            raise ValueError("DATABASE_URL not set")
+        self._db_pool = await asyncpg.create_pool(
+            self.config.database_url,
+            min_size=2,
+            max_size=10,
+            command_timeout=60,
+        )
+        logger.info("Connected to database")
+    async def _init_judge(self) -> None:
+        """Initialize OpenAI client for RLAIF judge"""
+        import openai
+        self._judge_client = openai.AsyncOpenAI()
+        logger.info(f"Judge initialized with model: {self.config.judge_model}")
+    async def cleanup(self) -> None:
+        """Clean up resources"""
+        if self._db_pool:
+            await self._db_pool.close()
+            self._db_pool = None
+            logger.info("Database connection closed")
+    def log_metrics(self, metrics: TrainingMetrics) -> None:
+        """Log metrics to file"""
+        if self.config.log_to_file:
+            metrics_dict = {
+                "timestamp": metrics.timestamp,
+                "run_id": self.run_id,
+                "step": metrics.step,
+                "loss": metrics.loss,
+                "num_samples": metrics.num_samples,
+                "logprobs_mean": metrics.logprobs_mean,
+                "pos_advantage_mean": metrics.pos_advantage_mean,
+                "neg_advantage_mean": metrics.neg_advantage_mean,
+                "avg_score": metrics.avg_score,
+                "windows_processed": metrics.windows_processed,
+            }
+            with open(self.config.log_file, "a") as f:
+                f.write(json.dumps(metrics_dict) + "\n")
+        self.all_metrics.append(metrics)
+    async def load_trajectory_groups(self) -> List[dict]:
+        """Load trajectory groups from database"""
+        if not self._db_pool:
+            raise RuntimeError("Database not connected")
+        async with self._db_pool.acquire() as conn:
+            rows = await conn.fetch(
+                """
+                SELECT
+                    t."trajectoryId",
+                    t."agentId",
+                    t."windowId",
+                    t."scenarioId",
+                    t."stepsJson",
+                    t."finalPnL",
+                    t."episodeLength",
+                    t."totalReward",
+                    u.username as agent_name
+                FROM trajectories t
+                LEFT JOIN "User" u ON t."agentId" = u.id
+                WHERE
+                    t."createdAt" > NOW() - $1::interval
+                    AND t."stepsJson" IS NOT NULL
+                    AND t."stepsJson"::text != 'null'
+                    AND t."stepsJson"::text != '[]'
+                    AND t."episodeLength" >= $2
+                ORDER BY t."windowId", t."scenarioId", t."createdAt"
+                """,
+                f"{self.config.lookback_hours} hours",
+                self.config.min_actions_per_trajectory,
+            )
+        # Group by window/scenario
+        groups: dict = {}
+        for row in rows:
+            group_key = f"{row['windowId']}_{row['scenarioId'] or 'default'}"
+            if group_key not in groups:
+                groups[group_key] = []
+            steps = json.loads(row["stepsJson"] or "[]")
+            if len(steps) < self.config.min_actions_per_trajectory:
+                continue
+            groups[group_key].append(
+                {
+                    "trajectory_id": row["trajectoryId"],
+                    "agent_id": row["agentId"],
+                    "agent_name": row["agent_name"] or row["agentId"][:8],
+                    "window_id": row["windowId"],
+                    "scenario_id": row["scenarioId"],
+                    "steps": steps,
+                    "final_pnl": float(row["finalPnL"] or 0),
+                    "episode_length": row["episodeLength"] or len(steps),
+                    "total_reward": float(row["totalReward"] or 0),
+                }
+            )
+        # Filter groups with enough trajectories
+        valid_groups = [
+            {"group_key": k, "trajectories": v}
+            for k, v in groups.items()
+            if len(v) >= self.config.min_agents_per_window
+        ]
+        logger.info(f"Loaded {len(valid_groups)} trajectory groups")
+        return valid_groups
+    def trajectory_to_messages(self, traj: dict) -> List[dict]:
+        """Convert trajectory to chat messages format"""
+        messages = []
+        # System message
+        system_content = f"""You are a trading agent in a prediction market simulation.
+Agent: {traj.get('agent_name', 'Agent')}
+Window: {traj.get('window_id', 'Unknown')}
+Final P&L: ${traj.get('final_pnl', 0):.2f}
+Your goal is to make profitable trading decisions based on market analysis."""
+        messages.append({"role": "system", "content": system_content})
+        # Convert steps
+        steps = traj.get("steps", [])
+        max_steps = self.config.max_steps_per_trajectory
+        if len(steps) > max_steps:
+            steps = steps[-max_steps:]
+        for step_idx, step in enumerate(steps):
+            if not isinstance(step, dict):
+                continue
+            # Get LLM calls if available
+            llm_calls = step.get("llmCalls", step.get("llm_calls", []))
+            if llm_calls:
+                for llm_call in llm_calls:
+                    purpose = llm_call.get("purpose", "action")
+                    user_prompt = llm_call.get(
+                        "userPrompt", llm_call.get("user_prompt", "")
+                    )
+                    # Build user content
+                    user_content = f"[Step {step_idx + 1}, {purpose.upper()}]\n"
+                    env_state = step.get(
+                        "environmentState", step.get("environment_state", {})
+                    )
+                    if env_state:
+                        balance = env_state.get(
+                            "agentBalance", env_state.get("agent_balance", 0)
+                        )
+                        pnl = env_state.get("agentPnL", env_state.get("agent_pnl", 0))
+                        positions = env_state.get(
+                            "openPositions", env_state.get("open_positions", 0)
+                        )
+                        user_content += (
+                            f"State: Balance=${balance:.2f}, "
+                            f"P&L=${pnl:.2f}, Positions={positions}\n\n"
+                        )
+                    if user_prompt:
+                        user_content += user_prompt
+                    messages.append({"role": "user", "content": user_content})
+                    # Assistant response
+                    response = llm_call.get("response", "")
+                    reasoning = llm_call.get("reasoning", "")
+                    assistant_content = ""
+                    if reasoning:
+                        assistant_content += f"<thinking>\n{reasoning}\n</thinking>\n\n"
+                    if response:
+                        assistant_content += response
+                    if assistant_content.strip():
+                        messages.append(
+                            {"role": "assistant", "content": assistant_content}
+                        )
+            else:
+                # Fallback: build from environment state and action
+                env_state = step.get(
+                    "environmentState", step.get("environment_state", {})
+                )
+                balance = env_state.get(
+                    "agentBalance", env_state.get("agent_balance", 0)
+                )
+                pnl = env_state.get("agentPnL", env_state.get("agent_pnl", 0))
+                positions = env_state.get(
+                    "openPositions", env_state.get("open_positions", 0)
+                )
+                user_content = (
+                    f"[Step {step_idx + 1}]\n"
+                    f"Market Update:\n"
+                    f"- Balance: ${balance:.2f}\n"
+                    f"- P&L: ${pnl:.2f}\n"
+                    f"- Open Positions: {positions}"
+                )
+                messages.append({"role": "user", "content": user_content})
+                # Action as assistant message
+                action = step.get("action", {})
+                action_type = action.get(
+                    "actionType", action.get("action_type", "wait")
+                )
+                params = action.get("parameters", {})
+                reasoning = action.get("reasoning", "")
+                assistant_content = ""
+                if reasoning:
+                    assistant_content += f"<thinking>\n{reasoning}\n</thinking>\n\n"
+                assistant_content += f"Action: {action_type}"
+                if params:
+                    assistant_content += f"\nParameters: {json.dumps(params, indent=2)}"
+                messages.append({"role": "assistant", "content": assistant_content})
+        return messages
+    async def score_trajectories(
+        self, trajectories: List[dict]
+    ) -> List[float]:
+        """Score trajectories using LLM judge (RLAIF)"""
+        # Build judge prompt
+        prompt_parts = [
+            "# Trading Agent Evaluation\n",
+            "Score each trajectory from 0.0 to 1.0 based on:\n",
+            "- Profitability (higher P&L = higher score)\n",
+            "- Risk management\n",
+            "- Decision quality\n\n",
+            "## Trajectories:\n",
+        ]
+        for i, traj in enumerate(trajectories):
+            prompt_parts.append(f"\n### Trajectory {i + 1}:")
+            prompt_parts.append(f"- Agent: {traj.get('agent_name', 'Unknown')}")
+            prompt_parts.append(f"- Final P&L: ${traj.get('final_pnl', 0):.2f}")
+            prompt_parts.append(f"- Episode Length: {traj.get('episode_length', 0)}")
+        prompt_parts.append("\n## Output (JSON only):")
+        prompt_parts.append(
+            '{"scores": [{"trajectory_id": 1, "score": 0.85}, ...]}'
+        )
+        judge_prompt = "\n".join(prompt_parts)
+        # Call judge
+        response = await self._judge_client.chat.completions.create(
+            model=self.config.judge_model,
+            messages=[
+                {
+                    "role": "system",
+                    "content": "You are an expert evaluator. Respond with valid JSON only.",
+                },
+                {"role": "user", "content": judge_prompt},
+            ],
+            max_tokens=500,
+            temperature=self.config.judge_temperature,
+        )
+        # Parse response
+        content = response.choices[0].message.content or ""
+        try:
+            # Clean and parse JSON
+            clean = content.strip().replace("```json", "").replace("```", "")
+            if "{" in clean:
+                start = clean.find("{")
+                end = clean.rfind("}") + 1
+                parsed = json.loads(clean[start:end])
+                scores_data = parsed.get("scores", parsed)
+                scores = []
+                for item in scores_data:
+                    if isinstance(item, dict):
+                        scores.append(float(item.get("score", 0.5)))
+                    else:
+                        scores.append(float(item))
+                if len(scores) == len(trajectories):
+                    return scores
+        except (json.JSONDecodeError, ValueError, KeyError) as e:
+            logger.warning(f"Failed to parse judge response: {e}")
+        # Fallback: P&L-based scoring
+        pnls = [t.get("final_pnl", 0) for t in trajectories]
+        min_pnl, max_pnl = min(pnls), max(pnls)
+        pnl_range = max_pnl - min_pnl if max_pnl != min_pnl else 1.0
+        return [(p - min_pnl) / pnl_range for p in pnls]
+    async def train_on_group(
+        self, group: dict
+    ) -> TrainingMetrics | None:
+        """Train on a single trajectory group"""
+        trajectories = group["trajectories"]
+        # Sample if too many
+        if len(trajectories) > self.config.group_size:
+            import random
+            trajectories = random.sample(trajectories, self.config.group_size)
+        if len(trajectories) < 2:
+            logger.warning(f"Group {group['group_key']} has insufficient trajectories")
+            return None
+        # Score trajectories
+        scores = await self.score_trajectories(trajectories)
+        # Normalize to mean 0 for GRPO
+        mean_score = sum(scores) / len(scores)
+        advantages = [s - mean_score for s in scores]
+        # Normalize variance
+        if len(advantages) > 1:
+            std = float(np.std(advantages))
+            if std > 1e-8:
+                advantages = [a / std for a in advantages]
+        # Convert to training data
+        data: List[TinkerDatum] = []
+        valid_advantages: List[float] = []
+        for traj, advantage in zip(trajectories, advantages):
+            messages = self.trajectory_to_messages(traj)
+            if len(messages) < 3:  # Need at least system + user + assistant
+                continue
+            # Get last assistant message as completion
+            assistant_msgs = [m for m in messages if m["role"] == "assistant"]
+            if not assistant_msgs:
+                continue
+            completion = assistant_msgs[-1]["content"]
+            context_messages = messages[:-1]  # All but last
+            # Prepare datum
+            datum = self.tinker_client.prepare_datum(
+                messages=context_messages,
+                completion=completion,
+            )
+            data.append(datum)
+            valid_advantages.append(advantage)
+        if not data:
+            logger.warning("No valid training data from group")
+            return None
+        # Train step
+        result = self.tinker_client.train_step(
+            data=data,
+            scores=valid_advantages,
+            loss_fn="importance_sampling",
+        )
+        return TrainingMetrics(
+            step=self.current_step,
+            loss=result.loss,
+            num_samples=result.num_samples,
+            logprobs_mean=result.logprobs_mean,
+            pos_advantage_mean=result.pos_advantage_mean,
+            neg_advantage_mean=result.neg_advantage_mean,
+            avg_score=float(np.mean(scores)),
+        )
+    async def train(self) -> dict:
+        """Main training loop"""
+        await self.setup()
+        try:
+            logger.info(f"Starting training for {self.config.training_steps} steps")
+            # Load all trajectory groups
+            all_groups = await self.load_trajectory_groups()
+            if not all_groups:
+                raise ValueError("No trajectory groups found")
+            group_idx = 0
+            windows_processed = 0
+            for step in range(self.config.training_steps):
+                self.current_step = step + 1
+                logger.info(
+                    f"Step {self.current_step}/{self.config.training_steps}"
+                )
+                # Get next group (circular)
+                group = all_groups[group_idx % len(all_groups)]
+                group_idx += 1
+                # Train on group
+                metrics = await self.train_on_group(group)
+                if metrics:
+                    windows_processed += 1
+                    metrics.windows_processed = windows_processed
+                    logger.info(
+                        f"  Loss: {metrics.loss:.4f}, "
+                        f"Samples: {metrics.num_samples}, "
+                        f"Avg Score: {metrics.avg_score:.3f}"
+                    )
+                    self.log_metrics(metrics)
+                else:
+                    logger.warning("  No metrics (empty batch)")
+                # Sync weights periodically
+                if self.current_step % self.config.weight_sync_interval == 0:
+                    logger.info("Syncing weights to sampling client...")
+                    self.tinker_client.sync_weights(
+                        name=f"eliza-{self.run_id}-step-{self.current_step}"
+                    )
+            # Final weight sync
+            final_name = f"eliza-{self.run_id}-final"
+            self.tinker_client.sync_weights(name=final_name)
+            logger.info(f"Training complete! Final weights: {final_name}")
+            return {
+                "success": True,
+                "run_id": self.run_id,
+                "steps": self.current_step,
+                "windows_processed": windows_processed,
+                "final_weights": final_name,
+                "metrics_file": self.config.log_file if self.config.log_to_file else None,
+            }
+        finally:
+            await self.cleanup()
+# Backward compatibility alias while imports migrate.
+BabylonTinkerTrainer = TinkerTrainer