npm - @elizaos/training - Versions diffs - 2.0.0-alpha.10 - Mend

@elizaos/training 2.0.0-alpha.10

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (224) hide show

package/Dockerfile +75 -0
package/LICENSE +21 -0
package/Makefile +374 -0
package/README.md +346 -0
package/config/rubrics.json +137 -0
package/docker-compose.test.yml +57 -0
package/package.json +57 -0
package/python/config/babylon_atropos.yaml +90 -0
package/python/config/profiles/12gb.json +11 -0
package/python/config/profiles/16gb.json +10 -0
package/python/config/profiles/24gb.json +10 -0
package/python/config/profiles/48gb.json +10 -0
package/python/config/profiles/cpu.json +11 -0
package/python/config/profiles/l40-2gpu-safe.json +20 -0
package/python/config/profiles/l40-2gpu.json +22 -0
package/python/config/profiles/l40-4gpu.json +21 -0
package/python/config/profiles/l40.json +17 -0
package/python/config/tinker_training.yaml +143 -0
package/python/curriculum_state.json +165 -0
package/python/env.template +86 -0
package/python/env.training.template +46 -0
package/python/pyproject.toml +41 -0
package/python/requirements-ci.txt +31 -0
package/python/requirements.txt +87 -0
package/python/scripts/__init__.py +4 -0
package/python/scripts/benchmark_should_respond.py +190 -0
package/python/scripts/debug_inference.py +62 -0
package/python/scripts/import_json_trajectories.py +412 -0
package/python/scripts/local-finetune/README.md +63 -0
package/python/scripts/local-finetune/ingest_and_score.py +139 -0
package/python/scripts/local-finetune/merge_model.py +32 -0
package/python/scripts/local-finetune/test_adapter.py +91 -0
package/python/scripts/local-finetune/train_from_csv.py +132 -0
package/python/scripts/merge_trajectories.py +318 -0
package/python/scripts/optimize_prompt_grpo.py +269 -0
package/python/scripts/run_ab_test.py +143 -0
package/python/scripts/run_full_pipeline.py +544 -0
package/python/scripts/run_tinker_training.py +192 -0
package/python/scripts/run_training.py +914 -0
package/python/scripts/test_generation.py +29 -0
package/python/scripts/test_judge.py +155 -0
package/python/scripts/test_pipeline.py +356 -0
package/python/scripts/test_trained_model.py +380 -0
package/python/scripts/train_grpo.py +360 -0
package/python/scripts/train_jsonl.py +223 -0
package/python/scripts/train_local.py +528 -0
package/python/setup.py +20 -0
package/python/src/__init__.py +190 -0
package/python/src/data_bridge/__init__.py +24 -0
package/python/src/data_bridge/converter.py +435 -0
package/python/src/data_bridge/reader.py +393 -0
package/python/src/models.py +283 -0
package/python/src/training/__init__.py +605 -0
package/python/src/training/ab_testing.py +404 -0
package/python/src/training/action_executor.py +621 -0
package/python/src/training/archetype_trainer.py +347 -0
package/python/src/training/atropos_trainer.py +980 -0
package/python/src/training/babylon_env.py +1254 -0
package/python/src/training/error_recovery.py +647 -0
package/python/src/training/evaluation.py +856 -0
package/python/src/training/fast_simulator.py +880 -0
package/python/src/training/format_validator.py +584 -0
package/python/src/training/hybrid_env.py +522 -0
package/python/src/training/kl_controller.py +628 -0
package/python/src/training/multi_prompt_dataset.py +883 -0
package/python/src/training/multi_turn.py +656 -0
package/python/src/training/online_env.py +1084 -0
package/python/src/training/quality_scorer.py +391 -0
package/python/src/training/quality_utils.py +633 -0
package/python/src/training/rewards.py +1344 -0
package/python/src/training/rlaif_env.py +17 -0
package/python/src/training/rollout_generator.py +502 -0
package/python/src/training/rubric_loader.py +198 -0
package/python/src/training/scenario_pool.py +1072 -0
package/python/src/training/schemas.py +481 -0
package/python/src/training/service_manager.py +552 -0
package/python/src/training/simulation_bridge.py +535 -0
package/python/src/training/tick_reward_attribution.py +399 -0
package/python/src/training/tinker_client.py +575 -0
package/python/src/training/tinker_trainer.py +646 -0
package/python/src/training/tokenization_utils.py +402 -0
package/python/tests/e2e/__init__.py +13 -0
package/python/tests/e2e/conftest.py +258 -0
package/python/tests/e2e/test_full_pipeline.py +643 -0
package/python/tests/e2e/test_online_training_e2e.py +365 -0
package/python/tests/integration/__init__.py +12 -0
package/python/tests/integration/conftest.py +383 -0
package/python/tests/integration/test_db_integration.py +649 -0
package/python/tests/integration/test_json_mode_integration.py +554 -0
package/python/tests/test_action_executor.py +594 -0
package/python/tests/test_archetype_scoring.py +1027 -0
package/python/tests/test_atropos_integration.py +360 -0
package/python/tests/test_evaluation.py +727 -0
package/python/tests/test_format_validator.py +486 -0
package/python/tests/test_kl_controller.py +432 -0
package/python/tests/test_lr_scheduler.py +579 -0
package/python/tests/test_multi_turn.py +590 -0
package/python/tests/test_online_env.py +519 -0
package/python/tests/test_quality_scorer.py +474 -0
package/python/tests/test_scenario_pool.py +735 -0
package/python/tests/test_service_manager.py +585 -0
package/python/tests/test_simulation_rollout.py +581 -0
package/python/tests/test_tokenization_utils.py +501 -0
package/python/tests/test_training_orchestrator.py +497 -0
package/python/tests/test_training_output_structure.py +661 -0
package/research-output/training-runs/training-run-1770772042899.json +26 -0
package/research-output/training-runs/training-run-1770930079670.json +32 -0
package/research-output/training-runs/training-run-1770930143700.json +44 -0
package/research-output/training-runs/training-run-1770930183638.json +38 -0
package/research-output/training-runs/training-run-1770930442049.json +38 -0
package/research-output/training-runs/training-run-1770930793243.json +38 -0
package/research-output/training-runs/training-run-1771276293257.json +38 -0
package/research-output/training-runs/training-run-1771276389280.json +38 -0
package/research-output/training-runs/training-run-1771276502776.json +38 -0
package/research-output/training-runs/training-run-1771277340748.json +38 -0
package/research-output/training-runs/training-run-1773013658993.json +38 -0
package/research-output/training-runs/training-run-1773013861014.json +38 -0
package/research-output/training-runs/training-run-1773014215983.json +38 -0
package/scripts/assess-training-data.ts +422 -0
package/scripts/e2e-training-test.ts +550 -0
package/scripts/export-rubrics.ts +64 -0
package/scripts/generate-research-report.ts +1523 -0
package/scripts/generate_dataset.sh +173 -0
package/scripts/generate_should_respond.ts +267 -0
package/scripts/generate_should_respond_dataset.ts +162 -0
package/scripts/json-mode-benchmark.ts +399 -0
package/scripts/rank_trajectories.ts +207 -0
package/scripts/real-archetype-benchmark.ts +210 -0
package/scripts/run-baseline-comparison.ts +116 -0
package/scripts/run-full-pipeline.ts +272 -0
package/scripts/run_rlaif_loop.ts +78 -0
package/scripts/run_task_benchmark.ts +247 -0
package/scripts/runpod_setup.sh +137 -0
package/scripts/runpod_validate.sh +147 -0
package/scripts/test-model-in-game.ts +955 -0
package/scripts/test-scoring.ts +73 -0
package/scripts/test-trained-model.ts +209 -0
package/scripts/train-and-test.ts +824 -0
package/scripts/verify-final.ts +118 -0
package/src/adapter.ts +516 -0
package/src/archetypes/ArchetypeConfigService.ts +626 -0
package/src/archetypes/derive-archetype.ts +249 -0
package/src/archetypes/index.ts +22 -0
package/src/benchmark/ArchetypeMatchupBenchmark.ts +825 -0
package/src/benchmark/BenchmarkChartGenerator.ts +748 -0
package/src/benchmark/BenchmarkDataGenerator.ts +1288 -0
package/src/benchmark/BenchmarkDataViewer.ts +324 -0
package/src/benchmark/BenchmarkHistoryService.ts +221 -0
package/src/benchmark/BenchmarkRunner.ts +685 -0
package/src/benchmark/BenchmarkValidator.ts +204 -0
package/src/benchmark/FastEvalRunner.ts +225 -0
package/src/benchmark/MetricsValidator.ts +165 -0
package/src/benchmark/MetricsVisualizer.ts +909 -0
package/src/benchmark/ModelBenchmarkService.ts +611 -0
package/src/benchmark/ModelRegistry.ts +158 -0
package/src/benchmark/RulerBenchmarkIntegration.ts +235 -0
package/src/benchmark/SimulationA2AInterface.ts +1169 -0
package/src/benchmark/SimulationEngine.ts +832 -0
package/src/benchmark/TaskRunner.ts +94 -0
package/src/benchmark/__tests__/BenchmarkRunner.test.ts +534 -0
package/src/benchmark/__tests__/HeadToHead.test.ts +126 -0
package/src/benchmark/index.ts +91 -0
package/src/benchmark/parseSimulationMetrics.ts +124 -0
package/src/benchmark/simulation-types.ts +78 -0
package/src/dependencies.ts +475 -0
package/src/generation/TrajectoryGenerator.ts +387 -0
package/src/generation/index.ts +12 -0
package/src/huggingface/HuggingFaceDatasetUploader.ts +636 -0
package/src/huggingface/HuggingFaceIntegrationService.ts +426 -0
package/src/huggingface/HuggingFaceModelUploader.ts +532 -0
package/src/huggingface/index.ts +27 -0
package/src/huggingface/shared/HuggingFaceUploadUtil.ts +206 -0
package/src/index.ts +102 -0
package/src/init-training.ts +53 -0
package/src/metrics/TrajectoryMetricsExtractor.ts +653 -0
package/src/metrics/__tests__/TrajectoryMetricsExtractor.test.ts +759 -0
package/src/metrics/index.ts +8 -0
package/src/metrics/types.ts +200 -0
package/src/rubrics/__tests__/index.test.ts +184 -0
package/src/rubrics/ass-kisser.ts +85 -0
package/src/rubrics/degen.ts +80 -0
package/src/rubrics/goody-twoshoes.ts +84 -0
package/src/rubrics/index.ts +236 -0
package/src/rubrics/information-trader.ts +84 -0
package/src/rubrics/infosec.ts +101 -0
package/src/rubrics/liar.ts +104 -0
package/src/rubrics/perps-trader.ts +87 -0
package/src/rubrics/researcher.ts +81 -0
package/src/rubrics/scammer.ts +82 -0
package/src/rubrics/social-butterfly.ts +73 -0
package/src/rubrics/super-predictor.ts +97 -0
package/src/rubrics/trader.ts +67 -0
package/src/scoring/ArchetypeScoringService.ts +486 -0
package/src/scoring/JudgePromptBuilder.ts +556 -0
package/src/scoring/LLMJudgeCache.ts +401 -0
package/src/scoring/index.ts +9 -0
package/src/training/AutomationPipeline.ts +916 -0
package/src/training/BenchmarkService.ts +518 -0
package/src/training/ConfigValidator.ts +220 -0
package/src/training/MarketOutcomesTracker.ts +187 -0
package/src/training/ModelDeployer.ts +186 -0
package/src/training/ModelFetcher.ts +76 -0
package/src/training/ModelSelectionService.ts +341 -0
package/src/training/ModelUsageVerifier.ts +160 -0
package/src/training/MultiModelOrchestrator.ts +580 -0
package/src/training/RLModelConfig.ts +407 -0
package/src/training/RewardBackpropagationService.ts +149 -0
package/src/training/RulerScoringService.ts +666 -0
package/src/training/TrainingMonitor.ts +166 -0
package/src/training/TrajectoryRecorder.ts +399 -0
package/src/training/__tests__/TrajectoryRecorder.test.ts +472 -0
package/src/training/index.ts +100 -0
package/src/training/logRLConfig.ts +34 -0
package/src/training/pipeline.ts +129 -0
package/src/training/storage/ModelStorageService.ts +279 -0
package/src/training/storage/TrainingDataArchiver.ts +197 -0
package/src/training/storage/index.ts +17 -0
package/src/training/types.ts +207 -0
package/src/training/window-utils.ts +138 -0
package/src/utils/index.ts +101 -0
package/src/utils/logger.ts +59 -0
package/src/utils/snowflake.ts +17 -0
package/src/utils/synthetic-detector.ts +111 -0
package/tsconfig.json +20 -0

package/python/scripts/run_training.py ADDED Viewed

@@ -0,0 +1,914 @@
+#!/usr/bin/env python3
+"""
+ElizaOS RL Training - Full Pipeline Runner
+This script orchestrates the complete RLAIF training pipeline:
+1. Validates environment and prerequisites
+2. Starts background services (Atropos API, vLLM)
+3. Starts the RLAIF environment
+4. Runs the GRPO trainer with optional W&B logging
+Usage:
+    # Use a GPU profile (recommended - auto-configures for your hardware)
+    python scripts/run_training.py --profile 12gb --steps 100
+    python scripts/run_training.py --profile 24gb --steps 100
+    # List available profiles
+    python scripts/run_training.py --list-profiles
+    # Manual configuration (override profile or use without profile)
+    python scripts/run_training.py --model Qwen/Qwen2.5-0.5B-Instruct --vllm-gpu-memory 0.25 --steps 100
+    # Resume from checkpoint
+    python scripts/run_training.py --profile 12gb --resume ./trained_models/step_50
+    # Disable W&B
+    python scripts/run_training.py --profile 12gb --steps 100 --no-wandb
+GPU Profiles (config/profiles/*.json):
+    12gb - RTX 3060/4070 (0.5B model, 25% vLLM memory)
+    16gb - RTX 4080/A4000 (1.5B model, 35% vLLM memory)
+    24gb - RTX 4090/A5000 (3B model, 40% vLLM memory)
+    48gb - A40/A6000 (7B model, 45% vLLM memory)
+Or run components separately:
+    Terminal 1: run-api
+    Terminal 2: python -m src.training.rlaif_env serve --slurm false
+    Terminal 3: python -m src.training.atropos_trainer --steps 100
+"""
+import argparse
+import json
+import logging
+import os
+import signal
+import subprocess
+import sys
+import time
+from pathlib import Path
+from typing import Optional
+# Add src to path
+sys.path.insert(0, str(Path(__file__).parent.parent))
+from dotenv import load_dotenv
+# Load environment
+load_dotenv()
+logging.basicConfig(
+    level=logging.INFO,
+    format='%(asctime)s [%(levelname)s] %(name)s: %(message)s'
+)
+logger = logging.getLogger(__name__)
+# Profile directory
+PROFILES_DIR = Path(__file__).parent.parent / "config" / "profiles"
+def get_available_profiles() -> list[str]:
+    """Get list of available GPU profiles."""
+    if not PROFILES_DIR.exists():
+        return []
+    return [p.stem for p in PROFILES_DIR.glob("*.json")]
+def load_profile(profile_name: str) -> dict:
+    """Load a GPU profile by name."""
+    profile_path = PROFILES_DIR / f"{profile_name}.json"
+    if not profile_path.exists():
+        available = get_available_profiles()
+        raise ValueError(
+            f"Profile '{profile_name}' not found. "
+            f"Available: {', '.join(available) or 'none'}"
+        )
+    with open(profile_path) as f:
+        profile = json.load(f)
+    logger.info(f"Loaded profile: {profile.get('name', profile_name)}")
+    if profile.get('notes'):
+        logger.info(f"  Note: {profile['notes']}")
+    return profile
+def list_profiles() -> None:
+    """Print available profiles and exit."""
+    print("\nAvailable GPU Profiles:")
+    print("=" * 60)
+    for profile_name in sorted(get_available_profiles()):
+        try:
+            profile = load_profile(profile_name)
+            print(f"\n  --profile {profile_name}")
+            print(f"    {profile.get('name', 'Unnamed')}")
+            print(f"    Model: {profile.get('model', 'default')}")
+            print(f"    vLLM Memory: {profile.get('vllm_gpu_memory', 0.45) * 100:.0f}%")
+            if profile.get('notes'):
+                print(f"    Note: {profile['notes']}")
+        except Exception as e:
+            print(f"\n  --profile {profile_name}")
+            print(f"    Error loading: {e}")
+    print()
+def validate_environment() -> list[str]:
+    """
+    Validate that all required environment variables and dependencies are present.
+    Returns a list of error messages for missing requirements.
+    """
+    errors = []
+    # Check DATABASE_URL
+    if not os.getenv("DATABASE_URL"):
+        errors.append(
+            "DATABASE_URL not set. Required for loading training trajectories.\n"
+            "  Set in .env or export DATABASE_URL=postgresql://..."
+        )
+    # Check OPENAI_API_KEY (for RLAIF judge)
+    if not os.getenv("OPENAI_API_KEY"):
+        errors.append(
+            "OPENAI_API_KEY not set. Required for RLAIF judge scoring.\n"
+            "  Set in .env or export OPENAI_API_KEY=sk-..."
+        )
+    # Check for run-api command (Atropos)
+    import shutil
+    if not shutil.which("run-api"):
+        errors.append(
+            "Atropos API not found. Install with: pip install atroposlib"
+        )
+    # Check for PyTorch and CUDA
+    try:
+        import torch
+        if not torch.cuda.is_available():
+            errors.append(
+                "CUDA not available. GPU is recommended for training.\n"
+                "  For CPU-only (slow), use --skip-vllm and provide external inference."
+            )
+        else:
+            gpu_name = torch.cuda.get_device_name(0)
+            gpu_mem = torch.cuda.get_device_properties(0).total_memory / 1e9
+            logger.info(f"GPU: {gpu_name} ({gpu_mem:.1f} GB)")
+    except ImportError:
+        errors.append("PyTorch not installed. Install with: pip install torch")
+    return errors
+class TrainingOrchestrator:
+    """
+    Orchestrates the complete training pipeline.
+    Manages:
+    - Service lifecycle (Atropos API, vLLM)
+    - Environment server
+    - GRPO trainer
+    """
+    def __init__(
+        self,
+        model_name: str = "Qwen/Qwen2.5-3B-Instruct",
+        base_model: Optional[str] = None,
+        dataset_input: Optional[str] = None,
+        scoring_mode: str = "deterministic",
+        training_steps: int = 100,
+        batch_size: int = 4,
+        learning_rate: float = 1e-5,
+        min_learning_rate: float = 1e-7,
+        lr_scheduler: str = "cosine",
+        warmup_steps: int = 10,
+        api_port: int = 8000,
+        vllm_host: str = "127.0.0.1",
+        vllm_port: int = 9001,
+        vllm_gpu_memory: float = 0.45,
+        save_path: str = "./trained_models",
+        save_every: int = 5,
+        keep_checkpoints: int = 3,
+        resume_from: Optional[str] = None,
+        use_wandb: bool = True,
+        wandb_project: str = "eliza-training",
+        wandb_entity: Optional[str] = None,
+        wandb_run_name: Optional[str] = None,
+        skip_services: bool = False,
+        log_dir: str = "./logs",
+        # Phase 3: Online training parameters
+        mode: str = "offline",
+        bridge_url: str = "http://localhost:3001",
+        hybrid_online_ratio: float = 0.2,
+        # Phase 4: Cloud/Multi-GPU parameters
+        tensor_parallel_size: int = 1,
+        use_flash_attention: bool = False,
+        vllm_gpu: Optional[str] = None,  # Explicit GPU assignment for vLLM
+        training_gpu: Optional[str] = None,  # Explicit GPU assignment for training
+    ):
+        self.model_name = model_name
+        self.base_model = base_model
+        self.dataset_input = dataset_input
+        self.scoring_mode = scoring_mode
+        self.training_steps = training_steps
+        self.batch_size = batch_size
+        self.learning_rate = learning_rate
+        self.min_learning_rate = min_learning_rate
+        self.lr_scheduler = lr_scheduler
+        self.warmup_steps = warmup_steps
+        self.api_port = api_port
+        self.vllm_host = vllm_host
+        self.vllm_port = vllm_port
+        self.vllm_gpu_memory = vllm_gpu_memory
+        self.save_path = save_path
+        self.save_every = save_every
+        self.keep_checkpoints = keep_checkpoints
+        self.resume_from = resume_from
+        self.use_wandb = use_wandb
+        self.wandb_project = wandb_project
+        self.wandb_entity = wandb_entity
+        self.wandb_run_name = wandb_run_name
+        self.skip_services = skip_services
+        self.log_dir = Path(log_dir)
+        # Phase 3: Online training
+        self.mode = mode
+        self.bridge_url = bridge_url
+        self.hybrid_online_ratio = hybrid_online_ratio
+        # Phase 4: Cloud/Multi-GPU
+        self.tensor_parallel_size = tensor_parallel_size
+        self.use_flash_attention = use_flash_attention
+        self.vllm_gpu = vllm_gpu
+        self.training_gpu = training_gpu
+        self.env_process: Optional[subprocess.Popen] = None
+        self.trainer_process: Optional[subprocess.Popen] = None
+        self._service_manager = None
+        self._shutdown_requested = False
+        self._log_handles: list = []  # Track open file handles
+        self.log_dir.mkdir(parents=True, exist_ok=True)
+        signal.signal(signal.SIGINT, self._signal_handler)
+        signal.signal(signal.SIGTERM, self._signal_handler)
+    def _signal_handler(self, signum, frame):
+        """Handle shutdown signals"""
+        if self._shutdown_requested:
+            logger.warning("Forced shutdown, exiting immediately")
+            sys.exit(1)
+        logger.info("Received shutdown signal, cleaning up...")
+        self._shutdown_requested = True
+        self.cleanup()
+        sys.exit(0)
+    def cleanup(self):
+        """Clean up all subprocesses and services"""
+        self._stop_process(self.trainer_process, "trainer")
+        self._stop_process(self.env_process, "environment")
+        if self._service_manager:
+            self._service_manager.stop_all()
+        for handle in self._log_handles:
+            handle.close()
+        self._log_handles.clear()
+    def _stop_process(self, proc: Optional[subprocess.Popen], name: str, timeout: int = 10) -> None:
+        """Stop a subprocess gracefully"""
+        if not proc:
+            return
+        logger.info(f"Stopping {name}...")
+        proc.terminate()
+        deadline = time.time() + timeout
+        while proc.poll() is None and time.time() < deadline:
+            time.sleep(0.5)
+        if proc.poll() is None:
+            proc.kill()
+            proc.wait()
+    def start_services(self) -> bool:
+        """Start background services using ServiceManager"""
+        if self.skip_services:
+            logger.info("Skipping service startup (--skip-services)")
+            return True
+        from src.training.service_manager import ServiceManager, ServiceConfig
+        config = ServiceConfig(
+            atropos_port=self.api_port,
+            vllm_port=self.vllm_port,
+            model_name=self.model_name,
+            vllm_gpu_memory_utilization=self.vllm_gpu_memory,
+            log_dir=str(self.log_dir / "services"),
+            # Phase 4: Multi-GPU support
+            tensor_parallel_size=self.tensor_parallel_size,
+            use_flash_attention=self.use_flash_attention,
+            vllm_gpu=self.vllm_gpu,
+            training_gpu=self.training_gpu,
+        )
+        self._service_manager = ServiceManager(config)
+        if not self._service_manager.start_all():
+            return False
+        if not self._service_manager.wait_for_ready():
+            logger.error("Services failed to become ready")
+            return False
+        return True
+    def check_bridge_health(self) -> bool:
+        """Check if simulation bridge is running and healthy"""
+        import urllib.request
+        import urllib.error
+        logger.info(f"Checking simulation bridge at {self.bridge_url}...")
+        health_url = f"{self.bridge_url}/health"
+        for attempt in range(3):
+            try:
+                req = urllib.request.Request(health_url, method='GET')
+                with urllib.request.urlopen(req, timeout=5) as resp:
+                    if resp.status == 200:
+                        logger.info("Simulation bridge is healthy ✓")
+                        return True
+            except urllib.error.URLError as e:
+                if attempt < 2:
+                    logger.warning(f"Bridge not ready (attempt {attempt + 1}/3): {e}")
+                    time.sleep(2)
+                else:
+                    logger.error(f"Simulation bridge not available at {self.bridge_url}")
+                    logger.error("Start it with: make bridge-server")
+                    return False
+            except Exception as e:
+                logger.error(f"Bridge health check failed: {e}")
+                return False
+        return False
+    def start_environment(self) -> bool:
+        """Start RLAIF environment (offline mode)"""
+        logger.info("Starting RLAIF environment (offline mode)...")
+        env_cmd = [
+            sys.executable, "-m", "src.training.rlaif_env", "serve",
+            "--slurm", "false",
+            "--env.tokenizer_name", self.model_name,
+            "--env.scoring_mode", self.scoring_mode,
+            "--env.rollout_server_url", f"http://localhost:{self.api_port}",
+            "--openai.model_name", self.model_name,
+            "--openai.base_url", f"http://{self.vllm_host}:{self.vllm_port}/v1",
+        ]
+        if not self.use_wandb:
+            env_cmd.extend(["--env.use_wandb", "false"])
+        log_file = self.log_dir / "environment.log"
+        log_handle = open(log_file, "w")
+        self._log_handles.append(log_handle)
+        self.env_process = subprocess.Popen(
+            env_cmd,
+            cwd=str(Path(__file__).parent.parent),
+            stdout=log_handle,
+            stderr=subprocess.STDOUT,
+            env=os.environ.copy(),  # Pass environment variables including DATABASE_URL
+        )
+        time.sleep(5)  # Wait for environment to initialize
+        if self.env_process.poll() is not None:
+            logger.error(f"Environment failed to start (exit code: {self.env_process.returncode})")
+            logger.error(f"Check logs at: {log_file}")
+            return False
+        logger.info(f"Environment started (PID: {self.env_process.pid}), logs: {log_file}")
+        return True
+    def start_online_environment(self) -> bool:
+        """Start online environment (online mode with simulation bridge)"""
+        logger.info("Starting online environment (online mode)...")
+        env_cmd = [
+            sys.executable, "-m", "src.training.online_env", "serve",
+            "--slurm", "false",
+            "--env.tokenizer_name", self.model_name,
+            "--env.rollout_server_url", f"http://localhost:{self.api_port}",
+            "--openai.model_name", self.model_name,
+            "--openai.base_url", f"http://{self.vllm_host}:{self.vllm_port}/v1",
+            # Online-specific settings
+            "--env.use_simulation_bridge", "true",
+            "--env.simulation_bridge_url", self.bridge_url,
+        ]
+        if not self.use_wandb:
+            env_cmd.extend(["--env.use_wandb", "false"])
+        log_file = self.log_dir / "online_environment.log"
+        log_handle = open(log_file, "w")
+        self._log_handles.append(log_handle)
+        # Set environment variables for bridge
+        env_vars = os.environ.copy()
+        env_vars["USE_SIMULATION_BRIDGE"] = "1"
+        env_vars["SIMULATION_BRIDGE_URL"] = self.bridge_url
+        self.env_process = subprocess.Popen(
+            env_cmd,
+            cwd=str(Path(__file__).parent.parent),
+            stdout=log_handle,
+            stderr=subprocess.STDOUT,
+            env=env_vars,
+        )
+        time.sleep(5)  # Wait for environment to initialize
+        if self.env_process.poll() is not None:
+            logger.error(f"Online environment failed to start (exit code: {self.env_process.returncode})")
+            logger.error(f"Check logs at: {log_file}")
+            return False
+        logger.info(f"Online environment started (PID: {self.env_process.pid}), logs: {log_file}")
+        return True
+    def start_hybrid_environment(self) -> bool:
+        """Start hybrid environment (mix of offline and online)"""
+        logger.info(f"Starting hybrid environment (online ratio: {self.hybrid_online_ratio:.0%})...")
+        env_cmd = [
+            sys.executable, "-m", "src.training.hybrid_env", "serve",
+            "--slurm", "false",
+            "--env.tokenizer_name", self.model_name,
+            "--env.rollout_server_url", f"http://localhost:{self.api_port}",
+            "--openai.model_name", self.model_name,
+            "--openai.base_url", f"http://{self.vllm_host}:{self.vllm_port}/v1",
+            # Hybrid-specific settings
+            "--env.use_simulation_bridge", "true",
+            "--env.simulation_bridge_url", self.bridge_url,
+            "--env.online_ratio", str(self.hybrid_online_ratio),
+        ]
+        if not self.use_wandb:
+            env_cmd.extend(["--env.use_wandb", "false"])
+        log_file = self.log_dir / "hybrid_environment.log"
+        log_handle = open(log_file, "w")
+        self._log_handles.append(log_handle)
+        # Set environment variables
+        env_vars = os.environ.copy()
+        env_vars["USE_SIMULATION_BRIDGE"] = "1"
+        env_vars["SIMULATION_BRIDGE_URL"] = self.bridge_url
+        env_vars["HYBRID_ONLINE_RATIO"] = str(self.hybrid_online_ratio)
+        self.env_process = subprocess.Popen(
+            env_cmd,
+            cwd=str(Path(__file__).parent.parent),
+            stdout=log_handle,
+            stderr=subprocess.STDOUT,
+            env=env_vars,
+        )
+        time.sleep(5)  # Wait for environment to initialize
+        if self.env_process.poll() is not None:
+            logger.error(f"Hybrid environment failed to start (exit code: {self.env_process.returncode})")
+            logger.error(f"Check logs at: {log_file}")
+            return False
+        logger.info(f"Hybrid environment started (PID: {self.env_process.pid}), logs: {log_file}")
+        return True
+    def start_trainer(self) -> bool:
+        """Start GRPO trainer"""
+        logger.info("Starting GRPO trainer...")
+        trainer_cmd = [
+            sys.executable, "-m", "src.training.atropos_trainer",
+            "--model", self.model_name,
+            "--scoring-mode", self.scoring_mode,
+            "--steps", str(self.training_steps),
+            "--batch-size", str(self.batch_size),
+            "--lr", str(self.learning_rate),
+            "--min-lr", str(self.min_learning_rate),
+            "--lr-scheduler", self.lr_scheduler,
+            "--warmup-steps", str(self.warmup_steps),
+            "--api-url", f"http://localhost:{self.api_port}",
+            "--vllm-host", self.vllm_host,
+            "--vllm-port", str(self.vllm_port),
+            "--vllm-gpu-utilization", str(self.vllm_gpu_memory),
+            "--save-path", self.save_path,
+            "--save-every", str(self.save_every),
+            "--keep-checkpoints", str(self.keep_checkpoints),
+            "--log-file", str(self.log_dir / "training_metrics.jsonl"),
+            "--wandb-project", self.wandb_project,
+            "--skip-vllm",  # vLLM already started by ServiceManager
+        ]
+        if self.base_model:
+            trainer_cmd.extend(["--base-model", self.base_model])
+        if self.dataset_input:
+            trainer_cmd.extend(["--dataset-input", self.dataset_input])
+        if self.resume_from:
+            trainer_cmd.extend(["--resume", self.resume_from])
+        if not self.use_wandb:
+            trainer_cmd.append("--no-wandb")
+        if self.wandb_entity:
+            trainer_cmd.extend(["--wandb-entity", self.wandb_entity])
+        if self.wandb_run_name:
+            trainer_cmd.extend(["--wandb-run-name", self.wandb_run_name])
+        # Set up environment with GPU assignment for training
+        env = os.environ.copy()
+        if self.training_gpu:
+            env["CUDA_VISIBLE_DEVICES"] = self.training_gpu
+            logger.info(f"Training GPU (explicit): {self.training_gpu}")
+        # Pipe stdout for streaming to console
+        self.trainer_process = subprocess.Popen(
+            trainer_cmd,
+            cwd=str(Path(__file__).parent.parent),
+            stdout=subprocess.PIPE,
+            stderr=subprocess.STDOUT,
+            env=env,
+        )
+        logger.info(f"Trainer started (PID: {self.trainer_process.pid})")
+        return True
+    def run(self) -> int:
+        """Run the complete training pipeline"""
+        self._log_config()
+        start_time = time.time()
+        try:
+            # Step 1: Start services
+            if not self.start_services():
+                logger.error("Failed to start services")
+                return 1
+            # Step 2: For online/hybrid modes, check bridge health
+            if self.mode in ("online", "hybrid"):
+                if not self.check_bridge_health():
+                    logger.error("Simulation bridge not available")
+                    logger.error("Start it with: make bridge-server")
+                    return 1
+            # Step 3: Start appropriate environment based on mode
+            env_starter = {
+                "offline": self.start_environment,
+                "online": self.start_online_environment,
+                "hybrid": self.start_hybrid_environment,
+            }.get(self.mode, self.start_environment)
+            if not env_starter():
+                logger.error(f"Failed to start {self.mode} environment")
+                return 1
+            # Step 4: Start trainer
+            if not self.start_trainer():
+                logger.error("Failed to start trainer")
+                return 1
+            return_code = self._stream_trainer_output()
+            elapsed = time.time() - start_time
+            if return_code == 0:
+                logger.info("\n" + "=" * 70)
+                logger.info("TRAINING COMPLETED SUCCESSFULLY")
+                logger.info(f"Mode: {self.mode.upper()}")
+                logger.info(f"Total time: {elapsed:.1f}s ({elapsed/60:.1f} minutes)")
+                logger.info(f"Model saved to: {self.save_path}")
+                logger.info("=" * 70)
+            else:
+                logger.error(f"Training failed with return code: {return_code}")
+                logger.error(f"Check logs at: {self.log_dir}")
+            return return_code
+        finally:
+            self.cleanup()
+    def _log_config(self):
+        """Log training configuration"""
+        logger.info("=" * 70)
+        logger.info("ELIZAOS RL TRAINING PIPELINE")
+        logger.info("=" * 70)
+        logger.info(f"Mode: {self.mode.upper()}")
+        if self.mode in ("online", "hybrid"):
+            logger.info(f"Bridge URL: {self.bridge_url}")
+            if self.mode == "hybrid":
+                logger.info(f"Online ratio: {self.hybrid_online_ratio:.0%}")
+        logger.info(f"Model: {self.model_name}")
+        logger.info(f"Steps: {self.training_steps}")
+        logger.info(f"Batch size: {self.batch_size}")
+        logger.info(f"Learning rate: {self.learning_rate} (scheduler: {self.lr_scheduler})")
+        logger.info(f"Save path: {self.save_path}")
+        logger.info(f"W&B: {'enabled' if self.use_wandb else 'disabled'}")
+        if self.resume_from:
+            logger.info(f"Resuming from: {self.resume_from}")
+        logger.info("=" * 70)
+    def _stream_trainer_output(self) -> int:
+        """Stream trainer output to console and log file"""
+        logger.info("\n" + "-" * 70)
+        logger.info("TRAINING IN PROGRESS")
+        logger.info("-" * 70 + "\n")
+        log_file = self.log_dir / "trainer.log"
+        assert self.trainer_process is not None
+        assert self.trainer_process.stdout is not None
+        with open(log_file, "w") as log_handle:
+            for line in iter(self.trainer_process.stdout.readline, b''):
+                decoded = line.decode('utf-8', errors='replace')
+                print(decoded, end='')
+                log_handle.write(decoded)
+                log_handle.flush()
+        return self.trainer_process.wait()
+def main():
+    parser = argparse.ArgumentParser(
+        description="ElizaOS RL Training Pipeline",
+        formatter_class=argparse.ArgumentDefaultsHelpFormatter,
+    )
+    # Profile settings (applied first, can be overridden by explicit args)
+    parser.add_argument(
+        "--profile",
+        choices=get_available_profiles() or None,
+        help="GPU profile to use (e.g., 12gb, 24gb). See --list-profiles"
+    )
+    parser.add_argument(
+        "--list-profiles",
+        action="store_true",
+        help="List available GPU profiles and exit"
+    )
+    # Model settings
+    parser.add_argument(
+        "--model",
+        default=None,  # Will use profile default or fallback
+        help="Model to train (default: from profile or Qwen2.5-3B-Instruct)"
+    )
+    parser.add_argument(
+        "--base-model",
+        default=None,
+        help="Optional base model alias passed to trainer"
+    )
+    parser.add_argument(
+        "--dataset-input",
+        default=None,
+        help="Optional dataset input path passed to trainer"
+    )
+    parser.add_argument(
+        "--scoring-mode",
+        choices=["deterministic", "llm_judge"],
+        default="deterministic",
+        help="Scoring mode used by environment/trainer pipeline"
+    )
+    parser.add_argument(
+        "--steps",
+        type=int,
+        default=100,
+        help="Number of training steps"
+    )
+    parser.add_argument(
+        "--batch-size",
+        type=int,
+        default=4,
+        help="Batch size"
+    )
+    # Learning rate settings
+    parser.add_argument(
+        "--lr",
+        type=float,
+        default=1e-5,
+        help="Initial learning rate"
+    )
+    parser.add_argument(
+        "--min-lr",
+        type=float,
+        default=1e-7,
+        help="Minimum learning rate"
+    )
+    parser.add_argument(
+        "--lr-scheduler",
+        choices=["constant", "linear", "cosine"],
+        default="cosine",
+        help="Learning rate scheduler"
+    )
+    parser.add_argument(
+        "--warmup-steps",
+        type=int,
+        default=10,
+        help="LR warmup steps"
+    )
+    # Service settings
+    parser.add_argument(
+        "--api-port",
+        type=int,
+        default=8000,
+        help="Atropos API server port"
+    )
+    parser.add_argument(
+        "--vllm-port",
+        type=int,
+        default=9001,
+        help="vLLM inference server port"
+    )
+    parser.add_argument(
+        "--vllm-host",
+        default="127.0.0.1",
+        help="vLLM inference host"
+    )
+    parser.add_argument(
+        "--vllm-gpu-memory",
+        type=float,
+        default=0.45,
+        help="GPU memory fraction for vLLM"
+    )
+    parser.add_argument(
+        "--skip-services",
+        action="store_true",
+        help="Skip starting services (assume already running)"
+    )
+    # Checkpoint settings
+    parser.add_argument(
+        "--save-path",
+        default="./trained_models",
+        help="Directory to save checkpoints"
+    )
+    parser.add_argument(
+        "--save-every",
+        type=int,
+        default=5,
+        help="Save checkpoint every N steps"
+    )
+    parser.add_argument(
+        "--keep-checkpoints",
+        type=int,
+        default=3,
+        help="Number of checkpoints to keep"
+    )
+    parser.add_argument(
+        "--resume",
+        help="Resume from checkpoint path"
+    )
+    # W&B settings
+    parser.add_argument(
+        "--wandb-project",
+        default="eliza-training",
+        help="W&B project name"
+    )
+    parser.add_argument(
+        "--wandb-entity",
+        help="W&B entity/team"
+    )
+    parser.add_argument(
+        "--wandb-run-name",
+        help="W&B run name"
+    )
+    parser.add_argument(
+        "--no-wandb",
+        action="store_true",
+        help="Disable W&B logging"
+    )
+    # Logging
+    parser.add_argument(
+        "--log-dir",
+        default="./logs",
+        help="Directory for log files"
+    )
+    # Validation
+    parser.add_argument(
+        "--skip-validation",
+        action="store_true",
+        help="Skip environment validation"
+    )
+    # Training Mode (Phase 3)
+    parser.add_argument(
+        "--mode",
+        choices=["offline", "online", "hybrid"],
+        default="offline",
+        help="Training mode: offline (DB trajectories), online (simulation bridge), hybrid (mix)"
+    )
+    parser.add_argument(
+        "--bridge-url",
+        default="http://localhost:3001",
+        help="Simulation bridge URL (for online/hybrid modes)"
+    )
+    parser.add_argument(
+        "--hybrid-online-ratio",
+        type=float,
+        default=0.2,
+        help="Ratio of online rollouts in hybrid mode (0.0-1.0)"
+    )
+    parser.add_argument(
+        "--online",
+        action="store_true",
+        help="Shorthand for --mode online"
+    )
+    args = parser.parse_args()
+    # Handle --online shorthand
+    if args.online:
+        args.mode = "online"
+    # Handle --list-profiles
+    if args.list_profiles:
+        list_profiles()
+        sys.exit(0)
+    # Apply profile defaults (can be overridden by explicit args)
+    profile = {}
+    if args.profile:
+        profile = load_profile(args.profile)
+    # Apply profile values as defaults for unset args
+    if args.model is None:
+        args.model = profile.get("model", "Qwen/Qwen2.5-3B-Instruct")
+    if args.batch_size == 4 and "batch_size" in profile:  # 4 is the argparse default
+        args.batch_size = profile["batch_size"]
+    if args.vllm_gpu_memory == 0.45 and "vllm_gpu_memory" in profile:  # 0.45 is the default
+        args.vllm_gpu_memory = profile["vllm_gpu_memory"]
+    # Phase 4: Read multi-GPU settings from profile
+    args.tensor_parallel_size = profile.get("tensor_parallel_size", 1)
+    args.use_flash_attention = profile.get("use_flash_attention", False)
+    args.vllm_gpu = profile.get("vllm_gpu")  # Explicit GPU assignment for vLLM
+    args.training_gpu = profile.get("training_gpu")  # Explicit GPU assignment for training
+    # Log effective settings
+    if args.profile:
+        tp_info = f", tp={args.tensor_parallel_size}" if args.tensor_parallel_size > 1 else ""
+        logger.info(f"Using profile '{args.profile}': model={args.model}, "
+                    f"vllm_mem={args.vllm_gpu_memory:.0%}, batch={args.batch_size}{tp_info}")
+    # Validate environment
+    if not args.skip_validation:
+        errors = validate_environment()
+        if errors:
+            logger.error("Environment validation failed:")
+            for error in errors:
+                logger.error(f"  • {error}")
+            logger.error("\nFix the above issues or use --skip-validation to bypass.")
+            sys.exit(1)
+    orchestrator = TrainingOrchestrator(
+        model_name=args.model,
+        base_model=args.base_model,
+        dataset_input=args.dataset_input,
+        scoring_mode=args.scoring_mode,
+        training_steps=args.steps,
+        batch_size=args.batch_size,
+        learning_rate=args.lr,
+        min_learning_rate=args.min_lr,
+        lr_scheduler=args.lr_scheduler,
+        warmup_steps=args.warmup_steps,
+        api_port=args.api_port,
+        vllm_host=args.vllm_host,
+        vllm_port=args.vllm_port,
+        vllm_gpu_memory=args.vllm_gpu_memory,
+        save_path=args.save_path,
+        save_every=args.save_every,
+        keep_checkpoints=args.keep_checkpoints,
+        resume_from=args.resume,
+        use_wandb=not args.no_wandb,
+        wandb_project=args.wandb_project,
+        wandb_entity=args.wandb_entity,
+        wandb_run_name=args.wandb_run_name,
+        skip_services=args.skip_services,
+        log_dir=args.log_dir,
+        # Phase 3: Online training
+        mode=args.mode,
+        bridge_url=args.bridge_url,
+        hybrid_online_ratio=args.hybrid_online_ratio,
+        # Phase 4: Cloud/Multi-GPU
+        tensor_parallel_size=args.tensor_parallel_size,
+        use_flash_attention=args.use_flash_attention,
+        vllm_gpu=args.vllm_gpu,
+        training_gpu=args.training_gpu,
+    )
+    sys.exit(orchestrator.run())
+if __name__ == "__main__":
+    main()