npm - @elizaos/training - Versions diffs - 2.0.0-alpha.10 - Mend

@elizaos/training 2.0.0-alpha.10

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (224) hide show

package/Dockerfile +75 -0
package/LICENSE +21 -0
package/Makefile +374 -0
package/README.md +346 -0
package/config/rubrics.json +137 -0
package/docker-compose.test.yml +57 -0
package/package.json +57 -0
package/python/config/babylon_atropos.yaml +90 -0
package/python/config/profiles/12gb.json +11 -0
package/python/config/profiles/16gb.json +10 -0
package/python/config/profiles/24gb.json +10 -0
package/python/config/profiles/48gb.json +10 -0
package/python/config/profiles/cpu.json +11 -0
package/python/config/profiles/l40-2gpu-safe.json +20 -0
package/python/config/profiles/l40-2gpu.json +22 -0
package/python/config/profiles/l40-4gpu.json +21 -0
package/python/config/profiles/l40.json +17 -0
package/python/config/tinker_training.yaml +143 -0
package/python/curriculum_state.json +165 -0
package/python/env.template +86 -0
package/python/env.training.template +46 -0
package/python/pyproject.toml +41 -0
package/python/requirements-ci.txt +31 -0
package/python/requirements.txt +87 -0
package/python/scripts/__init__.py +4 -0
package/python/scripts/benchmark_should_respond.py +190 -0
package/python/scripts/debug_inference.py +62 -0
package/python/scripts/import_json_trajectories.py +412 -0
package/python/scripts/local-finetune/README.md +63 -0
package/python/scripts/local-finetune/ingest_and_score.py +139 -0
package/python/scripts/local-finetune/merge_model.py +32 -0
package/python/scripts/local-finetune/test_adapter.py +91 -0
package/python/scripts/local-finetune/train_from_csv.py +132 -0
package/python/scripts/merge_trajectories.py +318 -0
package/python/scripts/optimize_prompt_grpo.py +269 -0
package/python/scripts/run_ab_test.py +143 -0
package/python/scripts/run_full_pipeline.py +544 -0
package/python/scripts/run_tinker_training.py +192 -0
package/python/scripts/run_training.py +914 -0
package/python/scripts/test_generation.py +29 -0
package/python/scripts/test_judge.py +155 -0
package/python/scripts/test_pipeline.py +356 -0
package/python/scripts/test_trained_model.py +380 -0
package/python/scripts/train_grpo.py +360 -0
package/python/scripts/train_jsonl.py +223 -0
package/python/scripts/train_local.py +528 -0
package/python/setup.py +20 -0
package/python/src/__init__.py +190 -0
package/python/src/data_bridge/__init__.py +24 -0
package/python/src/data_bridge/converter.py +435 -0
package/python/src/data_bridge/reader.py +393 -0
package/python/src/models.py +283 -0
package/python/src/training/__init__.py +605 -0
package/python/src/training/ab_testing.py +404 -0
package/python/src/training/action_executor.py +621 -0
package/python/src/training/archetype_trainer.py +347 -0
package/python/src/training/atropos_trainer.py +980 -0
package/python/src/training/babylon_env.py +1254 -0
package/python/src/training/error_recovery.py +647 -0
package/python/src/training/evaluation.py +856 -0
package/python/src/training/fast_simulator.py +880 -0
package/python/src/training/format_validator.py +584 -0
package/python/src/training/hybrid_env.py +522 -0
package/python/src/training/kl_controller.py +628 -0
package/python/src/training/multi_prompt_dataset.py +883 -0
package/python/src/training/multi_turn.py +656 -0
package/python/src/training/online_env.py +1084 -0
package/python/src/training/quality_scorer.py +391 -0
package/python/src/training/quality_utils.py +633 -0
package/python/src/training/rewards.py +1344 -0
package/python/src/training/rlaif_env.py +17 -0
package/python/src/training/rollout_generator.py +502 -0
package/python/src/training/rubric_loader.py +198 -0
package/python/src/training/scenario_pool.py +1072 -0
package/python/src/training/schemas.py +481 -0
package/python/src/training/service_manager.py +552 -0
package/python/src/training/simulation_bridge.py +535 -0
package/python/src/training/tick_reward_attribution.py +399 -0
package/python/src/training/tinker_client.py +575 -0
package/python/src/training/tinker_trainer.py +646 -0
package/python/src/training/tokenization_utils.py +402 -0
package/python/tests/e2e/__init__.py +13 -0
package/python/tests/e2e/conftest.py +258 -0
package/python/tests/e2e/test_full_pipeline.py +643 -0
package/python/tests/e2e/test_online_training_e2e.py +365 -0
package/python/tests/integration/__init__.py +12 -0
package/python/tests/integration/conftest.py +383 -0
package/python/tests/integration/test_db_integration.py +649 -0
package/python/tests/integration/test_json_mode_integration.py +554 -0
package/python/tests/test_action_executor.py +594 -0
package/python/tests/test_archetype_scoring.py +1027 -0
package/python/tests/test_atropos_integration.py +360 -0
package/python/tests/test_evaluation.py +727 -0
package/python/tests/test_format_validator.py +486 -0
package/python/tests/test_kl_controller.py +432 -0
package/python/tests/test_lr_scheduler.py +579 -0
package/python/tests/test_multi_turn.py +590 -0
package/python/tests/test_online_env.py +519 -0
package/python/tests/test_quality_scorer.py +474 -0
package/python/tests/test_scenario_pool.py +735 -0
package/python/tests/test_service_manager.py +585 -0
package/python/tests/test_simulation_rollout.py +581 -0
package/python/tests/test_tokenization_utils.py +501 -0
package/python/tests/test_training_orchestrator.py +497 -0
package/python/tests/test_training_output_structure.py +661 -0
package/research-output/training-runs/training-run-1770772042899.json +26 -0
package/research-output/training-runs/training-run-1770930079670.json +32 -0
package/research-output/training-runs/training-run-1770930143700.json +44 -0
package/research-output/training-runs/training-run-1770930183638.json +38 -0
package/research-output/training-runs/training-run-1770930442049.json +38 -0
package/research-output/training-runs/training-run-1770930793243.json +38 -0
package/research-output/training-runs/training-run-1771276293257.json +38 -0
package/research-output/training-runs/training-run-1771276389280.json +38 -0
package/research-output/training-runs/training-run-1771276502776.json +38 -0
package/research-output/training-runs/training-run-1771277340748.json +38 -0
package/research-output/training-runs/training-run-1773013658993.json +38 -0
package/research-output/training-runs/training-run-1773013861014.json +38 -0
package/research-output/training-runs/training-run-1773014215983.json +38 -0
package/scripts/assess-training-data.ts +422 -0
package/scripts/e2e-training-test.ts +550 -0
package/scripts/export-rubrics.ts +64 -0
package/scripts/generate-research-report.ts +1523 -0
package/scripts/generate_dataset.sh +173 -0
package/scripts/generate_should_respond.ts +267 -0
package/scripts/generate_should_respond_dataset.ts +162 -0
package/scripts/json-mode-benchmark.ts +399 -0
package/scripts/rank_trajectories.ts +207 -0
package/scripts/real-archetype-benchmark.ts +210 -0
package/scripts/run-baseline-comparison.ts +116 -0
package/scripts/run-full-pipeline.ts +272 -0
package/scripts/run_rlaif_loop.ts +78 -0
package/scripts/run_task_benchmark.ts +247 -0
package/scripts/runpod_setup.sh +137 -0
package/scripts/runpod_validate.sh +147 -0
package/scripts/test-model-in-game.ts +955 -0
package/scripts/test-scoring.ts +73 -0
package/scripts/test-trained-model.ts +209 -0
package/scripts/train-and-test.ts +824 -0
package/scripts/verify-final.ts +118 -0
package/src/adapter.ts +516 -0
package/src/archetypes/ArchetypeConfigService.ts +626 -0
package/src/archetypes/derive-archetype.ts +249 -0
package/src/archetypes/index.ts +22 -0
package/src/benchmark/ArchetypeMatchupBenchmark.ts +825 -0
package/src/benchmark/BenchmarkChartGenerator.ts +748 -0
package/src/benchmark/BenchmarkDataGenerator.ts +1288 -0
package/src/benchmark/BenchmarkDataViewer.ts +324 -0
package/src/benchmark/BenchmarkHistoryService.ts +221 -0
package/src/benchmark/BenchmarkRunner.ts +685 -0
package/src/benchmark/BenchmarkValidator.ts +204 -0
package/src/benchmark/FastEvalRunner.ts +225 -0
package/src/benchmark/MetricsValidator.ts +165 -0
package/src/benchmark/MetricsVisualizer.ts +909 -0
package/src/benchmark/ModelBenchmarkService.ts +611 -0
package/src/benchmark/ModelRegistry.ts +158 -0
package/src/benchmark/RulerBenchmarkIntegration.ts +235 -0
package/src/benchmark/SimulationA2AInterface.ts +1169 -0
package/src/benchmark/SimulationEngine.ts +832 -0
package/src/benchmark/TaskRunner.ts +94 -0
package/src/benchmark/__tests__/BenchmarkRunner.test.ts +534 -0
package/src/benchmark/__tests__/HeadToHead.test.ts +126 -0
package/src/benchmark/index.ts +91 -0
package/src/benchmark/parseSimulationMetrics.ts +124 -0
package/src/benchmark/simulation-types.ts +78 -0
package/src/dependencies.ts +475 -0
package/src/generation/TrajectoryGenerator.ts +387 -0
package/src/generation/index.ts +12 -0
package/src/huggingface/HuggingFaceDatasetUploader.ts +636 -0
package/src/huggingface/HuggingFaceIntegrationService.ts +426 -0
package/src/huggingface/HuggingFaceModelUploader.ts +532 -0
package/src/huggingface/index.ts +27 -0
package/src/huggingface/shared/HuggingFaceUploadUtil.ts +206 -0
package/src/index.ts +102 -0
package/src/init-training.ts +53 -0
package/src/metrics/TrajectoryMetricsExtractor.ts +653 -0
package/src/metrics/__tests__/TrajectoryMetricsExtractor.test.ts +759 -0
package/src/metrics/index.ts +8 -0
package/src/metrics/types.ts +200 -0
package/src/rubrics/__tests__/index.test.ts +184 -0
package/src/rubrics/ass-kisser.ts +85 -0
package/src/rubrics/degen.ts +80 -0
package/src/rubrics/goody-twoshoes.ts +84 -0
package/src/rubrics/index.ts +236 -0
package/src/rubrics/information-trader.ts +84 -0
package/src/rubrics/infosec.ts +101 -0
package/src/rubrics/liar.ts +104 -0
package/src/rubrics/perps-trader.ts +87 -0
package/src/rubrics/researcher.ts +81 -0
package/src/rubrics/scammer.ts +82 -0
package/src/rubrics/social-butterfly.ts +73 -0
package/src/rubrics/super-predictor.ts +97 -0
package/src/rubrics/trader.ts +67 -0
package/src/scoring/ArchetypeScoringService.ts +486 -0
package/src/scoring/JudgePromptBuilder.ts +556 -0
package/src/scoring/LLMJudgeCache.ts +401 -0
package/src/scoring/index.ts +9 -0
package/src/training/AutomationPipeline.ts +916 -0
package/src/training/BenchmarkService.ts +518 -0
package/src/training/ConfigValidator.ts +220 -0
package/src/training/MarketOutcomesTracker.ts +187 -0
package/src/training/ModelDeployer.ts +186 -0
package/src/training/ModelFetcher.ts +76 -0
package/src/training/ModelSelectionService.ts +341 -0
package/src/training/ModelUsageVerifier.ts +160 -0
package/src/training/MultiModelOrchestrator.ts +580 -0
package/src/training/RLModelConfig.ts +407 -0
package/src/training/RewardBackpropagationService.ts +149 -0
package/src/training/RulerScoringService.ts +666 -0
package/src/training/TrainingMonitor.ts +166 -0
package/src/training/TrajectoryRecorder.ts +399 -0
package/src/training/__tests__/TrajectoryRecorder.test.ts +472 -0
package/src/training/index.ts +100 -0
package/src/training/logRLConfig.ts +34 -0
package/src/training/pipeline.ts +129 -0
package/src/training/storage/ModelStorageService.ts +279 -0
package/src/training/storage/TrainingDataArchiver.ts +197 -0
package/src/training/storage/index.ts +17 -0
package/src/training/types.ts +207 -0
package/src/training/window-utils.ts +138 -0
package/src/utils/index.ts +101 -0
package/src/utils/logger.ts +59 -0
package/src/utils/snowflake.ts +17 -0
package/src/utils/synthetic-detector.ts +111 -0
package/tsconfig.json +20 -0

package/python/src/training/hybrid_env.py ADDED Viewed

@@ -0,0 +1,522 @@
+"""
+Babylon Hybrid Environment for GRPO Training
+Combines offline (database) and online (simulation bridge) rollouts.
+This provides the best of both worlds:
+- Offline: Large, diverse dataset from historical trajectories
+- Online: Fresh rollouts from current policy interacting with simulation
+Usage:
+    make train-hybrid  # 80% offline, 20% online by default
+    # Or with custom ratio
+    python scripts/run_training.py --mode hybrid --hybrid-online-ratio 0.3
+The online ratio determines what fraction of rollouts come from the
+simulation bridge vs the database.
+"""
+import asyncio
+import copy
+import logging
+import os
+import random
+from typing import Any, Dict, List, Optional, Tuple
+from pydantic import Field
+from atroposlib.envs.base import APIServerConfig, BaseEnv, ScoredDataGroup
+from .babylon_env import BabylonEnvConfig, BabylonRLAIFEnv
+from .online_env import BabylonOnlineEnv, BabylonOnlineEnvConfig, Scenario
+from .simulation_bridge import SimulationBridge
+logger = logging.getLogger(__name__)
+class BabylonHybridEnvConfig(BabylonOnlineEnvConfig):
+    """
+    Configuration for hybrid environment.
+    Inherits from BabylonOnlineEnvConfig and adds offline ratio control.
+    """
+    online_ratio: float = Field(
+        default=0.2,
+        description="Ratio of rollouts from online simulation (0.0 = all offline, 1.0 = all online)"
+    )
+    # Database settings for offline mode (same as BabylonEnvConfig)
+    db_url: Optional[str] = Field(
+        default=None,
+        description="PostgreSQL connection URL for offline trajectories"
+    )
+    trajectory_window_size: int = Field(
+        default=1000,
+        description="Number of trajectories to cache in memory"
+    )
+    min_trajectories: int = Field(
+        default=10,
+        description="Minimum trajectories required to start offline training"
+    )
+class BabylonHybridEnv(BaseEnv):
+    """
+    Hybrid environment that mixes offline and online rollouts.
+    Architecture:
+    - Maintains both an offline trajectory cache and online bridge connection
+    - For each get_next_item() call, randomly selects offline vs online
+    - Collects trajectories using the appropriate mode
+    - Scores and returns consistent ScoredDataGroup format
+    Benefits:
+    - Stability from large offline dataset
+    - Adaptability from on-policy online rollouts
+    - Smooth transition from offline to online training
+    """
+    name = "babylon_hybrid_env"
+    def __init__(
+        self,
+        config: BabylonHybridEnvConfig,
+        server_configs: List[APIServerConfig],
+        slurm: bool = False,
+        testing: bool = False,
+    ):
+        super().__init__(config, server_configs, slurm, testing)
+        self.config: BabylonHybridEnvConfig = config
+        self._server_configs = server_configs
+        # Offline components (from BabylonRLAIFEnv)
+        self.db_pool = None
+        self.trajectory_cache: List[Dict] = []
+        self.current_cache_idx: int = 0
+        # Online components (from BabylonOnlineEnv)
+        self.simulation_bridge: Optional[SimulationBridge] = None
+        self.scenario_pool = None
+        self._bridge_npc_index: int = 0
+        # Hybrid control
+        self.online_ratio = config.online_ratio
+        self.iter = 0
+        self.online_count = 0
+        self.offline_count = 0
+        # Tokenizer (set in setup)
+        self.tokenizer = None
+        logger.info(f"HybridEnv initialized with online_ratio={self.online_ratio:.0%}")
+    @classmethod
+    def config_init(cls) -> Tuple[BabylonHybridEnvConfig, List[APIServerConfig]]:
+        """Create default config"""
+        env_config = BabylonHybridEnvConfig(
+            tokenizer_name="Qwen/Qwen2.5-3B-Instruct",
+            rollout_server_url="http://localhost:8000",
+            total_steps=1000,
+            batch_size=16,
+            online_ratio=float(os.getenv("HYBRID_ONLINE_RATIO", "0.2")),
+            use_simulation_bridge=True,
+            simulation_bridge_url=os.getenv("SIMULATION_BRIDGE_URL", "http://localhost:3001"),
+            db_url=os.getenv("DATABASE_URL"),
+        )
+        server_configs = [
+            APIServerConfig(
+                model_name="Qwen/Qwen2.5-3B-Instruct",
+                base_url="http://localhost:9001/v1",
+            )
+        ]
+        return env_config, server_configs
+    async def setup(self):
+        """Initialize both offline and online components"""
+        from transformers import AutoTokenizer
+        logger.info("Setting up hybrid environment...")
+        # Load tokenizer
+        self.tokenizer = AutoTokenizer.from_pretrained(self.config.tokenizer_name)
+        # Setup offline component (database)
+        if self.config.db_url:
+            await self._setup_offline()
+        else:
+            logger.warning("No DATABASE_URL set, hybrid will only use online rollouts")
+            self.online_ratio = 1.0
+        # Setup online component (simulation bridge)
+        if self.config.use_simulation_bridge:
+            await self._setup_online()
+        else:
+            logger.warning("Simulation bridge disabled, hybrid will only use offline rollouts")
+            self.online_ratio = 0.0
+        logger.info(f"Hybrid setup complete: online_ratio={self.online_ratio:.0%}, "
+                   f"offline_trajectories={len(self.trajectory_cache)}, "
+                   f"bridge_npcs={len(self.simulation_bridge.npc_ids) if self.simulation_bridge else 0}")
+    async def _setup_offline(self):
+        """Setup database connection and load trajectories"""
+        import asyncpg
+        logger.info("Connecting to database for offline trajectories...")
+        self.db_pool = await asyncpg.create_pool(
+            self.config.db_url,
+            min_size=2,
+            max_size=10,
+        )
+        # Load initial trajectory window
+        await self._load_trajectory_window()
+        if len(self.trajectory_cache) < self.config.min_trajectories:
+            logger.warning(f"Only {len(self.trajectory_cache)} trajectories in DB, "
+                          f"need {self.config.min_trajectories}")
+    async def _load_trajectory_window(self):
+        """Load a window of trajectories from database"""
+        if not self.db_pool:
+            return
+        async with self.db_pool.acquire() as conn:
+            # Load trajectories with reasoning
+            rows = await conn.fetch("""
+                SELECT
+                    id, archetype, scenario_context, model_response,
+                    reasoning, metrics, created_at
+                FROM trajectories
+                WHERE model_response IS NOT NULL
+                ORDER BY created_at DESC
+                LIMIT $1
+            """, self.config.trajectory_window_size)
+            self.trajectory_cache = [dict(row) for row in rows]
+            self.current_cache_idx = 0
+            logger.info(f"Loaded {len(self.trajectory_cache)} trajectories from database")
+    async def _setup_online(self):
+        """Setup simulation bridge connection"""
+        logger.info(f"Connecting to simulation bridge at {self.config.simulation_bridge_url}...")
+        self.simulation_bridge = SimulationBridge(
+            base_url=self.config.simulation_bridge_url,
+        )
+        await self.simulation_bridge.__aenter__()
+        # Initialize with archetypes
+        archetypes = list(self.config.archetype_distribution.keys())
+        await self.simulation_bridge.initialize(
+            num_npcs=self.config.bridge_num_npcs,
+            archetypes=archetypes,
+        )
+        logger.info(f"Simulation bridge connected with {len(self.simulation_bridge.npc_ids)} NPCs")
+    async def get_next_item(self) -> Tuple[Any, str]:
+        """
+        Get next item for training.
+        Randomly decides between offline and online based on online_ratio.
+        """
+        self.iter += 1
+        # Decide online vs offline based on ratio
+        use_online = random.random() < self.online_ratio
+        # If online selected but not available, fall back to offline
+        if use_online and (not self.simulation_bridge or not self.simulation_bridge.is_initialized):
+            use_online = False
+        # If offline selected but no trajectories, use online
+        if not use_online and len(self.trajectory_cache) == 0:
+            use_online = True
+        if use_online:
+            self.online_count += 1
+            return await self._get_online_item()
+        else:
+            self.offline_count += 1
+            return self._get_offline_item()
+    async def _get_online_item(self) -> Tuple["PoolScenario", str]:
+        """Get a scenario from simulation bridge"""
+        from .scenario_pool import Scenario as PoolScenario, PortfolioState
+        npc_ids = self.simulation_bridge.npc_ids
+        npc_id = npc_ids[self._bridge_npc_index % len(npc_ids)]
+        self._bridge_npc_index += 1
+        bridge_scenario = await self.simulation_bridge.get_scenario(npc_id)
+        archetype = bridge_scenario.archetype
+        # Convert to Scenario format used by scoring
+        scenario = PoolScenario(
+            id=f"bridge-{npc_id}-{self.iter}",
+            source="production",
+            archetype_focus=archetype,
+            difficulty="medium",
+            portfolio=PortfolioState(
+                balance=bridge_scenario.balance,
+                positions=[],
+            ),
+        )
+        # Add market data from bridge
+        for m in bridge_scenario.market_state.prediction_markets:
+            scenario.add_market({
+                "id": m.id,
+                "question": m.question,
+                "yesPrice": m.yes_price,
+                "noPrice": m.no_price,
+            })
+        for m in bridge_scenario.market_state.perp_markets:
+            scenario.add_perpetual({
+                "ticker": m.ticker,
+                "markPrice": m.current_price,
+                "change24h": m.change_percent_24h,
+            })
+        # Store bridge scenario for action execution
+        scenario.metadata["bridge_scenario"] = bridge_scenario
+        scenario.metadata["npc_id"] = npc_id
+        scenario.metadata["mode"] = "online"
+        return (scenario, archetype)
+    def _get_offline_item(self) -> Tuple[Dict, str]:
+        """Get a trajectory from cached database trajectories"""
+        if not self.trajectory_cache:
+            raise RuntimeError("No trajectories in cache")
+        # Round-robin through cache
+        traj = self.trajectory_cache[self.current_cache_idx]
+        self.current_cache_idx = (self.current_cache_idx + 1) % len(self.trajectory_cache)
+        archetype = traj.get("archetype", "trader")
+        # Add source metadata
+        traj_copy = copy.deepcopy(traj)
+        traj_copy["source"] = "offline"
+        return (traj_copy, archetype)
+    async def collect_trajectories(self, item: Tuple[Any, str]) -> Tuple[Optional[ScoredDataGroup], List]:
+        """
+        Collect and score trajectories.
+        Delegates to appropriate handler based on item source.
+        """
+        data, archetype = item
+        # Check if it's a Scenario (online) or Dict (offline)
+        if hasattr(data, "metadata") and data.metadata.get("source") == "online":
+            return await self._collect_online(data, archetype)
+        else:
+            return await self._collect_offline(data, archetype)
+    async def _collect_online(self, scenario: "Scenario", archetype: str) -> Tuple[Optional[ScoredDataGroup], List]:
+        """Collect online rollouts via simulation bridge"""
+        from .online_env import build_trading_system_prompt, build_observation_prompt
+        from .quality_scorer import score_response
+        from .format_validator import validate_response_format
+        # Build messages
+        system_prompt = build_trading_system_prompt(archetype)
+        user_prompt = build_observation_prompt(scenario)
+        messages = [
+            {"role": "system", "content": system_prompt},
+            {"role": "user", "content": user_prompt},
+        ]
+        # Generate completions using managed_server
+        async with self.server.managed_server(tokenizer=self.tokenizer) as managed:
+            chat_completions = await managed.chat_completion(
+                messages=messages,
+                n=self.config.group_size,
+                max_tokens=self.config.max_response_tokens,
+                temperature=self.config.temperature,
+            )
+            state = managed.get_state()
+            nodes = state["nodes"]
+        if not nodes or len(nodes) < 2:
+            logger.warning("Insufficient nodes from managed_server")
+            return None, []
+        # Process and score completions
+        rollout_data = []
+        for i, choice in enumerate(chat_completions.choices):
+            if i >= len(nodes):
+                break
+            node = nodes[i]
+            response_content = choice.message.content or ""
+            # Score the response
+            quality = score_response(
+                response=response_content,
+                archetype=archetype,
+                execute_action=False,
+            )
+            format_result = validate_response_format(response_content)
+            # Calculate final score
+            base_score = quality.combined_format_score * 0.4 + quality.reasoning_score * 0.3
+            action_bonus = 0.3 if format_result.is_valid else 0.0
+            final_score = base_score + action_bonus
+            rollout_data.append({
+                "tokens": node.tokens,
+                "masks": node.masked_tokens,
+                "score": final_score,
+            })
+        # Center scores
+        scores = [r["score"] for r in rollout_data]
+        mean_score = sum(scores) / len(scores)
+        # Build ScoredDataGroup
+        scored_group = ScoredDataGroup(
+            tokens=[r["tokens"] for r in rollout_data],
+            masks=[r["masks"] for r in rollout_data],
+            scores=[s - mean_score for s in scores],
+        )
+        return scored_group, []
+    async def _collect_offline(self, traj: Dict, archetype: str) -> Tuple[Optional[ScoredDataGroup], List]:
+        """Collect offline rollouts from database trajectory"""
+        from .rewards import archetype_composite_reward, BehaviorMetrics
+        from .quality_scorer import score_response
+        from .format_validator import validate_response_format
+        from .tokenization_utils import tokenize_for_trainer
+        # Build messages from trajectory
+        scenario_context = traj.get("scenario_context", {})
+        model_response = traj.get("model_response", "")
+        if not model_response:
+            return None, []
+        # Build chat messages
+        messages = [
+            {"role": "system", "content": f"You are a {archetype} trading agent."},
+            {"role": "user", "content": str(scenario_context)},
+            {"role": "assistant", "content": model_response},
+        ]
+        # Get vLLM URL for generation
+        vllm_base_url = self._server_configs[0].base_url if self._server_configs else "http://localhost:9001/v1"
+        model_name = self.config.tokenizer_name
+        # Generate N completions for the same prompt
+        import aiohttp
+        prompt_messages = messages[:-1]  # Exclude assistant response
+        async with aiohttp.ClientSession() as session:
+            async with session.post(
+                f"{vllm_base_url}/chat/completions",
+                json={
+                    "model": model_name,
+                    "messages": prompt_messages,
+                    "max_tokens": 512,
+                    "n": self.config.group_size,
+                    "temperature": 0.7,
+                },
+            ) as resp:
+                if resp.status != 200:
+                    logger.warning(f"vLLM request failed: {resp.status}")
+                    return None, []
+                result = await resp.json()
+        choices = result.get("choices", [])
+        if len(choices) < 2:
+            return None, []
+        # Score each completion
+        rollout_data = []
+        for choice in choices:
+            response_content = choice.get("message", {}).get("content", "")
+            # Build full messages
+            full_messages = copy.deepcopy(prompt_messages)
+            full_messages.append({"role": "assistant", "content": response_content})
+            # Tokenize with proper masking
+            token_result = tokenize_for_trainer(
+                self.tokenizer,
+                full_messages,
+                train_on_all_assistant_turns=True,
+            )
+            # Score
+            quality = score_response(
+                response=response_content,
+                archetype=archetype,
+                execute_action=False,
+            )
+            format_result = validate_response_format(response_content)
+            base_score = quality.combined_format_score * 0.4 + quality.reasoning_score * 0.3
+            action_bonus = 0.3 if format_result.is_valid else 0.0
+            final_score = base_score + action_bonus
+            rollout_data.append({
+                "tokens": token_result["input_ids"],
+                "masks": token_result["masks"],
+                "score": final_score,
+            })
+        # Center scores and add small noise to prevent identical scores
+        scores = [r["score"] + random.uniform(-0.01, 0.01) for r in rollout_data]
+        mean_score = sum(scores) / len(scores)
+        scored_group = ScoredDataGroup(
+            tokens=[r["tokens"] for r in rollout_data],
+            masks=[r["masks"] for r in rollout_data],
+            scores=[s - mean_score for s in scores],
+        )
+        return scored_group, []
+    async def cleanup(self):
+        """Clean up resources"""
+        if self.simulation_bridge:
+            logger.info("Cleaning up simulation bridge...")
+            await self.simulation_bridge.reset()
+            await self.simulation_bridge.__aexit__(None, None, None)
+            self.simulation_bridge = None
+        if self.db_pool:
+            logger.info("Closing database pool...")
+            await self.db_pool.close()
+            self.db_pool = None
+        logger.info(f"Hybrid stats: online={self.online_count}, offline={self.offline_count}")
+    async def evaluate(self):
+        """Periodic evaluation logging"""
+        total = self.online_count + self.offline_count
+        if total > 0:
+            actual_online_ratio = self.online_count / total
+            logger.info(f"Hybrid stats: total={total}, online={self.online_count} ({actual_online_ratio:.1%}), "
+                       f"offline={self.offline_count} ({1-actual_online_ratio:.1%})")
+if __name__ == "__main__":
+    BabylonHybridEnv.cli()