npm - @elizaos/training - Versions diffs - 2.0.0-alpha.11 - Mend

@elizaos/training 2.0.0-alpha.11

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (207) hide show

package/Dockerfile +75 -0
package/Makefile +374 -0
package/README.md +346 -0
package/config/rubrics.json +137 -0
package/data/.gitkeep +0 -0
package/data/degen/.gitkeep +2 -0
package/data/trader/.gitkeep +2 -0
package/docker-compose.test.yml +57 -0
package/package.json +58 -0
package/python/config/babylon_atropos.yaml +90 -0
package/python/config/profiles/12gb.json +11 -0
package/python/config/profiles/16gb.json +10 -0
package/python/config/profiles/24gb.json +10 -0
package/python/config/profiles/48gb.json +10 -0
package/python/config/profiles/cpu.json +11 -0
package/python/config/profiles/l40-2gpu-safe.json +20 -0
package/python/config/profiles/l40-2gpu.json +22 -0
package/python/config/profiles/l40-4gpu.json +21 -0
package/python/config/profiles/l40.json +17 -0
package/python/config/tinker_training.yaml +143 -0
package/python/curriculum_state.json +165 -0
package/python/env.template +86 -0
package/python/env.training.template +46 -0
package/python/pyproject.toml +41 -0
package/python/requirements-ci.txt +31 -0
package/python/requirements.txt +87 -0
package/python/scripts/__init__.py +4 -0
package/python/scripts/import_json_trajectories.py +412 -0
package/python/scripts/local-finetune/README.md +63 -0
package/python/scripts/local-finetune/ingest_and_score.py +139 -0
package/python/scripts/local-finetune/merge_model.py +32 -0
package/python/scripts/local-finetune/test_adapter.py +91 -0
package/python/scripts/local-finetune/train_from_csv.py +132 -0
package/python/scripts/merge_trajectories.py +318 -0
package/python/scripts/run_ab_test.py +143 -0
package/python/scripts/run_full_pipeline.py +544 -0
package/python/scripts/run_tinker_training.py +192 -0
package/python/scripts/run_training.py +914 -0
package/python/scripts/test_judge.py +155 -0
package/python/scripts/test_pipeline.py +356 -0
package/python/scripts/test_trained_model.py +380 -0
package/python/scripts/train_local.py +528 -0
package/python/setup.py +20 -0
package/python/src/__init__.py +190 -0
package/python/src/data_bridge/__init__.py +24 -0
package/python/src/data_bridge/converter.py +435 -0
package/python/src/data_bridge/reader.py +393 -0
package/python/src/models.py +283 -0
package/python/src/training/__init__.py +605 -0
package/python/src/training/ab_testing.py +404 -0
package/python/src/training/action_executor.py +621 -0
package/python/src/training/archetype_trainer.py +347 -0
package/python/src/training/atropos_trainer.py +980 -0
package/python/src/training/babylon_env.py +1254 -0
package/python/src/training/error_recovery.py +647 -0
package/python/src/training/evaluation.py +856 -0
package/python/src/training/fast_simulator.py +880 -0
package/python/src/training/format_validator.py +584 -0
package/python/src/training/hybrid_env.py +522 -0
package/python/src/training/kl_controller.py +628 -0
package/python/src/training/multi_prompt_dataset.py +883 -0
package/python/src/training/multi_turn.py +656 -0
package/python/src/training/online_env.py +1084 -0
package/python/src/training/quality_scorer.py +391 -0
package/python/src/training/quality_utils.py +633 -0
package/python/src/training/rewards.py +1344 -0
package/python/src/training/rlaif_env.py +17 -0
package/python/src/training/rollout_generator.py +502 -0
package/python/src/training/rubric_loader.py +198 -0
package/python/src/training/scenario_pool.py +1072 -0
package/python/src/training/schemas.py +481 -0
package/python/src/training/service_manager.py +552 -0
package/python/src/training/simulation_bridge.py +535 -0
package/python/src/training/tick_reward_attribution.py +399 -0
package/python/src/training/tinker_client.py +575 -0
package/python/src/training/tinker_trainer.py +646 -0
package/python/src/training/tokenization_utils.py +402 -0
package/python/tests/e2e/__init__.py +13 -0
package/python/tests/e2e/conftest.py +258 -0
package/python/tests/e2e/test_full_pipeline.py +643 -0
package/python/tests/e2e/test_online_training_e2e.py +365 -0
package/python/tests/integration/__init__.py +12 -0
package/python/tests/integration/conftest.py +383 -0
package/python/tests/integration/test_db_integration.py +649 -0
package/python/tests/integration/test_json_mode_integration.py +554 -0
package/python/tests/test_action_executor.py +594 -0
package/python/tests/test_archetype_scoring.py +1027 -0
package/python/tests/test_atropos_integration.py +360 -0
package/python/tests/test_evaluation.py +727 -0
package/python/tests/test_format_validator.py +486 -0
package/python/tests/test_kl_controller.py +432 -0
package/python/tests/test_lr_scheduler.py +579 -0
package/python/tests/test_multi_turn.py +590 -0
package/python/tests/test_online_env.py +519 -0
package/python/tests/test_quality_scorer.py +474 -0
package/python/tests/test_scenario_pool.py +735 -0
package/python/tests/test_service_manager.py +585 -0
package/python/tests/test_simulation_rollout.py +581 -0
package/python/tests/test_tokenization_utils.py +501 -0
package/python/tests/test_training_orchestrator.py +497 -0
package/python/tests/test_training_output_structure.py +661 -0
package/research-output/training-runs/training-run-1770772042899.json +26 -0
package/research-output/training-runs/training-run-1770930079670.json +32 -0
package/research-output/training-runs/training-run-1770930143700.json +44 -0
package/research-output/training-runs/training-run-1770930183638.json +38 -0
package/research-output/training-runs/training-run-1770930442049.json +38 -0
package/research-output/training-runs/training-run-1770930793243.json +38 -0
package/scripts/assess-training-data.ts +422 -0
package/scripts/e2e-training-test.ts +550 -0
package/scripts/export-rubrics.ts +64 -0
package/scripts/generate-research-report.ts +1523 -0
package/scripts/generate_dataset.sh +173 -0
package/scripts/json-mode-benchmark.ts +399 -0
package/scripts/real-archetype-benchmark.ts +210 -0
package/scripts/run-baseline-comparison.ts +116 -0
package/scripts/run-full-pipeline.ts +272 -0
package/scripts/runpod_setup.sh +137 -0
package/scripts/runpod_validate.sh +147 -0
package/scripts/test-model-in-game.ts +955 -0
package/scripts/test-scoring.ts +73 -0
package/scripts/test-trained-model.ts +209 -0
package/scripts/train-and-test.ts +824 -0
package/scripts/verify-final.ts +118 -0
package/src/adapter.ts +516 -0
package/src/archetypes/ArchetypeConfigService.ts +626 -0
package/src/archetypes/derive-archetype.ts +249 -0
package/src/archetypes/index.ts +22 -0
package/src/benchmark/ArchetypeMatchupBenchmark.ts +825 -0
package/src/benchmark/BenchmarkChartGenerator.ts +748 -0
package/src/benchmark/BenchmarkDataGenerator.ts +1288 -0
package/src/benchmark/BenchmarkDataViewer.ts +324 -0
package/src/benchmark/BenchmarkHistoryService.ts +221 -0
package/src/benchmark/BenchmarkRunner.ts +685 -0
package/src/benchmark/BenchmarkValidator.ts +206 -0
package/src/benchmark/FastEvalRunner.ts +225 -0
package/src/benchmark/MetricsValidator.ts +165 -0
package/src/benchmark/MetricsVisualizer.ts +909 -0
package/src/benchmark/ModelBenchmarkService.ts +611 -0
package/src/benchmark/ModelRegistry.ts +158 -0
package/src/benchmark/RulerBenchmarkIntegration.ts +235 -0
package/src/benchmark/SimulationA2AInterface.ts +1169 -0
package/src/benchmark/SimulationEngine.ts +832 -0
package/src/benchmark/__tests__/BenchmarkRunner.test.ts +534 -0
package/src/benchmark/__tests__/HeadToHead.test.ts +126 -0
package/src/benchmark/index.ts +89 -0
package/src/benchmark/parseSimulationMetrics.ts +124 -0
package/src/benchmark/simulation-types.ts +78 -0
package/src/dependencies.ts +439 -0
package/src/generation/TrajectoryGenerator.ts +387 -0
package/src/generation/index.ts +12 -0
package/src/huggingface/HuggingFaceDatasetUploader.ts +636 -0
package/src/huggingface/HuggingFaceIntegrationService.ts +426 -0
package/src/huggingface/HuggingFaceModelUploader.ts +532 -0
package/src/huggingface/index.ts +27 -0
package/src/huggingface/shared/HuggingFaceUploadUtil.ts +206 -0
package/src/index.ts +102 -0
package/src/init-training.ts +53 -0
package/src/metrics/TrajectoryMetricsExtractor.ts +653 -0
package/src/metrics/__tests__/TrajectoryMetricsExtractor.test.ts +759 -0
package/src/metrics/index.ts +8 -0
package/src/metrics/types.ts +200 -0
package/src/rubrics/__tests__/index.test.ts +184 -0
package/src/rubrics/ass-kisser.ts +85 -0
package/src/rubrics/degen.ts +80 -0
package/src/rubrics/goody-twoshoes.ts +84 -0
package/src/rubrics/index.ts +236 -0
package/src/rubrics/information-trader.ts +84 -0
package/src/rubrics/infosec.ts +101 -0
package/src/rubrics/liar.ts +104 -0
package/src/rubrics/perps-trader.ts +87 -0
package/src/rubrics/researcher.ts +81 -0
package/src/rubrics/scammer.ts +82 -0
package/src/rubrics/social-butterfly.ts +73 -0
package/src/rubrics/super-predictor.ts +97 -0
package/src/rubrics/trader.ts +67 -0
package/src/scoring/ArchetypeScoringService.ts +486 -0
package/src/scoring/JudgePromptBuilder.ts +556 -0
package/src/scoring/LLMJudgeCache.ts +401 -0
package/src/scoring/index.ts +9 -0
package/src/training/AutomationPipeline.ts +916 -0
package/src/training/BenchmarkService.ts +518 -0
package/src/training/ConfigValidator.ts +220 -0
package/src/training/MarketOutcomesTracker.ts +187 -0
package/src/training/ModelDeployer.ts +186 -0
package/src/training/ModelFetcher.ts +76 -0
package/src/training/ModelSelectionService.ts +341 -0
package/src/training/ModelUsageVerifier.ts +160 -0
package/src/training/MultiModelOrchestrator.ts +580 -0
package/src/training/RLModelConfig.ts +407 -0
package/src/training/RewardBackpropagationService.ts +149 -0
package/src/training/RulerScoringService.ts +666 -0
package/src/training/TrainingMonitor.ts +166 -0
package/src/training/TrajectoryRecorder.ts +399 -0
package/src/training/__tests__/TrajectoryRecorder.test.ts +472 -0
package/src/training/index.ts +100 -0
package/src/training/logRLConfig.ts +34 -0
package/src/training/pipeline.ts +129 -0
package/src/training/storage/ModelStorageService.ts +279 -0
package/src/training/storage/TrainingDataArchiver.ts +197 -0
package/src/training/storage/index.ts +17 -0
package/src/training/types.ts +207 -0
package/src/training/window-utils.ts +138 -0
package/src/utils/index.ts +101 -0
package/src/utils/logger.ts +59 -0
package/src/utils/snowflake.ts +17 -0
package/src/utils/synthetic-detector.ts +111 -0
package/tsconfig.json +20 -0

package/python/tests/test_scenario_pool.py ADDED Viewed

@@ -0,0 +1,735 @@
+"""
+Tests for ScenarioPool and CurriculumManager
+Tests cover:
+- Scenario generation (synthetic and structure)
+- Curriculum learning (tracking, priorities, reset)
+- Pool management (sampling, refresh, persistence)
+"""
+import json
+import tempfile
+from pathlib import Path
+from unittest.mock import AsyncMock, patch
+import pytest
+from src.training.scenario_pool import (
+    CurriculumManager,
+    CurriculumState,
+    MarketState,
+    NewsItem,
+    PerpetualState,
+    PortfolioState,
+    Scenario,
+    ScenarioPool,
+    ScenarioPoolConfig,
+    SocialPost,
+)
+# =============================================================================
+# Data Structure Tests
+# =============================================================================
+class TestMarketState:
+    """Tests for MarketState dataclass"""
+    def test_creation(self):
+        market = MarketState(
+            market_id="test-1",
+            question="Will BTC exceed $100K?",
+            yes_price=0.65,
+            no_price=0.35,
+            volume_24h=100000.0,
+            liquidity=500000.0,
+            expires_at=1735689600000,
+            category="crypto",
+        )
+        assert market.market_id == "test-1"
+        assert market.yes_price == 0.65
+        assert market.no_price == 0.35
+    def test_to_dict(self):
+        market = MarketState(
+            market_id="test-1",
+            question="Will BTC exceed $100K?",
+            yes_price=0.65,
+            no_price=0.35,
+            volume_24h=100000.0,
+            liquidity=500000.0,
+            expires_at=1735689600000,
+        )
+        result = market.to_dict()
+        assert result["id"] == "test-1"
+        assert result["yesPrice"] == 0.65
+        assert result["noPrice"] == 0.35
+        assert result["volume24h"] == 100000.0
+        assert "question" in result
+class TestPerpetualState:
+    """Tests for PerpetualState dataclass"""
+    def test_creation(self):
+        perp = PerpetualState(
+            ticker="BTC",
+            mark_price=100000.0,
+            index_price=99990.0,
+            funding_rate=0.0001,
+            open_interest=50000000.0,
+            volume_24h=100000000.0,
+            change_24h=0.02,
+            high_24h=102000.0,
+            low_24h=98000.0,
+        )
+        assert perp.ticker == "BTC"
+        assert perp.mark_price == 100000.0
+    def test_to_dict(self):
+        perp = PerpetualState(
+            ticker="ETH",
+            mark_price=3500.0,
+            index_price=3495.0,
+            funding_rate=-0.0002,
+            open_interest=25000000.0,
+            volume_24h=50000000.0,
+            change_24h=-0.01,
+            high_24h=3600.0,
+            low_24h=3400.0,
+        )
+        result = perp.to_dict()
+        assert result["ticker"] == "ETH"
+        assert result["markPrice"] == 3500.0
+        assert result["fundingRate"] == -0.0002
+class TestScenario:
+    """Tests for Scenario dataclass"""
+    def test_creation_minimal(self):
+        scenario = Scenario(
+            id="test-scenario",
+            source="synthetic",
+        )
+        assert scenario.id == "test-scenario"
+        assert scenario.source == "synthetic"
+        assert len(scenario.markets) == 0
+        assert scenario.portfolio.balance == 10000.0
+    def test_creation_full(self):
+        market = MarketState(
+            market_id="m1",
+            question="Test?",
+            yes_price=0.5,
+            no_price=0.5,
+            volume_24h=1000.0,
+            liquidity=5000.0,
+            expires_at=1735689600000,
+        )
+        perp = PerpetualState(
+            ticker="BTC",
+            mark_price=100000.0,
+            index_price=100000.0,
+            funding_rate=0.0,
+            open_interest=1000000.0,
+            volume_24h=5000000.0,
+            change_24h=0.0,
+            high_24h=100000.0,
+            low_24h=100000.0,
+        )
+        news = NewsItem(
+            headline="Test headline",
+            sentiment="bullish",
+            impact="high",
+            source="Test",
+            timestamp=1735689600000,
+        )
+        post = SocialPost(
+            author="test_user",
+            content="Test post",
+            sentiment="neutral",
+            likes=10,
+            replies=2,
+            timestamp=1735689600000,
+        )
+        scenario = Scenario(
+            id="full-scenario",
+            source="production",
+            markets=[market],
+            perpetuals=[perp],
+            news=[news],
+            social_posts=[post],
+            portfolio=PortfolioState(balance=15000.0),
+            archetype_focus="trader",
+            difficulty="hard",
+        )
+        assert scenario.id == "full-scenario"
+        assert len(scenario.markets) == 1
+        assert len(scenario.perpetuals) == 1
+        assert len(scenario.news) == 1
+        assert len(scenario.social_posts) == 1
+        assert scenario.portfolio.balance == 15000.0
+        assert scenario.archetype_focus == "trader"
+        assert scenario.difficulty == "hard"
+    def test_to_dict(self):
+        scenario = Scenario(
+            id="dict-test",
+            source="synthetic",
+            markets=[MarketState(
+                market_id="m1",
+                question="Test?",
+                yes_price=0.6,
+                no_price=0.4,
+                volume_24h=1000.0,
+                liquidity=5000.0,
+                expires_at=1735689600000,
+            )],
+            difficulty="easy",
+        )
+        result = scenario.to_dict()
+        assert result["id"] == "dict-test"
+        assert result["source"] == "synthetic"
+        assert len(result["markets"]) == 1
+        assert result["difficulty"] == "easy"
+        assert "portfolio" in result
+    def test_to_observation(self):
+        scenario = Scenario(
+            id="obs-test",
+            source="synthetic",
+            markets=[MarketState(
+                market_id="m1",
+                question="Will BTC moon?",
+                yes_price=0.7,
+                no_price=0.3,
+                volume_24h=100000.0,
+                liquidity=500000.0,
+                expires_at=1735689600000,
+            )],
+            news=[NewsItem(
+                headline="Bullish news",
+                sentiment="bullish",
+                impact="high",
+                source="Test",
+                timestamp=1735689600000,
+            )],
+        )
+        obs = scenario.to_observation()
+        assert "markets" in obs
+        assert "perpetuals" in obs
+        assert "news" in obs
+        assert "portfolio" in obs
+        assert "marketSummary" in obs
+        assert obs["marketSummary"]["totalMarkets"] == 1
+    def test_sentiment_calculation(self):
+        # Mostly bullish
+        scenario = Scenario(
+            id="bullish-test",
+            source="synthetic",
+            news=[
+                NewsItem(headline="Bull1", sentiment="bullish", impact="high", source="X", timestamp=0),
+                NewsItem(headline="Bull2", sentiment="bullish", impact="high", source="X", timestamp=0),
+                NewsItem(headline="Neutral", sentiment="neutral", impact="low", source="X", timestamp=0),
+            ],
+        )
+        obs = scenario.to_observation()
+        assert obs["marketSummary"]["avgSentiment"] == "bullish"
+        # Mostly bearish
+        scenario2 = Scenario(
+            id="bearish-test",
+            source="synthetic",
+            news=[
+                NewsItem(headline="Bear1", sentiment="bearish", impact="high", source="X", timestamp=0),
+                NewsItem(headline="Bear2", sentiment="bearish", impact="high", source="X", timestamp=0),
+            ],
+        )
+        obs2 = scenario2.to_observation()
+        assert obs2["marketSummary"]["avgSentiment"] == "bearish"
+# =============================================================================
+# CurriculumManager Tests
+# =============================================================================
+class TestCurriculumManager:
+    """Tests for CurriculumManager"""
+    def test_creation(self):
+        manager = CurriculumManager()
+        assert len(manager.attempts) == 0
+        assert len(manager.scores) == 0
+        assert len(manager.solved) == 0
+    def test_record_attempt(self):
+        manager = CurriculumManager()
+        manager.record_attempt("scenario-1", 0.5)
+        assert manager.attempts["scenario-1"] == 1
+        assert len(manager.scores["scenario-1"]) == 1
+        assert manager.scores["scenario-1"][0] == 0.5
+    def test_multiple_attempts(self):
+        manager = CurriculumManager()
+        manager.record_attempt("scenario-1", 0.3)
+        manager.record_attempt("scenario-1", 0.5)
+        manager.record_attempt("scenario-1", 0.7)
+        assert manager.attempts["scenario-1"] == 3
+        assert len(manager.scores["scenario-1"]) == 3
+    def test_solved_detection(self):
+        manager = CurriculumManager(
+            solve_threshold=0.8,
+            min_attempts_for_solved=3,
+        )
+        # Not enough attempts
+        manager.record_attempt("scenario-1", 0.9)
+        manager.record_attempt("scenario-1", 0.9)
+        assert "scenario-1" not in manager.solved
+        # Third attempt triggers solved check
+        manager.record_attempt("scenario-1", 0.9)
+        assert "scenario-1" in manager.solved
+    def test_solved_requires_high_scores(self):
+        manager = CurriculumManager(
+            solve_threshold=0.8,
+            min_attempts_for_solved=3,
+        )
+        # Scores below threshold
+        manager.record_attempt("scenario-1", 0.5)
+        manager.record_attempt("scenario-1", 0.6)
+        manager.record_attempt("scenario-1", 0.7)
+        assert "scenario-1" not in manager.solved
+    def test_should_skip(self):
+        manager = CurriculumManager(
+            max_avg_for_skip=0.85,
+        )
+        # Solved scenarios should be skipped
+        manager.solved.add("solved-scenario")
+        assert manager.should_skip("solved-scenario") is True
+        # High-scoring scenarios should be skipped
+        manager.scores["easy-scenario"] = [0.9, 0.9, 0.9]
+        assert manager.should_skip("easy-scenario") is True
+        # Low-scoring scenarios should not be skipped
+        manager.scores["hard-scenario"] = [0.3, 0.4, 0.5]
+        assert manager.should_skip("hard-scenario") is False
+        # New scenarios should not be skipped
+        assert manager.should_skip("new-scenario") is False
+    def test_get_priority(self):
+        manager = CurriculumManager()
+        # Solved scenarios have zero priority
+        manager.solved.add("solved")
+        assert manager.get_priority("solved") == 0.0
+        # New scenarios have high priority
+        priority_new = manager.get_priority("new-scenario")
+        assert priority_new > 0.5
+        # Difficult scenarios have higher priority
+        manager.scores["hard"] = [0.2, 0.3, 0.2]
+        manager.attempts["hard"] = 3
+        manager.scores["easy"] = [0.8, 0.9, 0.85]
+        manager.attempts["easy"] = 3
+        assert manager.get_priority("hard") > manager.get_priority("easy")
+    def test_reset(self):
+        manager = CurriculumManager()
+        manager.solved.add("scenario-1")
+        manager.solved.add("scenario-2")
+        manager.reset()
+        assert len(manager.solved) == 0
+    def test_get_stats(self):
+        manager = CurriculumManager()
+        manager.record_attempt("s1", 0.5)
+        manager.record_attempt("s1", 0.6)
+        manager.record_attempt("s2", 0.8)
+        stats = manager.get_stats()
+        assert stats["total_scenarios"] == 2
+        assert stats["total_attempts"] == 3
+        assert stats["avg_score"] == pytest.approx((0.5 + 0.6 + 0.8) / 3, rel=1e-3)
+    def test_checkpoint_save_load(self):
+        with tempfile.TemporaryDirectory() as tmpdir:
+            checkpoint_path = Path(tmpdir) / "curriculum.json"
+            # Create and populate manager
+            manager1 = CurriculumManager(checkpoint_path=str(checkpoint_path))
+            manager1.record_attempt("s1", 0.5)
+            manager1.record_attempt("s1", 0.6)
+            manager1.solved.add("s2")
+            manager1._save_checkpoint()
+            # Load in new manager
+            manager2 = CurriculumManager(checkpoint_path=str(checkpoint_path))
+            assert manager2.attempts["s1"] == 2
+            assert manager2.scores["s1"] == [0.5, 0.6]
+            assert "s2" in manager2.solved
+    def test_history_trimming(self):
+        manager = CurriculumManager(max_history_per_scenario=5)
+        for i in range(10):
+            manager.record_attempt("scenario", float(i) / 10)
+        assert len(manager.scores["scenario"]) == 5
+        # Should keep the most recent
+        assert manager.scores["scenario"][-1] == 0.9
+# =============================================================================
+# ScenarioPool Tests
+# =============================================================================
+class TestScenarioPool:
+    """Tests for ScenarioPool"""
+    def test_creation(self):
+        config = ScenarioPoolConfig()
+        pool = ScenarioPool(config)
+        assert len(pool.scenarios) == 0
+        assert pool._sample_counter == 0
+    def test_generate_synthetic_batch(self):
+        config = ScenarioPoolConfig()
+        pool = ScenarioPool(config)
+        scenarios = pool.generate_synthetic_batch(count=10)
+        assert len(scenarios) == 10
+        for scenario in scenarios:
+            assert scenario.source == "synthetic"
+            assert len(scenario.markets) > 0
+            assert len(scenario.perpetuals) > 0
+            assert scenario.id.startswith("synth-")
+    def test_generate_with_archetype_focus(self):
+        config = ScenarioPoolConfig()
+        pool = ScenarioPool(config)
+        scenarios = pool.generate_synthetic_batch(count=5, archetype_focus="degen")
+        for scenario in scenarios:
+            assert scenario.archetype_focus == "degen"
+    def test_difficulty_distribution(self):
+        config = ScenarioPoolConfig(
+            synthetic_difficulty_distribution={"easy": 0.5, "medium": 0.3, "hard": 0.2}
+        )
+        pool = ScenarioPool(config)
+        scenarios = pool.generate_synthetic_batch(count=100)
+        easy_count = sum(1 for s in scenarios if s.difficulty == "easy")
+        medium_count = sum(1 for s in scenarios if s.difficulty == "medium")
+        hard_count = sum(1 for s in scenarios if s.difficulty == "hard")
+        # Allow some variance
+        assert 40 <= easy_count <= 60
+        assert 20 <= medium_count <= 40
+        assert 10 <= hard_count <= 30
+    def test_sample_without_curriculum(self):
+        config = ScenarioPoolConfig(use_curriculum=False)
+        pool = ScenarioPool(config)
+        pool.scenarios = pool.generate_synthetic_batch(count=20)
+        sampled = pool.sample(count=5)
+        assert len(sampled) == 5
+        for s in sampled:
+            assert s in pool.scenarios
+    def test_sample_with_curriculum(self):
+        config = ScenarioPoolConfig(use_curriculum=True)
+        pool = ScenarioPool(config)
+        pool.scenarios = pool.generate_synthetic_batch(count=10)
+        # Initially all scenarios should be available
+        sampled = pool.sample(count=3)
+        assert len(sampled) == 3
+        # Record good scores for some scenarios
+        for s in sampled[:2]:
+            pool.curriculum.record_attempt(s.id, 0.9)
+            pool.curriculum.record_attempt(s.id, 0.9)
+            pool.curriculum.record_attempt(s.id, 0.9)
+        # Those should now be skipped
+        for _ in range(10):
+            new_sampled = pool.sample(count=5)
+            # Solved scenarios should have lower probability
+            solved_ids = {sampled[0].id, sampled[1].id}
+            sampled_ids = {s.id for s in new_sampled}
+            # They might still appear due to probability, but should be less frequent
+    def test_record_results(self):
+        config = ScenarioPoolConfig(use_curriculum=True)
+        pool = ScenarioPool(config)
+        pool.scenarios = pool.generate_synthetic_batch(count=5)
+        ids = [s.id for s in pool.scenarios[:3]]
+        scores = [0.5, 0.7, 0.9]
+        pool.record_results(ids, scores)
+        assert pool.curriculum.attempts[ids[0]] == 1
+        assert pool.curriculum.scores[ids[0]][0] == 0.5
+    def test_get_stats(self):
+        config = ScenarioPoolConfig(use_curriculum=True)
+        pool = ScenarioPool(config)
+        pool.scenarios = pool.generate_synthetic_batch(count=10)
+        stats = pool.get_stats()
+        assert stats["total_scenarios"] == 10
+        assert stats["synthetic_scenarios"] == 10
+        assert stats["production_scenarios"] == 0
+        assert "curriculum" in stats
+    def test_save_and_load_scenarios(self):
+        with tempfile.TemporaryDirectory() as tmpdir:
+            save_path = Path(tmpdir) / "scenarios.json"
+            config = ScenarioPoolConfig()
+            pool1 = ScenarioPool(config)
+            pool1.scenarios = pool1.generate_synthetic_batch(count=5)
+            original_ids = [s.id for s in pool1.scenarios]
+            pool1.save_scenarios(str(save_path))
+            pool2 = ScenarioPool(config)
+            pool2.load_scenarios(str(save_path))
+            loaded_ids = [s.id for s in pool2.scenarios]
+            assert original_ids == loaded_ids
+            assert len(pool2.scenarios) == 5
+    def test_refresh_mechanism(self):
+        config = ScenarioPoolConfig(refresh_interval=5)
+        pool = ScenarioPool(config)
+        pool.scenarios = pool.generate_synthetic_batch(count=10)
+        original_ids = {s.id for s in pool.scenarios}
+        # Sample 5 times (reaches refresh interval)
+        for _ in range(5):
+            pool.sample(count=1)
+        # Synthetic scenarios should be regenerated
+        new_ids = {s.id for s in pool.scenarios}
+        # At least some should be different
+        assert original_ids != new_ids
+    @pytest.mark.asyncio
+    async def test_initialize_without_database(self):
+        config = ScenarioPoolConfig(max_scenarios=10)
+        pool = ScenarioPool(config)
+        await pool.initialize()
+        # Should fill with synthetic scenarios
+        assert len(pool.scenarios) == 10
+        for s in pool.scenarios:
+            assert s.source == "synthetic"
+class TestScenarioGeneration:
+    """Tests for scenario content generation"""
+    def test_random_market_generation(self):
+        config = ScenarioPoolConfig()
+        pool = ScenarioPool(config)
+        market = pool._generate_random_market(0)
+        assert market.market_id == "market-1"
+        assert 0.2 <= market.yes_price <= 0.8
+        assert market.yes_price + market.no_price == pytest.approx(1.0, rel=1e-3)
+        assert market.volume_24h > 0
+        assert market.liquidity > 0
+    def test_default_perpetuals_generation(self):
+        config = ScenarioPoolConfig()
+        pool = ScenarioPool(config)
+        perps = pool._generate_default_perpetuals()
+        assert len(perps) == 5  # BTC, ETH, SOL, DOGE, AVAX
+        tickers = {p.ticker for p in perps}
+        assert "BTC" in tickers
+        assert "ETH" in tickers
+    def test_news_generation(self):
+        config = ScenarioPoolConfig()
+        pool = ScenarioPool(config)
+        news = pool._generate_random_news(5, "medium")
+        assert len(news) == 5
+        for item in news:
+            assert item.headline
+            assert item.sentiment in ["bullish", "bearish", "neutral"]
+            assert item.impact in ["high", "medium", "low"]
+            assert item.source
+    def test_posts_generation(self):
+        config = ScenarioPoolConfig()
+        pool = ScenarioPool(config)
+        posts = pool._generate_random_posts(6)
+        assert len(posts) == 6
+        for post in posts:
+            assert post.author
+            assert post.content
+            assert post.sentiment in ["bullish", "bearish", "neutral"]
+            assert post.likes >= 0
+            assert post.replies >= 0
+    def test_contextual_news_generation(self):
+        config = ScenarioPoolConfig()
+        pool = ScenarioPool(config)
+        markets = [
+            MarketState(
+                market_id="m1",
+                question="Will BTC exceed $100K?",
+                yes_price=0.5,
+                no_price=0.5,
+                volume_24h=100000.0,
+                liquidity=500000.0,
+                expires_at=1735689600000,
+            )
+        ]
+        news = pool._generate_contextual_news(markets)
+        assert len(news) > 0
+        # Should have at least one BTC-related news item
+        btc_news = [n for n in news if "bitcoin" in n.headline.lower() or "btc" in n.headline.lower()]
+        assert len(btc_news) >= 1
+# =============================================================================
+# Integration Tests
+# =============================================================================
+class TestScenarioPoolIntegration:
+    """Integration tests for ScenarioPool"""
+    @pytest.mark.asyncio
+    async def test_full_workflow(self):
+        """Test complete workflow: init, sample, record, refresh"""
+        with tempfile.TemporaryDirectory() as tmpdir:
+            config = ScenarioPoolConfig(
+                max_scenarios=20,
+                refresh_interval=10,
+                use_curriculum=True,
+                curriculum_checkpoint_path=str(Path(tmpdir) / "curriculum.json"),
+            )
+            pool = ScenarioPool(config)
+            await pool.initialize()
+            assert len(pool.scenarios) == 20
+            # Sample and record results
+            for _ in range(5):
+                scenarios = pool.sample(count=2)
+                ids = [s.id for s in scenarios]
+                scores = [0.6, 0.8]
+                pool.record_results(ids, scores)
+            stats = pool.get_stats()
+            assert stats["curriculum"]["total_attempts"] == 10
+            # Save and reload
+            save_path = str(Path(tmpdir) / "scenarios.json")
+            pool.save_scenarios(save_path)
+            pool2 = ScenarioPool(config)
+            pool2.load_scenarios(save_path)
+            assert len(pool2.scenarios) == 20
+    def test_scenario_observation_format(self):
+        """Test that observations have correct format for agent consumption"""
+        config = ScenarioPoolConfig()
+        pool = ScenarioPool(config)
+        scenarios = pool.generate_synthetic_batch(count=1)
+        scenario = scenarios[0]
+        obs = scenario.to_observation()
+        # Verify required fields
+        required_fields = ["timestamp", "markets", "perpetuals", "news", "socialFeed", "portfolio", "marketSummary"]
+        for field in required_fields:
+            assert field in obs, f"Missing required field: {field}"
+        # Verify nested structure
+        if obs["markets"]:
+            market = obs["markets"][0]
+            assert "id" in market
+            assert "yesPrice" in market
+            assert "question" in market
+        if obs["perpetuals"]:
+            perp = obs["perpetuals"][0]
+            assert "ticker" in perp
+            assert "markPrice" in perp
+        assert "balance" in obs["portfolio"]