npm - @elizaos/training - Versions diffs - 2.0.0-alpha.10 - Mend

@elizaos/training 2.0.0-alpha.10

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (224) hide show

package/Dockerfile +75 -0
package/LICENSE +21 -0
package/Makefile +374 -0
package/README.md +346 -0
package/config/rubrics.json +137 -0
package/docker-compose.test.yml +57 -0
package/package.json +57 -0
package/python/config/babylon_atropos.yaml +90 -0
package/python/config/profiles/12gb.json +11 -0
package/python/config/profiles/16gb.json +10 -0
package/python/config/profiles/24gb.json +10 -0
package/python/config/profiles/48gb.json +10 -0
package/python/config/profiles/cpu.json +11 -0
package/python/config/profiles/l40-2gpu-safe.json +20 -0
package/python/config/profiles/l40-2gpu.json +22 -0
package/python/config/profiles/l40-4gpu.json +21 -0
package/python/config/profiles/l40.json +17 -0
package/python/config/tinker_training.yaml +143 -0
package/python/curriculum_state.json +165 -0
package/python/env.template +86 -0
package/python/env.training.template +46 -0
package/python/pyproject.toml +41 -0
package/python/requirements-ci.txt +31 -0
package/python/requirements.txt +87 -0
package/python/scripts/__init__.py +4 -0
package/python/scripts/benchmark_should_respond.py +190 -0
package/python/scripts/debug_inference.py +62 -0
package/python/scripts/import_json_trajectories.py +412 -0
package/python/scripts/local-finetune/README.md +63 -0
package/python/scripts/local-finetune/ingest_and_score.py +139 -0
package/python/scripts/local-finetune/merge_model.py +32 -0
package/python/scripts/local-finetune/test_adapter.py +91 -0
package/python/scripts/local-finetune/train_from_csv.py +132 -0
package/python/scripts/merge_trajectories.py +318 -0
package/python/scripts/optimize_prompt_grpo.py +269 -0
package/python/scripts/run_ab_test.py +143 -0
package/python/scripts/run_full_pipeline.py +544 -0
package/python/scripts/run_tinker_training.py +192 -0
package/python/scripts/run_training.py +914 -0
package/python/scripts/test_generation.py +29 -0
package/python/scripts/test_judge.py +155 -0
package/python/scripts/test_pipeline.py +356 -0
package/python/scripts/test_trained_model.py +380 -0
package/python/scripts/train_grpo.py +360 -0
package/python/scripts/train_jsonl.py +223 -0
package/python/scripts/train_local.py +528 -0
package/python/setup.py +20 -0
package/python/src/__init__.py +190 -0
package/python/src/data_bridge/__init__.py +24 -0
package/python/src/data_bridge/converter.py +435 -0
package/python/src/data_bridge/reader.py +393 -0
package/python/src/models.py +283 -0
package/python/src/training/__init__.py +605 -0
package/python/src/training/ab_testing.py +404 -0
package/python/src/training/action_executor.py +621 -0
package/python/src/training/archetype_trainer.py +347 -0
package/python/src/training/atropos_trainer.py +980 -0
package/python/src/training/babylon_env.py +1254 -0
package/python/src/training/error_recovery.py +647 -0
package/python/src/training/evaluation.py +856 -0
package/python/src/training/fast_simulator.py +880 -0
package/python/src/training/format_validator.py +584 -0
package/python/src/training/hybrid_env.py +522 -0
package/python/src/training/kl_controller.py +628 -0
package/python/src/training/multi_prompt_dataset.py +883 -0
package/python/src/training/multi_turn.py +656 -0
package/python/src/training/online_env.py +1084 -0
package/python/src/training/quality_scorer.py +391 -0
package/python/src/training/quality_utils.py +633 -0
package/python/src/training/rewards.py +1344 -0
package/python/src/training/rlaif_env.py +17 -0
package/python/src/training/rollout_generator.py +502 -0
package/python/src/training/rubric_loader.py +198 -0
package/python/src/training/scenario_pool.py +1072 -0
package/python/src/training/schemas.py +481 -0
package/python/src/training/service_manager.py +552 -0
package/python/src/training/simulation_bridge.py +535 -0
package/python/src/training/tick_reward_attribution.py +399 -0
package/python/src/training/tinker_client.py +575 -0
package/python/src/training/tinker_trainer.py +646 -0
package/python/src/training/tokenization_utils.py +402 -0
package/python/tests/e2e/__init__.py +13 -0
package/python/tests/e2e/conftest.py +258 -0
package/python/tests/e2e/test_full_pipeline.py +643 -0
package/python/tests/e2e/test_online_training_e2e.py +365 -0
package/python/tests/integration/__init__.py +12 -0
package/python/tests/integration/conftest.py +383 -0
package/python/tests/integration/test_db_integration.py +649 -0
package/python/tests/integration/test_json_mode_integration.py +554 -0
package/python/tests/test_action_executor.py +594 -0
package/python/tests/test_archetype_scoring.py +1027 -0
package/python/tests/test_atropos_integration.py +360 -0
package/python/tests/test_evaluation.py +727 -0
package/python/tests/test_format_validator.py +486 -0
package/python/tests/test_kl_controller.py +432 -0
package/python/tests/test_lr_scheduler.py +579 -0
package/python/tests/test_multi_turn.py +590 -0
package/python/tests/test_online_env.py +519 -0
package/python/tests/test_quality_scorer.py +474 -0
package/python/tests/test_scenario_pool.py +735 -0
package/python/tests/test_service_manager.py +585 -0
package/python/tests/test_simulation_rollout.py +581 -0
package/python/tests/test_tokenization_utils.py +501 -0
package/python/tests/test_training_orchestrator.py +497 -0
package/python/tests/test_training_output_structure.py +661 -0
package/research-output/training-runs/training-run-1770772042899.json +26 -0
package/research-output/training-runs/training-run-1770930079670.json +32 -0
package/research-output/training-runs/training-run-1770930143700.json +44 -0
package/research-output/training-runs/training-run-1770930183638.json +38 -0
package/research-output/training-runs/training-run-1770930442049.json +38 -0
package/research-output/training-runs/training-run-1770930793243.json +38 -0
package/research-output/training-runs/training-run-1771276293257.json +38 -0
package/research-output/training-runs/training-run-1771276389280.json +38 -0
package/research-output/training-runs/training-run-1771276502776.json +38 -0
package/research-output/training-runs/training-run-1771277340748.json +38 -0
package/research-output/training-runs/training-run-1773013658993.json +38 -0
package/research-output/training-runs/training-run-1773013861014.json +38 -0
package/research-output/training-runs/training-run-1773014215983.json +38 -0
package/scripts/assess-training-data.ts +422 -0
package/scripts/e2e-training-test.ts +550 -0
package/scripts/export-rubrics.ts +64 -0
package/scripts/generate-research-report.ts +1523 -0
package/scripts/generate_dataset.sh +173 -0
package/scripts/generate_should_respond.ts +267 -0
package/scripts/generate_should_respond_dataset.ts +162 -0
package/scripts/json-mode-benchmark.ts +399 -0
package/scripts/rank_trajectories.ts +207 -0
package/scripts/real-archetype-benchmark.ts +210 -0
package/scripts/run-baseline-comparison.ts +116 -0
package/scripts/run-full-pipeline.ts +272 -0
package/scripts/run_rlaif_loop.ts +78 -0
package/scripts/run_task_benchmark.ts +247 -0
package/scripts/runpod_setup.sh +137 -0
package/scripts/runpod_validate.sh +147 -0
package/scripts/test-model-in-game.ts +955 -0
package/scripts/test-scoring.ts +73 -0
package/scripts/test-trained-model.ts +209 -0
package/scripts/train-and-test.ts +824 -0
package/scripts/verify-final.ts +118 -0
package/src/adapter.ts +516 -0
package/src/archetypes/ArchetypeConfigService.ts +626 -0
package/src/archetypes/derive-archetype.ts +249 -0
package/src/archetypes/index.ts +22 -0
package/src/benchmark/ArchetypeMatchupBenchmark.ts +825 -0
package/src/benchmark/BenchmarkChartGenerator.ts +748 -0
package/src/benchmark/BenchmarkDataGenerator.ts +1288 -0
package/src/benchmark/BenchmarkDataViewer.ts +324 -0
package/src/benchmark/BenchmarkHistoryService.ts +221 -0
package/src/benchmark/BenchmarkRunner.ts +685 -0
package/src/benchmark/BenchmarkValidator.ts +204 -0
package/src/benchmark/FastEvalRunner.ts +225 -0
package/src/benchmark/MetricsValidator.ts +165 -0
package/src/benchmark/MetricsVisualizer.ts +909 -0
package/src/benchmark/ModelBenchmarkService.ts +611 -0
package/src/benchmark/ModelRegistry.ts +158 -0
package/src/benchmark/RulerBenchmarkIntegration.ts +235 -0
package/src/benchmark/SimulationA2AInterface.ts +1169 -0
package/src/benchmark/SimulationEngine.ts +832 -0
package/src/benchmark/TaskRunner.ts +94 -0
package/src/benchmark/__tests__/BenchmarkRunner.test.ts +534 -0
package/src/benchmark/__tests__/HeadToHead.test.ts +126 -0
package/src/benchmark/index.ts +91 -0
package/src/benchmark/parseSimulationMetrics.ts +124 -0
package/src/benchmark/simulation-types.ts +78 -0
package/src/dependencies.ts +475 -0
package/src/generation/TrajectoryGenerator.ts +387 -0
package/src/generation/index.ts +12 -0
package/src/huggingface/HuggingFaceDatasetUploader.ts +636 -0
package/src/huggingface/HuggingFaceIntegrationService.ts +426 -0
package/src/huggingface/HuggingFaceModelUploader.ts +532 -0
package/src/huggingface/index.ts +27 -0
package/src/huggingface/shared/HuggingFaceUploadUtil.ts +206 -0
package/src/index.ts +102 -0
package/src/init-training.ts +53 -0
package/src/metrics/TrajectoryMetricsExtractor.ts +653 -0
package/src/metrics/__tests__/TrajectoryMetricsExtractor.test.ts +759 -0
package/src/metrics/index.ts +8 -0
package/src/metrics/types.ts +200 -0
package/src/rubrics/__tests__/index.test.ts +184 -0
package/src/rubrics/ass-kisser.ts +85 -0
package/src/rubrics/degen.ts +80 -0
package/src/rubrics/goody-twoshoes.ts +84 -0
package/src/rubrics/index.ts +236 -0
package/src/rubrics/information-trader.ts +84 -0
package/src/rubrics/infosec.ts +101 -0
package/src/rubrics/liar.ts +104 -0
package/src/rubrics/perps-trader.ts +87 -0
package/src/rubrics/researcher.ts +81 -0
package/src/rubrics/scammer.ts +82 -0
package/src/rubrics/social-butterfly.ts +73 -0
package/src/rubrics/super-predictor.ts +97 -0
package/src/rubrics/trader.ts +67 -0
package/src/scoring/ArchetypeScoringService.ts +486 -0
package/src/scoring/JudgePromptBuilder.ts +556 -0
package/src/scoring/LLMJudgeCache.ts +401 -0
package/src/scoring/index.ts +9 -0
package/src/training/AutomationPipeline.ts +916 -0
package/src/training/BenchmarkService.ts +518 -0
package/src/training/ConfigValidator.ts +220 -0
package/src/training/MarketOutcomesTracker.ts +187 -0
package/src/training/ModelDeployer.ts +186 -0
package/src/training/ModelFetcher.ts +76 -0
package/src/training/ModelSelectionService.ts +341 -0
package/src/training/ModelUsageVerifier.ts +160 -0
package/src/training/MultiModelOrchestrator.ts +580 -0
package/src/training/RLModelConfig.ts +407 -0
package/src/training/RewardBackpropagationService.ts +149 -0
package/src/training/RulerScoringService.ts +666 -0
package/src/training/TrainingMonitor.ts +166 -0
package/src/training/TrajectoryRecorder.ts +399 -0
package/src/training/__tests__/TrajectoryRecorder.test.ts +472 -0
package/src/training/index.ts +100 -0
package/src/training/logRLConfig.ts +34 -0
package/src/training/pipeline.ts +129 -0
package/src/training/storage/ModelStorageService.ts +279 -0
package/src/training/storage/TrainingDataArchiver.ts +197 -0
package/src/training/storage/index.ts +17 -0
package/src/training/types.ts +207 -0
package/src/training/window-utils.ts +138 -0
package/src/utils/index.ts +101 -0
package/src/utils/logger.ts +59 -0
package/src/utils/snowflake.ts +17 -0
package/src/utils/synthetic-detector.ts +111 -0
package/tsconfig.json +20 -0

package/python/tests/e2e/test_online_training_e2e.py ADDED Viewed

@@ -0,0 +1,365 @@
+"""
+End-to-end tests for online training mode (Phase 3).
+These tests verify the complete online training pipeline:
+1. Simulation bridge client connectivity
+2. Scenario retrieval from bridge
+3. Online environment rollout collection
+4. Full training loop with online rollouts
+Requirements:
+- Simulation bridge server running (make bridge-server)
+- Or mock server for unit testing
+"""
+import asyncio
+import json
+import os
+import pytest
+from unittest.mock import AsyncMock, MagicMock, patch
+import sys
+from pathlib import Path
+# Add src to path
+sys.path.insert(0, str(Path(__file__).parent.parent.parent))
+from src.training.simulation_bridge import (
+    SimulationBridge,
+    Scenario,
+    MarketState,
+    PerpMarket,
+    PredictionMarket,
+    Position,
+    NewsItem,
+    SocialContext,
+    ActionOutcome,
+)
+from src.training.scenario_pool import (
+    Scenario as PoolScenario,
+    MarketState as PoolMarketState,
+    PortfolioState,
+)
+class TestSimulationBridgeClient:
+    """Tests for the Python simulation bridge client"""
+    @pytest.fixture
+    def mock_response_data(self):
+        """Standard mock response data from bridge"""
+        return {
+            "npcId": "test-npc-1",
+            "archetype": "trader",
+            "marketState": {
+                "perpMarkets": [
+                    {
+                        "ticker": "BTC",
+                        "currentPrice": 45000.0,
+                        "changePercent24h": 2.5,
+                        "volume24h": 1000000.0,
+                    }
+                ],
+                "predictionMarkets": [
+                    {
+                        "id": "market-1",
+                        "title": "Will BTC hit $50K?",
+                        "yesPrice": 0.65,
+                        "noPrice": 0.35,
+                    }
+                ],
+            },
+            "positions": [
+                {
+                    "id": "pos-1",
+                    "marketType": "perp",
+                    "ticker": "BTC",
+                    "side": "long",
+                    "size": 0.5,
+                    "unrealizedPnL": 250.0,
+                }
+            ],
+            "balance": 10000.0,
+            "recentNews": [
+                {
+                    "content": "Market update: BTC rising",
+                    "source": "CryptoNews",
+                    "timestamp": "2025-01-01T00:00:00Z",
+                }
+            ],
+            "socialContext": {
+                "relationships": [
+                    {"actorId": "actor-1", "actorName": "Whale", "sentiment": 0.8}
+                ],
+                "groupChats": ["traders-lounge"],
+                "recentMessages": [{"from": "Whale", "content": "Bullish today!"}],
+            },
+        }
+    def test_scenario_parsing(self, mock_response_data):
+        """Test that bridge response is correctly parsed into Scenario"""
+        # This tests the parsing logic without network calls
+        data = mock_response_data
+        market_state = MarketState(
+            perp_markets=[
+                PerpMarket(
+                    ticker=m["ticker"],
+                    current_price=m["currentPrice"],
+                    change_percent_24h=m["changePercent24h"],
+                    volume_24h=m["volume24h"],
+                )
+                for m in data.get("marketState", {}).get("perpMarkets", [])
+            ],
+            prediction_markets=[
+                PredictionMarket(
+                    id=m["id"],
+                    question=m["title"],
+                    yes_price=m["yesPrice"],
+                    no_price=m["noPrice"],
+                )
+                for m in data.get("marketState", {}).get("predictionMarkets", [])
+            ],
+        )
+        positions = [
+            Position(
+                id=p["id"],
+                market_type=p["marketType"],
+                ticker=p.get("ticker"),
+                side=p["side"],
+                size=p["size"],
+                unrealized_pnl=p.get("unrealizedPnL", 0),
+            )
+            for p in data.get("positions", [])
+        ]
+        scenario = Scenario(
+            npc_id=data["npcId"],
+            archetype=data["archetype"],
+            market_state=market_state,
+            positions=positions,
+            balance=data["balance"],
+            recent_news=[
+                NewsItem(
+                    content=n["content"],
+                    source=n["source"],
+                    timestamp=n["timestamp"],
+                )
+                for n in data.get("recentNews", [])
+            ],
+            social_context=SocialContext(),
+        )
+        assert scenario.npc_id == "test-npc-1"
+        assert scenario.archetype == "trader"
+        assert scenario.balance == 10000.0
+        assert len(scenario.market_state.perp_markets) == 1
+        assert scenario.market_state.perp_markets[0].ticker == "BTC"
+        assert len(scenario.positions) == 1
+        assert scenario.positions[0].unrealized_pnl == 250.0
+    def test_scenario_to_prompt_context(self, mock_response_data):
+        """Test that scenario can be converted to prompt context"""
+        data = mock_response_data
+        market_state = MarketState(
+            perp_markets=[
+                PerpMarket(
+                    ticker="BTC",
+                    current_price=45000.0,
+                    change_percent_24h=2.5,
+                    volume_24h=1000000.0,
+                )
+            ],
+            prediction_markets=[
+                PredictionMarket(
+                    id="market-1",
+                    question="Will BTC hit $50K?",
+                    yes_price=0.65,
+                    no_price=0.35,
+                )
+            ],
+        )
+        scenario = Scenario(
+            npc_id="test-npc-1",
+            archetype="trader",
+            market_state=market_state,
+            positions=[],
+            balance=10000.0,
+            recent_news=[],
+            social_context=SocialContext(),
+        )
+        context = scenario.to_prompt_context()
+        assert "Agent ID: test-npc-1" in context
+        assert "Archetype: trader" in context
+        assert "Balance: $10,000.00" in context
+        assert "BTC" in context
+        # Price format may vary (with or without comma)
+        assert "45000" in context
+        assert "+2.50%" in context
+    @pytest.mark.asyncio
+    async def test_bridge_client_initialization(self):
+        """Test that bridge client initializes correctly"""
+        bridge = SimulationBridge(base_url="http://localhost:3001")
+        assert bridge.base_url == "http://localhost:3001"
+        assert not bridge.is_initialized
+        assert bridge.npc_ids == []
+        assert bridge.archetypes == {}
+class TestOnlineEnvIntegration:
+    """Integration tests for online environment"""
+    def test_pool_scenario_add_methods(self):
+        """Test Scenario.add_market, add_perpetual, add_news methods"""
+        from src.training.scenario_pool import Scenario, PortfolioState
+        scenario = PoolScenario(
+            id="test-1",
+            source="synthetic",
+            archetype_focus="trader",
+            difficulty="medium",
+            portfolio=PortfolioState(balance=10000.0, positions=[]),
+        )
+        # Test add_market
+        scenario.add_market({
+            "id": "mkt-1",
+            "question": "Will BTC hit $50K?",
+            "yesPrice": 0.65,
+            "noPrice": 0.35,
+        })
+        assert len(scenario.markets) == 1
+        assert scenario.markets[0].market_id == "mkt-1"
+        assert scenario.markets[0].question == "Will BTC hit $50K?"
+        # Test add_perpetual
+        scenario.add_perpetual({
+            "ticker": "BTC",
+            "markPrice": 45000.0,
+            "change24h": 2.5,
+        })
+        assert len(scenario.perpetuals) == 1
+        assert scenario.perpetuals[0].ticker == "BTC"
+        assert scenario.perpetuals[0].mark_price == 45000.0
+        # Test add_news
+        scenario.add_news({
+            "headline": "BTC is rising",
+            "sentiment": "bullish",
+            "impact": "high",
+            "source": "CryptoNews",
+        })
+        assert len(scenario.news) == 1
+        assert scenario.news[0].headline == "BTC is rising"
+    def test_scenario_metadata(self):
+        """Test Scenario.metadata field for extensibility"""
+        from src.training.scenario_pool import Scenario, PortfolioState
+        scenario = PoolScenario(
+            id="test-1",
+            source="synthetic",
+            archetype_focus="trader",
+            difficulty="medium",
+            portfolio=PortfolioState(balance=10000.0, positions=[]),
+        )
+        # Metadata should be empty by default
+        assert scenario.metadata == {}
+        # Can add arbitrary metadata
+        scenario.metadata["mode"] = "online"
+        scenario.metadata["npc_id"] = "npc-1"
+        scenario.metadata["bridge_scenario"] = {"npc_id": "npc-1"}
+        assert scenario.metadata["mode"] == "online"
+        assert scenario.metadata["npc_id"] == "npc-1"
+class TestHybridEnv:
+    """Tests for hybrid environment"""
+    def test_hybrid_config_online_ratio(self):
+        """Test that hybrid config accepts online_ratio"""
+        from src.training.hybrid_env import BabylonHybridEnvConfig
+        config = BabylonHybridEnvConfig(
+            tokenizer_name="test-model",
+            online_ratio=0.3,
+        )
+        assert config.online_ratio == 0.3
+    def test_hybrid_config_defaults(self):
+        """Test hybrid config default values"""
+        from src.training.hybrid_env import BabylonHybridEnvConfig
+        config = BabylonHybridEnvConfig(tokenizer_name="test-model")
+        assert config.online_ratio == 0.2
+        assert config.use_simulation_bridge is False  # Default from parent
+        assert config.db_url is None
+class TestModeSelection:
+    """Tests for training mode selection in run_training.py"""
+    def test_mode_argument_parsing(self):
+        """Test that mode arguments are parsed correctly"""
+        # This would require importing and testing argument parsing
+        # For now, we just verify the modes are valid
+        valid_modes = ["offline", "online", "hybrid"]
+        assert "offline" in valid_modes
+        assert "online" in valid_modes
+        assert "hybrid" in valid_modes
+# Integration test that requires bridge server
+@pytest.mark.skipif(
+    os.getenv("SIMULATION_BRIDGE_URL") is None,
+    reason="Simulation bridge not configured"
+)
+class TestLiveBridgeIntegration:
+    """Live integration tests with actual bridge server"""
+    @pytest.mark.asyncio
+    async def test_live_bridge_health(self):
+        """Test bridge health check with live server"""
+        bridge_url = os.getenv("SIMULATION_BRIDGE_URL", "http://localhost:3001")
+        async with SimulationBridge(bridge_url) as bridge:
+            health = await bridge.health_check()
+            assert "status" in health
+            assert health["status"] == "healthy"
+    @pytest.mark.asyncio
+    async def test_live_bridge_init_and_scenario(self):
+        """Test initializing bridge and getting scenario"""
+        bridge_url = os.getenv("SIMULATION_BRIDGE_URL", "http://localhost:3001")
+        async with SimulationBridge(bridge_url) as bridge:
+            # Initialize
+            result = await bridge.initialize(num_npcs=5, archetypes=["trader", "degen"])
+            assert bridge.is_initialized
+            assert len(bridge.npc_ids) == 5
+            # Get scenario
+            npc_id = bridge.npc_ids[0]
+            scenario = await bridge.get_scenario(npc_id)
+            assert scenario.npc_id == npc_id
+            assert scenario.archetype in ["trader", "degen"]
+            assert scenario.balance > 0

package/python/tests/integration/__init__.py ADDED Viewed

@@ -0,0 +1,12 @@
+# Training Pipeline Integration Tests
+#
+# This package contains integration tests that require running infrastructure.
+#
+# Test Tiers:
+# - test_json_mode_integration.py: Tests JSON-only trajectory processing (no DB)
+# - test_db_integration.py: Tests database trajectory processing (requires PostgreSQL)
+#
+# Setup:
+#   docker compose -f docker-compose.test.yml up -d
+#   DATABASE_URL=postgresql://babylon_test:test_password@localhost:5434/babylon_test pytest python/tests/integration/