npm - @elizaos/training - Versions diffs - 2.0.0-alpha.11 - Mend

@elizaos/training 2.0.0-alpha.11

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (207) hide show

package/Dockerfile +75 -0
package/Makefile +374 -0
package/README.md +346 -0
package/config/rubrics.json +137 -0
package/data/.gitkeep +0 -0
package/data/degen/.gitkeep +2 -0
package/data/trader/.gitkeep +2 -0
package/docker-compose.test.yml +57 -0
package/package.json +58 -0
package/python/config/babylon_atropos.yaml +90 -0
package/python/config/profiles/12gb.json +11 -0
package/python/config/profiles/16gb.json +10 -0
package/python/config/profiles/24gb.json +10 -0
package/python/config/profiles/48gb.json +10 -0
package/python/config/profiles/cpu.json +11 -0
package/python/config/profiles/l40-2gpu-safe.json +20 -0
package/python/config/profiles/l40-2gpu.json +22 -0
package/python/config/profiles/l40-4gpu.json +21 -0
package/python/config/profiles/l40.json +17 -0
package/python/config/tinker_training.yaml +143 -0
package/python/curriculum_state.json +165 -0
package/python/env.template +86 -0
package/python/env.training.template +46 -0
package/python/pyproject.toml +41 -0
package/python/requirements-ci.txt +31 -0
package/python/requirements.txt +87 -0
package/python/scripts/__init__.py +4 -0
package/python/scripts/import_json_trajectories.py +412 -0
package/python/scripts/local-finetune/README.md +63 -0
package/python/scripts/local-finetune/ingest_and_score.py +139 -0
package/python/scripts/local-finetune/merge_model.py +32 -0
package/python/scripts/local-finetune/test_adapter.py +91 -0
package/python/scripts/local-finetune/train_from_csv.py +132 -0
package/python/scripts/merge_trajectories.py +318 -0
package/python/scripts/run_ab_test.py +143 -0
package/python/scripts/run_full_pipeline.py +544 -0
package/python/scripts/run_tinker_training.py +192 -0
package/python/scripts/run_training.py +914 -0
package/python/scripts/test_judge.py +155 -0
package/python/scripts/test_pipeline.py +356 -0
package/python/scripts/test_trained_model.py +380 -0
package/python/scripts/train_local.py +528 -0
package/python/setup.py +20 -0
package/python/src/__init__.py +190 -0
package/python/src/data_bridge/__init__.py +24 -0
package/python/src/data_bridge/converter.py +435 -0
package/python/src/data_bridge/reader.py +393 -0
package/python/src/models.py +283 -0
package/python/src/training/__init__.py +605 -0
package/python/src/training/ab_testing.py +404 -0
package/python/src/training/action_executor.py +621 -0
package/python/src/training/archetype_trainer.py +347 -0
package/python/src/training/atropos_trainer.py +980 -0
package/python/src/training/babylon_env.py +1254 -0
package/python/src/training/error_recovery.py +647 -0
package/python/src/training/evaluation.py +856 -0
package/python/src/training/fast_simulator.py +880 -0
package/python/src/training/format_validator.py +584 -0
package/python/src/training/hybrid_env.py +522 -0
package/python/src/training/kl_controller.py +628 -0
package/python/src/training/multi_prompt_dataset.py +883 -0
package/python/src/training/multi_turn.py +656 -0
package/python/src/training/online_env.py +1084 -0
package/python/src/training/quality_scorer.py +391 -0
package/python/src/training/quality_utils.py +633 -0
package/python/src/training/rewards.py +1344 -0
package/python/src/training/rlaif_env.py +17 -0
package/python/src/training/rollout_generator.py +502 -0
package/python/src/training/rubric_loader.py +198 -0
package/python/src/training/scenario_pool.py +1072 -0
package/python/src/training/schemas.py +481 -0
package/python/src/training/service_manager.py +552 -0
package/python/src/training/simulation_bridge.py +535 -0
package/python/src/training/tick_reward_attribution.py +399 -0
package/python/src/training/tinker_client.py +575 -0
package/python/src/training/tinker_trainer.py +646 -0
package/python/src/training/tokenization_utils.py +402 -0
package/python/tests/e2e/__init__.py +13 -0
package/python/tests/e2e/conftest.py +258 -0
package/python/tests/e2e/test_full_pipeline.py +643 -0
package/python/tests/e2e/test_online_training_e2e.py +365 -0
package/python/tests/integration/__init__.py +12 -0
package/python/tests/integration/conftest.py +383 -0
package/python/tests/integration/test_db_integration.py +649 -0
package/python/tests/integration/test_json_mode_integration.py +554 -0
package/python/tests/test_action_executor.py +594 -0
package/python/tests/test_archetype_scoring.py +1027 -0
package/python/tests/test_atropos_integration.py +360 -0
package/python/tests/test_evaluation.py +727 -0
package/python/tests/test_format_validator.py +486 -0
package/python/tests/test_kl_controller.py +432 -0
package/python/tests/test_lr_scheduler.py +579 -0
package/python/tests/test_multi_turn.py +590 -0
package/python/tests/test_online_env.py +519 -0
package/python/tests/test_quality_scorer.py +474 -0
package/python/tests/test_scenario_pool.py +735 -0
package/python/tests/test_service_manager.py +585 -0
package/python/tests/test_simulation_rollout.py +581 -0
package/python/tests/test_tokenization_utils.py +501 -0
package/python/tests/test_training_orchestrator.py +497 -0
package/python/tests/test_training_output_structure.py +661 -0
package/research-output/training-runs/training-run-1770772042899.json +26 -0
package/research-output/training-runs/training-run-1770930079670.json +32 -0
package/research-output/training-runs/training-run-1770930143700.json +44 -0
package/research-output/training-runs/training-run-1770930183638.json +38 -0
package/research-output/training-runs/training-run-1770930442049.json +38 -0
package/research-output/training-runs/training-run-1770930793243.json +38 -0
package/scripts/assess-training-data.ts +422 -0
package/scripts/e2e-training-test.ts +550 -0
package/scripts/export-rubrics.ts +64 -0
package/scripts/generate-research-report.ts +1523 -0
package/scripts/generate_dataset.sh +173 -0
package/scripts/json-mode-benchmark.ts +399 -0
package/scripts/real-archetype-benchmark.ts +210 -0
package/scripts/run-baseline-comparison.ts +116 -0
package/scripts/run-full-pipeline.ts +272 -0
package/scripts/runpod_setup.sh +137 -0
package/scripts/runpod_validate.sh +147 -0
package/scripts/test-model-in-game.ts +955 -0
package/scripts/test-scoring.ts +73 -0
package/scripts/test-trained-model.ts +209 -0
package/scripts/train-and-test.ts +824 -0
package/scripts/verify-final.ts +118 -0
package/src/adapter.ts +516 -0
package/src/archetypes/ArchetypeConfigService.ts +626 -0
package/src/archetypes/derive-archetype.ts +249 -0
package/src/archetypes/index.ts +22 -0
package/src/benchmark/ArchetypeMatchupBenchmark.ts +825 -0
package/src/benchmark/BenchmarkChartGenerator.ts +748 -0
package/src/benchmark/BenchmarkDataGenerator.ts +1288 -0
package/src/benchmark/BenchmarkDataViewer.ts +324 -0
package/src/benchmark/BenchmarkHistoryService.ts +221 -0
package/src/benchmark/BenchmarkRunner.ts +685 -0
package/src/benchmark/BenchmarkValidator.ts +206 -0
package/src/benchmark/FastEvalRunner.ts +225 -0
package/src/benchmark/MetricsValidator.ts +165 -0
package/src/benchmark/MetricsVisualizer.ts +909 -0
package/src/benchmark/ModelBenchmarkService.ts +611 -0
package/src/benchmark/ModelRegistry.ts +158 -0
package/src/benchmark/RulerBenchmarkIntegration.ts +235 -0
package/src/benchmark/SimulationA2AInterface.ts +1169 -0
package/src/benchmark/SimulationEngine.ts +832 -0
package/src/benchmark/__tests__/BenchmarkRunner.test.ts +534 -0
package/src/benchmark/__tests__/HeadToHead.test.ts +126 -0
package/src/benchmark/index.ts +89 -0
package/src/benchmark/parseSimulationMetrics.ts +124 -0
package/src/benchmark/simulation-types.ts +78 -0
package/src/dependencies.ts +439 -0
package/src/generation/TrajectoryGenerator.ts +387 -0
package/src/generation/index.ts +12 -0
package/src/huggingface/HuggingFaceDatasetUploader.ts +636 -0
package/src/huggingface/HuggingFaceIntegrationService.ts +426 -0
package/src/huggingface/HuggingFaceModelUploader.ts +532 -0
package/src/huggingface/index.ts +27 -0
package/src/huggingface/shared/HuggingFaceUploadUtil.ts +206 -0
package/src/index.ts +102 -0
package/src/init-training.ts +53 -0
package/src/metrics/TrajectoryMetricsExtractor.ts +653 -0
package/src/metrics/__tests__/TrajectoryMetricsExtractor.test.ts +759 -0
package/src/metrics/index.ts +8 -0
package/src/metrics/types.ts +200 -0
package/src/rubrics/__tests__/index.test.ts +184 -0
package/src/rubrics/ass-kisser.ts +85 -0
package/src/rubrics/degen.ts +80 -0
package/src/rubrics/goody-twoshoes.ts +84 -0
package/src/rubrics/index.ts +236 -0
package/src/rubrics/information-trader.ts +84 -0
package/src/rubrics/infosec.ts +101 -0
package/src/rubrics/liar.ts +104 -0
package/src/rubrics/perps-trader.ts +87 -0
package/src/rubrics/researcher.ts +81 -0
package/src/rubrics/scammer.ts +82 -0
package/src/rubrics/social-butterfly.ts +73 -0
package/src/rubrics/super-predictor.ts +97 -0
package/src/rubrics/trader.ts +67 -0
package/src/scoring/ArchetypeScoringService.ts +486 -0
package/src/scoring/JudgePromptBuilder.ts +556 -0
package/src/scoring/LLMJudgeCache.ts +401 -0
package/src/scoring/index.ts +9 -0
package/src/training/AutomationPipeline.ts +916 -0
package/src/training/BenchmarkService.ts +518 -0
package/src/training/ConfigValidator.ts +220 -0
package/src/training/MarketOutcomesTracker.ts +187 -0
package/src/training/ModelDeployer.ts +186 -0
package/src/training/ModelFetcher.ts +76 -0
package/src/training/ModelSelectionService.ts +341 -0
package/src/training/ModelUsageVerifier.ts +160 -0
package/src/training/MultiModelOrchestrator.ts +580 -0
package/src/training/RLModelConfig.ts +407 -0
package/src/training/RewardBackpropagationService.ts +149 -0
package/src/training/RulerScoringService.ts +666 -0
package/src/training/TrainingMonitor.ts +166 -0
package/src/training/TrajectoryRecorder.ts +399 -0
package/src/training/__tests__/TrajectoryRecorder.test.ts +472 -0
package/src/training/index.ts +100 -0
package/src/training/logRLConfig.ts +34 -0
package/src/training/pipeline.ts +129 -0
package/src/training/storage/ModelStorageService.ts +279 -0
package/src/training/storage/TrainingDataArchiver.ts +197 -0
package/src/training/storage/index.ts +17 -0
package/src/training/types.ts +207 -0
package/src/training/window-utils.ts +138 -0
package/src/utils/index.ts +101 -0
package/src/utils/logger.ts +59 -0
package/src/utils/snowflake.ts +17 -0
package/src/utils/synthetic-detector.ts +111 -0
package/tsconfig.json +20 -0

package/python/src/training/__init__.py ADDED Viewed

@@ -0,0 +1,605 @@
+"""
+RL training orchestration for ElizaOS-compatible runtimes
+This package provides training infrastructure:
+1. **Atropos-based Trainer** (RECOMMENDED)
+   - `atropos_trainer.py` - GRPO trainer consuming from Atropos API
+   - `rlaif_env.py` - RLAIF environment with pluggable scoring modes
+2. **Fast Rollout Generation**
+   - `rollout_generator.py` - High-speed rollout generation with full agent tick capture
+   - `fast_simulator.py` - Unified simulator for benchmark + data generation
+   - `multi_prompt_dataset.py` - Dataset preparation for each LLM call type
+3. **Supporting Modules**
+   - `rewards.py` - Reward functions and normalization
+   - `quality_utils.py` - Trajectory quality scoring
+   - `tick_reward_attribution.py` - Granular reward attribution for multi-call ticks
+See README.md for usage instructions.
+"""
+# Import non-torch modules directly
+from .rewards import (
+    pnl_reward,
+    risk_adjusted_reward,
+    efficiency_reward,
+    action_quality_reward,
+    composite_reward,
+    relative_scores,
+    ranking_to_scores,
+    pairwise_preferences_to_scores,
+    RewardNormalizer,
+    # Archetype-aware scoring
+    BehaviorMetrics,
+    archetype_composite_reward,
+    calculate_archetype_behavior_bonus,
+    get_archetype_weights,
+    ARCHETYPE_REWARD_WEIGHTS,
+)
+# Quality utilities (no torch dependency)
+from .quality_utils import (
+    calculate_tick_quality_score,
+    calculate_trajectory_quality_score,
+    build_trajectory_from_ticks,
+    state_to_observation,
+    state_to_env_state,
+    validate_trajectory_quality,
+    ValidationResult,
+)
+# Multi-prompt dataset (no torch dependency)
+from .multi_prompt_dataset import (
+    MultiPromptDatasetBuilder,
+    PromptDataset,
+    PromptSample,
+    prepare_multi_prompt_training_data,
+    PromptTypeAnalyzer,
+    validate_training_sample,
+    validate_trajectory_for_training,
+)
+# Tick reward attribution (no torch dependency)
+from .tick_reward_attribution import (
+    TickRewardAttributor,
+    TickData,
+    TickOutcome,
+    LLMCallRecord,
+    CallPurpose,
+    build_training_samples_from_tick,
+    group_samples_for_grpo,
+)
+# Archetype training configuration (no torch dependency)
+from .archetype_trainer import (
+    ArchetypeTrainer,
+    ArchetypeTrainingConfig,
+    ArchetypeTrainingResult,
+)
+# Rubric loading from config/rubrics.json (single source of truth)
+from .rubric_loader import (
+    get_rubric,
+    get_priority_metrics,
+    get_available_archetypes,
+    reload_rubrics,
+    get_rubric_hash,
+    get_all_rubrics_hash,
+    get_rubrics_version,
+    normalize_archetype,
+    has_custom_rubric,
+    DEFAULT_RUBRIC,
+    RUBRICS_VERSION,
+)
+# Schema validation for data integrity
+from .schemas import (
+    TrajectorySchema,
+    StepSchema,
+    ActionSchema,
+    LLMCallSchema,
+    EnvironmentStateSchema,
+    validate_trajectory,
+    validate_step,
+    validate_llm_call,
+    validate_trajectory_file,
+    compare_trajectory_formats,
+    ValidationResult as SchemaValidationResult,
+)
+# Phase 1 & 2: Online GRPO Training Infrastructure
+from .scenario_pool import (
+    Scenario,
+    ScenarioPool,
+    ScenarioPoolConfig,
+    CurriculumManager,
+    MarketState,
+    PerpetualState,
+    NewsItem,
+    SocialPost,
+    PortfolioState as ScenarioPortfolioState,
+)
+from .tokenization_utils import (
+    TokenizationResult,
+    tokenize_for_trainer,
+    tokenize_conversation_for_trainer,
+    validate_masks,
+    create_masks_from_response_start,
+    fix_historical_masks,
+)
+from .action_executor import (
+    ActionResult,
+    ActionExecutor,
+    PortfolioState as ExecutorPortfolioState,
+    validate_action,
+    execute_action_for_training,
+    calculate_action_quality_bonus,
+    set_simulation_seed,
+    reset_simulation_rng,
+)
+from .format_validator import (
+    ThinkTagResult,
+    ActionValidationResult,
+    ReasoningQualityResult,
+    LengthAnalysisResult,
+    FormatValidationResult,
+    validate_response_format,
+    validate_think_tags,
+    validate_action_json,
+    get_format_and_reasoning_scores,
+    validate_for_training,
+)
+from .quality_scorer import (
+    QualityScore,
+    calculate_thinking_length_penalty,
+    calculate_response_length_penalty,
+    calculate_combined_length_penalty,
+    score_response,
+    score_response_for_reward,
+    get_quality_bonus_for_archetype,
+    score_response_batch,
+    get_relative_quality_scores,
+)
+# Phase 3: Evaluation & Monitoring
+from .evaluation import (
+    EvaluationSuite,
+    EvalResult,
+    ArchetypeMetrics,
+    TestScenarioManager,
+    TestScenario,
+    BaselineManager,
+    BaselineResult,
+    RolloutDumper,
+    RolloutRecord,
+    get_wandb_config,
+    STEP_METRICS,
+    EVAL_METRICS,
+)
+# Phase 4: A/B Testing & Production Evaluation
+from .ab_testing import (
+    ABTestRunner,
+    ABTestResult,
+    ModelResult,
+    EVAL_SCENARIOS,
+    run_ab_test,
+)
+# Phase 4: Advanced Features (NOT YET INTEGRATED - ready for future use)
+# These modules are tested but not called by rlaif/online env runtime paths.
+from .kl_controller import (
+    KLConfig,
+    KLStats,
+    KLControllerBase,
+    create_kl_controller,
+    compute_kl_divergence,
+    estimate_kl_from_samples,
+)
+from .multi_turn import (
+    TurnData,
+    EpisodeBuffer,
+    GAEConfig,
+    MultiTurnEpisodeManager,
+    EpisodeCollector,
+    shape_trading_rewards,
+    compute_episode_return,
+    normalize_episode_rewards,
+)
+# Phase 5: Simulation Bridge for online training
+from .simulation_bridge import (
+    SimulationBridge,
+    PerpMarket,
+    PredictionMarket,
+    Position,
+    NewsItem as BridgeNewsItem,
+    Relationship,
+    SocialContext,
+    MarketState as BridgeMarketState,
+    Scenario as BridgeScenario,
+    ActionOutcome,
+    TickResult,
+    create_bridge,
+)
+# Error recovery and graceful degradation
+from .error_recovery import (
+    ErrorCategory,
+    TrainingError,
+    classify_error,
+    is_recoverable,
+    with_retry,
+    with_retry_async,
+    RecoveryResult,
+    recover_json_parse,
+    recover_trajectory_archetype,
+    filter_valid_trajectories,
+    DatabaseConnectionManager,
+    GracefulShutdown,
+    TrainingProgress,
+    safe_divide,
+    clamp,
+    require_env,
+    get_env_or_default,
+)
+# Lazy imports for torch-dependent modules
+# These imports are dynamically returned via __getattr__ - not unused  # noqa: F401
+def __getattr__(name: str):
+    """Lazy import for torch-dependent modules."""
+    if name in (
+        "AtroposTrainer",
+        "BabylonAtroposTrainer",
+        "AtroposTrainingConfig",
+    ):
+        from .atropos_trainer import (  # noqa: F401
+            AtroposTrainer,
+            BabylonAtroposTrainer,
+            AtroposTrainingConfig,
+        )
+        return locals()[name]
+    if name in (
+        "RLAIFEnv",
+        "RLAIFEnvConfig",
+        "BabylonRLAIFEnv",
+        "BabylonEnvConfig",
+    ):
+        from .rlaif_env import (  # noqa: F401
+            RLAIFEnv,
+            RLAIFEnvConfig,
+            BabylonRLAIFEnv,
+            BabylonEnvConfig,
+        )
+        return locals()[name]
+    if name in (
+        "BabylonOnlineEnv",
+        "BabylonOnlineEnvConfig",
+    ):
+        from .online_env import (  # noqa: F401
+            BabylonOnlineEnv,
+            BabylonOnlineEnvConfig,
+        )
+        return locals()[name]
+    if name in (
+        "BabylonHybridEnv",
+        "BabylonHybridEnvConfig",
+    ):
+        from .hybrid_env import (  # noqa: F401
+            BabylonHybridEnv,
+            BabylonHybridEnvConfig,
+        )
+        return locals()[name]
+    if name in (
+        "FastRolloutGenerator",
+        "RolloutConfig",
+        "RolloutResult",
+        "AgentTickData",
+        "RolloutQualityValidator",
+        "AgentRunner",
+    ):
+        from .rollout_generator import (  # noqa: F401
+            FastRolloutGenerator,
+            RolloutConfig,
+            RolloutResult,
+            AgentTickData,
+            RolloutQualityValidator,
+            AgentRunner,
+        )
+        return locals()[name]
+    if name in (
+        "FastSimulator",
+        "SimulatorConfig",
+        "SimulatorMetrics",
+        "GameState",
+    ):
+        from .fast_simulator import (  # noqa: F401
+            FastSimulator,
+            SimulatorConfig,
+            SimulatorMetrics,
+            GameState,
+        )
+        return locals()[name]
+    # Tinker integration (lazy - requires tinker package)
+    if name in (
+        "TinkerClient",
+        "BabylonTinkerClient",
+        "TinkerConfig",
+        "TinkerDatum",
+        "TrainStepResult",
+        "SampleResult",
+        "TINKER_AVAILABLE",
+    ):
+        from .tinker_client import (  # noqa: F401
+            TinkerClient,
+            BabylonTinkerClient,
+            TinkerConfig,
+            TinkerDatum,
+            TrainStepResult,
+            SampleResult,
+            TINKER_AVAILABLE,
+        )
+        return locals()[name]
+    if name in (
+        "TinkerTrainer",
+        "BabylonTinkerTrainer",
+        "TinkerTrainingConfig",
+        "TrainingMetrics",
+    ):
+        from .tinker_trainer import (  # noqa: F401
+            TinkerTrainer,
+            BabylonTinkerTrainer,
+            TinkerTrainingConfig,
+            TrainingMetrics,
+        )
+        return locals()[name]
+    # Service manager (lazy - requires requests)
+    if name in (
+        "ServiceManager",
+        "ServiceConfig",
+        "ServiceStatus",
+        "check_prerequisites",
+    ):
+        from .service_manager import (  # noqa: F401
+            ServiceManager,
+            ServiceConfig,
+            ServiceStatus,
+            check_prerequisites,
+        )
+        return locals()[name]
+    raise AttributeError(f"module {__name__!r} has no attribute {name!r}")
+__all__ = [
+    # Atropos trainer (lazy - requires torch)
+    "AtroposTrainer",
+    "BabylonAtroposTrainer",
+    "AtroposTrainingConfig",
+    "RLAIFEnv",
+    "RLAIFEnvConfig",
+    "BabylonRLAIFEnv",
+    "BabylonEnvConfig",
+    "BabylonOnlineEnv",
+    "BabylonOnlineEnvConfig",
+    "BabylonHybridEnv",
+    "BabylonHybridEnvConfig",
+    # Phase 1 & 2: Online GRPO Training Infrastructure
+    "Scenario",
+    "ScenarioPool",
+    "ScenarioPoolConfig",
+    "CurriculumManager",
+    "MarketState",
+    "PerpetualState",
+    "NewsItem",
+    "SocialPost",
+    "ScenarioPortfolioState",
+    "TokenizationResult",
+    "tokenize_for_trainer",
+    "tokenize_conversation_for_trainer",
+    "validate_masks",
+    "create_masks_from_response_start",
+    "fix_historical_masks",
+    "ActionResult",
+    "ActionExecutor",
+    "ExecutorPortfolioState",
+    "validate_action",
+    "execute_action_for_training",
+    "calculate_action_quality_bonus",
+    "set_simulation_seed",
+    "reset_simulation_rng",
+    "ThinkTagResult",
+    "ActionValidationResult",
+    "ReasoningQualityResult",
+    "LengthAnalysisResult",
+    "FormatValidationResult",
+    "validate_response_format",
+    "validate_think_tags",
+    "validate_action_json",
+    "get_format_and_reasoning_scores",
+    "validate_for_training",
+    "QualityScore",
+    "calculate_thinking_length_penalty",
+    "calculate_response_length_penalty",
+    "calculate_combined_length_penalty",
+    "score_response",
+    "score_response_for_reward",
+    "get_quality_bonus_for_archetype",
+    "score_response_batch",
+    "get_relative_quality_scores",
+    # Phase 3: Evaluation & Monitoring
+    "EvaluationSuite",
+    "EvalResult",
+    "ArchetypeMetrics",
+    "TestScenarioManager",
+    "TestScenario",
+    "BaselineManager",
+    "BaselineResult",
+    "RolloutDumper",
+    "RolloutRecord",
+    "get_wandb_config",
+    "STEP_METRICS",
+    "EVAL_METRICS",
+    # Phase 4: A/B Testing
+    "ABTestRunner",
+    "ABTestResult",
+    "ModelResult",
+    "EVAL_SCENARIOS",
+    "run_ab_test",
+    # Phase 4: Advanced Features
+    "KLConfig",
+    "KLStats",
+    "KLControllerBase",
+    "create_kl_controller",
+    "compute_kl_divergence",
+    "estimate_kl_from_samples",
+    "TurnData",
+    "EpisodeBuffer",
+    "GAEConfig",
+    "MultiTurnEpisodeManager",
+    "EpisodeCollector",
+    "shape_trading_rewards",
+    "compute_episode_return",
+    "normalize_episode_rewards",
+    # Tinker trainer (lazy - requires tinker)
+    "TinkerClient",
+    "BabylonTinkerClient",
+    "TinkerConfig",
+    "TinkerDatum",
+    "TrainStepResult",
+    "SampleResult",
+    "TINKER_AVAILABLE",
+    "TinkerTrainer",
+    "BabylonTinkerTrainer",
+    "TinkerTrainingConfig",
+    "TrainingMetrics",
+    # Reward functions
+    "pnl_reward",
+    "risk_adjusted_reward",
+    "efficiency_reward",
+    "action_quality_reward",
+    "composite_reward",
+    "relative_scores",
+    "ranking_to_scores",
+    "pairwise_preferences_to_scores",
+    "RewardNormalizer",
+    # Archetype-aware scoring
+    "BehaviorMetrics",
+    "archetype_composite_reward",
+    "calculate_archetype_behavior_bonus",
+    "get_archetype_weights",
+    "ARCHETYPE_REWARD_WEIGHTS",
+    # Fast rollout generation (lazy - may require torch)
+    "FastRolloutGenerator",
+    "RolloutConfig",
+    "RolloutResult",
+    "AgentTickData",
+    "RolloutQualityValidator",
+    "AgentRunner",
+    "FastSimulator",
+    "SimulatorConfig",
+    "SimulatorMetrics",
+    "GameState",
+    "MultiPromptDatasetBuilder",
+    "PromptDataset",
+    "PromptSample",
+    "prepare_multi_prompt_training_data",
+    "PromptTypeAnalyzer",
+    "validate_training_sample",
+    "validate_trajectory_for_training",
+    # Tick reward attribution
+    "TickRewardAttributor",
+    "TickData",
+    "TickOutcome",
+    "LLMCallRecord",
+    "CallPurpose",
+    "build_training_samples_from_tick",
+    "group_samples_for_grpo",
+    # Quality utilities
+    "calculate_tick_quality_score",
+    "calculate_trajectory_quality_score",
+    "build_trajectory_from_ticks",
+    "state_to_observation",
+    "state_to_env_state",
+    "validate_trajectory_quality",
+    "ValidationResult",
+    # Archetype training
+    "ArchetypeTrainer",
+    "ArchetypeTrainingConfig",
+    "ArchetypeTrainingResult",
+    # Rubric loading
+    "get_rubric",
+    "get_priority_metrics",
+    "get_available_archetypes",
+    "reload_rubrics",
+    "get_rubric_hash",
+    "get_all_rubrics_hash",
+    "get_rubrics_version",
+    "normalize_archetype",
+    "has_custom_rubric",
+    "DEFAULT_RUBRIC",
+    "RUBRICS_VERSION",
+    # Service manager
+    "ServiceManager",
+    "ServiceConfig",
+    "ServiceStatus",
+    "check_prerequisites",
+    # Schema validation
+    "TrajectorySchema",
+    "StepSchema",
+    "ActionSchema",
+    "LLMCallSchema",
+    "EnvironmentStateSchema",
+    "validate_trajectory",
+    "validate_step",
+    "validate_llm_call",
+    "validate_trajectory_file",
+    "compare_trajectory_formats",
+    "SchemaValidationResult",
+    # Phase 5: Simulation Bridge
+    "SimulationBridge",
+    "PerpMarket",
+    "PredictionMarket",
+    "Position",
+    "BridgeNewsItem",
+    "Relationship",
+    "SocialContext",
+    "BridgeMarketState",
+    "BridgeScenario",
+    "ActionOutcome",
+    "TickResult",
+    "create_bridge",
+    # Error recovery
+    "ErrorCategory",
+    "TrainingError",
+    "classify_error",
+    "is_recoverable",
+    "with_retry",
+    "with_retry_async",
+    "RecoveryResult",
+    "recover_json_parse",
+    "recover_trajectory_archetype",
+    "filter_valid_trajectories",
+    "DatabaseConnectionManager",
+    "GracefulShutdown",
+    "TrainingProgress",
+    "safe_divide",
+    "clamp",
+    "require_env",
+    "get_env_or_default",
+]