npm - @elizaos/training - Versions diffs - 2.0.0-alpha.11 - Mend

@elizaos/training 2.0.0-alpha.11

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (207) hide show

package/Dockerfile +75 -0
package/Makefile +374 -0
package/README.md +346 -0
package/config/rubrics.json +137 -0
package/data/.gitkeep +0 -0
package/data/degen/.gitkeep +2 -0
package/data/trader/.gitkeep +2 -0
package/docker-compose.test.yml +57 -0
package/package.json +58 -0
package/python/config/babylon_atropos.yaml +90 -0
package/python/config/profiles/12gb.json +11 -0
package/python/config/profiles/16gb.json +10 -0
package/python/config/profiles/24gb.json +10 -0
package/python/config/profiles/48gb.json +10 -0
package/python/config/profiles/cpu.json +11 -0
package/python/config/profiles/l40-2gpu-safe.json +20 -0
package/python/config/profiles/l40-2gpu.json +22 -0
package/python/config/profiles/l40-4gpu.json +21 -0
package/python/config/profiles/l40.json +17 -0
package/python/config/tinker_training.yaml +143 -0
package/python/curriculum_state.json +165 -0
package/python/env.template +86 -0
package/python/env.training.template +46 -0
package/python/pyproject.toml +41 -0
package/python/requirements-ci.txt +31 -0
package/python/requirements.txt +87 -0
package/python/scripts/__init__.py +4 -0
package/python/scripts/import_json_trajectories.py +412 -0
package/python/scripts/local-finetune/README.md +63 -0
package/python/scripts/local-finetune/ingest_and_score.py +139 -0
package/python/scripts/local-finetune/merge_model.py +32 -0
package/python/scripts/local-finetune/test_adapter.py +91 -0
package/python/scripts/local-finetune/train_from_csv.py +132 -0
package/python/scripts/merge_trajectories.py +318 -0
package/python/scripts/run_ab_test.py +143 -0
package/python/scripts/run_full_pipeline.py +544 -0
package/python/scripts/run_tinker_training.py +192 -0
package/python/scripts/run_training.py +914 -0
package/python/scripts/test_judge.py +155 -0
package/python/scripts/test_pipeline.py +356 -0
package/python/scripts/test_trained_model.py +380 -0
package/python/scripts/train_local.py +528 -0
package/python/setup.py +20 -0
package/python/src/__init__.py +190 -0
package/python/src/data_bridge/__init__.py +24 -0
package/python/src/data_bridge/converter.py +435 -0
package/python/src/data_bridge/reader.py +393 -0
package/python/src/models.py +283 -0
package/python/src/training/__init__.py +605 -0
package/python/src/training/ab_testing.py +404 -0
package/python/src/training/action_executor.py +621 -0
package/python/src/training/archetype_trainer.py +347 -0
package/python/src/training/atropos_trainer.py +980 -0
package/python/src/training/babylon_env.py +1254 -0
package/python/src/training/error_recovery.py +647 -0
package/python/src/training/evaluation.py +856 -0
package/python/src/training/fast_simulator.py +880 -0
package/python/src/training/format_validator.py +584 -0
package/python/src/training/hybrid_env.py +522 -0
package/python/src/training/kl_controller.py +628 -0
package/python/src/training/multi_prompt_dataset.py +883 -0
package/python/src/training/multi_turn.py +656 -0
package/python/src/training/online_env.py +1084 -0
package/python/src/training/quality_scorer.py +391 -0
package/python/src/training/quality_utils.py +633 -0
package/python/src/training/rewards.py +1344 -0
package/python/src/training/rlaif_env.py +17 -0
package/python/src/training/rollout_generator.py +502 -0
package/python/src/training/rubric_loader.py +198 -0
package/python/src/training/scenario_pool.py +1072 -0
package/python/src/training/schemas.py +481 -0
package/python/src/training/service_manager.py +552 -0
package/python/src/training/simulation_bridge.py +535 -0
package/python/src/training/tick_reward_attribution.py +399 -0
package/python/src/training/tinker_client.py +575 -0
package/python/src/training/tinker_trainer.py +646 -0
package/python/src/training/tokenization_utils.py +402 -0
package/python/tests/e2e/__init__.py +13 -0
package/python/tests/e2e/conftest.py +258 -0
package/python/tests/e2e/test_full_pipeline.py +643 -0
package/python/tests/e2e/test_online_training_e2e.py +365 -0
package/python/tests/integration/__init__.py +12 -0
package/python/tests/integration/conftest.py +383 -0
package/python/tests/integration/test_db_integration.py +649 -0
package/python/tests/integration/test_json_mode_integration.py +554 -0
package/python/tests/test_action_executor.py +594 -0
package/python/tests/test_archetype_scoring.py +1027 -0
package/python/tests/test_atropos_integration.py +360 -0
package/python/tests/test_evaluation.py +727 -0
package/python/tests/test_format_validator.py +486 -0
package/python/tests/test_kl_controller.py +432 -0
package/python/tests/test_lr_scheduler.py +579 -0
package/python/tests/test_multi_turn.py +590 -0
package/python/tests/test_online_env.py +519 -0
package/python/tests/test_quality_scorer.py +474 -0
package/python/tests/test_scenario_pool.py +735 -0
package/python/tests/test_service_manager.py +585 -0
package/python/tests/test_simulation_rollout.py +581 -0
package/python/tests/test_tokenization_utils.py +501 -0
package/python/tests/test_training_orchestrator.py +497 -0
package/python/tests/test_training_output_structure.py +661 -0
package/research-output/training-runs/training-run-1770772042899.json +26 -0
package/research-output/training-runs/training-run-1770930079670.json +32 -0
package/research-output/training-runs/training-run-1770930143700.json +44 -0
package/research-output/training-runs/training-run-1770930183638.json +38 -0
package/research-output/training-runs/training-run-1770930442049.json +38 -0
package/research-output/training-runs/training-run-1770930793243.json +38 -0
package/scripts/assess-training-data.ts +422 -0
package/scripts/e2e-training-test.ts +550 -0
package/scripts/export-rubrics.ts +64 -0
package/scripts/generate-research-report.ts +1523 -0
package/scripts/generate_dataset.sh +173 -0
package/scripts/json-mode-benchmark.ts +399 -0
package/scripts/real-archetype-benchmark.ts +210 -0
package/scripts/run-baseline-comparison.ts +116 -0
package/scripts/run-full-pipeline.ts +272 -0
package/scripts/runpod_setup.sh +137 -0
package/scripts/runpod_validate.sh +147 -0
package/scripts/test-model-in-game.ts +955 -0
package/scripts/test-scoring.ts +73 -0
package/scripts/test-trained-model.ts +209 -0
package/scripts/train-and-test.ts +824 -0
package/scripts/verify-final.ts +118 -0
package/src/adapter.ts +516 -0
package/src/archetypes/ArchetypeConfigService.ts +626 -0
package/src/archetypes/derive-archetype.ts +249 -0
package/src/archetypes/index.ts +22 -0
package/src/benchmark/ArchetypeMatchupBenchmark.ts +825 -0
package/src/benchmark/BenchmarkChartGenerator.ts +748 -0
package/src/benchmark/BenchmarkDataGenerator.ts +1288 -0
package/src/benchmark/BenchmarkDataViewer.ts +324 -0
package/src/benchmark/BenchmarkHistoryService.ts +221 -0
package/src/benchmark/BenchmarkRunner.ts +685 -0
package/src/benchmark/BenchmarkValidator.ts +206 -0
package/src/benchmark/FastEvalRunner.ts +225 -0
package/src/benchmark/MetricsValidator.ts +165 -0
package/src/benchmark/MetricsVisualizer.ts +909 -0
package/src/benchmark/ModelBenchmarkService.ts +611 -0
package/src/benchmark/ModelRegistry.ts +158 -0
package/src/benchmark/RulerBenchmarkIntegration.ts +235 -0
package/src/benchmark/SimulationA2AInterface.ts +1169 -0
package/src/benchmark/SimulationEngine.ts +832 -0
package/src/benchmark/__tests__/BenchmarkRunner.test.ts +534 -0
package/src/benchmark/__tests__/HeadToHead.test.ts +126 -0
package/src/benchmark/index.ts +89 -0
package/src/benchmark/parseSimulationMetrics.ts +124 -0
package/src/benchmark/simulation-types.ts +78 -0
package/src/dependencies.ts +439 -0
package/src/generation/TrajectoryGenerator.ts +387 -0
package/src/generation/index.ts +12 -0
package/src/huggingface/HuggingFaceDatasetUploader.ts +636 -0
package/src/huggingface/HuggingFaceIntegrationService.ts +426 -0
package/src/huggingface/HuggingFaceModelUploader.ts +532 -0
package/src/huggingface/index.ts +27 -0
package/src/huggingface/shared/HuggingFaceUploadUtil.ts +206 -0
package/src/index.ts +102 -0
package/src/init-training.ts +53 -0
package/src/metrics/TrajectoryMetricsExtractor.ts +653 -0
package/src/metrics/__tests__/TrajectoryMetricsExtractor.test.ts +759 -0
package/src/metrics/index.ts +8 -0
package/src/metrics/types.ts +200 -0
package/src/rubrics/__tests__/index.test.ts +184 -0
package/src/rubrics/ass-kisser.ts +85 -0
package/src/rubrics/degen.ts +80 -0
package/src/rubrics/goody-twoshoes.ts +84 -0
package/src/rubrics/index.ts +236 -0
package/src/rubrics/information-trader.ts +84 -0
package/src/rubrics/infosec.ts +101 -0
package/src/rubrics/liar.ts +104 -0
package/src/rubrics/perps-trader.ts +87 -0
package/src/rubrics/researcher.ts +81 -0
package/src/rubrics/scammer.ts +82 -0
package/src/rubrics/social-butterfly.ts +73 -0
package/src/rubrics/super-predictor.ts +97 -0
package/src/rubrics/trader.ts +67 -0
package/src/scoring/ArchetypeScoringService.ts +486 -0
package/src/scoring/JudgePromptBuilder.ts +556 -0
package/src/scoring/LLMJudgeCache.ts +401 -0
package/src/scoring/index.ts +9 -0
package/src/training/AutomationPipeline.ts +916 -0
package/src/training/BenchmarkService.ts +518 -0
package/src/training/ConfigValidator.ts +220 -0
package/src/training/MarketOutcomesTracker.ts +187 -0
package/src/training/ModelDeployer.ts +186 -0
package/src/training/ModelFetcher.ts +76 -0
package/src/training/ModelSelectionService.ts +341 -0
package/src/training/ModelUsageVerifier.ts +160 -0
package/src/training/MultiModelOrchestrator.ts +580 -0
package/src/training/RLModelConfig.ts +407 -0
package/src/training/RewardBackpropagationService.ts +149 -0
package/src/training/RulerScoringService.ts +666 -0
package/src/training/TrainingMonitor.ts +166 -0
package/src/training/TrajectoryRecorder.ts +399 -0
package/src/training/__tests__/TrajectoryRecorder.test.ts +472 -0
package/src/training/index.ts +100 -0
package/src/training/logRLConfig.ts +34 -0
package/src/training/pipeline.ts +129 -0
package/src/training/storage/ModelStorageService.ts +279 -0
package/src/training/storage/TrainingDataArchiver.ts +197 -0
package/src/training/storage/index.ts +17 -0
package/src/training/types.ts +207 -0
package/src/training/window-utils.ts +138 -0
package/src/utils/index.ts +101 -0
package/src/utils/logger.ts +59 -0
package/src/utils/snowflake.ts +17 -0
package/src/utils/synthetic-detector.ts +111 -0
package/tsconfig.json +20 -0

package/python/src/training/archetype_trainer.py ADDED Viewed

@@ -0,0 +1,347 @@
+"""
+Archetype-Aware Training Pipeline
+Train agents with different "values" using archetype-specific rubrics.
+Supports training single archetypes, multiple archetypes, or all archetypes at once.
+Usage:
+    # Train a single archetype
+    trainer = ArchetypeTrainer()
+    await trainer.train_archetype("trader")
+    # Train multiple archetypes
+    await trainer.train_archetypes(["trader", "scammer", "social-butterfly"])
+    # Train all archetypes
+    await trainer.train_all_archetypes()
+"""
+import asyncio
+import logging
+import os
+from dataclasses import dataclass
+from pathlib import Path
+from typing import Dict, List, Optional
+# Import rubrics from centralized loader (single source of truth)
+from .rubric_loader import (
+    get_rubric,
+    get_priority_metrics,
+    get_available_archetypes,
+    reload_rubrics,
+    DEFAULT_RUBRIC,
+)
+logger = logging.getLogger(__name__)
+# ============================================================================
+# Archetype Rubrics - Loaded from config/rubrics.json via rubric_loader
+# ============================================================================
+#
+# All rubrics are now defined in packages/training/config/rubrics.json
+# This is the single source of truth shared between TypeScript and Python.
+#
+# Use these functions (imported from rubric_loader):
+#   get_rubric(archetype)          - Get the rubric text for an archetype
+#   get_priority_metrics(archetype) - Get priority metrics for scoring
+#   get_available_archetypes()     - Get list of all archetypes
+#   reload_rubrics()               - Reload rubrics from JSON file
+#   DEFAULT_RUBRIC                 - Fallback rubric for unknown archetypes
+# ============================================================================
+# ============================================================================
+# Archetype Training Configuration
+# ============================================================================
+@dataclass
+class ArchetypeTrainingConfig:
+    """Configuration for archetype-specific training"""
+    # Model settings
+    base_model: str = "Qwen/Qwen3-4B"
+    # Training hyperparameters
+    training_steps: int = 100
+    batch_size: int = 4
+    learning_rate: float = 1e-5
+    # Data settings
+    min_trajectories_per_archetype: int = 10
+    lookback_hours: int = 72
+    # Output settings
+    output_dir: str = "./trained_models"
+    save_per_archetype: bool = True
+    # Judge settings
+    judge_model: str = "gpt-4o-mini"
+    # Logging
+    log_to_file: bool = True
+    log_dir: str = "./logs"
+@dataclass
+class ArchetypeTrainingResult:
+    """Result of training for a specific archetype"""
+    archetype: str
+    trajectories_used: int
+    training_steps: int
+    final_loss: float
+    checkpoint_path: str
+    metrics: Dict
+# ============================================================================
+# Main Archetype Trainer
+# ============================================================================
+class ArchetypeTrainer:
+    """
+    Multi-archetype training orchestrator.
+    Makes it easy to train agents with different values/goals.
+    """
+    def __init__(self, config: Optional[ArchetypeTrainingConfig] = None):
+        self.config = config or ArchetypeTrainingConfig()
+        self._ensure_dirs()
+    def _ensure_dirs(self):
+        """Create output directories if they don't exist"""
+        Path(self.config.output_dir).mkdir(parents=True, exist_ok=True)
+        Path(self.config.log_dir).mkdir(parents=True, exist_ok=True)
+    async def train_archetype(
+        self,
+        archetype: str,
+        trajectories: Optional[List] = None,
+    ) -> ArchetypeTrainingResult:
+        """
+        Train a single archetype.
+        Args:
+            archetype: Name of the archetype to train (e.g., "trader", "scammer")
+            trajectories: Optional pre-loaded trajectories. If None, loads from DB.
+        Returns:
+            ArchetypeTrainingResult with training metrics and checkpoint path
+        """
+        from .babylon_env import BabylonEnvConfig
+        from .atropos_trainer import BabylonAtroposTrainer, AtroposTrainingConfig
+        logger.info(f"Starting training for archetype: {archetype}")
+        # Get archetype-specific rubric
+        rubric = get_rubric(archetype)
+        # Configure environment with archetype rubric
+        # Note: env_config is prepared for when the BabylonRLAIFEnv is started
+        # In the full pipeline, this would be passed to the environment server
+        _ = BabylonEnvConfig(
+            scoring_rubric=rubric,
+            judge_model=self.config.judge_model,
+            lookback_hours=self.config.lookback_hours,
+        )
+        # Configure trainer
+        trainer_config = AtroposTrainingConfig(
+            model_name=self.config.base_model,
+            training_steps=self.config.training_steps,
+            batch_size=self.config.batch_size,
+            learning_rate=self.config.learning_rate,
+            log_to_file=self.config.log_to_file,
+            log_file=f"{self.config.log_dir}/training_{archetype}.jsonl",
+        )
+        # Initialize trainer
+        trainer = BabylonAtroposTrainer(trainer_config)
+        # Run training
+        result = await trainer.train()
+        # Build output
+        checkpoint_path = result.get("final_checkpoint", "")
+        # Rename checkpoint to include archetype
+        if checkpoint_path and self.config.save_per_archetype:
+            archetype_path = f"{self.config.output_dir}/{archetype}_model"
+            import shutil
+            if os.path.exists(checkpoint_path):
+                shutil.copytree(checkpoint_path, archetype_path, dirs_exist_ok=True)
+                checkpoint_path = archetype_path
+        return ArchetypeTrainingResult(
+            archetype=archetype,
+            trajectories_used=result.get("steps", 0) * self.config.batch_size,
+            training_steps=result.get("steps", 0),
+            final_loss=result.get("metrics", [{}])[-1].get("loss", 0) if result.get("metrics") else 0,
+            checkpoint_path=checkpoint_path,
+            metrics={"training_metrics": result.get("metrics", [])},
+        )
+    async def train_archetypes(
+        self,
+        archetypes: List[str],
+        parallel: bool = False,
+    ) -> List[ArchetypeTrainingResult]:
+        """
+        Train multiple archetypes.
+        Args:
+            archetypes: List of archetype names to train
+            parallel: If True, train archetypes in parallel (requires more resources)
+        Returns:
+            List of ArchetypeTrainingResult for each archetype
+        """
+        logger.info(f"Training {len(archetypes)} archetypes: {archetypes}")
+        if parallel:
+            # Train in parallel (requires significant resources)
+            tasks = [self.train_archetype(arch) for arch in archetypes]
+            results = await asyncio.gather(*tasks, return_exceptions=True)
+            # Filter out exceptions
+            valid_results = []
+            for i, result in enumerate(results):
+                if isinstance(result, Exception):
+                    logger.error(f"Failed to train {archetypes[i]}: {result}")
+                else:
+                    valid_results.append(result)
+            return valid_results
+        else:
+            # Train sequentially (safer, less resource-intensive)
+            results = []
+            for archetype in archetypes:
+                try:
+                    result = await self.train_archetype(archetype)
+                    results.append(result)
+                except Exception as e:
+                    logger.error(f"Failed to train {archetype}: {e}")
+            return results
+    async def train_all_archetypes(
+        self,
+        parallel: bool = False,
+    ) -> List[ArchetypeTrainingResult]:
+        """
+        Train ALL available archetypes.
+        Args:
+            parallel: If True, train in parallel
+        Returns:
+            List of ArchetypeTrainingResult for all archetypes
+        """
+        all_archetypes = get_available_archetypes()
+        return await self.train_archetypes(all_archetypes, parallel=parallel)
+    def get_trained_model_path(self, archetype: str) -> Optional[str]:
+        """Get path to trained model for an archetype"""
+        path = f"{self.config.output_dir}/{archetype}_model"
+        return path if os.path.exists(path) else None
+    def list_trained_archetypes(self) -> List[str]:
+        """List all archetypes that have been trained"""
+        output_dir = Path(self.config.output_dir)
+        trained = []
+        for arch in get_available_archetypes():
+            if (output_dir / f"{arch}_model").exists():
+                trained.append(arch)
+        return trained
+# ============================================================================
+# CLI Entry Point
+# ============================================================================
+def main():
+    """CLI entry point for archetype training"""
+    import argparse
+    parser = argparse.ArgumentParser(description="Train agents with archetype-specific values")
+    parser.add_argument(
+        "--archetype",
+        type=str,
+        default=None,
+        help="Single archetype to train (e.g., 'trader', 'scammer')"
+    )
+    parser.add_argument(
+        "--archetypes",
+        type=str,
+        nargs="+",
+        default=None,
+        help="Multiple archetypes to train (e.g., --archetypes trader scammer)"
+    )
+    parser.add_argument(
+        "--all",
+        action="store_true",
+        help="Train all available archetypes"
+    )
+    parser.add_argument(
+        "--parallel",
+        action="store_true",
+        help="Train archetypes in parallel (requires more resources)"
+    )
+    parser.add_argument(
+        "--list",
+        action="store_true",
+        help="List all available archetypes"
+    )
+    parser.add_argument(
+        "--steps",
+        type=int,
+        default=100,
+        help="Training steps per archetype"
+    )
+    parser.add_argument(
+        "--output-dir",
+        type=str,
+        default="./trained_models",
+        help="Directory to save trained models"
+    )
+    args = parser.parse_args()
+    if args.list:
+        print("Available archetypes:")
+        for arch in get_available_archetypes():
+            print(f"  - {arch}")
+        return
+    config = ArchetypeTrainingConfig(
+        training_steps=args.steps,
+        output_dir=args.output_dir,
+    )
+    trainer = ArchetypeTrainer(config)
+    async def run():
+        if args.all:
+            results = await trainer.train_all_archetypes(parallel=args.parallel)
+        elif args.archetypes:
+            results = await trainer.train_archetypes(args.archetypes, parallel=args.parallel)
+        elif args.archetype:
+            result = await trainer.train_archetype(args.archetype)
+            results = [result]
+        else:
+            print("Please specify --archetype, --archetypes, or --all")
+            print("Use --list to see available archetypes")
+            return
+        print("\n" + "=" * 60)
+        print("TRAINING COMPLETE")
+        print("=" * 60)
+        for r in results:
+            print(f"\n{r.archetype}:")
+            print(f"  Steps: {r.training_steps}")
+            print(f"  Final Loss: {r.final_loss:.4f}")
+            print(f"  Checkpoint: {r.checkpoint_path}")
+    asyncio.run(run())
+if __name__ == "__main__":
+    main()