npm - @elizaos/training - Versions diffs - 2.0.0-alpha.10 - Mend

@elizaos/training 2.0.0-alpha.10

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (224) hide show

package/Dockerfile +75 -0
package/LICENSE +21 -0
package/Makefile +374 -0
package/README.md +346 -0
package/config/rubrics.json +137 -0
package/docker-compose.test.yml +57 -0
package/package.json +57 -0
package/python/config/babylon_atropos.yaml +90 -0
package/python/config/profiles/12gb.json +11 -0
package/python/config/profiles/16gb.json +10 -0
package/python/config/profiles/24gb.json +10 -0
package/python/config/profiles/48gb.json +10 -0
package/python/config/profiles/cpu.json +11 -0
package/python/config/profiles/l40-2gpu-safe.json +20 -0
package/python/config/profiles/l40-2gpu.json +22 -0
package/python/config/profiles/l40-4gpu.json +21 -0
package/python/config/profiles/l40.json +17 -0
package/python/config/tinker_training.yaml +143 -0
package/python/curriculum_state.json +165 -0
package/python/env.template +86 -0
package/python/env.training.template +46 -0
package/python/pyproject.toml +41 -0
package/python/requirements-ci.txt +31 -0
package/python/requirements.txt +87 -0
package/python/scripts/__init__.py +4 -0
package/python/scripts/benchmark_should_respond.py +190 -0
package/python/scripts/debug_inference.py +62 -0
package/python/scripts/import_json_trajectories.py +412 -0
package/python/scripts/local-finetune/README.md +63 -0
package/python/scripts/local-finetune/ingest_and_score.py +139 -0
package/python/scripts/local-finetune/merge_model.py +32 -0
package/python/scripts/local-finetune/test_adapter.py +91 -0
package/python/scripts/local-finetune/train_from_csv.py +132 -0
package/python/scripts/merge_trajectories.py +318 -0
package/python/scripts/optimize_prompt_grpo.py +269 -0
package/python/scripts/run_ab_test.py +143 -0
package/python/scripts/run_full_pipeline.py +544 -0
package/python/scripts/run_tinker_training.py +192 -0
package/python/scripts/run_training.py +914 -0
package/python/scripts/test_generation.py +29 -0
package/python/scripts/test_judge.py +155 -0
package/python/scripts/test_pipeline.py +356 -0
package/python/scripts/test_trained_model.py +380 -0
package/python/scripts/train_grpo.py +360 -0
package/python/scripts/train_jsonl.py +223 -0
package/python/scripts/train_local.py +528 -0
package/python/setup.py +20 -0
package/python/src/__init__.py +190 -0
package/python/src/data_bridge/__init__.py +24 -0
package/python/src/data_bridge/converter.py +435 -0
package/python/src/data_bridge/reader.py +393 -0
package/python/src/models.py +283 -0
package/python/src/training/__init__.py +605 -0
package/python/src/training/ab_testing.py +404 -0
package/python/src/training/action_executor.py +621 -0
package/python/src/training/archetype_trainer.py +347 -0
package/python/src/training/atropos_trainer.py +980 -0
package/python/src/training/babylon_env.py +1254 -0
package/python/src/training/error_recovery.py +647 -0
package/python/src/training/evaluation.py +856 -0
package/python/src/training/fast_simulator.py +880 -0
package/python/src/training/format_validator.py +584 -0
package/python/src/training/hybrid_env.py +522 -0
package/python/src/training/kl_controller.py +628 -0
package/python/src/training/multi_prompt_dataset.py +883 -0
package/python/src/training/multi_turn.py +656 -0
package/python/src/training/online_env.py +1084 -0
package/python/src/training/quality_scorer.py +391 -0
package/python/src/training/quality_utils.py +633 -0
package/python/src/training/rewards.py +1344 -0
package/python/src/training/rlaif_env.py +17 -0
package/python/src/training/rollout_generator.py +502 -0
package/python/src/training/rubric_loader.py +198 -0
package/python/src/training/scenario_pool.py +1072 -0
package/python/src/training/schemas.py +481 -0
package/python/src/training/service_manager.py +552 -0
package/python/src/training/simulation_bridge.py +535 -0
package/python/src/training/tick_reward_attribution.py +399 -0
package/python/src/training/tinker_client.py +575 -0
package/python/src/training/tinker_trainer.py +646 -0
package/python/src/training/tokenization_utils.py +402 -0
package/python/tests/e2e/__init__.py +13 -0
package/python/tests/e2e/conftest.py +258 -0
package/python/tests/e2e/test_full_pipeline.py +643 -0
package/python/tests/e2e/test_online_training_e2e.py +365 -0
package/python/tests/integration/__init__.py +12 -0
package/python/tests/integration/conftest.py +383 -0
package/python/tests/integration/test_db_integration.py +649 -0
package/python/tests/integration/test_json_mode_integration.py +554 -0
package/python/tests/test_action_executor.py +594 -0
package/python/tests/test_archetype_scoring.py +1027 -0
package/python/tests/test_atropos_integration.py +360 -0
package/python/tests/test_evaluation.py +727 -0
package/python/tests/test_format_validator.py +486 -0
package/python/tests/test_kl_controller.py +432 -0
package/python/tests/test_lr_scheduler.py +579 -0
package/python/tests/test_multi_turn.py +590 -0
package/python/tests/test_online_env.py +519 -0
package/python/tests/test_quality_scorer.py +474 -0
package/python/tests/test_scenario_pool.py +735 -0
package/python/tests/test_service_manager.py +585 -0
package/python/tests/test_simulation_rollout.py +581 -0
package/python/tests/test_tokenization_utils.py +501 -0
package/python/tests/test_training_orchestrator.py +497 -0
package/python/tests/test_training_output_structure.py +661 -0
package/research-output/training-runs/training-run-1770772042899.json +26 -0
package/research-output/training-runs/training-run-1770930079670.json +32 -0
package/research-output/training-runs/training-run-1770930143700.json +44 -0
package/research-output/training-runs/training-run-1770930183638.json +38 -0
package/research-output/training-runs/training-run-1770930442049.json +38 -0
package/research-output/training-runs/training-run-1770930793243.json +38 -0
package/research-output/training-runs/training-run-1771276293257.json +38 -0
package/research-output/training-runs/training-run-1771276389280.json +38 -0
package/research-output/training-runs/training-run-1771276502776.json +38 -0
package/research-output/training-runs/training-run-1771277340748.json +38 -0
package/research-output/training-runs/training-run-1773013658993.json +38 -0
package/research-output/training-runs/training-run-1773013861014.json +38 -0
package/research-output/training-runs/training-run-1773014215983.json +38 -0
package/scripts/assess-training-data.ts +422 -0
package/scripts/e2e-training-test.ts +550 -0
package/scripts/export-rubrics.ts +64 -0
package/scripts/generate-research-report.ts +1523 -0
package/scripts/generate_dataset.sh +173 -0
package/scripts/generate_should_respond.ts +267 -0
package/scripts/generate_should_respond_dataset.ts +162 -0
package/scripts/json-mode-benchmark.ts +399 -0
package/scripts/rank_trajectories.ts +207 -0
package/scripts/real-archetype-benchmark.ts +210 -0
package/scripts/run-baseline-comparison.ts +116 -0
package/scripts/run-full-pipeline.ts +272 -0
package/scripts/run_rlaif_loop.ts +78 -0
package/scripts/run_task_benchmark.ts +247 -0
package/scripts/runpod_setup.sh +137 -0
package/scripts/runpod_validate.sh +147 -0
package/scripts/test-model-in-game.ts +955 -0
package/scripts/test-scoring.ts +73 -0
package/scripts/test-trained-model.ts +209 -0
package/scripts/train-and-test.ts +824 -0
package/scripts/verify-final.ts +118 -0
package/src/adapter.ts +516 -0
package/src/archetypes/ArchetypeConfigService.ts +626 -0
package/src/archetypes/derive-archetype.ts +249 -0
package/src/archetypes/index.ts +22 -0
package/src/benchmark/ArchetypeMatchupBenchmark.ts +825 -0
package/src/benchmark/BenchmarkChartGenerator.ts +748 -0
package/src/benchmark/BenchmarkDataGenerator.ts +1288 -0
package/src/benchmark/BenchmarkDataViewer.ts +324 -0
package/src/benchmark/BenchmarkHistoryService.ts +221 -0
package/src/benchmark/BenchmarkRunner.ts +685 -0
package/src/benchmark/BenchmarkValidator.ts +204 -0
package/src/benchmark/FastEvalRunner.ts +225 -0
package/src/benchmark/MetricsValidator.ts +165 -0
package/src/benchmark/MetricsVisualizer.ts +909 -0
package/src/benchmark/ModelBenchmarkService.ts +611 -0
package/src/benchmark/ModelRegistry.ts +158 -0
package/src/benchmark/RulerBenchmarkIntegration.ts +235 -0
package/src/benchmark/SimulationA2AInterface.ts +1169 -0
package/src/benchmark/SimulationEngine.ts +832 -0
package/src/benchmark/TaskRunner.ts +94 -0
package/src/benchmark/__tests__/BenchmarkRunner.test.ts +534 -0
package/src/benchmark/__tests__/HeadToHead.test.ts +126 -0
package/src/benchmark/index.ts +91 -0
package/src/benchmark/parseSimulationMetrics.ts +124 -0
package/src/benchmark/simulation-types.ts +78 -0
package/src/dependencies.ts +475 -0
package/src/generation/TrajectoryGenerator.ts +387 -0
package/src/generation/index.ts +12 -0
package/src/huggingface/HuggingFaceDatasetUploader.ts +636 -0
package/src/huggingface/HuggingFaceIntegrationService.ts +426 -0
package/src/huggingface/HuggingFaceModelUploader.ts +532 -0
package/src/huggingface/index.ts +27 -0
package/src/huggingface/shared/HuggingFaceUploadUtil.ts +206 -0
package/src/index.ts +102 -0
package/src/init-training.ts +53 -0
package/src/metrics/TrajectoryMetricsExtractor.ts +653 -0
package/src/metrics/__tests__/TrajectoryMetricsExtractor.test.ts +759 -0
package/src/metrics/index.ts +8 -0
package/src/metrics/types.ts +200 -0
package/src/rubrics/__tests__/index.test.ts +184 -0
package/src/rubrics/ass-kisser.ts +85 -0
package/src/rubrics/degen.ts +80 -0
package/src/rubrics/goody-twoshoes.ts +84 -0
package/src/rubrics/index.ts +236 -0
package/src/rubrics/information-trader.ts +84 -0
package/src/rubrics/infosec.ts +101 -0
package/src/rubrics/liar.ts +104 -0
package/src/rubrics/perps-trader.ts +87 -0
package/src/rubrics/researcher.ts +81 -0
package/src/rubrics/scammer.ts +82 -0
package/src/rubrics/social-butterfly.ts +73 -0
package/src/rubrics/super-predictor.ts +97 -0
package/src/rubrics/trader.ts +67 -0
package/src/scoring/ArchetypeScoringService.ts +486 -0
package/src/scoring/JudgePromptBuilder.ts +556 -0
package/src/scoring/LLMJudgeCache.ts +401 -0
package/src/scoring/index.ts +9 -0
package/src/training/AutomationPipeline.ts +916 -0
package/src/training/BenchmarkService.ts +518 -0
package/src/training/ConfigValidator.ts +220 -0
package/src/training/MarketOutcomesTracker.ts +187 -0
package/src/training/ModelDeployer.ts +186 -0
package/src/training/ModelFetcher.ts +76 -0
package/src/training/ModelSelectionService.ts +341 -0
package/src/training/ModelUsageVerifier.ts +160 -0
package/src/training/MultiModelOrchestrator.ts +580 -0
package/src/training/RLModelConfig.ts +407 -0
package/src/training/RewardBackpropagationService.ts +149 -0
package/src/training/RulerScoringService.ts +666 -0
package/src/training/TrainingMonitor.ts +166 -0
package/src/training/TrajectoryRecorder.ts +399 -0
package/src/training/__tests__/TrajectoryRecorder.test.ts +472 -0
package/src/training/index.ts +100 -0
package/src/training/logRLConfig.ts +34 -0
package/src/training/pipeline.ts +129 -0
package/src/training/storage/ModelStorageService.ts +279 -0
package/src/training/storage/TrainingDataArchiver.ts +197 -0
package/src/training/storage/index.ts +17 -0
package/src/training/types.ts +207 -0
package/src/training/window-utils.ts +138 -0
package/src/utils/index.ts +101 -0
package/src/utils/logger.ts +59 -0
package/src/utils/snowflake.ts +17 -0
package/src/utils/synthetic-detector.ts +111 -0
package/tsconfig.json +20 -0

package/python/src/training/error_recovery.py ADDED Viewed

@@ -0,0 +1,647 @@
+"""
+Error Recovery and Graceful Degradation for Training Pipeline
+Provides utilities for handling failures gracefully:
+- Database connection recovery
+- Malformed data handling
+- Service health monitoring
+- Graceful shutdown
+- Retry logic with backoff
+Philosophy:
+- Fail fast for programmer errors
+- Recover gracefully from transient errors
+- Always log what went wrong
+- Never lose training progress silently
+"""
+import asyncio
+import functools
+import json
+import logging
+import os
+import signal
+import sys
+import time
+from dataclasses import dataclass, field
+from enum import Enum
+from typing import Any, Callable, Dict, List, Optional, TypeVar, Union
+logger = logging.getLogger(__name__)
+T = TypeVar("T")
+# ============================================================================
+# Error Categories
+# ============================================================================
+class ErrorCategory(Enum):
+    """Categories of errors for handling decisions"""
+    # Transient - retry makes sense
+    TRANSIENT = "transient"
+    # Configuration - fix config and restart
+    CONFIGURATION = "configuration"
+    # Data - skip this item and continue
+    DATA_VALIDATION = "data_validation"
+    # Infrastructure - external service down
+    INFRASTRUCTURE = "infrastructure"
+    # Fatal - cannot continue
+    FATAL = "fatal"
+class TrainingError(Exception):
+    """
+    Structured training error for handling decisions.
+    Inherits from Exception so it can be raised and caught properly.
+    """
+    def __init__(
+        self,
+        category: ErrorCategory,
+        message: str,
+        component: str,
+        recoverable: bool,
+        details: Optional[Dict[str, Any]] = None,
+        original_exception: Optional[Exception] = None,
+    ):
+        super().__init__(message)
+        self.category = category
+        self.message = message
+        self.component = component
+        self.recoverable = recoverable
+        self.details = details or {}
+        self.original_exception = original_exception
+    def __str__(self) -> str:
+        return f"[{self.category.value}] {self.component}: {self.message}"
+# ============================================================================
+# Error Classification
+# ============================================================================
+def classify_error(exception: Exception) -> ErrorCategory:
+    """
+    Classify an exception into an error category for handling decisions.
+    This helps decide whether to retry, skip, or abort.
+    """
+    error_str = str(exception).lower()
+    exception_type = type(exception).__name__
+    # Connection errors - transient
+    if any(x in exception_type for x in ["Connection", "Timeout", "Network"]):
+        return ErrorCategory.TRANSIENT
+    if any(x in error_str for x in [
+        "connection refused",
+        "connection reset",
+        "timeout",
+        "temporary failure",
+        "service unavailable",
+    ]):
+        return ErrorCategory.TRANSIENT
+    # Configuration errors
+    if any(x in error_str for x in [
+        "not set",
+        "not configured",
+        "invalid config",
+        "missing required",
+    ]):
+        return ErrorCategory.CONFIGURATION
+    # Data validation errors
+    if any(x in error_str for x in [
+        "json",
+        "parse",
+        "decode",
+        "invalid data",
+        "schema",
+        "validation",
+    ]):
+        return ErrorCategory.DATA_VALIDATION
+    # Infrastructure errors
+    if any(x in error_str for x in [
+        "database",
+        "redis",
+        "cuda",
+        "gpu",
+        "out of memory",
+    ]):
+        return ErrorCategory.INFRASTRUCTURE
+    # Default to fatal for unknown errors
+    return ErrorCategory.FATAL
+def is_recoverable(exception: Exception) -> bool:
+    """Check if an error is recoverable (worth retrying)"""
+    category = classify_error(exception)
+    return category in (ErrorCategory.TRANSIENT, ErrorCategory.DATA_VALIDATION)
+# ============================================================================
+# Retry Logic
+# ============================================================================
+def with_retry(
+    max_attempts: int = 3,
+    initial_delay: float = 1.0,
+    max_delay: float = 30.0,
+    backoff_factor: float = 2.0,
+    retryable_exceptions: tuple = (Exception,),
+) -> Callable:
+    """
+    Decorator for retry with exponential backoff.
+    Args:
+        max_attempts: Maximum number of attempts
+        initial_delay: Initial delay between retries (seconds)
+        max_delay: Maximum delay between retries (seconds)
+        backoff_factor: Multiplier for delay after each attempt
+        retryable_exceptions: Tuple of exceptions that trigger retry
+    """
+    def decorator(func: Callable[..., T]) -> Callable[..., T]:
+        @functools.wraps(func)
+        def wrapper(*args, **kwargs) -> T:
+            last_exception = None
+            delay = initial_delay
+            for attempt in range(1, max_attempts + 1):
+                try:
+                    return func(*args, **kwargs)
+                except retryable_exceptions as e:
+                    last_exception = e
+                    if not is_recoverable(e):
+                        logger.error(f"{func.__name__} failed with non-recoverable error: {e}")
+                        raise
+                    if attempt < max_attempts:
+                        logger.warning(
+                            f"{func.__name__} failed (attempt {attempt}/{max_attempts}), "
+                            f"retrying in {delay:.1f}s: {e}"
+                        )
+                        time.sleep(delay)
+                        delay = min(delay * backoff_factor, max_delay)
+                    else:
+                        logger.error(
+                            f"{func.__name__} failed after {max_attempts} attempts: {e}"
+                        )
+            if last_exception:
+                raise last_exception
+            raise RuntimeError(f"{func.__name__} failed with no exception captured")
+        return wrapper
+    return decorator
+def with_retry_async(
+    max_attempts: int = 3,
+    initial_delay: float = 1.0,
+    max_delay: float = 30.0,
+    backoff_factor: float = 2.0,
+    retryable_exceptions: tuple = (Exception,),
+) -> Callable:
+    """Async version of retry decorator"""
+    def decorator(func: Callable[..., T]) -> Callable[..., T]:
+        @functools.wraps(func)
+        async def wrapper(*args, **kwargs) -> T:
+            last_exception = None
+            delay = initial_delay
+            for attempt in range(1, max_attempts + 1):
+                try:
+                    return await func(*args, **kwargs)
+                except retryable_exceptions as e:
+                    last_exception = e
+                    if not is_recoverable(e):
+                        logger.error(f"{func.__name__} failed with non-recoverable error: {e}")
+                        raise
+                    if attempt < max_attempts:
+                        logger.warning(
+                            f"{func.__name__} failed (attempt {attempt}/{max_attempts}), "
+                            f"retrying in {delay:.1f}s: {e}"
+                        )
+                        await asyncio.sleep(delay)
+                        delay = min(delay * backoff_factor, max_delay)
+                    else:
+                        logger.error(
+                            f"{func.__name__} failed after {max_attempts} attempts: {e}"
+                        )
+            if last_exception:
+                raise last_exception
+            raise RuntimeError(f"{func.__name__} failed with no exception captured")
+        return wrapper
+    return decorator
+# ============================================================================
+# Data Recovery
+# ============================================================================
+@dataclass
+class RecoveryResult:
+    """Result of data recovery attempt"""
+    success: bool
+    data: Any = None
+    fallback_used: bool = False
+    errors: List[str] = field(default_factory=list)
+def recover_json_parse(
+    json_str: str,
+    fallback: Any = None,
+) -> RecoveryResult:
+    """
+    Attempt to parse JSON with fallback on failure.
+    Args:
+        json_str: JSON string to parse
+        fallback: Value to return on parse failure
+    Returns:
+        RecoveryResult with parsed data or fallback
+    """
+    if not json_str:
+        return RecoveryResult(
+            success=True,
+            data=fallback if fallback is not None else [],
+            fallback_used=True,
+        )
+    try:
+        data = json.loads(json_str)
+        return RecoveryResult(success=True, data=data)
+    except json.JSONDecodeError as e:
+        return RecoveryResult(
+            success=False,
+            data=fallback if fallback is not None else [],
+            fallback_used=True,
+            errors=[f"JSON parse error: {e}"],
+        )
+def recover_trajectory_archetype(
+    trajectory: Dict[str, Any],
+    default: str = "default",
+) -> str:
+    """
+    Extract archetype from trajectory with fallback logic.
+    Tries:
+    1. trajectory.archetype
+    2. First step's action.parameters.archetype
+    3. First step's action.result.archetype
+    4. default
+    Returns:
+        Extracted or default archetype
+    """
+    # Try trajectory level
+    archetype = trajectory.get("archetype")
+    if archetype:
+        return archetype
+    # Try steps
+    steps_json = trajectory.get("stepsJson", trajectory.get("steps_json", "[]"))
+    result = recover_json_parse(steps_json, [])
+    if result.success and result.data:
+        for step in result.data:
+            action = step.get("action", {})
+            # Try parameters
+            params_arch = action.get("parameters", {}).get("archetype")
+            if params_arch:
+                return params_arch
+            # Try result
+            result_arch = action.get("result", {}).get("archetype")
+            if result_arch:
+                return result_arch
+    return default
+def filter_valid_trajectories(
+    trajectories: List[Dict[str, Any]],
+    min_steps: int = 1,
+    require_pnl: bool = False,
+) -> tuple[List[Dict[str, Any]], List[Dict[str, Any]]]:
+    """
+    Filter trajectories, separating valid from invalid.
+    Returns:
+        Tuple of (valid_trajectories, invalid_trajectories)
+    """
+    valid = []
+    invalid = []
+    for traj in trajectories:
+        errors = []
+        # Check required fields
+        if not traj.get("trajectoryId") and not traj.get("trajectory_id"):
+            errors.append("missing trajectoryId")
+        # Check steps
+        steps_json = traj.get("stepsJson", traj.get("steps_json", "[]"))
+        steps_result = recover_json_parse(steps_json, [])
+        if not steps_result.success:
+            errors.append(f"invalid stepsJson: {steps_result.errors}")
+        elif len(steps_result.data) < min_steps:
+            errors.append(f"insufficient steps: {len(steps_result.data)} < {min_steps}")
+        # Check PnL if required
+        if require_pnl:
+            pnl = traj.get("finalPnL", traj.get("final_pnl"))
+            if pnl is None:
+                errors.append("missing finalPnL")
+        if errors:
+            traj["_validation_errors"] = errors
+            invalid.append(traj)
+        else:
+            valid.append(traj)
+    return valid, invalid
+# ============================================================================
+# Database Recovery
+# ============================================================================
+class DatabaseConnectionManager:
+    """
+    Manages database connection with automatic recovery.
+    Handles:
+    - Connection creation with retry
+    - Health checking
+    - Automatic reconnection on failure
+    - Connection pooling
+    """
+    def __init__(
+        self,
+        database_url: str,
+        pool_size: int = 5,
+        max_retries: int = 3,
+    ):
+        self.database_url = database_url
+        self.pool_size = pool_size
+        self.max_retries = max_retries
+        self._pool = None
+        self._last_health_check = 0.0
+        self._health_check_interval = 30.0  # seconds
+    async def get_pool(self):
+        """Get database pool, creating if necessary"""
+        if self._pool is None:
+            await self._create_pool()
+        return self._pool
+    @with_retry_async(max_attempts=3, initial_delay=2.0)
+    async def _create_pool(self):
+        """Create database connection pool with retry"""
+        import asyncpg
+        logger.info(f"Creating database connection pool (size={self.pool_size})...")
+        self._pool = await asyncpg.create_pool(
+            self.database_url,
+            min_size=2,
+            max_size=self.pool_size,
+            command_timeout=60,
+        )
+        logger.info("Database connection pool created")
+    async def health_check(self) -> bool:
+        """Check if database connection is healthy"""
+        now = time.time()
+        # Skip if checked recently
+        if now - self._last_health_check < self._health_check_interval:
+            return True
+        self._last_health_check = now
+        if self._pool is None:
+            return False
+        try:
+            async with self._pool.acquire() as conn:
+                await conn.fetchval("SELECT 1")
+            return True
+        except Exception as e:
+            logger.warning(f"Database health check failed: {e}")
+            return False
+    async def close(self):
+        """Close database pool"""
+        if self._pool:
+            await self._pool.close()
+            self._pool = None
+            logger.info("Database connection pool closed")
+# ============================================================================
+# Graceful Shutdown
+# ============================================================================
+class GracefulShutdown:
+    """
+    Manages graceful shutdown of training pipeline.
+    Features:
+    - Signal handling (SIGINT, SIGTERM)
+    - Checkpoint saving before exit
+    - Resource cleanup
+    - Timeout for forced exit
+    """
+    def __init__(
+        self,
+        shutdown_timeout: float = 30.0,
+        checkpoint_callback: Optional[Callable] = None,
+    ):
+        self.shutdown_timeout = shutdown_timeout
+        self.checkpoint_callback = checkpoint_callback
+        self._shutdown_requested = False
+        self._original_handlers: Dict[int, Any] = {}
+    @property
+    def shutdown_requested(self) -> bool:
+        """Check if shutdown has been requested"""
+        return self._shutdown_requested
+    def install_handlers(self):
+        """Install signal handlers for graceful shutdown"""
+        for sig in (signal.SIGINT, signal.SIGTERM):
+            self._original_handlers[sig] = signal.getsignal(sig)
+            signal.signal(sig, self._handle_signal)
+        logger.debug("Graceful shutdown handlers installed")
+    def restore_handlers(self):
+        """Restore original signal handlers"""
+        for sig, handler in self._original_handlers.items():
+            signal.signal(sig, handler)
+        self._original_handlers.clear()
+        logger.debug("Original signal handlers restored")
+    def _handle_signal(self, signum: int, frame):
+        """Handle shutdown signal"""
+        if self._shutdown_requested:
+            logger.warning("Forced shutdown requested - exiting immediately")
+            sys.exit(1)
+        sig_name = signal.Signals(signum).name
+        logger.info(f"Received {sig_name} - initiating graceful shutdown...")
+        self._shutdown_requested = True
+        # Save checkpoint if callback provided
+        if self.checkpoint_callback:
+            logger.info("Saving checkpoint before shutdown...")
+            try:
+                self.checkpoint_callback()
+                logger.info("Checkpoint saved successfully")
+            except Exception as e:
+                logger.error(f"Failed to save checkpoint: {e}")
+    def __enter__(self):
+        self.install_handlers()
+        return self
+    def __exit__(self, exc_type, exc_val, exc_tb):
+        self.restore_handlers()
+# ============================================================================
+# Progress Tracking
+# ============================================================================
+@dataclass
+class TrainingProgress:
+    """Tracks training progress for recovery purposes"""
+    # Maximum errors to keep in memory (prevents unbounded growth during long runs)
+    MAX_ERRORS_IN_MEMORY: int = 200
+    current_step: int = 0
+    total_steps: int = 0
+    trajectories_processed: int = 0
+    trajectories_skipped: int = 0
+    last_checkpoint_step: int = 0
+    errors_encountered: List[str] = field(default_factory=list)
+    start_time: float = field(default_factory=time.time)
+    total_errors_count: int = 0  # Track total even when list is truncated
+    def add_error(self, error: str) -> None:
+        """Add an error, truncating old errors if list grows too large"""
+        self.errors_encountered.append(error)
+        self.total_errors_count += 1
+        # Keep only the most recent errors
+        if len(self.errors_encountered) > self.MAX_ERRORS_IN_MEMORY:
+            self.errors_encountered = self.errors_encountered[-self.MAX_ERRORS_IN_MEMORY:]
+    @property
+    def elapsed_time(self) -> float:
+        """Seconds since training started"""
+        return time.time() - self.start_time
+    @property
+    def progress_pct(self) -> float:
+        """Progress percentage (0-100)"""
+        if self.total_steps == 0:
+            return 0.0
+        return (self.current_step / self.total_steps) * 100
+    def to_checkpoint(self) -> Dict[str, Any]:
+        """Convert to checkpoint-compatible dict"""
+        return {
+            "current_step": self.current_step,
+            "total_steps": self.total_steps,
+            "trajectories_processed": self.trajectories_processed,
+            "trajectories_skipped": self.trajectories_skipped,
+            "last_checkpoint_step": self.last_checkpoint_step,
+            "errors_encountered": self.errors_encountered[-100:],  # Keep last 100 in checkpoint
+            "total_errors_count": self.total_errors_count,
+            "elapsed_time": self.elapsed_time,
+        }
+    @classmethod
+    def from_checkpoint(cls, data: Dict[str, Any]) -> "TrainingProgress":
+        """Restore from checkpoint"""
+        progress = cls(
+            current_step=data.get("current_step", 0),
+            total_steps=data.get("total_steps", 0),
+            trajectories_processed=data.get("trajectories_processed", 0),
+            trajectories_skipped=data.get("trajectories_skipped", 0),
+            last_checkpoint_step=data.get("last_checkpoint_step", 0),
+            errors_encountered=data.get("errors_encountered", []),
+            total_errors_count=data.get("total_errors_count", len(data.get("errors_encountered", []))),
+        )
+        return progress
+    def log_status(self):
+        """Log current training status"""
+        logger.info(
+            f"Training Progress: Step {self.current_step}/{self.total_steps} "
+            f"({self.progress_pct:.1f}%) | "
+            f"Trajectories: {self.trajectories_processed} processed, "
+            f"{self.trajectories_skipped} skipped | "
+            f"Errors: {self.total_errors_count} | "
+            f"Elapsed: {self.elapsed_time:.0f}s"
+        )
+# ============================================================================
+# Utility Functions
+# ============================================================================
+def safe_divide(numerator: float, denominator: float, default: float = 0.0) -> float:
+    """Safe division that returns default on zero denominator"""
+    if denominator == 0:
+        return default
+    return numerator / denominator
+def clamp(value: float, min_val: float, max_val: float) -> float:
+    """Clamp value to range [min_val, max_val]"""
+    return max(min_val, min(max_val, value))
+def require_env(name: str) -> str:
+    """Get required environment variable or raise clear error"""
+    value = os.getenv(name)
+    if not value:
+        raise TrainingError(
+            category=ErrorCategory.CONFIGURATION,
+            message=f"Required environment variable '{name}' is not set",
+            component="environment",
+            recoverable=False,
+        )
+    return value
+def get_env_or_default(name: str, default: str) -> str:
+    """Get environment variable with default value"""
+    return os.getenv(name, default)