PyPI - isa-model - Versions diffs - 0.3.91__py3-none-any.whl → 0.4.3__py3-none-any.whl - Mend

isa-model 0.3.91py3-none-any.whl → 0.4.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (228) hide show

isa_model/client.py +1166 -584
isa_model/core/cache/redis_cache.py +410 -0
isa_model/core/config/config_manager.py +282 -12
isa_model/core/config.py +91 -1
isa_model/core/database/__init__.py +1 -0
isa_model/core/database/direct_db_client.py +114 -0
isa_model/core/database/migration_manager.py +563 -0
isa_model/core/database/migrations.py +297 -0
isa_model/core/database/supabase_client.py +258 -0
isa_model/core/dependencies.py +316 -0
isa_model/core/discovery/__init__.py +19 -0
isa_model/core/discovery/consul_discovery.py +190 -0
isa_model/core/logging/__init__.py +54 -0
isa_model/core/logging/influx_logger.py +523 -0
isa_model/core/logging/loki_logger.py +160 -0
isa_model/core/models/__init__.py +46 -0
isa_model/core/models/config_models.py +625 -0
isa_model/core/models/deployment_billing_tracker.py +430 -0
isa_model/core/models/model_billing_tracker.py +60 -88
isa_model/core/models/model_manager.py +66 -25
isa_model/core/models/model_metadata.py +690 -0
isa_model/core/models/model_repo.py +217 -55
isa_model/core/models/model_statistics_tracker.py +234 -0
isa_model/core/models/model_storage.py +0 -1
isa_model/core/models/model_version_manager.py +959 -0
isa_model/core/models/system_models.py +857 -0
isa_model/core/pricing_manager.py +2 -249
isa_model/core/repositories/__init__.py +9 -0
isa_model/core/repositories/config_repository.py +912 -0
isa_model/core/resilience/circuit_breaker.py +366 -0
isa_model/core/security/secrets.py +358 -0
isa_model/core/services/__init__.py +2 -4
isa_model/core/services/intelligent_model_selector.py +479 -370
isa_model/core/storage/hf_storage.py +2 -2
isa_model/core/types.py +8 -0
isa_model/deployment/__init__.py +5 -48
isa_model/deployment/core/__init__.py +2 -31
isa_model/deployment/core/deployment_manager.py +1278 -368
isa_model/deployment/local/__init__.py +31 -0
isa_model/deployment/local/config.py +248 -0
isa_model/deployment/local/gpu_gateway.py +607 -0
isa_model/deployment/local/health_checker.py +428 -0
isa_model/deployment/local/provider.py +586 -0
isa_model/deployment/local/tensorrt_service.py +621 -0
isa_model/deployment/local/transformers_service.py +644 -0
isa_model/deployment/local/vllm_service.py +527 -0
isa_model/deployment/modal/__init__.py +8 -0
isa_model/deployment/modal/config.py +136 -0
isa_model/deployment/modal/deployer.py +894 -0
isa_model/deployment/modal/services/__init__.py +3 -0
isa_model/deployment/modal/services/audio/__init__.py +1 -0
isa_model/deployment/modal/services/audio/isa_audio_chatTTS_service.py +520 -0
isa_model/deployment/modal/services/audio/isa_audio_openvoice_service.py +758 -0
isa_model/deployment/modal/services/audio/isa_audio_service_v2.py +1044 -0
isa_model/deployment/modal/services/embedding/__init__.py +1 -0
isa_model/deployment/modal/services/embedding/isa_embed_rerank_service.py +296 -0
isa_model/deployment/modal/services/llm/__init__.py +1 -0
isa_model/deployment/modal/services/llm/isa_llm_service.py +424 -0
isa_model/deployment/modal/services/video/__init__.py +1 -0
isa_model/deployment/modal/services/video/isa_video_hunyuan_service.py +423 -0
isa_model/deployment/modal/services/vision/__init__.py +1 -0
isa_model/deployment/modal/services/vision/isa_vision_ocr_service.py +519 -0
isa_model/deployment/modal/services/vision/isa_vision_qwen25_service.py +709 -0
isa_model/deployment/modal/services/vision/isa_vision_table_service.py +676 -0
isa_model/deployment/modal/services/vision/isa_vision_ui_service.py +833 -0
isa_model/deployment/modal/services/vision/isa_vision_ui_service_optimized.py +660 -0
isa_model/deployment/models/org-org-acme-corp-tenant-a-service-llm-20250825-225822/tenant-a-service_modal_service.py +48 -0
isa_model/deployment/models/org-test-org-123-prefix-test-service-llm-20250825-225822/prefix-test-service_modal_service.py +48 -0
isa_model/deployment/models/test-llm-service-llm-20250825-204442/test-llm-service_modal_service.py +48 -0
isa_model/deployment/models/test-monitoring-gpt2-llm-20250825-212906/test-monitoring-gpt2_modal_service.py +48 -0
isa_model/deployment/models/test-monitoring-gpt2-llm-20250825-213009/test-monitoring-gpt2_modal_service.py +48 -0
isa_model/deployment/storage/__init__.py +5 -0
isa_model/deployment/storage/deployment_repository.py +824 -0
isa_model/deployment/triton/__init__.py +10 -0
isa_model/deployment/triton/config.py +196 -0
isa_model/deployment/triton/configs/__init__.py +1 -0
isa_model/deployment/triton/provider.py +512 -0
isa_model/deployment/triton/scripts/__init__.py +1 -0
isa_model/deployment/triton/templates/__init__.py +1 -0
isa_model/inference/__init__.py +47 -1
isa_model/inference/ai_factory.py +179 -16
isa_model/inference/legacy_services/__init__.py +21 -0
isa_model/inference/legacy_services/model_evaluation.py +637 -0
isa_model/inference/legacy_services/model_service.py +573 -0
isa_model/inference/legacy_services/model_serving.py +717 -0
isa_model/inference/legacy_services/model_training.py +561 -0
isa_model/inference/models/__init__.py +21 -0
isa_model/inference/models/inference_config.py +551 -0
isa_model/inference/models/inference_record.py +675 -0
isa_model/inference/models/performance_models.py +714 -0
isa_model/inference/repositories/__init__.py +9 -0
isa_model/inference/repositories/inference_repository.py +828 -0
isa_model/inference/services/audio/__init__.py +21 -0
isa_model/inference/services/audio/base_realtime_service.py +225 -0
isa_model/inference/services/audio/base_stt_service.py +184 -11
isa_model/inference/services/audio/isa_tts_service.py +0 -0
isa_model/inference/services/audio/openai_realtime_service.py +320 -124
isa_model/inference/services/audio/openai_stt_service.py +53 -11
isa_model/inference/services/base_service.py +17 -1
isa_model/inference/services/custom_model_manager.py +277 -0
isa_model/inference/services/embedding/__init__.py +13 -0
isa_model/inference/services/embedding/base_embed_service.py +111 -8
isa_model/inference/services/embedding/isa_embed_service.py +305 -0
isa_model/inference/services/embedding/ollama_embed_service.py +15 -3
isa_model/inference/services/embedding/openai_embed_service.py +2 -4
isa_model/inference/services/embedding/resilient_embed_service.py +285 -0
isa_model/inference/services/embedding/tests/test_embedding.py +222 -0
isa_model/inference/services/img/__init__.py +2 -2
isa_model/inference/services/img/base_image_gen_service.py +24 -7
isa_model/inference/services/img/replicate_image_gen_service.py +84 -422
isa_model/inference/services/img/services/replicate_face_swap.py +193 -0
isa_model/inference/services/img/services/replicate_flux.py +226 -0
isa_model/inference/services/img/services/replicate_flux_kontext.py +219 -0
isa_model/inference/services/img/services/replicate_sticker_maker.py +249 -0
isa_model/inference/services/img/tests/test_img_client.py +297 -0
isa_model/inference/services/llm/__init__.py +10 -2
isa_model/inference/services/llm/base_llm_service.py +361 -26
isa_model/inference/services/llm/cerebras_llm_service.py +628 -0
isa_model/inference/services/llm/helpers/llm_adapter.py +71 -12
isa_model/inference/services/llm/helpers/llm_prompts.py +342 -0
isa_model/inference/services/llm/helpers/llm_utils.py +321 -23
isa_model/inference/services/llm/huggingface_llm_service.py +581 -0
isa_model/inference/services/llm/local_llm_service.py +747 -0
isa_model/inference/services/llm/ollama_llm_service.py +11 -3
isa_model/inference/services/llm/openai_llm_service.py +670 -56
isa_model/inference/services/llm/yyds_llm_service.py +10 -3
isa_model/inference/services/vision/__init__.py +27 -6
isa_model/inference/services/vision/base_vision_service.py +118 -185
isa_model/inference/services/vision/blip_vision_service.py +359 -0
isa_model/inference/services/vision/helpers/image_utils.py +19 -10
isa_model/inference/services/vision/isa_vision_service.py +634 -0
isa_model/inference/services/vision/openai_vision_service.py +19 -10
isa_model/inference/services/vision/tests/test_ocr_client.py +284 -0
isa_model/inference/services/vision/vgg16_vision_service.py +257 -0
isa_model/serving/api/cache_manager.py +245 -0
isa_model/serving/api/dependencies/__init__.py +1 -0
isa_model/serving/api/dependencies/auth.py +194 -0
isa_model/serving/api/dependencies/database.py +139 -0
isa_model/serving/api/error_handlers.py +284 -0
isa_model/serving/api/fastapi_server.py +240 -18
isa_model/serving/api/middleware/auth.py +317 -0
isa_model/serving/api/middleware/security.py +268 -0
isa_model/serving/api/middleware/tenant_context.py +414 -0
isa_model/serving/api/routes/analytics.py +489 -0
isa_model/serving/api/routes/config.py +645 -0
isa_model/serving/api/routes/deployment_billing.py +315 -0
isa_model/serving/api/routes/deployments.py +475 -0
isa_model/serving/api/routes/gpu_gateway.py +440 -0
isa_model/serving/api/routes/health.py +32 -12
isa_model/serving/api/routes/inference_monitoring.py +486 -0
isa_model/serving/api/routes/local_deployments.py +448 -0
isa_model/serving/api/routes/logs.py +430 -0
isa_model/serving/api/routes/settings.py +582 -0
isa_model/serving/api/routes/tenants.py +575 -0
isa_model/serving/api/routes/unified.py +992 -171
isa_model/serving/api/routes/webhooks.py +479 -0
isa_model/serving/api/startup.py +318 -0
isa_model/serving/modal_proxy_server.py +249 -0
isa_model/utils/gpu_utils.py +311 -0
{isa_model-0.3.91.dist-info → isa_model-0.4.3.dist-info}/METADATA +76 -22
isa_model-0.4.3.dist-info/RECORD +193 -0
isa_model/deployment/cloud/__init__.py +0 -9
isa_model/deployment/cloud/modal/__init__.py +0 -10
isa_model/deployment/cloud/modal/isa_vision_doc_service.py +0 -766
isa_model/deployment/cloud/modal/isa_vision_table_service.py +0 -532
isa_model/deployment/cloud/modal/isa_vision_ui_service.py +0 -406
isa_model/deployment/cloud/modal/register_models.py +0 -321
isa_model/deployment/core/deployment_config.py +0 -356
isa_model/deployment/core/isa_deployment_service.py +0 -401
isa_model/deployment/gpu_int8_ds8/app/server.py +0 -66
isa_model/deployment/gpu_int8_ds8/scripts/test_client.py +0 -43
isa_model/deployment/gpu_int8_ds8/scripts/test_client_os.py +0 -35
isa_model/deployment/runtime/deployed_service.py +0 -338
isa_model/deployment/services/__init__.py +0 -9
isa_model/deployment/services/auto_deploy_vision_service.py +0 -538
isa_model/deployment/services/model_service.py +0 -332
isa_model/deployment/services/service_monitor.py +0 -356
isa_model/deployment/services/service_registry.py +0 -527
isa_model/eval/__init__.py +0 -92
isa_model/eval/benchmarks.py +0 -469
isa_model/eval/config/__init__.py +0 -10
isa_model/eval/config/evaluation_config.py +0 -108
isa_model/eval/evaluators/__init__.py +0 -18
isa_model/eval/evaluators/base_evaluator.py +0 -503
isa_model/eval/evaluators/llm_evaluator.py +0 -472
isa_model/eval/factory.py +0 -531
isa_model/eval/infrastructure/__init__.py +0 -24
isa_model/eval/infrastructure/experiment_tracker.py +0 -466
isa_model/eval/metrics.py +0 -798
isa_model/inference/adapter/unified_api.py +0 -248
isa_model/inference/services/helpers/stacked_config.py +0 -148
isa_model/inference/services/img/flux_professional_service.py +0 -603
isa_model/inference/services/img/helpers/base_stacked_service.py +0 -274
isa_model/inference/services/others/table_transformer_service.py +0 -61
isa_model/inference/services/vision/doc_analysis_service.py +0 -640
isa_model/inference/services/vision/helpers/base_stacked_service.py +0 -274
isa_model/inference/services/vision/ui_analysis_service.py +0 -823
isa_model/scripts/inference_tracker.py +0 -283
isa_model/scripts/mlflow_manager.py +0 -379
isa_model/scripts/model_registry.py +0 -465
isa_model/scripts/register_models.py +0 -370
isa_model/scripts/register_models_with_embeddings.py +0 -510
isa_model/scripts/start_mlflow.py +0 -95
isa_model/scripts/training_tracker.py +0 -257
isa_model/training/__init__.py +0 -74
isa_model/training/annotation/annotation_schema.py +0 -47
isa_model/training/annotation/processors/annotation_processor.py +0 -126
isa_model/training/annotation/storage/dataset_manager.py +0 -131
isa_model/training/annotation/storage/dataset_schema.py +0 -44
isa_model/training/annotation/tests/test_annotation_flow.py +0 -109
isa_model/training/annotation/tests/test_minio copy.py +0 -113
isa_model/training/annotation/tests/test_minio_upload.py +0 -43
isa_model/training/annotation/views/annotation_controller.py +0 -158
isa_model/training/cloud/__init__.py +0 -22
isa_model/training/cloud/job_orchestrator.py +0 -402
isa_model/training/cloud/runpod_trainer.py +0 -454
isa_model/training/cloud/storage_manager.py +0 -482
isa_model/training/core/__init__.py +0 -23
isa_model/training/core/config.py +0 -181
isa_model/training/core/dataset.py +0 -222
isa_model/training/core/trainer.py +0 -720
isa_model/training/core/utils.py +0 -213
isa_model/training/factory.py +0 -424
isa_model-0.3.91.dist-info/RECORD +0 -138
/isa_model/{core/storage/minio_storage.py → deployment/modal/services/audio/isa_audio_fish_service.py} +0 -0
/isa_model/deployment/{services → modal/services/vision}/simple_auto_deploy_vision_service.py +0 -0
{isa_model-0.3.91.dist-info → isa_model-0.4.3.dist-info}/WHEEL +0 -0
{isa_model-0.3.91.dist-info → isa_model-0.4.3.dist-info}/top_level.txt +0 -0

isa_model/deployment/triton/provider.py ADDED Viewed

@@ -0,0 +1,512 @@
+"""
+Triton deployment provider
+Handles deployment of models to Triton Inference Server with TensorRT-LLM optimization.
+"""
+import os
+import json
+import logging
+import subprocess
+import tempfile
+from typing import Dict, List, Optional, Any
+from pathlib import Path
+from datetime import datetime
+import asyncio
+import docker
+from .config import TritonConfig, TritonServiceType, TritonBackend
+logger = logging.getLogger(__name__)
+class TritonProvider:
+    """
+    Provider for deploying models to Triton Inference Server with TensorRT-LLM.
+    This provider handles:
+    - Model conversion to TensorRT engines
+    - Triton model configuration generation
+    - Docker container deployment
+    - Health monitoring and scaling
+    """
+    def __init__(self, workspace_dir: str = "./triton_deployments"):
+        """
+        Initialize Triton provider.
+        Args:
+            workspace_dir: Directory for deployment artifacts
+        """
+        self.workspace_dir = Path(workspace_dir)
+        self.workspace_dir.mkdir(parents=True, exist_ok=True)
+        # Initialize Docker client
+        try:
+            self.docker_client = docker.from_env()
+        except Exception as e:
+            logger.warning(f"Docker client initialization failed: {e}")
+            self.docker_client = None
+        # Deployment tracking
+        self.deployments: Dict[str, Dict[str, Any]] = {}
+        logger.info("Triton provider initialized")
+        logger.info(f"Workspace directory: {self.workspace_dir}")
+    async def deploy(self, config: TritonConfig) -> Dict[str, Any]:
+        """
+        Deploy a model to Triton Inference Server.
+        Args:
+            config: Triton deployment configuration
+        Returns:
+            Deployment result with endpoint information
+        """
+        deployment_id = f"{config.service_name}-triton-{datetime.now().strftime('%Y%m%d-%H%M%S')}"
+        logger.info("=" * 60)
+        logger.info(f"STARTING TRITON DEPLOYMENT: {deployment_id}")
+        logger.info("=" * 60)
+        try:
+            # Step 1: Prepare workspace
+            logger.info("Step 1/6: Preparing deployment workspace...")
+            workspace = await self._prepare_workspace(deployment_id, config)
+            # Step 2: Download HF model
+            logger.info("Step 2/6: Downloading HuggingFace model...")
+            hf_model_path = await self._download_hf_model(config, workspace)
+            # Step 3: Convert to TensorRT engine (if needed)
+            if config.use_tensorrt and config.service_type == TritonServiceType.LLM:
+                logger.info("Step 3/6: Converting model to TensorRT engine...")
+                engine_path = await self._build_tensorrt_engine(config, workspace, hf_model_path)
+            else:
+                logger.info("Step 3/6: Skipping TensorRT conversion...")
+                engine_path = hf_model_path
+            # Step 4: Generate Triton model configuration
+            logger.info("Step 4/6: Generating Triton model configuration...")
+            await self._generate_triton_config(config, workspace, engine_path)
+            # Step 5: Deploy container
+            logger.info("Step 5/6: Deploying Triton container...")
+            container_info = await self._deploy_container(config, workspace)
+            # Step 6: Verify deployment
+            logger.info("Step 6/6: Verifying deployment...")
+            endpoint_url = await self._verify_deployment(config, container_info)
+            result = {
+                "provider": "triton",
+                "deployment_id": deployment_id,
+                "service_name": config.service_name,
+                "service_type": config.service_type.value,
+                "endpoint_url": endpoint_url,
+                "container_id": container_info.get("container_id"),
+                "status": "deployed",
+                "deployed_at": datetime.now().isoformat()
+            }
+            # Register deployment
+            self.deployments[deployment_id] = {
+                "config": config.to_dict(),
+                "result": result,
+                "workspace": str(workspace)
+            }
+            logger.info("=" * 60)
+            logger.info("TRITON DEPLOYMENT COMPLETED SUCCESSFULLY!")
+            logger.info("=" * 60)
+            logger.info(f"Deployment ID: {deployment_id}")
+            logger.info(f"Endpoint URL: {endpoint_url}")
+            return result
+        except Exception as e:
+            logger.error("=" * 60)
+            logger.error("TRITON DEPLOYMENT FAILED!")
+            logger.error("=" * 60)
+            logger.error(f"Error: {e}")
+            raise
+    async def _prepare_workspace(self, deployment_id: str, config: TritonConfig) -> Path:
+        """Prepare deployment workspace"""
+        workspace = self.workspace_dir / deployment_id
+        workspace.mkdir(exist_ok=True)
+        # Create required directories
+        (workspace / "hf_model").mkdir(exist_ok=True)
+        (workspace / "engines").mkdir(exist_ok=True)
+        (workspace / "model_repository" / config.model_name / config.model_version).mkdir(parents=True, exist_ok=True)
+        # Save deployment config
+        with open(workspace / "deployment_config.json", 'w') as f:
+            json.dump(config.to_dict(), f, indent=2)
+        logger.info(f"Workspace prepared at: {workspace}")
+        return workspace
+    async def _download_hf_model(self, config: TritonConfig, workspace: Path) -> Path:
+        """Download HuggingFace model"""
+        hf_model_path = workspace / "hf_model"
+        # Use git clone or huggingface_hub to download
+        try:
+            from huggingface_hub import snapshot_download
+            logger.info(f"Downloading model: {config.model_id}")
+            snapshot_download(
+                repo_id=config.model_id,
+                local_dir=str(hf_model_path),
+                local_dir_use_symlinks=False
+            )
+            logger.info(f"Model downloaded to: {hf_model_path}")
+            return hf_model_path
+        except Exception as e:
+            logger.error(f"Failed to download model: {e}")
+            raise
+    async def _build_tensorrt_engine(self, config: TritonConfig, workspace: Path, hf_model_path: Path) -> Path:
+        """Build TensorRT engine using Docker"""
+        engine_output_path = workspace / "engines"
+        logger.info("Building TensorRT engine using Docker...")
+        # Prepare build command
+        build_options = config.build_options
+        build_cmd_parts = [
+            "trtllm-build",
+            f"--checkpoint_dir /workspace/hf_model",
+            f"--output_dir /workspace/engines",
+        ]
+        # Add build options
+        for key, value in build_options.items():
+            if isinstance(value, bool):
+                if value:
+                    build_cmd_parts.append(f"--{key}")
+            else:
+                build_cmd_parts.append(f"--{key} {value}")
+        build_cmd = " && ".join([
+            "set -e",
+            "echo '>>> Building TensorRT engine...'",
+            " ".join(build_cmd_parts),
+            "echo '>>> TensorRT engine build completed!'"
+        ])
+        # Run Docker container for building
+        if self.docker_client:
+            try:
+                logger.info("Starting TensorRT build container...")
+                container = self.docker_client.containers.run(
+                    config.build_container_image,
+                    command=f"bash -c \"{build_cmd}\"",
+                    volumes={
+                        str(hf_model_path): {"bind": "/workspace/hf_model", "mode": "ro"},
+                        str(engine_output_path): {"bind": "/workspace/engines", "mode": "rw"}
+                    },
+                    device_requests=[
+                        docker.types.DeviceRequest(count=-1, capabilities=[["gpu"]])
+                    ],
+                    remove=True,
+                    detach=False
+                )
+                logger.info("TensorRT engine build completed")
+            except Exception as e:
+                logger.error(f"TensorRT build failed: {e}")
+                raise
+        else:
+            # Fallback to subprocess if Docker client unavailable
+            logger.warning("Docker client unavailable, using subprocess...")
+            # Implementation would depend on having docker command available
+            raise RuntimeError("Docker client required for TensorRT build")
+        return engine_output_path
+    async def _generate_triton_config(self, config: TritonConfig, workspace: Path, model_path: Path):
+        """Generate Triton model configuration"""
+        model_repo_path = workspace / "model_repository" / config.model_name
+        # Generate config.pbtxt
+        if config.backend == TritonBackend.TENSORRT_LLM:
+            config_content = self._generate_tensorrt_llm_config(config)
+        elif config.backend == TritonBackend.PYTHON:
+            config_content = self._generate_python_backend_config(config)
+        else:
+            raise ValueError(f"Unsupported backend: {config.backend}")
+        # Write config file
+        with open(model_repo_path / "config.pbtxt", 'w') as f:
+            f.write(config_content)
+        # Copy model files to model repository
+        model_version_path = model_repo_path / config.model_version
+        if config.use_tensorrt:
+            # Copy engine files
+            import shutil
+            if (model_path / "model.engine").exists():
+                shutil.copy2(model_path / "model.engine", model_version_path)
+            else:
+                # Copy all engine files
+                for engine_file in model_path.glob("*.engine"):
+                    shutil.copy2(engine_file, model_version_path)
+        else:
+            # Copy HF model files
+            import shutil
+            shutil.copytree(model_path, model_version_path / "model", dirs_exist_ok=True)
+        logger.info(f"Triton configuration generated at: {model_repo_path}")
+    def _generate_tensorrt_llm_config(self, config: TritonConfig) -> str:
+        """Generate TensorRT-LLM backend configuration"""
+        return f'''name: "{config.model_name}"
+backend: "tensorrtllm"
+max_batch_size: {config.max_batch_size}
+{"decoupled: true" if config.enable_streaming else ""}
+input [
+  {{
+    name: "text_input"
+    data_type: TYPE_STRING
+    dims: [ -1 ]
+  }},
+  {{
+    name: "max_new_tokens"
+    data_type: TYPE_UINT32
+    dims: [ 1 ]
+    optional: true
+  }},
+  {{
+    name: "stream"
+    data_type: TYPE_BOOL
+    dims: [ 1 ]
+    optional: true
+  }},
+  {{
+    name: "temperature"
+    data_type: TYPE_FP32
+    dims: [ 1 ]
+    optional: true
+  }},
+  {{
+    name: "top_p"
+    data_type: TYPE_FP32
+    dims: [ 1 ]
+    optional: true
+  }}
+]
+output [
+  {{
+    name: "text_output"
+    data_type: TYPE_STRING
+    dims: [ -1 ]
+  }}
+]
+instance_group [
+  {{
+    count: {config.instance_group_count}
+    kind: {config.instance_group_kind}
+  }}
+]
+parameters {{
+  key: "model_type"
+  value: {{ string_value: "{"inflight_batching_llm" if config.use_inflight_batching else "llm"}" }}
+}}
+parameters {{
+  key: "max_tokens_in_paged_kv_cache"
+  value: {{ string_value: "{config.max_sequence_length * config.max_batch_size}" }}
+}}'''
+    def _generate_python_backend_config(self, config: TritonConfig) -> str:
+        """Generate Python backend configuration"""
+        return f'''name: "{config.model_name}"
+backend: "python"
+max_batch_size: {config.max_batch_size}
+input [
+  {{
+    name: "input"
+    data_type: TYPE_STRING
+    dims: [ -1 ]
+  }}
+]
+output [
+  {{
+    name: "output"
+    data_type: TYPE_STRING
+    dims: [ -1 ]
+  }}
+]
+instance_group [
+  {{
+    count: {config.instance_group_count}
+    kind: {config.instance_group_kind}
+  }}
+]'''
+    async def _deploy_container(self, config: TritonConfig, workspace: Path) -> Dict[str, Any]:
+        """Deploy Triton container"""
+        if not self.docker_client:
+            raise RuntimeError("Docker client required for container deployment")
+        # Generate docker-compose.yml
+        await self._generate_docker_compose(config, workspace)
+        # Deploy using docker-compose
+        compose_file = workspace / "docker-compose.yml"
+        try:
+            # Run docker-compose up
+            cmd = f"cd {workspace} && docker-compose up -d"
+            result = subprocess.run(cmd, shell=True, capture_output=True, text=True)
+            if result.returncode != 0:
+                raise RuntimeError(f"Docker compose failed: {result.stderr}")
+            logger.info("Triton container deployed successfully")
+            return {
+                "container_id": f"triton-{config.service_name}",
+                "compose_file": str(compose_file)
+            }
+        except Exception as e:
+            logger.error(f"Container deployment failed: {e}")
+            raise
+    async def _generate_docker_compose(self, config: TritonConfig, workspace: Path):
+        """Generate docker-compose.yml for Triton deployment"""
+        compose_content = f'''version: '3.8'
+services:
+  triton-{config.service_name}:
+    image: {config.container_image}
+    ports:
+      - "{config.http_port}:{config.http_port}"
+      - "{config.grpc_port}:{config.grpc_port}"
+      - "{config.metrics_port}:{config.metrics_port}"
+    volumes:
+      - ./model_repository:/models
+    environment:
+      - CUDA_VISIBLE_DEVICES=0
+{self._format_env_vars(config.environment)}
+    command: >
+      tritonserver
+      --model-repository=/models
+      --allow-http=true
+      --allow-grpc=true
+      --allow-metrics=true
+      --http-port={config.http_port}
+      --grpc-port={config.grpc_port}
+      --metrics-port={config.metrics_port}
+      --log-verbose=1
+    deploy:
+      resources:
+        reservations:
+          devices:
+            - driver: nvidia
+              count: {config.gpu_count}
+              capabilities: [gpu]
+    healthcheck:
+      test: ["CMD", "curl", "-f", "http://localhost:{config.http_port}/v2/health/ready"]
+      interval: 30s
+      timeout: 10s
+      retries: 3
+      start_period: 60s
+'''
+        with open(workspace / "docker-compose.yml", 'w') as f:
+            f.write(compose_content)
+        logger.info("Docker compose configuration generated")
+    def _format_env_vars(self, env_vars: Dict[str, str]) -> str:
+        """Format environment variables for docker-compose"""
+        if not env_vars:
+            return ""
+        formatted = []
+        for key, value in env_vars.items():
+            formatted.append(f"      - {key}={value}")
+        return "\n" + "\n".join(formatted)
+    async def _verify_deployment(self, config: TritonConfig, container_info: Dict[str, Any]) -> str:
+        """Verify deployment is healthy"""
+        import time
+        import requests
+        endpoint_url = f"http://localhost:{config.http_port}"
+        health_url = f"{endpoint_url}/v2/health/ready"
+        # Wait for service to be ready
+        max_retries = 30
+        for i in range(max_retries):
+            try:
+                response = requests.get(health_url, timeout=5)
+                if response.status_code == 200:
+                    logger.info("Triton service is healthy and ready")
+                    return endpoint_url
+            except Exception:
+                pass
+            if i < max_retries - 1:
+                logger.info(f"Waiting for Triton service... ({i+1}/{max_retries})")
+                time.sleep(10)
+        raise RuntimeError("Triton service failed to become ready")
+    async def list_deployments(self) -> List[Dict[str, Any]]:
+        """List all Triton deployments"""
+        return [
+            {
+                "deployment_id": deployment_id,
+                **info
+            }
+            for deployment_id, info in self.deployments.items()
+        ]
+    async def delete_deployment(self, deployment_id: str) -> bool:
+        """Delete a Triton deployment"""
+        if deployment_id not in self.deployments:
+            return False
+        try:
+            deployment_info = self.deployments[deployment_id]
+            workspace = Path(deployment_info["workspace"])
+            # Stop docker-compose services
+            if (workspace / "docker-compose.yml").exists():
+                cmd = f"cd {workspace} && docker-compose down"
+                subprocess.run(cmd, shell=True, capture_output=True)
+            # Clean up workspace
+            import shutil
+            if workspace.exists():
+                shutil.rmtree(workspace)
+            # Remove from tracking
+            del self.deployments[deployment_id]
+            logger.info(f"Triton deployment deleted: {deployment_id}")
+            return True
+        except Exception as e:
+            logger.error(f"Failed to delete Triton deployment {deployment_id}: {e}")
+            return False

isa_model/deployment/triton/scripts/__init__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ """Triton deployment scripts"""

isa_model/deployment/triton/templates/__init__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ """Triton deployment templates"""

isa_model/inference/__init__.py CHANGED Viewed

@@ -8,4 +8,50 @@ This module provides the main inference components for the IsA Model system.
 from .ai_factory import AIFactory
 from .base import ModelType, Capability, RoutingStrategy
-__all__ = ["AIFactory", "ModelType", "Capability", "RoutingStrategy"]
+# Import legacy model services (migrated from isA_MCP)
+try:
+    from .legacy_services import (
+        ModelTrainingService,
+        TrainingConfig,
+        TrainingResult,
+        ModelEvaluationService,
+        EvaluationResult,
+        ModelServingService,
+        ServingResult,
+        ModelService,
+        ModelConfig,
+        ModelResult
+    )
+    LEGACY_SERVICES_AVAILABLE = True
+except ImportError:
+    LEGACY_SERVICES_AVAILABLE = False
+    ModelTrainingService = None
+    TrainingConfig = None
+    TrainingResult = None
+    ModelEvaluationService = None
+    EvaluationResult = None
+    ModelServingService = None
+    ServingResult = None
+    ModelService = None
+    ModelConfig = None
+    ModelResult = None
+__all__ = [
+    "AIFactory",
+    "ModelType",
+    "Capability",
+    "RoutingStrategy",
+    # Legacy model services (migrated from isA_MCP)
+    'ModelTrainingService',
+    'TrainingConfig',
+    'TrainingResult',
+    'ModelEvaluationService',
+    'EvaluationResult',
+    'ModelServingService',
+    'ServingResult',
+    'ModelService',
+    'ModelConfig',
+    'ModelResult',
+    'LEGACY_SERVICES_AVAILABLE'
+]

isa-model 0.3.91__py3-none-any.whl → 0.4.3__py3-none-any.whl

isa-model 0.3.91py3-none-any.whl → 0.4.3py3-none-any.whl