PyPI - isa-model - Versions diffs - 0.4.0__py3-none-any.whl → 0.4.3__py3-none-any.whl - Mend

isa-model 0.4.0py3-none-any.whl → 0.4.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (199) hide show

isa_model/client.py +466 -43
isa_model/core/cache/redis_cache.py +12 -3
isa_model/core/config/config_manager.py +230 -3
isa_model/core/config.py +90 -0
isa_model/core/database/direct_db_client.py +114 -0
isa_model/core/database/migration_manager.py +563 -0
isa_model/core/database/migrations.py +21 -1
isa_model/core/database/supabase_client.py +154 -19
isa_model/core/dependencies.py +316 -0
isa_model/core/discovery/__init__.py +19 -0
isa_model/core/discovery/consul_discovery.py +190 -0
isa_model/core/logging/__init__.py +54 -0
isa_model/core/logging/influx_logger.py +523 -0
isa_model/core/logging/loki_logger.py +160 -0
isa_model/core/models/__init__.py +27 -18
isa_model/core/models/config_models.py +625 -0
isa_model/core/models/deployment_billing_tracker.py +430 -0
isa_model/core/models/model_manager.py +40 -17
isa_model/core/models/model_metadata.py +690 -0
isa_model/core/models/model_repo.py +174 -18
isa_model/core/models/system_models.py +857 -0
isa_model/core/repositories/__init__.py +9 -0
isa_model/core/repositories/config_repository.py +912 -0
isa_model/core/services/intelligent_model_selector.py +399 -21
isa_model/core/storage/hf_storage.py +1 -1
isa_model/core/types.py +1 -0
isa_model/deployment/__init__.py +5 -48
isa_model/deployment/core/__init__.py +2 -31
isa_model/deployment/core/deployment_manager.py +1278 -370
isa_model/deployment/local/__init__.py +31 -0
isa_model/deployment/local/config.py +248 -0
isa_model/deployment/local/gpu_gateway.py +607 -0
isa_model/deployment/local/health_checker.py +428 -0
isa_model/deployment/local/provider.py +586 -0
isa_model/deployment/local/tensorrt_service.py +621 -0
isa_model/deployment/local/transformers_service.py +644 -0
isa_model/deployment/local/vllm_service.py +527 -0
isa_model/deployment/modal/__init__.py +8 -0
isa_model/deployment/modal/config.py +136 -0
isa_model/deployment/{services/auto_hf_modal_deployer.py → modal/deployer.py} +1 -1
isa_model/deployment/modal/services/__init__.py +3 -0
isa_model/deployment/modal/services/audio/__init__.py +1 -0
isa_model/deployment/modal/services/embedding/__init__.py +1 -0
isa_model/deployment/modal/services/llm/__init__.py +1 -0
isa_model/deployment/modal/services/llm/isa_llm_service.py +424 -0
isa_model/deployment/modal/services/video/__init__.py +1 -0
isa_model/deployment/modal/services/vision/__init__.py +1 -0
isa_model/deployment/models/org-org-acme-corp-tenant-a-service-llm-20250825-225822/tenant-a-service_modal_service.py +48 -0
isa_model/deployment/models/org-test-org-123-prefix-test-service-llm-20250825-225822/prefix-test-service_modal_service.py +48 -0
isa_model/deployment/models/test-llm-service-llm-20250825-204442/test-llm-service_modal_service.py +48 -0
isa_model/deployment/models/test-monitoring-gpt2-llm-20250825-212906/test-monitoring-gpt2_modal_service.py +48 -0
isa_model/deployment/models/test-monitoring-gpt2-llm-20250825-213009/test-monitoring-gpt2_modal_service.py +48 -0
isa_model/deployment/storage/__init__.py +5 -0
isa_model/deployment/storage/deployment_repository.py +824 -0
isa_model/deployment/triton/__init__.py +10 -0
isa_model/deployment/triton/config.py +196 -0
isa_model/deployment/triton/configs/__init__.py +1 -0
isa_model/deployment/triton/provider.py +512 -0
isa_model/deployment/triton/scripts/__init__.py +1 -0
isa_model/deployment/triton/templates/__init__.py +1 -0
isa_model/inference/__init__.py +47 -1
isa_model/inference/ai_factory.py +137 -10
isa_model/inference/legacy_services/__init__.py +21 -0
isa_model/inference/legacy_services/model_evaluation.py +637 -0
isa_model/inference/legacy_services/model_service.py +573 -0
isa_model/inference/legacy_services/model_serving.py +717 -0
isa_model/inference/legacy_services/model_training.py +561 -0
isa_model/inference/models/__init__.py +21 -0
isa_model/inference/models/inference_config.py +551 -0
isa_model/inference/models/inference_record.py +675 -0
isa_model/inference/models/performance_models.py +714 -0
isa_model/inference/repositories/__init__.py +9 -0
isa_model/inference/repositories/inference_repository.py +828 -0
isa_model/inference/services/audio/base_stt_service.py +184 -11
isa_model/inference/services/audio/openai_stt_service.py +22 -6
isa_model/inference/services/custom_model_manager.py +277 -0
isa_model/inference/services/embedding/ollama_embed_service.py +15 -3
isa_model/inference/services/embedding/resilient_embed_service.py +285 -0
isa_model/inference/services/llm/__init__.py +10 -2
isa_model/inference/services/llm/base_llm_service.py +335 -24
isa_model/inference/services/llm/cerebras_llm_service.py +628 -0
isa_model/inference/services/llm/helpers/llm_adapter.py +9 -4
isa_model/inference/services/llm/helpers/llm_prompts.py +342 -0
isa_model/inference/services/llm/helpers/llm_utils.py +321 -23
isa_model/inference/services/llm/huggingface_llm_service.py +581 -0
isa_model/inference/services/llm/local_llm_service.py +747 -0
isa_model/inference/services/llm/ollama_llm_service.py +9 -2
isa_model/inference/services/llm/openai_llm_service.py +33 -16
isa_model/inference/services/llm/yyds_llm_service.py +8 -2
isa_model/inference/services/vision/__init__.py +22 -1
isa_model/inference/services/vision/blip_vision_service.py +359 -0
isa_model/inference/services/vision/helpers/image_utils.py +8 -5
isa_model/inference/services/vision/isa_vision_service.py +65 -4
isa_model/inference/services/vision/openai_vision_service.py +19 -10
isa_model/inference/services/vision/vgg16_vision_service.py +257 -0
isa_model/serving/api/cache_manager.py +245 -0
isa_model/serving/api/dependencies/__init__.py +1 -0
isa_model/serving/api/dependencies/auth.py +194 -0
isa_model/serving/api/dependencies/database.py +139 -0
isa_model/serving/api/error_handlers.py +284 -0
isa_model/serving/api/fastapi_server.py +172 -22
isa_model/serving/api/middleware/auth.py +8 -2
isa_model/serving/api/middleware/security.py +23 -33
isa_model/serving/api/middleware/tenant_context.py +414 -0
isa_model/serving/api/routes/analytics.py +4 -1
isa_model/serving/api/routes/config.py +645 -0
isa_model/serving/api/routes/deployment_billing.py +315 -0
isa_model/serving/api/routes/deployments.py +138 -2
isa_model/serving/api/routes/gpu_gateway.py +440 -0
isa_model/serving/api/routes/health.py +32 -12
isa_model/serving/api/routes/inference_monitoring.py +486 -0
isa_model/serving/api/routes/local_deployments.py +448 -0
isa_model/serving/api/routes/tenants.py +575 -0
isa_model/serving/api/routes/unified.py +680 -18
isa_model/serving/api/routes/webhooks.py +479 -0
isa_model/serving/api/startup.py +68 -54
isa_model/utils/gpu_utils.py +311 -0
{isa_model-0.4.0.dist-info → isa_model-0.4.3.dist-info}/METADATA +66 -24
isa_model-0.4.3.dist-info/RECORD +193 -0
isa_model/core/storage/minio_storage.py +0 -0
isa_model/deployment/cloud/__init__.py +0 -9
isa_model/deployment/cloud/modal/__init__.py +0 -10
isa_model/deployment/core/deployment_config.py +0 -356
isa_model/deployment/core/isa_deployment_service.py +0 -401
isa_model/deployment/gpu_int8_ds8/app/server.py +0 -66
isa_model/deployment/gpu_int8_ds8/scripts/test_client.py +0 -43
isa_model/deployment/gpu_int8_ds8/scripts/test_client_os.py +0 -35
isa_model/deployment/runtime/deployed_service.py +0 -338
isa_model/deployment/services/__init__.py +0 -9
isa_model/deployment/services/auto_deploy_vision_service.py +0 -538
isa_model/deployment/services/model_service.py +0 -332
isa_model/deployment/services/service_monitor.py +0 -356
isa_model/deployment/services/service_registry.py +0 -527
isa_model/eval/__init__.py +0 -92
isa_model/eval/benchmarks/__init__.py +0 -27
isa_model/eval/benchmarks/multimodal_datasets.py +0 -460
isa_model/eval/benchmarks.py +0 -701
isa_model/eval/config/__init__.py +0 -10
isa_model/eval/config/evaluation_config.py +0 -108
isa_model/eval/evaluators/__init__.py +0 -24
isa_model/eval/evaluators/audio_evaluator.py +0 -727
isa_model/eval/evaluators/base_evaluator.py +0 -503
isa_model/eval/evaluators/embedding_evaluator.py +0 -742
isa_model/eval/evaluators/llm_evaluator.py +0 -472
isa_model/eval/evaluators/vision_evaluator.py +0 -564
isa_model/eval/example_evaluation.py +0 -395
isa_model/eval/factory.py +0 -798
isa_model/eval/infrastructure/__init__.py +0 -24
isa_model/eval/infrastructure/experiment_tracker.py +0 -466
isa_model/eval/isa_benchmarks.py +0 -700
isa_model/eval/isa_integration.py +0 -582
isa_model/eval/metrics.py +0 -951
isa_model/eval/tests/unit/test_basic.py +0 -396
isa_model/serving/api/routes/evaluations.py +0 -579
isa_model/training/__init__.py +0 -168
isa_model/training/annotation/annotation_schema.py +0 -47
isa_model/training/annotation/processors/annotation_processor.py +0 -126
isa_model/training/annotation/storage/dataset_manager.py +0 -131
isa_model/training/annotation/storage/dataset_schema.py +0 -44
isa_model/training/annotation/tests/test_annotation_flow.py +0 -109
isa_model/training/annotation/tests/test_minio copy.py +0 -113
isa_model/training/annotation/tests/test_minio_upload.py +0 -43
isa_model/training/annotation/views/annotation_controller.py +0 -158
isa_model/training/cloud/__init__.py +0 -22
isa_model/training/cloud/job_orchestrator.py +0 -402
isa_model/training/cloud/runpod_trainer.py +0 -454
isa_model/training/cloud/storage_manager.py +0 -482
isa_model/training/core/__init__.py +0 -26
isa_model/training/core/config.py +0 -181
isa_model/training/core/dataset.py +0 -222
isa_model/training/core/trainer.py +0 -720
isa_model/training/core/utils.py +0 -213
isa_model/training/examples/intelligent_training_example.py +0 -281
isa_model/training/factory.py +0 -424
isa_model/training/intelligent/__init__.py +0 -25
isa_model/training/intelligent/decision_engine.py +0 -643
isa_model/training/intelligent/intelligent_factory.py +0 -888
isa_model/training/intelligent/knowledge_base.py +0 -751
isa_model/training/intelligent/resource_optimizer.py +0 -839
isa_model/training/intelligent/task_classifier.py +0 -576
isa_model/training/storage/__init__.py +0 -24
isa_model/training/storage/core_integration.py +0 -439
isa_model/training/storage/training_repository.py +0 -552
isa_model/training/storage/training_storage.py +0 -628
isa_model-0.4.0.dist-info/RECORD +0 -182
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_chatTTS_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_fish_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_openvoice_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_service_v2.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/embedding}/isa_embed_rerank_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/video}/isa_video_hunyuan_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_ocr_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_qwen25_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_table_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_ui_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_ui_service_optimized.py +0 -0
/isa_model/deployment/{services → modal/services/vision}/simple_auto_deploy_vision_service.py +0 -0
{isa_model-0.4.0.dist-info → isa_model-0.4.3.dist-info}/WHEEL +0 -0
{isa_model-0.4.0.dist-info → isa_model-0.4.3.dist-info}/top_level.txt +0 -0

isa_model/deployment/local/vllm_service.py ADDED Viewed

@@ -0,0 +1,527 @@
+"""
+vLLM local inference service
+High-performance local model serving using vLLM.
+"""
+import os
+import json
+import asyncio
+import logging
+import subprocess
+import signal
+from typing import Dict, List, Optional, Any, Union, AsyncGenerator
+from pathlib import Path
+from datetime import datetime
+import httpx
+import time
+from .config import LocalGPUConfig, LocalServiceType, LocalBackend
+from ...utils.gpu_utils import get_gpu_manager, GPUInfo
+logger = logging.getLogger(__name__)
+class VLLMService:
+    """vLLM local inference service manager"""
+    def __init__(self, config: LocalGPUConfig):
+        """
+        Initialize vLLM service.
+        Args:
+            config: Local GPU configuration for vLLM
+        """
+        if config.backend != LocalBackend.VLLM:
+            raise ValueError("Config must use VLLM backend")
+        self.config = config
+        self.gpu_manager = get_gpu_manager()
+        self.process: Optional[subprocess.Popen] = None
+        self.service_url = f"http://{config.host}:{config.port}"
+        self.is_running = False
+        self.startup_time: Optional[datetime] = None
+        # Service info
+        self.service_info = {
+            "service_name": config.service_name,
+            "model_id": config.model_id,
+            "backend": "vllm",
+            "status": "stopped",
+            "url": self.service_url
+        }
+    async def start(self) -> Dict[str, Any]:
+        """
+        Start vLLM inference server.
+        Returns:
+            Service startup result
+        """
+        if self.is_running:
+            return {
+                "success": False,
+                "error": "Service already running",
+                "service_info": self.service_info
+            }
+        try:
+            logger.info(f"Starting vLLM service: {self.config.service_name}")
+            # Check GPU availability
+            gpu_check = await self._check_gpu_requirements()
+            if not gpu_check["compatible"]:
+                return {
+                    "success": False,
+                    "error": f"GPU requirements not met: {', '.join(gpu_check['warnings'])}",
+                    "gpu_check": gpu_check
+                }
+            # Prepare vLLM command
+            cmd = self._build_vllm_command()
+            logger.info(f"vLLM command: {' '.join(cmd)}")
+            # Start vLLM process
+            self.startup_time = datetime.now()
+            self.process = subprocess.Popen(
+                cmd,
+                stdout=subprocess.PIPE,
+                stderr=subprocess.PIPE,
+                text=True,
+                env=self._get_environment()
+            )
+            # Wait for service to be ready
+            startup_result = await self._wait_for_startup()
+            if startup_result["success"]:
+                self.is_running = True
+                self.service_info.update({
+                    "status": "running",
+                    "pid": self.process.pid,
+                    "started_at": self.startup_time.isoformat(),
+                    "model_info": await self._get_model_info()
+                })
+                logger.info(f"vLLM service started successfully: {self.service_url}")
+                return {
+                    "success": True,
+                    "service_info": self.service_info,
+                    "startup_time_seconds": startup_result["startup_time"],
+                    "gpu_info": gpu_check["selected_gpu"]
+                }
+            else:
+                await self.stop()
+                return {
+                    "success": False,
+                    "error": startup_result["error"],
+                    "logs": startup_result.get("logs", [])
+                }
+        except Exception as e:
+            logger.error(f"Failed to start vLLM service: {e}")
+            await self.stop()
+            return {
+                "success": False,
+                "error": str(e)
+            }
+    async def stop(self) -> Dict[str, Any]:
+        """
+        Stop vLLM inference server.
+        Returns:
+            Service shutdown result
+        """
+        if not self.is_running:
+            return {
+                "success": True,
+                "message": "Service was not running"
+            }
+        try:
+            logger.info(f"Stopping vLLM service: {self.config.service_name}")
+            if self.process:
+                # Graceful shutdown
+                self.process.terminate()
+                # Wait for graceful shutdown
+                try:
+                    self.process.wait(timeout=10)
+                except subprocess.TimeoutExpired:
+                    # Force kill if graceful shutdown fails
+                    logger.warning("Graceful shutdown timed out, force killing process")
+                    self.process.kill()
+                    self.process.wait(timeout=5)
+                self.process = None
+            self.is_running = False
+            self.service_info.update({
+                "status": "stopped",
+                "pid": None,
+                "stopped_at": datetime.now().isoformat()
+            })
+            logger.info(f"vLLM service stopped: {self.config.service_name}")
+            return {
+                "success": True,
+                "service_info": self.service_info
+            }
+        except Exception as e:
+            logger.error(f"Failed to stop vLLM service: {e}")
+            return {
+                "success": False,
+                "error": str(e)
+            }
+    async def restart(self) -> Dict[str, Any]:
+        """Restart vLLM service"""
+        stop_result = await self.stop()
+        if not stop_result["success"]:
+            return stop_result
+        # Wait a moment before restart
+        await asyncio.sleep(2)
+        return await self.start()
+    async def health_check(self) -> Dict[str, Any]:
+        """Check service health"""
+        if not self.is_running:
+            return {
+                "healthy": False,
+                "status": "stopped"
+            }
+        try:
+            async with httpx.AsyncClient(timeout=5.0) as client:
+                response = await client.get(f"{self.service_url}/health")
+                if response.status_code == 200:
+                    return {
+                        "healthy": True,
+                        "status": "running",
+                        "response_time_ms": response.elapsed.total_seconds() * 1000,
+                        "service_info": self.service_info
+                    }
+                else:
+                    return {
+                        "healthy": False,
+                        "status": "unhealthy",
+                        "status_code": response.status_code
+                    }
+        except Exception as e:
+            return {
+                "healthy": False,
+                "status": "error",
+                "error": str(e)
+            }
+    async def generate(self, prompt: str, **kwargs) -> Dict[str, Any]:
+        """Generate text using vLLM service"""
+        if not self.is_running:
+            return {
+                "success": False,
+                "error": "Service not running"
+            }
+        try:
+            request_data = {
+                "prompt": prompt,
+                "max_tokens": kwargs.get("max_tokens", 512),
+                "temperature": kwargs.get("temperature", 0.7),
+                "top_p": kwargs.get("top_p", 0.9),
+                "stream": kwargs.get("stream", False)
+            }
+            async with httpx.AsyncClient(timeout=60.0) as client:
+                response = await client.post(
+                    f"{self.service_url}/generate",
+                    json=request_data
+                )
+                if response.status_code == 200:
+                    return {
+                        "success": True,
+                        **response.json()
+                    }
+                else:
+                    return {
+                        "success": False,
+                        "error": f"API error: {response.status_code}",
+                        "response": response.text
+                    }
+        except Exception as e:
+            return {
+                "success": False,
+                "error": str(e)
+            }
+    async def chat_completions(self, messages: List[Dict[str, str]], **kwargs) -> Dict[str, Any]:
+        """OpenAI-compatible chat completions endpoint"""
+        if not self.is_running:
+            return {
+                "success": False,
+                "error": "Service not running"
+            }
+        try:
+            request_data = {
+                "model": self.config.served_model_name or self.config.model_id,
+                "messages": messages,
+                "max_tokens": kwargs.get("max_tokens", 512),
+                "temperature": kwargs.get("temperature", 0.7),
+                "top_p": kwargs.get("top_p", 0.9),
+                "stream": kwargs.get("stream", False)
+            }
+            async with httpx.AsyncClient(timeout=60.0) as client:
+                response = await client.post(
+                    f"{self.service_url}/v1/chat/completions",
+                    json=request_data,
+                    headers={"Authorization": f"Bearer {self.config.api_key}"} if self.config.api_key else {}
+                )
+                if response.status_code == 200:
+                    return {
+                        "success": True,
+                        **response.json()
+                    }
+                else:
+                    return {
+                        "success": False,
+                        "error": f"API error: {response.status_code}",
+                        "response": response.text
+                    }
+        except Exception as e:
+            return {
+                "success": False,
+                "error": str(e)
+            }
+    def _build_vllm_command(self) -> List[str]:
+        """Build vLLM server command"""
+        cmd = ["python", "-m", "vllm.entrypoints.openai.api_server"]
+        # Basic model configuration
+        cmd.extend(["--model", self.config.model_id])
+        cmd.extend(["--host", self.config.host])
+        cmd.extend(["--port", str(self.config.port)])
+        # Model configuration
+        if self.config.served_model_name:
+            cmd.extend(["--served-model-name", self.config.served_model_name])
+        cmd.extend(["--max-model-len", str(self.config.max_model_len)])
+        cmd.extend(["--max-num-seqs", str(self.config.max_num_seqs)])
+        # GPU configuration
+        if self.config.gpu_id is not None:
+            cmd.extend(["--tensor-parallel-size", str(self.config.tensor_parallel_size)])
+        cmd.extend(["--gpu-memory-utilization", str(self.config.gpu_memory_utilization)])
+        cmd.extend(["--swap-space", str(self.config.swap_space)])
+        # Performance settings
+        if self.config.enable_chunked_prefill:
+            cmd.append("--enable-chunked-prefill")
+        if self.config.enable_prefix_caching:
+            cmd.append("--enable-prefix-caching")
+        # Precision and quantization
+        if self.config.model_precision == "float16":
+            cmd.extend(["--dtype", "float16"])
+        elif self.config.model_precision == "bfloat16":
+            cmd.extend(["--dtype", "bfloat16"])
+        if self.config.quantization:
+            cmd.extend(["--quantization", self.config.quantization])
+            if self.config.quantization_param_path:
+                cmd.extend(["--quantization-param-path", self.config.quantization_param_path])
+        # Trust remote code
+        if self.config.trust_remote_code:
+            cmd.append("--trust-remote-code")
+        # Model revisions
+        if self.config.revision:
+            cmd.extend(["--revision", self.config.revision])
+        if self.config.tokenizer_revision:
+            cmd.extend(["--tokenizer-revision", self.config.tokenizer_revision])
+        # Additional vLLM arguments
+        for key, value in self.config.vllm_args.items():
+            if isinstance(value, bool):
+                if value:
+                    cmd.append(f"--{key}")
+            else:
+                cmd.extend([f"--{key}", str(value)])
+        return cmd
+    def _get_environment(self) -> Dict[str, str]:
+        """Get environment variables for vLLM"""
+        env = os.environ.copy()
+        # CUDA configuration
+        if self.config.gpu_id is not None:
+            env["CUDA_VISIBLE_DEVICES"] = str(self.config.gpu_id)
+        # Cache directories
+        if self.config.model_cache_dir:
+            env["TRANSFORMERS_CACHE"] = self.config.model_cache_dir
+            env["HF_HOME"] = self.config.model_cache_dir
+        if self.config.download_dir:
+            env["HF_HUB_CACHE"] = self.config.download_dir
+        # Performance optimizations
+        env["PYTORCH_CUDA_ALLOC_CONF"] = "max_split_size_mb:512"
+        env["OMP_NUM_THREADS"] = "8"
+        return env
+    async def _check_gpu_requirements(self) -> Dict[str, Any]:
+        """Check GPU requirements for the model"""
+        self.gpu_manager.refresh()
+        if not self.gpu_manager.cuda_available:
+            return {
+                "compatible": False,
+                "warnings": ["CUDA not available"],
+                "selected_gpu": None
+            }
+        # Estimate memory requirements
+        estimated_memory = self.gpu_manager.estimate_model_memory(
+            self.config.model_id,
+            self.config.model_precision
+        )
+        # Find suitable GPU
+        if self.config.gpu_id is not None:
+            selected_gpu = self.gpu_manager.get_gpu_info(self.config.gpu_id)
+            if not selected_gpu:
+                return {
+                    "compatible": False,
+                    "warnings": [f"Specified GPU {self.config.gpu_id} not found"],
+                    "selected_gpu": None
+                }
+        else:
+            selected_gpu = self.gpu_manager.get_best_gpu(estimated_memory)
+            if selected_gpu:
+                self.config.gpu_id = selected_gpu.gpu_id
+        if not selected_gpu:
+            return {
+                "compatible": False,
+                "warnings": [
+                    f"No suitable GPU found. Required: {estimated_memory}MB, "
+                    f"Available: {max(gpu.memory_free for gpu in self.gpu_manager.gpus) if self.gpu_manager.gpus else 0}MB"
+                ],
+                "selected_gpu": None
+            }
+        warnings = []
+        # Check memory requirements
+        required_memory = int(estimated_memory * self.config.gpu_memory_utilization)
+        if selected_gpu.memory_free < required_memory:
+            warnings.append(f"GPU memory may be insufficient: {selected_gpu.memory_free}MB available, {required_memory}MB required")
+        # Check utilization
+        if selected_gpu.utilization > 80:
+            warnings.append(f"GPU utilization is high: {selected_gpu.utilization}%")
+        return {
+            "compatible": True,
+            "warnings": warnings,
+            "selected_gpu": {
+                "gpu_id": selected_gpu.gpu_id,
+                "name": selected_gpu.name,
+                "memory_total": selected_gpu.memory_total,
+                "memory_free": selected_gpu.memory_free,
+                "utilization": selected_gpu.utilization,
+                "estimated_memory_required": estimated_memory
+            }
+        }
+    async def _wait_for_startup(self, timeout: int = 300) -> Dict[str, Any]:
+        """Wait for vLLM service to start"""
+        start_time = time.time()
+        logs = []
+        while time.time() - start_time < timeout:
+            # Check if process is still running
+            if self.process and self.process.poll() is not None:
+                # Process died
+                stdout, stderr = self.process.communicate()
+                return {
+                    "success": False,
+                    "error": "vLLM process died during startup",
+                    "logs": logs + [stdout, stderr]
+                }
+            # Try to connect to service
+            try:
+                async with httpx.AsyncClient(timeout=2.0) as client:
+                    response = await client.get(f"{self.service_url}/health")
+                    if response.status_code == 200:
+                        startup_time = time.time() - start_time
+                        return {
+                            "success": True,
+                            "startup_time": startup_time
+                        }
+            except:
+                pass
+            # Collect logs
+            if self.process:
+                try:
+                    # Non-blocking read of logs
+                    import select
+                    if hasattr(select, 'select'):
+                        ready, _, _ = select.select([self.process.stdout], [], [], 0.1)
+                        if ready:
+                            line = self.process.stdout.readline()
+                            if line:
+                                logs.append(line.strip())
+                                logger.debug(f"vLLM: {line.strip()}")
+                except:
+                    pass
+            await asyncio.sleep(2)
+        return {
+            "success": False,
+            "error": f"Startup timeout after {timeout} seconds",
+            "logs": logs
+        }
+    async def _get_model_info(self) -> Optional[Dict[str, Any]]:
+        """Get model information from vLLM service"""
+        try:
+            async with httpx.AsyncClient(timeout=5.0) as client:
+                response = await client.get(f"{self.service_url}/v1/models")
+                if response.status_code == 200:
+                    return response.json()
+        except:
+            pass
+        return None
+    def get_service_info(self) -> Dict[str, Any]:
+        """Get current service information"""
+        return {
+            **self.service_info,
+            "config": self.config.to_dict(),
+            "process_id": self.process.pid if self.process else None,
+            "is_running": self.is_running,
+            "startup_time": self.startup_time.isoformat() if self.startup_time else None
+        }

isa_model/deployment/modal/__init__.py ADDED Viewed

@@ -0,0 +1,8 @@
+"""
+Modal deployment services and utilities
+"""
+from .deployer import ModalDeployer
+from .config import ModalConfig, ModalServiceType, create_llm_config, create_vision_config, create_audio_config, create_embedding_config
+__all__ = ["ModalDeployer", "ModalConfig", "ModalServiceType", "create_llm_config", "create_vision_config", "create_audio_config", "create_embedding_config"]

isa_model/deployment/modal/config.py ADDED Viewed

@@ -0,0 +1,136 @@
+"""
+Modal deployment configuration
+Simplified configuration for Modal-specific deployments.
+"""
+from dataclasses import dataclass, field
+from typing import Dict, Any, Optional
+from enum import Enum
+class ModalServiceType(Enum):
+    """Modal service types"""
+    LLM = "llm"
+    VISION = "vision"
+    AUDIO = "audio"
+    EMBEDDING = "embedding"
+    VIDEO = "video"
+@dataclass
+class ModalConfig:
+    """Configuration for Modal deployment"""
+    # Service identification
+    service_name: str
+    service_type: ModalServiceType
+    model_id: str
+    # Modal-specific settings
+    image_tag: str = "latest"
+    cpu_cores: int = 2
+    memory_gb: int = 8
+    gpu_type: Optional[str] = None  # e.g., "A10G", "T4", "A100"
+    timeout_seconds: int = 300
+    # Scaling configuration
+    min_instances: int = 0
+    max_instances: int = 10
+    concurrency_limit: int = 1
+    # Environment variables
+    environment: Dict[str, str] = field(default_factory=dict)
+    # Service-specific configuration
+    service_config: Dict[str, Any] = field(default_factory=dict)
+    def to_dict(self) -> Dict[str, Any]:
+        """Convert to dictionary for serialization"""
+        return {
+            "service_name": self.service_name,
+            "service_type": self.service_type.value,
+            "model_id": self.model_id,
+            "image_tag": self.image_tag,
+            "cpu_cores": self.cpu_cores,
+            "memory_gb": self.memory_gb,
+            "gpu_type": self.gpu_type,
+            "timeout_seconds": self.timeout_seconds,
+            "min_instances": self.min_instances,
+            "max_instances": self.max_instances,
+            "concurrency_limit": self.concurrency_limit,
+            "environment": self.environment,
+            "service_config": self.service_config
+        }
+    @classmethod
+    def from_dict(cls, data: Dict[str, Any]) -> "ModalConfig":
+        """Create from dictionary"""
+        return cls(
+            service_name=data["service_name"],
+            service_type=ModalServiceType(data["service_type"]),
+            model_id=data["model_id"],
+            image_tag=data.get("image_tag", "latest"),
+            cpu_cores=data.get("cpu_cores", 2),
+            memory_gb=data.get("memory_gb", 8),
+            gpu_type=data.get("gpu_type"),
+            timeout_seconds=data.get("timeout_seconds", 300),
+            min_instances=data.get("min_instances", 0),
+            max_instances=data.get("max_instances", 10),
+            concurrency_limit=data.get("concurrency_limit", 1),
+            environment=data.get("environment", {}),
+            service_config=data.get("service_config", {})
+        )
+# Predefined configurations for common service types
+def create_llm_config(service_name: str, model_id: str, gpu_type: str = "A10G") -> ModalConfig:
+    """Create configuration for LLM service"""
+    return ModalConfig(
+        service_name=service_name,
+        service_type=ModalServiceType.LLM,
+        model_id=model_id,
+        gpu_type=gpu_type,
+        memory_gb=16,
+        timeout_seconds=600,
+        max_instances=5
+    )
+def create_vision_config(service_name: str, model_id: str, gpu_type: str = "T4") -> ModalConfig:
+    """Create configuration for vision service"""
+    return ModalConfig(
+        service_name=service_name,
+        service_type=ModalServiceType.VISION,
+        model_id=model_id,
+        gpu_type=gpu_type,
+        memory_gb=12,
+        timeout_seconds=300,
+        max_instances=10
+    )
+def create_audio_config(service_name: str, model_id: str, gpu_type: str = "T4") -> ModalConfig:
+    """Create configuration for audio service"""
+    return ModalConfig(
+        service_name=service_name,
+        service_type=ModalServiceType.AUDIO,
+        model_id=model_id,
+        gpu_type=gpu_type,
+        memory_gb=8,
+        timeout_seconds=300,
+        max_instances=8
+    )
+def create_embedding_config(service_name: str, model_id: str, gpu_type: str = "T4") -> ModalConfig:
+    """Create configuration for embedding service"""
+    return ModalConfig(
+        service_name=service_name,
+        service_type=ModalServiceType.EMBEDDING,
+        model_id=model_id,
+        gpu_type=gpu_type,
+        memory_gb=6,
+        timeout_seconds=120,
+        max_instances=15
+    )

isa_model/deployment/{services/auto_hf_modal_deployer.py → modal/deployer.py} RENAMED Viewed

@@ -34,7 +34,7 @@ class ModelConfig:
     max_tokens: int = 2048
     estimated_cost_per_hour: float = 0.0
-class HuggingFaceModalDeployer:
+class ModalDeployer:
     """
     Service to automatically deploy HuggingFace models to Modal
     """

isa_model/deployment/modal/services/__init__.py ADDED Viewed

@@ -0,0 +1,3 @@
+"""
+Modal service implementations organized by capability
+"""

isa_model/deployment/modal/services/audio/__init__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ """Audio services for Modal deployment"""

isa_model/deployment/modal/services/embedding/__init__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ """Embedding services for Modal deployment"""

isa_model/deployment/modal/services/llm/__init__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ """LLM services for Modal deployment"""

isa-model 0.4.0__py3-none-any.whl → 0.4.3__py3-none-any.whl

isa-model 0.4.0py3-none-any.whl → 0.4.3py3-none-any.whl