PyPI - isa-model - Versions diffs - 0.4.0__py3-none-any.whl → 0.4.4__py3-none-any.whl - Mend

isa-model 0.4.0py3-none-any.whl → 0.4.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (189) hide show

isa_model/client.py +466 -43
isa_model/core/cache/redis_cache.py +12 -3
isa_model/core/config/config_manager.py +230 -3
isa_model/core/config.py +90 -0
isa_model/core/database/direct_db_client.py +114 -0
isa_model/core/database/migration_manager.py +563 -0
isa_model/core/database/migrations.py +21 -1
isa_model/core/database/supabase_client.py +154 -19
isa_model/core/dependencies.py +316 -0
isa_model/core/discovery/__init__.py +19 -0
isa_model/core/discovery/consul_discovery.py +190 -0
isa_model/core/logging/__init__.py +54 -0
isa_model/core/logging/influx_logger.py +523 -0
isa_model/core/logging/loki_logger.py +160 -0
isa_model/core/models/__init__.py +27 -18
isa_model/core/models/config_models.py +625 -0
isa_model/core/models/deployment_billing_tracker.py +430 -0
isa_model/core/models/model_manager.py +35 -80
isa_model/core/models/model_metadata.py +690 -0
isa_model/core/models/model_repo.py +174 -18
isa_model/core/models/system_models.py +857 -0
isa_model/core/repositories/__init__.py +9 -0
isa_model/core/repositories/config_repository.py +912 -0
isa_model/core/services/intelligent_model_selector.py +399 -21
isa_model/core/types.py +1 -0
isa_model/deployment/__init__.py +5 -48
isa_model/deployment/core/__init__.py +2 -31
isa_model/deployment/core/deployment_manager.py +1278 -370
isa_model/deployment/modal/__init__.py +8 -0
isa_model/deployment/modal/config.py +136 -0
isa_model/deployment/{services/auto_hf_modal_deployer.py → modal/deployer.py} +1 -1
isa_model/deployment/modal/services/__init__.py +3 -0
isa_model/deployment/modal/services/audio/__init__.py +1 -0
isa_model/deployment/modal/services/embedding/__init__.py +1 -0
isa_model/deployment/modal/services/llm/__init__.py +1 -0
isa_model/deployment/modal/services/llm/isa_llm_service.py +424 -0
isa_model/deployment/modal/services/video/__init__.py +1 -0
isa_model/deployment/modal/services/vision/__init__.py +1 -0
isa_model/deployment/models/org-org-acme-corp-tenant-a-service-llm-20250825-225822/tenant-a-service_modal_service.py +48 -0
isa_model/deployment/models/org-test-org-123-prefix-test-service-llm-20250825-225822/prefix-test-service_modal_service.py +48 -0
isa_model/deployment/models/test-llm-service-llm-20250825-204442/test-llm-service_modal_service.py +48 -0
isa_model/deployment/models/test-monitoring-gpt2-llm-20250825-212906/test-monitoring-gpt2_modal_service.py +48 -0
isa_model/deployment/models/test-monitoring-gpt2-llm-20250825-213009/test-monitoring-gpt2_modal_service.py +48 -0
isa_model/deployment/storage/__init__.py +5 -0
isa_model/deployment/storage/deployment_repository.py +824 -0
isa_model/deployment/triton/__init__.py +10 -0
isa_model/deployment/triton/config.py +196 -0
isa_model/deployment/triton/configs/__init__.py +1 -0
isa_model/deployment/triton/provider.py +512 -0
isa_model/deployment/triton/scripts/__init__.py +1 -0
isa_model/deployment/triton/templates/__init__.py +1 -0
isa_model/inference/__init__.py +47 -1
isa_model/inference/ai_factory.py +137 -10
isa_model/inference/legacy_services/__init__.py +21 -0
isa_model/inference/legacy_services/model_evaluation.py +637 -0
isa_model/inference/legacy_services/model_service.py +573 -0
isa_model/inference/legacy_services/model_serving.py +717 -0
isa_model/inference/legacy_services/model_training.py +561 -0
isa_model/inference/models/__init__.py +21 -0
isa_model/inference/models/inference_config.py +551 -0
isa_model/inference/models/inference_record.py +675 -0
isa_model/inference/models/performance_models.py +714 -0
isa_model/inference/repositories/__init__.py +9 -0
isa_model/inference/repositories/inference_repository.py +828 -0
isa_model/inference/services/audio/base_stt_service.py +184 -11
isa_model/inference/services/audio/openai_stt_service.py +22 -6
isa_model/inference/services/embedding/ollama_embed_service.py +15 -3
isa_model/inference/services/embedding/resilient_embed_service.py +285 -0
isa_model/inference/services/llm/__init__.py +10 -2
isa_model/inference/services/llm/base_llm_service.py +335 -24
isa_model/inference/services/llm/cerebras_llm_service.py +628 -0
isa_model/inference/services/llm/helpers/llm_adapter.py +9 -4
isa_model/inference/services/llm/helpers/llm_prompts.py +342 -0
isa_model/inference/services/llm/helpers/llm_utils.py +321 -23
isa_model/inference/services/llm/huggingface_llm_service.py +581 -0
isa_model/inference/services/llm/ollama_llm_service.py +9 -2
isa_model/inference/services/llm/openai_llm_service.py +33 -16
isa_model/inference/services/llm/yyds_llm_service.py +8 -2
isa_model/inference/services/vision/__init__.py +22 -1
isa_model/inference/services/vision/helpers/image_utils.py +8 -5
isa_model/inference/services/vision/isa_vision_service.py +65 -4
isa_model/inference/services/vision/openai_vision_service.py +19 -10
isa_model/inference/services/vision/vgg16_vision_service.py +257 -0
isa_model/serving/api/cache_manager.py +245 -0
isa_model/serving/api/dependencies/__init__.py +1 -0
isa_model/serving/api/dependencies/auth.py +194 -0
isa_model/serving/api/dependencies/database.py +139 -0
isa_model/serving/api/error_handlers.py +284 -0
isa_model/serving/api/fastapi_server.py +172 -22
isa_model/serving/api/middleware/auth.py +8 -2
isa_model/serving/api/middleware/security.py +23 -33
isa_model/serving/api/middleware/tenant_context.py +414 -0
isa_model/serving/api/routes/analytics.py +4 -1
isa_model/serving/api/routes/config.py +645 -0
isa_model/serving/api/routes/deployment_billing.py +315 -0
isa_model/serving/api/routes/deployments.py +138 -2
isa_model/serving/api/routes/gpu_gateway.py +440 -0
isa_model/serving/api/routes/health.py +32 -12
isa_model/serving/api/routes/inference_monitoring.py +486 -0
isa_model/serving/api/routes/local_deployments.py +448 -0
isa_model/serving/api/routes/tenants.py +575 -0
isa_model/serving/api/routes/unified.py +680 -18
isa_model/serving/api/routes/webhooks.py +479 -0
isa_model/serving/api/startup.py +68 -54
isa_model/utils/gpu_utils.py +311 -0
{isa_model-0.4.0.dist-info → isa_model-0.4.4.dist-info}/METADATA +71 -24
isa_model-0.4.4.dist-info/RECORD +180 -0
isa_model/core/security/secrets.py +0 -358
isa_model/core/storage/hf_storage.py +0 -419
isa_model/core/storage/minio_storage.py +0 -0
isa_model/deployment/cloud/__init__.py +0 -9
isa_model/deployment/cloud/modal/__init__.py +0 -10
isa_model/deployment/core/deployment_config.py +0 -356
isa_model/deployment/core/isa_deployment_service.py +0 -401
isa_model/deployment/gpu_int8_ds8/app/server.py +0 -66
isa_model/deployment/gpu_int8_ds8/scripts/test_client.py +0 -43
isa_model/deployment/gpu_int8_ds8/scripts/test_client_os.py +0 -35
isa_model/deployment/runtime/deployed_service.py +0 -338
isa_model/deployment/services/__init__.py +0 -9
isa_model/deployment/services/auto_deploy_vision_service.py +0 -538
isa_model/deployment/services/model_service.py +0 -332
isa_model/deployment/services/service_monitor.py +0 -356
isa_model/deployment/services/service_registry.py +0 -527
isa_model/eval/__init__.py +0 -92
isa_model/eval/benchmarks/__init__.py +0 -27
isa_model/eval/benchmarks/multimodal_datasets.py +0 -460
isa_model/eval/benchmarks.py +0 -701
isa_model/eval/config/__init__.py +0 -10
isa_model/eval/config/evaluation_config.py +0 -108
isa_model/eval/evaluators/__init__.py +0 -24
isa_model/eval/evaluators/audio_evaluator.py +0 -727
isa_model/eval/evaluators/base_evaluator.py +0 -503
isa_model/eval/evaluators/embedding_evaluator.py +0 -742
isa_model/eval/evaluators/llm_evaluator.py +0 -472
isa_model/eval/evaluators/vision_evaluator.py +0 -564
isa_model/eval/example_evaluation.py +0 -395
isa_model/eval/factory.py +0 -798
isa_model/eval/infrastructure/__init__.py +0 -24
isa_model/eval/infrastructure/experiment_tracker.py +0 -466
isa_model/eval/isa_benchmarks.py +0 -700
isa_model/eval/isa_integration.py +0 -582
isa_model/eval/metrics.py +0 -951
isa_model/eval/tests/unit/test_basic.py +0 -396
isa_model/serving/api/routes/evaluations.py +0 -579
isa_model/training/__init__.py +0 -168
isa_model/training/annotation/annotation_schema.py +0 -47
isa_model/training/annotation/processors/annotation_processor.py +0 -126
isa_model/training/annotation/storage/dataset_manager.py +0 -131
isa_model/training/annotation/storage/dataset_schema.py +0 -44
isa_model/training/annotation/tests/test_annotation_flow.py +0 -109
isa_model/training/annotation/tests/test_minio copy.py +0 -113
isa_model/training/annotation/tests/test_minio_upload.py +0 -43
isa_model/training/annotation/views/annotation_controller.py +0 -158
isa_model/training/cloud/__init__.py +0 -22
isa_model/training/cloud/job_orchestrator.py +0 -402
isa_model/training/cloud/runpod_trainer.py +0 -454
isa_model/training/cloud/storage_manager.py +0 -482
isa_model/training/core/__init__.py +0 -26
isa_model/training/core/config.py +0 -181
isa_model/training/core/dataset.py +0 -222
isa_model/training/core/trainer.py +0 -720
isa_model/training/core/utils.py +0 -213
isa_model/training/examples/intelligent_training_example.py +0 -281
isa_model/training/factory.py +0 -424
isa_model/training/intelligent/__init__.py +0 -25
isa_model/training/intelligent/decision_engine.py +0 -643
isa_model/training/intelligent/intelligent_factory.py +0 -888
isa_model/training/intelligent/knowledge_base.py +0 -751
isa_model/training/intelligent/resource_optimizer.py +0 -839
isa_model/training/intelligent/task_classifier.py +0 -576
isa_model/training/storage/__init__.py +0 -24
isa_model/training/storage/core_integration.py +0 -439
isa_model/training/storage/training_repository.py +0 -552
isa_model/training/storage/training_storage.py +0 -628
isa_model-0.4.0.dist-info/RECORD +0 -182
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_chatTTS_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_fish_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_openvoice_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_service_v2.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/embedding}/isa_embed_rerank_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/video}/isa_video_hunyuan_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_ocr_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_qwen25_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_table_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_ui_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_ui_service_optimized.py +0 -0
/isa_model/deployment/{services → modal/services/vision}/simple_auto_deploy_vision_service.py +0 -0
{isa_model-0.4.0.dist-info → isa_model-0.4.4.dist-info}/WHEEL +0 -0
{isa_model-0.4.0.dist-info → isa_model-0.4.4.dist-info}/top_level.txt +0 -0

isa_model/serving/api/routes/local_deployments.py ADDED Viewed

@@ -0,0 +1,448 @@
+"""
+Local GPU deployments API routes
+Endpoints for managing local GPU model deployments.
+"""
+import logging
+from typing import Dict, List, Optional, Any
+from fastapi import APIRouter, HTTPException, Depends, BackgroundTasks
+from pydantic import BaseModel, Field
+from ....deployment.core.deployment_manager import DeploymentManager
+from ....deployment.local.config import (
+    LocalGPUConfig, LocalServiceType, LocalBackend,
+    create_vllm_config, create_tensorrt_config, create_transformers_config
+)
+from ...middleware.auth import get_current_user
+logger = logging.getLogger(__name__)
+router = APIRouter(prefix="/api/v1/local", tags=["local-deployments"])
+# Request/Response Models
+class LocalDeployRequest(BaseModel):
+    """Local deployment request"""
+    service_name: str = Field(..., description="Unique service name")
+    model_id: str = Field(..., description="HuggingFace model ID")
+    backend: str = Field("transformers", description="Inference backend (vllm, tensorrt_llm, transformers)")
+    service_type: str = Field("llm", description="Service type (llm, vision, audio, embedding)")
+    # Model configuration
+    model_precision: str = Field("float16", description="Model precision")
+    max_model_len: int = Field(2048, description="Maximum sequence length")
+    max_batch_size: int = Field(8, description="Maximum batch size")
+    # GPU settings
+    gpu_id: Optional[int] = Field(None, description="Specific GPU ID to use")
+    gpu_memory_utilization: float = Field(0.9, description="GPU memory utilization fraction")
+    # Performance settings
+    tensor_parallel_size: int = Field(1, description="Tensor parallel size")
+    enable_chunked_prefill: bool = Field(True, description="Enable chunked prefill")
+    enable_prefix_caching: bool = Field(True, description="Enable prefix caching")
+    # Quantization
+    quantization: Optional[str] = Field(None, description="Quantization method (int8, int4, awq, gptq)")
+    # Advanced settings
+    trust_remote_code: bool = Field(False, description="Trust remote code in model")
+    revision: Optional[str] = Field(None, description="Model revision")
+    # Backend-specific settings
+    vllm_args: Dict[str, Any] = Field(default_factory=dict, description="Additional vLLM arguments")
+    tensorrt_args: Dict[str, Any] = Field(default_factory=dict, description="Additional TensorRT arguments")
+    transformers_args: Dict[str, Any] = Field(default_factory=dict, description="Additional Transformers arguments")
+class LocalServiceInfo(BaseModel):
+    """Local service information"""
+    service_name: str
+    model_id: str
+    backend: str
+    service_type: str
+    status: str
+    healthy: bool
+    response_time_ms: Optional[float] = None
+    error_count: int = 0
+    uptime_seconds: Optional[float] = None
+    deployed_at: Optional[str] = None
+class GenerateRequest(BaseModel):
+    """Text generation request"""
+    prompt: str = Field(..., description="Input prompt")
+    max_tokens: int = Field(512, description="Maximum tokens to generate")
+    temperature: float = Field(0.7, description="Sampling temperature")
+    top_p: float = Field(0.9, description="Top-p sampling")
+    top_k: int = Field(50, description="Top-k sampling")
+    stream: bool = Field(False, description="Stream response")
+class ChatCompletionRequest(BaseModel):
+    """Chat completion request"""
+    messages: List[Dict[str, str]] = Field(..., description="Chat messages")
+    max_tokens: int = Field(512, description="Maximum tokens to generate")
+    temperature: float = Field(0.7, description="Sampling temperature")
+    top_p: float = Field(0.9, description="Top-p sampling")
+    stream: bool = Field(False, description="Stream response")
+# Dependency injection
+async def get_deployment_manager() -> DeploymentManager:
+    """Get deployment manager instance"""
+    return DeploymentManager()
+@router.get("/status", summary="Get local GPU system status")
+async def get_local_status(
+    manager: DeploymentManager = Depends(get_deployment_manager)
+):
+    """Get overall local GPU system status including available resources"""
+    try:
+        status = await manager.get_local_system_status()
+        return {"success": True, "status": status}
+    except Exception as e:
+        logger.error(f"Failed to get local status: {e}")
+        raise HTTPException(status_code=500, detail=str(e))
+@router.post("/deploy", summary="Deploy model to local GPU")
+async def deploy_local_service(
+    request: LocalDeployRequest,
+    background_tasks: BackgroundTasks,
+    manager: DeploymentManager = Depends(get_deployment_manager),
+    current_user: Optional[Dict] = Depends(get_current_user)
+):
+    """Deploy a model service to local GPU"""
+    try:
+        # Convert request to configuration
+        config = LocalGPUConfig(
+            service_name=request.service_name,
+            service_type=LocalServiceType(request.service_type),
+            model_id=request.model_id,
+            backend=LocalBackend(request.backend),
+            model_precision=request.model_precision,
+            max_model_len=request.max_model_len,
+            max_batch_size=request.max_batch_size,
+            gpu_id=request.gpu_id,
+            gpu_memory_utilization=request.gpu_memory_utilization,
+            tensor_parallel_size=request.tensor_parallel_size,
+            enable_chunked_prefill=request.enable_chunked_prefill,
+            enable_prefix_caching=request.enable_prefix_caching,
+            quantization=request.quantization,
+            trust_remote_code=request.trust_remote_code,
+            revision=request.revision,
+            vllm_args=request.vllm_args,
+            tensorrt_args=request.tensorrt_args,
+            transformers_args=request.transformers_args
+        )
+        # Deploy service
+        result = await manager.deploy_to_local(config)
+        if result["success"]:
+            return {
+                "success": True,
+                "message": f"Service {request.service_name} deployed successfully",
+                "deployment": result
+            }
+        else:
+            raise HTTPException(status_code=400, detail=result.get("error", "Deployment failed"))
+    except ValueError as e:
+        raise HTTPException(status_code=400, detail=f"Invalid configuration: {e}")
+    except Exception as e:
+        logger.error(f"Local deployment failed: {e}")
+        raise HTTPException(status_code=500, detail=str(e))
+@router.get("/services", summary="List local GPU services")
+async def list_local_services(
+    manager: DeploymentManager = Depends(get_deployment_manager)
+) -> Dict[str, Any]:
+    """List all deployed local GPU services"""
+    try:
+        services = await manager.list_local_services()
+        return {
+            "success": True,
+            "services": services,
+            "count": len(services)
+        }
+    except Exception as e:
+        logger.error(f"Failed to list local services: {e}")
+        raise HTTPException(status_code=500, detail=str(e))
+@router.get("/services/{service_name}", summary="Get local service information")
+async def get_local_service(
+    service_name: str,
+    manager: DeploymentManager = Depends(get_deployment_manager)
+):
+    """Get detailed information about a specific local service"""
+    try:
+        service_info = await manager.get_local_service_info(service_name)
+        if service_info is None:
+            raise HTTPException(status_code=404, detail=f"Service {service_name} not found")
+        return {
+            "success": True,
+            "service": service_info
+        }
+    except HTTPException:
+        raise
+    except Exception as e:
+        logger.error(f"Failed to get service info for {service_name}: {e}")
+        raise HTTPException(status_code=500, detail=str(e))
+@router.delete("/services/{service_name}", summary="Undeploy local service")
+async def undeploy_local_service(
+    service_name: str,
+    manager: DeploymentManager = Depends(get_deployment_manager),
+    current_user: Optional[Dict] = Depends(get_current_user)
+):
+    """Stop and remove a deployed local service"""
+    try:
+        result = await manager.undeploy_local_service(service_name)
+        if result["success"]:
+            return {
+                "success": True,
+                "message": f"Service {service_name} undeployed successfully"
+            }
+        else:
+            raise HTTPException(status_code=400, detail=result.get("error", "Undeploy failed"))
+    except HTTPException:
+        raise
+    except Exception as e:
+        logger.error(f"Failed to undeploy service {service_name}: {e}")
+        raise HTTPException(status_code=500, detail=str(e))
+@router.post("/services/{service_name}/generate", summary="Generate text using local service")
+async def generate_text(
+    service_name: str,
+    request: GenerateRequest,
+    manager: DeploymentManager = Depends(get_deployment_manager)
+):
+    """Generate text using a deployed local service"""
+    try:
+        # Get the local provider and call generate_text
+        local_provider = manager.local_provider
+        result = await local_provider.generate_text(
+            service_name=service_name,
+            prompt=request.prompt,
+            max_tokens=request.max_tokens,
+            temperature=request.temperature,
+            top_p=request.top_p,
+            top_k=request.top_k,
+            stream=request.stream
+        )
+        if result["success"]:
+            return result
+        else:
+            raise HTTPException(status_code=400, detail=result.get("error", "Generation failed"))
+    except HTTPException:
+        raise
+    except Exception as e:
+        logger.error(f"Text generation failed for {service_name}: {e}")
+        raise HTTPException(status_code=500, detail=str(e))
+@router.post("/services/{service_name}/chat/completions", summary="Chat completion using local service")
+async def chat_completion(
+    service_name: str,
+    request: ChatCompletionRequest,
+    manager: DeploymentManager = Depends(get_deployment_manager)
+):
+    """Generate chat completion using a deployed local service"""
+    try:
+        # Get the local provider and call chat_completion
+        local_provider = manager.local_provider
+        result = await local_provider.chat_completion(
+            service_name=service_name,
+            messages=request.messages,
+            max_tokens=request.max_tokens,
+            temperature=request.temperature,
+            top_p=request.top_p,
+            stream=request.stream
+        )
+        if result["success"]:
+            return result
+        else:
+            raise HTTPException(status_code=400, detail=result.get("error", "Chat completion failed"))
+    except HTTPException:
+        raise
+    except Exception as e:
+        logger.error(f"Chat completion failed for {service_name}: {e}")
+        raise HTTPException(status_code=500, detail=str(e))
+@router.get("/backends", summary="List available local backends")
+async def list_backends():
+    """List available local inference backends"""
+    backends = []
+    # Check backend availability
+    try:
+        import vllm
+        backends.append({
+            "name": "vllm",
+            "description": "High-performance LLM inference server",
+            "available": True,
+            "features": ["high_throughput", "dynamic_batching", "prefix_caching"]
+        })
+    except ImportError:
+        backends.append({
+            "name": "vllm",
+            "description": "High-performance LLM inference server",
+            "available": False,
+            "install_command": "pip install vllm"
+        })
+    try:
+        import tensorrt_llm
+        backends.append({
+            "name": "tensorrt_llm",
+            "description": "NVIDIA TensorRT-LLM for maximum optimization",
+            "available": True,
+            "features": ["maximum_performance", "tensorrt_optimization", "cuda_acceleration"]
+        })
+    except ImportError:
+        backends.append({
+            "name": "tensorrt_llm",
+            "description": "NVIDIA TensorRT-LLM for maximum optimization",
+            "available": False,
+            "install_command": "pip install tensorrt-llm"
+        })
+    try:
+        import transformers
+        backends.append({
+            "name": "transformers",
+            "description": "HuggingFace Transformers for universal compatibility",
+            "available": True,
+            "features": ["universal_compatibility", "all_model_types", "quantization_support"]
+        })
+    except ImportError:
+        backends.append({
+            "name": "transformers",
+            "description": "HuggingFace Transformers for universal compatibility",
+            "available": False,
+            "install_command": "pip install transformers"
+        })
+    return {
+        "success": True,
+        "backends": backends
+    }
+@router.get("/gpu-info", summary="Get GPU information")
+async def get_gpu_info():
+    """Get detailed information about available GPUs"""
+    try:
+        from ....utils.gpu_utils import get_gpu_manager
+        gpu_manager = get_gpu_manager()
+        system_info = gpu_manager.get_system_info()
+        return {
+            "success": True,
+            "gpu_info": system_info
+        }
+    except Exception as e:
+        logger.error(f"Failed to get GPU info: {e}")
+        raise HTTPException(status_code=500, detail=str(e))
+@router.post("/estimate-memory", summary="Estimate model memory requirements")
+async def estimate_memory(
+    model_id: str,
+    precision: str = "float16"
+):
+    """Estimate memory requirements for a model"""
+    try:
+        from ....utils.gpu_utils import estimate_model_memory
+        memory_mb = estimate_model_memory(model_id, precision)
+        memory_gb = memory_mb / 1024
+        return {
+            "success": True,
+            "model_id": model_id,
+            "precision": precision,
+            "estimated_memory_mb": memory_mb,
+            "estimated_memory_gb": round(memory_gb, 2)
+        }
+    except Exception as e:
+        logger.error(f"Failed to estimate memory for {model_id}: {e}")
+        raise HTTPException(status_code=500, detail=str(e))
+@router.get("/presets", summary="Get deployment configuration presets")
+async def get_deployment_presets():
+    """Get predefined deployment configuration presets"""
+    presets = {
+        "vllm_small": {
+            "name": "vLLM - Small Model",
+            "description": "Optimized for models up to 7B parameters",
+            "backend": "vllm",
+            "max_model_len": 2048,
+            "max_batch_size": 16,
+            "gpu_memory_utilization": 0.9,
+            "enable_chunked_prefill": True,
+            "enable_prefix_caching": True
+        },
+        "vllm_large": {
+            "name": "vLLM - Large Model",
+            "description": "Optimized for models 13B+ parameters",
+            "backend": "vllm",
+            "max_model_len": 4096,
+            "max_batch_size": 8,
+            "gpu_memory_utilization": 0.95,
+            "tensor_parallel_size": 2,
+            "enable_chunked_prefill": True,
+            "enable_prefix_caching": True
+        },
+        "tensorrt_performance": {
+            "name": "TensorRT-LLM - Maximum Performance",
+            "description": "Maximum optimization with TensorRT",
+            "backend": "tensorrt_llm",
+            "model_precision": "float16",
+            "max_batch_size": 16,
+            "tensorrt_args": {
+                "enable_kv_cache_reuse": True,
+                "use_gpt_attention_plugin": True,
+                "remove_input_padding": True
+            }
+        },
+        "transformers_compatible": {
+            "name": "Transformers - Universal",
+            "description": "Maximum compatibility with all models",
+            "backend": "transformers",
+            "model_precision": "float16",
+            "max_batch_size": 4,
+            "gpu_memory_utilization": 0.8,
+            "transformers_args": {
+                "device_map": "auto",
+                "torch_dtype": "auto",
+                "low_cpu_mem_usage": True
+            }
+        }
+    }
+    return {
+        "success": True,
+        "presets": presets
+    }

isa-model 0.4.0__py3-none-any.whl → 0.4.4__py3-none-any.whl

isa-model 0.4.0py3-none-any.whl → 0.4.4py3-none-any.whl