PyPI - isa-model - Versions diffs - 0.4.0__py3-none-any.whl → 0.4.3__py3-none-any.whl - Mend

isa-model 0.4.0py3-none-any.whl → 0.4.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (199) hide show

isa_model/client.py +466 -43
isa_model/core/cache/redis_cache.py +12 -3
isa_model/core/config/config_manager.py +230 -3
isa_model/core/config.py +90 -0
isa_model/core/database/direct_db_client.py +114 -0
isa_model/core/database/migration_manager.py +563 -0
isa_model/core/database/migrations.py +21 -1
isa_model/core/database/supabase_client.py +154 -19
isa_model/core/dependencies.py +316 -0
isa_model/core/discovery/__init__.py +19 -0
isa_model/core/discovery/consul_discovery.py +190 -0
isa_model/core/logging/__init__.py +54 -0
isa_model/core/logging/influx_logger.py +523 -0
isa_model/core/logging/loki_logger.py +160 -0
isa_model/core/models/__init__.py +27 -18
isa_model/core/models/config_models.py +625 -0
isa_model/core/models/deployment_billing_tracker.py +430 -0
isa_model/core/models/model_manager.py +40 -17
isa_model/core/models/model_metadata.py +690 -0
isa_model/core/models/model_repo.py +174 -18
isa_model/core/models/system_models.py +857 -0
isa_model/core/repositories/__init__.py +9 -0
isa_model/core/repositories/config_repository.py +912 -0
isa_model/core/services/intelligent_model_selector.py +399 -21
isa_model/core/storage/hf_storage.py +1 -1
isa_model/core/types.py +1 -0
isa_model/deployment/__init__.py +5 -48
isa_model/deployment/core/__init__.py +2 -31
isa_model/deployment/core/deployment_manager.py +1278 -370
isa_model/deployment/local/__init__.py +31 -0
isa_model/deployment/local/config.py +248 -0
isa_model/deployment/local/gpu_gateway.py +607 -0
isa_model/deployment/local/health_checker.py +428 -0
isa_model/deployment/local/provider.py +586 -0
isa_model/deployment/local/tensorrt_service.py +621 -0
isa_model/deployment/local/transformers_service.py +644 -0
isa_model/deployment/local/vllm_service.py +527 -0
isa_model/deployment/modal/__init__.py +8 -0
isa_model/deployment/modal/config.py +136 -0
isa_model/deployment/{services/auto_hf_modal_deployer.py → modal/deployer.py} +1 -1
isa_model/deployment/modal/services/__init__.py +3 -0
isa_model/deployment/modal/services/audio/__init__.py +1 -0
isa_model/deployment/modal/services/embedding/__init__.py +1 -0
isa_model/deployment/modal/services/llm/__init__.py +1 -0
isa_model/deployment/modal/services/llm/isa_llm_service.py +424 -0
isa_model/deployment/modal/services/video/__init__.py +1 -0
isa_model/deployment/modal/services/vision/__init__.py +1 -0
isa_model/deployment/models/org-org-acme-corp-tenant-a-service-llm-20250825-225822/tenant-a-service_modal_service.py +48 -0
isa_model/deployment/models/org-test-org-123-prefix-test-service-llm-20250825-225822/prefix-test-service_modal_service.py +48 -0
isa_model/deployment/models/test-llm-service-llm-20250825-204442/test-llm-service_modal_service.py +48 -0
isa_model/deployment/models/test-monitoring-gpt2-llm-20250825-212906/test-monitoring-gpt2_modal_service.py +48 -0
isa_model/deployment/models/test-monitoring-gpt2-llm-20250825-213009/test-monitoring-gpt2_modal_service.py +48 -0
isa_model/deployment/storage/__init__.py +5 -0
isa_model/deployment/storage/deployment_repository.py +824 -0
isa_model/deployment/triton/__init__.py +10 -0
isa_model/deployment/triton/config.py +196 -0
isa_model/deployment/triton/configs/__init__.py +1 -0
isa_model/deployment/triton/provider.py +512 -0
isa_model/deployment/triton/scripts/__init__.py +1 -0
isa_model/deployment/triton/templates/__init__.py +1 -0
isa_model/inference/__init__.py +47 -1
isa_model/inference/ai_factory.py +137 -10
isa_model/inference/legacy_services/__init__.py +21 -0
isa_model/inference/legacy_services/model_evaluation.py +637 -0
isa_model/inference/legacy_services/model_service.py +573 -0
isa_model/inference/legacy_services/model_serving.py +717 -0
isa_model/inference/legacy_services/model_training.py +561 -0
isa_model/inference/models/__init__.py +21 -0
isa_model/inference/models/inference_config.py +551 -0
isa_model/inference/models/inference_record.py +675 -0
isa_model/inference/models/performance_models.py +714 -0
isa_model/inference/repositories/__init__.py +9 -0
isa_model/inference/repositories/inference_repository.py +828 -0
isa_model/inference/services/audio/base_stt_service.py +184 -11
isa_model/inference/services/audio/openai_stt_service.py +22 -6
isa_model/inference/services/custom_model_manager.py +277 -0
isa_model/inference/services/embedding/ollama_embed_service.py +15 -3
isa_model/inference/services/embedding/resilient_embed_service.py +285 -0
isa_model/inference/services/llm/__init__.py +10 -2
isa_model/inference/services/llm/base_llm_service.py +335 -24
isa_model/inference/services/llm/cerebras_llm_service.py +628 -0
isa_model/inference/services/llm/helpers/llm_adapter.py +9 -4
isa_model/inference/services/llm/helpers/llm_prompts.py +342 -0
isa_model/inference/services/llm/helpers/llm_utils.py +321 -23
isa_model/inference/services/llm/huggingface_llm_service.py +581 -0
isa_model/inference/services/llm/local_llm_service.py +747 -0
isa_model/inference/services/llm/ollama_llm_service.py +9 -2
isa_model/inference/services/llm/openai_llm_service.py +33 -16
isa_model/inference/services/llm/yyds_llm_service.py +8 -2
isa_model/inference/services/vision/__init__.py +22 -1
isa_model/inference/services/vision/blip_vision_service.py +359 -0
isa_model/inference/services/vision/helpers/image_utils.py +8 -5
isa_model/inference/services/vision/isa_vision_service.py +65 -4
isa_model/inference/services/vision/openai_vision_service.py +19 -10
isa_model/inference/services/vision/vgg16_vision_service.py +257 -0
isa_model/serving/api/cache_manager.py +245 -0
isa_model/serving/api/dependencies/__init__.py +1 -0
isa_model/serving/api/dependencies/auth.py +194 -0
isa_model/serving/api/dependencies/database.py +139 -0
isa_model/serving/api/error_handlers.py +284 -0
isa_model/serving/api/fastapi_server.py +172 -22
isa_model/serving/api/middleware/auth.py +8 -2
isa_model/serving/api/middleware/security.py +23 -33
isa_model/serving/api/middleware/tenant_context.py +414 -0
isa_model/serving/api/routes/analytics.py +4 -1
isa_model/serving/api/routes/config.py +645 -0
isa_model/serving/api/routes/deployment_billing.py +315 -0
isa_model/serving/api/routes/deployments.py +138 -2
isa_model/serving/api/routes/gpu_gateway.py +440 -0
isa_model/serving/api/routes/health.py +32 -12
isa_model/serving/api/routes/inference_monitoring.py +486 -0
isa_model/serving/api/routes/local_deployments.py +448 -0
isa_model/serving/api/routes/tenants.py +575 -0
isa_model/serving/api/routes/unified.py +680 -18
isa_model/serving/api/routes/webhooks.py +479 -0
isa_model/serving/api/startup.py +68 -54
isa_model/utils/gpu_utils.py +311 -0
{isa_model-0.4.0.dist-info → isa_model-0.4.3.dist-info}/METADATA +66 -24
isa_model-0.4.3.dist-info/RECORD +193 -0
isa_model/core/storage/minio_storage.py +0 -0
isa_model/deployment/cloud/__init__.py +0 -9
isa_model/deployment/cloud/modal/__init__.py +0 -10
isa_model/deployment/core/deployment_config.py +0 -356
isa_model/deployment/core/isa_deployment_service.py +0 -401
isa_model/deployment/gpu_int8_ds8/app/server.py +0 -66
isa_model/deployment/gpu_int8_ds8/scripts/test_client.py +0 -43
isa_model/deployment/gpu_int8_ds8/scripts/test_client_os.py +0 -35
isa_model/deployment/runtime/deployed_service.py +0 -338
isa_model/deployment/services/__init__.py +0 -9
isa_model/deployment/services/auto_deploy_vision_service.py +0 -538
isa_model/deployment/services/model_service.py +0 -332
isa_model/deployment/services/service_monitor.py +0 -356
isa_model/deployment/services/service_registry.py +0 -527
isa_model/eval/__init__.py +0 -92
isa_model/eval/benchmarks/__init__.py +0 -27
isa_model/eval/benchmarks/multimodal_datasets.py +0 -460
isa_model/eval/benchmarks.py +0 -701
isa_model/eval/config/__init__.py +0 -10
isa_model/eval/config/evaluation_config.py +0 -108
isa_model/eval/evaluators/__init__.py +0 -24
isa_model/eval/evaluators/audio_evaluator.py +0 -727
isa_model/eval/evaluators/base_evaluator.py +0 -503
isa_model/eval/evaluators/embedding_evaluator.py +0 -742
isa_model/eval/evaluators/llm_evaluator.py +0 -472
isa_model/eval/evaluators/vision_evaluator.py +0 -564
isa_model/eval/example_evaluation.py +0 -395
isa_model/eval/factory.py +0 -798
isa_model/eval/infrastructure/__init__.py +0 -24
isa_model/eval/infrastructure/experiment_tracker.py +0 -466
isa_model/eval/isa_benchmarks.py +0 -700
isa_model/eval/isa_integration.py +0 -582
isa_model/eval/metrics.py +0 -951
isa_model/eval/tests/unit/test_basic.py +0 -396
isa_model/serving/api/routes/evaluations.py +0 -579
isa_model/training/__init__.py +0 -168
isa_model/training/annotation/annotation_schema.py +0 -47
isa_model/training/annotation/processors/annotation_processor.py +0 -126
isa_model/training/annotation/storage/dataset_manager.py +0 -131
isa_model/training/annotation/storage/dataset_schema.py +0 -44
isa_model/training/annotation/tests/test_annotation_flow.py +0 -109
isa_model/training/annotation/tests/test_minio copy.py +0 -113
isa_model/training/annotation/tests/test_minio_upload.py +0 -43
isa_model/training/annotation/views/annotation_controller.py +0 -158
isa_model/training/cloud/__init__.py +0 -22
isa_model/training/cloud/job_orchestrator.py +0 -402
isa_model/training/cloud/runpod_trainer.py +0 -454
isa_model/training/cloud/storage_manager.py +0 -482
isa_model/training/core/__init__.py +0 -26
isa_model/training/core/config.py +0 -181
isa_model/training/core/dataset.py +0 -222
isa_model/training/core/trainer.py +0 -720
isa_model/training/core/utils.py +0 -213
isa_model/training/examples/intelligent_training_example.py +0 -281
isa_model/training/factory.py +0 -424
isa_model/training/intelligent/__init__.py +0 -25
isa_model/training/intelligent/decision_engine.py +0 -643
isa_model/training/intelligent/intelligent_factory.py +0 -888
isa_model/training/intelligent/knowledge_base.py +0 -751
isa_model/training/intelligent/resource_optimizer.py +0 -839
isa_model/training/intelligent/task_classifier.py +0 -576
isa_model/training/storage/__init__.py +0 -24
isa_model/training/storage/core_integration.py +0 -439
isa_model/training/storage/training_repository.py +0 -552
isa_model/training/storage/training_storage.py +0 -628
isa_model-0.4.0.dist-info/RECORD +0 -182
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_chatTTS_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_fish_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_openvoice_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_service_v2.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/embedding}/isa_embed_rerank_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/video}/isa_video_hunyuan_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_ocr_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_qwen25_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_table_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_ui_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_ui_service_optimized.py +0 -0
/isa_model/deployment/{services → modal/services/vision}/simple_auto_deploy_vision_service.py +0 -0
{isa_model-0.4.0.dist-info → isa_model-0.4.3.dist-info}/WHEEL +0 -0
{isa_model-0.4.0.dist-info → isa_model-0.4.3.dist-info}/top_level.txt +0 -0

isa_model/deployment/local/__init__.py ADDED Viewed

@@ -0,0 +1,31 @@
+"""
+Local GPU deployment module
+This module provides local GPU model deployment capabilities including:
+- Direct GPU resource management
+- vLLM integration for high-performance inference
+- TensorRT-LLM native deployment (non-containerized)
+- HuggingFace Transformers direct deployment
+- Local service monitoring and health checks
+"""
+from .provider import LocalGPUProvider
+from .config import (
+    LocalGPUConfig, LocalServiceType, LocalBackend,
+    create_vllm_config, create_tensorrt_config, create_transformers_config,
+    create_vision_config, create_embedding_config
+)
+from .health_checker import LocalHealthChecker
+__all__ = [
+    'LocalGPUProvider',
+    'LocalGPUConfig',
+    'LocalServiceType',
+    'LocalBackend',
+    'LocalHealthChecker',
+    'create_vllm_config',
+    'create_tensorrt_config',
+    'create_transformers_config',
+    'create_vision_config',
+    'create_embedding_config'
+]

isa_model/deployment/local/config.py ADDED Viewed

@@ -0,0 +1,248 @@
+"""
+Local GPU deployment configuration
+Configuration classes for local GPU model deployment.
+"""
+from dataclasses import dataclass, field
+from typing import Dict, Any, Optional, List
+from enum import Enum
+from pathlib import Path
+class LocalServiceType(Enum):
+    """Local service types"""
+    LLM = "llm"
+    VISION = "vision"
+    AUDIO = "audio"
+    EMBEDDING = "embedding"
+    IMAGE_GENERATION = "image_generation"
+class LocalBackend(Enum):
+    """Local inference backends"""
+    VLLM = "vllm"
+    TENSORRT_LLM = "tensorrt_llm"
+    TRANSFORMERS = "transformers"
+    ONNX = "onnxruntime"
+    OPENVINO = "openvino"
+@dataclass
+class LocalGPUConfig:
+    """Configuration for local GPU model deployment"""
+    # Service identification
+    service_name: str
+    service_type: LocalServiceType
+    model_id: str
+    backend: LocalBackend = LocalBackend.TRANSFORMERS
+    # GPU configuration
+    gpu_id: Optional[int] = None  # None = auto-select best GPU
+    gpu_memory_fraction: float = 0.9  # Fraction of GPU memory to use
+    enable_gpu: bool = True
+    # Model configuration
+    model_precision: str = "float16"  # float32, float16, int8, int4
+    max_model_len: int = 2048
+    max_batch_size: int = 8
+    # Performance settings
+    enable_chunked_prefill: bool = True
+    max_num_seqs: int = 256
+    tensor_parallel_size: int = 1
+    pipeline_parallel_size: int = 1
+    # Memory optimization
+    enable_prefix_caching: bool = True
+    gpu_memory_utilization: float = 0.9
+    swap_space: int = 4  # GB
+    cpu_offload: bool = False
+    # Quantization settings
+    quantization: Optional[str] = None  # awq, gptq, squeezellm, etc.
+    quantization_param_path: Optional[str] = None
+    # Serving configuration
+    host: str = "127.0.0.1"
+    port: int = 8000
+    api_key: Optional[str] = None
+    served_model_name: Optional[str] = None
+    # Advanced settings
+    trust_remote_code: bool = False
+    revision: Optional[str] = None
+    tokenizer_revision: Optional[str] = None
+    # Specific backend configurations
+    vllm_args: Dict[str, Any] = field(default_factory=dict)
+    tensorrt_args: Dict[str, Any] = field(default_factory=dict)
+    transformers_args: Dict[str, Any] = field(default_factory=dict)
+    # Environment and paths
+    model_cache_dir: Optional[str] = None
+    download_dir: Optional[str] = None
+    def to_dict(self) -> Dict[str, Any]:
+        """Convert to dictionary for serialization"""
+        return {
+            "service_name": self.service_name,
+            "service_type": self.service_type.value,
+            "model_id": self.model_id,
+            "backend": self.backend.value,
+            "gpu_id": self.gpu_id,
+            "gpu_memory_fraction": self.gpu_memory_fraction,
+            "enable_gpu": self.enable_gpu,
+            "model_precision": self.model_precision,
+            "max_model_len": self.max_model_len,
+            "max_batch_size": self.max_batch_size,
+            "enable_chunked_prefill": self.enable_chunked_prefill,
+            "max_num_seqs": self.max_num_seqs,
+            "tensor_parallel_size": self.tensor_parallel_size,
+            "pipeline_parallel_size": self.pipeline_parallel_size,
+            "enable_prefix_caching": self.enable_prefix_caching,
+            "gpu_memory_utilization": self.gpu_memory_utilization,
+            "swap_space": self.swap_space,
+            "cpu_offload": self.cpu_offload,
+            "quantization": self.quantization,
+            "quantization_param_path": self.quantization_param_path,
+            "host": self.host,
+            "port": self.port,
+            "api_key": self.api_key,
+            "served_model_name": self.served_model_name,
+            "trust_remote_code": self.trust_remote_code,
+            "revision": self.revision,
+            "tokenizer_revision": self.tokenizer_revision,
+            "vllm_args": self.vllm_args,
+            "tensorrt_args": self.tensorrt_args,
+            "transformers_args": self.transformers_args,
+            "model_cache_dir": self.model_cache_dir,
+            "download_dir": self.download_dir
+        }
+    @classmethod
+    def from_dict(cls, data: Dict[str, Any]) -> "LocalGPUConfig":
+        """Create from dictionary"""
+        return cls(
+            service_name=data["service_name"],
+            service_type=LocalServiceType(data["service_type"]),
+            model_id=data["model_id"],
+            backend=LocalBackend(data.get("backend", "transformers")),
+            gpu_id=data.get("gpu_id"),
+            gpu_memory_fraction=data.get("gpu_memory_fraction", 0.9),
+            enable_gpu=data.get("enable_gpu", True),
+            model_precision=data.get("model_precision", "float16"),
+            max_model_len=data.get("max_model_len", 2048),
+            max_batch_size=data.get("max_batch_size", 8),
+            enable_chunked_prefill=data.get("enable_chunked_prefill", True),
+            max_num_seqs=data.get("max_num_seqs", 256),
+            tensor_parallel_size=data.get("tensor_parallel_size", 1),
+            pipeline_parallel_size=data.get("pipeline_parallel_size", 1),
+            enable_prefix_caching=data.get("enable_prefix_caching", True),
+            gpu_memory_utilization=data.get("gpu_memory_utilization", 0.9),
+            swap_space=data.get("swap_space", 4),
+            cpu_offload=data.get("cpu_offload", False),
+            quantization=data.get("quantization"),
+            quantization_param_path=data.get("quantization_param_path"),
+            host=data.get("host", "127.0.0.1"),
+            port=data.get("port", 8000),
+            api_key=data.get("api_key"),
+            served_model_name=data.get("served_model_name"),
+            trust_remote_code=data.get("trust_remote_code", False),
+            revision=data.get("revision"),
+            tokenizer_revision=data.get("tokenizer_revision"),
+            vllm_args=data.get("vllm_args", {}),
+            tensorrt_args=data.get("tensorrt_args", {}),
+            transformers_args=data.get("transformers_args", {}),
+            model_cache_dir=data.get("model_cache_dir"),
+            download_dir=data.get("download_dir")
+        )
+# Predefined configurations for common use cases
+def create_vllm_config(service_name: str, model_id: str,
+                       max_model_len: int = 2048,
+                       tensor_parallel_size: int = 1) -> LocalGPUConfig:
+    """Create optimized vLLM configuration"""
+    return LocalGPUConfig(
+        service_name=service_name,
+        service_type=LocalServiceType.LLM,
+        model_id=model_id,
+        backend=LocalBackend.VLLM,
+        max_model_len=max_model_len,
+        tensor_parallel_size=tensor_parallel_size,
+        enable_chunked_prefill=True,
+        enable_prefix_caching=True,
+        gpu_memory_utilization=0.9,
+        model_precision="float16"
+    )
+def create_tensorrt_config(service_name: str, model_id: str,
+                          max_batch_size: int = 8,
+                          precision: str = "float16") -> LocalGPUConfig:
+    """Create TensorRT-LLM configuration"""
+    return LocalGPUConfig(
+        service_name=service_name,
+        service_type=LocalServiceType.LLM,
+        model_id=model_id,
+        backend=LocalBackend.TENSORRT_LLM,
+        max_batch_size=max_batch_size,
+        model_precision=precision,
+        tensor_parallel_size=1,
+        tensorrt_args={
+            "enable_kv_cache_reuse": True,
+            "remove_input_padding": True,
+            "use_gpt_attention_plugin": True
+        }
+    )
+def create_transformers_config(service_name: str, model_id: str,
+                             precision: str = "float16",
+                             quantization: Optional[str] = None) -> LocalGPUConfig:
+    """Create HuggingFace Transformers configuration"""
+    return LocalGPUConfig(
+        service_name=service_name,
+        service_type=LocalServiceType.LLM,
+        model_id=model_id,
+        backend=LocalBackend.TRANSFORMERS,
+        model_precision=precision,
+        quantization=quantization,
+        max_batch_size=4,  # Lower for memory efficiency
+        transformers_args={
+            "device_map": "auto",
+            "torch_dtype": "auto",
+            "low_cpu_mem_usage": True
+        }
+    )
+def create_vision_config(service_name: str, model_id: str,
+                        backend: LocalBackend = LocalBackend.TRANSFORMERS) -> LocalGPUConfig:
+    """Create vision model configuration"""
+    return LocalGPUConfig(
+        service_name=service_name,
+        service_type=LocalServiceType.VISION,
+        model_id=model_id,
+        backend=backend,
+        max_batch_size=16,
+        model_precision="float16",
+        gpu_memory_utilization=0.8  # Lower for vision models
+    )
+def create_embedding_config(service_name: str, model_id: str,
+                           max_batch_size: int = 32) -> LocalGPUConfig:
+    """Create embedding model configuration"""
+    return LocalGPUConfig(
+        service_name=service_name,
+        service_type=LocalServiceType.EMBEDDING,
+        model_id=model_id,
+        backend=LocalBackend.TRANSFORMERS,
+        max_batch_size=max_batch_size,
+        model_precision="float16",
+        gpu_memory_utilization=0.7,  # Lower memory usage for embeddings
+        cpu_offload=False
+    )

isa-model 0.4.0__py3-none-any.whl → 0.4.3__py3-none-any.whl

isa-model 0.4.0py3-none-any.whl → 0.4.3py3-none-any.whl