PyPI - isa-model - Versions diffs - 0.4.0__py3-none-any.whl → 0.4.3__py3-none-any.whl - Mend

isa-model 0.4.0py3-none-any.whl → 0.4.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (199) hide show

isa_model/client.py +466 -43
isa_model/core/cache/redis_cache.py +12 -3
isa_model/core/config/config_manager.py +230 -3
isa_model/core/config.py +90 -0
isa_model/core/database/direct_db_client.py +114 -0
isa_model/core/database/migration_manager.py +563 -0
isa_model/core/database/migrations.py +21 -1
isa_model/core/database/supabase_client.py +154 -19
isa_model/core/dependencies.py +316 -0
isa_model/core/discovery/__init__.py +19 -0
isa_model/core/discovery/consul_discovery.py +190 -0
isa_model/core/logging/__init__.py +54 -0
isa_model/core/logging/influx_logger.py +523 -0
isa_model/core/logging/loki_logger.py +160 -0
isa_model/core/models/__init__.py +27 -18
isa_model/core/models/config_models.py +625 -0
isa_model/core/models/deployment_billing_tracker.py +430 -0
isa_model/core/models/model_manager.py +40 -17
isa_model/core/models/model_metadata.py +690 -0
isa_model/core/models/model_repo.py +174 -18
isa_model/core/models/system_models.py +857 -0
isa_model/core/repositories/__init__.py +9 -0
isa_model/core/repositories/config_repository.py +912 -0
isa_model/core/services/intelligent_model_selector.py +399 -21
isa_model/core/storage/hf_storage.py +1 -1
isa_model/core/types.py +1 -0
isa_model/deployment/__init__.py +5 -48
isa_model/deployment/core/__init__.py +2 -31
isa_model/deployment/core/deployment_manager.py +1278 -370
isa_model/deployment/local/__init__.py +31 -0
isa_model/deployment/local/config.py +248 -0
isa_model/deployment/local/gpu_gateway.py +607 -0
isa_model/deployment/local/health_checker.py +428 -0
isa_model/deployment/local/provider.py +586 -0
isa_model/deployment/local/tensorrt_service.py +621 -0
isa_model/deployment/local/transformers_service.py +644 -0
isa_model/deployment/local/vllm_service.py +527 -0
isa_model/deployment/modal/__init__.py +8 -0
isa_model/deployment/modal/config.py +136 -0
isa_model/deployment/{services/auto_hf_modal_deployer.py → modal/deployer.py} +1 -1
isa_model/deployment/modal/services/__init__.py +3 -0
isa_model/deployment/modal/services/audio/__init__.py +1 -0
isa_model/deployment/modal/services/embedding/__init__.py +1 -0
isa_model/deployment/modal/services/llm/__init__.py +1 -0
isa_model/deployment/modal/services/llm/isa_llm_service.py +424 -0
isa_model/deployment/modal/services/video/__init__.py +1 -0
isa_model/deployment/modal/services/vision/__init__.py +1 -0
isa_model/deployment/models/org-org-acme-corp-tenant-a-service-llm-20250825-225822/tenant-a-service_modal_service.py +48 -0
isa_model/deployment/models/org-test-org-123-prefix-test-service-llm-20250825-225822/prefix-test-service_modal_service.py +48 -0
isa_model/deployment/models/test-llm-service-llm-20250825-204442/test-llm-service_modal_service.py +48 -0
isa_model/deployment/models/test-monitoring-gpt2-llm-20250825-212906/test-monitoring-gpt2_modal_service.py +48 -0
isa_model/deployment/models/test-monitoring-gpt2-llm-20250825-213009/test-monitoring-gpt2_modal_service.py +48 -0
isa_model/deployment/storage/__init__.py +5 -0
isa_model/deployment/storage/deployment_repository.py +824 -0
isa_model/deployment/triton/__init__.py +10 -0
isa_model/deployment/triton/config.py +196 -0
isa_model/deployment/triton/configs/__init__.py +1 -0
isa_model/deployment/triton/provider.py +512 -0
isa_model/deployment/triton/scripts/__init__.py +1 -0
isa_model/deployment/triton/templates/__init__.py +1 -0
isa_model/inference/__init__.py +47 -1
isa_model/inference/ai_factory.py +137 -10
isa_model/inference/legacy_services/__init__.py +21 -0
isa_model/inference/legacy_services/model_evaluation.py +637 -0
isa_model/inference/legacy_services/model_service.py +573 -0
isa_model/inference/legacy_services/model_serving.py +717 -0
isa_model/inference/legacy_services/model_training.py +561 -0
isa_model/inference/models/__init__.py +21 -0
isa_model/inference/models/inference_config.py +551 -0
isa_model/inference/models/inference_record.py +675 -0
isa_model/inference/models/performance_models.py +714 -0
isa_model/inference/repositories/__init__.py +9 -0
isa_model/inference/repositories/inference_repository.py +828 -0
isa_model/inference/services/audio/base_stt_service.py +184 -11
isa_model/inference/services/audio/openai_stt_service.py +22 -6
isa_model/inference/services/custom_model_manager.py +277 -0
isa_model/inference/services/embedding/ollama_embed_service.py +15 -3
isa_model/inference/services/embedding/resilient_embed_service.py +285 -0
isa_model/inference/services/llm/__init__.py +10 -2
isa_model/inference/services/llm/base_llm_service.py +335 -24
isa_model/inference/services/llm/cerebras_llm_service.py +628 -0
isa_model/inference/services/llm/helpers/llm_adapter.py +9 -4
isa_model/inference/services/llm/helpers/llm_prompts.py +342 -0
isa_model/inference/services/llm/helpers/llm_utils.py +321 -23
isa_model/inference/services/llm/huggingface_llm_service.py +581 -0
isa_model/inference/services/llm/local_llm_service.py +747 -0
isa_model/inference/services/llm/ollama_llm_service.py +9 -2
isa_model/inference/services/llm/openai_llm_service.py +33 -16
isa_model/inference/services/llm/yyds_llm_service.py +8 -2
isa_model/inference/services/vision/__init__.py +22 -1
isa_model/inference/services/vision/blip_vision_service.py +359 -0
isa_model/inference/services/vision/helpers/image_utils.py +8 -5
isa_model/inference/services/vision/isa_vision_service.py +65 -4
isa_model/inference/services/vision/openai_vision_service.py +19 -10
isa_model/inference/services/vision/vgg16_vision_service.py +257 -0
isa_model/serving/api/cache_manager.py +245 -0
isa_model/serving/api/dependencies/__init__.py +1 -0
isa_model/serving/api/dependencies/auth.py +194 -0
isa_model/serving/api/dependencies/database.py +139 -0
isa_model/serving/api/error_handlers.py +284 -0
isa_model/serving/api/fastapi_server.py +172 -22
isa_model/serving/api/middleware/auth.py +8 -2
isa_model/serving/api/middleware/security.py +23 -33
isa_model/serving/api/middleware/tenant_context.py +414 -0
isa_model/serving/api/routes/analytics.py +4 -1
isa_model/serving/api/routes/config.py +645 -0
isa_model/serving/api/routes/deployment_billing.py +315 -0
isa_model/serving/api/routes/deployments.py +138 -2
isa_model/serving/api/routes/gpu_gateway.py +440 -0
isa_model/serving/api/routes/health.py +32 -12
isa_model/serving/api/routes/inference_monitoring.py +486 -0
isa_model/serving/api/routes/local_deployments.py +448 -0
isa_model/serving/api/routes/tenants.py +575 -0
isa_model/serving/api/routes/unified.py +680 -18
isa_model/serving/api/routes/webhooks.py +479 -0
isa_model/serving/api/startup.py +68 -54
isa_model/utils/gpu_utils.py +311 -0
{isa_model-0.4.0.dist-info → isa_model-0.4.3.dist-info}/METADATA +66 -24
isa_model-0.4.3.dist-info/RECORD +193 -0
isa_model/core/storage/minio_storage.py +0 -0
isa_model/deployment/cloud/__init__.py +0 -9
isa_model/deployment/cloud/modal/__init__.py +0 -10
isa_model/deployment/core/deployment_config.py +0 -356
isa_model/deployment/core/isa_deployment_service.py +0 -401
isa_model/deployment/gpu_int8_ds8/app/server.py +0 -66
isa_model/deployment/gpu_int8_ds8/scripts/test_client.py +0 -43
isa_model/deployment/gpu_int8_ds8/scripts/test_client_os.py +0 -35
isa_model/deployment/runtime/deployed_service.py +0 -338
isa_model/deployment/services/__init__.py +0 -9
isa_model/deployment/services/auto_deploy_vision_service.py +0 -538
isa_model/deployment/services/model_service.py +0 -332
isa_model/deployment/services/service_monitor.py +0 -356
isa_model/deployment/services/service_registry.py +0 -527
isa_model/eval/__init__.py +0 -92
isa_model/eval/benchmarks/__init__.py +0 -27
isa_model/eval/benchmarks/multimodal_datasets.py +0 -460
isa_model/eval/benchmarks.py +0 -701
isa_model/eval/config/__init__.py +0 -10
isa_model/eval/config/evaluation_config.py +0 -108
isa_model/eval/evaluators/__init__.py +0 -24
isa_model/eval/evaluators/audio_evaluator.py +0 -727
isa_model/eval/evaluators/base_evaluator.py +0 -503
isa_model/eval/evaluators/embedding_evaluator.py +0 -742
isa_model/eval/evaluators/llm_evaluator.py +0 -472
isa_model/eval/evaluators/vision_evaluator.py +0 -564
isa_model/eval/example_evaluation.py +0 -395
isa_model/eval/factory.py +0 -798
isa_model/eval/infrastructure/__init__.py +0 -24
isa_model/eval/infrastructure/experiment_tracker.py +0 -466
isa_model/eval/isa_benchmarks.py +0 -700
isa_model/eval/isa_integration.py +0 -582
isa_model/eval/metrics.py +0 -951
isa_model/eval/tests/unit/test_basic.py +0 -396
isa_model/serving/api/routes/evaluations.py +0 -579
isa_model/training/__init__.py +0 -168
isa_model/training/annotation/annotation_schema.py +0 -47
isa_model/training/annotation/processors/annotation_processor.py +0 -126
isa_model/training/annotation/storage/dataset_manager.py +0 -131
isa_model/training/annotation/storage/dataset_schema.py +0 -44
isa_model/training/annotation/tests/test_annotation_flow.py +0 -109
isa_model/training/annotation/tests/test_minio copy.py +0 -113
isa_model/training/annotation/tests/test_minio_upload.py +0 -43
isa_model/training/annotation/views/annotation_controller.py +0 -158
isa_model/training/cloud/__init__.py +0 -22
isa_model/training/cloud/job_orchestrator.py +0 -402
isa_model/training/cloud/runpod_trainer.py +0 -454
isa_model/training/cloud/storage_manager.py +0 -482
isa_model/training/core/__init__.py +0 -26
isa_model/training/core/config.py +0 -181
isa_model/training/core/dataset.py +0 -222
isa_model/training/core/trainer.py +0 -720
isa_model/training/core/utils.py +0 -213
isa_model/training/examples/intelligent_training_example.py +0 -281
isa_model/training/factory.py +0 -424
isa_model/training/intelligent/__init__.py +0 -25
isa_model/training/intelligent/decision_engine.py +0 -643
isa_model/training/intelligent/intelligent_factory.py +0 -888
isa_model/training/intelligent/knowledge_base.py +0 -751
isa_model/training/intelligent/resource_optimizer.py +0 -839
isa_model/training/intelligent/task_classifier.py +0 -576
isa_model/training/storage/__init__.py +0 -24
isa_model/training/storage/core_integration.py +0 -439
isa_model/training/storage/training_repository.py +0 -552
isa_model/training/storage/training_storage.py +0 -628
isa_model-0.4.0.dist-info/RECORD +0 -182
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_chatTTS_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_fish_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_openvoice_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/audio}/isa_audio_service_v2.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/embedding}/isa_embed_rerank_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/video}/isa_video_hunyuan_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_ocr_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_qwen25_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_table_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_ui_service.py +0 -0
/isa_model/deployment/{cloud/modal → modal/services/vision}/isa_vision_ui_service_optimized.py +0 -0
/isa_model/deployment/{services → modal/services/vision}/simple_auto_deploy_vision_service.py +0 -0
{isa_model-0.4.0.dist-info → isa_model-0.4.3.dist-info}/WHEEL +0 -0
{isa_model-0.4.0.dist-info → isa_model-0.4.3.dist-info}/top_level.txt +0 -0

isa_model/core/logging/influx_logger.py ADDED Viewed

@@ -0,0 +1,523 @@
+"""
+InfluxDB-based Inference Logging System for ISA Model
+This module provides comprehensive logging for model inference requests,
+optimized for time-series analysis and monitoring.
+Data Model:
+- measurement: 'inference_requests' (main table)
+- tags: indexed fields for fast queries (provider, model, service_type, etc.)
+- fields: numerical and text data (tokens, costs, response_time, etc.)
+- timestamp: automatic time-based partitioning
+Key Features:
+- Automatic data retention (30 days default)
+- Cost-effective storage with compression
+- Real-time monitoring capabilities
+- Aggregated metrics generation
+"""
+import os
+import json
+import hashlib
+import logging
+from datetime import datetime, timezone
+from typing import Dict, Any, Optional, List, Union
+from dataclasses import dataclass, field
+from influxdb_client import InfluxDBClient, Point, WritePrecision
+from influxdb_client.client.write_api import SYNCHRONOUS
+import uuid
+logger = logging.getLogger(__name__)
+@dataclass
+class InferenceLogEntry:
+    """
+    Structure for inference log data
+    """
+    # Required fields
+    request_id: str
+    service_type: str  # 'text', 'vision', 'audio', 'image', 'embedding'
+    task: str         # 'chat', 'analyze_image', 'generate_speech', etc.
+    provider: str     # 'openai', 'replicate', 'anthropic', etc.
+    model_name: str   # Actual model used
+    status: str       # 'completed', 'failed', 'timeout'
+    # Timing data
+    start_time: datetime
+    end_time: Optional[datetime] = None
+    execution_time_ms: Optional[int] = None
+    queue_time_ms: Optional[int] = None
+    # Token and usage data
+    input_tokens: Optional[int] = None
+    output_tokens: Optional[int] = None
+    total_tokens: Optional[int] = None
+    # Cost data
+    estimated_cost_usd: Optional[float] = None
+    actual_cost_usd: Optional[float] = None
+    cost_breakdown: Optional[Dict[str, Any]] = None
+    # Request/response data (optional, for debugging)
+    input_data_hash: Optional[str] = None
+    input_size_bytes: Optional[int] = None
+    output_size_bytes: Optional[int] = None
+    # Streaming data
+    is_streaming: bool = False
+    stream_start_time: Optional[datetime] = None
+    stream_chunks_count: Optional[int] = None
+    time_to_first_token_ms: Optional[int] = None
+    # Error information
+    error_message: Optional[str] = None
+    error_code: Optional[str] = None
+    # Context and metadata
+    session_id: Optional[str] = None
+    user_id: Optional[str] = None
+    client_ip: Optional[str] = None
+    model_version: Optional[str] = None
+    cache_hit: bool = False
+    # Quality metrics
+    quality_score: Optional[float] = None
+    user_feedback: Optional[int] = None  # 1-5 rating
+    # Additional metadata
+    custom_metadata: Dict[str, Any] = field(default_factory=dict)
+class InfluxInferenceLogger:
+    """
+    InfluxDB-based logger for model inference activities
+    Features:
+    - Time-series storage optimized for metrics
+    - Automatic data retention and compression
+    - Real-time query capabilities
+    - Cost tracking and analysis
+    - Performance monitoring
+    """
+    def __init__(self):
+        """Initialize InfluxDB connection"""
+        self.enabled = os.getenv('ENABLE_INFERENCE_LOGGING', 'false').lower() == 'true'
+        # Logging configuration - always set these regardless of enabled status
+        self.retention_days = int(os.getenv('LOG_RETENTION_DAYS', '30'))
+        self.log_detailed_requests = os.getenv('LOG_DETAILED_REQUESTS', 'true').lower() == 'true'
+        self.log_sensitive_data = os.getenv('LOG_SENSITIVE_DATA', 'false').lower() == 'true'
+        if not self.enabled:
+            logger.info("Inference logging disabled via ENABLE_INFERENCE_LOGGING")
+            return
+        # InfluxDB configuration
+        from ..config.config_manager import ConfigManager
+        config_manager = ConfigManager()
+        # Use Consul discovery for InfluxDB URL with fallback
+        self.url = os.getenv('INFLUXDB_URL', config_manager.get_influxdb_url())
+        self.token = os.getenv('INFLUXDB_TOKEN', 'dev-token-isa-model-12345')
+        self.org = os.getenv('INFLUXDB_ORG', 'isa-model')
+        self.bucket = os.getenv('INFLUXDB_BUCKET', 'isa-model-logs')
+        try:
+            # Initialize InfluxDB client
+            self.client = InfluxDBClient(url=self.url, token=self.token, org=self.org)
+            self.write_api = self.client.write_api(write_options=SYNCHRONOUS)
+            self.query_api = self.client.query_api()
+            # Test connection
+            self._test_connection()
+            logger.info(f"InfluxDB inference logger initialized: {self.url}")
+        except Exception as e:
+            logger.error(f"Failed to initialize InfluxDB logger: {e}")
+            self.enabled = False
+    def _test_connection(self):
+        """Test InfluxDB connection"""
+        try:
+            health = self.client.health()
+            if health.status == "pass":
+                logger.debug("InfluxDB connection healthy")
+            else:
+                raise Exception(f"InfluxDB health check failed: {health.message}")
+        except Exception as e:
+            raise Exception(f"InfluxDB connection test failed: {e}")
+    def _create_data_hash(self, data: Any) -> str:
+        """Create SHA-256 hash of input data for deduplication"""
+        try:
+            if isinstance(data, (dict, list)):
+                data_str = json.dumps(data, sort_keys=True)
+            else:
+                data_str = str(data)
+            return hashlib.sha256(data_str.encode()).hexdigest()
+        except Exception:
+            return None
+    def log_inference_start(
+        self,
+        request_id: str,
+        service_type: str,
+        task: str,
+        provider: str,
+        model_name: str,
+        input_data: Any = None,
+        session_id: Optional[str] = None,
+        user_id: Optional[str] = None,
+        client_ip: Optional[str] = None,
+        is_streaming: bool = False,
+        custom_metadata: Optional[Dict[str, Any]] = None
+    ) -> None:
+        """
+        Log the start of an inference request
+        """
+        if not self.enabled:
+            return
+        try:
+            start_time = datetime.now(timezone.utc)
+            # Create data hash for input
+            input_hash = None
+            input_size = None
+            if input_data and self.log_detailed_requests:
+                input_hash = self._create_data_hash(input_data)
+                try:
+                    input_size = len(str(input_data).encode('utf-8'))
+                except:
+                    input_size = None
+            # Create InfluxDB point
+            point = Point("inference_requests") \
+                .tag("service_type", service_type) \
+                .tag("task", task) \
+                .tag("provider", provider) \
+                .tag("model_name", model_name) \
+                .tag("status", "started") \
+                .field("request_id", request_id) \
+                .field("is_streaming", is_streaming) \
+                .time(start_time, WritePrecision.MS)
+            # Add optional tags and fields
+            if session_id:
+                point = point.tag("session_id", session_id)
+            if user_id:
+                point = point.tag("user_id", user_id)
+            if client_ip and not self.log_sensitive_data:
+                # Hash IP for privacy
+                ip_hash = hashlib.md5(client_ip.encode()).hexdigest()[:8]
+                point = point.field("client_ip_hash", ip_hash)
+            if input_hash:
+                point = point.field("input_data_hash", input_hash)
+            if input_size:
+                point = point.field("input_size_bytes", input_size)
+            if custom_metadata:
+                for key, value in custom_metadata.items():
+                    point = point.field(f"meta_{key}", str(value))
+            # Write to InfluxDB
+            self.write_api.write(bucket=self.bucket, org=self.org, record=point)
+            logger.debug(f"Logged inference start: {request_id}")
+        except Exception as e:
+            logger.error(f"Failed to log inference start: {e}")
+    def log_inference_complete(
+        self,
+        request_id: str,
+        status: str = "completed",
+        execution_time_ms: Optional[int] = None,
+        input_tokens: Optional[int] = None,
+        output_tokens: Optional[int] = None,
+        estimated_cost_usd: Optional[float] = None,
+        output_data: Any = None,
+        stream_chunks_count: Optional[int] = None,
+        time_to_first_token_ms: Optional[int] = None,
+        error_message: Optional[str] = None,
+        error_code: Optional[str] = None,
+        cache_hit: bool = False,
+        quality_score: Optional[float] = None,
+        custom_metadata: Optional[Dict[str, Any]] = None
+    ) -> None:
+        """
+        Log the completion of an inference request
+        """
+        if not self.enabled:
+            return
+        try:
+            end_time = datetime.now(timezone.utc)
+            # Calculate output data size
+            output_size = None
+            if output_data and self.log_detailed_requests:
+                try:
+                    output_size = len(str(output_data).encode('utf-8'))
+                except:
+                    output_size = None
+            # Create InfluxDB point
+            point = Point("inference_requests") \
+                .tag("status", status) \
+                .field("request_id", request_id) \
+                .field("cache_hit", cache_hit) \
+                .time(end_time, WritePrecision.MS)
+            # Add timing data
+            if execution_time_ms is not None:
+                point = point.field("execution_time_ms", execution_time_ms)
+            # Add token data
+            if input_tokens is not None:
+                point = point.field("input_tokens", input_tokens)
+            if output_tokens is not None:
+                point = point.field("output_tokens", output_tokens)
+            if input_tokens and output_tokens:
+                point = point.field("total_tokens", input_tokens + output_tokens)
+            # Add cost data
+            if estimated_cost_usd is not None:
+                point = point.field("estimated_cost_usd", float(estimated_cost_usd))
+            # Add output data size
+            if output_size:
+                point = point.field("output_size_bytes", output_size)
+            # Add streaming metrics
+            if stream_chunks_count is not None:
+                point = point.field("stream_chunks_count", stream_chunks_count)
+            if time_to_first_token_ms is not None:
+                point = point.field("time_to_first_token_ms", time_to_first_token_ms)
+            # Add error information
+            if error_message:
+                point = point.field("error_message", error_message[:500])  # Limit length
+            if error_code:
+                point = point.field("error_code", error_code)
+            # Add quality metrics
+            if quality_score is not None:
+                point = point.field("quality_score", float(quality_score))
+            # Add custom metadata
+            if custom_metadata:
+                for key, value in custom_metadata.items():
+                    point = point.field(f"meta_{key}", str(value))
+            # Write to InfluxDB
+            self.write_api.write(bucket=self.bucket, org=self.org, record=point)
+            logger.debug(f"Logged inference completion: {request_id} ({status})")
+        except Exception as e:
+            logger.error(f"Failed to log inference completion: {e}")
+    def log_token_usage(
+        self,
+        request_id: str,
+        provider: str,
+        model_name: str,
+        prompt_tokens: int,
+        completion_tokens: int,
+        prompt_cost_usd: Optional[float] = None,
+        completion_cost_usd: Optional[float] = None
+    ) -> None:
+        """
+        Log detailed token usage data
+        """
+        if not self.enabled:
+            return
+        try:
+            timestamp = datetime.now(timezone.utc)
+            total_tokens = prompt_tokens + completion_tokens
+            total_cost = (prompt_cost_usd or 0) + (completion_cost_usd or 0)
+            point = Point("token_usage") \
+                .tag("provider", provider) \
+                .tag("model_name", model_name) \
+                .field("request_id", request_id) \
+                .field("prompt_tokens", prompt_tokens) \
+                .field("completion_tokens", completion_tokens) \
+                .field("total_tokens", total_tokens) \
+                .time(timestamp, WritePrecision.MS)
+            if prompt_cost_usd is not None:
+                point = point.field("prompt_cost_usd", float(prompt_cost_usd))
+            if completion_cost_usd is not None:
+                point = point.field("completion_cost_usd", float(completion_cost_usd))
+            if total_cost > 0:
+                point = point.field("total_cost_usd", float(total_cost))
+                point = point.field("cost_per_token_usd", float(total_cost / total_tokens))
+            self.write_api.write(bucket=self.bucket, org=self.org, record=point)
+            logger.debug(f"Logged token usage: {request_id}")
+        except Exception as e:
+            logger.error(f"Failed to log token usage: {e}")
+    def log_error(
+        self,
+        request_id: str,
+        error_type: str,
+        error_message: str,
+        error_code: Optional[str] = None,
+        provider: Optional[str] = None,
+        model_name: Optional[str] = None,
+        retry_count: int = 0
+    ) -> None:
+        """
+        Log error events
+        """
+        if not self.enabled:
+            return
+        try:
+            timestamp = datetime.now(timezone.utc)
+            point = Point("inference_errors") \
+                .tag("error_type", error_type) \
+                .field("request_id", request_id) \
+                .field("error_message", error_message[:500]) \
+                .field("retry_count", retry_count) \
+                .time(timestamp, WritePrecision.MS)
+            if error_code:
+                point = point.field("error_code", error_code)
+            if provider:
+                point = point.tag("provider", provider)
+            if model_name:
+                point = point.tag("model_name", model_name)
+            self.write_api.write(bucket=self.bucket, org=self.org, record=point)
+            logger.debug(f"Logged error: {request_id} - {error_type}")
+        except Exception as e:
+            logger.error(f"Failed to log error: {e}")
+    def get_recent_requests(
+        self,
+        limit: int = 100,
+        hours: int = 24,
+        service_type: Optional[str] = None,
+        provider: Optional[str] = None,
+        status: Optional[str] = None
+    ) -> List[Dict[str, Any]]:
+        """
+        Query recent inference requests
+        """
+        if not self.enabled:
+            return []
+        try:
+            # Build query with simpler filtering
+            filters = []
+            if service_type:
+                filters.append(f'r.service_type == "{service_type}"')
+            if provider:
+                filters.append(f'r.provider == "{provider}"')
+            if status:
+                filters.append(f'r.status == "{status}"')
+            # Build filter clause
+            if filters:
+                filter_clause = " and " + " and ".join(filters)
+            else:
+                filter_clause = ""
+            query = f'''
+            from(bucket: "{self.bucket}")
+                |> range(start: -{hours}h)
+                |> filter(fn: (r) => r._measurement == "inference_requests"{filter_clause})
+                |> filter(fn: (r) => r._field == "request_id")
+                |> sort(columns: ["_time"], desc: true)
+                |> limit(n: {limit})
+            '''
+            result = self.query_api.query(org=self.org, query=query)
+            # Process results - get unique request IDs first
+            request_ids = []
+            for table in result:
+                for record in table.records:
+                    request_id = record.get_value()
+                    if request_id not in [r.get('request_id') for r in request_ids]:
+                        request_ids.append({
+                            'request_id': request_id,
+                            'time': record.get_time(),
+                            'service_type': record.values.get('service_type'),
+                            'provider': record.values.get('provider'),
+                            'model_name': record.values.get('model_name'),
+                            'status': record.values.get('status'),
+                            'task': record.values.get('task')
+                        })
+            return request_ids
+        except Exception as e:
+            logger.error(f"Failed to query recent requests: {e}")
+            return []
+    def get_usage_statistics(
+        self,
+        hours: int = 24,
+        group_by: str = "provider"  # "provider", "model_name", "service_type"
+    ) -> Dict[str, Any]:
+        """
+        Get usage statistics and metrics
+        """
+        if not self.enabled:
+            return {}
+        try:
+            # Simplified query to count unique request IDs by group
+            query = f'''
+            from(bucket: "{self.bucket}")
+                |> range(start: -{hours}h)
+                |> filter(fn: (r) => r._measurement == "inference_requests")
+                |> filter(fn: (r) => r._field == "request_id")
+                |> group(columns: ["{group_by}"])
+                |> count()
+                |> yield(name: "request_counts")
+            '''
+            result = self.query_api.query(org=self.org, query=query)
+            # Process results into statistics
+            stats = {}
+            for table in result:
+                for record in table.records:
+                    key = record.values.get(group_by, 'unknown')
+                    stats[key] = {
+                        'total_requests': record.get_value() or 0,
+                        'group_by': group_by,
+                        'time_range_hours': hours
+                    }
+            return stats
+        except Exception as e:
+            logger.error(f"Failed to get usage statistics: {e}")
+            return {}
+    def close(self):
+        """Close InfluxDB connection"""
+        if self.enabled and hasattr(self, 'client'):
+            self.client.close()
+# Global logger instance
+_inference_logger: Optional[InfluxInferenceLogger] = None
+def get_inference_logger() -> InfluxInferenceLogger:
+    """Get or create global inference logger instance"""
+    global _inference_logger
+    if _inference_logger is None:
+        _inference_logger = InfluxInferenceLogger()
+    return _inference_logger
+def generate_request_id() -> str:
+    """Generate unique request ID"""
+    return f"req_{uuid.uuid4().hex[:12]}"

isa_model/core/logging/loki_logger.py ADDED Viewed

@@ -0,0 +1,160 @@
+"""
+Centralized Logging Configuration with Loki Integration for ISA Model
+This module provides centralized application logging with Loki support,
+complementing the existing InfluxDB inference logging system.
+Architecture:
+- Loki: General application logs (INFO, WARNING, ERROR, DEBUG)
+- InfluxDB: Inference metrics and performance data (tokens, costs, timing)
+Usage:
+    from isa_model.core.logging import app_logger, api_logger
+    app_logger.info("Service starting...")
+    api_logger.error(f"Request failed: {error}", exc_info=True)
+"""
+import logging
+import sys
+import os
+from typing import Optional
+def setup_logger(
+    name: str,
+    level: Optional[str] = None,
+    format_str: Optional[str] = None
+) -> logging.Logger:
+    """
+    Setup logger with centralized Loki integration
+    Args:
+        name: Logger name (e.g., "ISAModel.API")
+        level: Log level (DEBUG, INFO, WARNING, ERROR, CRITICAL)
+        format_str: Log format string (optional)
+    Returns:
+        Configured logger instance
+    Example:
+        >>> from isa_model.core.logging import setup_logger
+        >>> my_logger = setup_logger("ISAModel.MyModule")
+        >>> my_logger.info("Processing started")
+    """
+    logger = logging.getLogger(name)
+    # Avoid duplicate handlers
+    if logger.handlers:
+        return logger
+    # Get configuration from environment
+    log_level_env = os.getenv("LOG_LEVEL", "INFO").upper()
+    log_format_env = os.getenv(
+        "LOG_FORMAT",
+        "%(asctime)s - %(name)s - %(levelname)s - %(message)s"
+    )
+    from ..config.config_manager import ConfigManager
+    config_manager = ConfigManager()
+    # Use Consul discovery for Loki URL with fallback
+    loki_url = os.getenv("LOKI_URL", config_manager.get_loki_url())
+    loki_enabled = os.getenv("LOKI_ENABLED", "true").lower() == "true"
+    # Set log level
+    final_level = (level or log_level_env).upper()
+    logger.setLevel(getattr(logging, final_level, logging.INFO))
+    # Disable propagation to prevent duplicate logs
+    logger.propagate = False
+    # Log format
+    formatter = logging.Formatter(format_str or log_format_env)
+    # 1. Console Handler (for local development and debugging)
+    console_handler = logging.StreamHandler(sys.stdout)
+    console_handler.setFormatter(formatter)
+    logger.addHandler(console_handler)
+    # 2. Loki Handler (for centralized logging)
+    if loki_enabled:
+        try:
+            from logging_loki import LokiHandler
+            # Extract service name and logger component
+            # e.g., "ISAModel.API" -> service="isa_model", logger="API"
+            service_name = "isa_model"
+            logger_component = name.replace("ISAModel.", "").replace("ISAModel", "main")
+            # Labels for Loki (used for filtering and searching)
+            # Use service_name to match other services (mcp, agent, etc.)
+            loki_labels = {
+                "service_name": "model",  # Use "model" to match service naming convention
+                "logger": logger_component,
+                "environment": os.getenv("ENVIRONMENT", "development"),
+                "job": "isa_model_service"
+            }
+            # Create Loki handler
+            loki_handler = LokiHandler(
+                url=f"{loki_url}/loki/api/v1/push",
+                tags=loki_labels,
+                version="1",
+            )
+            # Only send INFO and above to Loki (reduce network traffic)
+            loki_handler.setLevel(logging.INFO)
+            logger.addHandler(loki_handler)
+        except ImportError:
+            # Silently fall back to console-only logging during initialization
+            pass
+        except Exception as e:
+            # Loki unavailable - silently fall back to console
+            pass
+    return logger
+# Create application loggers
+# Main application logger
+app_logger = setup_logger("ISAModel")
+# API/Server logger
+api_logger = setup_logger("ISAModel.API")
+# Client logger
+client_logger = setup_logger("ISAModel.Client")
+# Inference logger (application-level, not metrics)
+inference_logger = setup_logger("ISAModel.Inference")
+# Training logger
+training_logger = setup_logger("ISAModel.Training")
+# Evaluation logger
+eval_logger = setup_logger("ISAModel.Evaluation")
+# Database logger
+db_logger = setup_logger("ISAModel.Database")
+# Deployment logger
+deployment_logger = setup_logger("ISAModel.Deployment")
+# Model manager logger
+model_logger = setup_logger("ISAModel.Models")
+# Export all loggers
+__all__ = [
+    'setup_logger',
+    'app_logger',
+    'api_logger',
+    'client_logger',
+    'inference_logger',
+    'training_logger',
+    'eval_logger',
+    'db_logger',
+    'deployment_logger',
+    'model_logger',
+]

isa-model 0.4.0__py3-none-any.whl → 0.4.3__py3-none-any.whl

isa-model 0.4.0py3-none-any.whl → 0.4.3py3-none-any.whl