PyPI - isa-model - Versions diffs - 0.3.91__py3-none-any.whl → 0.4.3__py3-none-any.whl - Mend

isa-model 0.3.91py3-none-any.whl → 0.4.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (228) hide show

isa_model/client.py +1166 -584
isa_model/core/cache/redis_cache.py +410 -0
isa_model/core/config/config_manager.py +282 -12
isa_model/core/config.py +91 -1
isa_model/core/database/__init__.py +1 -0
isa_model/core/database/direct_db_client.py +114 -0
isa_model/core/database/migration_manager.py +563 -0
isa_model/core/database/migrations.py +297 -0
isa_model/core/database/supabase_client.py +258 -0
isa_model/core/dependencies.py +316 -0
isa_model/core/discovery/__init__.py +19 -0
isa_model/core/discovery/consul_discovery.py +190 -0
isa_model/core/logging/__init__.py +54 -0
isa_model/core/logging/influx_logger.py +523 -0
isa_model/core/logging/loki_logger.py +160 -0
isa_model/core/models/__init__.py +46 -0
isa_model/core/models/config_models.py +625 -0
isa_model/core/models/deployment_billing_tracker.py +430 -0
isa_model/core/models/model_billing_tracker.py +60 -88
isa_model/core/models/model_manager.py +66 -25
isa_model/core/models/model_metadata.py +690 -0
isa_model/core/models/model_repo.py +217 -55
isa_model/core/models/model_statistics_tracker.py +234 -0
isa_model/core/models/model_storage.py +0 -1
isa_model/core/models/model_version_manager.py +959 -0
isa_model/core/models/system_models.py +857 -0
isa_model/core/pricing_manager.py +2 -249
isa_model/core/repositories/__init__.py +9 -0
isa_model/core/repositories/config_repository.py +912 -0
isa_model/core/resilience/circuit_breaker.py +366 -0
isa_model/core/security/secrets.py +358 -0
isa_model/core/services/__init__.py +2 -4
isa_model/core/services/intelligent_model_selector.py +479 -370
isa_model/core/storage/hf_storage.py +2 -2
isa_model/core/types.py +8 -0
isa_model/deployment/__init__.py +5 -48
isa_model/deployment/core/__init__.py +2 -31
isa_model/deployment/core/deployment_manager.py +1278 -368
isa_model/deployment/local/__init__.py +31 -0
isa_model/deployment/local/config.py +248 -0
isa_model/deployment/local/gpu_gateway.py +607 -0
isa_model/deployment/local/health_checker.py +428 -0
isa_model/deployment/local/provider.py +586 -0
isa_model/deployment/local/tensorrt_service.py +621 -0
isa_model/deployment/local/transformers_service.py +644 -0
isa_model/deployment/local/vllm_service.py +527 -0
isa_model/deployment/modal/__init__.py +8 -0
isa_model/deployment/modal/config.py +136 -0
isa_model/deployment/modal/deployer.py +894 -0
isa_model/deployment/modal/services/__init__.py +3 -0
isa_model/deployment/modal/services/audio/__init__.py +1 -0
isa_model/deployment/modal/services/audio/isa_audio_chatTTS_service.py +520 -0
isa_model/deployment/modal/services/audio/isa_audio_openvoice_service.py +758 -0
isa_model/deployment/modal/services/audio/isa_audio_service_v2.py +1044 -0
isa_model/deployment/modal/services/embedding/__init__.py +1 -0
isa_model/deployment/modal/services/embedding/isa_embed_rerank_service.py +296 -0
isa_model/deployment/modal/services/llm/__init__.py +1 -0
isa_model/deployment/modal/services/llm/isa_llm_service.py +424 -0
isa_model/deployment/modal/services/video/__init__.py +1 -0
isa_model/deployment/modal/services/video/isa_video_hunyuan_service.py +423 -0
isa_model/deployment/modal/services/vision/__init__.py +1 -0
isa_model/deployment/modal/services/vision/isa_vision_ocr_service.py +519 -0
isa_model/deployment/modal/services/vision/isa_vision_qwen25_service.py +709 -0
isa_model/deployment/modal/services/vision/isa_vision_table_service.py +676 -0
isa_model/deployment/modal/services/vision/isa_vision_ui_service.py +833 -0
isa_model/deployment/modal/services/vision/isa_vision_ui_service_optimized.py +660 -0
isa_model/deployment/models/org-org-acme-corp-tenant-a-service-llm-20250825-225822/tenant-a-service_modal_service.py +48 -0
isa_model/deployment/models/org-test-org-123-prefix-test-service-llm-20250825-225822/prefix-test-service_modal_service.py +48 -0
isa_model/deployment/models/test-llm-service-llm-20250825-204442/test-llm-service_modal_service.py +48 -0
isa_model/deployment/models/test-monitoring-gpt2-llm-20250825-212906/test-monitoring-gpt2_modal_service.py +48 -0
isa_model/deployment/models/test-monitoring-gpt2-llm-20250825-213009/test-monitoring-gpt2_modal_service.py +48 -0
isa_model/deployment/storage/__init__.py +5 -0
isa_model/deployment/storage/deployment_repository.py +824 -0
isa_model/deployment/triton/__init__.py +10 -0
isa_model/deployment/triton/config.py +196 -0
isa_model/deployment/triton/configs/__init__.py +1 -0
isa_model/deployment/triton/provider.py +512 -0
isa_model/deployment/triton/scripts/__init__.py +1 -0
isa_model/deployment/triton/templates/__init__.py +1 -0
isa_model/inference/__init__.py +47 -1
isa_model/inference/ai_factory.py +179 -16
isa_model/inference/legacy_services/__init__.py +21 -0
isa_model/inference/legacy_services/model_evaluation.py +637 -0
isa_model/inference/legacy_services/model_service.py +573 -0
isa_model/inference/legacy_services/model_serving.py +717 -0
isa_model/inference/legacy_services/model_training.py +561 -0
isa_model/inference/models/__init__.py +21 -0
isa_model/inference/models/inference_config.py +551 -0
isa_model/inference/models/inference_record.py +675 -0
isa_model/inference/models/performance_models.py +714 -0
isa_model/inference/repositories/__init__.py +9 -0
isa_model/inference/repositories/inference_repository.py +828 -0
isa_model/inference/services/audio/__init__.py +21 -0
isa_model/inference/services/audio/base_realtime_service.py +225 -0
isa_model/inference/services/audio/base_stt_service.py +184 -11
isa_model/inference/services/audio/isa_tts_service.py +0 -0
isa_model/inference/services/audio/openai_realtime_service.py +320 -124
isa_model/inference/services/audio/openai_stt_service.py +53 -11
isa_model/inference/services/base_service.py +17 -1
isa_model/inference/services/custom_model_manager.py +277 -0
isa_model/inference/services/embedding/__init__.py +13 -0
isa_model/inference/services/embedding/base_embed_service.py +111 -8
isa_model/inference/services/embedding/isa_embed_service.py +305 -0
isa_model/inference/services/embedding/ollama_embed_service.py +15 -3
isa_model/inference/services/embedding/openai_embed_service.py +2 -4
isa_model/inference/services/embedding/resilient_embed_service.py +285 -0
isa_model/inference/services/embedding/tests/test_embedding.py +222 -0
isa_model/inference/services/img/__init__.py +2 -2
isa_model/inference/services/img/base_image_gen_service.py +24 -7
isa_model/inference/services/img/replicate_image_gen_service.py +84 -422
isa_model/inference/services/img/services/replicate_face_swap.py +193 -0
isa_model/inference/services/img/services/replicate_flux.py +226 -0
isa_model/inference/services/img/services/replicate_flux_kontext.py +219 -0
isa_model/inference/services/img/services/replicate_sticker_maker.py +249 -0
isa_model/inference/services/img/tests/test_img_client.py +297 -0
isa_model/inference/services/llm/__init__.py +10 -2
isa_model/inference/services/llm/base_llm_service.py +361 -26
isa_model/inference/services/llm/cerebras_llm_service.py +628 -0
isa_model/inference/services/llm/helpers/llm_adapter.py +71 -12
isa_model/inference/services/llm/helpers/llm_prompts.py +342 -0
isa_model/inference/services/llm/helpers/llm_utils.py +321 -23
isa_model/inference/services/llm/huggingface_llm_service.py +581 -0
isa_model/inference/services/llm/local_llm_service.py +747 -0
isa_model/inference/services/llm/ollama_llm_service.py +11 -3
isa_model/inference/services/llm/openai_llm_service.py +670 -56
isa_model/inference/services/llm/yyds_llm_service.py +10 -3
isa_model/inference/services/vision/__init__.py +27 -6
isa_model/inference/services/vision/base_vision_service.py +118 -185
isa_model/inference/services/vision/blip_vision_service.py +359 -0
isa_model/inference/services/vision/helpers/image_utils.py +19 -10
isa_model/inference/services/vision/isa_vision_service.py +634 -0
isa_model/inference/services/vision/openai_vision_service.py +19 -10
isa_model/inference/services/vision/tests/test_ocr_client.py +284 -0
isa_model/inference/services/vision/vgg16_vision_service.py +257 -0
isa_model/serving/api/cache_manager.py +245 -0
isa_model/serving/api/dependencies/__init__.py +1 -0
isa_model/serving/api/dependencies/auth.py +194 -0
isa_model/serving/api/dependencies/database.py +139 -0
isa_model/serving/api/error_handlers.py +284 -0
isa_model/serving/api/fastapi_server.py +240 -18
isa_model/serving/api/middleware/auth.py +317 -0
isa_model/serving/api/middleware/security.py +268 -0
isa_model/serving/api/middleware/tenant_context.py +414 -0
isa_model/serving/api/routes/analytics.py +489 -0
isa_model/serving/api/routes/config.py +645 -0
isa_model/serving/api/routes/deployment_billing.py +315 -0
isa_model/serving/api/routes/deployments.py +475 -0
isa_model/serving/api/routes/gpu_gateway.py +440 -0
isa_model/serving/api/routes/health.py +32 -12
isa_model/serving/api/routes/inference_monitoring.py +486 -0
isa_model/serving/api/routes/local_deployments.py +448 -0
isa_model/serving/api/routes/logs.py +430 -0
isa_model/serving/api/routes/settings.py +582 -0
isa_model/serving/api/routes/tenants.py +575 -0
isa_model/serving/api/routes/unified.py +992 -171
isa_model/serving/api/routes/webhooks.py +479 -0
isa_model/serving/api/startup.py +318 -0
isa_model/serving/modal_proxy_server.py +249 -0
isa_model/utils/gpu_utils.py +311 -0
{isa_model-0.3.91.dist-info → isa_model-0.4.3.dist-info}/METADATA +76 -22
isa_model-0.4.3.dist-info/RECORD +193 -0
isa_model/deployment/cloud/__init__.py +0 -9
isa_model/deployment/cloud/modal/__init__.py +0 -10
isa_model/deployment/cloud/modal/isa_vision_doc_service.py +0 -766
isa_model/deployment/cloud/modal/isa_vision_table_service.py +0 -532
isa_model/deployment/cloud/modal/isa_vision_ui_service.py +0 -406
isa_model/deployment/cloud/modal/register_models.py +0 -321
isa_model/deployment/core/deployment_config.py +0 -356
isa_model/deployment/core/isa_deployment_service.py +0 -401
isa_model/deployment/gpu_int8_ds8/app/server.py +0 -66
isa_model/deployment/gpu_int8_ds8/scripts/test_client.py +0 -43
isa_model/deployment/gpu_int8_ds8/scripts/test_client_os.py +0 -35
isa_model/deployment/runtime/deployed_service.py +0 -338
isa_model/deployment/services/__init__.py +0 -9
isa_model/deployment/services/auto_deploy_vision_service.py +0 -538
isa_model/deployment/services/model_service.py +0 -332
isa_model/deployment/services/service_monitor.py +0 -356
isa_model/deployment/services/service_registry.py +0 -527
isa_model/eval/__init__.py +0 -92
isa_model/eval/benchmarks.py +0 -469
isa_model/eval/config/__init__.py +0 -10
isa_model/eval/config/evaluation_config.py +0 -108
isa_model/eval/evaluators/__init__.py +0 -18
isa_model/eval/evaluators/base_evaluator.py +0 -503
isa_model/eval/evaluators/llm_evaluator.py +0 -472
isa_model/eval/factory.py +0 -531
isa_model/eval/infrastructure/__init__.py +0 -24
isa_model/eval/infrastructure/experiment_tracker.py +0 -466
isa_model/eval/metrics.py +0 -798
isa_model/inference/adapter/unified_api.py +0 -248
isa_model/inference/services/helpers/stacked_config.py +0 -148
isa_model/inference/services/img/flux_professional_service.py +0 -603
isa_model/inference/services/img/helpers/base_stacked_service.py +0 -274
isa_model/inference/services/others/table_transformer_service.py +0 -61
isa_model/inference/services/vision/doc_analysis_service.py +0 -640
isa_model/inference/services/vision/helpers/base_stacked_service.py +0 -274
isa_model/inference/services/vision/ui_analysis_service.py +0 -823
isa_model/scripts/inference_tracker.py +0 -283
isa_model/scripts/mlflow_manager.py +0 -379
isa_model/scripts/model_registry.py +0 -465
isa_model/scripts/register_models.py +0 -370
isa_model/scripts/register_models_with_embeddings.py +0 -510
isa_model/scripts/start_mlflow.py +0 -95
isa_model/scripts/training_tracker.py +0 -257
isa_model/training/__init__.py +0 -74
isa_model/training/annotation/annotation_schema.py +0 -47
isa_model/training/annotation/processors/annotation_processor.py +0 -126
isa_model/training/annotation/storage/dataset_manager.py +0 -131
isa_model/training/annotation/storage/dataset_schema.py +0 -44
isa_model/training/annotation/tests/test_annotation_flow.py +0 -109
isa_model/training/annotation/tests/test_minio copy.py +0 -113
isa_model/training/annotation/tests/test_minio_upload.py +0 -43
isa_model/training/annotation/views/annotation_controller.py +0 -158
isa_model/training/cloud/__init__.py +0 -22
isa_model/training/cloud/job_orchestrator.py +0 -402
isa_model/training/cloud/runpod_trainer.py +0 -454
isa_model/training/cloud/storage_manager.py +0 -482
isa_model/training/core/__init__.py +0 -23
isa_model/training/core/config.py +0 -181
isa_model/training/core/dataset.py +0 -222
isa_model/training/core/trainer.py +0 -720
isa_model/training/core/utils.py +0 -213
isa_model/training/factory.py +0 -424
isa_model-0.3.91.dist-info/RECORD +0 -138
/isa_model/{core/storage/minio_storage.py → deployment/modal/services/audio/isa_audio_fish_service.py} +0 -0
/isa_model/deployment/{services → modal/services/vision}/simple_auto_deploy_vision_service.py +0 -0
{isa_model-0.3.91.dist-info → isa_model-0.4.3.dist-info}/WHEEL +0 -0
{isa_model-0.3.91.dist-info → isa_model-0.4.3.dist-info}/top_level.txt +0 -0

isa_model/scripts/training_tracker.py DELETED Viewed

@@ -1,257 +0,0 @@
-"""
-MLflow tracker for training workflows.
-"""
-import os
-import json
-import logging
-from typing import Dict, List, Optional, Any, Union
-from contextlib import contextmanager
-from .mlflow_manager import MLflowManager, ExperimentType
-from .model_registry import ModelRegistry, ModelStage
-logger = logging.getLogger(__name__)
-class TrainingTracker:
-    """
-    Tracker for model training workflows.
-    This class provides utilities to track model training using MLflow
-    and register trained models in the model registry.
-    Example:
-        ```python
-        # Initialize tracker
-        tracker = TrainingTracker(
-            tracking_uri="http://localhost:5000",
-            registry_uri="http://localhost:5000"
-        )
-        # Start tracking training
-        with tracker.track_training_run(
-            model_name="llama-7b",
-            training_params={
-                "learning_rate": 2e-5,
-                "batch_size": 8,
-                "epochs": 3
-            }
-        ) as run_info:
-            # Train the model...
-            # Log metrics during training
-            tracker.log_metrics({
-                "train_loss": 0.1,
-                "val_loss": 0.2
-            })
-            # After training completes
-            model_path = "/path/to/trained_model"
-            # Register the model
-            tracker.register_trained_model(
-                model_path=model_path,
-                metrics={
-                    "accuracy": 0.95,
-                    "f1": 0.92
-                },
-                stage=ModelStage.STAGING
-            )
-        ```
-    """
-    def __init__(
-        self,
-        tracking_uri: Optional[str] = None,
-        artifact_uri: Optional[str] = None,
-        registry_uri: Optional[str] = None
-    ):
-        """
-        Initialize the training tracker.
-        Args:
-            tracking_uri: URI for MLflow tracking server
-            artifact_uri: URI for MLflow artifacts
-            registry_uri: URI for MLflow model registry
-        """
-        self.mlflow_manager = MLflowManager(
-            tracking_uri=tracking_uri,
-            artifact_uri=artifact_uri,
-            registry_uri=registry_uri
-        )
-        self.model_registry = ModelRegistry(
-            tracking_uri=tracking_uri,
-            registry_uri=registry_uri
-        )
-        self.current_run_info = {}
-    @contextmanager
-    def track_training_run(
-        self,
-        model_name: str,
-        training_params: Dict[str, Any],
-        description: Optional[str] = None,
-        tags: Optional[Dict[str, str]] = None,
-        experiment_type: ExperimentType = ExperimentType.TRAINING
-    ):
-        """
-        Track a training run with MLflow.
-        Args:
-            model_name: Name of the model being trained
-            training_params: Parameters for the training run
-            description: Description of the training run
-            tags: Tags for the training run
-            experiment_type: Type of experiment
-        Yields:
-            Dictionary with run information
-        """
-        run_info = {
-            "model_name": model_name,
-            "params": training_params,
-            "metrics": {}
-        }
-        # Add description to tags if provided
-        if tags is None:
-            tags = {}
-        if description:
-            tags["description"] = description
-        # Start the MLflow run
-        with self.mlflow_manager.start_run(
-            experiment_type=experiment_type,
-            model_name=model_name,
-            tags=tags
-        ) as run:
-            run_info["run_id"] = run.info.run_id
-            run_info["experiment_id"] = run.info.experiment_id
-            run_info["status"] = "running"
-            # Save parameters
-            self.mlflow_manager.log_params(training_params)
-            self.current_run_info = run_info
-            try:
-                yield run_info
-                # Mark as successful if no exceptions
-                run_info["status"] = "completed"
-            except Exception as e:
-                # Mark as failed if exception occurred
-                run_info["status"] = "failed"
-                run_info["error"] = str(e)
-                self.mlflow_manager.set_tracking_tag("error", str(e))
-                raise
-            finally:
-                self.current_run_info = {}
-    def log_metrics(self, metrics: Dict[str, float], step: Optional[int] = None) -> None:
-        """
-        Log metrics to the current run.
-        Args:
-            metrics: Dictionary of metrics to log
-            step: Step value for the metrics
-        """
-        self.mlflow_manager.log_metrics(metrics, step)
-        if self.current_run_info:
-            if "metrics" not in self.current_run_info:
-                self.current_run_info["metrics"] = {}
-            # Only keep the latest metrics
-            self.current_run_info["metrics"].update(metrics)
-    def log_artifacts(self, local_dir: str, artifact_path: Optional[str] = None) -> None:
-        """
-        Log artifacts to the current run.
-        Args:
-            local_dir: Local directory containing artifacts
-            artifact_path: Path for the artifacts in MLflow
-        """
-        self.mlflow_manager.log_artifacts(local_dir, artifact_path)
-    def register_trained_model(
-        self,
-        model_path: str,
-        metrics: Optional[Dict[str, float]] = None,
-        description: Optional[str] = None,
-        tags: Optional[Dict[str, str]] = None,
-        stage: Optional[ModelStage] = None,
-        flavor: str = "pyfunc"
-    ) -> Optional[str]:
-        """
-        Register a trained model with MLflow.
-        Args:
-            model_path: Path to the trained model
-            metrics: Evaluation metrics for the model
-            description: Description of the model
-            tags: Tags for the model
-            stage: Stage to register the model in
-            flavor: MLflow model flavor
-        Returns:
-            Version of the registered model or None if registration failed
-        """
-        if not self.current_run_info:
-            logger.warning("No active run. Model cannot be registered.")
-            return None
-        model_name = self.current_run_info.get("model_name")
-        if not model_name:
-            logger.warning("Model name not available in run info. Using generic name.")
-            model_name = "unnamed_model"
-        # Log final metrics if provided
-        if metrics:
-            self.log_metrics(metrics)
-        # Prepare model tags
-        if tags is None:
-            tags = {}
-        # Add run ID to tags
-        tags["run_id"] = self.current_run_info.get("run_id", "")
-        # Add metrics to tags
-        for k, v in self.current_run_info.get("metrics", {}).items():
-            tags[f"metric.{k}"] = str(v)
-        # Log model to MLflow
-        artifact_path = self.mlflow_manager.log_model(
-            model_path=model_path,
-            name=model_name,
-            flavor=flavor
-        )
-        if not artifact_path:
-            logger.error("Failed to log model to MLflow.")
-            return None
-        # Get model URI
-        run_id = self.current_run_info.get("run_id")
-        model_uri = f"runs:/{run_id}/{artifact_path}"
-        # Register the model
-        version = self.model_registry.register_model(
-            name=model_name,
-            source=model_uri,
-            description=description,
-            tags=tags
-        )
-        # Transition to the specified stage if provided
-        if version and stage:
-            self.model_registry.transition_model_version_stage(
-                name=model_name,
-                version=version,
-                stage=stage
-            )
-        return version

isa_model/training/__init__.py DELETED Viewed

@@ -1,74 +0,0 @@
-"""
-ISA Model Training Module
-Provides unified training capabilities for AI models including:
-- Local training with SFT (Supervised Fine-Tuning)
-- Cloud training on RunPod
-- Model evaluation and management
-- HuggingFace integration
-Example usage:
-    ```python
-    from isa_model.training import TrainingFactory, train_gemma
-    # Quick Gemma training
-    model_path = train_gemma(
-        dataset_path="tatsu-lab/alpaca",
-        model_size="4b",
-        num_epochs=3
-    )
-    # Advanced training with custom configuration
-    factory = TrainingFactory()
-    model_path = factory.train_model(
-        model_name="google/gemma-2-4b-it",
-        dataset_path="your-dataset.json",
-        use_lora=True,
-        batch_size=4,
-        num_epochs=3
-    )
-    ```
-"""
-# Import the new clean factory
-from .factory import TrainingFactory, train_gemma
-# Import core components
-from .core import (
-    TrainingConfig,
-    LoRAConfig,
-    DatasetConfig,
-    BaseTrainer,
-    SFTTrainer,
-    TrainingUtils,
-    DatasetManager
-)
-# Import cloud training components
-from .cloud import (
-    RunPodConfig,
-    StorageConfig,
-    JobConfig,
-    TrainingJobOrchestrator
-)
-__all__ = [
-    # Main factory
-    'TrainingFactory',
-    'train_gemma',
-    # Core components
-    'TrainingConfig',
-    'LoRAConfig',
-    'DatasetConfig',
-    'BaseTrainer',
-    'SFTTrainer',
-    'TrainingUtils',
-    'DatasetManager',
-    # Cloud components
-    'RunPodConfig',
-    'StorageConfig',
-    'JobConfig',
-    'TrainingJobOrchestrator'
-]

isa_model/training/annotation/annotation_schema.py DELETED Viewed

@@ -1,47 +0,0 @@
-# app/services/llm_model/tracing/annotation/annotation_schema.py
-from enum import Enum
-from pydantic import BaseModel, Field
-from typing import Dict, Any, List, Optional
-from datetime import datetime
-class AnnotationType(str, Enum):
-    ACCURACY = "accuracy"
-    HELPFULNESS = "helpfulness"
-    TOXICITY = "toxicity"
-    CUSTOM = "custom"
-class RatingScale(int, Enum):
-    POOR = 1
-    FAIR = 2
-    GOOD = 3
-    EXCELLENT = 4
-class AnnotationAspects(BaseModel):
-    factually_correct: bool = True
-    relevant: bool = True
-    harmful: bool = False
-    biased: bool = False
-    complete: bool = True
-    efficient: bool = True
-class BetterResponse(BaseModel):
-    content: str
-    reason: Optional[str]
-    metadata: Optional[Dict[str, Any]] = {}
-class AnnotationFeedback(BaseModel):
-    rating: RatingScale
-    category: AnnotationType
-    aspects: AnnotationAspects
-    better_response: Optional[BetterResponse]
-    comment: Optional[str]
-    metadata: Optional[Dict[str, Any]] = {}
-    is_selected_for_training: bool = False
-class ItemAnnotation(BaseModel):
-    item_id: str
-    feedback: Optional[AnnotationFeedback]
-    status: str = "pending"
-    annotated_at: Optional[datetime]
-    annotator_id: Optional[str]
-    training_status: Optional[str] = None

isa_model/training/annotation/processors/annotation_processor.py DELETED Viewed

@@ -1,126 +0,0 @@
-from typing import Dict, Any, List
-from datetime import datetime
-from app.config.config_manager import config_manager
-from app.services.training.llm_model.annotation.annotation_schema import AnnotationFeedback, RatingScale, AnnotationAspects
-from bson.objectid import ObjectId
-from app.services.training.llm_model.annotation.storage.dataset_manager import DatasetManager
-class AnnotationProcessor:
-    def __init__(self):
-        self.logger = config_manager.get_logger(__name__)
-        self.dataset_manager = DatasetManager()
-        self.batch_size = 1000  # Configure as needed
-    async def process_queue(self) -> None:
-        """Process pending items and create datasets"""
-        db = await config_manager.get_db('mongodb')
-        queue = db['training_queue']
-        # Process SFT items
-        sft_items = await self._get_pending_items("sft")
-        if len(sft_items) >= self.batch_size:
-            await self._create_sft_dataset(sft_items)
-        # Process RLHF items
-        rlhf_items = await self._get_pending_items("rlhf")
-        if len(rlhf_items) >= self.batch_size:
-            await self._create_rlhf_dataset(rlhf_items)
-    async def _create_sft_dataset(self, items: List[Dict[str, Any]]):
-        """Create and upload SFT dataset"""
-        dataset = await self.dataset_manager.create_dataset(
-            name=f"sft_dataset_v{datetime.now().strftime('%Y%m%d')}",
-            type="sft",
-            version=datetime.now().strftime("%Y%m%d"),
-            source_annotations=[item["annotation_id"] for item in items]
-        )
-        formatted_data = [
-            await self._process_sft_item(item)
-            for item in items
-        ]
-        await self.dataset_manager.upload_dataset_file(
-            dataset.id,
-            formatted_data
-        )
-    async def _process_sft_item(self, item: Dict[str, Any]) -> Dict[str, Any]:
-        """Process item for SFT dataset generation
-        Format follows HF conversation format for SFT training
-        """
-        db = await config_manager.get_db('mongodb')
-        annotations = db['annotations']
-        # Get full annotation context
-        annotation = await annotations.find_one({"_id": ObjectId(item["annotation_id"])})
-        target_item = next(i for i in annotation["items"] if i["item_id"] == item["item_id"])
-        # Format as conversation
-        messages = [
-            {
-                "role": "system",
-                "content": "You are a helpful AI assistant that provides accurate and relevant information."
-            },
-            {
-                "role": "user",
-                "content": target_item["input"]["messages"][0]["content"]
-            },
-            {
-                "role": "assistant",
-                "content": target_item["output"]["content"]
-            }
-        ]
-        return {
-            "messages": messages,
-            "metadata": {
-                "rating": item["feedback"]["rating"],
-                "aspects": item["feedback"]["aspects"],
-                "category": item["feedback"]["category"]
-            }
-        }
-    async def _process_rlhf_item(self, item: Dict[str, Any]) -> Dict[str, Any]:
-        """Process item for RLHF dataset generation
-        Format follows preference pairs structure for RLHF training
-        """
-        db = await config_manager.get_db('mongodb')
-        annotations = db['annotations']
-        # Get full annotation context
-        annotation = await annotations.find_one({"_id": ObjectId(item["annotation_id"])})
-        target_item = next(i for i in annotation["items"] if i["item_id"] == item["item_id"])
-        # Format as preference pairs
-        return {
-            "prompt": target_item["input"]["messages"][0]["content"],
-            "chosen": item["feedback"]["better_response"]["content"],
-            "rejected": target_item["output"]["content"],
-            "metadata": {
-                "reason": item["feedback"]["better_response"]["reason"],
-                "category": item["feedback"]["category"]
-            }
-        }
-    async def get_training_data(
-        self,
-        data_type: str,
-        limit: int = 1000
-    ) -> List[Dict[str, Any]]:
-        """Retrieve formatted training data"""
-        db = await config_manager.get_db('mongodb')
-        training_data = db['training_data']
-        data = await training_data.find(
-            {"type": data_type}
-        ).limit(limit).to_list(length=limit)
-        if data_type == "sft":
-            return [item["data"]["messages"] for item in data]
-        else:  # rlhf
-            return [{
-                "prompt": item["data"]["prompt"],
-                "chosen": item["data"]["chosen"],
-                "rejected": item["data"]["rejected"]
-            } for item in data]

isa_model/training/annotation/storage/dataset_manager.py DELETED Viewed

@@ -1,131 +0,0 @@
-# app/services/llm_model/annotation/dataset/dataset_manager.py
-from typing import Dict, Any, List
-from datetime import datetime
-import json
-import io
-from app.config.config_manager import config_manager
-from .dataset_schema import Dataset, DatasetType, DatasetStatus, DatasetFiles, DatasetStats
-from bson import ObjectId
-class DatasetManager:
-    def __init__(self):
-        self.logger = config_manager.get_logger(__name__)
-        self.minio_client = None
-        self.bucket_name = "training-datasets"
-    async def _ensure_minio_client(self):
-        if not self.minio_client:
-            self.minio_client = await config_manager.get_storage_client()
-    async def create_dataset(
-        self,
-        name: str,
-        type: DatasetType,
-        version: str,
-        source_annotations: List[str]
-    ) -> Dataset:
-        """Create a new dataset record"""
-        db = await config_manager.get_db('mongodb')
-        collection = db['training_datasets']
-        dataset = Dataset(
-            name=name,
-            type=type,
-            version=version,
-            storage_path=f"datasets/{type.value}/{version}",
-            files=DatasetFiles(
-                train="train.jsonl",
-                eval=None,
-                test=None
-            ),
-            stats=DatasetStats(
-                total_examples=0,
-                avg_length=0.0,
-                num_conversations=0,
-                additional_metrics={}
-            ),
-            source_annotations=source_annotations,
-            created_at=datetime.utcnow(),
-            status=DatasetStatus.PENDING,
-            metadata={}
-        )
-        result = await collection.insert_one(dataset.dict(exclude={'id'}))
-        return Dataset(**{**dataset.dict(), '_id': result.inserted_id})
-    async def upload_dataset_file(
-        self,
-        dataset_id: str,
-        data: List[Dict[str, Any]],
-        file_type: str = "train"
-    ) -> bool:
-        """Upload dataset to MinIO"""
-        try:
-            await self._ensure_minio_client()
-            db = await config_manager.get_db('mongodb')
-            object_id = ObjectId(dataset_id)
-            dataset = await db['training_datasets'].find_one({"_id": object_id})
-            if not dataset:
-                self.logger.error(f"Dataset not found with id: {dataset_id}")
-                return False
-            # Convert to JSONL
-            buffer = io.StringIO()
-            for item in data:
-                buffer.write(json.dumps(item) + "\n")
-            storage_path = dataset['storage_path'].rstrip('/')
-            file_path = f"{storage_path}/{file_type}.jsonl"
-            buffer_value = buffer.getvalue().encode()
-            self.logger.debug(f"Uploading to MinIO path: {file_path}")
-            self.minio_client.put_object(
-                self.bucket_name,
-                file_path,
-                io.BytesIO(buffer_value),
-                len(buffer_value)
-            )
-            avg_length = sum(len(str(item)) for item in data) / len(data) if data else 0
-            await db['training_datasets'].update_one(
-                {"_id": object_id},
-                {
-                    "$set": {
-                        f"files.{file_type}": f"{file_type}.jsonl",
-                        "stats.total_examples": len(data),
-                        "stats.avg_length": avg_length,
-                        "stats.num_conversations": len(data),
-                        "status": DatasetStatus.READY
-                    }
-                }
-            )
-            return True
-        except Exception as e:
-            self.logger.error(f"Failed to upload dataset: {e}")
-            return False
-    async def get_dataset_info(self, dataset_id: str) -> Dict[str, Any]:
-        """Get dataset information"""
-        try:
-            db = await config_manager.get_db('mongodb')
-            object_id = ObjectId(dataset_id)  # Convert string ID to ObjectId
-            dataset = await db['training_datasets'].find_one({"_id": object_id})
-            if not dataset:
-                self.logger.error(f"Dataset not found with id: {dataset_id}")
-                return None
-            # Convert ObjectId to string for JSON serialization
-            dataset['_id'] = str(dataset['_id'])
-            return dataset
-        except Exception as e:
-            self.logger.error(f"Failed to get dataset info: {e}")
-            return None

isa_model/training/annotation/storage/dataset_schema.py DELETED Viewed

@@ -1,44 +0,0 @@
-# app/services/llm_model/annotation/dataset/dataset_schema.py
-from enum import Enum
-from pydantic import BaseModel, Field
-from typing import Dict, List, Optional
-from datetime import datetime
-from bson import ObjectId
-class DatasetType(str, Enum):
-    SFT = "sft"
-    RLHF = "rlhf"
-class DatasetStatus(str, Enum):
-    PENDING = "pending"
-    PROCESSING = "processing"
-    READY = "ready"
-    ERROR = "error"
-class DatasetFiles(BaseModel):
-    train: str
-    eval: Optional[str]
-    test: Optional[str]
-class DatasetStats(BaseModel):
-    total_examples: int
-    avg_length: Optional[float]
-    num_conversations: Optional[int]
-    additional_metrics: Optional[Dict] = {}
-class Dataset(BaseModel):
-    id: Optional[ObjectId] = Field(None, alias="_id")
-    name: str
-    type: DatasetType
-    version: str
-    storage_path: str
-    files: DatasetFiles
-    stats: DatasetStats
-    source_annotations: List[str]
-    created_at: datetime
-    status: DatasetStatus
-    metadata: Optional[Dict] = {}
-    class Config:
-        arbitrary_types_allowed = True
-        populate_by_name = True

isa-model 0.3.91__py3-none-any.whl → 0.4.3__py3-none-any.whl

isa-model 0.3.91py3-none-any.whl → 0.4.3py3-none-any.whl