PyPI - xinference - Versions diffs - 1.7.1__py3-none-any.whl → 1.8.0__py3-none-any.whl - Mend

xinference 1.7.1py3-none-any.whl → 1.8.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of xinference might be problematic. Click here for more details.

Files changed (136) hide show

xinference/_version.py +3 -3
xinference/client/restful/async_restful_client.py +8 -13
xinference/client/restful/restful_client.py +6 -2
xinference/core/chat_interface.py +6 -4
xinference/core/media_interface.py +5 -0
xinference/core/model.py +1 -5
xinference/core/supervisor.py +117 -68
xinference/core/worker.py +49 -37
xinference/deploy/test/test_cmdline.py +2 -6
xinference/model/audio/__init__.py +26 -23
xinference/model/audio/chattts.py +3 -2
xinference/model/audio/core.py +49 -98
xinference/model/audio/cosyvoice.py +3 -2
xinference/model/audio/custom.py +28 -73
xinference/model/audio/f5tts.py +3 -2
xinference/model/audio/f5tts_mlx.py +3 -2
xinference/model/audio/fish_speech.py +3 -2
xinference/model/audio/funasr.py +17 -4
xinference/model/audio/kokoro.py +3 -2
xinference/model/audio/megatts.py +3 -2
xinference/model/audio/melotts.py +3 -2
xinference/model/audio/model_spec.json +572 -171
xinference/model/audio/utils.py +0 -6
xinference/model/audio/whisper.py +3 -2
xinference/model/audio/whisper_mlx.py +3 -2
xinference/model/cache_manager.py +141 -0
xinference/model/core.py +6 -49
xinference/model/custom.py +174 -0
xinference/model/embedding/__init__.py +67 -56
xinference/model/embedding/cache_manager.py +35 -0
xinference/model/embedding/core.py +104 -84
xinference/model/embedding/custom.py +55 -78
xinference/model/embedding/embed_family.py +80 -31
xinference/model/embedding/flag/core.py +21 -5
xinference/model/embedding/llama_cpp/__init__.py +0 -0
xinference/model/embedding/llama_cpp/core.py +234 -0
xinference/model/embedding/model_spec.json +968 -103
xinference/model/embedding/sentence_transformers/core.py +30 -20
xinference/model/embedding/vllm/core.py +11 -5
xinference/model/flexible/__init__.py +8 -2
xinference/model/flexible/core.py +26 -119
xinference/model/flexible/custom.py +69 -0
xinference/model/flexible/launchers/image_process_launcher.py +1 -0
xinference/model/flexible/launchers/modelscope_launcher.py +5 -1
xinference/model/flexible/launchers/transformers_launcher.py +15 -3
xinference/model/flexible/launchers/yolo_launcher.py +5 -1
xinference/model/image/__init__.py +20 -20
xinference/model/image/cache_manager.py +62 -0
xinference/model/image/core.py +70 -182
xinference/model/image/custom.py +28 -72
xinference/model/image/model_spec.json +402 -119
xinference/model/image/ocr/got_ocr2.py +3 -2
xinference/model/image/stable_diffusion/core.py +22 -7
xinference/model/image/stable_diffusion/mlx.py +6 -6
xinference/model/image/utils.py +2 -2
xinference/model/llm/__init__.py +71 -94
xinference/model/llm/cache_manager.py +292 -0
xinference/model/llm/core.py +37 -111
xinference/model/llm/custom.py +88 -0
xinference/model/llm/llama_cpp/core.py +5 -7
xinference/model/llm/llm_family.json +16260 -8151
xinference/model/llm/llm_family.py +138 -839
xinference/model/llm/lmdeploy/core.py +5 -7
xinference/model/llm/memory.py +3 -4
xinference/model/llm/mlx/core.py +6 -8
xinference/model/llm/reasoning_parser.py +3 -1
xinference/model/llm/sglang/core.py +32 -14
xinference/model/llm/transformers/chatglm.py +3 -7
xinference/model/llm/transformers/core.py +49 -27
xinference/model/llm/transformers/deepseek_v2.py +2 -2
xinference/model/llm/transformers/gemma3.py +2 -2
xinference/model/llm/transformers/multimodal/cogagent.py +2 -2
xinference/model/llm/transformers/multimodal/deepseek_vl2.py +2 -2
xinference/model/llm/transformers/multimodal/gemma3.py +2 -2
xinference/model/llm/transformers/multimodal/glm4_1v.py +167 -0
xinference/model/llm/transformers/multimodal/glm4v.py +2 -2
xinference/model/llm/transformers/multimodal/intern_vl.py +2 -2
xinference/model/llm/transformers/multimodal/minicpmv26.py +3 -3
xinference/model/llm/transformers/multimodal/ovis2.py +2 -2
xinference/model/llm/transformers/multimodal/qwen-omni.py +2 -2
xinference/model/llm/transformers/multimodal/qwen2_audio.py +2 -2
xinference/model/llm/transformers/multimodal/qwen2_vl.py +2 -2
xinference/model/llm/transformers/opt.py +3 -7
xinference/model/llm/utils.py +34 -49
xinference/model/llm/vllm/core.py +77 -27
xinference/model/llm/vllm/xavier/engine.py +5 -3
xinference/model/llm/vllm/xavier/scheduler.py +10 -6
xinference/model/llm/vllm/xavier/transfer.py +1 -1
xinference/model/rerank/__init__.py +26 -25
xinference/model/rerank/core.py +47 -87
xinference/model/rerank/custom.py +25 -71
xinference/model/rerank/model_spec.json +158 -33
xinference/model/rerank/utils.py +2 -2
xinference/model/utils.py +115 -54
xinference/model/video/__init__.py +13 -17
xinference/model/video/core.py +44 -102
xinference/model/video/diffusers.py +4 -3
xinference/model/video/model_spec.json +90 -21
xinference/types.py +5 -3
xinference/web/ui/build/asset-manifest.json +3 -3
xinference/web/ui/build/index.html +1 -1
xinference/web/ui/build/static/js/main.7d24df53.js +3 -0
xinference/web/ui/build/static/js/main.7d24df53.js.map +1 -0
xinference/web/ui/node_modules/.cache/babel-loader/2704ff66a5f73ca78b341eb3edec60154369df9d87fbc8c6dd60121abc5e1b0a.json +1 -0
xinference/web/ui/node_modules/.cache/babel-loader/607dfef23d33e6b594518c0c6434567639f24f356b877c80c60575184ec50ed0.json +1 -0
xinference/web/ui/node_modules/.cache/babel-loader/9be3d56173aacc3efd0b497bcb13c4f6365de30069176ee9403b40e717542326.json +1 -0
xinference/web/ui/node_modules/.cache/babel-loader/9f9dd6c32c78a222d07da5987ae902effe16bcf20aac00774acdccc4de3c9ff2.json +1 -0
xinference/web/ui/node_modules/.cache/babel-loader/b2ab5ee972c60d15eb9abf5845705f8ab7e1d125d324d9a9b1bcae5d6fd7ffb2.json +1 -0
xinference/web/ui/src/locales/en.json +0 -1
xinference/web/ui/src/locales/ja.json +0 -1
xinference/web/ui/src/locales/ko.json +0 -1
xinference/web/ui/src/locales/zh.json +0 -1
{xinference-1.7.1.dist-info → xinference-1.8.0.dist-info}/METADATA +9 -11
{xinference-1.7.1.dist-info → xinference-1.8.0.dist-info}/RECORD +119 -119
xinference/model/audio/model_spec_modelscope.json +0 -231
xinference/model/embedding/model_spec_modelscope.json +0 -293
xinference/model/embedding/utils.py +0 -18
xinference/model/image/model_spec_modelscope.json +0 -375
xinference/model/llm/llama_cpp/memory.py +0 -457
xinference/model/llm/llm_family_csghub.json +0 -56
xinference/model/llm/llm_family_modelscope.json +0 -8700
xinference/model/llm/llm_family_openmind_hub.json +0 -1019
xinference/model/rerank/model_spec_modelscope.json +0 -85
xinference/model/video/model_spec_modelscope.json +0 -184
xinference/web/ui/build/static/js/main.9b12b7f9.js +0 -3
xinference/web/ui/build/static/js/main.9b12b7f9.js.map +0 -1
xinference/web/ui/node_modules/.cache/babel-loader/1460361af6975e63576708039f1cb732faf9c672d97c494d4055fc6331460be0.json +0 -1
xinference/web/ui/node_modules/.cache/babel-loader/4efd8dda58fda83ed9546bf2f587df67f8d98e639117bee2d9326a9a1d9bebb2.json +0 -1
xinference/web/ui/node_modules/.cache/babel-loader/55b9fb40b57fa926e8f05f31c2f96467e76e5ad62f033dca97c03f9e8c4eb4fe.json +0 -1
xinference/web/ui/node_modules/.cache/babel-loader/5b2dafe5aa9e1105e0244a2b6751807342fa86aa0144b4e84d947a1686102715.json +0 -1
xinference/web/ui/node_modules/.cache/babel-loader/611fa2c6c53b66039991d06dfb0473b5ab37fc63b4564e0f6e1718523768a045.json +0 -1
/xinference/web/ui/build/static/js/{main.9b12b7f9.js.LICENSE.txt → main.7d24df53.js.LICENSE.txt} +0 -0
{xinference-1.7.1.dist-info → xinference-1.8.0.dist-info}/WHEEL +0 -0
{xinference-1.7.1.dist-info → xinference-1.8.0.dist-info}/entry_points.txt +0 -0
{xinference-1.7.1.dist-info → xinference-1.8.0.dist-info}/licenses/LICENSE +0 -0
{xinference-1.7.1.dist-info → xinference-1.8.0.dist-info}/top_level.txt +0 -0

xinference/model/rerank/custom.py CHANGED Viewed

@@ -12,98 +12,52 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 import logging
-import os
-from threading import Lock
 from typing import List, Literal, Optional
-from ...constants import XINFERENCE_CACHE_DIR, XINFERENCE_MODEL_DIR
-from .core import RerankModelSpec
+from ..custom import ModelRegistry
+from .core import RerankModelFamilyV2
 logger = logging.getLogger(__name__)
-UD_RERANK_LOCK = Lock()
-class CustomRerankModelSpec(RerankModelSpec):
+class CustomRerankModelFamilyV2(RerankModelFamilyV2):
+    version: Literal[2] = 2
     model_id: Optional[str]  # type: ignore
     model_revision: Optional[str]  # type: ignore
     model_uri: Optional[str]
     model_type: Literal["rerank"] = "rerank"  # for frontend
-UD_RERANKS: List[CustomRerankModelSpec] = []
+UD_RERANKS: List[CustomRerankModelFamilyV2] = []
-def get_user_defined_reranks() -> List[CustomRerankModelSpec]:
-    with UD_RERANK_LOCK:
-        return UD_RERANKS.copy()
+class RerankModelRegistry(ModelRegistry):
+    model_type = "rerank"
+    def __init__(self):
+        from . import BUILTIN_RERANK_MODELS
-def register_rerank(model_spec: CustomRerankModelSpec, persist: bool):
-    from ...constants import XINFERENCE_MODEL_DIR
-    from ..utils import is_valid_model_name, is_valid_model_uri
-    from . import BUILTIN_RERANK_MODELS, MODELSCOPE_RERANK_MODELS
+        super().__init__()
+        self.models = UD_RERANKS
+        self.builtin_models = list(BUILTIN_RERANK_MODELS.keys())
-    if not is_valid_model_name(model_spec.model_name):
-        raise ValueError(f"Invalid model name {model_spec.model_name}.")
-    model_uri = model_spec.model_uri
-    if model_uri and not is_valid_model_uri(model_uri):
-        raise ValueError(f"Invalid model URI {model_uri}.")
+def get_user_defined_reranks() -> List[CustomRerankModelFamilyV2]:
+    from ..custom import RegistryManager
-    with UD_RERANK_LOCK:
-        for model_name in (
-            list(BUILTIN_RERANK_MODELS.keys())
-            + list(MODELSCOPE_RERANK_MODELS.keys())
-            + [spec.model_name for spec in UD_RERANKS]
-        ):
-            if model_spec.model_name == model_name:
-                raise ValueError(
-                    f"Model name conflicts with existing model {model_spec.model_name}"
-                )
+    registry = RegistryManager.get_registry("rerank")
+    return registry.get_custom_models()
-        UD_RERANKS.append(model_spec)
-    if persist:
-        persist_path = os.path.join(
-            XINFERENCE_MODEL_DIR, "rerank", f"{model_spec.model_name}.json"
-        )
-        os.makedirs(os.path.dirname(persist_path), exist_ok=True)
-        with open(persist_path, mode="w") as fd:
-            fd.write(model_spec.json())
+def register_rerank(model_spec: CustomRerankModelFamilyV2, persist: bool):
+    from ..custom import RegistryManager
+    registry = RegistryManager.get_registry("rerank")
+    registry.register(model_spec, persist)
 def unregister_rerank(model_name: str, raise_error: bool = True):
-    with UD_RERANK_LOCK:
-        model_spec = None
-        for i, f in enumerate(UD_RERANKS):
-            if f.model_name == model_name:
-                model_spec = f
-                break
-        if model_spec:
-            UD_RERANKS.remove(model_spec)
-            persist_path = os.path.join(
-                XINFERENCE_MODEL_DIR, "rerank", f"{model_spec.model_name}.json"
-            )
-            if os.path.exists(persist_path):
-                os.remove(persist_path)
-            cache_dir = os.path.join(XINFERENCE_CACHE_DIR, model_spec.model_name)
-            if os.path.exists(cache_dir):
-                logger.warning(
-                    f"Remove the cache of user-defined model {model_spec.model_name}. "
-                    f"Cache directory: {cache_dir}"
-                )
-                if os.path.islink(cache_dir):
-                    os.remove(cache_dir)
-                else:
-                    logger.warning(
-                        f"Cache directory is not a soft link, please remove it manually."
-                    )
-        else:
-            if raise_error:
-                raise ValueError(f"Model {model_name} not found")
-            else:
-                logger.warning(f"Custom rerank model {model_name} not found")
+    from ..custom import RegistryManager
+    registry = RegistryManager.get_registry("rerank")
+    registry.unregister(model_name, raise_error)

xinference/model/rerank/model_spec.json CHANGED Viewed

@@ -1,90 +1,215 @@
 [
   {
+    "version": 2,
     "model_name": "bge-reranker-large",
     "type": "normal",
-    "language": ["en", "zh"],
+    "language": [
+      "en",
+      "zh"
+    ],
     "max_tokens": 512,
-    "model_id": "BAAI/bge-reranker-large",
-    "model_revision": "27c9168d479987529781de8474dff94d69beca11"
+    "model_src": {
+      "huggingface": {
+        "model_id": "BAAI/bge-reranker-large",
+        "model_revision": "27c9168d479987529781de8474dff94d69beca11"
+      },
+      "modelscope": {
+        "model_id": "Xorbits/bge-reranker-large",
+        "model_revision": "v0.0.1"
+      }
+    }
   },
   {
+    "version": 2,
     "model_name": "bge-reranker-base",
     "type": "normal",
-    "language": ["en", "zh"],
+    "language": [
+      "en",
+      "zh"
+    ],
     "max_tokens": 512,
-    "model_id": "BAAI/bge-reranker-base",
-    "model_revision": "465b4b7ddf2be0a020c8ad6e525b9bb1dbb708ae"
+    "model_src": {
+      "huggingface": {
+        "model_id": "BAAI/bge-reranker-base",
+        "model_revision": "465b4b7ddf2be0a020c8ad6e525b9bb1dbb708ae"
+      },
+      "modelscope": {
+        "model_id": "Xorbits/bge-reranker-base",
+        "model_revision": "v0.0.1"
+      }
+    }
   },
   {
+    "version": 2,
     "model_name": "bce-reranker-base_v1",
     "type": "normal",
-    "language": ["en", "zh"],
+    "language": [
+      "en",
+      "zh"
+    ],
     "max_tokens": 512,
-    "model_id": "maidalun1020/bce-reranker-base_v1",
-    "model_revision": "eaa31a577a0574e87a08959bd229ca14ce1b5496"
+    "model_src": {
+      "huggingface": {
+        "model_id": "maidalun1020/bce-reranker-base_v1",
+        "model_revision": "eaa31a577a0574e87a08959bd229ca14ce1b5496"
+      },
+      "modelscope": {
+        "model_id": "maidalun/bce-reranker-base_v1",
+        "model_revision": "v0.0.1"
+      }
+    }
   },
   {
+    "version": 2,
     "model_name": "bge-reranker-v2-m3",
     "type": "normal",
-    "language": ["en", "zh", "multilingual"],
+    "language": [
+      "en",
+      "zh",
+      "multilingual"
+    ],
     "max_tokens": 8192,
-    "model_id": "BAAI/bge-reranker-v2-m3",
-    "model_revision": "12e974610ba9083ed95f3edf08d7e899581f4de4"
+    "model_src": {
+      "huggingface": {
+        "model_id": "BAAI/bge-reranker-v2-m3",
+        "model_revision": "12e974610ba9083ed95f3edf08d7e899581f4de4"
+      },
+      "modelscope": {
+        "model_id": "AI-ModelScope/bge-reranker-v2-m3"
+      }
+    }
   },
   {
+    "version": 2,
     "model_name": "bge-reranker-v2-gemma",
     "type": "LLM-based",
-    "language": ["en", "zh", "multilingual"],
+    "language": [
+      "en",
+      "zh",
+      "multilingual"
+    ],
     "max_tokens": 8192,
-    "model_id": "BAAI/bge-reranker-v2-gemma",
-    "model_revision": "1787044f8b6fb740a9de4557c3a12377f84d9e17"
+    "model_src": {
+      "huggingface": {
+        "model_id": "BAAI/bge-reranker-v2-gemma",
+        "model_revision": "1787044f8b6fb740a9de4557c3a12377f84d9e17"
+      },
+      "modelscope": {
+        "model_id": "AI-ModelScope/bge-reranker-v2-gemma"
+      }
+    }
   },
   {
+    "version": 2,
     "model_name": "bge-reranker-v2-minicpm-layerwise",
     "type": "LLM-based layerwise",
-    "language": ["en", "zh", "multilingual"],
+    "language": [
+      "en",
+      "zh",
+      "multilingual"
+    ],
     "max_tokens": 2048,
-    "model_id": "BAAI/bge-reranker-v2-minicpm-layerwise",
-    "model_revision": "47b5332b296c4d8cb6ee2c60502cc62a0d708881"
+    "model_src": {
+      "huggingface": {
+        "model_id": "BAAI/bge-reranker-v2-minicpm-layerwise",
+        "model_revision": "47b5332b296c4d8cb6ee2c60502cc62a0d708881"
+      },
+      "modelscope": {
+        "model_id": "mirror013/bge-reranker-v2-minicpm-layerwise"
+      }
+    }
   },
   {
+    "version": 2,
     "model_name": "jina-reranker-v2",
     "type": "normal",
-    "language": ["en", "zh", "multilingual"],
+    "language": [
+      "en",
+      "zh",
+      "multilingual"
+    ],
     "max_tokens": 1024,
-    "model_id": "jinaai/jina-reranker-v2-base-multilingual",
-    "model_revision": "298e48cada4a9318650d7fbd795f63827f884087"
+    "model_src": {
+      "huggingface": {
+        "model_id": "jinaai/jina-reranker-v2-base-multilingual",
+        "model_revision": "298e48cada4a9318650d7fbd795f63827f884087"
+      }
+    }
   },
   {
+    "version": 2,
     "model_name": "minicpm-reranker",
     "type": "normal",
-    "language": ["en", "zh"],
+    "language": [
+      "en",
+      "zh"
+    ],
     "max_tokens": 1024,
-    "model_id": "openbmb/MiniCPM-Reranker",
-    "model_revision": "5d2fd7345b6444c89d4c0fa59c92272888f3f2d0"
+    "model_src": {
+      "huggingface": {
+        "model_id": "openbmb/MiniCPM-Reranker",
+        "model_revision": "5d2fd7345b6444c89d4c0fa59c92272888f3f2d0"
+      },
+      "modelscope": {
+        "model_id": "OpenBMB/MiniCPM-Reranker"
+      }
+    }
   },
   {
+    "version": 2,
     "model_name": "Qwen3-Reranker-0.6B",
     "type": "normal",
-    "language": ["en", "zh"],
+    "language": [
+      "en",
+      "zh"
+    ],
     "max_tokens": 32768,
-    "model_id": "Qwen/Qwen3-Reranker-0.6B",
-    "model_revision": "6e9e69830b95c52b5fd889b7690dda3329508de3"
+    "model_src": {
+      "huggingface": {
+        "model_id": "Qwen/Qwen3-Reranker-0.6B",
+        "model_revision": "6e9e69830b95c52b5fd889b7690dda3329508de3"
+      },
+      "modelscope": {
+        "model_id": "Qwen/Qwen3-Reranker-0.6B"
+      }
+    }
   },
   {
+    "version": 2,
     "model_name": "Qwen3-Reranker-4B",
     "type": "normal",
-    "language": ["en", "zh"],
+    "language": [
+      "en",
+      "zh"
+    ],
     "max_tokens": 32768,
-    "model_id": "Qwen/Qwen3-Reranker-4B",
-    "model_revision": "f16fc5d5d2b9b1d0db8280929242745d79794ef5"
+    "model_src": {
+      "huggingface": {
+        "model_id": "Qwen/Qwen3-Reranker-4B",
+        "model_revision": "f16fc5d5d2b9b1d0db8280929242745d79794ef5"
+      },
+      "modelscope": {
+        "model_id": "Qwen/Qwen3-Reranker-4B"
+      }
+    }
   },
   {
+    "version": 2,
     "model_name": "Qwen3-Reranker-8B",
     "type": "normal",
-    "language": ["en", "zh"],
+    "language": [
+      "en",
+      "zh"
+    ],
     "max_tokens": 32768,
-    "model_id": "Qwen/Qwen3-Reranker-8B",
-    "model_revision": "5fa94080caafeaa45a15d11f969d7978e087a3db"
+    "model_src": {
+      "huggingface": {
+        "model_id": "Qwen/Qwen3-Reranker-8B",
+        "model_revision": "5fa94080caafeaa45a15d11f969d7978e087a3db"
+      },
+      "modelscope": {
+        "model_id": "Qwen/Qwen3-Reranker-8B"
+      }
+    }
   }
 ]

xinference/model/rerank/utils.py CHANGED Viewed

@@ -14,10 +14,10 @@
 from typing import TYPE_CHECKING, Any
 if TYPE_CHECKING:
-    from .core import RerankModelSpec
+    from .core import RerankModelFamilyV2
-def get_model_version(rerank_model: "RerankModelSpec") -> str:
+def get_model_version(rerank_model: "RerankModelFamilyV2") -> str:
     return rerank_model.model_name

xinference/model/utils.py CHANGED Viewed

@@ -18,10 +18,22 @@ import logging
 import os
 import random
 import threading
+from abc import ABC, abstractmethod
 from copy import deepcopy
 from json import JSONDecodeError
 from pathlib import Path
-from typing import Any, Callable, Dict, List, Optional, Set, Tuple, Type, Union
+from typing import (
+    TYPE_CHECKING,
+    Any,
+    Callable,
+    Dict,
+    List,
+    Optional,
+    Set,
+    Tuple,
+    Type,
+    Union,
+)
 import huggingface_hub
 import numpy as np
@@ -36,6 +48,10 @@ from ..constants import (
 from ..device_utils import get_available_device, is_device_available
 from .core import CacheableModelSpec
+if TYPE_CHECKING:
+    from .embedding.core import LlamaCppEmbeddingSpecV1
+    from .llm.llm_family import LlamaCppLLMSpecV2
 logger = logging.getLogger(__name__)
 IS_NEW_HUGGINGFACE_HUB: bool = huggingface_hub.__version__ >= "0.23.0"
@@ -262,59 +278,6 @@ def cache_from_uri(model_spec: CacheableModelSpec) -> str:
         raise ValueError(f"Unsupported URL scheme: {src_scheme}")
-def cache(model_spec: CacheableModelSpec, model_description_type: type):
-    if (
-        hasattr(model_spec, "model_uri")
-        and getattr(model_spec, "model_uri", None) is not None
-    ):
-        logger.info(f"Model caching from URI: {model_spec.model_uri}")
-        return cache_from_uri(model_spec=model_spec)
-    cache_dir = os.path.realpath(
-        os.path.join(XINFERENCE_CACHE_DIR, model_spec.model_name)
-    )
-    if not os.path.exists(cache_dir):
-        os.makedirs(cache_dir, exist_ok=True)
-    meta_path = os.path.join(cache_dir, "__valid_download")
-    if valid_model_revision(meta_path, model_spec.model_revision, model_spec.model_hub):
-        return cache_dir
-    from_modelscope: bool = model_spec.model_hub == "modelscope"
-    if from_modelscope:
-        from modelscope.hub.snapshot_download import snapshot_download as ms_download
-        download_dir = retry_download(
-            ms_download,
-            model_spec.model_name,
-            None,
-            model_spec.model_id,
-            revision=model_spec.model_revision,
-        )
-        create_symlink(download_dir, cache_dir)
-    else:
-        from huggingface_hub import snapshot_download as hf_download
-        use_symlinks = {}
-        if not IS_NEW_HUGGINGFACE_HUB:
-            use_symlinks = {"local_dir_use_symlinks": True, "local_dir": cache_dir}
-        download_dir = retry_download(
-            hf_download,
-            model_spec.model_name,
-            None,
-            model_spec.model_id,
-            revision=model_spec.model_revision,
-            **use_symlinks,
-        )
-        if IS_NEW_HUGGINGFACE_HUB:
-            create_symlink(download_dir, cache_dir)
-    with open(meta_path, "w") as f:
-        import json
-        desc = model_description_type(None, None, model_spec)
-        json.dump(desc.to_dict(), f)
-    return cache_dir
 def select_device(device):
     try:
         import torch  # noqa: F401
@@ -497,3 +460,101 @@ def get_engine_params_by_name(
             f"Cannot support model_engine for {model_type}, "
             f"only available for LLM, embedding"
         )
+def generate_model_file_names_with_quantization_parts(
+    model_spec: Union["LlamaCppLLMSpecV2", "LlamaCppEmbeddingSpecV1"],
+    multimodal_projector: Optional[str] = None,
+) -> Tuple[List[str], str, bool]:
+    file_names = []
+    final_file_name = model_spec.model_file_name_template.format(
+        quantization=model_spec.quantization
+    )
+    need_merge = False
+    if (
+        model_spec.quantization_parts is None
+        or model_spec.quantization not in model_spec.quantization_parts
+    ):
+        file_names.append(final_file_name)
+    elif (
+        model_spec.quantization is not None
+        and model_spec.quantization in model_spec.quantization_parts
+    ):
+        parts = model_spec.quantization_parts[model_spec.quantization]
+        need_merge = True
+        logger.info(
+            f"Model {model_spec.model_id} {model_spec.model_format} {model_spec.quantization} has {len(parts)} parts."
+        )
+        if model_spec.model_file_name_split_template is None:
+            raise ValueError(
+                f"No model_file_name_split_template for model spec {model_spec.model_id}"
+            )
+        for part in parts:
+            file_name = model_spec.model_file_name_split_template.format(
+                quantization=model_spec.quantization, part=part
+            )
+            file_names.append(file_name)
+    if multimodal_projector:
+        file_names.append(multimodal_projector)
+    return file_names, final_file_name, need_merge
+def merge_cached_files(
+    cache_dir: str, input_file_names: List[str], output_file_name: str
+):
+    # now llama.cpp can find the gguf parts automatically
+    # we only need to provide the first part
+    # thus we create the symlink to the first part
+    symlink_local_file(
+        os.path.join(cache_dir, input_file_names[0]), cache_dir, output_file_name
+    )
+    logger.info(f"Merge complete.")
+def flatten_model_src(input_json: dict):
+    flattened = []
+    base_info = {key: value for key, value in input_json.items() if key != "model_src"}
+    for model_hub, hub_info in input_json["model_src"].items():
+        record = base_info.copy()
+        hub_info.pop("model_hub", None)
+        record.update(hub_info)
+        record["model_hub"] = model_hub
+        flattened.append(record)
+    return flattened
+def flatten_quantizations(input_json: dict):
+    flattened = []
+    base_info = {key: value for key, value in input_json.items() if key != "model_src"}
+    for model_hub, hub_info in input_json["model_src"].items():
+        quantizations = hub_info["quantizations"]
+        for quant in quantizations:
+            record = base_info.copy()
+            record["model_hub"] = model_hub
+            record["quantization"] = quant
+            for key, value in hub_info.items():
+                if key != "quantizations":
+                    record[key] = value
+            flattened.append(record)
+    return flattened
+class ModelInstanceInfoMixin(ABC):
+    @abstractmethod
+    def to_description(self):
+        """"""
+    @abstractmethod
+    def to_version_info(self):
+        """"""

xinference/model/video/__init__.py CHANGED Viewed

@@ -15,40 +15,36 @@
 import codecs
 import json
 import os
-from itertools import chain
+from ..utils import flatten_model_src
 from .core import (
     BUILTIN_VIDEO_MODELS,
-    MODEL_NAME_TO_REVISION,
-    MODELSCOPE_VIDEO_MODELS,
     VIDEO_MODEL_DESCRIPTIONS,
-    VideoModelFamilyV1,
+    VideoModelFamilyV2,
     generate_video_description,
-    get_cache_status,
     get_video_model_descriptions,
 )
 def _install():
     load_model_family_from_json("model_spec.json", BUILTIN_VIDEO_MODELS)
-    load_model_family_from_json("model_spec_modelscope.json", MODELSCOPE_VIDEO_MODELS)
     # register model description
-    for model_name, model_spec in chain(
-        MODELSCOPE_VIDEO_MODELS.items(), BUILTIN_VIDEO_MODELS.items()
-    ):
+    for model_name, model_specs in BUILTIN_VIDEO_MODELS.items():
+        model_spec = [x for x in model_specs if x.model_hub == "huggingface"][0]
         VIDEO_MODEL_DESCRIPTIONS.update(generate_video_description(model_spec))
 def load_model_family_from_json(json_filename, target_families):
     json_path = os.path.join(os.path.dirname(__file__), json_filename)
-    target_families.update(
-        dict(
-            (spec["model_name"], VideoModelFamilyV1(**spec))
-            for spec in json.load(codecs.open(json_path, "r", encoding="utf-8"))
-        )
-    )
-    for model_name, model_spec in target_families.items():
-        MODEL_NAME_TO_REVISION[model_name].append(model_spec.model_revision)
+    flattened_model_specs = []
+    for spec in json.load(codecs.open(json_path, "r", encoding="utf-8")):
+        flattened_model_specs.extend(flatten_model_src(spec))
+    for spec in flattened_model_specs:
+        if spec["model_name"] not in target_families:
+            target_families[spec["model_name"]] = [VideoModelFamilyV2(**spec)]
+        else:
+            target_families[spec["model_name"]].append(VideoModelFamilyV2(**spec))
     del json_path

xinference 1.7.1__py3-none-any.whl → 1.8.0__py3-none-any.whl

Potentially problematic release.

xinference 1.7.1py3-none-any.whl → 1.8.0py3-none-any.whl