PyPI - sglang - Versions diffs - 0.1.21__py3-none-any.whl → 0.1.24__py3-none-any.whl - Mend

sglang 0.1.21py3-none-any.whl → 0.1.24py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (79) hide show

sglang/__init__.py +8 -8
sglang/api.py +1 -1
sglang/backend/vertexai.py +5 -4
sglang/bench.py +627 -0
sglang/bench_latency.py +22 -19
sglang/bench_serving.py +976 -0
sglang/check_env.py +171 -0
sglang/global_config.py +3 -2
sglang/lang/backend/__init__.py +0 -0
sglang/lang/backend/anthropic.py +77 -0
sglang/lang/backend/base_backend.py +80 -0
sglang/lang/backend/litellm.py +90 -0
sglang/lang/backend/openai.py +438 -0
sglang/lang/backend/runtime_endpoint.py +283 -0
sglang/lang/backend/vertexai.py +149 -0
sglang/lang/interpreter.py +1 -0
sglang/lang/tracer.py +1 -1
sglang/launch_server.py +1 -1
sglang/launch_server_llavavid.py +1 -4
sglang/srt/conversation.py +1 -1
sglang/srt/hf_transformers_utils.py +13 -1
sglang/srt/layers/context_flashattention_nopad.py +0 -29
sglang/srt/layers/extend_attention.py +0 -39
sglang/srt/layers/linear.py +869 -0
sglang/srt/layers/logits_processor.py +4 -5
sglang/srt/layers/quantization/__init__.py +49 -0
sglang/srt/layers/quantization/fp8.py +662 -0
sglang/srt/layers/radix_attention.py +39 -24
sglang/srt/layers/token_attention.py +1 -51
sglang/srt/managers/controller/cuda_graph_runner.py +72 -28
sglang/srt/managers/controller/infer_batch.py +90 -63
sglang/srt/managers/controller/manager_multi.py +107 -100
sglang/srt/managers/controller/manager_single.py +76 -96
sglang/srt/managers/controller/model_runner.py +41 -26
sglang/srt/managers/controller/schedule_heuristic.py +8 -3
sglang/srt/managers/controller/tp_worker.py +136 -149
sglang/srt/managers/detokenizer_manager.py +49 -5
sglang/srt/managers/io_struct.py +36 -17
sglang/srt/managers/tokenizer_manager.py +228 -125
sglang/srt/memory_pool.py +32 -11
sglang/srt/model_loader/model_loader.py +277 -0
sglang/srt/model_loader/utils.py +260 -0
sglang/srt/models/chatglm.py +1 -0
sglang/srt/models/dbrx.py +1 -0
sglang/srt/models/deepseek.py +430 -0
sglang/srt/models/gpt_bigcode.py +282 -0
sglang/srt/models/grok.py +1 -0
sglang/srt/models/internlm2.py +317 -0
sglang/srt/models/llama2.py +81 -23
sglang/srt/models/llama_classification.py +1 -0
sglang/srt/models/llava.py +1 -0
sglang/srt/models/llavavid.py +1 -0
sglang/srt/models/minicpm.py +1 -0
sglang/srt/models/mixtral.py +1 -0
sglang/srt/models/mixtral_quant.py +1 -0
sglang/srt/models/qwen.py +1 -0
sglang/srt/models/qwen2.py +6 -0
sglang/srt/models/qwen2_moe.py +7 -4
sglang/srt/models/stablelm.py +1 -0
sglang/srt/openai_api/adapter.py +432 -0
sglang/srt/openai_api/api_adapter.py +432 -0
sglang/srt/openai_api/openai_api_adapter.py +431 -0
sglang/srt/openai_api/openai_protocol.py +207 -0
sglang/srt/openai_api/protocol.py +208 -0
sglang/srt/openai_protocol.py +17 -0
sglang/srt/sampling_params.py +2 -0
sglang/srt/server.py +132 -84
sglang/srt/server_args.py +35 -21
sglang/srt/utils.py +65 -117
sglang/test/test_conversation.py +1 -1
sglang/test/test_openai_protocol.py +1 -1
sglang/test/test_programs.py +1 -1
sglang/test/test_utils.py +2 -2
{sglang-0.1.21.dist-info → sglang-0.1.24.dist-info}/METADATA +162 -168
sglang-0.1.24.dist-info/RECORD +105 -0
{sglang-0.1.21.dist-info → sglang-0.1.24.dist-info}/WHEEL +1 -1
sglang-0.1.21.dist-info/RECORD +0 -82
{sglang-0.1.21.dist-info → sglang-0.1.24.dist-info}/LICENSE +0 -0
{sglang-0.1.21.dist-info → sglang-0.1.24.dist-info}/top_level.txt +0 -0

sglang/check_env.py ADDED Viewed

@@ -0,0 +1,171 @@
+"""Check environment configurations and dependency versions."""
+import importlib
+import os
+import resource
+import subprocess
+import sys
+from collections import OrderedDict, defaultdict
+import torch
+# List of packages to check versions for
+PACKAGE_LIST = [
+    "sglang",
+    "flashinfer",
+    "requests",
+    "tqdm",
+    "numpy",
+    "aiohttp",
+    "fastapi",
+    "hf_transfer",
+    "huggingface_hub",
+    "interegular",
+    "packaging",
+    "pillow",
+    "psutil",
+    "pydantic",
+    "uvicorn",
+    "uvloop",
+    "zmq",
+    "vllm",
+    "outlines",
+    "openai",
+    "tiktoken",
+    "anthropic",
+    "litellm",
+]
+def get_package_versions(packages):
+    """
+    Get versions of specified packages.
+    """
+    versions = {}
+    for package in packages:
+        package_name = package.split("==")[0].split(">=")[0].split("<=")[0]
+        try:
+            module = importlib.import_module(package_name)
+            if hasattr(module, "__version__"):
+                versions[package_name] = module.__version__
+        except ModuleNotFoundError:
+            versions[package_name] = "Module Not Found"
+    return versions
+def get_cuda_info():
+    """
+    Get CUDA-related information if available.
+    """
+    cuda_info = {"CUDA available": torch.cuda.is_available()}
+    if cuda_info["CUDA available"]:
+        cuda_info.update(_get_gpu_info())
+        cuda_info.update(_get_cuda_version_info())
+    return cuda_info
+def _get_gpu_info():
+    """
+    Get information about available GPUs.
+    """
+    devices = defaultdict(list)
+    for k in range(torch.cuda.device_count()):
+        devices[torch.cuda.get_device_name(k)].append(str(k))
+    return {f"GPU {','.join(device_ids)}": name for name, device_ids in devices.items()}
+def _get_cuda_version_info():
+    """
+    Get CUDA version information.
+    """
+    from torch.utils.cpp_extension import CUDA_HOME
+    cuda_info = {"CUDA_HOME": CUDA_HOME}
+    if CUDA_HOME and os.path.isdir(CUDA_HOME):
+        cuda_info.update(_get_nvcc_info())
+        cuda_info.update(_get_cuda_driver_version())
+    return cuda_info
+def _get_nvcc_info():
+    """
+    Get NVCC version information.
+    """
+    from torch.utils.cpp_extension import CUDA_HOME
+    try:
+        nvcc = os.path.join(CUDA_HOME, "bin/nvcc")
+        nvcc_output = (
+            subprocess.check_output(f'"{nvcc}" -V', shell=True).decode("utf-8").strip()
+        )
+        return {
+            "NVCC": nvcc_output[
+                nvcc_output.rfind("Cuda compilation tools") : nvcc_output.rfind("Build")
+            ].strip()
+        }
+    except subprocess.SubprocessError:
+        return {"NVCC": "Not Available"}
+def _get_cuda_driver_version():
+    """
+    Get CUDA driver version.
+    """
+    try:
+        output = subprocess.check_output(
+            [
+                "nvidia-smi",
+                "--query-gpu=driver_version",
+                "--format=csv,noheader,nounits",
+            ]
+        )
+        return {"CUDA Driver Version": output.decode().strip()}
+    except subprocess.SubprocessError:
+        return {"CUDA Driver Version": "Not Available"}
+def get_gpu_topology():
+    """
+    Get GPU topology information.
+    """
+    try:
+        result = subprocess.run(
+            ["nvidia-smi", "topo", "-m"],
+            stdout=subprocess.PIPE,
+            stderr=subprocess.PIPE,
+            text=True,
+            check=True,
+        )
+        return "\n" + result.stdout if result.returncode == 0 else None
+    except subprocess.SubprocessError:
+        return None
+def check_env():
+    """
+    Check and print environment information.
+    """
+    env_info = OrderedDict()
+    env_info["Python"] = sys.version.replace("\n", "")
+    env_info.update(get_cuda_info())
+    env_info["PyTorch"] = torch.__version__
+    env_info.update(get_package_versions(PACKAGE_LIST))
+    gpu_topo = get_gpu_topology()
+    if gpu_topo:
+        env_info["NVIDIA Topology"] = gpu_topo
+    ulimit_soft, _ = resource.getrlimit(resource.RLIMIT_NOFILE)
+    env_info["ulimit soft"] = ulimit_soft
+    for k, v in env_info.items():
+        print(f"{k}: {v}")
+if __name__ == "__main__":
+    check_env()

sglang/global_config.py CHANGED Viewed

@@ -16,9 +16,9 @@ class GlobalConfig:
         self.wait_for_new_request_delay = 0.0006
         # Runtime constants: New generation token ratio estimation
-        self.base_new_token_ratio = 0.4
+        self.init_new_token_ratio = 0.7
         self.base_min_new_token_ratio = 0.2
-        self.new_token_ratio_decay = 0.0001
+        self.new_token_ratio_decay = 0.001
         self.new_token_ratio_recovery = 0.05
         # Runtime constants: The threshold (number of tokens) to trigger layer-wise cuda sync.
@@ -27,6 +27,7 @@ class GlobalConfig:
         # Runtime constants: others
         self.num_continue_decode_steps = 10
+        self.retract_decode_steps = 20
         self.flashinfer_workspace_size = 192 * 1024 * 1024
         # Output tokenization configs

sglang/lang/backend/__init__.py ADDED Viewed

File without changes

sglang/lang/backend/anthropic.py ADDED Viewed

@@ -0,0 +1,77 @@
+from typing import List, Optional, Union
+import numpy as np
+from sglang.lang.backend.base_backend import BaseBackend
+from sglang.lang.chat_template import get_chat_template
+from sglang.lang.interpreter import StreamExecutor
+from sglang.lang.ir import SglSamplingParams
+try:
+    import anthropic
+except ImportError as e:
+    anthropic = e
+class Anthropic(BaseBackend):
+    def __init__(self, model_name, *args, **kwargs):
+        super().__init__()
+        if isinstance(anthropic, Exception):
+            raise anthropic
+        self.model_name = model_name
+        self.chat_template = get_chat_template("claude")
+        self.client = anthropic.Anthropic(*args, **kwargs)
+    def get_chat_template(self):
+        return self.chat_template
+    def generate(
+        self,
+        s: StreamExecutor,
+        sampling_params: SglSamplingParams,
+    ):
+        if s.messages_:
+            messages = s.messages_
+        else:
+            messages = [{"role": "user", "content": s.text_}]
+        if messages and messages[0]["role"] == "system":
+            system = messages.pop(0)["content"]
+        else:
+            system = ""
+        ret = self.client.messages.create(
+            model=self.model_name,
+            system=system,
+            messages=messages,
+            **sampling_params.to_anthropic_kwargs(),
+        )
+        comp = ret.content[0].text
+        return comp, {}
+    def generate_stream(
+        self,
+        s: StreamExecutor,
+        sampling_params: SglSamplingParams,
+    ):
+        if s.messages_:
+            messages = s.messages_
+        else:
+            messages = [{"role": "user", "content": s.text_}]
+        if messages and messages[0]["role"] == "system":
+            system = messages.pop(0)["content"]
+        else:
+            system = ""
+        with self.client.messages.stream(
+            model=self.model_name,
+            system=system,
+            messages=messages,
+            **sampling_params.to_anthropic_kwargs(),
+        ) as stream:
+            for text in stream.text_stream:
+                yield text, {}

sglang/lang/backend/base_backend.py ADDED Viewed

@@ -0,0 +1,80 @@
+from typing import Callable, List, Optional, Union
+from sglang.lang.chat_template import get_chat_template
+from sglang.lang.interpreter import StreamExecutor
+from sglang.lang.ir import SglSamplingParams
+class BaseBackend:
+    def __init__(self) -> None:
+        self.support_concate_and_append = False
+        self.chat_template = get_chat_template("default")
+    def get_model_name(self):
+        raise NotImplementedError()
+    def get_chat_template(self):
+        return self.chat_template
+    def cache_prefix(self, prefix_str: str):
+        pass
+    def uncache_prefix(self, rid: str):
+        pass
+    def end_request(self, rid: Union[str, List[str]]):
+        pass
+    def begin_program(self, s: StreamExecutor):
+        pass
+    def end_program(self, s: Union[StreamExecutor, List[StreamExecutor]]):
+        pass
+    def commit_lazy_operations(self, s: StreamExecutor):
+        pass
+    def fork_program(
+        self,
+        src: StreamExecutor,
+        dst: List[StreamExecutor],
+        position_ids_offset: Optional[List[int]] = None,
+    ):
+        pass
+    def fill_image(self, s: StreamExecutor):
+        pass
+    def generate(
+        self,
+        s: StreamExecutor,
+        sampling_params: SglSamplingParams,
+    ):
+        raise NotImplementedError()
+    def generate_stream(
+        self,
+        s: StreamExecutor,
+        sampling_params: SglSamplingParams,
+    ):
+        raise NotImplementedError()
+    def select(
+        self,
+        s: StreamExecutor,
+        choices: List[str],
+        temperature: float,
+    ):
+        raise NotImplementedError()
+    def concatenate_and_append(self, src_rids: List[str], dst_rid: str):
+        raise NotImplementedError()
+    def shutdown(self):
+        pass
+    def flush_cache(self):
+        pass
+    def get_server_args(self):
+        pass

sglang/lang/backend/litellm.py ADDED Viewed

@@ -0,0 +1,90 @@
+from typing import Mapping, Optional
+from sglang.lang.backend.base_backend import BaseBackend
+from sglang.lang.chat_template import get_chat_template_by_model_path
+from sglang.lang.interpreter import StreamExecutor
+from sglang.lang.ir import SglSamplingParams
+try:
+    import litellm
+except ImportError as e:
+    litellm = e
+    litellm.num_retries = 1
+class LiteLLM(BaseBackend):
+    def __init__(
+        self,
+        model_name,
+        chat_template=None,
+        api_key=None,
+        organization: Optional[str] = None,
+        base_url: Optional[str] = None,
+        timeout: Optional[float] = 600,
+        max_retries: Optional[int] = litellm.num_retries,
+        default_headers: Optional[Mapping[str, str]] = None,
+    ):
+        super().__init__()
+        if isinstance(litellm, Exception):
+            raise litellm
+        self.model_name = model_name
+        self.chat_template = chat_template or get_chat_template_by_model_path(
+            model_name
+        )
+        self.client_params = {
+            "api_key": api_key,
+            "organization": organization,
+            "base_url": base_url,
+            "timeout": timeout,
+            "max_retries": max_retries,
+            "default_headers": default_headers,
+        }
+    def get_chat_template(self):
+        return self.chat_template
+    def generate(
+        self,
+        s: StreamExecutor,
+        sampling_params: SglSamplingParams,
+    ):
+        if s.messages_:
+            messages = s.messages_
+        else:
+            messages = [{"role": "user", "content": s.text_}]
+        ret = litellm.completion(
+            model=self.model_name,
+            messages=messages,
+            **self.client_params,
+            **sampling_params.to_anthropic_kwargs(),
+        )
+        comp = ret.choices[0].message.content
+        return comp, {}
+    def generate_stream(
+        self,
+        s: StreamExecutor,
+        sampling_params: SglSamplingParams,
+    ):
+        if s.messages_:
+            messages = s.messages_
+        else:
+            messages = [{"role": "user", "content": s.text_}]
+        ret = litellm.completion(
+            model=self.model_name,
+            messages=messages,
+            stream=True,
+            **self.client_params,
+            **sampling_params.to_litellm_kwargs(),
+        )
+        for chunk in ret:
+            text = chunk.choices[0].delta.content
+            if text is not None:
+                yield text, {}

sglang 0.1.21__py3-none-any.whl → 0.1.24__py3-none-any.whl

sglang 0.1.21py3-none-any.whl → 0.1.24py3-none-any.whl