PyPI - sglang - Versions diffs - 0.1.20__py3-none-any.whl → 0.1.22__py3-none-any.whl - Mend

sglang 0.1.20py3-none-any.whl → 0.1.22py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (78) hide show

sglang/__init__.py +8 -8
sglang/api.py +1 -1
sglang/backend/runtime_endpoint.py +14 -4
sglang/backend/vertexai.py +5 -4
sglang/bench.py +627 -0
sglang/bench_latency.py +22 -20
sglang/bench_serving.py +758 -0
sglang/check_env.py +171 -0
sglang/global_config.py +3 -1
sglang/lang/backend/__init__.py +0 -0
sglang/lang/backend/anthropic.py +77 -0
sglang/lang/backend/base_backend.py +80 -0
sglang/lang/backend/litellm.py +90 -0
sglang/lang/backend/openai.py +438 -0
sglang/lang/backend/runtime_endpoint.py +283 -0
sglang/lang/backend/vertexai.py +149 -0
sglang/lang/chat_template.py +2 -2
sglang/lang/ir.py +3 -3
sglang/lang/tracer.py +1 -1
sglang/launch_server.py +1 -1
sglang/launch_server_llavavid.py +1 -4
sglang/srt/conversation.py +1 -1
sglang/srt/layers/context_flashattention_nopad.py +0 -29
sglang/srt/layers/extend_attention.py +0 -39
sglang/srt/layers/linear.py +869 -0
sglang/srt/layers/quantization/__init__.py +49 -0
sglang/srt/layers/quantization/fp8.py +662 -0
sglang/srt/layers/radix_attention.py +31 -5
sglang/srt/layers/token_attention.py +1 -51
sglang/srt/managers/controller/cuda_graph_runner.py +44 -18
sglang/srt/managers/controller/infer_batch.py +76 -72
sglang/srt/managers/controller/manager_multi.py +109 -98
sglang/srt/managers/controller/manager_single.py +105 -50
sglang/srt/managers/controller/model_runner.py +42 -18
sglang/srt/managers/controller/radix_cache.py +4 -3
sglang/srt/managers/controller/schedule_heuristic.py +4 -0
sglang/srt/managers/controller/tp_worker.py +143 -156
sglang/srt/managers/detokenizer_manager.py +49 -5
sglang/srt/managers/io_struct.py +36 -17
sglang/srt/managers/tokenizer_manager.py +228 -125
sglang/srt/memory_pool.py +46 -58
sglang/srt/model_loader/model_loader.py +277 -0
sglang/srt/model_loader/utils.py +260 -0
sglang/srt/models/chatglm.py +1 -0
sglang/srt/models/dbrx.py +1 -0
sglang/srt/models/grok.py +1 -0
sglang/srt/models/internlm2.py +317 -0
sglang/srt/models/llama2.py +65 -16
sglang/srt/models/llama_classification.py +1 -0
sglang/srt/models/llava.py +1 -0
sglang/srt/models/llavavid.py +1 -0
sglang/srt/models/minicpm.py +2 -8
sglang/srt/models/mixtral.py +1 -0
sglang/srt/models/mixtral_quant.py +1 -0
sglang/srt/models/qwen.py +1 -0
sglang/srt/models/qwen2.py +6 -0
sglang/srt/models/qwen2_moe.py +130 -108
sglang/srt/models/stablelm.py +1 -0
sglang/srt/openai_api/adapter.py +432 -0
sglang/srt/openai_api/api_adapter.py +432 -0
sglang/srt/openai_api/openai_api_adapter.py +431 -0
sglang/srt/openai_api/openai_protocol.py +207 -0
sglang/srt/openai_api/protocol.py +208 -0
sglang/srt/openai_protocol.py +17 -0
sglang/srt/sampling_params.py +2 -0
sglang/srt/server.py +114 -90
sglang/srt/server_args.py +27 -17
sglang/srt/utils.py +17 -118
sglang/test/test_conversation.py +1 -1
sglang/test/test_openai_protocol.py +1 -1
sglang/test/test_programs.py +1 -1
sglang/test/test_utils.py +2 -2
{sglang-0.1.20.dist-info → sglang-0.1.22.dist-info}/METADATA +157 -159
sglang-0.1.22.dist-info/RECORD +103 -0
{sglang-0.1.20.dist-info → sglang-0.1.22.dist-info}/WHEEL +1 -1
sglang-0.1.20.dist-info/RECORD +0 -82
{sglang-0.1.20.dist-info → sglang-0.1.22.dist-info}/LICENSE +0 -0
{sglang-0.1.20.dist-info → sglang-0.1.22.dist-info}/top_level.txt +0 -0

sglang/__init__.py CHANGED Viewed

@@ -1,4 +1,4 @@
-__version__ = "0.1.20"
+__version__ = "0.1.22"
 # SGL API Components
 from sglang.api import (
@@ -22,16 +22,16 @@ from sglang.api import (
     video,
 )
-# SGL Backends
-from sglang.backend.anthropic import Anthropic
-from sglang.backend.litellm import LiteLLM
-from sglang.backend.openai import OpenAI
-from sglang.backend.runtime_endpoint import RuntimeEndpoint
-from sglang.backend.vertexai import VertexAI
 # Global Configurations
 from sglang.global_config import global_config
+# SGL Backends
+from sglang.lang.backend.anthropic import Anthropic
+from sglang.lang.backend.litellm import LiteLLM
+from sglang.lang.backend.openai import OpenAI
+from sglang.lang.backend.runtime_endpoint import RuntimeEndpoint
+from sglang.lang.backend.vertexai import VertexAI
 # public APIs management
 __all__ = [
     "global_config",

sglang/api.py CHANGED Viewed

@@ -4,8 +4,8 @@ import os
 import re
 from typing import Callable, List, Optional, Union
-from sglang.backend.base_backend import BaseBackend
 from sglang.global_config import global_config
+from sglang.lang.backend.base_backend import BaseBackend
 from sglang.lang.ir import (
     SglExpr,
     SglExprList,

sglang/backend/runtime_endpoint.py CHANGED Viewed

@@ -12,7 +12,6 @@ from sglang.utils import http_request
 class RuntimeEndpoint(BaseBackend):
     def __init__(
         self,
         base_url: str,
@@ -38,7 +37,8 @@ class RuntimeEndpoint(BaseBackend):
         self.model_info = res.json()
         self.chat_template = get_chat_template_by_model_path(
-            self.model_info["model_path"])
+            self.model_info["model_path"]
+        )
     def get_model_name(self):
         return self.model_info["model_path"]
@@ -124,7 +124,12 @@ class RuntimeEndpoint(BaseBackend):
         else:
             raise RuntimeError(f"Invalid dtype: {sampling_params.dtype}")
-        for item in ["return_logprob", "logprob_start_len", "top_logprobs_num", "return_text_in_logprobs"]:
+        for item in [
+            "return_logprob",
+            "logprob_start_len",
+            "top_logprobs_num",
+            "return_text_in_logprobs",
+        ]:
             value = getattr(sampling_params, item, None)
             if value is not None:
                 data[item] = value
@@ -171,7 +176,12 @@ class RuntimeEndpoint(BaseBackend):
         else:
             raise RuntimeError(f"Invalid dtype: {sampling_params.dtype}")
-        for item in ["return_logprob", "logprob_start_len", "top_logprobs_num", "return_text_in_logprobs"]:
+        for item in [
+            "return_logprob",
+            "logprob_start_len",
+            "top_logprobs_num",
+            "return_text_in_logprobs",
+        ]:
             value = getattr(sampling_params, item, None)
             if value is not None:
                 data[item] = value

sglang/backend/vertexai.py CHANGED Viewed

@@ -1,8 +1,6 @@
 import os
 import warnings
-from typing import List, Optional, Union
-import numpy as np
+from typing import Optional
 from sglang.backend.base_backend import BaseBackend
 from sglang.lang.chat_template import get_chat_template
@@ -21,7 +19,7 @@ except ImportError as e:
 class VertexAI(BaseBackend):
-    def __init__(self, model_name):
+    def __init__(self, model_name, safety_settings=None):
         super().__init__()
         if isinstance(GenerativeModel, Exception):
@@ -33,6 +31,7 @@ class VertexAI(BaseBackend):
         self.model_name = model_name
         self.chat_template = get_chat_template("default")
+        self.safety_settings = safety_settings
     def get_chat_template(self):
         return self.chat_template
@@ -54,6 +53,7 @@ class VertexAI(BaseBackend):
         ret = GenerativeModel(self.model_name).generate_content(
             prompt,
             generation_config=GenerationConfig(**sampling_params.to_vertexai_kwargs()),
+            safety_settings=self.safety_settings,
         )
         comp = ret.text
@@ -78,6 +78,7 @@ class VertexAI(BaseBackend):
             prompt,
             stream=True,
             generation_config=GenerationConfig(**sampling_params.to_vertexai_kwargs()),
+            safety_settings=self.safety_settings,
         )
         for ret in generator:
             yield ret.text, {}

sglang 0.1.20__py3-none-any.whl → 0.1.22__py3-none-any.whl

sglang 0.1.20py3-none-any.whl → 0.1.22py3-none-any.whl