PyPI - sglang - Versions diffs - 0.1.15__py3-none-any.whl → 0.1.16__py3-none-any.whl - Mend

sglang 0.1.15py3-none-any.whl → 0.1.16py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (42) hide show

sglang/__init__.py +3 -1
sglang/api.py +5 -0
sglang/global_config.py +4 -1
sglang/lang/chat_template.py +9 -2
sglang/lang/interpreter.py +52 -19
sglang/lang/ir.py +12 -9
sglang/lang/tracer.py +1 -1
sglang/launch_server.py +1 -2
sglang/launch_server_llavavid.py +31 -0
sglang/srt/flush_cache.py +16 -0
sglang/srt/hf_transformers_utils.py +8 -1
sglang/srt/managers/io_struct.py +15 -3
sglang/srt/managers/router/infer_batch.py +31 -19
sglang/srt/managers/router/manager.py +6 -8
sglang/srt/managers/router/model_rpc.py +59 -23
sglang/srt/managers/router/model_runner.py +6 -6
sglang/srt/managers/router/radix_cache.py +47 -17
sglang/srt/managers/router/scheduler.py +17 -28
sglang/srt/managers/tokenizer_manager.py +54 -22
sglang/srt/model_config.py +4 -0
sglang/srt/models/commandr.py +6 -10
sglang/srt/models/dbrx.py +14 -15
sglang/srt/models/gemma.py +7 -10
sglang/srt/models/llama2.py +7 -10
sglang/srt/models/llava.py +2 -6
sglang/srt/models/llavavid.py +307 -0
sglang/srt/models/mixtral.py +7 -13
sglang/srt/models/qwen.py +20 -13
sglang/srt/models/qwen2.py +7 -10
sglang/srt/models/stablelm.py +13 -12
sglang/srt/models/yivl.py +1 -4
sglang/srt/server.py +32 -18
sglang/srt/server_args.py +9 -6
sglang/srt/utils.py +126 -17
sglang/srt/weight_utils.py +66 -51
sglang/utils.py +77 -26
{sglang-0.1.15.dist-info → sglang-0.1.16.dist-info}/METADATA +9 -5
sglang-0.1.16.dist-info/RECORD +72 -0
sglang-0.1.15.dist-info/RECORD +0 -69
{sglang-0.1.15.dist-info → sglang-0.1.16.dist-info}/LICENSE +0 -0
{sglang-0.1.15.dist-info → sglang-0.1.16.dist-info}/WHEEL +0 -0
{sglang-0.1.15.dist-info → sglang-0.1.16.dist-info}/top_level.txt +0 -0

sglang/__init__.py CHANGED Viewed

@@ -1,4 +1,4 @@
-__version__ = "0.1.15"
+__version__ = "0.1.16"
 # SGL API Components
 from sglang.api import (
@@ -19,6 +19,7 @@ from sglang.api import (
     user,
     user_begin,
     user_end,
+    video,
 )
 # SGL Backends
@@ -46,6 +47,7 @@ __all__ = [
     "gen_int",
     "gen_string",
     "image",
+    "video",
     "select",
     "system",
     "user",

sglang/api.py CHANGED Viewed

@@ -15,6 +15,7 @@ from sglang.lang.ir import (
     SglRoleBegin,
     SglRoleEnd,
     SglSelect,
+    SglVideo,
 )
@@ -151,6 +152,10 @@ def image(expr: SglExpr):
     return SglImage(expr)
+def video(path: str, num_frames: int):
+    return SglVideo(path, num_frames)
 def select(
     name: Optional[str] = None,
     choices: List[str] = None,

sglang/global_config.py CHANGED Viewed

@@ -16,7 +16,7 @@ class GlobalConfig:
         # Optimization configs
         self.eager_fill_image = False
-        self.enable_prefix_sharing = True
+        self.enable_precache_with_tracing = True
         self.enable_parallel_encoding = True
         self.enable_parallel_decoding = True
@@ -25,5 +25,8 @@ class GlobalConfig:
         # adjust_cache: Adjust the position embedding of KV cache.
         self.concate_and_append_mode = "no_adjust"
+        # Request dependency time due to network delay
+        self.request_dependency_time = 0.03
 global_config = GlobalConfig()

sglang/lang/chat_template.py CHANGED Viewed

@@ -259,6 +259,8 @@ def match_vicuna(model_path: str):
         return get_chat_template("vicuna_v1.1")
     if "llava-v1.5" in model_path.lower():
         return get_chat_template("vicuna_v1.1")
+    if "llava-next-video-7b" in model_path.lower():
+        return get_chat_template("vicuna_v1.1")
 @register_chat_template_matching_function
@@ -283,19 +285,24 @@ def match_llama3_instruct(model_path: str):
 @register_chat_template_matching_function
 def match_chat_ml(model_path: str):
+    # import pdb;pdb.set_trace()
     model_path = model_path.lower()
     if "tinyllama" in model_path:
         return get_chat_template("chatml")
     if "qwen" in model_path and "chat" in model_path:
         return get_chat_template("chatml")
-    if "llava-v1.6-34b" in model_path:
+    if (
+        "llava-v1.6-34b" in model_path
+        or "llava-v1.6-yi-34b" in model_path
+        or "llava-next-video-34b" in model_path
+    ):
         return get_chat_template("chatml-llava")
 @register_chat_template_matching_function
 def match_chat_yi(model_path: str):
     model_path = model_path.lower()
-    if "yi" in model_path:
+    if "yi" in model_path and "llava" not in model_path:
         return get_chat_template("yi")

sglang/lang/interpreter.py CHANGED Viewed

@@ -28,8 +28,9 @@ from sglang.lang.ir import (
     SglVariable,
     SglVarScopeBegin,
     SglVarScopeEnd,
+    SglVideo,
 )
-from sglang.utils import encode_image_base64
+from sglang.utils import encode_image_base64, encode_video_base64, get_exception_traceback
 def run_internal(state, program, func_args, func_kwargs, sync):
@@ -86,9 +87,9 @@ def run_program_batch(
     if hasattr(backend, "endpoint"):
         backend = backend.endpoint
-    # Extract prefix by tracing and cache it
-    if len(batch_arguments) > 1:
-        pin_program(program, backend)
+    # Pre-cache the common prefix for a batch. The prefix is extracted by tracing the program.
+    if global_config.enable_precache_with_tracing and len(batch_arguments) > 1:
+        cache_program(program, backend)
     # Run all programs
     if num_threads == "auto":
@@ -154,21 +155,12 @@ def run_program_batch(
     return rets
-def pin_program(program, backend):
-    if global_config.enable_prefix_sharing and program.pin_prefix_rid is None:
-        # TODO: handle multiple backends
-        from sglang.lang.tracer import extract_prefix_by_tracing
+def cache_program(program, backend):
+    from sglang.lang.tracer import extract_prefix_by_tracing
-        prefix = extract_prefix_by_tracing(program, backend)
-        if prefix and len(prefix) > 64:
-            prefix_rid = backend.cache_prefix(prefix)
-            program.pin_prefix_rid = prefix_rid
-            return prefix_rid
-    return None
-def unpin_program(program, backend):
-    pass
+    prefix = extract_prefix_by_tracing(program, backend)
+    if prefix and len(prefix) > 64:
+        backend.cache_prefix(prefix)
 class StreamExecutor:
@@ -195,6 +187,7 @@ class StreamExecutor:
         self.variable_event = {}  # Dict[name: str -> event: threading.Event]
         self.meta_info = {}  # Dict[name: str -> info: str]
         self.is_finished = False
+        self.error = None
         # For completion
         self.text_ = ""  # The full text
@@ -310,17 +303,39 @@ class StreamExecutor:
         self.backend.end_program(self)
     def _thread_worker_func(self):
+        error = None
         while True:
             expr = self.queue.get()
             if expr is None:
                 self.queue.task_done()
                 break
-            self._execute(expr)
+            try:
+                self._execute(expr)
+            except Exception as e:
+                # print(f"Error in stream_executor: {get_exception_traceback()}")
+                error = e
+                break
             self.queue.task_done()
             if self.stream_text_event:
                 self.stream_text_event.set()
+        # Clean the queue and events
+        if error is not None:
+            try:
+                while True:
+                    self.queue.task_done()
+                    self.queue.get_nowait()
+            except queue.Empty:
+                pass
+            for name in self.variable_event:
+                self.variable_event[name].set()
+            if self.stream_var_event:
+                for name in self.stream_var_event:
+                    self.stream_var_event[name].set()
+            self.error = error
         if self.stream_text_event:
             self.stream_text_event.set()
@@ -347,6 +362,8 @@ class StreamExecutor:
             self._execute_role_end(other)
         elif isinstance(other, SglImage):
             self._execute_image(other)
+        elif isinstance(other, SglVideo):
+            self._execute_video(other)
         elif isinstance(other, SglVariable):
             self._execute_variable(other)
         elif isinstance(other, SglVarScopeBegin):
@@ -383,6 +400,16 @@ class StreamExecutor:
         self.cur_images.append((path, base64_data))
         self.text_ += self.chat_template.image_token
+    def _execute_video(self, expr: SglVideo):
+        path = expr.path
+        num_frames = expr.num_frames
+        base64_data = encode_video_base64(path, num_frames)
+        self.images_.append((path, base64_data))
+        self.cur_images.append((path, base64_data))
+        self.text_ += self.chat_template.image_token
         # if global_config.eager_fill_image:
         #     self.backend.fill_image(self)
@@ -681,6 +708,9 @@ class ProgramState:
     def sync(self):
         return self.stream_executor.sync()
+    def error(self):
+        return self.stream_executor.error
     def text_iter(self, var_name: Optional[str] = None):
         if self.stream_executor.stream:
             prev = 0
@@ -769,6 +799,9 @@ class ProgramState:
     def __setitem__(self, name, value):
         self.set_var(name, value)
+    def __contains__(self, name):
+        return name in self.stream_executor.variables
     def __del__(self):
         self.stream_executor.end()

sglang/lang/ir.py CHANGED Viewed

@@ -193,17 +193,11 @@ class SglFunction:
         backend = backend or global_config.default_backend
         return trace_program(self, kwargs, backend)
-    def pin(self, backend=None):
-        from sglang.lang.interpreter import pin_program
+    def cache(self, backend=None):
+        from sglang.lang.interpreter import cache_program
         backend = backend or global_config.default_backend
-        return pin_program(self, backend)
-    def unpin(self, backend=None):
-        from sglang.lang.interpreter import unpin_program
-        backend = backend or global_config.default_backend
-        return unpin_program(self, backend)
+        return cache_program(self, backend)
     def compile(self, *, backend=None):
         from sglang.lang.compiler import compile_func
@@ -336,6 +330,15 @@ class SglImage(SglExpr):
         return f"SglImage({self.path})"
+class SglVideo(SglExpr):
+    def __init__(self, path, num_frames):
+        self.path = path
+        self.num_frames = num_frames
+    def __repr__(self) -> str:
+        return f"SglVideo({self.path}, {self.num_frames})"
 class SglGen(SglExpr):
     def __init__(
         self,

sglang/lang/tracer.py CHANGED Viewed

@@ -110,7 +110,7 @@ class TracerProgramState(ProgramState):
     ##################################
     def fork(self, size: int = 1, position_ids_offset: Optional[List[int]] = None):
-        assert (size >= 1)
+        assert size >= 1
         if self.only_trace_prefix:
             raise StopTracing()

sglang/launch_server.py CHANGED Viewed

@@ -2,11 +2,10 @@ import argparse
 from sglang.srt.server import ServerArgs, launch_server
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     ServerArgs.add_cli_args(parser)
     args = parser.parse_args()
     server_args = ServerArgs.from_cli_args(args)
-    launch_server(server_args, None)
+    launch_server(server_args, None)

sglang/launch_server_llavavid.py ADDED Viewed

@@ -0,0 +1,31 @@
+import argparse
+import multiprocessing as mp
+from sglang.srt.server import ServerArgs, launch_server
+if __name__ == "__main__":
+    model_overide_args = {}
+    model_overide_args["mm_spatial_pool_stride"] = 2
+    model_overide_args["architectures"] = ["LlavaVidForCausalLM"]
+    model_overide_args["num_frames"] = 16
+    model_overide_args["model_type"] = "llavavid"
+    if model_overide_args["num_frames"] == 32:
+        model_overide_args["rope_scaling"] = {"factor": 2.0, "type": "linear"}
+        model_overide_args["max_sequence_length"] = 4096 * 2
+        model_overide_args["tokenizer_model_max_length"] = 4096 * 2
+        model_overide_args["model_max_length"] = 4096 * 2
+    parser = argparse.ArgumentParser()
+    ServerArgs.add_cli_args(parser)
+    args = parser.parse_args()
+    if "34b" in args.model_path.lower():
+        model_overide_args["image_token_index"] = 64002
+    server_args = ServerArgs.from_cli_args(args)
+    pipe_reader, pipe_writer = mp.Pipe(duplex=False)
+    launch_server(server_args, pipe_writer, model_overide_args)

sglang/srt/flush_cache.py ADDED Viewed

@@ -0,0 +1,16 @@
+"""
+Usage:
+python3 -m sglang.srt.flush_cache --url http://localhost:30000
+"""
+import argparse
+import requests
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--url", type=str, default="http://localhost:30000")
+    args = parser.parse_args()
+    response = requests.get(args.url + "/flush_cache")
+    assert response.status_code == 200

sglang/srt/hf_transformers_utils.py CHANGED Viewed

@@ -30,10 +30,17 @@ def get_config_json(model_path: str):
     return config
-def get_config(model: str, trust_remote_code: bool, revision: Optional[str] = None):
+def get_config(
+    model: str,
+    trust_remote_code: bool,
+    revision: Optional[str] = None,
+    model_overide_args: Optional[dict] = None,
+):
     config = AutoConfig.from_pretrained(
         model, trust_remote_code=trust_remote_code, revision=revision
     )
+    if model_overide_args:
+        config.update(model_overide_args)
     return config

sglang/srt/managers/io_struct.py CHANGED Viewed

@@ -8,7 +8,9 @@ from sglang.srt.sampling_params import SamplingParams
 @dataclass
 class GenerateReqInput:
     # The input prompt
-    text: Union[List[str], str]
+    text: Optional[Union[List[str], str]] = None
+    # The token ids for text; one can either specify text or input_ids
+    input_ids: Optional[Union[List[List[int]], List[int]]] = None
     # The image input
     image_data: Optional[Union[List[str], str]] = None
     # The sampling_params
@@ -28,7 +30,17 @@ class GenerateReqInput:
     # TODO: make all parameters a Union[List[T], T] to allow for batched requests
     def post_init(self):
-        is_single = isinstance(self.text, str)
+        if self.text is None:
+            assert self.input_ids is not None, "Either text or input_ids should be provided"
+        else:
+            assert self.input_ids is None, "Either text or input_ids should be provided"
+        if self.text is not None:
+            is_single = isinstance(self.text, str)
+        else:
+            is_single = isinstance(self.input_ids[0], int)
+        self.is_single = is_single
         if is_single:
             if self.sampling_params is None:
@@ -42,7 +54,7 @@ class GenerateReqInput:
             if self.top_logprobs_num is None:
                 self.top_logprobs_num = 0
         else:
-            num = len(self.text)
+            num = len(self.text) if self.text is not None else len(self.input_ids)
             if self.image_data is None:
                 self.image_data = [None] * num

sglang/srt/managers/router/infer_batch.py CHANGED Viewed

@@ -20,6 +20,17 @@ class FinishReason(IntEnum):
     LENGTH = auto()
     STOP_STR = auto()
+    @staticmethod
+    def to_str(reason):
+        if reason == FinishReason.EOS_TOKEN:
+            return None
+        elif reason == FinishReason.LENGTH:
+            return "length"
+        elif reason == FinishReason.STOP_STR:
+            return "stop"
+        else:
+            return None
 class Req:
     def __init__(self, rid, input_text, input_ids):
@@ -85,6 +96,9 @@ class Req:
         )
         if first_token.startswith("▁"):
             old_output_str = " " + old_output_str
+        if self.input_text is None:
+            # TODO(lmzheng): This can be wrong. Check with Liangsheng.
+            self.input_text = self.tokenizer.decode(self.input_ids)
         new_input_string = (
             self.input_text
             + self.output_and_jump_forward_str
@@ -332,20 +346,20 @@ class Batch:
             req = self.reqs[idx]
             retracted_reqs.append(req)
-            self.tree_cache.dec_ref_counter(req.last_node)
+            # TODO: apply more fine-grained retraction
+            last_uncached_pos = len(req.prefix_indices)
+            token_indices = self.req_to_token_pool.req_to_token[
+                req_pool_indices_cpu[idx]
+            ][last_uncached_pos : seq_lens_cpu[idx]]
+            self.token_to_kv_pool.dec_refs(token_indices)
+            self.tree_cache.dec_lock_ref(req.last_node)
             req.prefix_indices = None
             req.last_node = None
             req.extend_input_len = 0
             req.output_ids = []
             req.regex_fsm_state = 0
-            # TODO: apply more fine-grained retraction
-            token_indices = self.req_to_token_pool.req_to_token[
-                req_pool_indices_cpu[idx]
-            ][: seq_lens_cpu[idx]]
-            self.token_to_kv_pool.dec_refs(token_indices)
         self.filter_batch(sorted_indices)
         return retracted_reqs
@@ -364,20 +378,18 @@ class Batch:
                     if len(jump_forward_str) <= 1:
                         continue
-                    # insert the old request into tree_cache
-                    token_ids_in_memory = tuple(req.input_ids + req.output_ids)[:-1]
                     if req_pool_indices_cpu is None:
                         req_pool_indices_cpu = self.req_pool_indices.tolist()
-                    req_pool_idx = req_pool_indices_cpu[i]
-                    indices = self.req_to_token_pool.req_to_token[
-                        req_pool_idx, : len(token_ids_in_memory)
-                    ]
-                    prefix_len = self.tree_cache.insert(
-                        token_ids_in_memory, indices.clone()
+                    # insert the old request into tree_cache
+                    self.tree_cache.cache_req(
+                        token_ids=tuple(req.input_ids + req.output_ids)[:-1],
+                        last_uncached_pos=len(req.prefix_indices),
+                        req_pool_idx=req_pool_indices_cpu[i],
                     )
-                    self.token_to_kv_pool.dec_refs(indices[:prefix_len])
-                    self.req_to_token_pool.free(req_pool_idx)
-                    self.tree_cache.dec_ref_counter(req.last_node)
+                    # unlock the last node
+                    self.tree_cache.dec_lock_ref(req.last_node)
                     # jump-forward
                     req.jump_forward_and_retokenize(jump_forward_str, next_state)

sglang/srt/managers/router/manager.py CHANGED Viewed

@@ -5,7 +5,7 @@ import uvloop
 import zmq
 import zmq.asyncio
-from sglang.srt.backend_config import GLOBAL_BACKEND_CONFIG
+from sglang.global_config import global_config
 from sglang.srt.managers.router.model_rpc import ModelRpcClient
 from sglang.srt.server_args import PortArgs, ServerArgs
 from sglang.srt.utils import get_exception_traceback
@@ -30,7 +30,7 @@ class RouterManager:
         self.recv_reqs = []
         # Init some configs
-        self.extend_dependency_time = GLOBAL_BACKEND_CONFIG.extend_dependency_time
+        self.request_dependency_time = global_config.request_dependency_time
     async def loop_for_forward(self):
         while True:
@@ -46,9 +46,9 @@ class RouterManager:
             if len(out_pyobjs) != 0:
                 has_finished = any([obj.finished for obj in out_pyobjs])
                 if has_finished:
-                    if self.extend_dependency_time > 0:
+                    if self.request_dependency_time > 0:
                         slept = True
-                        await asyncio.sleep(self.extend_dependency_time)
+                        await asyncio.sleep(self.request_dependency_time)
             if not slept:
                 await asyncio.sleep(0.0006)
@@ -60,9 +60,7 @@ class RouterManager:
 def start_router_process(
-    server_args: ServerArgs,
-    port_args: PortArgs,
-    pipe_writer,
+    server_args: ServerArgs, port_args: PortArgs, pipe_writer, model_overide_args
 ):
     logging.basicConfig(
         level=getattr(logging, server_args.log_level.upper()),
@@ -70,7 +68,7 @@ def start_router_process(
     )
     try:
-        model_client = ModelRpcClient(server_args, port_args)
+        model_client = ModelRpcClient(server_args, port_args, model_overide_args)
         router = RouterManager(model_client, port_args)
     except Exception:
         pipe_writer.send(get_exception_traceback())

sglang 0.1.15__py3-none-any.whl → 0.1.16__py3-none-any.whl

sglang 0.1.15py3-none-any.whl → 0.1.16py3-none-any.whl