PyPI - sglang - Versions diffs - 0.1.15__py3-none-any.whl → 0.1.17__py3-none-any.whl - Mend

sglang 0.1.15py3-none-any.whl → 0.1.17py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (69) hide show

sglang/__init__.py +5 -1
sglang/api.py +8 -3
sglang/backend/anthropic.py +1 -1
sglang/backend/litellm.py +90 -0
sglang/backend/openai.py +148 -12
sglang/backend/runtime_endpoint.py +18 -10
sglang/global_config.py +11 -1
sglang/lang/chat_template.py +9 -2
sglang/lang/interpreter.py +161 -81
sglang/lang/ir.py +29 -11
sglang/lang/tracer.py +1 -1
sglang/launch_server.py +1 -2
sglang/launch_server_llavavid.py +31 -0
sglang/srt/constrained/fsm_cache.py +3 -0
sglang/srt/flush_cache.py +16 -0
sglang/srt/hf_transformers_utils.py +83 -2
sglang/srt/layers/extend_attention.py +17 -0
sglang/srt/layers/fused_moe.py +485 -0
sglang/srt/layers/logits_processor.py +12 -7
sglang/srt/layers/radix_attention.py +10 -3
sglang/srt/layers/token_attention.py +16 -1
sglang/srt/managers/controller/dp_worker.py +110 -0
sglang/srt/managers/controller/infer_batch.py +619 -0
sglang/srt/managers/controller/manager_multi.py +191 -0
sglang/srt/managers/controller/manager_single.py +97 -0
sglang/srt/managers/controller/model_runner.py +462 -0
sglang/srt/managers/controller/radix_cache.py +267 -0
sglang/srt/managers/controller/schedule_heuristic.py +59 -0
sglang/srt/managers/controller/tp_worker.py +791 -0
sglang/srt/managers/detokenizer_manager.py +45 -45
sglang/srt/managers/io_struct.py +26 -10
sglang/srt/managers/router/infer_batch.py +130 -74
sglang/srt/managers/router/manager.py +7 -9
sglang/srt/managers/router/model_rpc.py +224 -135
sglang/srt/managers/router/model_runner.py +94 -107
sglang/srt/managers/router/radix_cache.py +54 -18
sglang/srt/managers/router/scheduler.py +23 -34
sglang/srt/managers/tokenizer_manager.py +183 -88
sglang/srt/model_config.py +5 -2
sglang/srt/models/commandr.py +15 -22
sglang/srt/models/dbrx.py +22 -29
sglang/srt/models/gemma.py +14 -24
sglang/srt/models/grok.py +671 -0
sglang/srt/models/llama2.py +24 -23
sglang/srt/models/llava.py +85 -25
sglang/srt/models/llavavid.py +298 -0
sglang/srt/models/mixtral.py +254 -130
sglang/srt/models/mixtral_quant.py +373 -0
sglang/srt/models/qwen.py +28 -25
sglang/srt/models/qwen2.py +17 -22
sglang/srt/models/stablelm.py +21 -26
sglang/srt/models/yivl.py +17 -25
sglang/srt/openai_api_adapter.py +140 -95
sglang/srt/openai_protocol.py +10 -1
sglang/srt/server.py +101 -52
sglang/srt/server_args.py +59 -11
sglang/srt/utils.py +242 -75
sglang/test/test_programs.py +44 -0
sglang/test/test_utils.py +32 -1
sglang/utils.py +95 -26
{sglang-0.1.15.dist-info → sglang-0.1.17.dist-info}/METADATA +23 -13
sglang-0.1.17.dist-info/RECORD +81 -0
sglang/srt/backend_config.py +0 -13
sglang/srt/models/dbrx_config.py +0 -281
sglang/srt/weight_utils.py +0 -402
sglang-0.1.15.dist-info/RECORD +0 -69
{sglang-0.1.15.dist-info → sglang-0.1.17.dist-info}/LICENSE +0 -0
{sglang-0.1.15.dist-info → sglang-0.1.17.dist-info}/WHEEL +0 -0
{sglang-0.1.15.dist-info → sglang-0.1.17.dist-info}/top_level.txt +0 -0

sglang/lang/interpreter.py CHANGED Viewed

@@ -6,6 +6,7 @@ import multiprocessing
 import queue
 import threading
 import uuid
+import warnings
 from concurrent.futures import ThreadPoolExecutor
 from contextlib import contextmanager
 from typing import Any, Callable, Dict, List, Optional, Union
@@ -28,8 +29,13 @@ from sglang.lang.ir import (
     SglVariable,
     SglVarScopeBegin,
     SglVarScopeEnd,
+    SglVideo,
+)
+from sglang.utils import (
+    encode_image_base64,
+    encode_video_base64,
+    get_exception_traceback,
 )
-from sglang.utils import encode_image_base64
 def run_internal(state, program, func_args, func_kwargs, sync):
@@ -60,7 +66,7 @@ def run_program(
         default_sampling_para,
         chat_template=None,
         stream=stream,
-        api_num_spec_tokens=program.api_num_spec_tokens,
+        num_api_spec_tokens=program.num_api_spec_tokens,
     )
     state = ProgramState(stream_executor)
@@ -86,9 +92,9 @@ def run_program_batch(
     if hasattr(backend, "endpoint"):
         backend = backend.endpoint
-    # Extract prefix by tracing and cache it
-    if len(batch_arguments) > 1:
-        pin_program(program, backend)
+    # Pre-cache the common prefix for a batch. The prefix is extracted by tracing the program.
+    if global_config.enable_precache_with_tracing and len(batch_arguments) > 1:
+        cache_program(program, backend)
     # Run all programs
     if num_threads == "auto":
@@ -154,21 +160,12 @@ def run_program_batch(
     return rets
-def pin_program(program, backend):
-    if global_config.enable_prefix_sharing and program.pin_prefix_rid is None:
-        # TODO: handle multiple backends
-        from sglang.lang.tracer import extract_prefix_by_tracing
-        prefix = extract_prefix_by_tracing(program, backend)
-        if prefix and len(prefix) > 64:
-            prefix_rid = backend.cache_prefix(prefix)
-            program.pin_prefix_rid = prefix_rid
-            return prefix_rid
-    return None
+def cache_program(program, backend):
+    from sglang.lang.tracer import extract_prefix_by_tracing
-def unpin_program(program, backend):
-    pass
+    prefix = extract_prefix_by_tracing(program, backend)
+    if prefix and len(prefix) > 64:
+        backend.cache_prefix(prefix)
 class StreamExecutor:
@@ -181,7 +178,7 @@ class StreamExecutor:
         default_sampling_para,
         chat_template,
         stream,
-        api_num_spec_tokens=None,
+        num_api_spec_tokens=None,
         use_thread=True,
     ):
         self.sid = uuid.uuid4().hex
@@ -189,19 +186,16 @@ class StreamExecutor:
         self.arguments: Dict[str, Any] = arguments
         self.default_sampling_para = default_sampling_para
         self.stream = stream
-        self.api_num_spec_tokens = api_num_spec_tokens
         self.variables = {}  # Dict[name: str -> value: str]
         self.variable_event = {}  # Dict[name: str -> event: threading.Event]
         self.meta_info = {}  # Dict[name: str -> info: str]
         self.is_finished = False
+        self.error_ = None
         # For completion
         self.text_ = ""  # The full text
-        # For speculative execution
-        self.speculated_text = ""
         # For chat
         self.messages_ = []  # The messages in the OpenAI API format
         self.chat_template = chat_template or self.backend.get_chat_template()
@@ -215,6 +209,10 @@ class StreamExecutor:
         # For fork/join
         self.fork_start_text_pos = None
+        # For speculative execution
+        self.num_api_spec_tokens = num_api_spec_tokens
+        self.speculated_text = ""
         # Worker thread
         self.use_thread = use_thread
         if self.use_thread:
@@ -293,6 +291,8 @@ class StreamExecutor:
             exes[i].fork_start_text_pos = len(self.text_)
             exes[i].images_ = list(self.images_)
+            # TODO(ying): handle API speculative execution
         return exes
     def text(self):
@@ -303,6 +303,10 @@ class StreamExecutor:
         self.sync()
         return self.messages_
+    def error(self):
+        self.sync()
+        return self.error_
     def end(self):
         if self.use_thread:
             if self.worker.is_alive():
@@ -310,17 +314,39 @@ class StreamExecutor:
         self.backend.end_program(self)
     def _thread_worker_func(self):
+        error = None
         while True:
             expr = self.queue.get()
             if expr is None:
                 self.queue.task_done()
                 break
-            self._execute(expr)
+            try:
+                self._execute(expr)
+            except Exception as e:
+                warnings.warn(f"Error in stream_executor: {get_exception_traceback()}")
+                error = e
+                break
             self.queue.task_done()
             if self.stream_text_event:
                 self.stream_text_event.set()
+        # Clean the queue and events
+        if error is not None:
+            try:
+                while True:
+                    self.queue.task_done()
+                    self.queue.get_nowait()
+            except queue.Empty:
+                pass
+            for name in self.variable_event:
+                self.variable_event[name].set()
+            if self.stream_var_event:
+                for name in self.stream_var_event:
+                    self.stream_var_event[name].set()
+            self.error_ = error
         if self.stream_text_event:
             self.stream_text_event.set()
@@ -347,6 +373,8 @@ class StreamExecutor:
             self._execute_role_end(other)
         elif isinstance(other, SglImage):
             self._execute_image(other)
+        elif isinstance(other, SglVideo):
+            self._execute_video(other)
         elif isinstance(other, SglVariable):
             self._execute_variable(other)
         elif isinstance(other, SglVarScopeBegin):
@@ -366,12 +394,23 @@ class StreamExecutor:
         else:
             raise ValueError(f"Unknown type: {type(other)}")
-    def _execute_fill(self, value: str):
+    def _execute_fill(self, value: str, prefix=False):
         value = str(value)
+        if (
+            self.cur_role == "assistant"
+            and self.num_api_spec_tokens is not None
+            and self.backend.is_chat_model
+            and not prefix
+        ):
+            self.backend.spec_fill(value)
+            return
         if self.speculated_text.startswith(value):
             self.speculated_text = self.speculated_text[len(value) :]
         else:
             self.speculated_text = ""
         self.text_ += value
     def _execute_image(self, expr: SglImage):
@@ -383,68 +422,93 @@ class StreamExecutor:
         self.cur_images.append((path, base64_data))
         self.text_ += self.chat_template.image_token
+    def _execute_video(self, expr: SglVideo):
+        path = expr.path
+        num_frames = expr.num_frames
+        base64_data = encode_video_base64(path, num_frames)
+        self.images_.append((path, base64_data))
+        self.cur_images.append((path, base64_data))
+        self.text_ += self.chat_template.image_token
         # if global_config.eager_fill_image:
         #     self.backend.fill_image(self)
+    def _spec_gen(self, sampling_params):
+        stop = sampling_params.stop
+        max_new_tokens = sampling_params.max_new_tokens
+        meta_info = {}
+        def regen():
+            nonlocal meta_info
+            sampling_params.max_new_tokens = max(
+                sampling_params.max_new_tokens, self.num_api_spec_tokens
+            )
+            sampling_params.stop = None
+            self.speculated_text, meta_info = self.backend.generate(
+                self, sampling_params=sampling_params
+            )
+        def find_stop():
+            if isinstance(stop, str):
+                return self.speculated_text.find(stop)
+            elif isinstance(stop, (tuple, list)):
+                pos = -1
+                for stop_str in stop:
+                    stop_pos = self.speculated_text.find(stop_str)
+                    if stop_pos != -1 and (pos == -1 or stop_pos < pos):
+                        pos = stop_pos
+                return pos
+            else:
+                raise Exception("Wrong type of stop in sampling parameters.")
+        if stop is None:
+            if len(self.speculated_text) < max_new_tokens:
+                regen()
+            comp = self.speculated_text[:max_new_tokens]
+            self.speculated_text = self.speculated_text[max_new_tokens:]
+        elif isinstance(stop, (str, list, tuple)):
+            if self.speculated_text == "":
+                regen()
+            stop_pos = find_stop()
+            if stop_pos == -1:
+                stop_pos = min(
+                    sampling_params.max_new_tokens,
+                    len(self.speculated_text),
+                )
+            comp = self.speculated_text[:stop_pos]
+            self.speculated_text = self.speculated_text[stop_pos:]
+        else:
+            raise ValueError("Wrong type of stop in sampling parameters.")
+        return comp, meta_info
     def _execute_gen(self, expr: SglGen):
         sampling_params = self._resolve_sampling_params(expr.sampling_params)
         name = expr.name
         if not self.stream:
-            if self.api_num_spec_tokens is not None:
-                stop = sampling_params.stop
-                max_new_tokens = sampling_params.max_new_tokens
-                meta_info = {}
-                def regen():
-                    sampling_params.max_new_tokens = max(
-                        sampling_params.max_new_tokens, self.api_num_spec_tokens
-                    )
-                    sampling_params.stop = None
-                    self.speculated_text, meta_info = self.backend.generate(
-                        self, sampling_params=sampling_params
-                    )
-                def find_stop():
-                    if isinstance(stop, str):
-                        return self.speculated_text.find(stop), len(stop)
-                    elif isinstance(stop, (tuple, list)):
-                        pos = -1
-                        stop_len = 0
-                        for stop_str in stop:
-                            stop_pos = self.speculated_text.find(stop_str)
-                            if stop_pos != -1 and (pos == -1 or stop_pos < pos):
-                                pos = stop_pos
-                                stop_len = len(stop_str)
-                        return pos, stop_len
-                    else:
-                        raise Exception("Wrong type of stop in sampling parameters.")
-                if stop is None:
-                    if len(self.speculated_text) < max_new_tokens:
-                        regen()
-                    comp = self.speculated_text[:max_new_tokens]
-                    self.speculated_text = self.speculated_text[max_new_tokens:]
-                elif isinstance(stop, (str, list, tuple)):
-                    if self.speculated_text == "":
-                        regen()
-                    stop_pos, stop_len = find_stop()
-                    if stop_pos == -1:
-                        stop_pos, stop_len = (
-                            min(
-                                sampling_params.max_new_tokens,
-                                len(self.speculated_text),
-                            ),
-                            0,
-                        )
-                    comp = self.speculated_text[:stop_pos]
-                    self.speculated_text = self.speculated_text[stop_pos:]
-                else:
-                    raise ValueError("Wrong type of stop in sampling parameters.")
-            else:
+            if self.num_api_spec_tokens is None:
                 comp, meta_info = self.backend.generate(
-                    self, sampling_params=sampling_params
+                    self,
+                    sampling_params=sampling_params,
                 )
+            else:
+                if self.backend.is_chat_model:
+                    # Speculative execution on models with only chat interface.
+                    # Store the calls into a temporary list.
+                    # They will be lazily executed later.
+                    comp, meta_info = self.backend.generate(
+                        self,
+                        sampling_params=sampling_params,
+                        spec_var_name=name,
+                    )
+                    return
+                else: # Speculative execution on models with completion interface
+                    comp, meta_info = self._spec_gen(sampling_params)
             self.text_ += comp
@@ -452,6 +516,9 @@ class StreamExecutor:
             self.meta_info[name] = meta_info
             self.variable_event[name].set()
         else:
+            assert (
+                self.num_api_spec_tokens is None
+            ), "stream is not supported with api speculative execution"
             generator = self.backend.generate_stream(
                 self, sampling_params=sampling_params
             )
@@ -507,10 +574,19 @@ class StreamExecutor:
         prefix, _ = self.chat_template.get_prefix_and_suffix(expr.role, self.messages_)
-        self._execute_fill(prefix)
+        self._execute_fill(prefix, prefix=True)
         self.cur_role_begin_pos = len(self.text_)
     def _execute_role_end(self, expr: SglRoleEnd):
+        if (
+            self.cur_role == "assistant"
+            and self.num_api_spec_tokens is not None
+            and self.backend.is_chat_model
+        ):
+            # Execute the stored lazy generation calls
+            self.backend.role_end_generate(self)
+        self.cur_role = None
         new_text = self.text_[self.cur_role_begin_pos :].lstrip()
         _, suffix = self.chat_template.get_prefix_and_suffix(expr.role, self.messages_)
@@ -537,8 +613,6 @@ class StreamExecutor:
             # OpenAI chat API format
             self.messages_.append({"role": expr.role, "content": new_text})
-        self.cur_role = None
     def _execute_var_scope_begin(self, expr: SglVarScopeBegin):
         self.variables[expr.name] = int(len(self.text_))
@@ -681,6 +755,9 @@ class ProgramState:
     def sync(self):
         return self.stream_executor.sync()
+    def error(self):
+        return self.stream_executor.error()
     def text_iter(self, var_name: Optional[str] = None):
         if self.stream_executor.stream:
             prev = 0
@@ -769,6 +846,9 @@ class ProgramState:
     def __setitem__(self, name, value):
         self.set_var(name, value)
+    def __contains__(self, name):
+        return name in self.stream_executor.variables
     def __del__(self):
         self.stream_executor.end()

sglang/lang/ir.py CHANGED Viewed

@@ -81,6 +81,21 @@ class SglSamplingParams:
             "top_p": self.top_p,
             "top_k": self.top_k,
         }
+    def to_litellm_kwargs(self):
+        if self.regex is not None:
+            warnings.warn(
+                "Regular expression is not supported in the LiteLLM backend."
+            )
+        return {
+            "max_tokens": self.max_new_tokens,
+            "stop": self.stop or None,
+            "temperature": self.temperature,
+            "top_p": self.top_p,
+            "top_k": self.top_k,
+            "frequency_penalty": self.frequency_penalty,
+            "presence_penalty": self.presence_penalty,
+        }
     def to_srt_kwargs(self):
         return {
@@ -97,9 +112,9 @@ class SglSamplingParams:
 class SglFunction:
-    def __init__(self, func, api_num_spec_tokens=None, bind_arguments=None):
+    def __init__(self, func, num_api_spec_tokens=None, bind_arguments=None):
         self.func = func
-        self.api_num_spec_tokens = api_num_spec_tokens
+        self.num_api_spec_tokens = num_api_spec_tokens
         self.bind_arguments = bind_arguments or {}
         self.pin_prefix_rid = None
@@ -193,17 +208,11 @@ class SglFunction:
         backend = backend or global_config.default_backend
         return trace_program(self, kwargs, backend)
-    def pin(self, backend=None):
-        from sglang.lang.interpreter import pin_program
-        backend = backend or global_config.default_backend
-        return pin_program(self, backend)
-    def unpin(self, backend=None):
-        from sglang.lang.interpreter import unpin_program
+    def cache(self, backend=None):
+        from sglang.lang.interpreter import cache_program
         backend = backend or global_config.default_backend
-        return unpin_program(self, backend)
+        return cache_program(self, backend)
     def compile(self, *, backend=None):
         from sglang.lang.compiler import compile_func
@@ -336,6 +345,15 @@ class SglImage(SglExpr):
         return f"SglImage({self.path})"
+class SglVideo(SglExpr):
+    def __init__(self, path, num_frames):
+        self.path = path
+        self.num_frames = num_frames
+    def __repr__(self) -> str:
+        return f"SglVideo({self.path}, {self.num_frames})"
 class SglGen(SglExpr):
     def __init__(
         self,

sglang/lang/tracer.py CHANGED Viewed

@@ -110,7 +110,7 @@ class TracerProgramState(ProgramState):
     ##################################
     def fork(self, size: int = 1, position_ids_offset: Optional[List[int]] = None):
-        assert (size >= 1)
+        assert size >= 1
         if self.only_trace_prefix:
             raise StopTracing()

sglang/launch_server.py CHANGED Viewed

@@ -2,11 +2,10 @@ import argparse
 from sglang.srt.server import ServerArgs, launch_server
 if __name__ == "__main__":
     parser = argparse.ArgumentParser()
     ServerArgs.add_cli_args(parser)
     args = parser.parse_args()
     server_args = ServerArgs.from_cli_args(args)
-    launch_server(server_args, None)
+    launch_server(server_args, None)

sglang/launch_server_llavavid.py ADDED Viewed

@@ -0,0 +1,31 @@
+import argparse
+import multiprocessing as mp
+from sglang.srt.server import ServerArgs, launch_server
+if __name__ == "__main__":
+    model_overide_args = {}
+    model_overide_args["mm_spatial_pool_stride"] = 2
+    model_overide_args["architectures"] = ["LlavaVidForCausalLM"]
+    model_overide_args["num_frames"] = 16
+    model_overide_args["model_type"] = "llavavid"
+    if model_overide_args["num_frames"] == 32:
+        model_overide_args["rope_scaling"] = {"factor": 2.0, "type": "linear"}
+        model_overide_args["max_sequence_length"] = 4096 * 2
+        model_overide_args["tokenizer_model_max_length"] = 4096 * 2
+        model_overide_args["model_max_length"] = 4096 * 2
+    parser = argparse.ArgumentParser()
+    ServerArgs.add_cli_args(parser)
+    args = parser.parse_args()
+    if "34b" in args.model_path.lower():
+        model_overide_args["image_token_index"] = 64002
+    server_args = ServerArgs.from_cli_args(args)
+    pipe_reader, pipe_writer = mp.Pipe(duplex=False)
+    launch_server(server_args, pipe_writer, model_overide_args)

sglang/srt/constrained/fsm_cache.py CHANGED Viewed

@@ -6,6 +6,9 @@ class FSMCache(BaseCache):
     def __init__(self, tokenizer_path, tokenizer_args_dict, enable=True):
         super().__init__(enable=enable)
+        if tokenizer_path.endswith(".json"):
+            return
         from importlib.metadata import version
         if version("outlines") >= "0.0.35":

sglang/srt/flush_cache.py ADDED Viewed

@@ -0,0 +1,16 @@
+"""
+Usage:
+python3 -m sglang.srt.flush_cache --url http://localhost:30000
+"""
+import argparse
+import requests
+if __name__ == "__main__":
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--url", type=str, default="http://localhost:30000")
+    args = parser.parse_args()
+    response = requests.get(args.url + "/flush_cache")
+    assert response.status_code == 200

sglang/srt/hf_transformers_utils.py CHANGED Viewed

@@ -3,7 +3,8 @@
 import json
 import os
 import warnings
-from typing import List, Optional, Tuple, Union
+import functools
+from typing import Optional, Union, AbstractSet, Collection, Literal
 from huggingface_hub import snapshot_download
 from transformers import (
@@ -30,10 +31,17 @@ def get_config_json(model_path: str):
     return config
-def get_config(model: str, trust_remote_code: bool, revision: Optional[str] = None):
+def get_config(
+    model: str,
+    trust_remote_code: bool,
+    revision: Optional[str] = None,
+    model_overide_args: Optional[dict] = None,
+):
     config = AutoConfig.from_pretrained(
         model, trust_remote_code=trust_remote_code, revision=revision
     )
+    if model_overide_args:
+        config.update(model_overide_args)
     return config
@@ -77,6 +85,9 @@ def get_tokenizer(
     tokenizer_revision: Optional[str] = None,
     **kwargs,
 ) -> Union[PreTrainedTokenizer, PreTrainedTokenizerFast]:
+    if tokenizer_name.endswith(".json"):
+        return TiktokenTokenizer(tokenizer_name)
     """Gets a tokenizer for the given model name via Huggingface."""
     if is_multimodal_model(tokenizer_name):
         processor = get_processor(
@@ -163,3 +174,73 @@ def get_processor(
         **kwargs,
     )
     return processor
+class TiktokenTokenizer:
+    def __init__(self, tokenizer_path):
+        import tiktoken
+        PAT_STR_B = r"""(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^\r\n\p{L}\p{N}]?\p{L}+|\p{N}| ?[^\s\p{L}\p{N}]+[\r\n]*|\s*[\r\n]+|\s+(?!\S)|\s+"""
+        # Read JSON
+        name = "tmp-json"
+        with open(tokenizer_path, "rb") as fin:
+            tok_dict = json.load(fin)
+        mergeable_ranks = {
+            bytes(item["bytes"]): item["token"] for item in tok_dict["regular_tokens"]
+        }
+        special_tokens = {
+            bytes(item["bytes"]).decode(): item["token"] for item in tok_dict["special_tokens"]
+        }
+        assert tok_dict["word_split"] == "V1"
+        kwargs = {
+            "name": name,
+            "pat_str": tok_dict.get("pat_str", PAT_STR_B),
+            "mergeable_ranks": mergeable_ranks,
+            "special_tokens": special_tokens,
+        }
+        if "default_allowed_special" in tok_dict:
+            default_allowed_special = set(
+                [bytes(bytes_list).decode() for bytes_list in tok_dict["default_allowed_special"]]
+            )
+        else:
+            default_allowed_special = None
+        if "vocab_size" in tok_dict:
+            kwargs["explicit_n_vocab"] = tok_dict["vocab_size"]
+        tokenizer = tiktoken.Encoding(**kwargs)
+        tokenizer._default_allowed_special = default_allowed_special or set()
+        def encode_patched(
+            self,
+            text: str,
+            *,
+            allowed_special: Union[Literal["all"], AbstractSet[str]] = set(),  # noqa: B006
+            disallowed_special: Union[Literal["all"], Collection[str]] = "all",
+        ) -> list[int]:
+            if isinstance(allowed_special, set):
+                allowed_special |= self._default_allowed_special
+            return tiktoken.Encoding.encode(
+                self, text, allowed_special=allowed_special, disallowed_special=disallowed_special
+            )
+        tokenizer.encode = functools.partial(encode_patched, tokenizer)
+        # Convert to HF interface
+        self.tokenizer = tokenizer
+        self.eos_token_id = tokenizer._special_tokens["<|eos|>"]
+        self.vocab_size = tokenizer.n_vocab
+    def encode(self, x, add_special_tokens=False):
+        return self.tokenizer.encode(x)
+    def decode(self, x):
+        return self.tokenizer.decode(x)
+    def batch_decode(self, batch, skip_special_tokens=True,  spaces_between_special_tokens=False):
+        if isinstance(batch[0], int):
+            batch = [[x] for x in batch]
+        return self.tokenizer.decode_batch(batch)
+    def convert_ids_to_tokens(self, index):
+        return self.tokenizer.decode_single_token_bytes(index).decode("utf-8", errors="ignore")

sglang 0.1.15__py3-none-any.whl → 0.1.17__py3-none-any.whl

sglang 0.1.15py3-none-any.whl → 0.1.17py3-none-any.whl