PyPI - sglang - Versions diffs - 0.1.15__py3-none-any.whl → 0.1.17__py3-none-any.whl - Mend

sglang 0.1.15py3-none-any.whl → 0.1.17py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (69) hide show

sglang/__init__.py +5 -1
sglang/api.py +8 -3
sglang/backend/anthropic.py +1 -1
sglang/backend/litellm.py +90 -0
sglang/backend/openai.py +148 -12
sglang/backend/runtime_endpoint.py +18 -10
sglang/global_config.py +11 -1
sglang/lang/chat_template.py +9 -2
sglang/lang/interpreter.py +161 -81
sglang/lang/ir.py +29 -11
sglang/lang/tracer.py +1 -1
sglang/launch_server.py +1 -2
sglang/launch_server_llavavid.py +31 -0
sglang/srt/constrained/fsm_cache.py +3 -0
sglang/srt/flush_cache.py +16 -0
sglang/srt/hf_transformers_utils.py +83 -2
sglang/srt/layers/extend_attention.py +17 -0
sglang/srt/layers/fused_moe.py +485 -0
sglang/srt/layers/logits_processor.py +12 -7
sglang/srt/layers/radix_attention.py +10 -3
sglang/srt/layers/token_attention.py +16 -1
sglang/srt/managers/controller/dp_worker.py +110 -0
sglang/srt/managers/controller/infer_batch.py +619 -0
sglang/srt/managers/controller/manager_multi.py +191 -0
sglang/srt/managers/controller/manager_single.py +97 -0
sglang/srt/managers/controller/model_runner.py +462 -0
sglang/srt/managers/controller/radix_cache.py +267 -0
sglang/srt/managers/controller/schedule_heuristic.py +59 -0
sglang/srt/managers/controller/tp_worker.py +791 -0
sglang/srt/managers/detokenizer_manager.py +45 -45
sglang/srt/managers/io_struct.py +26 -10
sglang/srt/managers/router/infer_batch.py +130 -74
sglang/srt/managers/router/manager.py +7 -9
sglang/srt/managers/router/model_rpc.py +224 -135
sglang/srt/managers/router/model_runner.py +94 -107
sglang/srt/managers/router/radix_cache.py +54 -18
sglang/srt/managers/router/scheduler.py +23 -34
sglang/srt/managers/tokenizer_manager.py +183 -88
sglang/srt/model_config.py +5 -2
sglang/srt/models/commandr.py +15 -22
sglang/srt/models/dbrx.py +22 -29
sglang/srt/models/gemma.py +14 -24
sglang/srt/models/grok.py +671 -0
sglang/srt/models/llama2.py +24 -23
sglang/srt/models/llava.py +85 -25
sglang/srt/models/llavavid.py +298 -0
sglang/srt/models/mixtral.py +254 -130
sglang/srt/models/mixtral_quant.py +373 -0
sglang/srt/models/qwen.py +28 -25
sglang/srt/models/qwen2.py +17 -22
sglang/srt/models/stablelm.py +21 -26
sglang/srt/models/yivl.py +17 -25
sglang/srt/openai_api_adapter.py +140 -95
sglang/srt/openai_protocol.py +10 -1
sglang/srt/server.py +101 -52
sglang/srt/server_args.py +59 -11
sglang/srt/utils.py +242 -75
sglang/test/test_programs.py +44 -0
sglang/test/test_utils.py +32 -1
sglang/utils.py +95 -26
{sglang-0.1.15.dist-info → sglang-0.1.17.dist-info}/METADATA +23 -13
sglang-0.1.17.dist-info/RECORD +81 -0
sglang/srt/backend_config.py +0 -13
sglang/srt/models/dbrx_config.py +0 -281
sglang/srt/weight_utils.py +0 -402
sglang-0.1.15.dist-info/RECORD +0 -69
{sglang-0.1.15.dist-info → sglang-0.1.17.dist-info}/LICENSE +0 -0
{sglang-0.1.15.dist-info → sglang-0.1.17.dist-info}/WHEEL +0 -0
{sglang-0.1.15.dist-info → sglang-0.1.17.dist-info}/top_level.txt +0 -0

sglang/srt/layers/token_attention.py CHANGED Viewed

@@ -5,7 +5,7 @@ import torch
 import triton
 import triton.language as tl
-from sglang.srt.managers.router.model_runner import global_server_args_dict
+from sglang.srt.managers.controller.model_runner import global_server_args_dict
 from sglang.srt.utils import wrap_kernel_launcher
 if global_server_args_dict.get("attention_reduce_in_fp32", False):
@@ -16,6 +16,12 @@ else:
     REDUCE_TORCH_TYPE = torch.float16
+@triton.jit
+def tanh(x):
+    # Tanh is just a scaled sigmoid
+    return 2 * tl.sigmoid(2 * x) - 1
 @triton.jit
 def _fwd_kernel_stage1(
     Q,
@@ -35,6 +41,7 @@ def _fwd_kernel_stage1(
     kv_group_num: tl.constexpr,
     BLOCK_DMODEL: tl.constexpr,
     BLOCK_N: tl.constexpr,
+    logit_cap: tl.constexpr,
 ):
     cur_batch = tl.program_id(0)
     cur_head = tl.program_id(1)
@@ -77,6 +84,10 @@ def _fwd_kernel_stage1(
         ).to(REDUCE_TRITON_TYPE)
         att_value = tl.sum(q[None, :] * k, 1)
         att_value *= sm_scale
+        if logit_cap > 0:
+            att_value = logit_cap * tanh(att_value / logit_cap)
         off_o = cur_head * att_stride_h + (cur_batch_in_all_start_index + offs_n)
         tl.store(Att_Out + off_o, att_value, mask=offs_n_new < cur_batch_end_index)
@@ -165,6 +176,7 @@ def _token_att_m_fwd(
     B_Start_Loc,
     B_Seqlen,
     max_len_in_batch,
+    logit_cap,
 ):
     BLOCK = 32
     # shape constraints
@@ -223,6 +235,7 @@ def _token_att_m_fwd(
         kv_group_num=kv_group_num,
         BLOCK_DMODEL=Lk,
         BLOCK_N=BLOCK,
+        logit_cap=logit_cap,
         num_warps=num_warps,
         num_stages=1,
     )
@@ -304,6 +317,7 @@ def token_attention_fwd(
     max_len_in_batch,
     other_kv_index,
     total_num_tokens,
+    logit_cap=-1,
     att_m=None,
 ):
     if att_m is None:
@@ -320,6 +334,7 @@ def token_attention_fwd(
         b_start_loc,
         b_seq_len,
         max_len_in_batch,
+        logit_cap,
     )
     _token_softmax_reducev_fwd(
         att_m,

sglang/srt/managers/controller/dp_worker.py ADDED Viewed

@@ -0,0 +1,110 @@
+"""A data parallel worker thread."""
+import asyncio
+import logging
+import queue
+import threading
+from typing import List, Callable
+import uvloop
+import zmq
+from sglang.global_config import global_config
+from sglang.srt.managers.controller.tp_worker import ModelTpClient
+from sglang.srt.managers.io_struct import BatchTokenIDOut
+from sglang.srt.server_args import PortArgs, ServerArgs
+from sglang.srt.utils import kill_parent_process
+from sglang.utils import get_exception_traceback
+logger = logging.getLogger("srt.controller")
+CHECKING_INTERVAL = 5
+asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())
+class DataParallelWorkerThread(threading.Thread):
+    def __init__(
+        self,
+        worker_id: int,
+        request_queue: queue.Queue,
+        detokenizer_port: int,
+        step_func: Callable,
+    ):
+        super(DataParallelWorkerThread, self).__init__()
+        self.worker_id = worker_id
+        self.request_queue = request_queue
+        self.liveness = True
+        self.request_dependency_delay = global_config.request_dependency_delay
+        context = zmq.asyncio.Context()
+        self.send_to_detokenizer = context.socket(zmq.PUSH)
+        self.send_to_detokenizer.connect(f"tcp://127.0.0.1:{detokenizer_port}")
+        self.step = step_func
+    async def loop_for_forward(self):
+        while self.liveness:
+            requests = []
+            while not self.request_queue.empty():
+                requests.append(self.request_queue.get())
+            out_pyobjs: List[BatchTokenIDOut] = []
+            try:
+                out_pyobjs = await self.step(requests)
+            except Exception:
+                for r in requests:
+                    self.request_queue.put(r)
+                logger.error(
+                    f"Worker thread {self.worker_id}: "
+                    f"failed to get back from Model Server\n"
+                    f"{get_exception_traceback()}"
+                )
+                self.liveness = False
+                # Crash the whole server when there are any errors.
+                # TODO(lianmin): make this an option.
+                kill_parent_process()
+                return
+            for obj in out_pyobjs:
+                self.send_to_detokenizer.send_pyobj(obj)
+            # async sleep for receiving the subsequent request and avoiding cache miss
+            if len(out_pyobjs) != 0:
+                has_finished = any([obj.finished_reason is not None for obj in out_pyobjs])
+                if has_finished:
+                    await asyncio.sleep(self.request_dependency_delay)
+            await asyncio.sleep(global_config.wait_for_new_request_delay)
+    async def monitoring(self):
+        while True:
+            await asyncio.sleep(CHECKING_INTERVAL)
+            # can plug in monitoring logic here
+    def run(self):
+        logger.info(f"DataParallelWorkerThread {self.worker_id} start")
+        loop = asyncio.new_event_loop()
+        asyncio.set_event_loop(loop)
+        loop.create_task(self.monitoring())
+        loop.run_until_complete(self.loop_for_forward())
+def start_data_parallel_worker(
+    server_args: ServerArgs,
+    port_args: PortArgs,
+    model_overide_args,
+    gpu_ids: List[int],
+    worker_id: int,
+):
+    model_tp_client = ModelTpClient(
+        gpu_ids,
+        server_args,
+        port_args.model_port_args[worker_id],
+        model_overide_args,
+    )
+    worker_thread = DataParallelWorkerThread(
+        worker_id=worker_id,
+        request_queue=queue.Queue(),
+        detokenizer_port=port_args.detokenizer_port,
+        step_func=model_tp_client.step,
+    )
+    worker_thread.start()
+    return worker_thread

sglang 0.1.15__py3-none-any.whl → 0.1.17__py3-none-any.whl

sglang 0.1.15py3-none-any.whl → 0.1.17py3-none-any.whl