PyPI - sglang - Versions diffs - 0.3.3.post1__py3-none-any.whl → 0.3.4__py3-none-any.whl - Mend

sglang 0.3.3.post1py3-none-any.whl → 0.3.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (74) hide show

sglang/bench_latency.py +28 -10
sglang/bench_server_latency.py +21 -10
sglang/bench_serving.py +101 -7
sglang/global_config.py +0 -1
sglang/srt/layers/attention/__init__.py +27 -5
sglang/srt/layers/attention/double_sparsity_backend.py +281 -0
sglang/srt/layers/attention/flashinfer_backend.py +352 -83
sglang/srt/layers/attention/triton_backend.py +6 -4
sglang/srt/layers/attention/triton_ops/double_sparsity_attention.py +772 -0
sglang/srt/layers/attention/triton_ops/extend_attention.py +5 -3
sglang/srt/layers/attention/triton_ops/prefill_attention.py +4 -2
sglang/srt/layers/sampler.py +6 -2
sglang/srt/managers/detokenizer_manager.py +31 -10
sglang/srt/managers/io_struct.py +4 -0
sglang/srt/managers/schedule_batch.py +120 -43
sglang/srt/managers/schedule_policy.py +2 -1
sglang/srt/managers/scheduler.py +202 -140
sglang/srt/managers/tokenizer_manager.py +5 -1
sglang/srt/managers/tp_worker.py +111 -1
sglang/srt/mem_cache/chunk_cache.py +8 -4
sglang/srt/mem_cache/memory_pool.py +77 -4
sglang/srt/mem_cache/radix_cache.py +15 -7
sglang/srt/model_executor/cuda_graph_runner.py +4 -4
sglang/srt/model_executor/forward_batch_info.py +16 -21
sglang/srt/model_executor/model_runner.py +60 -1
sglang/srt/models/baichuan.py +2 -3
sglang/srt/models/chatglm.py +5 -6
sglang/srt/models/commandr.py +1 -2
sglang/srt/models/dbrx.py +1 -2
sglang/srt/models/deepseek.py +4 -5
sglang/srt/models/deepseek_v2.py +5 -6
sglang/srt/models/exaone.py +1 -2
sglang/srt/models/gemma.py +2 -2
sglang/srt/models/gemma2.py +5 -5
sglang/srt/models/gpt_bigcode.py +5 -5
sglang/srt/models/grok.py +1 -2
sglang/srt/models/internlm2.py +1 -2
sglang/srt/models/llama.py +1 -2
sglang/srt/models/llama_classification.py +1 -2
sglang/srt/models/llama_reward.py +2 -3
sglang/srt/models/llava.py +4 -8
sglang/srt/models/llavavid.py +1 -2
sglang/srt/models/minicpm.py +1 -2
sglang/srt/models/minicpm3.py +5 -6
sglang/srt/models/mixtral.py +1 -2
sglang/srt/models/mixtral_quant.py +1 -2
sglang/srt/models/olmo.py +352 -0
sglang/srt/models/olmoe.py +1 -2
sglang/srt/models/qwen.py +1 -2
sglang/srt/models/qwen2.py +1 -2
sglang/srt/models/qwen2_moe.py +4 -5
sglang/srt/models/stablelm.py +1 -2
sglang/srt/models/torch_native_llama.py +1 -2
sglang/srt/models/xverse.py +1 -2
sglang/srt/models/xverse_moe.py +4 -5
sglang/srt/models/yivl.py +1 -2
sglang/srt/openai_api/adapter.py +92 -49
sglang/srt/openai_api/protocol.py +10 -2
sglang/srt/sampling/penaltylib/orchestrator.py +28 -9
sglang/srt/sampling/sampling_batch_info.py +92 -58
sglang/srt/sampling/sampling_params.py +2 -0
sglang/srt/server.py +116 -17
sglang/srt/server_args.py +121 -45
sglang/srt/utils.py +11 -3
sglang/test/few_shot_gsm8k.py +4 -1
sglang/test/few_shot_gsm8k_engine.py +144 -0
sglang/test/srt/sampling/penaltylib/utils.py +16 -12
sglang/version.py +1 -1
{sglang-0.3.3.post1.dist-info → sglang-0.3.4.dist-info}/METADATA +72 -29
{sglang-0.3.3.post1.dist-info → sglang-0.3.4.dist-info}/RECORD +73 -70
{sglang-0.3.3.post1.dist-info → sglang-0.3.4.dist-info}/WHEEL +1 -1
sglang/srt/layers/attention/flashinfer_utils.py +0 -237
{sglang-0.3.3.post1.dist-info → sglang-0.3.4.dist-info}/LICENSE +0 -0
{sglang-0.3.3.post1.dist-info → sglang-0.3.4.dist-info}/top_level.txt +0 -0

sglang/srt/layers/attention/flashinfer_utils.py DELETED Viewed

@@ -1,237 +0,0 @@
-from enum import Enum, auto
-import torch
-import triton
-import triton.language as tl
-class WrapperDispatch(Enum):
-    SLIDING_WINDOW = auto()
-    CROSS_ATTENTION = auto()
-@triton.jit
-def create_flashinfer_kv_indices_triton(
-    req_to_token_ptr,  # [max_batch, max_context_len]
-    req_pool_indices_ptr,
-    page_kernel_lens_ptr,
-    kv_indptr,
-    kv_start_idx,
-    kv_indices_ptr,
-    max_context_len: tl.constexpr,
-):
-    BLOCK_SIZE: tl.constexpr = 512
-    pid = tl.program_id(axis=0)
-    req_pool_index = tl.load(req_pool_indices_ptr + pid)
-    kv_indices_offset = tl.load(kv_indptr + pid)
-    kv_start = 0
-    kv_end = 0
-    if kv_start_idx:
-        kv_start = tl.load(kv_start_idx + pid).to(tl.int32)
-        kv_end = kv_start
-    kv_end += tl.load(page_kernel_lens_ptr + pid).to(tl.int32)
-    req_to_token_ptr += req_pool_index * max_context_len
-    kv_indices_ptr += kv_indices_offset
-    ld_offset = kv_start + tl.arange(0, BLOCK_SIZE)
-    st_offset = tl.arange(0, BLOCK_SIZE)
-    num_loop = tl.cdiv(kv_end - kv_start, BLOCK_SIZE)
-    for _ in range(num_loop):
-        mask = ld_offset < kv_end
-        data = tl.load(req_to_token_ptr + ld_offset, mask=mask)
-        tl.store(kv_indices_ptr + st_offset, data, mask=mask)
-        ld_offset += BLOCK_SIZE
-        st_offset += BLOCK_SIZE
-class FlashinferUpdater:
-    def __init__(
-        self,
-        forward_mode,
-        model_runner,
-        req_pool_indices,
-        seq_lens,
-        prefix_lens,
-        decode_wrappers=None,
-        use_ragged=False,
-    ):
-        self.forward_mode = forward_mode
-        self.model_runner = model_runner
-        self.req_pool_indices = req_pool_indices
-        self.seq_lens = seq_lens
-        self.prefix_lens = prefix_lens
-        self.use_ragged = use_ragged
-        self.num_qo_heads = (
-            model_runner.model_config.num_attention_heads // model_runner.tp_size
-        )
-        self.num_kv_heads = model_runner.model_config.get_num_kv_heads(
-            model_runner.tp_size
-        )
-        self.head_dim = model_runner.model_config.head_dim
-        self.batch_size = len(req_pool_indices)
-        self.decode_wrappers = (
-            decode_wrappers or self.model_runner.attn_backend.decode_wrappers
-        )
-        self.prefill_wrapper_ragged = (
-            self.model_runner.attn_backend.prefill_wrapper_ragged
-        )
-        self.prefill_wrappers_paged = (
-            self.model_runner.attn_backend.prefill_wrappers_paged
-        )
-        self.kv_last_page_len = torch.ones(
-            (self.batch_size,), dtype=torch.int32, device="cuda"
-        )
-    def _update_decode_indices(self, decode_wrapper):
-        assert not isinstance(decode_wrapper, list)
-        decode_wrapper.end_forward()
-        decode_wrapper.begin_forward(
-            self.kv_indptr,
-            self.kv_indices,
-            self.kv_last_page_len,
-            self.num_qo_heads,
-            self.num_kv_heads,
-            self.head_dim,
-            1,
-            data_type=self.model_runner.kv_cache_dtype,
-            q_data_type=self.model_runner.dtype,
-        )
-    def _update_extend_indices(self, ragged_wrapper, paged_wrapper):
-        assert not isinstance(paged_wrapper, list)
-        assert not isinstance(ragged_wrapper, list)
-        # extend part
-        qo_indptr = torch.zeros(
-            (self.batch_size + 1,), dtype=torch.int32, device="cuda"
-        )
-        qo_indptr[1:] = torch.cumsum(self.seq_lens - self.prefix_lens, dim=0)
-        if self.use_ragged:
-            ragged_wrapper.end_forward()
-            ragged_wrapper.begin_forward(
-                qo_indptr,
-                qo_indptr,
-                self.num_qo_heads,
-                self.num_kv_heads,
-                self.head_dim,
-            )
-        # cached part
-        paged_wrapper.end_forward()
-        paged_wrapper.begin_forward(
-            qo_indptr,
-            self.kv_indptr,
-            self.kv_indices,
-            self.kv_last_page_len,
-            self.num_qo_heads,
-            self.num_kv_heads,
-            self.head_dim,
-            1,
-        )
-    def _get_indices(self, dispatch_reason: WrapperDispatch = None, wrapper_id=0):
-        if dispatch_reason is None:
-            if self.use_ragged:
-                paged_kernel_lens = self.prefix_lens
-            else:
-                paged_kernel_lens = self.seq_lens
-            self.kv_start_idx = None
-        elif dispatch_reason == WrapperDispatch.SLIDING_WINDOW:
-            if wrapper_id == 0:
-                # window attention use paged only
-                if self.forward_mode.is_decode():
-                    paged_kernel_lens = torch.minimum(
-                        self.seq_lens,
-                        torch.tensor(self.model_runner.sliding_window_size + 1),
-                    )
-                else:
-                    paged_kernel_lens = torch.minimum(
-                        self.seq_lens,
-                        torch.tensor(self.model_runner.sliding_window_size)
-                        + self.seq_lens
-                        - self.prefix_lens,
-                    )
-            else:
-                # full attention
-                paged_kernel_lens = self.seq_lens
-            self.kv_start_idx = self.seq_lens - paged_kernel_lens
-        self.kv_indptr = torch.zeros(
-            (self.batch_size + 1,), dtype=torch.int32, device="cuda"
-        )
-        self.kv_indptr[1:] = torch.cumsum(paged_kernel_lens, dim=0)
-        self.kv_indices = torch.empty(
-            self.kv_indptr[-1], dtype=torch.int32, device="cuda"
-        )
-        create_flashinfer_kv_indices_triton[(self.batch_size,)](
-            self.model_runner.req_to_token_pool.req_to_token,
-            self.req_pool_indices,
-            paged_kernel_lens,
-            self.kv_indptr,
-            self.kv_start_idx,
-            self.kv_indices,
-            self.model_runner.req_to_token_pool.req_to_token.size(1),
-        )
-    def _update_indicess_single_wrapper(self):
-        self._get_indices()
-        if self.forward_mode.is_decode():
-            self._update_decode_indices(self.decode_wrappers[0])
-        else:
-            self._update_extend_indices(
-                self.prefill_wrapper_ragged,
-                self.prefill_wrappers_paged[0],
-            )
-    def _update_indices_cross_attention(self):
-        pass
-    def _update_indices_sliding_window(self):
-        assert self.use_ragged is False
-        for wrapper_id in range(2):
-            self._get_indices(WrapperDispatch.SLIDING_WINDOW, wrapper_id)
-            if self.forward_mode.is_decode():
-                self._update_decode_indices(self.decode_wrappers[wrapper_id])
-            else:
-                self._update_extend_indices(
-                    None,
-                    self.prefill_wrappers_paged[wrapper_id],
-                )
-def update_flashinfer_indices(
-    forward_mode,
-    model_runner,
-    req_pool_indices,
-    seq_lens,
-    prefix_lens,
-    decode_wrappers=None,
-    use_ragged=False,
-):
-    updater = FlashinferUpdater(
-        forward_mode,
-        model_runner,
-        req_pool_indices,
-        seq_lens,
-        prefix_lens,
-        decode_wrappers,
-        use_ragged,
-    )
-    dispatch_reason = model_runner.attn_backend.dispatch_reason
-    if dispatch_reason == WrapperDispatch.SLIDING_WINDOW:
-        updater._update_indices_sliding_window()
-    elif dispatch_reason == WrapperDispatch.CROSS_ATTENTION:
-        updater._update_indices_cross_attention()
-    else:
-        assert model_runner.attn_backend.num_wrappers == 1
-        updater._update_indicess_single_wrapper()

{sglang-0.3.3.post1.dist-info → sglang-0.3.4.dist-info}/LICENSE RENAMED Viewed

File without changes

{sglang-0.3.3.post1.dist-info → sglang-0.3.4.dist-info}/top_level.txt RENAMED Viewed

File without changes

sglang 0.3.3.post1__py3-none-any.whl → 0.3.4__py3-none-any.whl

sglang 0.3.3.post1py3-none-any.whl → 0.3.4py3-none-any.whl