PyPI - sglang - Versions diffs - 0.5.3__py3-none-any.whl → 0.5.3.post1__py3-none-any.whl - Mend

sglang 0.5.3py3-none-any.whl → 0.5.3.post1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (112) hide show

sglang/bench_one_batch.py +0 -2
sglang/bench_serving.py +224 -127
sglang/compile_deep_gemm.py +3 -0
sglang/launch_server.py +0 -14
sglang/srt/configs/__init__.py +2 -0
sglang/srt/configs/falcon_h1.py +12 -58
sglang/srt/configs/mamba_utils.py +117 -0
sglang/srt/configs/model_config.py +68 -31
sglang/srt/configs/nemotron_h.py +286 -0
sglang/srt/configs/qwen3_next.py +11 -43
sglang/srt/disaggregation/decode.py +7 -18
sglang/srt/disaggregation/decode_kvcache_offload_manager.py +1 -1
sglang/srt/disaggregation/nixl/conn.py +55 -23
sglang/srt/disaggregation/prefill.py +17 -32
sglang/srt/entrypoints/engine.py +2 -2
sglang/srt/entrypoints/grpc_request_manager.py +10 -23
sglang/srt/entrypoints/grpc_server.py +220 -80
sglang/srt/entrypoints/http_server.py +49 -1
sglang/srt/entrypoints/openai/protocol.py +159 -31
sglang/srt/entrypoints/openai/serving_chat.py +13 -71
sglang/srt/entrypoints/openai/serving_tokenize.py +144 -0
sglang/srt/environ.py +4 -0
sglang/srt/function_call/function_call_parser.py +8 -6
sglang/srt/grpc/sglang_scheduler_pb2.py +78 -70
sglang/srt/grpc/sglang_scheduler_pb2.pyi +64 -6
sglang/srt/grpc/sglang_scheduler_pb2_grpc.py +88 -0
sglang/srt/layers/attention/attention_registry.py +31 -22
sglang/srt/layers/attention/fla/layernorm_gated.py +47 -30
sglang/srt/layers/attention/flashattention_backend.py +0 -1
sglang/srt/layers/attention/flashinfer_backend.py +223 -6
sglang/srt/layers/attention/flashinfer_mla_backend.py +1 -1
sglang/srt/layers/attention/hybrid_linear_attn_backend.py +165 -59
sglang/srt/layers/attention/mamba/causal_conv1d.py +1 -1
sglang/srt/layers/attention/mamba/causal_conv1d_triton.py +9 -4
sglang/srt/layers/attention/mamba/mamba.py +189 -241
sglang/srt/layers/attention/mamba/mamba2_metadata.py +211 -0
sglang/srt/layers/attention/mamba/mixer2_rms_norm_gated.py +120 -0
sglang/srt/layers/attention/mamba/ops/ssd_bmm.py +0 -50
sglang/srt/layers/attention/mamba/ops/ssd_chunk_scan.py +0 -60
sglang/srt/layers/attention/mamba/ops/ssd_chunk_state.py +0 -111
sglang/srt/layers/attention/mamba/ops/ssd_state_passing.py +0 -11
sglang/srt/layers/attention/triton_backend.py +1 -1
sglang/srt/layers/logits_processor.py +136 -6
sglang/srt/layers/modelopt_utils.py +11 -0
sglang/srt/layers/moe/cutlass_w4a8_moe.py +18 -21
sglang/srt/layers/moe/ep_moe/kernels.py +31 -452
sglang/srt/layers/moe/ep_moe/layer.py +8 -286
sglang/srt/layers/moe/fused_moe_triton/layer.py +6 -11
sglang/srt/layers/moe/moe_runner/deep_gemm.py +304 -0
sglang/srt/layers/moe/moe_runner/runner.py +3 -0
sglang/srt/layers/moe/utils.py +7 -1
sglang/srt/layers/quantization/__init__.py +1 -1
sglang/srt/layers/quantization/fp8.py +84 -18
sglang/srt/layers/quantization/modelopt_quant.py +1 -1
sglang/srt/layers/quantization/quark/quark.py +3 -1
sglang/srt/layers/quantization/w4afp8.py +2 -16
sglang/srt/lora/lora_manager.py +0 -8
sglang/srt/managers/overlap_utils.py +18 -16
sglang/srt/managers/schedule_batch.py +119 -90
sglang/srt/managers/schedule_policy.py +1 -1
sglang/srt/managers/scheduler.py +213 -126
sglang/srt/managers/scheduler_metrics_mixin.py +1 -1
sglang/srt/managers/scheduler_output_processor_mixin.py +180 -86
sglang/srt/managers/tokenizer_manager.py +270 -53
sglang/srt/managers/tp_worker.py +39 -28
sglang/srt/mem_cache/allocator.py +7 -2
sglang/srt/mem_cache/chunk_cache.py +1 -1
sglang/srt/mem_cache/memory_pool.py +162 -68
sglang/srt/mem_cache/radix_cache.py +8 -3
sglang/srt/mem_cache/swa_radix_cache.py +70 -14
sglang/srt/model_executor/cuda_graph_runner.py +1 -1
sglang/srt/model_executor/forward_batch_info.py +4 -18
sglang/srt/model_executor/model_runner.py +55 -51
sglang/srt/model_loader/__init__.py +1 -1
sglang/srt/model_loader/loader.py +187 -6
sglang/srt/model_loader/weight_utils.py +3 -0
sglang/srt/models/falcon_h1.py +11 -9
sglang/srt/models/gemma3_mm.py +16 -0
sglang/srt/models/grok.py +5 -13
sglang/srt/models/mixtral.py +1 -3
sglang/srt/models/mllama4.py +11 -1
sglang/srt/models/nemotron_h.py +514 -0
sglang/srt/models/utils.py +5 -1
sglang/srt/sampling/sampling_batch_info.py +11 -9
sglang/srt/server_args.py +100 -33
sglang/srt/speculative/eagle_worker.py +11 -13
sglang/srt/speculative/ngram_worker.py +12 -11
sglang/srt/speculative/spec_utils.py +0 -1
sglang/srt/two_batch_overlap.py +1 -0
sglang/srt/utils/common.py +18 -0
sglang/srt/utils/hf_transformers_utils.py +2 -0
sglang/test/longbench_v2/__init__.py +1 -0
sglang/test/longbench_v2/test_longbench_v2_eval.py +238 -0
sglang/test/longbench_v2/validate_longbench_v2.py +337 -0
sglang/test/longbench_v2/validate_longbench_v2_standalone.py +306 -0
sglang/test/run_eval.py +40 -0
sglang/test/simple_eval_longbench_v2.py +332 -0
sglang/test/test_cutlass_w4a8_moe.py +9 -19
sglang/test/test_deterministic.py +18 -2
sglang/test/test_deterministic_utils.py +81 -0
sglang/test/test_disaggregation_utils.py +63 -0
sglang/test/test_utils.py +32 -11
sglang/version.py +1 -1
{sglang-0.5.3.dist-info → sglang-0.5.3.post1.dist-info}/METADATA +4 -4
{sglang-0.5.3.dist-info → sglang-0.5.3.post1.dist-info}/RECORD +109 -98
sglang/srt/layers/attention/mamba/mamba_utils.py +0 -81
sglang/srt/managers/tp_worker_overlap_thread.py +0 -311
sglang/test/test_block_fp8_ep.py +0 -358
/sglang/srt/speculative/{ngram_utils.py → ngram_info.py} +0 -0
{sglang-0.5.3.dist-info → sglang-0.5.3.post1.dist-info}/WHEEL +0 -0
{sglang-0.5.3.dist-info → sglang-0.5.3.post1.dist-info}/licenses/LICENSE +0 -0
{sglang-0.5.3.dist-info → sglang-0.5.3.post1.dist-info}/top_level.txt +0 -0

sglang/srt/layers/attention/mamba/mamba_utils.py DELETED Viewed

@@ -1,81 +0,0 @@
-# Adapted from: https://github.com/vllm-project/vllm/blob/main/vllm/model_executor/layers/mamba/mamba_utils.py
-from sglang.srt.distributed.utils import divide
-class MambaStateShapeCalculator:
-    @classmethod
-    def linear_attention_state_shape(
-        cls,
-        num_heads: int,
-        tp_size: int,
-        head_dim: int,
-    ) -> tuple[tuple[int, int, int], ...]:
-        state_shape = (num_heads // tp_size, head_dim, head_dim)
-        return (state_shape,)
-    @classmethod
-    def mamba1_state_shape(
-        cls,
-        tp_world_size: int,
-        intermediate_size: int,
-        state_size: int,
-        conv_kernel: int,
-    ) -> tuple[tuple[int, int], tuple[int, int]]:
-        conv_state_shape = (divide(intermediate_size, tp_world_size), conv_kernel - 1)
-        temporal_state_shape = (divide(intermediate_size, tp_world_size), state_size)
-        conv_state_shape = conv_state_shape[1], conv_state_shape[0]
-        return conv_state_shape, temporal_state_shape
-    @classmethod
-    def mamba2_state_shape(
-        cls,
-        tp_world_size: int,
-        intermediate_size: int,
-        n_groups: int,
-        num_heads: int,
-        head_dim: int,
-        state_size: int,
-        conv_kernel: int,
-    ) -> tuple[tuple[int, int], tuple[int, int, int]]:
-        # if n_groups is not divisible by world_size, need to extend the shards
-        # to ensure all groups needed by a head is sharded along with it
-        n_groups = n_groups + cls.extra_groups_for_head_shards(n_groups, tp_world_size)
-        # heads and n_groups are TP-ed
-        conv_dim = intermediate_size + 2 * n_groups * state_size
-        # contiguous along 'dim' axis
-        conv_state_shape = (conv_kernel - 1, divide(conv_dim, tp_world_size))
-        # These are not TP-ed as they depend on A, dt_bias, D
-        # - they are typically small
-        #   e.g., (h_heads, head_dim, state_size) = (128, 64, 128)
-        temporal_state_shape = (divide(num_heads, tp_world_size), head_dim, state_size)
-        return conv_state_shape, temporal_state_shape
-    @classmethod
-    def short_conv_state_shape(
-        cls,
-        tp_world_size: int,
-        intermediate_size: int,
-        conv_kernel: int,
-    ) -> tuple[tuple[int, int]]:
-        conv_dim = divide(intermediate_size, tp_world_size)
-        conv_state_shape = (conv_kernel - 1, conv_dim)
-        return (conv_state_shape,)
-    @classmethod
-    def extra_groups_for_head_shards(cls, ngroups: int, tp_size: int):
-        """Compute the increase in group numbers to account for
-        replication in order to accompany the head shards."""
-        # in the case ngoups % tp_size == 0, this will be zero
-        if ngroups % tp_size == 0:
-            return 0
-        # for n_groups == 1, this is exactly tp_size - n_groups
-        return tp_size - ngroups

sglang/srt/managers/tp_worker_overlap_thread.py DELETED Viewed

@@ -1,311 +0,0 @@
-# Copyright 2023-2024 SGLang Team
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-# ==============================================================================
-"""A tensor parallel worker."""
-from __future__ import annotations
-import dataclasses
-import logging
-import signal
-import threading
-from queue import Queue
-from typing import TYPE_CHECKING, List, Optional, Tuple
-import psutil
-import torch
-from sglang.srt.managers.io_struct import (
-    DestroyWeightsUpdateGroupReqInput,
-    GetWeightsByNameReqInput,
-    InitWeightsSendGroupForRemoteInstanceReqInput,
-    InitWeightsUpdateGroupReqInput,
-    LoadLoRAAdapterReqInput,
-    SendWeightsToRemoteInstanceReqInput,
-    UnloadLoRAAdapterReqInput,
-    UpdateWeightFromDiskReqInput,
-    UpdateWeightsFromDistributedReqInput,
-    UpdateWeightsFromTensorReqInput,
-)
-from sglang.srt.managers.overlap_utils import FutureMap
-from sglang.srt.managers.schedule_batch import ModelWorkerBatch
-from sglang.srt.managers.tp_worker import TpModelWorker
-from sglang.srt.model_executor.forward_batch_info import ForwardBatchOutput
-from sglang.srt.server_args import ServerArgs
-from sglang.srt.utils import DynamicGradMode
-from sglang.utils import get_exception_traceback
-if TYPE_CHECKING:
-    from sglang.srt.managers.cache_controller import LayerDoneCounter
-logger = logging.getLogger(__name__)
-class TpModelWorkerClient:
-    """A tensor parallel model worker."""
-    def __init__(
-        self,
-        server_args: ServerArgs,
-        gpu_id: int,
-        tp_rank: int,
-        moe_ep_rank: int,
-        pp_rank: int,
-        dp_rank: Optional[int],
-        nccl_port: int,
-    ):
-        # Load the model
-        self.worker = TpModelWorker(
-            server_args, gpu_id, tp_rank, moe_ep_rank, pp_rank, dp_rank, nccl_port
-        )
-        self.max_running_requests = self.worker.max_running_requests
-        self.device = self.worker.device
-        self.gpu_id = gpu_id
-        # Init future mappings
-        self.future_map = FutureMap(self.max_running_requests, self.device)
-        # Launch threads
-        self.input_queue = Queue[Tuple[ModelWorkerBatch, int, torch.Event]]()
-        self.output_queue = Queue()
-        self.forward_stream = torch.get_device_module(self.device).Stream()
-        self.forward_thread = threading.Thread(
-            target=self.forward_thread_func,
-        )
-        self.forward_thread.start()
-        self.parent_process = psutil.Process().parent()
-        self.scheduler_stream = torch.get_device_module(self.device).current_stream()
-        if self.device == "cpu":
-            self.scheduler_stream.synchronize = lambda: None  # No-op for CPU
-        self.hicache_layer_transfer_counter = None
-    def register_hicache_layer_transfer_counter(self, counter: LayerDoneCounter):
-        self.hicache_layer_transfer_counter = counter
-    def get_worker_info(self):
-        return self.worker.get_worker_info()
-    def get_tokens_per_layer_info(self):
-        return self.worker.get_tokens_per_layer_info()
-    @property
-    def sliding_window_size(self) -> Optional[int]:
-        return self.worker.sliding_window_size
-    @property
-    def is_hybrid(self) -> bool:
-        return self.worker.is_hybrid
-    def get_pad_input_ids_func(self):
-        return self.worker.get_pad_input_ids_func()
-    def get_tp_group(self):
-        return self.worker.get_tp_group()
-    def get_attention_tp_group(self):
-        return self.worker.get_attention_tp_group()
-    def get_attention_tp_cpu_group(self):
-        return self.worker.get_attention_tp_cpu_group()
-    def get_memory_pool(self):
-        return (
-            self.worker.model_runner.req_to_token_pool,
-            self.worker.model_runner.token_to_kv_pool_allocator,
-        )
-    def get_kv_cache(self):
-        return self.worker.model_runner.token_to_kv_pool
-    def forward_thread_func(self):
-        try:
-            with torch.get_device_module(self.device).stream(self.forward_stream):
-                self.forward_thread_func_()
-        except Exception:
-            traceback = get_exception_traceback()
-            logger.error(f"TpModelWorkerClient hit an exception: {traceback}")
-            self.parent_process.send_signal(signal.SIGQUIT)
-    @DynamicGradMode()
-    def forward_thread_func_(self):
-        batch_pt = 0
-        batch_lists: List = [None] * 2
-        while True:
-            model_worker_batch, future_map_ct, sync_event = self.input_queue.get()
-            if not model_worker_batch:
-                break
-            sync_event.wait()
-            # Keep a reference of model_worker_batch by storing it into a list.
-            # Otherwise, the tensor members of model_worker_batch will be released
-            # by pytorch and cause CUDA illegal memory access errors.
-            batch_lists[batch_pt % 2] = model_worker_batch
-            batch_pt += 1
-            # Create event
-            copy_done = torch.get_device_module(self.device).Event()
-            # Resolve future tokens in the input
-            self.future_map.resolve_future(model_worker_batch)
-            # Run forward
-            forward_batch_output = self.worker.forward_batch_generation(
-                model_worker_batch,
-                model_worker_batch.launch_done,
-            )
-            logits_output, next_token_ids, can_run_cuda_graph = (
-                forward_batch_output.logits_output,
-                forward_batch_output.next_token_ids,
-                forward_batch_output.can_run_cuda_graph,
-            )
-            # Update the future token ids map
-            bs = len(model_worker_batch.seq_lens)
-            if model_worker_batch.is_prefill_only:
-                # For prefill-only requests, create dummy token IDs on CPU
-                next_token_ids = torch.zeros(bs, dtype=torch.long)
-            # store the future indices into future map
-            self.future_map.store_to_map(future_map_ct, bs, next_token_ids)
-            # Copy results to the CPU
-            if model_worker_batch.return_logprob:
-                if logits_output.next_token_logprobs is not None:
-                    logits_output.next_token_logprobs = (
-                        logits_output.next_token_logprobs.to("cpu", non_blocking=True)
-                    )
-                if logits_output.input_token_logprobs is not None:
-                    logits_output.input_token_logprobs = (
-                        logits_output.input_token_logprobs.to("cpu", non_blocking=True)
-                    )
-            if logits_output.hidden_states is not None:
-                logits_output.hidden_states = logits_output.hidden_states.to(
-                    "cpu", non_blocking=True
-                )
-            # Only copy to CPU if not already on CPU
-            if next_token_ids.device.type != "cpu":
-                next_token_ids = next_token_ids.to("cpu", non_blocking=True)
-            copy_done.record()
-            self.output_queue.put(
-                (copy_done, logits_output, next_token_ids, can_run_cuda_graph)
-            )
-    def resolve_last_batch_result(self, launch_done: Optional[threading.Event] = None):
-        """
-        This function is called to resolve the last batch result and
-        wait for the current batch to be launched. Used in overlap mode.
-        """
-        copy_done, logits_output, next_token_ids, can_run_cuda_graph = (
-            self.output_queue.get()
-        )
-        if launch_done is not None:
-            launch_done.wait()
-        copy_done.synchronize()
-        if logits_output.next_token_logprobs is not None:
-            logits_output.next_token_logprobs = (
-                logits_output.next_token_logprobs.tolist()
-            )
-        if logits_output.input_token_logprobs is not None:
-            logits_output.input_token_logprobs = tuple(
-                logits_output.input_token_logprobs.tolist()
-            )
-        next_token_ids = next_token_ids.tolist()
-        return logits_output, next_token_ids, can_run_cuda_graph
-    def forward_batch_generation(
-        self, model_worker_batch: ModelWorkerBatch
-    ) -> ForwardBatchOutput:
-        # Create a new copy of sampling_info because it will be updated in-place by the scheduler for the next batch.
-        sampling_info = model_worker_batch.sampling_info
-        sampling_info.update_penalties()
-        model_worker_batch.sampling_info = self.cur_sampling_info = dataclasses.replace(
-            sampling_info,
-            sampling_info_done=threading.Event(),
-            penalizer_orchestrator=None,
-        )
-        # A cuda stream sync here to avoid the cuda illegal memory access error.
-        sync_event = torch.get_device_module(self.device).Event()
-        sync_event.record(self.scheduler_stream)
-        # Push a new batch to the queue
-        bs = len(model_worker_batch.seq_lens)
-        cur_future_map_ct = self.future_map.update_ct(bs)
-        self.input_queue.put((model_worker_batch, cur_future_map_ct, sync_event))
-        # get this forward batch's future token ids
-        future_next_token_ids = self.future_map.update_next_future(
-            cur_future_map_ct, bs
-        )
-        return ForwardBatchOutput(
-            next_token_ids=future_next_token_ids,
-            can_run_cuda_graph=False,
-        )
-    def update_weights_from_disk(self, recv_req: UpdateWeightFromDiskReqInput):
-        success, message = self.worker.update_weights_from_disk(recv_req)
-        return success, message
-    def init_weights_update_group(self, recv_req: InitWeightsUpdateGroupReqInput):
-        success, message = self.worker.init_weights_update_group(recv_req)
-        return success, message
-    def destroy_weights_update_group(self, recv_req: DestroyWeightsUpdateGroupReqInput):
-        success, message = self.worker.destroy_weights_update_group(recv_req)
-        return success, message
-    def init_weights_send_group_for_remote_instance(
-        self, recv_req: InitWeightsSendGroupForRemoteInstanceReqInput
-    ):
-        success, message = self.worker.init_weights_send_group_for_remote_instance(
-            recv_req
-        )
-        return success, message
-    def send_weights_to_remote_instance(
-        self, recv_req: SendWeightsToRemoteInstanceReqInput
-    ):
-        success, message = self.worker.send_weights_to_remote_instance(recv_req)
-        return success, message
-    def update_weights_from_distributed(
-        self, recv_req: UpdateWeightsFromDistributedReqInput
-    ):
-        success, message = self.worker.update_weights_from_distributed(recv_req)
-        return success, message
-    def update_weights_from_tensor(self, recv_req: UpdateWeightsFromTensorReqInput):
-        success, message = self.worker.update_weights_from_tensor(recv_req)
-        return success, message
-    def get_weights_by_name(self, recv_req: GetWeightsByNameReqInput):
-        return self.worker.get_weights_by_name(recv_req)
-    def load_lora_adapter(self, recv_req: LoadLoRAAdapterReqInput):
-        return self.worker.load_lora_adapter(recv_req)
-    def unload_lora_adapter(self, recv_req: UnloadLoRAAdapterReqInput):
-        return self.worker.unload_lora_adapter(recv_req)
-    def can_run_lora_batch(self, lora_ids: list[str]) -> bool:
-        return self.worker.can_run_lora_batch(lora_ids)
-    def __delete__(self):
-        self.input_queue.put((None, None))
-        self.copy_queue.put((None, None, None))

sglang 0.5.3__py3-none-any.whl → 0.5.3.post1__py3-none-any.whl

sglang 0.5.3py3-none-any.whl → 0.5.3.post1py3-none-any.whl