PyPI - sglang - Versions diffs - 0.5.4__py3-none-any.whl → 0.5.4.post2__py3-none-any.whl - Mend

sglang 0.5.4py3-none-any.whl → 0.5.4.post2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (195) hide show

sglang/bench_one_batch.py +149 -34
sglang/bench_serving.py +73 -14
sglang/compile_deep_gemm.py +13 -7
sglang/launch_server.py +2 -0
sglang/srt/batch_invariant_ops/__init__.py +2 -0
sglang/srt/batch_invariant_ops/batch_invariant_ops.py +221 -4
sglang/srt/checkpoint_engine/__init__.py +9 -0
sglang/srt/checkpoint_engine/update.py +317 -0
sglang/srt/compilation/backend.py +1 -1
sglang/srt/configs/__init__.py +2 -0
sglang/srt/configs/deepseek_ocr.py +542 -10
sglang/srt/configs/deepseekvl2.py +95 -194
sglang/srt/configs/kimi_linear.py +160 -0
sglang/srt/configs/mamba_utils.py +66 -0
sglang/srt/configs/model_config.py +30 -7
sglang/srt/constants.py +7 -0
sglang/srt/debug_utils/tensor_dump_forward_hook.py +149 -0
sglang/srt/disaggregation/decode.py +34 -6
sglang/srt/disaggregation/nixl/conn.py +2 -2
sglang/srt/disaggregation/prefill.py +25 -3
sglang/srt/distributed/device_communicators/custom_all_reduce.py +3 -1
sglang/srt/distributed/parallel_state.py +9 -12
sglang/srt/entrypoints/engine.py +31 -20
sglang/srt/entrypoints/grpc_server.py +0 -1
sglang/srt/entrypoints/http_server.py +94 -94
sglang/srt/entrypoints/openai/protocol.py +7 -1
sglang/srt/entrypoints/openai/serving_chat.py +42 -0
sglang/srt/entrypoints/openai/serving_completions.py +10 -0
sglang/srt/entrypoints/openai/serving_embedding.py +1 -0
sglang/srt/environ.py +23 -2
sglang/srt/eplb/expert_distribution.py +64 -1
sglang/srt/eplb/expert_location.py +106 -36
sglang/srt/function_call/function_call_parser.py +2 -0
sglang/srt/function_call/minimax_m2.py +367 -0
sglang/srt/grpc/compile_proto.py +3 -0
sglang/srt/layers/activation.py +6 -0
sglang/srt/layers/attention/ascend_backend.py +233 -5
sglang/srt/layers/attention/attention_registry.py +3 -0
sglang/srt/layers/attention/fla/chunk_delta_h.py +61 -32
sglang/srt/layers/attention/fla/fused_recurrent.py +17 -4
sglang/srt/layers/attention/fla/kda.py +1359 -0
sglang/srt/layers/attention/fla/layernorm_gated.py +7 -1
sglang/srt/layers/attention/flashattention_backend.py +19 -8
sglang/srt/layers/attention/flashinfer_backend.py +10 -1
sglang/srt/layers/attention/flashinfer_mla_backend.py +21 -11
sglang/srt/layers/attention/flashmla_backend.py +1 -1
sglang/srt/layers/attention/hybrid_linear_attn_backend.py +223 -0
sglang/srt/layers/attention/mamba/mamba.py +20 -11
sglang/srt/layers/attention/nsa/dequant_k_cache.py +138 -6
sglang/srt/layers/attention/nsa/nsa_indexer.py +45 -22
sglang/srt/layers/attention/nsa/quant_k_cache.py +44 -12
sglang/srt/layers/attention/nsa/transform_index.py +1 -1
sglang/srt/layers/attention/nsa_backend.py +157 -23
sglang/srt/layers/attention/triton_backend.py +4 -1
sglang/srt/layers/attention/trtllm_mha_backend.py +10 -4
sglang/srt/layers/attention/trtllm_mla_backend.py +11 -15
sglang/srt/layers/attention/utils.py +78 -0
sglang/srt/layers/communicator.py +24 -1
sglang/srt/layers/deep_gemm_wrapper/compile_utils.py +1 -1
sglang/srt/layers/layernorm.py +35 -6
sglang/srt/layers/logits_processor.py +9 -20
sglang/srt/layers/moe/cutlass_w4a8_moe.py +138 -0
sglang/srt/layers/moe/ep_moe/kernels.py +194 -0
sglang/srt/layers/moe/ep_moe/layer.py +78 -289
sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_4_0/E=257,N=256,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128, 128].json +146 -0
sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_4_0/E=257,N=256,device_name=NVIDIA_H20,dtype=fp8_w8a8,block_shape=[128, 128]_down.json +164 -0
sglang/srt/layers/moe/fused_moe_triton/fused_moe.py +68 -22
sglang/srt/layers/moe/fused_moe_triton/fused_moe_triton_config.py +43 -3
sglang/srt/layers/moe/fused_moe_triton/fused_moe_triton_kernels.py +106 -26
sglang/srt/layers/moe/fused_moe_triton/layer.py +3 -3
sglang/srt/layers/moe/fused_moe_triton/triton_kernels_moe.py +7 -4
sglang/srt/layers/moe/moe_runner/deep_gemm.py +340 -55
sglang/srt/layers/moe/moe_runner/runner.py +3 -0
sglang/srt/layers/moe/moe_runner/triton_kernels.py +194 -0
sglang/srt/layers/moe/token_dispatcher/__init__.py +4 -4
sglang/srt/layers/moe/token_dispatcher/base.py +11 -5
sglang/srt/layers/moe/token_dispatcher/deepep.py +25 -18
sglang/srt/layers/moe/token_dispatcher/standard.py +1 -1
sglang/srt/layers/moe/topk.py +35 -10
sglang/srt/layers/moe/utils.py +3 -4
sglang/srt/layers/pooler.py +21 -2
sglang/srt/layers/quantization/__init__.py +13 -84
sglang/srt/layers/quantization/auto_round.py +394 -0
sglang/srt/layers/quantization/awq.py +0 -3
sglang/srt/layers/quantization/base_config.py +7 -0
sglang/srt/layers/quantization/fp8.py +68 -63
sglang/srt/layers/quantization/fp8_kernel.py +1 -1
sglang/srt/layers/quantization/fp8_utils.py +2 -2
sglang/srt/layers/quantization/gguf.py +566 -0
sglang/srt/layers/quantization/modelopt_quant.py +168 -11
sglang/srt/layers/quantization/mxfp4.py +30 -38
sglang/srt/layers/quantization/unquant.py +23 -45
sglang/srt/layers/quantization/w4afp8.py +38 -2
sglang/srt/layers/radix_attention.py +5 -2
sglang/srt/layers/rotary_embedding.py +130 -46
sglang/srt/layers/sampler.py +12 -1
sglang/srt/lora/lora_registry.py +9 -0
sglang/srt/managers/async_mm_data_processor.py +122 -0
sglang/srt/managers/data_parallel_controller.py +30 -3
sglang/srt/managers/detokenizer_manager.py +3 -0
sglang/srt/managers/io_struct.py +29 -4
sglang/srt/managers/multi_tokenizer_mixin.py +22 -1
sglang/srt/managers/schedule_batch.py +74 -15
sglang/srt/managers/scheduler.py +185 -144
sglang/srt/managers/scheduler_metrics_mixin.py +22 -14
sglang/srt/managers/scheduler_output_processor_mixin.py +40 -3
sglang/srt/managers/scheduler_pp_mixin.py +7 -2
sglang/srt/managers/scheduler_profiler_mixin.py +3 -4
sglang/srt/managers/scheduler_runtime_checker_mixin.py +45 -0
sglang/srt/managers/scheduler_update_weights_mixin.py +18 -3
sglang/srt/managers/session_controller.py +6 -5
sglang/srt/managers/tokenizer_manager.py +165 -78
sglang/srt/managers/tp_worker.py +24 -1
sglang/srt/mem_cache/base_prefix_cache.py +23 -4
sglang/srt/mem_cache/common.py +1 -0
sglang/srt/mem_cache/hicache_storage.py +7 -1
sglang/srt/mem_cache/memory_pool.py +253 -57
sglang/srt/mem_cache/memory_pool_host.py +12 -5
sglang/srt/mem_cache/radix_cache.py +4 -0
sglang/srt/mem_cache/storage/hf3fs/mini_3fs_metadata_server.py +3 -2
sglang/srt/mem_cache/storage/mooncake_store/mooncake_store.py +1 -1
sglang/srt/metrics/collector.py +46 -3
sglang/srt/model_executor/cuda_graph_runner.py +15 -3
sglang/srt/model_executor/forward_batch_info.py +55 -14
sglang/srt/model_executor/model_runner.py +77 -170
sglang/srt/model_executor/npu_graph_runner.py +7 -3
sglang/srt/model_executor/piecewise_cuda_graph_runner.py +22 -12
sglang/srt/model_loader/weight_utils.py +1 -1
sglang/srt/models/bailing_moe.py +9 -2
sglang/srt/models/deepseek_nextn.py +11 -2
sglang/srt/models/deepseek_v2.py +296 -78
sglang/srt/models/glm4.py +391 -77
sglang/srt/models/glm4_moe.py +322 -354
sglang/srt/models/glm4_moe_nextn.py +4 -14
sglang/srt/models/glm4v.py +196 -55
sglang/srt/models/glm4v_moe.py +29 -197
sglang/srt/models/gpt_oss.py +1 -10
sglang/srt/models/kimi_linear.py +678 -0
sglang/srt/models/llama4.py +1 -1
sglang/srt/models/llama_eagle3.py +11 -1
sglang/srt/models/longcat_flash.py +2 -2
sglang/srt/models/minimax_m2.py +922 -0
sglang/srt/models/nvila.py +355 -0
sglang/srt/models/nvila_lite.py +184 -0
sglang/srt/models/qwen2.py +23 -2
sglang/srt/models/qwen2_moe.py +30 -15
sglang/srt/models/qwen3.py +35 -5
sglang/srt/models/qwen3_moe.py +18 -12
sglang/srt/models/qwen3_next.py +7 -0
sglang/srt/multimodal/customized_mm_processor_utils.py +35 -0
sglang/srt/multimodal/processors/base_processor.py +1 -0
sglang/srt/multimodal/processors/glm4v.py +1 -1
sglang/srt/multimodal/processors/{vila.py → nvila.py} +32 -24
sglang/srt/multimodal/processors/points_v15_chat.py +2 -2
sglang/srt/multiplex/multiplexing_mixin.py +209 -0
sglang/srt/multiplex/pdmux_context.py +164 -0
sglang/srt/parser/conversation.py +7 -1
sglang/srt/parser/reasoning_parser.py +28 -1
sglang/srt/sampling/custom_logit_processor.py +67 -1
sglang/srt/sampling/penaltylib/frequency_penalty.py +6 -8
sglang/srt/sampling/penaltylib/min_new_tokens.py +7 -8
sglang/srt/sampling/penaltylib/orchestrator.py +43 -3
sglang/srt/sampling/penaltylib/presence_penalty.py +6 -8
sglang/srt/server_args.py +459 -199
sglang/srt/single_batch_overlap.py +2 -4
sglang/srt/speculative/draft_utils.py +16 -0
sglang/srt/speculative/eagle_info.py +42 -36
sglang/srt/speculative/eagle_info_v2.py +68 -25
sglang/srt/speculative/eagle_utils.py +261 -16
sglang/srt/speculative/eagle_worker.py +11 -3
sglang/srt/speculative/eagle_worker_v2.py +15 -9
sglang/srt/speculative/spec_info.py +305 -31
sglang/srt/speculative/spec_utils.py +44 -8
sglang/srt/tracing/trace.py +121 -12
sglang/srt/utils/common.py +142 -74
sglang/srt/utils/hf_transformers_utils.py +38 -12
sglang/srt/utils/torch_memory_saver_adapter.py +20 -0
sglang/test/kits/radix_cache_server_kit.py +50 -0
sglang/test/runners.py +31 -7
sglang/test/simple_eval_common.py +5 -3
sglang/test/simple_eval_humaneval.py +1 -0
sglang/test/simple_eval_math.py +1 -0
sglang/test/simple_eval_mmlu.py +1 -0
sglang/test/simple_eval_mmmu_vlm.py +1 -0
sglang/test/test_deterministic.py +235 -12
sglang/test/test_deterministic_utils.py +2 -1
sglang/test/test_utils.py +7 -1
sglang/version.py +1 -1
{sglang-0.5.4.dist-info → sglang-0.5.4.post2.dist-info}/METADATA +15 -28
{sglang-0.5.4.dist-info → sglang-0.5.4.post2.dist-info}/RECORD +194 -175
sglang/srt/models/vila.py +0 -306
/sglang/test/{kit_matched_stop.py → kits/matched_stop_kit.py} +0 -0
{sglang-0.5.4.dist-info → sglang-0.5.4.post2.dist-info}/WHEEL +0 -0
{sglang-0.5.4.dist-info → sglang-0.5.4.post2.dist-info}/licenses/LICENSE +0 -0
{sglang-0.5.4.dist-info → sglang-0.5.4.post2.dist-info}/top_level.txt +0 -0

sglang/srt/speculative/spec_info.py CHANGED Viewed

@@ -1,46 +1,320 @@
+from __future__ import annotations
+import threading
 from abc import ABC, abstractmethod
+from collections import defaultdict
 from enum import IntEnum, auto
-from functools import lru_cache
-from typing import List, Tuple
+from typing import (
+    Any,
+    Callable,
+    DefaultDict,
+    Dict,
+    Iterable,
+    Iterator,
+    List,
+    Optional,
+    Sequence,
+    Set,
+    Tuple,
+    Union,
+)
 from sglang.srt.managers.schedule_batch import ModelWorkerBatch
+DraftWorkerClass = Callable[..., Any]
+DraftWorkerFactory = Callable[..., Any]
-class SpeculativeAlgorithm(IntEnum):
-    NONE = auto()
-    EAGLE = auto()
-    EAGLE3 = auto()
-    STANDALONE = auto()
-    NGRAM = auto()
-    def is_none(self):
-        return self == SpeculativeAlgorithm.NONE
+class _SpeculativeAlgorithmMeta(type):
+    def __iter__(cls) -> Iterator["SpeculativeAlgorithm"]:
+        return iter(cls._registration_order)
-    def is_eagle(self):
-        return self == SpeculativeAlgorithm.EAGLE or self == SpeculativeAlgorithm.EAGLE3
-    def is_eagle3(self):
-        return self == SpeculativeAlgorithm.EAGLE3
+class SpeculativeAlgorithm(metaclass=_SpeculativeAlgorithmMeta):
+    """Registry-backed representation of speculative decoding algorithms."""
-    def is_standalone(self):
-        return self == SpeculativeAlgorithm.STANDALONE
+    __slots__ = ("name", "value", "_draft_worker_factory")
-    def is_ngram(self):
-        return self == SpeculativeAlgorithm.NGRAM
+    _registry_by_name: Dict[str, "SpeculativeAlgorithm"] = {}
+    _registry_by_value: Dict[int, "SpeculativeAlgorithm"] = {}
+    _registration_order: List["SpeculativeAlgorithm"] = []
+    _flags: DefaultDict[str, Set[int]] = defaultdict(set)
+    _next_value: int = 0
-    @lru_cache(maxsize=None)
-    @staticmethod
-    def from_string(name: str):
-        name_map = {
-            "EAGLE": SpeculativeAlgorithm.EAGLE,
-            "EAGLE3": SpeculativeAlgorithm.EAGLE3,
-            "STANDALONE": SpeculativeAlgorithm.STANDALONE,
-            "NGRAM": SpeculativeAlgorithm.NGRAM,
-            None: SpeculativeAlgorithm.NONE,
-        }
-        if name is not None:
-            name = name.upper()
-        return name_map[name]
+    def __init__(
+        self,
+        name: str,
+        value: int,
+        draft_worker_factory: Optional[DraftWorkerFactory] = None,
+    ):
+        self.name = name
+        self.value = value
+        self._draft_worker_factory = draft_worker_factory
+    def __repr__(self) -> str:  # pragma: no cover - trivial
+        return f"SpeculativeAlgorithm.{self.name}"
+    def __str__(self) -> str:  # pragma: no cover - trivial
+        return self.name
+    def __hash__(self) -> int:
+        return hash(self.value)
+    def __eq__(self, other: object) -> bool:
+        if isinstance(other, SpeculativeAlgorithm):
+            return self.value == other.value
+        return NotImplemented
+    def __int__(self) -> int:
+        return self.value
+    @classmethod
+    def register(
+        cls,
+        name: str,
+        *,
+        aliases: Optional[Sequence[str]] = None,
+        value: Optional[int] = None,
+        draft_worker_factory: Optional[DraftWorkerFactory] = None,
+    ) -> SpeculativeAlgorithm:
+        normalized_name = name.upper()
+        if normalized_name in cls._registry_by_name:
+            raise ValueError(
+                f"SpeculativeAlgorithm '{normalized_name}' already registered"
+            )
+        if value is None:
+            value = cls._next_value
+        cls._next_value = max(cls._next_value, value + 1)
+        algorithm = cls(
+            normalized_name,
+            value,
+            draft_worker_factory=draft_worker_factory,
+        )
+        cls._registry_by_name[normalized_name] = algorithm
+        cls._registry_by_value[value] = algorithm
+        cls._registration_order.append(algorithm)
+        setattr(cls, normalized_name, algorithm)
+        if aliases:
+            cls.register_aliases(algorithm, *aliases)
+        return algorithm
+    @classmethod
+    def register_aliases(cls, algorithm: SpeculativeAlgorithm, *aliases: str) -> None:
+        for alias in aliases:
+            cls._registry_by_name[alias.upper()] = algorithm
+    @classmethod
+    def register_draft_worker(
+        cls,
+        algorithm: SpeculativeAlgorithm | str,
+        factory: DraftWorkerFactory,
+    ) -> None:
+        algo = cls._ensure_algorithm(algorithm)
+        algo._draft_worker_factory = factory
+    @classmethod
+    def _ensure_algorithm(
+        cls, algorithm: SpeculativeAlgorithm | str
+    ) -> SpeculativeAlgorithm:
+        if isinstance(algorithm, SpeculativeAlgorithm):
+            return algorithm
+        if isinstance(algorithm, str):
+            return cls.from_string(algorithm)
+        raise TypeError(f"Unsupported algorithm identifier: {algorithm!r}")
+    @classmethod
+    def _add_flag(
+        cls, flag: str | Sequence[str], algorithm: SpeculativeAlgorithm | str
+    ) -> None:
+        algo = cls._ensure_algorithm(algorithm)
+        if isinstance(flag, str):
+            flag_iter = (flag,)
+        else:
+            flag_iter = flag
+        for flag_name in flag_iter:
+            cls._flags[flag_name.upper()].add(algo.value)
+    @classmethod
+    def from_string(cls, name: Optional[str]) -> SpeculativeAlgorithm:
+        if name is None:
+            return cls.NONE
+        try:
+            return cls._registry_by_name[name.upper()]
+        except KeyError as exc:
+            raise ValueError(f"Unknown speculative algorithm '{name}'") from exc
+    @classmethod
+    def from_value(cls, value: int) -> SpeculativeAlgorithm:
+        try:
+            return cls._registry_by_value[value]
+        except KeyError as exc:
+            raise ValueError(f"Unknown speculative algorithm id {value}") from exc
+    def _has_flag(self, flag: str) -> bool:
+        return self.value in type(self)._flags.get(flag.upper(), set())
+    def is_none(self) -> bool:
+        return self is SpeculativeAlgorithm.NONE
+    def is_eagle(self) -> bool:
+        return self._has_flag("EAGLE")
+    def is_eagle3(self) -> bool:
+        return self._has_flag("EAGLE3")
+    def is_standalone(self) -> bool:
+        return self._has_flag("STANDALONE")
+    def is_ngram(self) -> bool:
+        return self._has_flag("NGRAM")
+    def create_draft_worker(self, **factory_kwargs: Any) -> Any:
+        if self._draft_worker_factory is None:
+            return None
+        return self._draft_worker_factory(self, **factory_kwargs)
+# Registry helpers backed by `SpeculativeAlgorithm`.
+_LOCK = threading.RLock()
+_REGISTERED_WORKERS: Dict[SpeculativeAlgorithm, DraftWorkerClass] = {}
+_FLAG_MARKERS: Dict[str, Callable[[Union[SpeculativeAlgorithm, str]], None]] = {
+    "EAGLE": lambda algorithm: SpeculativeAlgorithm._add_flag("EAGLE", algorithm),
+    "EAGLE3": lambda algorithm: SpeculativeAlgorithm._add_flag("EAGLE3", algorithm),
+    "STANDALONE": lambda algorithm: SpeculativeAlgorithm._add_flag(
+        "STANDALONE", algorithm
+    ),
+    "NGRAM": lambda algorithm: SpeculativeAlgorithm._add_flag("NGRAM", algorithm),
+}
+def _wrap_worker_class(worker_cls: DraftWorkerClass) -> DraftWorkerFactory:
+    def _factory(_: SpeculativeAlgorithm, **kwargs: Any) -> Any:
+        return worker_cls(**kwargs)
+    return _factory
+def register_speculative_algorithm(
+    name: str,
+    worker_cls: DraftWorkerClass,
+    *,
+    aliases: Optional[Sequence[str]] = None,
+    flags: Optional[Iterable[str]] = None,
+    value: Optional[int] = None,
+    override_worker: bool = False,
+) -> SpeculativeAlgorithm:
+    """Register a speculative algorithm and the associated draft worker class.
+    Example:
+        >>> from sglang.srt.speculative.spec_info import register_speculative_algorithm
+        >>> register_speculative_algorithm("MY_ALGO", MyDraftWorker, flags=("EAGLE",))
+    """
+    name_upper = name.upper()
+    with _LOCK:
+        try:
+            algorithm = SpeculativeAlgorithm.from_string(name_upper)
+            exists = True
+        except ValueError:
+            algorithm = SpeculativeAlgorithm.register(
+                name_upper,
+                aliases=aliases,
+                value=value,
+            )
+            SpeculativeAlgorithm.register_draft_worker(
+                algorithm, _wrap_worker_class(worker_cls)
+            )
+            exists = False
+        if exists:
+            if aliases:
+                SpeculativeAlgorithm.register_aliases(algorithm, *aliases)
+            if not override_worker and algorithm in _REGISTERED_WORKERS:
+                raise ValueError(
+                    f"Worker already registered for {algorithm!r}. "
+                    "Pass override_worker=True to replace it."
+                )
+            SpeculativeAlgorithm.register_draft_worker(
+                algorithm, _wrap_worker_class(worker_cls)
+            )
+        _REGISTERED_WORKERS[algorithm] = worker_cls
+        if flags:
+            for flag in flags:
+                marker = _FLAG_MARKERS.get(flag.upper())
+                if marker is None:
+                    raise ValueError(f"Unsupported flag '{flag}'")
+                marker(algorithm)
+        return algorithm
+def list_registered_workers() -> Dict[str, DraftWorkerClass]:
+    """Return a snapshot of registered speculative worker classes keyed by algorithm name."""
+    with _LOCK:
+        return {algo.name: cls for algo, cls in _REGISTERED_WORKERS.items()}
+def _create_eagle_worker(**kwargs: Any) -> Any:
+    enable_overlap = kwargs.pop("enable_overlap", False)
+    if enable_overlap:
+        from sglang.srt.speculative.eagle_worker_v2 import EAGLEWorkerV2
+        return EAGLEWorkerV2(**kwargs)
+    from sglang.srt.speculative.eagle_worker import EAGLEWorker
+    return EAGLEWorker(**kwargs)
+def _create_standalone_worker(**kwargs: Any) -> Any:
+    from sglang.srt.speculative.standalone_worker import StandaloneWorker
+    return StandaloneWorker(**kwargs)
+def _create_ngram_worker(**kwargs: Any) -> Any:
+    from sglang.srt.speculative.ngram_worker import NGRAMWorker
+    return NGRAMWorker(**kwargs)
+# Register built-in algorithms.
+# Third-party integrations should import `SpeculativeAlgorithm` and either
+# call `register_speculative_algorithm` or use the helpers below to attach
+# additional draft workers.
+SpeculativeAlgorithm.register("NONE")
+register_speculative_algorithm(
+    "EAGLE",
+    aliases=("NEXTN",),
+    worker_cls=_create_eagle_worker,
+    flags=("EAGLE",),
+)
+register_speculative_algorithm(
+    "EAGLE3",
+    worker_cls=_create_eagle_worker,
+    flags=("EAGLE", "EAGLE3"),
+)
+register_speculative_algorithm(
+    "STANDALONE",
+    worker_cls=_create_standalone_worker,
+    flags=("STANDALONE",),
+)
+register_speculative_algorithm(
+    "NGRAM",
+    worker_cls=_create_ngram_worker,
+    flags=("NGRAM",),
+)
 class SpecInputType(IntEnum):

sglang/srt/speculative/spec_utils.py CHANGED Viewed

@@ -19,16 +19,22 @@ from sglang.srt.distributed.parallel_state import (
 from sglang.srt.environ import envs
 from sglang.srt.layers.logits_processor import LogitsProcessorOutput
 from sglang.srt.managers.schedule_batch import Req
-from sglang.srt.utils import is_cuda, is_hip
+from sglang.srt.utils import is_cuda, is_hip, is_npu, next_power_of_2
+_is_cuda = is_cuda()
+_is_hip = is_hip()
+_is_npu = is_npu()
 if TYPE_CHECKING:
     from sglang.srt.speculative.eagle_info import EagleVerifyInput
-if is_cuda():
+if _is_cuda:
     from sgl_kernel import fast_topk
-elif is_hip():
+elif _is_hip:
     from sgl_kernel import fast_topk
+else:
+    from sglang.srt.utils.common import fast_topk
 logger = logging.getLogger(__name__)
@@ -39,7 +45,7 @@ SIMULATE_ACC_LEN = envs.SGLANG_SIMULATE_ACC_LEN.get()  # turn off if < 0
 SIMULATE_ACC_METHOD = envs.SGLANG_SIMULATE_ACC_METHOD.get()
 TREE_TRAVERSE_TIME_THRESHOLD = 1  # TODO: set this properly
-TREE_SPEC_KERNEL_AVAILABLE = is_cuda()  # This kernel is only available for CUDA now
+TREE_SPEC_KERNEL_AVAILABLE = _is_cuda  # This kernel is only available for CUDA now
 @triton.jit
@@ -103,6 +109,36 @@ def assign_req_to_token_pool(
         load_offset += BLOCK_SIZE
+def assign_req_to_token_pool_func(
+    req_pool_indices: torch.Tensor,
+    req_to_token: torch.Tensor,
+    start_offset: torch.Tensor,
+    end_offset: torch.Tensor,
+    out_cache_loc: torch.Tensor,
+    batch_size: int,
+):
+    if _is_cuda or _is_hip:
+        assign_req_to_token_pool[(batch_size,)](
+            req_pool_indices,
+            req_to_token,
+            start_offset,
+            end_offset,
+            out_cache_loc,
+            req_to_token.shape[1],
+            next_power_of_2(batch_size),
+        )
+    elif _is_npu:
+        import sgl_kernel_npu  # noqa: F401
+        torch.ops.npu.cache_loc_assign(
+            req_pool_indices,
+            req_to_token,
+            start_offset,
+            end_offset,
+            out_cache_loc,
+        )
 @triton.jit
 def assign_draft_cache_locs(
     req_pool_indices,
@@ -331,7 +367,7 @@ def get_target_cache_loc(
     )
-@torch.compile(dynamic=True)
+@torch.compile(dynamic=True, disable=_is_npu)
 def get_src_tgt_cache_loc(
     seq_lens: torch.Tensor,
     out_cache_loc: torch.Tensor,
@@ -381,7 +417,7 @@ def filter_finished_cache_loc_kernel(
     )
-@torch.compile(dynamic=True)
+@torch.compile(dynamic=True, disable=_is_npu)
 def create_accept_length_filter(
     accept_length: torch.Tensor,
     unfinished_index_device: torch.Tensor,
@@ -395,7 +431,7 @@ def create_accept_length_filter(
     return accept_length_filter
-@torch.compile(dynamic=True)
+@torch.compile(dynamic=True, disable=_is_npu)
 def select_top_k_tokens(
     i: int,
     topk_p: torch.Tensor,
@@ -413,7 +449,7 @@ def select_top_k_tokens(
         tree_info = (
             topk_p.unsqueeze(1),  # shape: (b, 1, topk)
             topk_index,  # shape: (b, topk)
-            torch.arange(-1, topk, dtype=torch.long, device="cuda")
+            torch.arange(-1, topk, dtype=torch.long, device=hidden_states.device)
             .unsqueeze(0)
             .repeat(topk_p.shape[0], 1),  # shape: (b, topk + 1)
         )

sglang 0.5.4__py3-none-any.whl → 0.5.4.post2__py3-none-any.whl

sglang 0.5.4py3-none-any.whl → 0.5.4.post2py3-none-any.whl