PyPI - sglang - Versions diffs - 0.5.3__py3-none-any.whl → 0.5.3.post2__py3-none-any.whl - Mend

sglang 0.5.3py3-none-any.whl → 0.5.3.post2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (258) hide show

sglang/bench_one_batch.py +12 -4
sglang/bench_one_batch_server.py +40 -25
sglang/bench_serving.py +327 -141
sglang/compile_deep_gemm.py +6 -2
sglang/global_config.py +1 -25
sglang/lang/api.py +6 -0
sglang/lang/interpreter.py +1 -0
sglang/lang/ir.py +13 -0
sglang/launch_server.py +8 -15
sglang/profiler.py +18 -1
sglang/srt/batch_invariant_ops/batch_invariant_ops.py +4 -6
sglang/srt/compilation/backend.py +431 -0
sglang/srt/compilation/compilation_config.py +19 -0
sglang/srt/compilation/compilation_counter.py +47 -0
sglang/srt/compilation/compile.py +210 -0
sglang/srt/compilation/compiler_interface.py +477 -0
sglang/srt/compilation/cuda_piecewise_backend.py +228 -0
sglang/srt/compilation/fix_functionalization.py +134 -0
sglang/srt/compilation/fx_utils.py +83 -0
sglang/srt/compilation/inductor_pass.py +140 -0
sglang/srt/compilation/pass_manager.py +66 -0
sglang/srt/compilation/piecewise_context_manager.py +40 -0
sglang/srt/compilation/weak_ref_tensor_jit.py +16 -0
sglang/srt/configs/__init__.py +2 -0
sglang/srt/configs/falcon_h1.py +12 -58
sglang/srt/configs/load_config.py +3 -2
sglang/srt/configs/mamba_utils.py +117 -0
sglang/srt/configs/model_config.py +73 -22
sglang/srt/configs/nemotron_h.py +286 -0
sglang/srt/configs/qwen3_next.py +11 -46
sglang/srt/constrained/base_grammar_backend.py +5 -1
sglang/srt/constrained/llguidance_backend.py +3 -0
sglang/srt/constrained/outlines_backend.py +1 -1
sglang/srt/constrained/xgrammar_backend.py +5 -1
sglang/srt/disaggregation/decode.py +15 -24
sglang/srt/disaggregation/decode_kvcache_offload_manager.py +1 -1
sglang/srt/disaggregation/nixl/conn.py +55 -23
sglang/srt/disaggregation/prefill.py +21 -34
sglang/srt/distributed/device_communicators/all_reduce_utils.py +4 -4
sglang/srt/distributed/device_communicators/custom_all_reduce.py +2 -2
sglang/srt/distributed/device_communicators/pynccl_allocator.py +2 -2
sglang/srt/distributed/parallel_state.py +37 -5
sglang/srt/entrypoints/context.py +3 -1
sglang/srt/entrypoints/engine.py +3 -3
sglang/srt/entrypoints/grpc_server.py +384 -100
sglang/srt/entrypoints/harmony_utils.py +2 -1
sglang/srt/entrypoints/http_server.py +51 -2
sglang/srt/entrypoints/openai/protocol.py +162 -31
sglang/srt/entrypoints/openai/serving_base.py +2 -1
sglang/srt/entrypoints/openai/serving_chat.py +16 -73
sglang/srt/entrypoints/openai/serving_completions.py +1 -0
sglang/srt/entrypoints/openai/serving_responses.py +1 -1
sglang/srt/entrypoints/openai/serving_tokenize.py +144 -0
sglang/srt/environ.py +14 -0
sglang/srt/eplb/expert_distribution.py +3 -4
sglang/srt/eplb/expert_location_dispatch.py +2 -2
sglang/srt/eplb/expert_location_updater.py +2 -2
sglang/srt/function_call/base_format_detector.py +17 -18
sglang/srt/function_call/function_call_parser.py +8 -6
sglang/srt/function_call/gpt_oss_detector.py +1 -1
sglang/srt/function_call/utils.py +2 -1
sglang/srt/grpc/compile_proto.py +2 -2
sglang/srt/{entrypoints → grpc}/grpc_request_manager.py +93 -42
sglang/srt/grpc/sglang_scheduler_pb2.py +78 -70
sglang/srt/grpc/sglang_scheduler_pb2.pyi +66 -10
sglang/srt/grpc/sglang_scheduler_pb2_grpc.py +89 -1
sglang/srt/layers/attention/aiter_backend.py +3 -3
sglang/srt/layers/attention/attention_registry.py +33 -22
sglang/srt/layers/attention/base_attn_backend.py +19 -0
sglang/srt/layers/attention/double_sparsity_backend.py +2 -2
sglang/srt/layers/attention/fla/layernorm_gated.py +47 -30
sglang/srt/layers/attention/fla/utils.py +0 -3
sglang/srt/layers/attention/flashattention_backend.py +12 -8
sglang/srt/layers/attention/flashinfer_backend.py +239 -19
sglang/srt/layers/attention/flashinfer_mla_backend.py +10 -10
sglang/srt/layers/attention/flashmla_backend.py +2 -2
sglang/srt/layers/attention/hybrid_linear_attn_backend.py +165 -59
sglang/srt/layers/attention/mamba/causal_conv1d.py +1 -1
sglang/srt/layers/attention/mamba/causal_conv1d_triton.py +9 -4
sglang/srt/layers/attention/mamba/mamba.py +189 -241
sglang/srt/layers/attention/mamba/mamba2_metadata.py +211 -0
sglang/srt/layers/attention/mamba/mixer2_rms_norm_gated.py +120 -0
sglang/srt/layers/attention/mamba/ops/ssd_bmm.py +0 -50
sglang/srt/layers/attention/mamba/ops/ssd_chunk_scan.py +0 -60
sglang/srt/layers/attention/mamba/ops/ssd_chunk_state.py +0 -111
sglang/srt/layers/attention/mamba/ops/ssd_state_passing.py +0 -11
sglang/srt/layers/attention/nsa/nsa_indexer.py +10 -4
sglang/srt/layers/attention/nsa/triton_kernel.py +136 -0
sglang/srt/layers/attention/triton_backend.py +72 -33
sglang/srt/layers/attention/triton_ops/double_sparsity_attention.py +2 -2
sglang/srt/layers/attention/trtllm_mha_backend.py +2 -2
sglang/srt/layers/attention/trtllm_mla_backend.py +5 -5
sglang/srt/layers/attention/vision.py +3 -3
sglang/srt/layers/communicator.py +8 -5
sglang/srt/layers/layernorm.py +10 -5
sglang/srt/layers/logits_processor.py +146 -16
sglang/srt/layers/modelopt_utils.py +11 -0
sglang/srt/layers/moe/cutlass_w4a8_moe.py +214 -21
sglang/srt/layers/moe/ep_moe/kernels.py +31 -452
sglang/srt/layers/moe/ep_moe/layer.py +32 -290
sglang/srt/layers/moe/fused_moe_triton/configs/triton_3_4_0/E=256,N=256,device_name=NVIDIA_B200.json +146 -0
sglang/srt/layers/moe/fused_moe_triton/fused_moe_triton_config.py +11 -3
sglang/srt/layers/moe/fused_moe_triton/layer.py +6 -13
sglang/srt/layers/moe/moe_runner/deep_gemm.py +304 -0
sglang/srt/layers/moe/moe_runner/runner.py +3 -0
sglang/srt/layers/moe/router.py +51 -15
sglang/srt/layers/moe/token_dispatcher/__init__.py +8 -0
sglang/srt/layers/moe/token_dispatcher/deepep.py +13 -4
sglang/srt/layers/moe/token_dispatcher/mooncake.py +394 -0
sglang/srt/layers/moe/utils.py +15 -1
sglang/srt/layers/quantization/__init__.py +1 -1
sglang/srt/layers/quantization/compressed_tensors/compressed_tensors.py +2 -2
sglang/srt/layers/quantization/deep_gemm_wrapper/compile_utils.py +3 -5
sglang/srt/layers/quantization/deep_gemm_wrapper/configurer.py +3 -2
sglang/srt/layers/quantization/fp8.py +84 -18
sglang/srt/layers/quantization/fp8_kernel.py +35 -8
sglang/srt/layers/quantization/fp8_utils.py +1 -3
sglang/srt/layers/quantization/int8_kernel.py +19 -3
sglang/srt/layers/quantization/modelopt_quant.py +10 -20
sglang/srt/layers/quantization/mxfp4.py +4 -4
sglang/srt/layers/quantization/quark/quark.py +3 -1
sglang/srt/layers/quantization/w4afp8.py +49 -17
sglang/srt/layers/radix_attention.py +59 -9
sglang/srt/layers/rotary_embedding.py +33 -9
sglang/srt/layers/sampler.py +33 -13
sglang/srt/lora/eviction_policy.py +139 -0
sglang/srt/lora/lora_manager.py +23 -8
sglang/srt/lora/lora_registry.py +1 -1
sglang/srt/lora/mem_pool.py +40 -16
sglang/srt/lora/triton_ops/chunked_sgmv_expand.py +1 -1
sglang/srt/lora/triton_ops/chunked_sgmv_shrink.py +4 -2
sglang/srt/managers/cache_controller.py +45 -13
sglang/srt/managers/data_parallel_controller.py +123 -27
sglang/srt/managers/detokenizer_manager.py +3 -0
sglang/srt/managers/io_struct.py +43 -3
sglang/srt/managers/mm_utils.py +2 -2
sglang/srt/managers/multi_tokenizer_mixin.py +17 -0
sglang/srt/managers/overlap_utils.py +96 -19
sglang/srt/managers/schedule_batch.py +195 -455
sglang/srt/managers/schedule_policy.py +13 -1
sglang/srt/managers/scheduler.py +373 -180
sglang/srt/managers/scheduler_metrics_mixin.py +51 -2
sglang/srt/managers/scheduler_output_processor_mixin.py +277 -96
sglang/srt/managers/scheduler_profiler_mixin.py +57 -10
sglang/srt/managers/scheduler_update_weights_mixin.py +19 -14
sglang/srt/managers/tokenizer_communicator_mixin.py +2 -0
sglang/srt/managers/tokenizer_manager.py +315 -60
sglang/srt/managers/tp_worker.py +66 -37
sglang/srt/mem_cache/allocator.py +7 -2
sglang/srt/mem_cache/base_prefix_cache.py +1 -1
sglang/srt/mem_cache/chunk_cache.py +6 -2
sglang/srt/mem_cache/common.py +475 -0
sglang/srt/mem_cache/hicache_storage.py +4 -1
sglang/srt/mem_cache/hiradix_cache.py +16 -3
sglang/srt/mem_cache/mamba_radix_cache.py +995 -0
sglang/srt/mem_cache/memory_pool.py +199 -96
sglang/srt/mem_cache/radix_cache.py +99 -20
sglang/srt/mem_cache/radix_cache_cpp.py +19 -14
sglang/srt/mem_cache/storage/aibrix_kvcache/aibrix_kvcache_storage.py +8 -2
sglang/srt/mem_cache/storage/backend_factory.py +2 -2
sglang/srt/mem_cache/storage/eic/eic_storage.py +3 -1
sglang/srt/mem_cache/storage/hf3fs/storage_hf3fs.py +9 -3
sglang/srt/mem_cache/storage/lmcache/lmc_radix_cache.py +4 -2
sglang/srt/mem_cache/storage/mooncake_store/mooncake_store.py +44 -17
sglang/srt/mem_cache/storage/nixl/hicache_nixl.py +37 -7
sglang/srt/mem_cache/storage/nixl/test_hicache_nixl_storage.py +16 -1
sglang/srt/mem_cache/swa_radix_cache.py +92 -26
sglang/srt/metrics/collector.py +18 -0
sglang/srt/model_executor/cuda_graph_runner.py +4 -3
sglang/srt/model_executor/forward_batch_info.py +13 -21
sglang/srt/model_executor/model_runner.py +261 -113
sglang/srt/model_executor/piecewise_cuda_graph_runner.py +527 -0
sglang/srt/model_loader/__init__.py +1 -1
sglang/srt/model_loader/loader.py +277 -21
sglang/srt/model_loader/weight_utils.py +3 -0
sglang/srt/models/apertus.py +2 -3
sglang/srt/models/arcee.py +2 -2
sglang/srt/models/bailing_moe.py +8 -8
sglang/srt/models/bailing_moe_nextn.py +3 -4
sglang/srt/models/deepseek_nextn.py +2 -2
sglang/srt/models/deepseek_v2.py +49 -32
sglang/srt/models/dots_vlm_vit.py +1 -1
sglang/srt/models/falcon_h1.py +13 -18
sglang/srt/models/gemma3_mm.py +16 -0
sglang/srt/models/glm4_moe.py +8 -12
sglang/srt/models/glm4_moe_nextn.py +2 -2
sglang/srt/models/glm4v.py +1 -1
sglang/srt/models/glm4v_moe.py +5 -5
sglang/srt/models/gpt_oss.py +4 -4
sglang/srt/models/grok.py +10 -23
sglang/srt/models/kimi_vl.py +1 -7
sglang/srt/models/kimi_vl_moonvit.py +3 -1
sglang/srt/models/llama.py +2 -2
sglang/srt/models/longcat_flash.py +3 -7
sglang/srt/models/minicpmo.py +7 -2
sglang/srt/models/mixtral.py +1 -3
sglang/srt/models/mllama4.py +13 -3
sglang/srt/models/nemotron_h.py +514 -0
sglang/srt/models/qwen2_5_vl.py +1 -1
sglang/srt/models/qwen2_moe.py +4 -4
sglang/srt/models/qwen2_vl.py +1 -1
sglang/srt/models/qwen3_moe.py +4 -4
sglang/srt/models/qwen3_next.py +2 -2
sglang/srt/models/qwen3_next_mtp.py +3 -4
sglang/srt/models/qwen3_vl.py +9 -10
sglang/srt/models/qwen3_vl_moe.py +6 -15
sglang/srt/models/step3_vl.py +2 -3
sglang/srt/models/utils.py +5 -1
sglang/srt/sampling/custom_logit_processor.py +2 -1
sglang/srt/sampling/sampling_batch_info.py +17 -22
sglang/srt/sampling/sampling_params.py +70 -2
sglang/srt/server_args.py +345 -64
sglang/srt/single_batch_overlap.py +0 -1
sglang/srt/speculative/draft_utils.py +210 -0
sglang/srt/speculative/eagle_draft_cuda_graph_runner.py +3 -6
sglang/srt/speculative/eagle_info.py +53 -17
sglang/srt/speculative/eagle_info_v2.py +404 -0
sglang/srt/speculative/eagle_utils.py +138 -0
sglang/srt/speculative/eagle_worker.py +65 -235
sglang/srt/speculative/eagle_worker_v2.py +484 -0
sglang/srt/speculative/{ngram_utils.py → ngram_info.py} +14 -9
sglang/srt/speculative/ngram_worker.py +12 -11
sglang/srt/speculative/spec_utils.py +1 -2
sglang/srt/tokenizer/tiktoken_tokenizer.py +2 -2
sglang/srt/two_batch_overlap.py +23 -13
sglang/srt/utils/__init__.py +1 -1
sglang/srt/{bench_utils.py → utils/bench_utils.py} +4 -2
sglang/srt/utils/common.py +94 -23
sglang/srt/utils/hf_transformers_utils.py +4 -1
sglang/srt/{offloader.py → utils/offloader.py} +4 -4
sglang/srt/utils/profile_merger.py +199 -0
sglang/test/longbench_v2/__init__.py +1 -0
sglang/test/longbench_v2/test_longbench_v2_eval.py +238 -0
sglang/test/longbench_v2/validate_longbench_v2.py +337 -0
sglang/test/longbench_v2/validate_longbench_v2_standalone.py +306 -0
sglang/test/run_eval.py +41 -0
sglang/test/runners.py +2 -0
sglang/test/simple_eval_common.py +3 -0
sglang/test/simple_eval_longbench_v2.py +344 -0
sglang/test/test_cutlass_moe.py +1 -1
sglang/test/test_cutlass_w4a8_moe.py +9 -19
sglang/test/test_deterministic.py +20 -7
sglang/test/test_deterministic_utils.py +81 -0
sglang/test/test_disaggregation_utils.py +63 -0
sglang/test/test_utils.py +37 -17
sglang/version.py +1 -1
{sglang-0.5.3.dist-info → sglang-0.5.3.post2.dist-info}/METADATA +26 -14
{sglang-0.5.3.dist-info → sglang-0.5.3.post2.dist-info}/RECORD +254 -220
sglang/srt/layers/attention/mamba/mamba_utils.py +0 -81
sglang/srt/managers/tp_worker_overlap_thread.py +0 -311
sglang/srt/speculative/build_eagle_tree.py +0 -427
sglang/test/test_block_fp8_ep.py +0 -358
/sglang/srt/{aio_rwlock.py → utils/aio_rwlock.py} +0 -0
/sglang/srt/{host_shared_memory.py → utils/host_shared_memory.py} +0 -0
/sglang/srt/{torch_memory_saver_adapter.py → utils/torch_memory_saver_adapter.py} +0 -0
{sglang-0.5.3.dist-info → sglang-0.5.3.post2.dist-info}/WHEEL +0 -0
{sglang-0.5.3.dist-info → sglang-0.5.3.post2.dist-info}/licenses/LICENSE +0 -0
{sglang-0.5.3.dist-info → sglang-0.5.3.post2.dist-info}/top_level.txt +0 -0

sglang/bench_one_batch.py CHANGED Viewed

@@ -51,6 +51,7 @@ import logging
 import multiprocessing
 import os
 import time
+from types import SimpleNamespace
 from typing import Tuple
 import numpy as np
@@ -204,7 +205,6 @@ def prepare_inputs_for_correctness_test(bench_args, tokenizer, custom_prompts):
             origin_input_ids=tmp_input_ids,
             sampling_params=sampling_params,
         )
-        req.prefix_indices = []
         req.fill_ids = req.origin_input_ids
         req.extend_input_len = len(req.fill_ids) - len(req.prefix_indices)
         req.logprob_start_len = len(req.origin_input_ids) - 1
@@ -248,7 +248,6 @@ def prepare_synthetic_inputs_for_latency_test(
             origin_input_ids=list(input_ids[i]),
             sampling_params=sampling_params,
         )
-        req.prefix_indices = []
         req.fill_ids = req.origin_input_ids
         req.extend_input_len = len(req.fill_ids) - len(req.prefix_indices)
         req.logprob_start_len = len(req.origin_input_ids) - 1
@@ -259,11 +258,18 @@ def prepare_synthetic_inputs_for_latency_test(
 @torch.no_grad
 def extend(reqs, model_runner):
+    # Create dummy tree_cache for benchmarks (no prefix caching, just allocation)
+    dummy_tree_cache = SimpleNamespace(
+        page_size=1,
+        device=model_runner.device,
+        token_to_kv_pool_allocator=model_runner.token_to_kv_pool_allocator,
+    )
     batch = ScheduleBatch.init_new(
         reqs=reqs,
         req_to_token_pool=model_runner.req_to_token_pool,
         token_to_kv_pool_allocator=model_runner.token_to_kv_pool_allocator,
-        tree_cache=None,
+        tree_cache=dummy_tree_cache,
         model_config=model_runner.model_config,
         enable_overlap=False,
         spec_algorithm=SpeculativeAlgorithm.NONE,
@@ -512,7 +518,9 @@ def latency_test(
     # Set CPU affinity
     if get_bool_env_var("SGLANG_SET_CPU_AFFINITY"):
-        set_gpu_proc_affinity(server_args.tp_size, server_args.nnodes, tp_rank)
+        set_gpu_proc_affinity(
+            server_args.pp_size, server_args.tp_size, server_args.nnodes, tp_rank
+        )
     # Configure the logger
     configure_logger(server_args, prefix=f" TP{tp_rank}")

sglang/bench_one_batch_server.py CHANGED Viewed

@@ -25,8 +25,10 @@ from typing import List, Optional, Tuple
 import numpy as np
 import requests
 from pydantic import BaseModel
+from transformers import AutoProcessor, PreTrainedTokenizer
 from sglang.bench_serving import (
+    get_processor,
     get_tokenizer,
     sample_mmmu_requests,
     sample_random_requests,
@@ -104,8 +106,14 @@ Note: To view the traces through perfetto-ui, please:
             if self.profile_links.extend or self.profile_links.decode:
                 # Create a combined link or use the first available one
                 trace_files = [self.profile_links.extend, self.profile_links.decode]
+                if any(trace_file is None for trace_file in trace_files):
+                    logger.error("Some trace files are None", f"{trace_files=}")
                 trace_files_relay_links = [
-                    f"[trace]({get_perfetto_relay_link_from_trace_file(trace_file)})"
+                    (
+                        f"[trace]({get_perfetto_relay_link_from_trace_file(trace_file)})"
+                        if trace_file
+                        else "N/A"
+                    )
                     for trace_file in trace_files
                 ]
@@ -114,30 +122,31 @@ Note: To view the traces through perfetto-ui, please:
         # Build the row
         return f"| {self.batch_size} | {self.input_len} | {self.latency:.2f} | {self.input_throughput:.2f} | {self.output_throughput:.2f} | {accept_length} | {itl:.2f} | {input_cost:.2f} | {output_cost:.2f} | {profile_link} |\n"
-    @classmethod
-    def generate_markdown_report(
-        cls, trace_dir, results: List["BenchmarkResult"]
-    ) -> str:
-        """Generate a markdown report from a list of BenchmarkResult object from a single run."""
-        import os
-        summary = f"### {results[0].model_path}\n"
+def generate_markdown_report(trace_dir, results: List["BenchmarkResult"]) -> str:
+    """Generate a markdown report from a list of BenchmarkResult object from a single run."""
+    import os
+    summary = f"### {results[0].model_path}\n"
-        # summary += (
-        #     f"Input lens: {result.input_len}. Output lens: {result.output_len}.\n"
-        # )
-        summary += "| batch size | input len | latency (s) | input throughput (tok/s)  | output throughput (tok/s) | acc length | ITL (ms) | input cost ($/1M) | output cost ($/1M) | profile (extend) | profile (decode)|\n"
-        summary += "| ---------- | --------- | ----------- | ------------------------- | ------------------------- | ---------- | -------- | ----------------- | ------------------ | --------------- | -------------- |\n"
+    # summary += (
+    #     f"Input lens: {result.input_len}. Output lens: {result.output_len}.\n"
+    # )
+    summary += "| batch size | input len | latency (s) | input throughput (tok/s)  | output throughput (tok/s) | acc length | ITL (ms) | input cost ($/1M) | output cost ($/1M) | profile (extend) | profile (decode)|\n"
+    summary += "| ---------- | --------- | ----------- | ------------------------- | ------------------------- | ---------- | -------- | ----------------- | ------------------ | --------------- | -------------- |\n"
-        # all results should share the same isl & osl
-        for result in results:
-            base_url = os.getenv("TRACE_BASE_URL", "").rstrip("/")
-            relay_base = os.getenv("PERFETTO_RELAY_URL", "").rstrip("/")
-            relay_base = "https://docs.sglang.ai/ci-data/pages/perfetto_relay.html"
-            # base_url = "https://github.com/sgl-project/ci-data/traces"
-            summary += result.to_markdown_row(trace_dir, base_url, relay_base)
+    # all results should share the same isl & osl
+    for result in results:
+        base_url = os.getenv(
+            "TRACE_BASE_URL", "https://github.com/sgl-project/ci-data/traces"
+        ).rstrip("/")
+        relay_base = os.getenv(
+            "PERFETTO_RELAY_URL",
+            "https://docs.sglang.ai/ci-data/pages/perfetto_relay.html",
+        ).rstrip("/")
+        summary += result.to_markdown_row(trace_dir, base_url, relay_base)
-        return summary
+    return summary
 @dataclasses.dataclass
@@ -288,7 +297,7 @@ def run_one_case(
     input_len_step_percentage: float,
     run_name: str,
     result_filename: str,
-    tokenizer,
+    tokenizer: PreTrainedTokenizer | AutoProcessor,
     dataset_name="",
     profile: bool = False,
     profile_steps: int = 3,
@@ -302,9 +311,8 @@ def run_one_case(
     if dataset_name == "mmmu":
         input_requests = sample_mmmu_requests(
             num_requests=batch_size,
-            tokenizer=tokenizer,
+            processor=tokenizer,
             fixed_output_len=output_len,
-            apply_chat_template=True,
             random_sample=False,
         )
     elif dataset_name == "random":
@@ -364,6 +372,8 @@ def run_one_case(
     if dataset_name == "mmmu":
         # vlm
         input_ids = []
+        # for vlms, tokenizer is an instance of AutoProcessor
+        tokenizer = tokenizer.tokenizer
         for input_req in input_requests:
             input_ids += [tokenizer.encode(input_req.prompt)]
         payload["image_data"] = [req.image_data for req in input_requests]
@@ -609,7 +619,12 @@ def run_benchmark(server_args: ServerArgs, bench_args: BenchArgs):
         tokenizer_path = server_info["tokenizer_path"]
     elif "prefill" in server_info:
         tokenizer_path = server_info["prefill"][0]["tokenizer_path"]
-    tokenizer = get_tokenizer(tokenizer_path)
+    if bench_args.dataset_name == "mmmu":
+        # mmmu implies this is a MLLM
+        tokenizer = get_processor(tokenizer_path)
+    else:
+        tokenizer = get_tokenizer(tokenizer_path)
     # warmup
     if not bench_args.skip_warmup:

sglang 0.5.3__py3-none-any.whl → 0.5.3.post2__py3-none-any.whl

sglang 0.5.3py3-none-any.whl → 0.5.3.post2py3-none-any.whl