PyPI - sglang - Versions diffs - 0.3.6.post2__py3-none-any.whl → 0.3.6.post3__py3-none-any.whl - Mend

sglang 0.3.6.post2py3-none-any.whl → 0.3.6.post3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (32) hide show

sglang/bench_offline_throughput.py +55 -2
sglang/bench_one_batch.py +3 -6
sglang/bench_one_batch_server.py +4 -3
sglang/launch_server.py +3 -2
sglang/srt/managers/data_parallel_controller.py +7 -11
sglang/srt/managers/detokenizer_manager.py +7 -4
sglang/srt/managers/image_processor.py +1 -1
sglang/srt/managers/io_struct.py +0 -10
sglang/srt/managers/schedule_batch.py +24 -22
sglang/srt/managers/scheduler.py +35 -26
sglang/srt/managers/session_controller.py +0 -3
sglang/srt/managers/tokenizer_manager.py +4 -33
sglang/srt/managers/tp_worker_overlap_thread.py +11 -2
sglang/srt/models/grok.py +11 -48
sglang/srt/models/llava.py +9 -8
sglang/srt/models/olmo2.py +392 -0
sglang/srt/models/qwen2_vl.py +10 -3
sglang/srt/openai_api/adapter.py +1 -1
sglang/srt/server.py +46 -44
sglang/srt/server_args.py +1 -1
sglang/srt/utils.py +8 -20
sglang/test/test_utils.py +20 -7
sglang/utils.py +2 -2
sglang/version.py +1 -1
{sglang-0.3.6.post2.dist-info → sglang-0.3.6.post3.dist-info}/METADATA +2 -1
{sglang-0.3.6.post2.dist-info → sglang-0.3.6.post3.dist-info}/RECORD +29 -31
sglang/srt/layers/fused_moe_grok/__init__.py +0 -1
sglang/srt/layers/fused_moe_grok/fused_moe.py +0 -692
sglang/srt/layers/fused_moe_grok/layer.py +0 -630
{sglang-0.3.6.post2.dist-info → sglang-0.3.6.post3.dist-info}/LICENSE +0 -0
{sglang-0.3.6.post2.dist-info → sglang-0.3.6.post3.dist-info}/WHEEL +0 -0
{sglang-0.3.6.post2.dist-info → sglang-0.3.6.post3.dist-info}/top_level.txt +0 -0

sglang/srt/server.py CHANGED Viewed

@@ -23,6 +23,7 @@ import json
 import logging
 import multiprocessing as mp
 import os
+import signal
 import threading
 import time
 from http import HTTPStatus
@@ -79,7 +80,7 @@ from sglang.srt.utils import (
     configure_logger,
     delete_directory,
     is_port_available,
-    kill_child_process,
+    kill_process_tree,
     maybe_set_triton_cache_manager,
     prepare_model_and_tokenizer,
     set_prometheus_multiproc_dir,
@@ -92,7 +93,7 @@ logger = logging.getLogger(__name__)
 asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())
+# Fast API
 app = FastAPI()
 app.add_middleware(
     CORSMiddleware,
@@ -103,7 +104,7 @@ app.add_middleware(
 )
 tokenizer_manager: TokenizerManager = None
-_max_total_num_tokens = None
+scheduler_info: Dict = None
 ##### Native API endpoints #####
@@ -171,7 +172,7 @@ async def flush_cache():
 @app.get("/start_profile")
 @app.post("/start_profile")
-async def start_profile():
+async def start_profile_async():
     """Start profiling."""
     tokenizer_manager.start_profile()
     return Response(
@@ -182,7 +183,7 @@ async def start_profile():
 @app.get("/stop_profile")
 @app.post("/stop_profile")
-async def stop_profile():
+async def stop_profile_async():
     """Stop profiling."""
     tokenizer_manager.stop_profile()
     return Response(
@@ -233,6 +234,8 @@ async def close_session(obj: CloseSessionReqInput, request: Request):
         )
+# fastapi implicitly converts json in the request to obj (dataclass)
+@app.api_route("/generate", methods=["POST", "PUT"])
 @time_func_latency
 async def generate_request(obj: GenerateReqInput, request: Request):
     """Handle a generate request."""
@@ -266,11 +269,7 @@ async def generate_request(obj: GenerateReqInput, request: Request):
             )
-# fastapi implicitly converts json in the request to obj (dataclass)
-app.post("/generate")(generate_request)
-app.put("/generate")(generate_request)
+@app.api_route("/encode", methods=["POST", "PUT"])
 @time_func_latency
 async def encode_request(obj: EmbeddingReqInput, request: Request):
     """Handle an embedding request."""
@@ -283,10 +282,7 @@ async def encode_request(obj: EmbeddingReqInput, request: Request):
         )
-app.post("/encode")(encode_request)
-app.put("/encode")(encode_request)
+@app.api_route("/encode", methods=["POST", "PUT"])
 @time_func_latency
 async def classify_request(obj: EmbeddingReqInput, request: Request):
     """Handle a reward model request. Now the arguments and return values are the same as embedding models."""
@@ -299,10 +295,6 @@ async def classify_request(obj: EmbeddingReqInput, request: Request):
         )
-app.post("/classify")(classify_request)
-app.put("/classify")(classify_request)
 ##### OpenAI-compatible API endpoints #####
@@ -380,11 +372,11 @@ def launch_engine(
     server_args: ServerArgs,
 ):
     """
-    Launch the Tokenizer Manager in the main process, the Scheduler in a subprocess, and the Detokenizer Manager in another subprocess.
+    Launch the TokenizerManager in the main process, the Scheduler in a subprocess, and the DetokenizerManager in another subprocess.
     """
     global tokenizer_manager
-    global _max_total_num_tokens
+    global scheduler_info
     # Configure global environment
     configure_logger(server_args)
@@ -450,8 +442,8 @@ def launch_engine(
     if server_args.chat_template:
         load_chat_template_for_openai_api(tokenizer_manager, server_args.chat_template)
-    # Wait for model to finish loading & get max token nums
-    scheduler_info = []
+    # Wait for model to finish loading
+    scheduler_infos = []
     for i in range(len(scheduler_pipe_readers)):
         data = scheduler_pipe_readers[i].recv()
@@ -459,10 +451,10 @@ def launch_engine(
             raise RuntimeError(
                 "Initialization failed. Please see the error messages above."
             )
-        scheduler_info.append(data)
+        scheduler_infos.append(data)
     # Assume all schedulers have same max_total_num_tokens
-    _max_total_num_tokens = scheduler_info[0]["max_total_num_tokens"]
+    scheduler_info = scheduler_infos[0]
 def launch_server(
@@ -476,12 +468,12 @@ def launch_server(
     1. HTTP server: A FastAPI server that routes requests to the engine.
     2. SRT engine:
-        1. Tokenizer Manager: Tokenizes the requests and sends them to the scheduler.
+        1. TokenizerManager: Tokenizes the requests and sends them to the scheduler.
         2. Scheduler (subprocess): Receives requests from the Tokenizer Manager, schedules batches, forwards them, and sends the output tokens to the Detokenizer Manager.
-        3. Detokenizer Manager (subprocess): Detokenizes the output tokens and sends the result back to the Tokenizer Manager.
+        3. DetokenizerManager (subprocess): Detokenizes the output tokens and sends the result back to the Tokenizer Manager.
     Note:
-    1. The HTTP server and Tokenizer Manager both run in the main process.
+    1. The HTTP server and TokenizerManager both run in the main process.
     2. Inter-process communication is done through ICP (each process uses a different port) via the ZMQ library.
     """
     launch_engine(server_args=server_args)
@@ -490,7 +482,7 @@ def launch_server(
     if server_args.api_key:
         add_api_key_middleware(app, server_args.api_key)
-    # add prometheus middleware
+    # Add prometheus middleware
     if server_args.enable_metrics:
         add_prometheus_middleware(app)
         enable_func_timer()
@@ -502,7 +494,7 @@ def launch_server(
     t.start()
     try:
-        # Listen for HTTP requests
+        # Update logging configs
         LOGGING_CONFIG["formatters"]["default"][
             "fmt"
         ] = "[%(asctime)s] %(levelprefix)s %(message)s"
@@ -511,6 +503,8 @@ def launch_server(
             "fmt"
         ] = '[%(asctime)s] %(levelprefix)s %(client_addr)s - "%(request_line)s" %(status_code)s'
         LOGGING_CONFIG["formatters"]["access"]["datefmt"] = "%Y-%m-%d %H:%M:%S"
+        # Listen for HTTP requests
         uvicorn.run(
             app,
             host=server_args.host,
@@ -526,8 +520,7 @@ def launch_server(
 async def _get_server_info():
     return {
         **dataclasses.asdict(tokenizer_manager.server_args),  # server args
-        "memory_pool_size": await tokenizer_manager.get_memory_pool_size(),  # memory pool size
-        "max_total_num_tokens": _max_total_num_tokens,  # max total num tokens
+        **scheduler_info,
         "version": __version__,
     }
@@ -562,6 +555,15 @@ def _set_envs_and_config(server_args: ServerArgs):
             "at https://docs.flashinfer.ai/installation.html.",
         )
+    # Register the signal handler.
+    # The child processes will send SIGQUIT to this process when any error happens
+    # This process then clean up the whole process tree
+    def sigquit_handler(signum, frame):
+        kill_process_tree(os.getpid())
+    signal.signal(signal.SIGQUIT, sigquit_handler)
+    # Set mp start method
     mp.set_start_method("spawn", force=True)
@@ -588,7 +590,7 @@ def _wait_and_warmup(server_args, pipe_finish_writer):
         if pipe_finish_writer is not None:
             pipe_finish_writer.send(last_traceback)
         logger.error(f"Initialization failed. warmup error: {last_traceback}")
-        kill_child_process(include_self=True)
+        kill_process_tree(os.getpid())
         return
     model_info = res.json()
@@ -621,9 +623,10 @@ def _wait_and_warmup(server_args, pipe_finish_writer):
         if pipe_finish_writer is not None:
             pipe_finish_writer.send(last_traceback)
         logger.error(f"Initialization failed. warmup error: {last_traceback}")
-        kill_child_process(include_self=True)
+        kill_process_tree(os.getpid())
         return
+    # Debug print
     # logger.info(f"{res.json()=}")
     logger.info("The server is fired up and ready to roll!")
@@ -690,7 +693,7 @@ class Runtime:
     def shutdown(self):
         if self.pid is not None:
-            kill_child_process(self.pid, include_self=True)
+            kill_process_tree(self.pid)
             self.pid = None
     def cache_prefix(self, prefix: str):
@@ -800,18 +803,11 @@ class Engine:
     launching the HTTP server adds unnecessary complexity or overhead,
     """
-    def __init__(self, *args, **kwargs):
+    def __init__(self, log_level: str = "error", *args, **kwargs):
         # before python program terminates, call shutdown implicitly. Therefore, users don't have to explicitly call .shutdown()
         atexit.register(self.shutdown)
-        # runtime server default log level is log
-        # offline engine works in scripts, so we set it to error
-        if "log_level" not in kwargs:
-            kwargs["log_level"] = "error"
-        server_args = ServerArgs(*args, **kwargs)
+        server_args = ServerArgs(*args, log_level=log_level, **kwargs)
         launch_engine(server_args=server_args)
     def generate(
@@ -914,7 +910,7 @@ class Engine:
             return ret
     def shutdown(self):
-        kill_child_process()
+        kill_process_tree(os.getpid(), include_parent=False)
     def get_tokenizer(self):
         global tokenizer_manager
@@ -934,5 +930,11 @@ class Engine:
         loop = asyncio.get_event_loop()
         return loop.run_until_complete(encode_request(obj, None))
+    def start_profile(self):
+        tokenizer_manager.start_profile()
+    def stop_profile(self):
+        tokenizer_manager.stop_profile()
     async def get_server_info(self):
         return await _get_server_info()

sglang/srt/server_args.py CHANGED Viewed

@@ -144,7 +144,7 @@ class ServerArgs:
         if self.served_model_name is None:
             self.served_model_name = self.model_path
-        if self.chunked_prefill_size <= 0:
+        if self.chunked_prefill_size is not None and self.chunked_prefill_size <= 0:
             # Disable chunked prefill
             self.chunked_prefill_size = None

sglang/srt/utils.py CHANGED Viewed

@@ -443,26 +443,14 @@ def assert_pkg_version(pkg: str, min_version: str, message: str):
         )
-def kill_parent_process():
-    """Kill the parent process and all children of the parent process."""
-    current_process = psutil.Process()
-    parent_process = current_process.parent()
-    kill_child_process(
-        parent_process.pid, include_self=True, skip_pid=current_process.pid
-    )
-    try:
-        current_process.kill()
-    except psutil.NoSuchProcess:
-        pass
-def kill_child_process(pid=None, include_self=False, skip_pid=None):
-    """Kill the process and all its children process."""
-    if pid is None:
-        pid = os.getpid()
+def kill_process_tree(parent_pid, include_parent: bool = True, skip_pid: int = None):
+    """Kill the process and all its child processes."""
+    if parent_pid is None:
+        parent_pid = os.getpid()
+        include_parent = False
     try:
-        itself = psutil.Process(pid)
+        itself = psutil.Process(parent_pid)
     except psutil.NoSuchProcess:
         return
@@ -475,13 +463,13 @@ def kill_child_process(pid=None, include_self=False, skip_pid=None):
         except psutil.NoSuchProcess:
             pass
-    if include_self:
+    if include_parent:
         try:
             itself.kill()
             # Sometime processes cannot be killed with SIGKILL (e.g, PID=1 launched by kubernetes),
             # so we send an additional signal to kill them.
-            itself.send_signal(signal.SIGINT)
+            itself.send_signal(signal.SIGQUIT)
         except psutil.NoSuchProcess:
             pass

sglang/test/test_utils.py CHANGED Viewed

@@ -22,7 +22,7 @@ from sglang.bench_serving import run_benchmark
 from sglang.global_config import global_config
 from sglang.lang.backend.openai import OpenAI
 from sglang.lang.backend.runtime_endpoint import RuntimeEndpoint
-from sglang.srt.utils import get_bool_env_var, kill_child_process
+from sglang.srt.utils import get_bool_env_var, kill_process_tree
 from sglang.test.run_eval import run_eval
 from sglang.utils import get_exception_traceback
@@ -504,7 +504,7 @@ def run_unittest_files(files: List[str], timeout_per_file: float):
             )
             assert ret_code == 0
         except TimeoutError:
-            kill_child_process(process.pid, include_self=True)
+            kill_process_tree(process.pid)
             time.sleep(5)
             print(
                 f"\nTimeout after {timeout_per_file} seconds when running {filename}\n",
@@ -578,7 +578,7 @@ def run_bench_serving(
             run_benchmark(warmup_args)
         res = run_benchmark(args)
     finally:
-        kill_child_process(process.pid, include_self=True)
+        kill_process_tree(process.pid)
     assert res["completed"] == num_prompts
     return res
@@ -611,7 +611,7 @@ def run_bench_one_batch(model, other_args):
         lastline = output.split("\n")[-3]
         output_throughput = float(lastline.split(" ")[-2])
     finally:
-        kill_child_process(process.pid, include_self=True)
+        kill_process_tree(process.pid)
     return output_throughput
@@ -677,8 +677,14 @@ def run_and_check_memory_leak(
     enable_mixed_chunk,
     disable_overlap,
     chunked_prefill_size,
+    assert_has_abort,
 ):
-    other_args = ["--chunked-prefill-size", str(chunked_prefill_size)]
+    other_args = [
+        "--chunked-prefill-size",
+        str(chunked_prefill_size),
+        "--log-level",
+        "debug",
+    ]
     if disable_radix_cache:
         other_args += ["--disable-radix-cache"]
     if enable_mixed_chunk:
@@ -710,8 +716,8 @@ def run_and_check_memory_leak(
     workload_func(base_url, model)
     # Clean up everything
-    kill_child_process(process.pid, include_self=True)
-    kill_child_process(process.pid, include_self=True)
+    kill_process_tree(process.pid)
+    kill_process_tree(process.pid)
     stdout.close()
     stderr.close()
     if os.path.exists(STDOUT_FILENAME):
@@ -723,14 +729,19 @@ def run_and_check_memory_leak(
     # Assert success
     has_new_server = False
     has_leak = False
+    has_abort = False
     for line in output_lines:
         if "The server is fired" in line:
             has_new_server = True
         if "leak" in line:
             has_leak = True
+        if "Abort" in line:
+            has_abort = True
     assert has_new_server
     assert not has_leak
+    if assert_has_abort:
+        assert has_abort
 def run_mmlu_test(
@@ -761,6 +772,7 @@ def run_mmlu_test(
         enable_mixed_chunk,
         disable_overlap,
         chunked_prefill_size,
+        assert_has_abort=False,
     )
@@ -800,4 +812,5 @@ def run_mulit_request_test(
         enable_mixed_chunk,
         enable_overlap,
         chunked_prefill_size,
+        assert_has_abort=False,
     )

sglang/utils.py CHANGED Viewed

@@ -348,9 +348,9 @@ def wait_for_server(base_url: str, timeout: int = None) -> None:
 def terminate_process(process):
-    from sglang.srt.utils import kill_child_process
+    from sglang.srt.utils import kill_process_tree
-    kill_child_process(process.pid, include_self=True)
+    kill_process_tree(process.pid)
 def print_highlight(html_content: str):

sglang/version.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__ = "0.3.6.~~post2~~"
1	+ __version__ = "0.3.6.post3"

{sglang-0.3.6.post2.dist-info → sglang-0.3.6.post3.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: sglang
-Version: 0.3.6.post2
+Version: 0.3.6.post3
 Summary: SGLang is yet another fast serving framework for large language models and vision language models.
 License:                                  Apache License
                                    Version 2.0, January 2004
@@ -241,6 +241,7 @@ Requires-Dist: sglang[runtime_common]; extra == "srt"
 Requires-Dist: torch; extra == "srt"
 Requires-Dist: vllm>=0.6.3.post1; extra == "srt"
 Requires-Dist: cuda-python; extra == "srt"
+Requires-Dist: flashinfer>=0.1.6; extra == "srt"
 Provides-Extra: srt-hip
 Requires-Dist: sglang[runtime_common]; extra == "srt-hip"
 Requires-Dist: torch; extra == "srt-hip"

{sglang-0.3.6.post2.dist-info → sglang-0.3.6.post3.dist-info}/RECORD RENAMED Viewed

@@ -1,16 +1,16 @@
 sglang/__init__.py,sha256=3M0oz0ZA8fULhV5LwQ4hxh-MRdHsOJRD1D63C60pdG4,1616
 sglang/api.py,sha256=NdO6cYnklnEBQBKqQjlqI8-P1EownKQ71t5ibCGhEVo,6953
 sglang/bench_latency.py,sha256=oZjSAzX7dUiSu-zdz0dkyUPo-qAX_lsXFH1gf03akgI,76
-sglang/bench_offline_throughput.py,sha256=z6uA6Gxa_nFZa0cOXi7MJDuX82xcqk5WfqBMavd8a-s,10929
-sglang/bench_one_batch.py,sha256=AVMpCBWEsMI2TlMK55JPgPJu0kHg8DI0WV_Bhd4pJgc,15668
-sglang/bench_one_batch_server.py,sha256=hYc3r9JQOLrfqmKgKPOmP0Kr63Sya9wPV_dHzMRZ2Dw,5924
+sglang/bench_offline_throughput.py,sha256=3OrFI26PmoVTU3pQrBFC50AZI7HpKKuk4vYycbkDjhY,12428
+sglang/bench_one_batch.py,sha256=iSev0LruPdfJ49mVeCJNFREmgex2omDSpTgwHgRDNIo,15692
+sglang/bench_one_batch_server.py,sha256=-fV9FTLNNcSIy0pgYeggXedPVK0fVsXZqVQswT8OMOY,5945
 sglang/bench_serving.py,sha256=hI7FjaERyqKBrYtKewDU6E4rSufKxqsUPyUgtWtTKSI,52545
 sglang/check_env.py,sha256=rE4ZAG0e6M-Xd-qdHcKclN8Qav6b9gEh4yvlV_TbOg0,5450
 sglang/global_config.py,sha256=fnT0U9vlHdGaQFKN9tYTnUF4-eVW4HYQURd5zvPtrg0,1286
-sglang/launch_server.py,sha256=U17c44CbbpMBm2JQxVLaz1mfUKk7PgBDhTLAFNeJEvI,362
+sglang/launch_server.py,sha256=4y2QeSj0wVNB9MJQZeahD4ahTDU6gwqo7MPUytyFop0,403
 sglang/launch_server_llavavid.py,sha256=tGc17S1vUfLwbi1GB26oOdXxTWr7gjlqpTrPnrMRNO8,1007
-sglang/utils.py,sha256=eCvD3fZCALr-MuyZxJL7HAeeqqpxAxf4LJrf7OiCbco,11547
-sglang/version.py,sha256=_Aams_yVBpGe9-85k-kF3qpgcd3D_AsWkVfMFmCWh3c,28
+sglang/utils.py,sha256=r4Dw-xffcrTRposls-gqyoYxjgJNYhVduK_6bDN_Vj4,11526
+sglang/version.py,sha256=pyFIjLZBxCp2AwTbeLFaYhEL1dFXGzpYW00Vkg2755Y,28
 sglang/lang/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 sglang/lang/chat_template.py,sha256=jprS3-In2FTUoedKwZg-HYvDwU8RTIYntOlf2zoN2sU,14814
 sglang/lang/choices.py,sha256=-W1DVw9N9ZliVpvmWrzIXG4cswAah8eMQrHWzkS3D8o,6234
@@ -29,9 +29,9 @@ sglang/srt/conversation.py,sha256=u9zFU8aMYzwHUbQRKU76B_T-jfLlPoxUcWG_nRbDM2I,21
 sglang/srt/hf_transformers_utils.py,sha256=sUUCpjbTHuYDMuwOaz00nH5fataXKjliD8gCxXU64sw,6712
 sglang/srt/mm_utils.py,sha256=1ScBunw_x4W8ebM_AcJ62-1T2mfT8NlMJqdAhkF1lb0,12367
 sglang/srt/model_parallel.py,sha256=QR-Alqo0sElDXPJ79N1PhUHHKiEHPQn3dyXduMP-SHQ,3664
-sglang/srt/server.py,sha256=tH_22tnksy3bbhYu_njjx5L59pb9lJ7tU40Z2BLoiaI,30894
-sglang/srt/server_args.py,sha256=CfmpU6_EDnxJzpJiRx2n6AhOPCtrHPOf-7wEtTF__L0,30834
-sglang/srt/utils.py,sha256=QXc01TOB7abpL6p3KzfP7u2xFZohQ-ThbI5DAJGoHeI,33894
+sglang/srt/server.py,sha256=1A_RdzTgeVPKcoZvsLs0dH9U3ZOY2MWjS6X3EUmwzPs,31011
+sglang/srt/server_args.py,sha256=PbkhdNkr46Ngv3_JPplo5jLw78pebRxNVTiIb-9uPVA,30876
+sglang/srt/utils.py,sha256=TWeASu4TOqIbvb-rJ0CYvFcMyk67hPJxQZnvyqrKu8k,33585
 sglang/srt/configs/__init__.py,sha256=_usVIXHQjft4PAJ1Y-yGQOn2QNOv501GYMlQwpGXbns,208
 sglang/srt/configs/exaone.py,sha256=Duxd4yQoKy8GWEzZD_kCY_OzmN_67CTJL_Kgn0eXk3g,10731
 sglang/srt/configs/model_config.py,sha256=r5N_OO4w3_R3kZ80P-ZPECscXmspI41d1vc6uEE9ixM,9526
@@ -61,9 +61,6 @@ sglang/srt/layers/attention/triton_ops/decode_attention.py,sha256=BE63WhKiutSNkh
 sglang/srt/layers/attention/triton_ops/double_sparsity_attention.py,sha256=1pSXfY3EEaM7iRN_uElHnAfsrJMhTFbu9fj8Z0O2PbE,21480
 sglang/srt/layers/attention/triton_ops/extend_attention.py,sha256=Gfct-0_l-S2ZrP4F-zkzNiFbmd3C3f7uJovacOuDxaA,11472
 sglang/srt/layers/attention/triton_ops/prefill_attention.py,sha256=lojFXRZMLWkzS2Y8uxaolnQhXaWKG19mCAWaF5KQeiI,6087
-sglang/srt/layers/fused_moe_grok/__init__.py,sha256=rj_JBzcP--eaaM6LGQ-u580uQvqLisp5JtGBAs1fVYc,80
-sglang/srt/layers/fused_moe_grok/fused_moe.py,sha256=bxRcjdALxeY3FDnKivGOoNr6Er1kh6CCPtlAp7pjz50,23844
-sglang/srt/layers/fused_moe_grok/layer.py,sha256=v-o5YHYEU2HIEZwouyuc3UyfNj7YQrEYOO_BXKELU7Y,23453
 sglang/srt/layers/fused_moe_triton/__init__.py,sha256=PHKFqd2hPOO-g9kSMseg2g76lpg9OGXQDThWU6bt9vs,902
 sglang/srt/layers/fused_moe_triton/fused_moe.py,sha256=qwfRBOeY5DT48Q6z71Eh9cjFehvs_K6eLIVWNL044Ug,28363
 sglang/srt/layers/fused_moe_triton/layer.py,sha256=URDkTt8xEqnqpO5tb_3L7JlhlO53VWfqDDNSRYEu-LY,21545
@@ -72,17 +69,17 @@ sglang/srt/layers/quantization/base_config.py,sha256=daK9p0aijMszLUm1W4Pc33FK87M
 sglang/srt/lora/lora.py,sha256=KhhO9aKCyFWvJnhI07lZKANIvNjtt882HrTYFNBZMv0,15065
 sglang/srt/lora/lora_config.py,sha256=a2fTQESlCbG1xLiBYy4ptZ6c0Burcqyg1_6V1XSok-Y,1506
 sglang/srt/lora/lora_manager.py,sha256=DHiqdl0_4wQ5PxZBZtlCpP14515mDV2_H9tzL3Rdss8,12886
-sglang/srt/managers/data_parallel_controller.py,sha256=JxRtJJTVn1FU2iD292rLZPftAsR4_8j4d3yF8j0dvBc,8327
-sglang/srt/managers/detokenizer_manager.py,sha256=oWquBe0yvSwILwllMBJFJUEgBt1NEM_3KluAc0T6Pnw,7333
-sglang/srt/managers/image_processor.py,sha256=foLv3QVW_A8IRjRcHOKn0_HC771JbPEz8ML1mGqYKYw,13685
-sglang/srt/managers/io_struct.py,sha256=WLXz-tyn0jR7zNO9feRBXgyjphVa8qR55OoEOUdzoVI,13751
-sglang/srt/managers/schedule_batch.py,sha256=jBABHbL7gyrKdrFrzScJ76MtvG2D9Y5HDx74qsclo80,44470
+sglang/srt/managers/data_parallel_controller.py,sha256=psI4FAuBGjtdnEuwagnGdtRqvqSSxOROfNKQqVDqlVA,8382
+sglang/srt/managers/detokenizer_manager.py,sha256=TtrtE37XT5XcJzk8-R5rHZ16NHTPd5XZi8hf3h-sB2A,7462
+sglang/srt/managers/image_processor.py,sha256=Y8RgyrzbJjJTpjbnZDa5qiiG5wWjZ68rOXUPDi6kkFo,13698
+sglang/srt/managers/io_struct.py,sha256=bvhHIRSBpaCXFQqRBTpxy-hjvNtDxSfoDJ5XWCHoy6g,13646
+sglang/srt/managers/schedule_batch.py,sha256=dTeM0U1xvUq_GlHy8SQft6-pP76cSubPKzCClsQ9MgM,44801
 sglang/srt/managers/schedule_policy.py,sha256=ayFz4iPLIlG8mx5i1glTCAMHJPGpFedMP9UgRtqkNhA,12526
-sglang/srt/managers/scheduler.py,sha256=JVxV3Y5AU0OOOfePVM5dVPuuN_Kd9nwV3p3vH3CHQps,56059
-sglang/srt/managers/session_controller.py,sha256=hajOnkNZ_JpP4E-GKMVGzyJSK4sc9uF9t229uFuxkVs,2874
-sglang/srt/managers/tokenizer_manager.py,sha256=zYbKEKNuM1B3PXzA7jnDpxew-0rZXSX-7dHmVLWG3e4,26477
+sglang/srt/managers/scheduler.py,sha256=aEU-6_0w-HbpFTMSoiDqf3mj_UfedjugCUvnQBmhgoU,56571
+sglang/srt/managers/session_controller.py,sha256=Yp-IV3rXczACZxZXmF-QxW9CWICGy8KHQ9ttBGJ8WXA,2800
+sglang/srt/managers/tokenizer_manager.py,sha256=jLzoEIhQWzZX7rcLZ290vfnPY2ghxWdYhf7YJQtUC3s,25339
 sglang/srt/managers/tp_worker.py,sha256=1SQJ60iKS9e5vGY555fT1iZ4OtLumXzeWfB08fSWKbk,6176
-sglang/srt/managers/tp_worker_overlap_thread.py,sha256=7vhPebaOS4JamaS08CGf_hwxnUO7Gy_SXZXEPwNHKoY,7621
+sglang/srt/managers/tp_worker_overlap_thread.py,sha256=pLQOHj-nFrqHyVFP-JvrU--tjh1X1yET_NJIFHp0H0I,7990
 sglang/srt/mem_cache/base_prefix_cache.py,sha256=qEQwEkG4E5rab2ZoTqcesf5pR_J4nV2jBxIHsBJHtIM,924
 sglang/srt/mem_cache/chunk_cache.py,sha256=VcCpyrf5FOQ5xoKeOouCI5ZQLkZo_pgY1SPbDDkagGg,2492
 sglang/srt/mem_cache/flush_cache.py,sha256=GYcxmNXh4hsMpFfNOuCTpKilW7guZwTtAg_usVeM3J0,979
@@ -105,14 +102,14 @@ sglang/srt/models/gemma2.py,sha256=lbfQhQpUhf1MAEB_00Uo6rp20k4Hr353UbPKKuMsxec,1
 sglang/srt/models/gemma2_reward.py,sha256=cQawatbsfBuWQTueivYHl_17ZoQUHEelI1sr1y5pvfY,2556
 sglang/srt/models/gpt2.py,sha256=Th7_Dnkw82GFBOuMOTrHtA44JBPHRUtY3Qd73rQwzMc,9741
 sglang/srt/models/gpt_bigcode.py,sha256=lYo4ajy49VvvPkaduaFtOaCRT_ItqyNUE158S-BI5QA,10136
-sglang/srt/models/grok.py,sha256=rDIH_SFzauuEHcL_vCOSrYLjdBC3i3o_AcceL3amsJw,14927
+sglang/srt/models/grok.py,sha256=d6qvj_i_Pam4dV_WInUvw2cIH3s6hCj-skbgyvLld1E,13923
 sglang/srt/models/internlm2.py,sha256=DxbA15d9QR0tLOczpC6DkB8QyNHXJRdZatY6Nskwv1k,12170
 sglang/srt/models/internlm2_reward.py,sha256=Lr-JA0vfTQJt9q5oDMiopGuoXAevyEv5PAoDe2rsTJk,2425
 sglang/srt/models/llama.py,sha256=FSGuM3BamhuT5h2jedh5cSFwFYduOJwkAZJJ672awRw,16423
 sglang/srt/models/llama_classification.py,sha256=c8WZ1ADa3f6s2IJVoP10ouVgeCwv_ndns_qMgLrC6QI,3413
 sglang/srt/models/llama_embedding.py,sha256=2ex2jrz31osaAd9V8sJeN0qyxmk-L5NgOBkXL1puGhI,3166
 sglang/srt/models/llama_reward.py,sha256=prhHDPpf1k6tlQtGE6zq5gx0uSZAD3W5v7W28bdgy4U,4619
-sglang/srt/models/llava.py,sha256=HjC2TDLngpaN8HMYyGp5doEK32HeQN8iT2tYE_Slrtg,25130
+sglang/srt/models/llava.py,sha256=G6EcAJ84FvV4sae3Rrmdp-Bm-cczynSWSR16Ig-QiSw,25319
 sglang/srt/models/llavavid.py,sha256=DeWqGSmXgIYGuLyy2ZrxjM9WqbRjueP4chNmXt7Bnus,12221
 sglang/srt/models/minicpm.py,sha256=KbiTf-kaDAJxSo9Z4IGMTrs9WrYYji1KXO1kA2iy-as,13816
 sglang/srt/models/minicpm3.py,sha256=C43mTr2Qjccj4sXuTDgzbfZhvCNbsEHNggMRXQ7SrWs,25108
@@ -121,18 +118,19 @@ sglang/srt/models/mixtral.py,sha256=E3d8I7V3Dp1nCEHRbhh-PKBG8UaVK5XOHwl9QyIjcX0,
 sglang/srt/models/mixtral_quant.py,sha256=o-oTG8BGtWuNu-o6muHSarMNBQwrjQowyBFOQhuclZ8,14065
 sglang/srt/models/mllama.py,sha256=pET1x8wY04yoS8HMCncKx0tFPqGp78K8rlA7Eq7XioE,37889
 sglang/srt/models/olmo.py,sha256=DEUPNDM0z83N-Qdhkj2WJMtbiz5JNbSBMIjUaYZN9RM,12068
+sglang/srt/models/olmo2.py,sha256=NriLbVKNGSR9bs0V8feeEorkRSr9BjlYbv50AReo2s4,13469
 sglang/srt/models/olmoe.py,sha256=jVKrjqQQrWLdlkGSGUaMPdT9PHzNH4X-RVwON29eaGw,15412
 sglang/srt/models/phi3_small.py,sha256=fxqGU0xphJzTeuBW38SRRYpRb2rcsg53JxuObK0pZig,15141
 sglang/srt/models/qwen.py,sha256=P9zcFnz_Tsz73tVtLRwZ8uWzCtMxWOrzlv2o9Ys_Gck,9947
 sglang/srt/models/qwen2.py,sha256=ApFFASNwvrkDXi-KkCNA7fTk4uLMuJWoMg15zCaAKdA,12514
 sglang/srt/models/qwen2_moe.py,sha256=1oxDsKDq3jlHKx9jMi1SfHOqCRVyN5n76uw3M-CUODE,17048
-sglang/srt/models/qwen2_vl.py,sha256=G3FNa_N2-CzB56LVrukwBtJazxMrDC_GPNjK6Wqxc4s,26415
+sglang/srt/models/qwen2_vl.py,sha256=wFKBq52nZ5Q1sloDNh9YcYIoJ-4QpGVA15StxRMBuYE,26785
 sglang/srt/models/stablelm.py,sha256=jpmsyWMJo_9JapOESnuV7ObNCh78BRznXY0iFvvIbZE,11354
 sglang/srt/models/torch_native_llama.py,sha256=vNQxsnbVAY1bdyMCCWDZAtWdbaFIiJXhmVxHjk5BB9Y,19400
 sglang/srt/models/xverse.py,sha256=LGe0ma0wOir3x-OLBT_cRocw8JEo9d3AYNxgA2OcLrk,13659
 sglang/srt/models/xverse_moe.py,sha256=YqbzkSsnTFt-8-aI8YobF9qJA70qrBjbS1Kjn1KNqVY,15766
 sglang/srt/models/yivl.py,sha256=yj4aWsOBVGQBLurSrLmYXVC7zGIPH7EYHHtAaAZ7Liw,4859
-sglang/srt/openai_api/adapter.py,sha256=MhOcWZjcLv4_OuvLvDMcAu6K_u2joJvhaZxaKm0hi3M,53634
+sglang/srt/openai_api/adapter.py,sha256=Rit_XJ4h-O1-_fwivIkcGHt1hLLz3Y3XdTtEtDTnBcU,53634
 sglang/srt/openai_api/protocol.py,sha256=vBgrbTqtECsZ5dG0rgP1FHsTBt4eR9zbDX3FBIN-rz4,10172
 sglang/srt/sampling/sampling_batch_info.py,sha256=YC-KPyDWyLGNPL4YVcst4xwP8Wlz2zcCNJHB_5zljXQ,8470
 sglang/srt/sampling/sampling_params.py,sha256=n7RbBg_bS5fYhsiWa8uJYnfoXy_i5DvtTBOkuFnHDNU,5286
@@ -155,10 +153,10 @@ sglang/test/simple_eval_mmlu.py,sha256=FkwamjGMjueTixymkedF-YiPloSLiy4ftILFUrKZ9
 sglang/test/test_activation.py,sha256=jkdNRzJnbd5OgZliQaIXpxovlcky17UrweomcOcMxoE,1442
 sglang/test/test_layernorm.py,sha256=IacByD5d-stXjzBz8Ypamc7povlcedpKPbb_4JLgo3c,3720
 sglang/test/test_programs.py,sha256=1Z0umrsUu9pagzyGH5SrXl_qhKSyTfUv_kWC2mcn0qo,18208
-sglang/test/test_utils.py,sha256=NBEGQC_wtMqODQQZWrxdwmsoLFSZfDlQzIbsQ1kE_Yc,23468
+sglang/test/test_utils.py,sha256=mPRTn1ORMiJODa_wWpH8QQG-IuZuQYZp9nGjyIcIHHU,23645
 sglang/test/srt/sampling/penaltylib/utils.py,sha256=CjxHgywh0hx_87iynzQt_ztHu6zBVuE-YrZ-XPmW6U4,12906
-sglang-0.3.6.post2.dist-info/LICENSE,sha256=FJXh51fvTQklojUFY89XVLsjxRcBqOxPs8XNy-2uZ0c,11346
-sglang-0.3.6.post2.dist-info/METADATA,sha256=3ekB4UX6bNwXzqlRChfxG0R8sme-x0FQAImcw0gpfM8,22122
-sglang-0.3.6.post2.dist-info/WHEEL,sha256=PZUExdf71Ui_so67QXpySuHtCi3-J3wvF4ORK6k_S8U,91
-sglang-0.3.6.post2.dist-info/top_level.txt,sha256=yxhh3pYQkcnA7v3Bg889C2jZhvtJdEincysO7PEB09M,7
-sglang-0.3.6.post2.dist-info/RECORD,,
+sglang-0.3.6.post3.dist-info/LICENSE,sha256=FJXh51fvTQklojUFY89XVLsjxRcBqOxPs8XNy-2uZ0c,11346
+sglang-0.3.6.post3.dist-info/METADATA,sha256=2EeNTAznmmP399LIX3w0evy2Q2x6IqOSMoRKXJZLrSM,22171
+sglang-0.3.6.post3.dist-info/WHEEL,sha256=PZUExdf71Ui_so67QXpySuHtCi3-J3wvF4ORK6k_S8U,91
+sglang-0.3.6.post3.dist-info/top_level.txt,sha256=yxhh3pYQkcnA7v3Bg889C2jZhvtJdEincysO7PEB09M,7
+sglang-0.3.6.post3.dist-info/RECORD,,

sglang/srt/layers/fused_moe_grok/__init__.py DELETED Viewed

	@@ -1 +0,0 @@
1	- from sglang.srt.layers.fused_moe_grok.layer import FusedMoE, FusedMoEMethodBase

sglang 0.3.6.post2__py3-none-any.whl → 0.3.6.post3__py3-none-any.whl

sglang 0.3.6.post2py3-none-any.whl → 0.3.6.post3py3-none-any.whl