PyPI - sglang - Versions diffs - 0.1.24__py3-none-any.whl → 0.1.25__py3-none-any.whl - Mend

sglang 0.1.24py3-none-any.whl → 0.1.25py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (24) hide show

sglang/__init__.py +2 -2
sglang/srt/managers/controller/model_runner.py +51 -0
sglang/srt/server.py +6 -0
sglang/srt/utils.py +44 -1
sglang/version.py +1 -0
{sglang-0.1.24.dist-info → sglang-0.1.25.dist-info}/METADATA +3 -3
{sglang-0.1.24.dist-info → sglang-0.1.25.dist-info}/RECORD +10 -23
sglang/backend/__init__.py +0 -0
sglang/backend/anthropic.py +0 -77
sglang/backend/base_backend.py +0 -80
sglang/backend/litellm.py +0 -90
sglang/backend/openai.py +0 -438
sglang/backend/runtime_endpoint.py +0 -283
sglang/backend/vertexai.py +0 -149
sglang/bench.py +0 -627
sglang/srt/managers/controller/dp_worker.py +0 -113
sglang/srt/openai_api/api_adapter.py +0 -432
sglang/srt/openai_api/openai_api_adapter.py +0 -431
sglang/srt/openai_api/openai_protocol.py +0 -207
sglang/srt/openai_api_adapter.py +0 -411
sglang/srt/openai_protocol.py +0 -207
{sglang-0.1.24.dist-info → sglang-0.1.25.dist-info}/LICENSE +0 -0
{sglang-0.1.24.dist-info → sglang-0.1.25.dist-info}/WHEEL +0 -0
{sglang-0.1.24.dist-info → sglang-0.1.25.dist-info}/top_level.txt +0 -0

sglang/srt/managers/controller/dp_worker.py DELETED Viewed

@@ -1,113 +0,0 @@
-"""A data parallel worker thread."""
-import asyncio
-import logging
-import queue
-import threading
-from typing import Callable, List
-import uvloop
-import zmq
-from sglang.global_config import global_config
-from sglang.srt.managers.controller.tp_worker import ModelTpClient
-from sglang.srt.managers.io_struct import BatchTokenIDOut
-from sglang.srt.server_args import PortArgs, ServerArgs
-from sglang.srt.utils import kill_parent_process
-from sglang.utils import get_exception_traceback
-logger = logging.getLogger("srt.controller")
-CHECKING_INTERVAL = 5
-asyncio.set_event_loop_policy(uvloop.EventLoopPolicy())
-class DataParallelWorkerThread(threading.Thread):
-    def __init__(
-        self,
-        worker_id: int,
-        request_queue: queue.Queue,
-        detokenizer_port: int,
-        step_func: Callable,
-    ):
-        super(DataParallelWorkerThread, self).__init__()
-        self.worker_id = worker_id
-        self.request_queue = request_queue
-        self.liveness = True
-        self.request_dependency_delay = global_config.request_dependency_delay
-        context = zmq.asyncio.Context()
-        self.send_to_detokenizer = context.socket(zmq.PUSH)
-        self.send_to_detokenizer.connect(f"tcp://127.0.0.1:{detokenizer_port}")
-        self.step = step_func
-    async def loop_for_forward(self):
-        while self.liveness:
-            requests = []
-            while not self.request_queue.empty():
-                requests.append(self.request_queue.get())
-            out_pyobjs: List[BatchTokenIDOut] = []
-            try:
-                out_pyobjs = await self.step(requests)
-            except Exception:
-                for r in requests:
-                    self.request_queue.put(r)
-                logger.error(
-                    f"Worker thread {self.worker_id}: "
-                    f"failed to get back from Model Server\n"
-                    f"{get_exception_traceback()}"
-                )
-                self.liveness = False
-                # Crash the whole server when there are any errors.
-                # TODO(lianmin): make this an option.
-                kill_parent_process()
-                return
-            for obj in out_pyobjs:
-                self.send_to_detokenizer.send_pyobj(obj)
-            # async sleep for receiving the subsequent request and avoiding cache miss
-            if len(out_pyobjs) != 0:
-                has_finished = any(
-                    [obj.finished_reason is not None for obj in out_pyobjs]
-                )
-                if has_finished:
-                    await asyncio.sleep(self.request_dependency_delay)
-            await asyncio.sleep(global_config.wait_for_new_request_delay)
-    async def monitoring(self):
-        while True:
-            await asyncio.sleep(CHECKING_INTERVAL)
-            # can plug in monitoring logic here
-    def run(self):
-        logger.info(f"DataParallelWorkerThread {self.worker_id} start")
-        loop = asyncio.new_event_loop()
-        asyncio.set_event_loop(loop)
-        loop.create_task(self.monitoring())
-        loop.run_until_complete(self.loop_for_forward())
-def start_data_parallel_worker(
-    server_args: ServerArgs,
-    port_args: PortArgs,
-    model_overide_args,
-    gpu_ids: List[int],
-    worker_id: int,
-):
-    model_tp_client = ModelTpClient(
-        gpu_ids,
-        server_args,
-        port_args.model_port_args[worker_id],
-        model_overide_args,
-    )
-    worker_thread = DataParallelWorkerThread(
-        worker_id=worker_id,
-        request_queue=queue.Queue(),
-        detokenizer_port=port_args.detokenizer_port,
-        step_func=model_tp_client.step,
-    )
-    worker_thread.start()
-    return worker_thread

sglang/srt/openai_api/api_adapter.py DELETED Viewed

@@ -1,432 +0,0 @@
-"""Conversion between OpenAI APIs and native SRT APIs"""
-import asyncio
-import json
-import os
-from http import HTTPStatus
-from fastapi import Request
-from fastapi.responses import JSONResponse, StreamingResponse
-from sglang.srt.conversation import (
-    Conversation,
-    SeparatorStyle,
-    chat_template_exists,
-    generate_chat_conv,
-    register_conv_template,
-)
-from sglang.srt.managers.io_struct import GenerateReqInput
-from sglang.srt.openai_api.protocol import (
-    ChatCompletionRequest,
-    ChatCompletionResponse,
-    ChatCompletionResponseChoice,
-    ChatCompletionResponseStreamChoice,
-    ChatCompletionStreamResponse,
-    ChatMessage,
-    CompletionRequest,
-    CompletionResponse,
-    CompletionResponseChoice,
-    CompletionResponseStreamChoice,
-    CompletionStreamResponse,
-    DeltaMessage,
-    ErrorResponse,
-    LogProbs,
-    UsageInfo,
-)
-chat_template_name = None
-def create_error_response(
-    message: str,
-    err_type: str = "BadRequestError",
-    status_code: HTTPStatus = HTTPStatus.BAD_REQUEST,
-):
-    error = ErrorResponse(message=message, type=err_type, code=status_code.value)
-    return JSONResponse(content=error.model_dump(), status_code=error.code)
-def create_streaming_error_response(
-    message: str,
-    err_type: str = "BadRequestError",
-    status_code: HTTPStatus = HTTPStatus.BAD_REQUEST,
-) -> str:
-    error = ErrorResponse(message=message, type=err_type, code=status_code.value)
-    json_str = json.dumps({"error": error.model_dump()})
-    return json_str
-def load_chat_template_for_openai_api(chat_template_arg):
-    global chat_template_name
-    print(f"Use chat template: {chat_template_arg}")
-    if not chat_template_exists(chat_template_arg):
-        if not os.path.exists(chat_template_arg):
-            raise RuntimeError(
-                f"Chat template {chat_template_arg} is not a built-in template name "
-                "or a valid chat template file path."
-            )
-        with open(chat_template_arg, "r") as filep:
-            template = json.load(filep)
-            try:
-                sep_style = SeparatorStyle[template["sep_style"]]
-            except KeyError:
-                raise ValueError(
-                    f"Unknown separator style: {template['sep_style']}"
-                ) from None
-            register_conv_template(
-                Conversation(
-                    name=template["name"],
-                    system_template=template["system"] + "\n{system_message}",
-                    system_message=template.get("system_message", ""),
-                    roles=(template["user"], template["assistant"]),
-                    sep_style=sep_style,
-                    sep=template.get("sep", "\n"),
-                    stop_str=template["stop_str"],
-                ),
-                override=True,
-            )
-        chat_template_name = template["name"]
-    else:
-        chat_template_name = chat_template_arg
-async def v1_completions(tokenizer_manager, raw_request: Request):
-    request_json = await raw_request.json()
-    request = CompletionRequest(**request_json)
-    adapted_request = GenerateReqInput(
-        text=request.prompt,
-        sampling_params={
-            "temperature": request.temperature,
-            "max_new_tokens": request.max_tokens,
-            "stop": request.stop,
-            "top_p": request.top_p,
-            "presence_penalty": request.presence_penalty,
-            "frequency_penalty": request.frequency_penalty,
-            "regex": request.regex,
-            "n": request.n,
-            "ignore_eos": request.ignore_eos,
-        },
-        return_logprob=request.logprobs is not None and request.logprobs > 0,
-        top_logprobs_num=request.logprobs if request.logprobs is not None else 0,
-        return_text_in_logprobs=True,
-        stream=request.stream,
-    )
-    if adapted_request.stream:
-        async def generate_stream_resp():
-            stream_buffer = ""
-            n_prev_token = 0
-            try:
-                async for content in tokenizer_manager.generate_request(
-                    adapted_request, raw_request
-                ):
-                    text = content["text"]
-                    prompt_tokens = content["meta_info"]["prompt_tokens"]
-                    completion_tokens = content["meta_info"]["completion_tokens"]
-                    if not stream_buffer:  # The first chunk
-                        if request.echo:
-                            # Prepend prompt in response text.
-                            text = request.prompt + text
-                    if request.logprobs:
-                        # The first chunk and echo is enabled.
-                        if not stream_buffer and request.echo:
-                            prefill_token_logprobs = content["meta_info"][
-                                "prefill_token_logprobs"
-                            ]
-                            prefill_top_logprobs = content["meta_info"][
-                                "prefill_top_logprobs"
-                            ]
-                        else:
-                            prefill_token_logprobs = None
-                            prefill_top_logprobs = None
-                        logprobs = to_openai_style_logprobs(
-                            prefill_token_logprobs=prefill_token_logprobs,
-                            prefill_top_logprobs=prefill_top_logprobs,
-                            decode_token_logprobs=content["meta_info"][
-                                "decode_token_logprobs"
-                            ][n_prev_token:],
-                            decode_top_logprobs=content["meta_info"][
-                                "decode_top_logprobs"
-                            ][n_prev_token:],
-                        )
-                        n_prev_token = len(
-                            content["meta_info"]["decode_token_logprobs"]
-                        )
-                    else:
-                        logprobs = None
-                    delta = text[len(stream_buffer) :]
-                    stream_buffer = stream_buffer + delta
-                    choice_data = CompletionResponseStreamChoice(
-                        index=0,
-                        text=delta,
-                        logprobs=logprobs,
-                        finish_reason=content["meta_info"]["finish_reason"],
-                    )
-                    chunk = CompletionStreamResponse(
-                        id=content["meta_info"]["id"],
-                        object="text_completion",
-                        choices=[choice_data],
-                        model=request.model,
-                        usage=UsageInfo(
-                            prompt_tokens=prompt_tokens,
-                            completion_tokens=completion_tokens,
-                            total_tokens=prompt_tokens + completion_tokens,
-                        ),
-                    )
-                    yield f"data: {chunk.model_dump_json()}\n\n"
-            except ValueError as e:
-                error = create_streaming_error_response(str(e))
-                yield f"data: {error}\n\n"
-            yield "data: [DONE]\n\n"
-        return StreamingResponse(
-            generate_stream_resp(),
-            media_type="text/event-stream",
-            background=tokenizer_manager.create_abort_task(adapted_request),
-        )
-    # Non-streaming response.
-    try:
-        ret = await tokenizer_manager.generate_request(
-            adapted_request, raw_request
-        ).__anext__()
-    except ValueError as e:
-        return create_error_response(str(e))
-    if not isinstance(ret, list):
-        ret = [ret]
-    choices = []
-    for idx, ret_item in enumerate(ret):
-        text = ret_item["text"]
-        if request.echo:
-            text = request.prompt + text
-        if request.logprobs:
-            if request.echo:
-                prefill_token_logprobs = ret_item["meta_info"]["prefill_token_logprobs"]
-                prefill_top_logprobs = ret_item["meta_info"]["prefill_top_logprobs"]
-            else:
-                prefill_token_logprobs = None
-                prefill_top_logprobs = None
-            logprobs = to_openai_style_logprobs(
-                prefill_token_logprobs=prefill_token_logprobs,
-                prefill_top_logprobs=prefill_top_logprobs,
-                decode_token_logprobs=ret_item["meta_info"]["decode_token_logprobs"],
-                decode_top_logprobs=ret_item["meta_info"]["decode_top_logprobs"],
-            )
-        else:
-            logprobs = None
-        choice_data = CompletionResponseChoice(
-            index=idx,
-            text=text,
-            logprobs=logprobs,
-            finish_reason=ret_item["meta_info"]["finish_reason"],
-        )
-        choices.append(choice_data)
-    response = CompletionResponse(
-        id=ret[0]["meta_info"]["id"],
-        model=request.model,
-        choices=choices,
-        usage=UsageInfo(
-            prompt_tokens=ret[0]["meta_info"]["prompt_tokens"],
-            completion_tokens=sum(
-                item["meta_info"]["completion_tokens"] for item in ret
-            ),
-            total_tokens=ret[0]["meta_info"]["prompt_tokens"]
-            + sum(item["meta_info"]["completion_tokens"] for item in ret),
-        ),
-    )
-    return response
-async def v1_chat_completions(tokenizer_manager, raw_request: Request):
-    request_json = await raw_request.json()
-    request = ChatCompletionRequest(**request_json)
-    # Prep the data needed for the underlying GenerateReqInput:
-    #  - prompt: The full prompt string.
-    #  - stop: Custom stop tokens.
-    #  - image_data: None or a list of image strings (URLs or base64 strings).
-    #    None skips any image processing in GenerateReqInput.
-    if not isinstance(request.messages, str):
-        # Apply chat template and its stop strings.
-        if chat_template_name is None:
-            prompt = tokenizer_manager.tokenizer.apply_chat_template(
-                request.messages, tokenize=False, add_generation_prompt=True
-            )
-            stop = request.stop
-            image_data = None
-        else:
-            conv = generate_chat_conv(request, chat_template_name)
-            prompt = conv.get_prompt()
-            image_data = conv.image_data
-            stop = conv.stop_str or []
-            if request.stop:
-                if isinstance(request.stop, str):
-                    stop.append(request.stop)
-                else:
-                    stop.extend(request.stop)
-    else:
-        # Use the raw prompt and stop strings if the messages is already a string.
-        prompt = request.messages
-        stop = request.stop
-        image_data = None
-    adapted_request = GenerateReqInput(
-        text=prompt,
-        image_data=image_data,
-        sampling_params={
-            "temperature": request.temperature,
-            "max_new_tokens": request.max_tokens,
-            "stop": stop,
-            "top_p": request.top_p,
-            "presence_penalty": request.presence_penalty,
-            "frequency_penalty": request.frequency_penalty,
-            "regex": request.regex,
-            "n": request.n,
-        },
-        stream=request.stream,
-    )
-    if adapted_request.stream:
-        async def generate_stream_resp():
-            is_first = True
-            stream_buffer = ""
-            try:
-                async for content in tokenizer_manager.generate_request(
-                    adapted_request, raw_request
-                ):
-                    if is_first:
-                        # First chunk with role
-                        is_first = False
-                        choice_data = ChatCompletionResponseStreamChoice(
-                            index=0,
-                            delta=DeltaMessage(role="assistant"),
-                            finish_reason=content["meta_info"]["finish_reason"],
-                        )
-                        chunk = ChatCompletionStreamResponse(
-                            id=content["meta_info"]["id"],
-                            choices=[choice_data],
-                            model=request.model,
-                        )
-                        yield f"data: {chunk.model_dump_json()}\n\n"
-                    text = content["text"]
-                    delta = text[len(stream_buffer) :]
-                    stream_buffer = stream_buffer + delta
-                    choice_data = ChatCompletionResponseStreamChoice(
-                        index=0,
-                        delta=DeltaMessage(content=delta),
-                        finish_reason=content["meta_info"]["finish_reason"],
-                    )
-                    chunk = ChatCompletionStreamResponse(
-                        id=content["meta_info"]["id"],
-                        choices=[choice_data],
-                        model=request.model,
-                    )
-                    yield f"data: {chunk.model_dump_json()}\n\n"
-            except ValueError as e:
-                error = create_streaming_error_response(str(e))
-                yield f"data: {error}\n\n"
-            yield "data: [DONE]\n\n"
-        return StreamingResponse(
-            generate_stream_resp(),
-            media_type="text/event-stream",
-            background=tokenizer_manager.create_abort_task(adapted_request),
-        )
-    # Non-streaming response.
-    try:
-        ret = await tokenizer_manager.generate_request(
-            adapted_request, raw_request
-        ).__anext__()
-    except ValueError as e:
-        return create_error_response(str(e))
-    if not isinstance(ret, list):
-        ret = [ret]
-    choices = []
-    total_prompt_tokens = 0
-    total_completion_tokens = 0
-    for idx, ret_item in enumerate(ret):
-        prompt_tokens = ret_item["meta_info"]["prompt_tokens"]
-        completion_tokens = ret_item["meta_info"]["completion_tokens"]
-        choice_data = ChatCompletionResponseChoice(
-            index=idx,
-            message=ChatMessage(role="assistant", content=ret_item["text"]),
-            finish_reason=ret_item["meta_info"]["finish_reason"],
-        )
-        choices.append(choice_data)
-        total_prompt_tokens = prompt_tokens
-        total_completion_tokens += completion_tokens
-    response = ChatCompletionResponse(
-        id=ret[0]["meta_info"]["id"],
-        model=request.model,
-        choices=choices,
-        usage=UsageInfo(
-            prompt_tokens=total_prompt_tokens,
-            completion_tokens=total_completion_tokens,
-            total_tokens=total_prompt_tokens + total_completion_tokens,
-        ),
-    )
-    return response
-def to_openai_style_logprobs(
-    prefill_token_logprobs=None,
-    decode_token_logprobs=None,
-    prefill_top_logprobs=None,
-    decode_top_logprobs=None,
-):
-    ret_logprobs = LogProbs()
-    def append_token_logprobs(token_logprobs):
-        for logprob, _, token_text in token_logprobs:
-            ret_logprobs.tokens.append(token_text)
-            ret_logprobs.token_logprobs.append(logprob)
-            # Not supported yet
-            ret_logprobs.text_offset.append(-1)
-    def append_top_logprobs(top_logprobs):
-        for tokens in top_logprobs:
-            if tokens is not None:
-                ret_logprobs.top_logprobs.append(
-                    {token[2]: token[0] for token in tokens}
-                )
-            else:
-                ret_logprobs.top_logprobs.append(None)
-    if prefill_token_logprobs is not None:
-        append_token_logprobs(prefill_token_logprobs)
-    if decode_token_logprobs is not None:
-        append_token_logprobs(decode_token_logprobs)
-    if prefill_top_logprobs is not None:
-        append_top_logprobs(prefill_top_logprobs)
-    if decode_top_logprobs is not None:
-        append_top_logprobs(decode_top_logprobs)
-    return ret_logprobs

sglang 0.1.24__py3-none-any.whl → 0.1.25__py3-none-any.whl

sglang 0.1.24py3-none-any.whl → 0.1.25py3-none-any.whl