PyPI - sglang - Versions diffs - 0.1.14__py3-none-any.whl → 0.1.15__py3-none-any.whl - Mend

sglang 0.1.14py3-none-any.whl → 0.1.15py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (56) hide show

sglang/__init__.py +55 -2
sglang/api.py +3 -5
sglang/backend/anthropic.py +18 -4
sglang/backend/openai.py +2 -1
sglang/backend/runtime_endpoint.py +18 -5
sglang/backend/vertexai.py +1 -0
sglang/global_config.py +1 -0
sglang/lang/chat_template.py +74 -0
sglang/lang/interpreter.py +40 -16
sglang/lang/tracer.py +6 -4
sglang/launch_server.py +2 -1
sglang/srt/constrained/fsm_cache.py +1 -0
sglang/srt/constrained/jump_forward.py +1 -0
sglang/srt/conversation.py +2 -2
sglang/srt/hf_transformers_utils.py +2 -1
sglang/srt/layers/context_flashattention_nopad.py +1 -0
sglang/srt/layers/extend_attention.py +1 -0
sglang/srt/layers/logits_processor.py +114 -54
sglang/srt/layers/radix_attention.py +2 -1
sglang/srt/layers/token_attention.py +1 -0
sglang/srt/managers/detokenizer_manager.py +5 -1
sglang/srt/managers/io_struct.py +12 -0
sglang/srt/managers/router/infer_batch.py +70 -33
sglang/srt/managers/router/manager.py +7 -2
sglang/srt/managers/router/model_rpc.py +116 -73
sglang/srt/managers/router/model_runner.py +111 -167
sglang/srt/managers/router/radix_cache.py +46 -38
sglang/srt/managers/tokenizer_manager.py +56 -11
sglang/srt/memory_pool.py +5 -14
sglang/srt/model_config.py +7 -0
sglang/srt/models/commandr.py +376 -0
sglang/srt/models/dbrx.py +413 -0
sglang/srt/models/dbrx_config.py +281 -0
sglang/srt/models/gemma.py +22 -20
sglang/srt/models/llama2.py +23 -21
sglang/srt/models/llava.py +12 -10
sglang/srt/models/mixtral.py +27 -25
sglang/srt/models/qwen.py +23 -21
sglang/srt/models/qwen2.py +23 -21
sglang/srt/models/stablelm.py +20 -21
sglang/srt/models/yivl.py +6 -5
sglang/srt/openai_api_adapter.py +356 -0
sglang/srt/{managers/openai_protocol.py → openai_protocol.py} +36 -20
sglang/srt/sampling_params.py +2 -0
sglang/srt/server.py +68 -447
sglang/srt/server_args.py +76 -49
sglang/srt/utils.py +88 -32
sglang/srt/weight_utils.py +402 -0
sglang/test/test_programs.py +8 -7
sglang/test/test_utils.py +195 -7
{sglang-0.1.14.dist-info → sglang-0.1.15.dist-info}/METADATA +12 -14
sglang-0.1.15.dist-info/RECORD +69 -0
sglang-0.1.14.dist-info/RECORD +0 -64
{sglang-0.1.14.dist-info → sglang-0.1.15.dist-info}/LICENSE +0 -0
{sglang-0.1.14.dist-info → sglang-0.1.15.dist-info}/WHEEL +0 -0
{sglang-0.1.14.dist-info → sglang-0.1.15.dist-info}/top_level.txt +0 -0

sglang/srt/{managers/openai_protocol.py → openai_protocol.py} RENAMED Viewed

@@ -1,3 +1,4 @@
+"""pydantic models for OpenAI API protocol"""
 import time
 from typing import Dict, List, Optional, Union
@@ -19,21 +20,24 @@ class UsageInfo(BaseModel):
 class CompletionRequest(BaseModel):
+    # Ordered by official OpenAI API documentation
+    # https://platform.openai.com/docs/api-reference/completions/create
     model: str
-    prompt: Union[str, List[str]]
-    suffix: Optional[str] = None
-    max_tokens: Optional[int] = 16
-    temperature: Optional[float] = 0.7
-    top_p: Optional[float] = 1.0
-    n: Optional[int] = 1
-    stream: Optional[bool] = False
-    logprobs: Optional[int] = None
+    prompt: Union[List[int], List[List[int]], str, List[str]]
+    best_of: Optional[int] = None
     echo: Optional[bool] = False
-    stop: Optional[Union[str, List[str]]] = Field(default_factory=list)
-    presence_penalty: Optional[float] = 0.0
     frequency_penalty: Optional[float] = 0.0
-    best_of: Optional[int] = None
     logit_bias: Optional[Dict[str, float]] = None
+    logprobs: Optional[int] = None
+    max_tokens: Optional[int] = 16
+    n: int = 1
+    presence_penalty: Optional[float] = 0.0
+    seed: Optional[int] = None
+    stop: Optional[Union[str, List[str]]] = Field(default_factory=list)
+    stream: Optional[bool] = False
+    suffix: Optional[str] = None
+    temperature: Optional[float] = 1.0
+    top_p: Optional[float] = 1.0
     user: Optional[str] = None
     # Extra parameters for SRT backend only and will be ignored by OpenAI models.
@@ -107,20 +111,30 @@ ChatCompletionMessageParam = Union[
 ]
+class ResponseFormat(BaseModel):
+    # type must be "json_object" or "text"
+    type: Literal["text", "json_object"]
 class ChatCompletionRequest(BaseModel):
+    # Ordered by official OpenAI API documentation
+    # https://platform.openai.com/docs/api-reference/chat/create
+    messages: List[ChatCompletionMessageParam]
     model: str
-    messages: Union[str, List[ChatCompletionMessageParam]]
-    temperature: Optional[float] = 0.7
-    top_p: Optional[float] = 1.0
+    frequency_penalty: Optional[float] = 0.0
+    logit_bias: Optional[Dict[str, float]] = None
+    logprobs: Optional[bool] = False
+    top_logprobs: Optional[int] = None
+    max_tokens: Optional[int] = None
     n: Optional[int] = 1
-    max_tokens: Optional[int] = 16
+    presence_penalty: Optional[float] = 0.0
+    response_format: Optional[ResponseFormat] = None
+    seed: Optional[int] = None
     stop: Optional[Union[str, List[str]]] = Field(default_factory=list)
     stream: Optional[bool] = False
-    presence_penalty: Optional[float] = 0.0
-    frequency_penalty: Optional[float] = 0.0
-    logit_bias: Optional[Dict[str, float]] = None
+    temperature: Optional[float] = 0.7
+    top_p: Optional[float] = 1.0
     user: Optional[str] = None
-    best_of: Optional[int] = None
     # Extra parameters for SRT backend only and will be ignored by OpenAI models.
     regex: Optional[str] = None
@@ -134,6 +148,7 @@ class ChatMessage(BaseModel):
 class ChatCompletionResponseChoice(BaseModel):
     index: int
     message: ChatMessage
+    logprobs: Optional[LogProbs] = None
     finish_reason: Optional[str] = None
@@ -154,6 +169,7 @@ class DeltaMessage(BaseModel):
 class ChatCompletionResponseStreamChoice(BaseModel):
     index: int
     delta: DeltaMessage
+    logprobs: Optional[LogProbs] = None
     finish_reason: Optional[str] = None
@@ -162,4 +178,4 @@ class ChatCompletionStreamResponse(BaseModel):
     object: str = "chat.completion.chunk"
     created: int = Field(default_factory=lambda: int(time.time()))
     model: str
-    choices: List[ChatCompletionResponseStreamChoice]
+    choices: List[ChatCompletionResponseStreamChoice]

sglang/srt/sampling_params.py CHANGED Viewed

@@ -17,6 +17,7 @@ class SamplingParams:
         presence_penalty: float = 0.0,
         ignore_eos: bool = False,
         skip_special_tokens: bool = True,
+        spaces_between_special_tokens: bool = True,
         dtype: Optional[str] = None,
         regex: Optional[str] = None,
     ) -> None:
@@ -29,6 +30,7 @@ class SamplingParams:
         self.max_new_tokens = max_new_tokens
         self.ignore_eos = ignore_eos
         self.skip_special_tokens = skip_special_tokens
+        self.spaces_between_special_tokens = spaces_between_special_tokens
         self.dtype = dtype
         self.regex = regex

sglang 0.1.14__py3-none-any.whl → 0.1.15__py3-none-any.whl

sglang 0.1.14py3-none-any.whl → 0.1.15py3-none-any.whl