PyPI - vllm-cpu-avx512bf16 - Versions diffs - 0.14.0__cp313-cp313-manylinux_2_28_x86_64.whl - Mend

vllm-cpu-avx512bf16 0.14.0__cp313-cp313-manylinux_2_28_x86_64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (1712) hide show

vllm/grpc/vllm_engine.proto ADDED Viewed

@@ -0,0 +1,195 @@
+syntax = "proto3";
+package vllm.grpc.engine;
+// Service definition for vLLM engine communication
+// This protocol is designed for efficient binary communication between
+// the Rust router and vLLM Python engine (AsyncLLM).
+service VllmEngine {
+  // Submit a generation request (supports streaming)
+  rpc Generate(GenerateRequest) returns (stream GenerateResponse);
+  // Submit an embedding request
+  rpc Embed(EmbedRequest) returns (EmbedResponse);
+  // Health check
+  rpc HealthCheck(HealthCheckRequest) returns (HealthCheckResponse);
+  // Abort a running request
+  rpc Abort(AbortRequest) returns (AbortResponse);
+  // Get model information
+  rpc GetModelInfo(GetModelInfoRequest) returns (GetModelInfoResponse);
+  // Get server information
+  rpc GetServerInfo(GetServerInfoRequest) returns (GetServerInfoResponse);
+}
+// =====================
+// Common Types
+// =====================
+// Sampling parameters for text generation
+message SamplingParams {
+  optional float temperature = 1;
+  float top_p = 2;
+  uint32 top_k = 3;
+  float min_p = 4;
+  float frequency_penalty = 5;
+  float presence_penalty = 6;
+  float repetition_penalty = 7;
+  optional uint32 max_tokens = 8;
+  uint32 min_tokens = 9;
+  repeated string stop = 10;
+  repeated uint32 stop_token_ids = 11;
+  bool skip_special_tokens = 12;
+  bool spaces_between_special_tokens = 13;
+  bool ignore_eos = 14;
+  uint32 n = 15;  // Number of parallel samples
+  // Logprobs configuration
+  optional int32 logprobs = 22;  // Number of log probabilities per output token (-1 for all)
+  optional int32 prompt_logprobs = 23;  // Number of log probabilities per prompt token (-1 for all)
+  // Additional vLLM fields
+  optional int32 seed = 24;  // Random seed for reproducibility
+  bool include_stop_str_in_output = 25;  // Whether to include stop strings in output
+  map<int32, float> logit_bias = 26;  // Token ID to bias mapping (-100 to 100)
+  optional int32 truncate_prompt_tokens = 27;  // Prompt truncation (-1 for model max)
+  // Structured outputs (one of) - matches vLLM's StructuredOutputsParams
+  oneof constraint {
+    string json_schema = 16;  // JSON schema for structured output
+    string regex = 17;  // Regex pattern
+    string grammar = 18;  // Grammar/EBNF for structured output
+    string structural_tag = 19;  // Structural tag (e.g., Harmony models)
+    bool json_object = 20;  // Force JSON object output
+    ChoiceConstraint choice = 21;  // List of allowed choices
+  }
+}
+// Choice constraint for structured outputs
+message ChoiceConstraint {
+  repeated string choices = 1;
+}
+// Pre-tokenized input from Rust router
+message TokenizedInput {
+  string original_text = 1;  // For reference/debugging
+  repeated uint32 input_ids = 2;  // Actual token IDs to process
+}
+// =====================
+// Generate Request
+// =====================
+message GenerateRequest {
+  string request_id = 1;
+  // Prompt input
+  oneof input {
+    TokenizedInput tokenized = 2;
+    string text = 3;
+  }
+  // Generation parameters (includes logprobs config)
+  SamplingParams sampling_params = 4;
+  // Streaming
+  bool stream = 5;
+}
+// =====================
+// Generate Response
+// =====================
+message GenerateResponse {
+  oneof response {
+    GenerateStreamChunk chunk = 1;     // For streaming
+    GenerateComplete complete = 2;     // For final/non-streaming
+  }
+}
+message GenerateStreamChunk {
+  repeated uint32 token_ids = 1;       // Incremental tokens
+  uint32 prompt_tokens = 2;
+  uint32 completion_tokens = 3;
+  uint32 cached_tokens = 4;
+  // Logprobs support (TODO: implement in Phase 4)
+  // OutputLogProbs output_logprobs = 5;
+  // InputLogProbs input_logprobs = 6;  // Only in first chunk
+}
+message GenerateComplete {
+  repeated uint32 output_ids = 1;      // All output tokens
+  string finish_reason = 2;            // "stop", "length", "abort"
+  uint32 prompt_tokens = 3;
+  uint32 completion_tokens = 4;
+  uint32 cached_tokens = 5;
+  // Logprobs support (TODO: implement in Phase 4)
+  // OutputLogProbs output_logprobs = 6;
+  // InputLogProbs input_logprobs = 7;
+}
+// =====================
+// Embedding Request
+// =====================
+message EmbedRequest {
+  string request_id = 1;
+  TokenizedInput tokenized = 2;
+}
+message EmbedResponse {
+  repeated float embedding = 1;
+  uint32 prompt_tokens = 2;
+  uint32 embedding_dim = 3;
+}
+// =====================
+// Management Operations
+// =====================
+message HealthCheckRequest {}
+message HealthCheckResponse {
+  bool healthy = 1;
+  string message = 2;
+}
+message AbortRequest {
+  repeated string request_ids = 1;
+}
+message AbortResponse {
+}
+// =====================
+// Model and Server Info
+// =====================
+message GetModelInfoRequest {}
+message GetModelInfoResponse {
+  string model_path = 1;
+  bool is_generation = 2;
+  uint32 max_context_length = 3;
+  uint32 vocab_size = 4;
+  bool supports_vision = 5;
+}
+message GetServerInfoRequest {}
+message GetServerInfoResponse {
+  uint32 active_requests = 1;
+  bool is_paused = 2;
+  double last_receive_timestamp = 3;
+  double uptime_seconds = 4;
+  string server_type = 5;  // "vllm-grpc"
+}

vllm/grpc/vllm_engine_pb2.py ADDED Viewed

@@ -0,0 +1,77 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# mypy: ignore-errors
+# -*- coding: utf-8 -*-
+# Generated by the protocol buffer compiler.  DO NOT EDIT!
+# NO CHECKED-IN PROTOBUF GENCODE
+# source: vllm/grpc/vllm_engine.proto
+# Protobuf Python Version: 6.31.1
+"""Generated protocol buffer code."""
+from google.protobuf import descriptor as _descriptor
+from google.protobuf import descriptor_pool as _descriptor_pool
+from google.protobuf import runtime_version as _runtime_version
+from google.protobuf import symbol_database as _symbol_database
+from google.protobuf.internal import builder as _builder
+_runtime_version.ValidateProtobufRuntimeVersion(
+    _runtime_version.Domain.PUBLIC,
+    6,
+    31,
+    1,
+    '',
+    'vllm/grpc/vllm_engine.proto'
+)
+# @@protoc_insertion_point(imports)
+_sym_db = _symbol_database.Default()
+DESCRIPTOR = _descriptor_pool.Default().AddSerializedFile(b'\n\x1bvllm/grpc/vllm_engine.proto\x12\x10vllm.grpc.engine\"\xfa\x06\n\x0eSamplingParams\x12\x18\n\x0btemperature\x18\x01 \x01(\x02H\x01\x88\x01\x01\x12\r\n\x05top_p\x18\x02 \x01(\x02\x12\r\n\x05top_k\x18\x03 \x01(\r\x12\r\n\x05min_p\x18\x04 \x01(\x02\x12\x19\n\x11\x66requency_penalty\x18\x05 \x01(\x02\x12\x18\n\x10presence_penalty\x18\x06 \x01(\x02\x12\x1a\n\x12repetition_penalty\x18\x07 \x01(\x02\x12\x17\n\nmax_tokens\x18\x08 \x01(\rH\x02\x88\x01\x01\x12\x12\n\nmin_tokens\x18\t \x01(\r\x12\x0c\n\x04stop\x18\n \x03(\t\x12\x16\n\x0estop_token_ids\x18\x0b \x03(\r\x12\x1b\n\x13skip_special_tokens\x18\x0c \x01(\x08\x12%\n\x1dspaces_between_special_tokens\x18\r \x01(\x08\x12\x12\n\nignore_eos\x18\x0e \x01(\x08\x12\t\n\x01n\x18\x0f \x01(\r\x12\x15\n\x08logprobs\x18\x16 \x01(\x05H\x03\x88\x01\x01\x12\x1c\n\x0fprompt_logprobs\x18\x17 \x01(\x05H\x04\x88\x01\x01\x12\x11\n\x04seed\x18\x18 \x01(\x05H\x05\x88\x01\x01\x12\"\n\x1ainclude_stop_str_in_output\x18\x19 \x01(\x08\x12\x43\n\nlogit_bias\x18\x1a \x03(\x0b\x32/.vllm.grpc.engine.SamplingParams.LogitBiasEntry\x12#\n\x16truncate_prompt_tokens\x18\x1b \x01(\x05H\x06\x88\x01\x01\x12\x15\n\x0bjson_schema\x18\x10 \x01(\tH\x00\x12\x0f\n\x05regex\x18\x11 \x01(\tH\x00\x12\x11\n\x07grammar\x18\x12 \x01(\tH\x00\x12\x18\n\x0estructural_tag\x18\x13 \x01(\tH\x00\x12\x15\n\x0bjson_object\x18\x14 \x01(\x08H\x00\x12\x34\n\x06\x63hoice\x18\x15 \x01(\x0b\x32\".vllm.grpc.engine.ChoiceConstraintH\x00\x1a\x30\n\x0eLogitBiasEntry\x12\x0b\n\x03key\x18\x01 \x01(\x05\x12\r\n\x05value\x18\x02 \x01(\x02:\x02\x38\x01\x42\x0c\n\nconstraintB\x0e\n\x0c_temperatureB\r\n\x0b_max_tokensB\x0b\n\t_logprobsB\x12\n\x10_prompt_logprobsB\x07\n\x05_seedB\x19\n\x17_truncate_prompt_tokens\"#\n\x10\x43hoiceConstraint\x12\x0f\n\x07\x63hoices\x18\x01 \x03(\t\":\n\x0eTokenizedInput\x12\x15\n\roriginal_text\x18\x01 \x01(\t\x12\x11\n\tinput_ids\x18\x02 \x03(\r\"\xc0\x01\n\x0fGenerateRequest\x12\x12\n\nrequest_id\x18\x01 \x01(\t\x12\x35\n\ttokenized\x18\x02 \x01(\x0b\x32 .vllm.grpc.engine.TokenizedInputH\x00\x12\x0e\n\x04text\x18\x03 \x01(\tH\x00\x12\x39\n\x0fsampling_params\x18\x04 \x01(\x0b\x32 .vllm.grpc.engine.SamplingParams\x12\x0e\n\x06stream\x18\x05 \x01(\x08\x42\x07\n\x05input\"\x8e\x01\n\x10GenerateResponse\x12\x36\n\x05\x63hunk\x18\x01 \x01(\x0b\x32%.vllm.grpc.engine.GenerateStreamChunkH\x00\x12\x36\n\x08\x63omplete\x18\x02 \x01(\x0b\x32\".vllm.grpc.engine.GenerateCompleteH\x00\x42\n\n\x08response\"q\n\x13GenerateStreamChunk\x12\x11\n\ttoken_ids\x18\x01 \x03(\r\x12\x15\n\rprompt_tokens\x18\x02 \x01(\r\x12\x19\n\x11\x63ompletion_tokens\x18\x03 \x01(\r\x12\x15\n\rcached_tokens\x18\x04 \x01(\r\"\x86\x01\n\x10GenerateComplete\x12\x12\n\noutput_ids\x18\x01 \x03(\r\x12\x15\n\rfinish_reason\x18\x02 \x01(\t\x12\x15\n\rprompt_tokens\x18\x03 \x01(\r\x12\x19\n\x11\x63ompletion_tokens\x18\x04 \x01(\r\x12\x15\n\rcached_tokens\x18\x05 \x01(\r\"W\n\x0c\x45mbedRequest\x12\x12\n\nrequest_id\x18\x01 \x01(\t\x12\x33\n\ttokenized\x18\x02 \x01(\x0b\x32 .vllm.grpc.engine.TokenizedInput\"P\n\rEmbedResponse\x12\x11\n\tembedding\x18\x01 \x03(\x02\x12\x15\n\rprompt_tokens\x18\x02 \x01(\r\x12\x15\n\rembedding_dim\x18\x03 \x01(\r\"\x14\n\x12HealthCheckRequest\"7\n\x13HealthCheckResponse\x12\x0f\n\x07healthy\x18\x01 \x01(\x08\x12\x0f\n\x07message\x18\x02 \x01(\t\"#\n\x0c\x41\x62ortRequest\x12\x13\n\x0brequest_ids\x18\x01 \x03(\t\"\x0f\n\rAbortResponse\"\x15\n\x13GetModelInfoRequest\"\x8a\x01\n\x14GetModelInfoResponse\x12\x12\n\nmodel_path\x18\x01 \x01(\t\x12\x15\n\ris_generation\x18\x02 \x01(\x08\x12\x1a\n\x12max_context_length\x18\x03 \x01(\r\x12\x12\n\nvocab_size\x18\x04 \x01(\r\x12\x17\n\x0fsupports_vision\x18\x05 \x01(\x08\"\x16\n\x14GetServerInfoRequest\"\x90\x01\n\x15GetServerInfoResponse\x12\x17\n\x0f\x61\x63tive_requests\x18\x01 \x01(\r\x12\x11\n\tis_paused\x18\x02 \x01(\x08\x12\x1e\n\x16last_receive_timestamp\x18\x03 \x01(\x01\x12\x16\n\x0euptime_seconds\x18\x04 \x01(\x01\x12\x13\n\x0bserver_type\x18\x05 \x01(\t2\x92\x04\n\nVllmEngine\x12S\n\x08Generate\x12!.vllm.grpc.engine.GenerateRequest\x1a\".vllm.grpc.engine.GenerateResponse0\x01\x12H\n\x05\x45mbed\x12\x1e.vllm.grpc.engine.EmbedRequest\x1a\x1f.vllm.grpc.engine.EmbedResponse\x12Z\n\x0bHealthCheck\x12$.vllm.grpc.engine.HealthCheckRequest\x1a%.vllm.grpc.engine.HealthCheckResponse\x12H\n\x05\x41\x62ort\x12\x1e.vllm.grpc.engine.AbortRequest\x1a\x1f.vllm.grpc.engine.AbortResponse\x12]\n\x0cGetModelInfo\x12%.vllm.grpc.engine.GetModelInfoRequest\x1a&.vllm.grpc.engine.GetModelInfoResponse\x12`\n\rGetServerInfo\x12&.vllm.grpc.engine.GetServerInfoRequest\x1a\'.vllm.grpc.engine.GetServerInfoResponseb\x06proto3')
+_globals = globals()
+_builder.BuildMessageAndEnumDescriptors(DESCRIPTOR, _globals)
+_builder.BuildTopDescriptorsAndMessages(DESCRIPTOR, 'vllm.grpc.vllm_engine_pb2', _globals)
+if not _descriptor._USE_C_DESCRIPTORS:
+  DESCRIPTOR._loaded_options = None
+  _globals['_SAMPLINGPARAMS_LOGITBIASENTRY']._loaded_options = None
+  _globals['_SAMPLINGPARAMS_LOGITBIASENTRY']._serialized_options = b'8\001'
+  _globals['_SAMPLINGPARAMS']._serialized_start=50
+  _globals['_SAMPLINGPARAMS']._serialized_end=940
+  _globals['_SAMPLINGPARAMS_LOGITBIASENTRY']._serialized_start=778
+  _globals['_SAMPLINGPARAMS_LOGITBIASENTRY']._serialized_end=826
+  _globals['_CHOICECONSTRAINT']._serialized_start=942
+  _globals['_CHOICECONSTRAINT']._serialized_end=977
+  _globals['_TOKENIZEDINPUT']._serialized_start=979
+  _globals['_TOKENIZEDINPUT']._serialized_end=1037
+  _globals['_GENERATEREQUEST']._serialized_start=1040
+  _globals['_GENERATEREQUEST']._serialized_end=1232
+  _globals['_GENERATERESPONSE']._serialized_start=1235
+  _globals['_GENERATERESPONSE']._serialized_end=1377
+  _globals['_GENERATESTREAMCHUNK']._serialized_start=1379
+  _globals['_GENERATESTREAMCHUNK']._serialized_end=1492
+  _globals['_GENERATECOMPLETE']._serialized_start=1495
+  _globals['_GENERATECOMPLETE']._serialized_end=1629
+  _globals['_EMBEDREQUEST']._serialized_start=1631
+  _globals['_EMBEDREQUEST']._serialized_end=1718
+  _globals['_EMBEDRESPONSE']._serialized_start=1720
+  _globals['_EMBEDRESPONSE']._serialized_end=1800
+  _globals['_HEALTHCHECKREQUEST']._serialized_start=1802
+  _globals['_HEALTHCHECKREQUEST']._serialized_end=1822
+  _globals['_HEALTHCHECKRESPONSE']._serialized_start=1824
+  _globals['_HEALTHCHECKRESPONSE']._serialized_end=1879
+  _globals['_ABORTREQUEST']._serialized_start=1881
+  _globals['_ABORTREQUEST']._serialized_end=1916
+  _globals['_ABORTRESPONSE']._serialized_start=1918
+  _globals['_ABORTRESPONSE']._serialized_end=1933
+  _globals['_GETMODELINFOREQUEST']._serialized_start=1935
+  _globals['_GETMODELINFOREQUEST']._serialized_end=1956
+  _globals['_GETMODELINFORESPONSE']._serialized_start=1959
+  _globals['_GETMODELINFORESPONSE']._serialized_end=2097
+  _globals['_GETSERVERINFOREQUEST']._serialized_start=2099
+  _globals['_GETSERVERINFOREQUEST']._serialized_end=2121
+  _globals['_GETSERVERINFORESPONSE']._serialized_start=2124
+  _globals['_GETSERVERINFORESPONSE']._serialized_end=2268
+  _globals['_VLLMENGINE']._serialized_start=2271
+  _globals['_VLLMENGINE']._serialized_end=2801
+# @@protoc_insertion_point(module_scope)

vllm/grpc/vllm_engine_pb2.pyi ADDED Viewed

@@ -0,0 +1,213 @@
+# SPDX-License-Identifier: Apache-2.0
+# SPDX-FileCopyrightText: Copyright contributors to the vLLM project
+# mypy: ignore-errors
+from google.protobuf.internal import containers as _containers
+from google.protobuf import descriptor as _descriptor
+from google.protobuf import message as _message
+from collections.abc import Iterable as _Iterable, Mapping as _Mapping
+from typing import ClassVar as _ClassVar, Optional as _Optional, Union as _Union
+DESCRIPTOR: _descriptor.FileDescriptor
+class SamplingParams(_message.Message):
+    __slots__ = ("temperature", "top_p", "top_k", "min_p", "frequency_penalty", "presence_penalty", "repetition_penalty", "max_tokens", "min_tokens", "stop", "stop_token_ids", "skip_special_tokens", "spaces_between_special_tokens", "ignore_eos", "n", "logprobs", "prompt_logprobs", "seed", "include_stop_str_in_output", "logit_bias", "truncate_prompt_tokens", "json_schema", "regex", "grammar", "structural_tag", "json_object", "choice")
+    class LogitBiasEntry(_message.Message):
+        __slots__ = ("key", "value")
+        KEY_FIELD_NUMBER: _ClassVar[int]
+        VALUE_FIELD_NUMBER: _ClassVar[int]
+        key: int
+        value: float
+        def __init__(self, key: _Optional[int] = ..., value: _Optional[float] = ...) -> None: ...
+    TEMPERATURE_FIELD_NUMBER: _ClassVar[int]
+    TOP_P_FIELD_NUMBER: _ClassVar[int]
+    TOP_K_FIELD_NUMBER: _ClassVar[int]
+    MIN_P_FIELD_NUMBER: _ClassVar[int]
+    FREQUENCY_PENALTY_FIELD_NUMBER: _ClassVar[int]
+    PRESENCE_PENALTY_FIELD_NUMBER: _ClassVar[int]
+    REPETITION_PENALTY_FIELD_NUMBER: _ClassVar[int]
+    MAX_TOKENS_FIELD_NUMBER: _ClassVar[int]
+    MIN_TOKENS_FIELD_NUMBER: _ClassVar[int]
+    STOP_FIELD_NUMBER: _ClassVar[int]
+    STOP_TOKEN_IDS_FIELD_NUMBER: _ClassVar[int]
+    SKIP_SPECIAL_TOKENS_FIELD_NUMBER: _ClassVar[int]
+    SPACES_BETWEEN_SPECIAL_TOKENS_FIELD_NUMBER: _ClassVar[int]
+    IGNORE_EOS_FIELD_NUMBER: _ClassVar[int]
+    N_FIELD_NUMBER: _ClassVar[int]
+    LOGPROBS_FIELD_NUMBER: _ClassVar[int]
+    PROMPT_LOGPROBS_FIELD_NUMBER: _ClassVar[int]
+    SEED_FIELD_NUMBER: _ClassVar[int]
+    INCLUDE_STOP_STR_IN_OUTPUT_FIELD_NUMBER: _ClassVar[int]
+    LOGIT_BIAS_FIELD_NUMBER: _ClassVar[int]
+    TRUNCATE_PROMPT_TOKENS_FIELD_NUMBER: _ClassVar[int]
+    JSON_SCHEMA_FIELD_NUMBER: _ClassVar[int]
+    REGEX_FIELD_NUMBER: _ClassVar[int]
+    GRAMMAR_FIELD_NUMBER: _ClassVar[int]
+    STRUCTURAL_TAG_FIELD_NUMBER: _ClassVar[int]
+    JSON_OBJECT_FIELD_NUMBER: _ClassVar[int]
+    CHOICE_FIELD_NUMBER: _ClassVar[int]
+    temperature: float
+    top_p: float
+    top_k: int
+    min_p: float
+    frequency_penalty: float
+    presence_penalty: float
+    repetition_penalty: float
+    max_tokens: int
+    min_tokens: int
+    stop: _containers.RepeatedScalarFieldContainer[str]
+    stop_token_ids: _containers.RepeatedScalarFieldContainer[int]
+    skip_special_tokens: bool
+    spaces_between_special_tokens: bool
+    ignore_eos: bool
+    n: int
+    logprobs: int
+    prompt_logprobs: int
+    seed: int
+    include_stop_str_in_output: bool
+    logit_bias: _containers.ScalarMap[int, float]
+    truncate_prompt_tokens: int
+    json_schema: str
+    regex: str
+    grammar: str
+    structural_tag: str
+    json_object: bool
+    choice: ChoiceConstraint
+    def __init__(self, temperature: _Optional[float] = ..., top_p: _Optional[float] = ..., top_k: _Optional[int] = ..., min_p: _Optional[float] = ..., frequency_penalty: _Optional[float] = ..., presence_penalty: _Optional[float] = ..., repetition_penalty: _Optional[float] = ..., max_tokens: _Optional[int] = ..., min_tokens: _Optional[int] = ..., stop: _Optional[_Iterable[str]] = ..., stop_token_ids: _Optional[_Iterable[int]] = ..., skip_special_tokens: bool = ..., spaces_between_special_tokens: bool = ..., ignore_eos: bool = ..., n: _Optional[int] = ..., logprobs: _Optional[int] = ..., prompt_logprobs: _Optional[int] = ..., seed: _Optional[int] = ..., include_stop_str_in_output: bool = ..., logit_bias: _Optional[_Mapping[int, float]] = ..., truncate_prompt_tokens: _Optional[int] = ..., json_schema: _Optional[str] = ..., regex: _Optional[str] = ..., grammar: _Optional[str] = ..., structural_tag: _Optional[str] = ..., json_object: bool = ..., choice: _Optional[_Union[ChoiceConstraint, _Mapping]] = ...) -> None: ...
+class ChoiceConstraint(_message.Message):
+    __slots__ = ("choices",)
+    CHOICES_FIELD_NUMBER: _ClassVar[int]
+    choices: _containers.RepeatedScalarFieldContainer[str]
+    def __init__(self, choices: _Optional[_Iterable[str]] = ...) -> None: ...
+class TokenizedInput(_message.Message):
+    __slots__ = ("original_text", "input_ids")
+    ORIGINAL_TEXT_FIELD_NUMBER: _ClassVar[int]
+    INPUT_IDS_FIELD_NUMBER: _ClassVar[int]
+    original_text: str
+    input_ids: _containers.RepeatedScalarFieldContainer[int]
+    def __init__(self, original_text: _Optional[str] = ..., input_ids: _Optional[_Iterable[int]] = ...) -> None: ...
+class GenerateRequest(_message.Message):
+    __slots__ = ("request_id", "tokenized", "text", "sampling_params", "stream")
+    REQUEST_ID_FIELD_NUMBER: _ClassVar[int]
+    TOKENIZED_FIELD_NUMBER: _ClassVar[int]
+    TEXT_FIELD_NUMBER: _ClassVar[int]
+    SAMPLING_PARAMS_FIELD_NUMBER: _ClassVar[int]
+    STREAM_FIELD_NUMBER: _ClassVar[int]
+    request_id: str
+    tokenized: TokenizedInput
+    text: str
+    sampling_params: SamplingParams
+    stream: bool
+    def __init__(self, request_id: _Optional[str] = ..., tokenized: _Optional[_Union[TokenizedInput, _Mapping]] = ..., text: _Optional[str] = ..., sampling_params: _Optional[_Union[SamplingParams, _Mapping]] = ..., stream: bool = ...) -> None: ...
+class GenerateResponse(_message.Message):
+    __slots__ = ("chunk", "complete")
+    CHUNK_FIELD_NUMBER: _ClassVar[int]
+    COMPLETE_FIELD_NUMBER: _ClassVar[int]
+    chunk: GenerateStreamChunk
+    complete: GenerateComplete
+    def __init__(self, chunk: _Optional[_Union[GenerateStreamChunk, _Mapping]] = ..., complete: _Optional[_Union[GenerateComplete, _Mapping]] = ...) -> None: ...
+class GenerateStreamChunk(_message.Message):
+    __slots__ = ("token_ids", "prompt_tokens", "completion_tokens", "cached_tokens")
+    TOKEN_IDS_FIELD_NUMBER: _ClassVar[int]
+    PROMPT_TOKENS_FIELD_NUMBER: _ClassVar[int]
+    COMPLETION_TOKENS_FIELD_NUMBER: _ClassVar[int]
+    CACHED_TOKENS_FIELD_NUMBER: _ClassVar[int]
+    token_ids: _containers.RepeatedScalarFieldContainer[int]
+    prompt_tokens: int
+    completion_tokens: int
+    cached_tokens: int
+    def __init__(self, token_ids: _Optional[_Iterable[int]] = ..., prompt_tokens: _Optional[int] = ..., completion_tokens: _Optional[int] = ..., cached_tokens: _Optional[int] = ...) -> None: ...
+class GenerateComplete(_message.Message):
+    __slots__ = ("output_ids", "finish_reason", "prompt_tokens", "completion_tokens", "cached_tokens")
+    OUTPUT_IDS_FIELD_NUMBER: _ClassVar[int]
+    FINISH_REASON_FIELD_NUMBER: _ClassVar[int]
+    PROMPT_TOKENS_FIELD_NUMBER: _ClassVar[int]
+    COMPLETION_TOKENS_FIELD_NUMBER: _ClassVar[int]
+    CACHED_TOKENS_FIELD_NUMBER: _ClassVar[int]
+    output_ids: _containers.RepeatedScalarFieldContainer[int]
+    finish_reason: str
+    prompt_tokens: int
+    completion_tokens: int
+    cached_tokens: int
+    def __init__(self, output_ids: _Optional[_Iterable[int]] = ..., finish_reason: _Optional[str] = ..., prompt_tokens: _Optional[int] = ..., completion_tokens: _Optional[int] = ..., cached_tokens: _Optional[int] = ...) -> None: ...
+class EmbedRequest(_message.Message):
+    __slots__ = ("request_id", "tokenized")
+    REQUEST_ID_FIELD_NUMBER: _ClassVar[int]
+    TOKENIZED_FIELD_NUMBER: _ClassVar[int]
+    request_id: str
+    tokenized: TokenizedInput
+    def __init__(self, request_id: _Optional[str] = ..., tokenized: _Optional[_Union[TokenizedInput, _Mapping]] = ...) -> None: ...
+class EmbedResponse(_message.Message):
+    __slots__ = ("embedding", "prompt_tokens", "embedding_dim")
+    EMBEDDING_FIELD_NUMBER: _ClassVar[int]
+    PROMPT_TOKENS_FIELD_NUMBER: _ClassVar[int]
+    EMBEDDING_DIM_FIELD_NUMBER: _ClassVar[int]
+    embedding: _containers.RepeatedScalarFieldContainer[float]
+    prompt_tokens: int
+    embedding_dim: int
+    def __init__(self, embedding: _Optional[_Iterable[float]] = ..., prompt_tokens: _Optional[int] = ..., embedding_dim: _Optional[int] = ...) -> None: ...
+class HealthCheckRequest(_message.Message):
+    __slots__ = ()
+    def __init__(self) -> None: ...
+class HealthCheckResponse(_message.Message):
+    __slots__ = ("healthy", "message")
+    HEALTHY_FIELD_NUMBER: _ClassVar[int]
+    MESSAGE_FIELD_NUMBER: _ClassVar[int]
+    healthy: bool
+    message: str
+    def __init__(self, healthy: bool = ..., message: _Optional[str] = ...) -> None: ...
+class AbortRequest(_message.Message):
+    __slots__ = ("request_ids",)
+    REQUEST_IDS_FIELD_NUMBER: _ClassVar[int]
+    request_ids: _containers.RepeatedScalarFieldContainer[str]
+    def __init__(self, request_ids: _Optional[_Iterable[str]] = ...) -> None: ...
+class AbortResponse(_message.Message):
+    __slots__ = ()
+    def __init__(self) -> None: ...
+class GetModelInfoRequest(_message.Message):
+    __slots__ = ()
+    def __init__(self) -> None: ...
+class GetModelInfoResponse(_message.Message):
+    __slots__ = ("model_path", "is_generation", "max_context_length", "vocab_size", "supports_vision")
+    MODEL_PATH_FIELD_NUMBER: _ClassVar[int]
+    IS_GENERATION_FIELD_NUMBER: _ClassVar[int]
+    MAX_CONTEXT_LENGTH_FIELD_NUMBER: _ClassVar[int]
+    VOCAB_SIZE_FIELD_NUMBER: _ClassVar[int]
+    SUPPORTS_VISION_FIELD_NUMBER: _ClassVar[int]
+    model_path: str
+    is_generation: bool
+    max_context_length: int
+    vocab_size: int
+    supports_vision: bool
+    def __init__(self, model_path: _Optional[str] = ..., is_generation: bool = ..., max_context_length: _Optional[int] = ..., vocab_size: _Optional[int] = ..., supports_vision: bool = ...) -> None: ...
+class GetServerInfoRequest(_message.Message):
+    __slots__ = ()
+    def __init__(self) -> None: ...
+class GetServerInfoResponse(_message.Message):
+    __slots__ = ("active_requests", "is_paused", "last_receive_timestamp", "uptime_seconds", "server_type")
+    ACTIVE_REQUESTS_FIELD_NUMBER: _ClassVar[int]
+    IS_PAUSED_FIELD_NUMBER: _ClassVar[int]
+    LAST_RECEIVE_TIMESTAMP_FIELD_NUMBER: _ClassVar[int]
+    UPTIME_SECONDS_FIELD_NUMBER: _ClassVar[int]
+    SERVER_TYPE_FIELD_NUMBER: _ClassVar[int]
+    active_requests: int
+    is_paused: bool
+    last_receive_timestamp: float
+    uptime_seconds: float
+    server_type: str
+    def __init__(self, active_requests: _Optional[int] = ..., is_paused: bool = ..., last_receive_timestamp: _Optional[float] = ..., uptime_seconds: _Optional[float] = ..., server_type: _Optional[str] = ...) -> None: ...