PyPI - vec-inf - Versions diffs - 0.7.0__py3-none-any.whl → 0.7.2__py3-none-any.whl - Mend

vec-inf 0.7.0py3-none-any.whl → 0.7.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (18) hide show

vec_inf/cli/_cli.py +15 -1
vec_inf/cli/_helper.py +44 -19
vec_inf/client/_client_vars.py +0 -7
vec_inf/client/_helper.py +66 -26
vec_inf/client/_slurm_script_generator.py +36 -19
vec_inf/client/_slurm_templates.py +20 -3
vec_inf/client/_slurm_vars.py +4 -0
vec_inf/client/_utils.py +56 -7
vec_inf/client/api.py +8 -2
vec_inf/client/models.py +6 -0
vec_inf/config/environment.yaml +4 -0
vec_inf/config/models.yaml +48 -99
{vec_inf-0.7.0.dist-info → vec_inf-0.7.2.dist-info}/METADATA +25 -6
vec_inf-0.7.2.dist-info/RECORD +27 -0
vec_inf-0.7.0.dist-info/RECORD +0 -27
{vec_inf-0.7.0.dist-info → vec_inf-0.7.2.dist-info}/WHEEL +0 -0
{vec_inf-0.7.0.dist-info → vec_inf-0.7.2.dist-info}/entry_points.txt +0 -0
{vec_inf-0.7.0.dist-info → vec_inf-0.7.2.dist-info}/licenses/LICENSE +0 -0

vec_inf/config/models.yaml CHANGED Viewed

@@ -12,7 +12,6 @@ models:
       --pipeline-parallel-size: 2
       --tensor-parallel-size: 4
       --max-model-len: 65536
-      --max-num-seqs: 256
   c4ai-command-r-08-2024:
     model_family: c4ai-command-r
     model_variant: 08-2024
@@ -25,7 +24,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 32768
-      --max-num-seqs: 256
   CodeLlama-7b-hf:
     model_family: CodeLlama
     model_variant: 7b-hf
@@ -37,7 +35,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 16384
-      --max-num-seqs: 256
   CodeLlama-7b-Instruct-hf:
     model_family: CodeLlama
     model_variant: 7b-Instruct-hf
@@ -49,7 +46,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 16384
-      --max-num-seqs: 256
   CodeLlama-13b-hf:
     model_family: CodeLlama
     model_variant: 13b-hf
@@ -61,7 +57,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 16384
-      --max-num-seqs: 256
   CodeLlama-13b-Instruct-hf:
     model_family: CodeLlama
     model_variant: 13b-Instruct-hf
@@ -73,7 +68,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 16384
-      --max-num-seqs: 256
   CodeLlama-34b-hf:
     model_family: CodeLlama
     model_variant: 34b-hf
@@ -86,7 +80,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 16384
-      --max-num-seqs: 256
   CodeLlama-34b-Instruct-hf:
     model_family: CodeLlama
     model_variant: 34b-Instruct-hf
@@ -99,7 +92,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 16384
-      --max-num-seqs: 256
   CodeLlama-70b-hf:
     model_family: CodeLlama
     model_variant: 70b-hf
@@ -112,7 +104,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 4096
-      --max-num-seqs: 256
   CodeLlama-70b-Instruct-hf:
     model_family: CodeLlama
     model_variant: 70b-Instruct-hf
@@ -125,7 +116,17 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 4096
-      --max-num-seqs: 256
+  gemma-2-2b-it:
+    model_family: gemma-2
+    model_variant: 2b-it
+    model_type: LLM
+    gpus_per_node: 1
+    num_nodes: 1
+    vocab_size: 256000
+    time: 08:00:00
+    resource_type: l40s
+    vllm_args:
+      --max-model-len: 4096
   gemma-2-9b:
     model_family: gemma-2
     model_variant: 9b
@@ -137,7 +138,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
   gemma-2-9b-it:
     model_family: gemma-2
     model_variant: 9b-it
@@ -149,7 +149,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
   gemma-2-27b:
     model_family: gemma-2
     model_variant: 27b
@@ -162,7 +161,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 4096
-      --max-num-seqs: 256
   gemma-2-27b-it:
     model_family: gemma-2
     model_variant: 27b-it
@@ -175,7 +173,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 4096
-      --max-num-seqs: 256
   Llama-2-7b-hf:
     model_family: Llama-2
     model_variant: 7b-hf
@@ -187,7 +184,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
   Llama-2-7b-chat-hf:
     model_family: Llama-2
     model_variant: 7b-chat-hf
@@ -199,7 +195,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
   Llama-2-13b-hf:
     model_family: Llama-2
     model_variant: 13b-hf
@@ -211,7 +206,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
   Llama-2-13b-chat-hf:
     model_family: Llama-2
     model_variant: 13b-chat-hf
@@ -223,7 +217,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
   Llama-2-70b-hf:
     model_family: Llama-2
     model_variant: 70b-hf
@@ -236,7 +229,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 4096
-      --max-num-seqs: 256
   Llama-2-70b-chat-hf:
     model_family: Llama-2
     model_variant: 70b-chat-hf
@@ -249,7 +241,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 4096
-      --max-num-seqs: 256
   llava-1.5-7b-hf:
     model_family: llava-1.5
     model_variant: 7b-hf
@@ -261,7 +252,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
   llava-1.5-13b-hf:
     model_family: llava-1.5
     model_variant: 13b-hf
@@ -273,7 +263,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
   llava-v1.6-mistral-7b-hf:
     model_family: llava-v1.6
     model_variant: mistral-7b-hf
@@ -285,7 +274,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 32768
-      --max-num-seqs: 256
   llava-v1.6-34b-hf:
     model_family: llava-v1.6
     model_variant: 34b-hf
@@ -298,7 +286,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 4096
-      --max-num-seqs: 256
   Meta-Llama-3-8B:
     model_family: Meta-Llama-3
     model_variant: 8B
@@ -310,7 +297,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 8192
-      --max-num-seqs: 256
   Meta-Llama-3-8B-Instruct:
     model_family: Meta-Llama-3
     model_variant: 8B-Instruct
@@ -322,7 +308,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 8192
-      --max-num-seqs: 256
   Meta-Llama-3-70B:
     model_family: Meta-Llama-3
     model_variant: 70B
@@ -335,7 +320,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 8192
-      --max-num-seqs: 256
   Meta-Llama-3-70B-Instruct:
     model_family: Meta-Llama-3
     model_variant: 70B-Instruct
@@ -348,7 +332,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 8192
-      --max-num-seqs: 256
   Meta-Llama-3.1-8B:
     model_family: Meta-Llama-3.1
     model_variant: 8B
@@ -360,7 +343,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 131072
-      --max-num-seqs: 256
   Meta-Llama-3.1-8B-Instruct:
     model_family: Meta-Llama-3.1
     model_variant: 8B-Instruct
@@ -372,7 +354,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 131072
-      --max-num-seqs: 256
   Meta-Llama-3.1-70B:
     model_family: Meta-Llama-3.1
     model_variant: 70B
@@ -385,7 +366,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 65536
-      --max-num-seqs: 256
   Meta-Llama-3.1-70B-Instruct:
     model_family: Meta-Llama-3.1
     model_variant: 70B-Instruct
@@ -398,7 +378,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 65536
-      --max-num-seqs: 256
   Meta-Llama-3.1-405B-Instruct:
     model_family: Meta-Llama-3.1
     model_variant: 405B-Instruct
@@ -406,14 +385,12 @@ models:
     gpus_per_node: 4
     num_nodes: 8
     vocab_size: 128256
-    qos: m4
-    time: 02:00:00
+    time: 08:00:00
     resource_type: l40s
     vllm_args:
       --pipeline-parallel-size: 8
       --tensor-parallel-size: 4
       --max-model-len: 16384
-      --max-num-seqs: 256
   Mistral-7B-Instruct-v0.1:
     model_family: Mistral
     model_variant: 7B-Instruct-v0.1
@@ -425,7 +402,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 32768
-      --max-num-seqs: 256
   Mistral-7B-Instruct-v0.2:
     model_family: Mistral
     model_variant: 7B-Instruct-v0.2
@@ -437,7 +413,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 32768
-      --max-num-seqs: 256
   Mistral-7B-v0.3:
     model_family: Mistral
     model_variant: 7B-v0.3
@@ -449,7 +424,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 32768
-      --max-num-seqs: 256
   Mistral-7B-Instruct-v0.3:
     model_family: Mistral
     model_variant: 7B-Instruct-v0.3
@@ -461,7 +435,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 32768
-      --max-num-seqs: 256
   Mistral-Large-Instruct-2407:
     model_family: Mistral
     model_variant: Large-Instruct-2407
@@ -475,7 +448,6 @@ models:
       --pipeline-parallel-size: 2
       --tensor-parallel-size: 4
       --max-model-len: 32768
-      --max-num-seqs: 256
   Mistral-Large-Instruct-2411:
     model_family: Mistral
     model_variant: Large-Instruct-2411
@@ -489,7 +461,6 @@ models:
       --pipeline-parallel-size: 2
       --tensor-parallel-size: 4
       --max-model-len: 32768
-      --max-num-seqs: 256
   Mixtral-8x7B-Instruct-v0.1:
     model_family: Mixtral
     model_variant: 8x7B-Instruct-v0.1
@@ -502,7 +473,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 32768
-      --max-num-seqs: 256
   Mixtral-8x22B-v0.1:
     model_family: Mixtral
     model_variant: 8x22B-v0.1
@@ -516,7 +486,6 @@ models:
       --pipeline-parallel-size: 2
       --tensor-parallel-size: 4
       --max-model-len: 65536
-      --max-num-seqs: 256
   Mixtral-8x22B-Instruct-v0.1:
     model_family: Mixtral
     model_variant: 8x22B-Instruct-v0.1
@@ -530,7 +499,6 @@ models:
       --pipeline-parallel-size: 2
       --tensor-parallel-size: 4
       --max-model-len: 65536
-      --max-num-seqs: 256
   Phi-3-medium-128k-instruct:
     model_family: Phi-3
     model_variant: medium-128k-instruct
@@ -543,7 +511,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 131072
-      --max-num-seqs: 256
   Phi-3-vision-128k-instruct:
     model_family: Phi-3-vision
     model_variant: 128k-instruct
@@ -556,20 +523,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 65536
-      --max-num-seqs: 256
-  Llama3-OpenBioLLM-70B:
-    model_family: Llama3-OpenBioLLM
-    model_variant: 70B
-    model_type: LLM
-    gpus_per_node: 4
-    num_nodes: 1
-    vocab_size: 128256
-    time: 08:00:00
-    resource_type: l40s
-    vllm_args:
-      --tensor-parallel-size: 4
-      --max-model-len: 8192
-      --max-num-seqs: 256
   Llama-3.1-Nemotron-70B-Instruct-HF:
     model_family: Llama-3.1-Nemotron
     model_variant: 70B-Instruct-HF
@@ -582,7 +535,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 65536
-      --max-num-seqs: 256
   Llama-3.2-1B:
     model_family: Llama-3.2
     model_variant: 1B
@@ -594,7 +546,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 131072
-      --max-num-seqs: 256
   Llama-3.2-1B-Instruct:
     model_family: Llama-3.2
     model_variant: 1B-Instruct
@@ -606,7 +557,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 131072
-      --max-num-seqs: 256
   Llama-3.2-3B:
     model_family: Llama-3.2
     model_variant: 3B
@@ -618,7 +568,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 131072
-      --max-num-seqs: 256
   Llama-3.2-3B-Instruct:
     model_family: Llama-3.2
     model_variant: 3B-Instruct
@@ -630,7 +579,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 131072
-      --max-num-seqs: 256
   Llama-3.2-11B-Vision:
     model_family: Llama-3.2
     model_variant: 11B-Vision
@@ -698,7 +646,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 32768
-      --max-num-seqs: 256
   Qwen2.5-1.5B-Instruct:
     model_family: Qwen2.5
     model_variant: 1.5B-Instruct
@@ -710,7 +657,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 32768
-      --max-num-seqs: 256
   Qwen2.5-3B-Instruct:
     model_family: Qwen2.5
     model_variant: 3B-Instruct
@@ -722,7 +668,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 32768
-      --max-num-seqs: 256
   Qwen2.5-7B-Instruct:
     model_family: Qwen2.5
     model_variant: 7B-Instruct
@@ -734,7 +679,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 32768
-      --max-num-seqs: 256
   Qwen2.5-14B-Instruct:
     model_family: Qwen2.5
     model_variant: 14B-Instruct
@@ -746,7 +690,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 32768
-      --max-num-seqs: 256
   Qwen2.5-32B-Instruct:
     model_family: Qwen2.5
     model_variant: 32B-Instruct
@@ -759,7 +702,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 32768
-      --max-num-seqs: 256
   Qwen2.5-72B-Instruct:
     model_family: Qwen2.5
     model_variant: 72B-Instruct
@@ -772,7 +714,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 16384
-      --max-num-seqs: 256
   Qwen2.5-Math-1.5B-Instruct:
     model_family: Qwen2.5
     model_variant: Math-1.5B-Instruct
@@ -784,7 +725,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
   Qwen2.5-Math-7B-Instruct:
     model_family: Qwen2.5
     model_variant: Math-7B-Instruct
@@ -796,7 +736,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
   Qwen2.5-Math-72B-Instruct:
     model_family: Qwen2.5
     model_variant: Math-72B-Instruct
@@ -809,7 +748,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 4096
-      --max-num-seqs: 256
   Qwen2.5-Coder-7B-Instruct:
     model_family: Qwen2.5
     model_variant: Coder-7B-Instruct
@@ -821,7 +759,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 32768
-      --max-num-seqs: 256
   Qwen2.5-Math-RM-72B:
     model_family: Qwen2.5
     model_variant: Math-RM-72B
@@ -834,7 +771,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 4096
-      --max-num-seqs: 256
   Qwen2.5-Math-PRM-7B:
     model_family: Qwen2.5
     model_variant: Math-PRM-7B
@@ -846,7 +782,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
   QwQ-32B:
     model_family: QwQ
     model_variant: 32B
@@ -859,7 +794,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 32768
-      --max-num-seqs: 256
   Pixtral-12B-2409:
     model_family: Pixtral
     model_variant: 12B-2409
@@ -871,7 +805,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 8192
-      --max-num-seqs: 256
   e5-mistral-7b-instruct:
     model_family: e5
     model_variant: mistral-7b-instruct
@@ -883,7 +816,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
   bge-base-en-v1.5:
     model_family: bge
     model_variant: base-en-v1.5
@@ -895,7 +827,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 512
-      --max-num-seqs: 256
   all-MiniLM-L6-v2:
     model_family: all-MiniLM
     model_variant: L6-v2
@@ -907,7 +838,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 512
-      --max-num-seqs: 256
   Llama-3.3-70B-Instruct:
     model_family: Llama-3.3
     model_variant: 70B-Instruct
@@ -920,7 +850,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 65536
-      --max-num-seqs: 256
   InternVL2_5-26B:
     model_family: InternVL2_5
     model_variant: 26B
@@ -933,7 +862,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 32768
-      --max-num-seqs: 256
   InternVL2_5-38B:
     model_family: InternVL2_5
     model_variant: 38B
@@ -946,7 +874,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 32768
-      --max-num-seqs: 256
   Aya-Expanse-32B:
     model_family: Aya-Expanse
     model_variant: 32B
@@ -959,7 +886,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 8192
-      --max-num-seqs: 256
   DeepSeek-R1-Distill-Llama-70B:
     model_family: DeepSeek-R1
     model_variant: Distill-Llama-70B
@@ -972,7 +898,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 65536
-      --max-num-seqs: 256
   DeepSeek-R1-Distill-Llama-8B:
     model_family: DeepSeek-R1
     model_variant: Distill-Llama-8B
@@ -984,7 +909,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 131072
-      --max-num-seqs: 256
   DeepSeek-R1-Distill-Qwen-32B:
     model_family: DeepSeek-R1
     model_variant: Distill-Qwen-32B
@@ -997,7 +921,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 65536
-      --max-num-seqs: 256
   DeepSeek-R1-Distill-Qwen-14B:
     model_family: DeepSeek-R1
     model_variant: Distill-Qwen-14B
@@ -1009,7 +932,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 65536
-      --max-num-seqs: 256
   DeepSeek-R1-Distill-Qwen-7B:
     model_family: DeepSeek-R1
     model_variant: Distill-Qwen-7B
@@ -1021,7 +943,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 131072
-      --max-num-seqs: 256
   DeepSeek-R1-Distill-Qwen-1.5B:
     model_family: DeepSeek-R1
     model_variant: Distill-Qwen-1.5B
@@ -1033,7 +954,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 131072
-      --max-num-seqs: 256
   Phi-3.5-vision-instruct:
     model_family: Phi-3.5-vision
     model_variant: instruct
@@ -1046,7 +966,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 65536
-      --max-num-seqs: 256
   InternVL2_5-8B:
     model_family: InternVL2_5
     model_variant: 8B
@@ -1058,7 +977,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 32768
-      --max-num-seqs: 256
   glm-4v-9b:
     model_family: glm-4v
     model_variant: 9b
@@ -1070,7 +988,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 8192
-      --max-num-seqs: 256
   Molmo-7B-D-0924:
     model_family: Molmo
     model_variant: 7B-D-0924
@@ -1082,7 +999,6 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
   deepseek-vl2:
     model_family: deepseek-vl2
     model_type: VLM
@@ -1094,7 +1010,6 @@ models:
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 4096
-      --max-num-seqs: 256
   deepseek-vl2-small:
     model_family: deepseek-vl2
     model_variant: small
@@ -1106,7 +1021,17 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 4096
-      --max-num-seqs: 256
+  Qwen3-8B:
+    model_family: Qwen3
+    model_variant: 8B
+    model_type: LLM
+    gpus_per_node: 1
+    num_nodes: 1
+    vocab_size: 151936
+    time: 08:00:00
+    resource_type: l40s
+    vllm_args:
+      --max-model-len: 40960
   Qwen3-14B:
     model_family: Qwen3
     model_variant: 14B
@@ -1118,4 +1043,28 @@ models:
     resource_type: l40s
     vllm_args:
       --max-model-len: 40960
-      --max-num-seqs: 256
+  Qwen3-32B:
+    model_family: Qwen3
+    model_variant: 32B
+    model_type: LLM
+    gpus_per_node: 2
+    num_nodes: 1
+    vocab_size: 151936
+    time: 08:00:00
+    resource_type: l40s
+    vllm_args:
+      --tensor-parallel-size: 2
+      --max-model-len: 40960
+  gpt-oss-120b:
+    model_family: gpt-oss
+    model_variant: 120b
+    model_type: LLM
+    gpus_per_node: 4
+    num_nodes: 2
+    vocab_size: 201088
+    time: 08:00:00
+    resource_type: l40s
+    vllm_args:
+      --tensor-parallel-size: 4
+      --pipeline-parallel-size: 2
+      --max-model-len: 40960

vec-inf 0.7.0__py3-none-any.whl → 0.7.2__py3-none-any.whl

vec-inf 0.7.0py3-none-any.whl → 0.7.2py3-none-any.whl