PyPI - vec-inf - Versions diffs - 0.6.0__py3-none-any.whl → 0.7.0__py3-none-any.whl - Mend

vec-inf 0.6.0py3-none-any.whl → 0.7.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (22) hide show

vec_inf/README.md +18 -4
vec_inf/cli/_cli.py +212 -30
vec_inf/cli/_helper.py +95 -14
vec_inf/client/_client_vars.py +19 -152
vec_inf/client/_helper.py +386 -53
vec_inf/client/_slurm_script_generator.py +210 -43
vec_inf/client/_slurm_templates.py +248 -0
vec_inf/client/_slurm_vars.py +82 -0
vec_inf/client/_utils.py +190 -71
vec_inf/client/api.py +96 -25
vec_inf/client/config.py +46 -15
vec_inf/client/models.py +51 -2
vec_inf/config/README.md +4 -243
vec_inf/config/environment.yaml +31 -0
vec_inf/config/models.yaml +102 -281
{vec_inf-0.6.0.dist-info → vec_inf-0.7.0.dist-info}/METADATA +25 -67
vec_inf-0.7.0.dist-info/RECORD +27 -0
vec_inf/client/slurm_vars.py +0 -49
vec_inf-0.6.0.dist-info/RECORD +0 -25
{vec_inf-0.6.0.dist-info → vec_inf-0.7.0.dist-info}/WHEEL +0 -0
{vec_inf-0.6.0.dist-info → vec_inf-0.7.0.dist-info}/entry_points.txt +0 -0
{vec_inf-0.6.0.dist-info → vec_inf-0.7.0.dist-info}/licenses/LICENSE +0 -0

vec_inf/config/models.yaml CHANGED Viewed

@@ -1,20 +1,4 @@
 models:
-  c4ai-command-r-plus:
-    model_family: c4ai-command-r
-    model_variant: plus
-    model_type: LLM
-    gpus_per_node: 4
-    num_nodes: 2
-    vocab_size: 256000
-    qos: m2
-    time: 08:00:00
-    partition: a40
-    vllm_args:
-      --pipeline-parallel-size: 2
-      --tensor-parallel-size: 4
-      --max-model-len: 8192
-      --max-num-seqs: 256
-      --compilation-config: 3
   c4ai-command-r-plus-08-2024:
     model_family: c4ai-command-r
     model_variant: plus-08-2024
@@ -22,15 +6,13 @@ models:
     gpus_per_node: 4
     num_nodes: 2
     vocab_size: 256000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --pipeline-parallel-size: 2
       --tensor-parallel-size: 4
       --max-model-len: 65536
       --max-num-seqs: 256
-      --compilation-config: 3
   c4ai-command-r-08-2024:
     model_family: c4ai-command-r
     model_variant: 08-2024
@@ -38,14 +20,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 256000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   CodeLlama-7b-hf:
     model_family: CodeLlama
     model_variant: 7b-hf
@@ -53,13 +33,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 16384
       --max-num-seqs: 256
-      --compilation-config: 3
   CodeLlama-7b-Instruct-hf:
     model_family: CodeLlama
     model_variant: 7b-Instruct-hf
@@ -67,13 +45,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 16384
       --max-num-seqs: 256
-      --compilation-config: 3
   CodeLlama-13b-hf:
     model_family: CodeLlama
     model_variant: 13b-hf
@@ -81,13 +57,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 16384
       --max-num-seqs: 256
-      --compilation-config: 3
   CodeLlama-13b-Instruct-hf:
     model_family: CodeLlama
     model_variant: 13b-Instruct-hf
@@ -95,13 +69,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 16384
       --max-num-seqs: 256
-      --compilation-config: 3
   CodeLlama-34b-hf:
     model_family: CodeLlama
     model_variant: 34b-hf
@@ -109,14 +81,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 16384
       --max-num-seqs: 256
-      --compilation-config: 3
   CodeLlama-34b-Instruct-hf:
     model_family: CodeLlama
     model_variant: 34b-Instruct-hf
@@ -124,14 +94,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 16384
       --max-num-seqs: 256
-      --compilation-config: 3
   CodeLlama-70b-hf:
     model_family: CodeLlama
     model_variant: 70b-hf
@@ -139,14 +107,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 32016
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   CodeLlama-70b-Instruct-hf:
     model_family: CodeLlama
     model_variant: 70b-Instruct-hf
@@ -154,14 +120,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 32016
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   gemma-2-9b:
     model_family: gemma-2
     model_variant: 9b
@@ -169,13 +133,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 256000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   gemma-2-9b-it:
     model_family: gemma-2
     model_variant: 9b-it
@@ -183,13 +145,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 256000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   gemma-2-27b:
     model_family: gemma-2
     model_variant: 27b
@@ -197,14 +157,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 256000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   gemma-2-27b-it:
     model_family: gemma-2
     model_variant: 27b-it
@@ -212,14 +170,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 256000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama-2-7b-hf:
     model_family: Llama-2
     model_variant: 7b-hf
@@ -227,13 +183,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama-2-7b-chat-hf:
     model_family: Llama-2
     model_variant: 7b-chat-hf
@@ -241,13 +195,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama-2-13b-hf:
     model_family: Llama-2
     model_variant: 13b-hf
@@ -255,13 +207,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama-2-13b-chat-hf:
     model_family: Llama-2
     model_variant: 13b-chat-hf
@@ -269,13 +219,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama-2-70b-hf:
     model_family: Llama-2
     model_variant: 70b-hf
@@ -283,14 +231,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama-2-70b-chat-hf:
     model_family: Llama-2
     model_variant: 70b-chat-hf
@@ -298,14 +244,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   llava-1.5-7b-hf:
     model_family: llava-1.5
     model_variant: 7b-hf
@@ -313,13 +257,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   llava-1.5-13b-hf:
     model_family: llava-1.5
     model_variant: 13b-hf
@@ -327,13 +269,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   llava-v1.6-mistral-7b-hf:
     model_family: llava-v1.6
     model_variant: mistral-7b-hf
@@ -341,13 +281,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   llava-v1.6-34b-hf:
     model_family: llava-v1.6
     model_variant: 34b-hf
@@ -355,14 +293,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 64064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   Meta-Llama-3-8B:
     model_family: Meta-Llama-3
     model_variant: 8B
@@ -370,13 +306,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 8192
       --max-num-seqs: 256
-      --compilation-config: 3
   Meta-Llama-3-8B-Instruct:
     model_family: Meta-Llama-3
     model_variant: 8B-Instruct
@@ -384,13 +318,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 8192
       --max-num-seqs: 256
-      --compilation-config: 3
   Meta-Llama-3-70B:
     model_family: Meta-Llama-3
     model_variant: 70B
@@ -398,14 +330,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 8192
       --max-num-seqs: 256
-      --compilation-config: 3
   Meta-Llama-3-70B-Instruct:
     model_family: Meta-Llama-3
     model_variant: 70B-Instruct
@@ -413,14 +343,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 8192
       --max-num-seqs: 256
-      --compilation-config: 3
   Meta-Llama-3.1-8B:
     model_family: Meta-Llama-3.1
     model_variant: 8B
@@ -428,13 +356,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 131072
       --max-num-seqs: 256
-      --compilation-config: 3
   Meta-Llama-3.1-8B-Instruct:
     model_family: Meta-Llama-3.1
     model_variant: 8B-Instruct
@@ -442,13 +368,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 131072
       --max-num-seqs: 256
-      --compilation-config: 3
   Meta-Llama-3.1-70B:
     model_family: Meta-Llama-3.1
     model_variant: 70B
@@ -456,14 +380,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 65536
       --max-num-seqs: 256
-      --compilation-config: 3
   Meta-Llama-3.1-70B-Instruct:
     model_family: Meta-Llama-3.1
     model_variant: 70B-Instruct
@@ -471,14 +393,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 65536
       --max-num-seqs: 256
-      --compilation-config: 3
   Meta-Llama-3.1-405B-Instruct:
     model_family: Meta-Llama-3.1
     model_variant: 405B-Instruct
@@ -488,13 +408,12 @@ models:
     vocab_size: 128256
     qos: m4
     time: 02:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --pipeline-parallel-size: 8
       --tensor-parallel-size: 4
       --max-model-len: 16384
       --max-num-seqs: 256
-      --compilation-config: 3
   Mistral-7B-Instruct-v0.1:
     model_family: Mistral
     model_variant: 7B-Instruct-v0.1
@@ -502,13 +421,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Mistral-7B-Instruct-v0.2:
     model_family: Mistral
     model_variant: 7B-Instruct-v0.2
@@ -516,13 +433,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Mistral-7B-v0.3:
     model_family: Mistral
     model_variant: 7B-v0.3
@@ -530,13 +445,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32768
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Mistral-7B-Instruct-v0.3:
     model_family: Mistral
     model_variant: 7B-Instruct-v0.3
@@ -544,13 +457,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32768
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Mistral-Large-Instruct-2407:
     model_family: Mistral
     model_variant: Large-Instruct-2407
@@ -558,15 +469,13 @@ models:
     gpus_per_node: 4
     num_nodes: 2
     vocab_size: 32768
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --pipeline-parallel-size: 2
       --tensor-parallel-size: 4
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Mistral-Large-Instruct-2411:
     model_family: Mistral
     model_variant: Large-Instruct-2411
@@ -574,15 +483,13 @@ models:
     gpus_per_node: 4
     num_nodes: 2
     vocab_size: 32768
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --pipeline-parallel-size: 2
       --tensor-parallel-size: 4
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Mixtral-8x7B-Instruct-v0.1:
     model_family: Mixtral
     model_variant: 8x7B-Instruct-v0.1
@@ -590,14 +497,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Mixtral-8x22B-v0.1:
     model_family: Mixtral
     model_variant: 8x22B-v0.1
@@ -605,15 +510,13 @@ models:
     gpus_per_node: 4
     num_nodes: 2
     vocab_size: 32768
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --pipeline-parallel-size: 2
       --tensor-parallel-size: 4
       --max-model-len: 65536
       --max-num-seqs: 256
-      --compilation-config: 3
   Mixtral-8x22B-Instruct-v0.1:
     model_family: Mixtral
     model_variant: 8x22B-Instruct-v0.1
@@ -621,15 +524,13 @@ models:
     gpus_per_node: 4
     num_nodes: 2
     vocab_size: 32768
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --pipeline-parallel-size: 2
       --tensor-parallel-size: 4
       --max-model-len: 65536
       --max-num-seqs: 256
-      --compilation-config: 3
   Phi-3-medium-128k-instruct:
     model_family: Phi-3
     model_variant: medium-128k-instruct
@@ -637,14 +538,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 32064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 131072
       --max-num-seqs: 256
-      --compilation-config: 3
   Phi-3-vision-128k-instruct:
     model_family: Phi-3-vision
     model_variant: 128k-instruct
@@ -652,14 +551,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 32064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 65536
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama3-OpenBioLLM-70B:
     model_family: Llama3-OpenBioLLM
     model_variant: 70B
@@ -667,14 +564,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 8192
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama-3.1-Nemotron-70B-Instruct-HF:
     model_family: Llama-3.1-Nemotron
     model_variant: 70B-Instruct-HF
@@ -682,14 +577,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 65536
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama-3.2-1B:
     model_family: Llama-3.2
     model_variant: 1B
@@ -697,13 +590,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 131072
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama-3.2-1B-Instruct:
     model_family: Llama-3.2
     model_variant: 1B-Instruct
@@ -711,13 +602,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 131072
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama-3.2-3B:
     model_family: Llama-3.2
     model_variant: 3B
@@ -725,13 +614,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 131072
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama-3.2-3B-Instruct:
     model_family: Llama-3.2
     model_variant: 3B-Instruct
@@ -739,13 +626,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 131072
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama-3.2-11B-Vision:
     model_family: Llama-3.2
     model_variant: 11B-Vision
@@ -753,14 +638,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 4096
       --max-num-seqs: 64
-      --compilation-config: 3
       --enforce-eager: true
   Llama-3.2-11B-Vision-Instruct:
     model_family: Llama-3.2
@@ -769,14 +652,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 4096
       --max-num-seqs: 64
-      --compilation-config: 3
       --enforce-eager: true
   Llama-3.2-90B-Vision:
     model_family: Llama-3.2
@@ -785,14 +666,12 @@ models:
     gpus_per_node: 4
     num_nodes: 2
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 8
       --max-model-len: 4096
       --max-num-seqs: 32
-      --compilation-config: 3
       --enforce-eager: true
   Llama-3.2-90B-Vision-Instruct:
     model_family: Llama-3.2
@@ -801,14 +680,12 @@ models:
     gpus_per_node: 4
     num_nodes: 2
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 8
       --max-model-len: 4096
       --max-num-seqs: 32
-      --compilation-config: 3
       --enforce-eager: true
   Qwen2.5-0.5B-Instruct:
     model_family: Qwen2.5
@@ -817,13 +694,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Qwen2.5-1.5B-Instruct:
     model_family: Qwen2.5
     model_variant: 1.5B-Instruct
@@ -831,13 +706,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Qwen2.5-3B-Instruct:
     model_family: Qwen2.5
     model_variant: 3B-Instruct
@@ -845,13 +718,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Qwen2.5-7B-Instruct:
     model_family: Qwen2.5
     model_variant: 7B-Instruct
@@ -859,13 +730,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Qwen2.5-14B-Instruct:
     model_family: Qwen2.5
     model_variant: 14B-Instruct
@@ -873,13 +742,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Qwen2.5-32B-Instruct:
     model_family: Qwen2.5
     model_variant: 32B-Instruct
@@ -887,14 +754,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Qwen2.5-72B-Instruct:
     model_family: Qwen2.5
     model_variant: 72B-Instruct
@@ -902,14 +767,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 16384
       --max-num-seqs: 256
-      --compilation-config: 3
   Qwen2.5-Math-1.5B-Instruct:
     model_family: Qwen2.5
     model_variant: Math-1.5B-Instruct
@@ -917,13 +780,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   Qwen2.5-Math-7B-Instruct:
     model_family: Qwen2.5
     model_variant: Math-7B-Instruct
@@ -931,13 +792,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   Qwen2.5-Math-72B-Instruct:
     model_family: Qwen2.5
     model_variant: Math-72B-Instruct
@@ -945,14 +804,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   Qwen2.5-Coder-7B-Instruct:
     model_family: Qwen2.5
     model_variant: Coder-7B-Instruct
@@ -960,13 +817,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Qwen2.5-Math-RM-72B:
     model_family: Qwen2.5
     model_variant: Math-RM-72B
@@ -974,14 +829,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   Qwen2.5-Math-PRM-7B:
     model_family: Qwen2.5
     model_variant: Math-PRM-7B
@@ -989,28 +842,24 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
-  QwQ-32B-Preview:
+  QwQ-32B:
     model_family: QwQ
-    model_variant: 32B-Preview
+    model_variant: 32B
     model_type: LLM
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Pixtral-12B-2409:
     model_family: Pixtral
     model_variant: 12B-2409
@@ -1018,13 +867,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 131072
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 8192
       --max-num-seqs: 256
-      --compilation-config: 3
   e5-mistral-7b-instruct:
     model_family: e5
     model_variant: mistral-7b-instruct
@@ -1032,13 +879,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 32000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   bge-base-en-v1.5:
     model_family: bge
     model_variant: base-en-v1.5
@@ -1046,13 +891,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 30522
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 512
       --max-num-seqs: 256
-      --compilation-config: 3
   all-MiniLM-L6-v2:
     model_family: all-MiniLM
     model_variant: L6-v2
@@ -1060,13 +903,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 30522
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 512
       --max-num-seqs: 256
-      --compilation-config: 3
   Llama-3.3-70B-Instruct:
     model_family: Llama-3.3
     model_variant: 70B-Instruct
@@ -1074,14 +915,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 65536
       --max-num-seqs: 256
-      --compilation-config: 3
   InternVL2_5-26B:
     model_family: InternVL2_5
     model_variant: 26B
@@ -1089,14 +928,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 92553
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   InternVL2_5-38B:
     model_family: InternVL2_5
     model_variant: 38B
@@ -1104,14 +941,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 92553
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   Aya-Expanse-32B:
     model_family: Aya-Expanse
     model_variant: 32B
@@ -1119,14 +954,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 256000
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 8192
       --max-num-seqs: 256
-      --compilation-config: 3
   DeepSeek-R1-Distill-Llama-70B:
     model_family: DeepSeek-R1
     model_variant: Distill-Llama-70B
@@ -1134,14 +967,12 @@ models:
     gpus_per_node: 4
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 4
       --max-model-len: 65536
       --max-num-seqs: 256
-      --compilation-config: 3
   DeepSeek-R1-Distill-Llama-8B:
     model_family: DeepSeek-R1
     model_variant: Distill-Llama-8B
@@ -1149,13 +980,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 128256
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 131072
       --max-num-seqs: 256
-      --compilation-config: 3
   DeepSeek-R1-Distill-Qwen-32B:
     model_family: DeepSeek-R1
     model_variant: Distill-Qwen-32B
@@ -1163,14 +992,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 65536
       --max-num-seqs: 256
-      --compilation-config: 3
   DeepSeek-R1-Distill-Qwen-14B:
     model_family: DeepSeek-R1
     model_variant: Distill-Qwen-14B
@@ -1178,13 +1005,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 65536
       --max-num-seqs: 256
-      --compilation-config: 3
   DeepSeek-R1-Distill-Qwen-7B:
     model_family: DeepSeek-R1
     model_variant: Distill-Qwen-7B
@@ -1192,13 +1017,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 131072
       --max-num-seqs: 256
-      --compilation-config: 3
   DeepSeek-R1-Distill-Qwen-1.5B:
     model_family: DeepSeek-R1
     model_variant: Distill-Qwen-1.5B
@@ -1206,13 +1029,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 131072
       --max-num-seqs: 256
-      --compilation-config: 3
   Phi-3.5-vision-instruct:
     model_family: Phi-3.5-vision
     model_variant: instruct
@@ -1220,14 +1041,12 @@ models:
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 32064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 65536
       --max-num-seqs: 256
-      --compilation-config: 3
   InternVL2_5-8B:
     model_family: InternVL2_5
     model_variant: 8B
@@ -1235,13 +1054,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 92553
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 32768
       --max-num-seqs: 256
-      --compilation-config: 3
   glm-4v-9b:
     model_family: glm-4v
     model_variant: 9b
@@ -1249,13 +1066,11 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 151552
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 8192
       --max-num-seqs: 256
-      --compilation-config: 3
   Molmo-7B-D-0924:
     model_family: Molmo
     model_variant: 7B-D-0924
@@ -1263,27 +1078,23 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 152064
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   deepseek-vl2:
     model_family: deepseek-vl2
     model_type: VLM
     gpus_per_node: 2
     num_nodes: 1
     vocab_size: 129280
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --tensor-parallel-size: 2
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
   deepseek-vl2-small:
     model_family: deepseek-vl2
     model_variant: small
@@ -1291,10 +1102,20 @@ models:
     gpus_per_node: 1
     num_nodes: 1
     vocab_size: 129280
-    qos: m2
     time: 08:00:00
-    partition: a40
+    resource_type: l40s
     vllm_args:
       --max-model-len: 4096
       --max-num-seqs: 256
-      --compilation-config: 3
+  Qwen3-14B:
+    model_family: Qwen3
+    model_variant: 14B
+    model_type: LLM
+    gpus_per_node: 1
+    num_nodes: 1
+    vocab_size: 151936
+    time: 08:00:00
+    resource_type: l40s
+    vllm_args:
+      --max-model-len: 40960
+      --max-num-seqs: 256

vec-inf 0.6.0__py3-none-any.whl → 0.7.0__py3-none-any.whl

vec-inf 0.6.0py3-none-any.whl → 0.7.0py3-none-any.whl