PyPI - kalavai-client - Versions diffs - 0.6.20__tar.gz → 0.6.22__tar.gz - Mend

kalavai-client 0.6.20tar.gz → 0.6.22tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (25) hide show

{kalavai_client-0.6.20 → kalavai_client-0.6.22}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.3
 Name: kalavai-client
-Version: 0.6.20
+Version: 0.6.22
 Summary: Client app for kalavai platform
 License: Apache-2.0
 Keywords: LLM,platform

kalavai_client-0.6.22/kalavai_client/__init__.py ADDED Viewed

	@@ -0,0 +1,2 @@
1	+
2	+ __version__ = "0.6.22"

{kalavai_client-0.6.20 → kalavai_client-0.6.22}/kalavai_client/assets/apps.yaml RENAMED Viewed

@@ -20,6 +20,8 @@ repositories:
     url: https://charts.min.io/
   - name: langfuse
     url: https://langfuse.github.io/langfuse-k8s
+  - name: hami-charts
+    url: https://project-hami.github.io/HAMi
 releases:
   - name: datashim
@@ -154,7 +156,7 @@ releases:
     - name: replicas
       value: 1
     - name: image_tag
-      value: "v2025.07.33"
+      value: "v2025.07.34"
     - name: deployment.in_cluster
       value: "True"
     - name: deployment.kalavai_username_key
@@ -185,9 +187,30 @@ releases:
     namespace: kalavai
     chart: kalavai/gpu
     installed: false
+  # - name: hami-vgpu
+  #   namespace: kalavai
+  #   chart: kalavai/hami
+  #   installed: true
+  #   set:
+  #   - name: resourceCores
+  #     value: "nvidia.com/gpucores"
+  #   - name: devicePlugin.runtimeClassName
+  #     value: "nvidia"
+  #   - name: scheduler.defaultSchedulerPolicy.nodeSchedulerPolicy
+  #     value: "binpack"
+  #   - name: scheduler.defaultSchedulerPolicy.gpuSchedulerPolicy
+  #     value: "binpack"
+  #   - name: scheduler.defaultCores
+  #     value: "100"
+  #   - name: scheduler.kubeScheduler.imageTag
+  #     value: v1.31.1
+  #   - name: devicePlugin.deviceMemoryScaling
+  #     value: "1"
+  #   - name: devicePlugin.deviceSplitCount
+  #     value: "1"
   - name: hami-vgpu
     namespace: kalavai
-    chart: kalavai/hami
+    chart: hami-charts/hami
     installed: true
     set:
     - name: resourceCores
@@ -206,13 +229,5 @@ releases:
       value: "1"
     - name: devicePlugin.deviceSplitCount
       value: "1"
-    # - name: scheduler.customWebhook.port
-    #   value: "30498"
-    # - name: scheduler.service.schedulerPort
-    #   value: "30498"
-    # - name: scheduler.service.monitorPort
-    #   value: "30493"
-    # - name: devicePlugin.service.httpPort
-    #   value: "30492"

{kalavai_client-0.6.20 → kalavai_client-0.6.22}/kalavai_client/assets/docker-compose-template.yaml RENAMED Viewed

@@ -3,7 +3,7 @@ services:
   {{vpn_name}}:
     image: gravitl/netclient:v0.90.0
     container_name: {{vpn_name}}
-    platform: linux/amd64
+    platform: linux/{{target_platform}}
     cap_add:
       - NET_ADMIN
       - SYS_MODULE
@@ -21,6 +21,7 @@ services:
     image: docker.io/bundenth/kalavai-runner:{{target_platform}}-latest
     pull_policy: always
     container_name: {{service_name}}
+    platform: linux/{{target_platform}}
   {% if vpn %}
     depends_on:
     - {{vpn_name}}

{kalavai_client-0.6.20 → kalavai_client-0.6.22}/kalavai_client/bridge_api.py RENAMED Viewed

@@ -9,6 +9,10 @@ from starlette.requests import Request
 import uvicorn
 from kalavai_client.core import Job
+from kalavai_client.env import (
+    KALAVAI_SERVICE_LABEL,
+    KALAVAI_SERVICE_LABEL_VALUE
+)
 from kalavai_client.bridge_models import (
     CreatePoolRequest,
     InvitesRequest,
@@ -18,7 +22,8 @@ from kalavai_client.bridge_models import (
     DeleteJobRequest,
     JobDetailsRequest,
     NodesActionRequest,
-    NodeLabelsRequest
+    NodeLabelsRequest,
+    WorkerConfigRequest
 )
 from kalavai_client.core import (
     create_pool,
@@ -34,6 +39,7 @@ from kalavai_client.core import (
     fetch_job_logs,
     fetch_job_templates,
     fetch_job_defaults,
+    fetch_pod_logs,
     deploy_job,
     delete_job,
     authenticate_user,
@@ -52,6 +58,7 @@ from kalavai_client.core import (
     uncordon_nodes,
     add_node_labels,
     get_node_labels,
+    generate_worker_package,
     TokenType
 )
 from kalavai_client.utils import (
@@ -241,6 +248,21 @@ def get_token(mode: int, api_key: str = Depends(verify_api_key)):
     """
     return get_pool_token(mode=TokenType(mode))
+@app.post("/generate_worker_config",
+    operation_id="generate_worker_config",
+    summary="Generate a config file for a remote worker to connect to the pool",
+    description="Generate a config file for a remote worker to connect to the pool. Different token types provide different levels of access - join tokens allow nodes to contribute resources, while attach tokens allow management access.",
+    tags=["pool_management"],
+    response_description="Worker config file")
+def generate_worker_config(request: WorkerConfigRequest, api_key: str = Depends(verify_api_key)):
+    return generate_worker_package(
+        node_name=request.node_name,
+        mode=TokenType(request.mode),
+        target_platform=request.target_platform,
+        num_gpus=request.num_gpus,
+        ip_address=request.ip_address,
+        storage_compatible=request.storage_compatible)
 @app.get("/fetch_devices",
     operation_id="fetch_devices",
     summary="Get list of all compute devices in the pool",
@@ -251,6 +273,15 @@ def get_devices(api_key: str = Depends(verify_api_key)):
     """Get list of available devices"""
     return fetch_devices()
+@app.get("/fetch_service_logs",
+    operation_id="fetch_service_logs",
+    summary="Get logs for the kalavai API service",
+    description="Get logs for the kalavai API service, including internal logs, debugging messages and status of the service.",
+    tags=["info"],
+    response_description="Logs")
+def get_service_logs(api_key: str = Depends(verify_api_key)):
+    return fetch_pod_logs(label_key=KALAVAI_SERVICE_LABEL, label_value=KALAVAI_SERVICE_LABEL_VALUE, force_namespace="kalavai")
 @app.post("/send_pool_invites",
     operation_id="send_pool_invites",
     summary="Send invitations to join the pool",

{kalavai_client-0.6.20 → kalavai_client-0.6.22}/kalavai_client/bridge_models.py RENAMED Viewed

@@ -17,6 +17,15 @@ class CreatePoolRequest(BaseModel):
     token_mode: TokenType = Field(TokenType.USER, description="Token type for authentication")
     description: str = Field("", description="Description of the pool")
+class WorkerConfigRequest(BaseModel):
+    node_name: str = Field(None, description="Name for the worker node")
+    mode: int = Field(2, description="Access mode for the worker (admin, worker or user)")
+    target_platform: str = Field("amd64", description="Target platform architecture for the worker (amd64 or arm64)")
+    num_gpus: int = Field(0, description="Number of GPUs to use on the worker node")
+    ip_address: str = Field("0.0.0.0", description="IP address of the worker node")
+    storage_compatible: bool = Field(True, description="Whether to use the node's storage capacity for volumes")
 class NodesActionRequest(BaseModel):
     nodes: list[str] = Field(None, description="List of node names to perform the action on, defaults to None")

{kalavai_client-0.6.20 → kalavai_client-0.6.22}/kalavai_client/cli.py RENAMED Viewed

@@ -27,6 +27,8 @@ from kalavai_client.env import (
     USER_TEMPLATES_FOLDER,
     DOCKER_COMPOSE_GUI,
     USER_GUI_COMPOSE_FILE,
+    KALAVAI_SERVICE_LABEL,
+    KALAVAI_SERVICE_LABEL_VALUE,
     user_path,
     resource_path,
 )
@@ -37,6 +39,7 @@ from kalavai_client.core import (
     fetch_job_details,
     fetch_devices,
     fetch_job_logs,
+    fetch_pod_logs,
     fetch_gpus,
     generate_worker_package,
     load_gpu_models,
@@ -689,6 +692,25 @@ def pool__update(*others):
     else:
         console.log(f"[green]{result}")
+@arguably.command
+def pool__logs(*others):
+    """
+    Get the logs for the Kalavai API
+    """
+    logs = []
+    logs.append("Getting Kalavai API logs...")
+    logs = fetch_pod_logs(
+        label_key=KALAVAI_SERVICE_LABEL,
+        label_value=KALAVAI_SERVICE_LABEL_VALUE,
+        force_namespace="kalavai"
+    )
+    for name, log in logs.items():
+        console.log(f"[yellow]LOGS for service: {name}")
+        for key, value in log.items():
+            console.log(f"[yellow]{key}")
+            console.log(json.dumps(value, indent=2))
 @arguably.command
 def pool__status(*others, log_file=None):

{kalavai_client-0.6.20 → kalavai_client-0.6.22}/kalavai_client/core.py RENAMED Viewed

@@ -313,7 +313,7 @@ def fetch_job_details(jobs: list[Job]):
                         restart_counts = sum([c["restart_count"] for c in values["conditions"]])
                     workers_status[values["status"]] += 1
                     # get nodes involved in deployment (needs kubewatcher)
-                    if "node_name" in values:
+                    if "node_name" in values and values["node_name"] is not None:
                         host_nodes.add(values["node_name"])
             workers = "\n".join([f"{k}: {v}" for k, v in workers_status.items()])
@@ -454,9 +454,18 @@ def fetch_devices():
         return {"error": str(e)}
 def fetch_job_logs(job_name, force_namespace=None, pod_name=None, tail=100):
+    return fetch_pod_logs(
+        label_key=TEMPLATE_LABEL,
+        label_value=job_name,
+        pod_name=pod_name,
+        force_namespace=force_namespace,
+        tail=tail
+    )
+def fetch_pod_logs(label_key, label_value, force_namespace=None, pod_name=None, tail=100):
     data = {
-        "label": TEMPLATE_LABEL,
-        "value": job_name,
+        "label": label_key,
+        "value": label_value,
         "tail": tail
     }
     if force_namespace is not None:
@@ -609,9 +618,16 @@ def attach_to_pool(token, node_name=None):
     return cluster_name
-def generate_worker_package(target_platform="amd64", num_gpus=0, node_name=None, ip_address="0.0.0.0", storage_compatible=True):
+def generate_worker_package(
+        target_platform="amd64",
+        num_gpus=0,
+        node_name=None,
+        ip_address="0.0.0.0",
+        storage_compatible=True,
+        mode=TokenType.WORKER
+):
     # get pool data from token
-    token = get_pool_token(mode=TokenType.WORKER)
+    token = get_pool_token(mode=mode)
     if "error" in token:
         return {"error": f"[red]Error when getting pool token: {token['error']}"}

{kalavai_client-0.6.20 → kalavai_client-0.6.22}/kalavai_client/env.py RENAMED Viewed

@@ -32,6 +32,8 @@ def resource_path(relative_path: str):
 TEMPLATE_LABEL = "kalavai.job.name"
+KALAVAI_SERVICE_LABEL = "app"
+KALAVAI_SERVICE_LABEL_VALUE = "kube-watcher-api"
 STORAGE_CLASS_LABEL = "kalavai.storage.enabled"
 USER_NODE_LABEL = "kalavai.cluster.user"
 SERVER_IP_KEY = "server_ip"

{kalavai_client-0.6.20 → kalavai_client-0.6.22}/kalavai_client/utils.py RENAMED Viewed

@@ -175,7 +175,6 @@ def is_watcher_alive(server_creds, user_cookie, timeout=30):
             timeout=timeout
         )
     except Exception as e:
-        print(str(e))
         return False
     return True

{kalavai_client-0.6.20 → kalavai_client-0.6.22}/pyproject.toml RENAMED Viewed

@@ -1,6 +1,6 @@
 [project]
 name            = "kalavai-client"
-version         = "0.6.20"
+version         = "0.6.22"
 authors = [
   {name = "Carlos Fernandez Musoles", email = "carlos@kalavai.net"}
 ]