konduktor-nightly 0.1.0.dev20250520104912__tar.gz → 0.1.0.dev20250521104900__tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.
Files changed (97) hide show
  1. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/PKG-INFO +1 -1
  2. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/__init__.py +2 -2
  3. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/templates/pod.yaml.j2 +0 -59
  4. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/pyproject.toml +1 -1
  5. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/LICENSE +0 -0
  6. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/README.md +0 -0
  7. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/adaptors/__init__.py +0 -0
  8. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/adaptors/aws.py +0 -0
  9. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/adaptors/common.py +0 -0
  10. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/adaptors/gcp.py +0 -0
  11. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/authentication.py +0 -0
  12. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/backends/__init__.py +0 -0
  13. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/backends/backend.py +0 -0
  14. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/backends/jobset.py +0 -0
  15. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/backends/jobset_utils.py +0 -0
  16. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/check.py +0 -0
  17. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/cli.py +0 -0
  18. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/config.py +0 -0
  19. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/constants.py +0 -0
  20. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/controller/__init__.py +0 -0
  21. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/controller/constants.py +0 -0
  22. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/controller/launch.py +0 -0
  23. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/controller/node.py +0 -0
  24. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/controller/parse.py +0 -0
  25. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/README.md +0 -0
  26. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/backend/main.py +0 -0
  27. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/backend/sockets.py +0 -0
  28. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/.eslintrc.json +0 -0
  29. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/.gitignore +0 -0
  30. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/api/jobs/route.js +0 -0
  31. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/api/namespaces/route.js +0 -0
  32. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/components/Grafana.jsx +0 -0
  33. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/components/JobsData.jsx +0 -0
  34. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/components/LogsData.jsx +0 -0
  35. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/components/NavMenu.jsx +0 -0
  36. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/components/NavTabs.jsx +0 -0
  37. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/components/NavTabs2.jsx +0 -0
  38. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/components/SelectBtn.jsx +0 -0
  39. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/components/lib/utils.js +0 -0
  40. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/components/ui/chip-select.jsx +0 -0
  41. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/components/ui/input.jsx +0 -0
  42. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/components/ui/navigation-menu.jsx +0 -0
  43. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/components/ui/select.jsx +0 -0
  44. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/favicon.ico +0 -0
  45. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/globals.css +0 -0
  46. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/jobs/page.js +0 -0
  47. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/layout.js +0 -0
  48. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/logs/page.js +0 -0
  49. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/app/page.js +0 -0
  50. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/jsconfig.json +0 -0
  51. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/next.config.mjs +0 -0
  52. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/package-lock.json +0 -0
  53. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/package.json +0 -0
  54. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/postcss.config.mjs +0 -0
  55. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/server.js +0 -0
  56. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/dashboard/frontend/tailwind.config.js +0 -0
  57. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/data/__init__.py +0 -0
  58. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/data/aws/__init__.py +0 -0
  59. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/data/aws/s3.py +0 -0
  60. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/data/constants.py +0 -0
  61. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/data/data_utils.py +0 -0
  62. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/data/gcp/__init__.py +0 -0
  63. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/data/gcp/constants.py +0 -0
  64. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/data/gcp/gcs.py +0 -0
  65. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/data/gcp/utils.py +0 -0
  66. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/data/registry.py +0 -0
  67. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/data/storage.py +0 -0
  68. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/data/storage_utils.py +0 -0
  69. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/execution.py +0 -0
  70. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/kube_client.py +0 -0
  71. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/logging.py +0 -0
  72. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/manifests/controller_deployment.yaml +0 -0
  73. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/manifests/dashboard_deployment.yaml +0 -0
  74. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/manifests/dmesg_daemonset.yaml +0 -0
  75. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/manifests/pod_cleanup_controller.yaml +0 -0
  76. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/resource.py +0 -0
  77. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/task.py +0 -0
  78. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/templates/jobset.yaml.j2 +0 -0
  79. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/usage/__init__.py +0 -0
  80. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/usage/constants.py +0 -0
  81. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/__init__.py +0 -0
  82. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/accelerator_registry.py +0 -0
  83. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/annotations.py +0 -0
  84. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/base64_utils.py +0 -0
  85. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/common_utils.py +0 -0
  86. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/constants.py +0 -0
  87. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/env_options.py +0 -0
  88. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/exceptions.py +0 -0
  89. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/kubernetes_enums.py +0 -0
  90. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/kubernetes_utils.py +0 -0
  91. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/log_utils.py +0 -0
  92. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/loki_utils.py +0 -0
  93. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/rich_utils.py +0 -0
  94. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/schemas.py +0 -0
  95. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/subprocess_utils.py +0 -0
  96. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/ux_utils.py +0 -0
  97. {konduktor_nightly-0.1.0.dev20250520104912 → konduktor_nightly-0.1.0.dev20250521104900}/konduktor/utils/validator.py +0 -0
@@ -1,6 +1,6 @@
1
1
  Metadata-Version: 2.3
2
2
  Name: konduktor-nightly
3
- Version: 0.1.0.dev20250520104912
3
+ Version: 0.1.0.dev20250521104900
4
4
  Summary: GPU Cluster Health Management
5
5
  Author: Andrew Aikawa
6
6
  Author-email: asai@berkeley.edu
@@ -14,7 +14,7 @@ __all__ = [
14
14
  ]
15
15
 
16
16
  # Replaced with the current commit when building the wheels.
17
- _KONDUKTOR_COMMIT_SHA = '709675de56c5bb11cf4131c48e0fdfc96c67decf'
17
+ _KONDUKTOR_COMMIT_SHA = '46626c8c0df4bbbd5a8fc164b2d2f66c26dbdd33'
18
18
  os.makedirs(os.path.expanduser('~/.konduktor'), exist_ok=True)
19
19
 
20
20
 
@@ -48,5 +48,5 @@ def _get_git_commit():
48
48
 
49
49
 
50
50
  __commit__ = _get_git_commit()
51
- __version__ = '1.0.0.dev0.1.0.dev20250520104912'
51
+ __version__ = '1.0.0.dev0.1.0.dev20250521104900'
52
52
  __root_dir__ = os.path.dirname(os.path.abspath(__file__))
@@ -15,36 +15,6 @@ kubernetes:
15
15
  - key: "nvidia.com/gpu"
16
16
  operator: "Exists"
17
17
  {% endif %}
18
- initContainers:
19
- - name: setup-synchronizer
20
- image: "alpine:3.19"
21
- restartPolicy: Always
22
- command: ["/bin/sh", "-c"]
23
- args:
24
- - |
25
- apk add --no-cache socat
26
- wget https://raw.githubusercontent.com/asaiacai/dumb_barrier/refs/heads/main/dumb_barrier.sh
27
- sh -x dumb_barrier.sh
28
- volumeMounts:
29
- - name: sync
30
- mountPath: /tmp/konduktor
31
- env:
32
- - name: MASTER_ADDR
33
- value: "{{ master_addr }}"
34
- - name: RANK
35
- valueFrom:
36
- fieldRef:
37
- fieldPath: metadata.annotations['batch.kubernetes.io/job-completion-index']
38
- - name: WORLD_SIZE
39
- value: "{{ num_nodes }}"
40
- - name: MASTER_PORT
41
- value: "11111"
42
- - name: GO_PORT
43
- value: "11112"
44
- - name: POD_NAMESPACE
45
- valueFrom:
46
- fieldRef:
47
- fieldPath: metadata.namespace
48
18
  containers:
49
19
  # TODO(asaiacai): should decide here whether we add the fabric interfaces/containers init etc.
50
20
  - name: konduktor-container
@@ -327,33 +297,6 @@ kubernetes:
327
297
  ulimit -Sc 0 && ulimit -Hc 0
328
298
  $(prefix_cmd) echo "===== KONDUKTOR: Initialization took $end_setup_time seconds ====="
329
299
  set +eo pipefail
330
- $(prefix_cmd) cd {{ remote_workdir }}
331
- {% if setup_cmd %}
332
- # setup task
333
- $(prefix_cmd) echo "===== KONDUKTOR: Running setup ======="
334
- {{ setup_cmd | indent( width=14 ) }}
335
- {% endif %}
336
-
337
- # synchronize workers before executing `run`
338
- set -e
339
- touch "/tmp/konduktor/SETUP"
340
- # TODO(asaiacai): should we make this value tuneable for users?
341
- TIMEOUT=300
342
- start_sync=$(date +%s);
343
- DEADLINE=$(( $(date +%s) + TIMEOUT ))
344
-
345
- echo "[KONDUKTOR: main] Waiting for workers to synchronize"
346
- while [ ! -f "/tmp/konduktor/READY" ]; do
347
- if [ "$(date +%s)" -ge "$DEADLINE" ]; then
348
- echo "[KONDUKTOR: main] ERROR: Timed out after 2 minutes of waiting for worker synchronization"
349
- exit 1
350
- fi
351
- sleep 0.5
352
- done
353
- echo "[KONDUKTOR: main] All workers have joined"
354
- end_sync=$(date +%s);
355
- echo "[KONDUKTOR: main] Synchronization took $((end_sync - start_sync)) seconds"
356
- set +eo pipefail
357
300
  # run task
358
301
  $(prefix_cmd) cd {{ remote_workdir }}
359
302
  $(prefix_cmd) echo "===== KONDUKTOR: Running task ====="
@@ -395,8 +338,6 @@ kubernetes:
395
338
  secret:
396
339
  secretName: {{ secret_name }}
397
340
  {% endfor %}
398
-
399
-
400
341
 
401
342
  # TODO(asaiacai): should we add nodeSelectors here or leave to
402
343
  # kueue resource flavors. leaning towards defining
@@ -1,6 +1,6 @@
1
1
  [tool.poetry]
2
2
  name = "konduktor-nightly"
3
- version = "0.1.0.dev20250520104912"
3
+ version = "0.1.0.dev20250521104900"
4
4
  description = "GPU Cluster Health Management"
5
5
  packages = [
6
6
  {include = "konduktor"}