PyPI - xpk - Versions diffs - 0.7.2__py3-none-any.whl → 0.9.0__py3-none-any.whl - Mend

xpk 0.7.2py3-none-any.whl → 0.9.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (46) hide show

xpk/commands/batch.py +19 -13
xpk/commands/cluster.py +240 -71
xpk/commands/cluster_gcluster.py +22 -5
xpk/commands/common.py +33 -1
xpk/commands/info.py +2 -4
xpk/commands/job.py +7 -8
xpk/commands/kjob_common.py +30 -18
xpk/commands/run.py +17 -12
xpk/commands/shell.py +3 -4
xpk/commands/storage.py +75 -19
xpk/commands/workload.py +161 -324
xpk/core/blueprint/blueprint_definitions.py +2 -0
xpk/core/blueprint/blueprint_generator.py +335 -45
xpk/core/capacity.py +1 -0
xpk/core/cluster.py +193 -12
xpk/core/config.py +3 -1
xpk/core/docker_manager.py +1 -1
xpk/core/docker_resources.py +9 -21
xpk/core/filestore.py +5 -1
xpk/core/gcsfuse.py +27 -6
xpk/core/kjob.py +66 -20
xpk/core/kueue.py +30 -0
xpk/core/mtc.py +195 -0
xpk/core/nap.py +4 -0
xpk/core/network.py +34 -22
xpk/core/nodepool.py +28 -26
xpk/core/pathways.py +165 -210
xpk/core/resources.py +21 -0
xpk/core/scheduling.py +36 -0
xpk/core/storage.py +66 -12
xpk/core/system_characteristics.py +9 -0
xpk/core/workload.py +28 -83
xpk/core/workload_decorators/rdma_decorator.py +11 -15
xpk/core/workload_decorators/storage_decorator.py +8 -3
xpk/core/workload_decorators/tcpx_decorator.py +179 -0
xpk/core/workload_decorators/tcpxo_decorator.py +17 -16
xpk/parser/cluster.py +574 -381
xpk/parser/storage.py +25 -5
xpk/parser/workload.py +59 -31
xpk/utils/kubectl.py +4 -1
{xpk-0.7.2.dist-info → xpk-0.9.0.dist-info}/METADATA +192 -93
{xpk-0.7.2.dist-info → xpk-0.9.0.dist-info}/RECORD +46 -44
{xpk-0.7.2.dist-info → xpk-0.9.0.dist-info}/WHEEL +1 -1
{xpk-0.7.2.dist-info → xpk-0.9.0.dist-info}/entry_points.txt +0 -0
{xpk-0.7.2.dist-info → xpk-0.9.0.dist-info}/licenses/LICENSE +0 -0
{xpk-0.7.2.dist-info → xpk-0.9.0.dist-info}/top_level.txt +0 -0

xpk/commands/workload.py CHANGED Viewed

@@ -14,20 +14,22 @@ See the License for the specific language governing permissions and
 limitations under the License.
 """
-from ..core.blueprint.blueprint_generator import get_subnetworks_for_a3mega, get_subnetworks_for_a3ultra
 from ..core.cluster import (
+    XPK_SA,
     create_xpk_k8s_service_account,
     get_cluster_credentials,
     setup_k8s_env,
-    XPK_SA,
 )
 from ..core.commands import run_command_with_updates, run_commands
-from ..core.config import VERTEX_TENSORBOARD_FEATURE_FLAG, XPK_CURRENT_VERSION, parse_env_config
+from ..core.config import (
+    VERTEX_TENSORBOARD_FEATURE_FLAG,
+    XPK_CURRENT_VERSION,
+    parse_env_config,
+)
 from ..core.docker_container import (
     get_main_container_docker_image,
     get_user_workload_container,
 )
 from ..core.docker_resources import get_volumes
 from ..core.gcloud_context import add_zone_and_project
 from ..core.kueue import LOCAL_QUEUE_NAME
@@ -36,54 +38,58 @@ from ..core.nap import (
     get_autoprovisioning_node_selector_args,
     is_autoprovisioning_enabled,
 )
+from ..core.network import get_cluster_subnetworks
 from ..core.pathways import (
+    append_custom_colocated_python_sidecar,
+    append_custom_pathways_proxy_server,
+    append_custom_pathways_server,
+    append_custom_pathways_worker,
+    check_if_pathways_job_is_installed,
     ensure_pathways_workload_prerequisites,
-    get_pathways_proxy_args,
-    get_pathways_rm_args,
-    get_pathways_sidecar_container,
     get_pathways_unified_query_link,
-    get_pathways_worker_args,
     get_user_workload_for_pathways,
+    try_to_delete_pathwaysjob_first,
 )
 from ..core.resources import CLUSTER_METADATA_CONFIGMAP, get_cluster_configmap
 from ..core.scheduling import (
     check_if_workload_can_schedule,
     create_accelerator_label,
     create_machine_label,
+    create_tpu_machine_type,
+    create_tpu_topology,
     get_cpu_affinity,
     get_gpu_scheduler,
 )
 from ..core.storage import (
-    GCS_FUSE_TYPE,
+    GCE_PD_TYPE,
     GCP_FILESTORE_TYPE,
+    GCS_FUSE_TYPE,
+    PARALLELSTORE_TYPE,
     Storage,
     add_bucket_iam_members,
-    get_storage_volume_mounts_yaml,
-    get_storage_volumes_yaml,
+    get_storage_annotations,
     get_storages_to_mount,
-    get_storage_volume_mounts_yaml_for_gpu,
-    get_storage_volumes_yaml_for_gpu,
-    GCS_FUSE_ANNOTATION,
 )
 from ..core.system_characteristics import (
     AcceleratorType,
-    AcceleratorTypeToAcceleratorCharacteristics,
     get_system_characteristics,
 )
 from ..core.vertex import create_vertex_experiment
 from ..core.workload import (
+    add_gpu_rxdm_container,
     check_if_workload_exists,
-    get_gpu_rxdm_cmd,
-    get_gpu_rxdm_image,
-    get_gpu_tcp_volume,
-    get_gpu_volume,
     get_workload_list,
     wait_for_job_completion,
     zone_to_region,
 )
-from ..core.workload_decorators import rdma_decorator, tcpxo_decorator, storage_decorator
+from ..core.workload_decorators import (
+    rdma_decorator,
+    storage_decorator,
+    tcpxo_decorator,
+)
 from ..utils.console import get_user_input, xpk_exit, xpk_print
 from ..utils.file import write_tmp_file
+from .common import is_TAS_possible
 from . import cluster_gcluster
 WORKLOAD_CREATE_YAML = """apiVersion: jobset.x-k8s.io/v1alpha2
@@ -139,7 +145,8 @@ GPU_WORKLOAD_CREATE_YAML = """apiVersion: jobset.x-k8s.io/v1alpha2
 kind: JobSet
 metadata:
   name: {args.workload}
-  annotations: {storage_annotations}
+  annotations:
+    {storage_annotations}
   labels:
     kueue.x-k8s.io/queue-name: multislice-queue  # Name of the LocalQueue
     xpk.google.com/workload: {args.workload}
@@ -176,29 +183,8 @@ spec:
               - operator: "Exists"
                 key: nvidia.com/gpu
               volumes:
-              {gpu_volume}
-              {storage_volumes}
+              {volumes}
               containers:
-              {gpu_rxdm_image}
-                imagePullPolicy: Always
-                command:
-                - "bash"
-                - "-c"
-                - |
-                  {gpu_rxdm_cmd} &
-                  while [ ! -e "/usr/share/workload/workload_terminated" ]; do sleep 10; echo "sleeping"; done
-                securityContext:
-                  privileged: true
-                volumeMounts:
-                {gpu_tcp_volume}
-                {storage_volume_mounts}
-                - name: nvidia-install-dir-host
-                  mountPath: /usr/local/nvidia/lib64
-                - name: workload-terminated-volume
-                  mountPath: /usr/share/workload
-                env:
-                - name: LD_LIBRARY_PATH
-                  value: /usr/local/nvidia/lib64
               {container}
 """
@@ -228,7 +214,7 @@ spec:
               labels:
                 xpk.google.com/workload: {args.workload}
               annotations:
-                kueue.x-k8s.io/podset-preferred-topology: "cloud.google.com/gce-topology-host"
+                {kueue_TAS_annotation}
             spec:
               priorityClassName: {args.priority}
               restartPolicy: Never
@@ -241,219 +227,37 @@ spec:
               containers:
               {container}
 """
-PW_WORKLOAD_CREATE_YAML = """apiVersion: jobset.x-k8s.io/v1alpha2
-kind: JobSet
-metadata:
-  name: {args.workload}
-  labels:
-    kueue.x-k8s.io/queue-name: {local_queue_name}  # Name of the LocalQueue
-    xpk.google.com/workload: {args.workload}
-spec:
-  ttlSecondsAfterFinished: {args.ttl_seconds_after_finished}
-  failurePolicy:
-    {failure_policy_rules}
-    maxRestarts: {args.max_restarts}
-  successPolicy:
-    operator: "All"
-    targetReplicatedJobs:
-    - {args.targetReplicatedJob}
-  replicatedJobs:
-    - name: worker
-      replicas: {args.num_slices}
-      template:
-        metadata:
-          annotations:
-            alpha.jobset.sigs.k8s.io/exclusive-topology: cloud.google.com/gke-nodepool
-          labels:
-            xpk.google.com/workload: {args.workload}
-        spec:
-          backoffLimit: {backoff_limit}
-          completions: {system.vms_per_slice}
-          parallelism: {system.vms_per_slice}
-          template:
-            metadata:
-              annotations:
-                {storage_annotations}
-            spec:
-              terminationGracePeriodSeconds: {args.termination_grace_period_seconds}
-              serviceAccountName: {service_account}
-              containers:
-              - args:
-                {pathways_worker_args}
-                image: {args.server_image}
-                imagePullPolicy: Always
-                name: pathways-worker
-                ports:
-                - containerPort: 29001
-                - containerPort: 8471
-                - containerPort: 8080
-                resources:
-                  limits:
-                    {resource_type}: {system.chips_per_vm}
-                securityContext:
-                  privileged: true
-                volumeMounts:
-                - mountPath: /tmp
-                  name: shared-tmp
-                {storage_volume_mounts}
-                env:
-                  - name: PROJECT_ID
-                    value: {args.project}
-                  - name: LOCATION
-                    value: {args.zone}
-                  - name: CLUSTER_NAME
-                    value: {args.cluster}
-                  - name: POD_NAME
-                    valueFrom:
-                      fieldRef:
-                        fieldPath: metadata.name
-                  - name: CONTAINER_NAME
-                    value: "pathways-worker"
-                  - name: NAMESPACE
-                    valueFrom:
-                      fieldRef:
-                        fieldPath: metadata.namespace
-                  # Workaround for v6e
-                  - name: MEGASCALE_GRPC_ENABLE_XOR_TRACER
-                    value: "false"
-                  - name: MEGASCALE_NUM_SLICES
-                    valueFrom:
-                      fieldRef:
-                        fieldPath: "metadata.labels['jobset.sigs.k8s.io/replicatedjob-replicas']"
-                  - name: JOBSET_NAME
-                    valueFrom:
-                      fieldRef:
-                        fieldPath: metadata.annotations['jobset.sigs.k8s.io/jobset-name']
-                  - name: REPLICATED_JOB_NAME
-                    valueFrom:
-                      fieldRef:
-                        fieldPath: metadata.annotations['jobset.sigs.k8s.io/replicatedjob-name']
-                  - name: MEGASCALE_SLICE_ID
-                    valueFrom:
-                      fieldRef:
-                        fieldPath: "metadata.labels['jobset.sigs.k8s.io/job-index']"
-                  - name: MEGASCALE_COORDINATOR_ADDRESS
-                    value: "$(JOBSET_NAME)-$(REPLICATED_JOB_NAME)-$(MEGASCALE_SLICE_ID)-0.$(JOBSET_NAME)"
-              {pathways_sidecar_container}
-              nodeSelector:
-                {accelerator_label}
-                {machine_label}
-                {autoprovisioning_args}
-              priorityClassName: {args.priority}
-              hostNetwork: true
-              dnsPolicy: ClusterFirstWithHostNet
-              volumes:
-              - hostPath:
-                  path: /tmp
-                  type: DirectoryOrCreate
-                name: shared-tmp
-              {storage_volumes}
-    - name: rm
-      replicas: 1
-      template:
-        metadata:
-          labels:
-            xpk.google.com/workload: {args.workload}
-        spec:
-          backoffLimit: 0
-          completions: 1
-          parallelism: 1
-          template:
-            spec:
-              containers:
-              - args:
-                {pathways_rm_args}
-                env:
-                - name: PROJECT_ID
-                  value: {args.project}
-                - name: LOCATION
-                  value: {args.zone}
-                - name: CLUSTER_NAME
-                  value: {args.cluster}
-                - name: POD_NAME
-                  valueFrom:
-                    fieldRef:
-                      fieldPath: metadata.name
-                - name: CONTAINER_NAME
-                  value: "pathways-rm"
-                - name: NAMESPACE
-                  valueFrom:
-                    fieldRef:
-                      fieldPath: metadata.namespace
-                - name: REPLICATED_JOB_NAME
-                  valueFrom:
-                    fieldRef:
-                      fieldPath: metadata.annotations['jobset.sigs.k8s.io/replicatedjob-name']
-                - name: JOBSET_NAME
-                  valueFrom:
-                    fieldRef:
-                      fieldPath: metadata.annotations['jobset.sigs.k8s.io/jobset-name']
-                - name: HOST_ADDRESS
-                  value: $(JOBSET_NAME)-$(REPLICATED_JOB_NAME)-0-0.$(JOBSET_NAME)
-                - name: TPU_SKIP_MDS_QUERY
-                  value: "true"
-                image: {args.server_image}
-                imagePullPolicy: Always
-                name: pathways-rm
-                ports:
-                - containerPort: 29001
-                securityContext:
-                  privileged: true
-                volumeMounts:
-                - mountPath: /tmp
-                  name: shared-tmp
-              nodeSelector:
-                cloud.google.com/gke-nodepool: cpu-rm-np
-              hostNetwork: true
-              dnsPolicy: ClusterFirstWithHostNet
-              volumes:
-              - hostPath:
-                  path: /tmp
-                  type: DirectoryOrCreate
-                name: shared-tmp
-    - name: proxy
-      replicas: 1
-      template:
-        metadata:
-          labels:
-            xpk.google.com/workload: {args.workload}
-        spec:
-          backoffLimit: 0
-          completions: 1
-          parallelism: 1
-          template:
-            spec:
-              containers:
-              - args:
-                {pathways_proxy_args}
-                env:
-                - name: PROJECT_ID
-                  value: {args.project}
-                - name: LOCATION
-                  value: {args.zone}
-                - name: CLUSTER_NAME
-                  value: {args.cluster}
-                - name: POD_NAME
-                  valueFrom:
-                    fieldRef:
-                      fieldPath: metadata.name
-                - name: CONTAINER_NAME
-                  value: "pathways-proxy"
-                - name: NAMESPACE
-                  valueFrom:
-                    fieldRef:
-                      fieldPath: metadata.namespace
-                image: {args.proxy_server_image}
-                imagePullPolicy: Always
-                name: pathways-proxy
-                ports:
-                - containerPort: 29000
-              hostNetwork: true
-              dnsPolicy: ClusterFirstWithHostNet
-              nodeSelector:
-                cloud.google.com/gke-nodepool: cpu-proxy-np
-    {user_workload}
+# The indentation of PW_WORKLOAD_CREATE_YAML is intentional to allow reusing the user workload container YAML.
+PW_WORKLOAD_CREATE_YAML = """
+    apiVersion: pathways-job.pathways.domain/v1
+    kind: PathwaysJob
+    metadata:
+      name: {args.workload}
+      labels:
+        kueue.x-k8s.io/queue-name: {local_queue_name}  # Name of the LocalQueue
+        xpk.google.com/workload: {args.workload}
+    spec:
+      maxRestarts: {args.max_restarts}
+      customComponents:
+      {custom_pathways_proxy_server}
+      {custom_pathways_server}
+      {custom_pathways_worker}
+      {colocated_python_sidecar}
+      workers:
+      - type: {machine_type}
+        topology: {topology}
+        numSlices: {args.num_slices}
+        maxSliceRestarts: {args.max_slice_restarts}
+        terminationGracePeriodSeconds: {args.termination_grace_period_seconds}
+        priorityClassName: {args.priority}
+      pathwaysDir: {args.pathways_gcs_location} #This bucket needs to be created in advance.
+      controller:
+        # #Pod template for training, default mode.
+        deploymentMode: default
+        mainContainerName: {args.docker_name}
+        elasticSlices: {args.elastic_slices}
+        template:
+      {user_workload}
 """
@@ -545,7 +349,6 @@ def workload_create(args) -> None:
   parse_env_config(args, tensorboard_config, system)
-  # Currently autoprovisioning is not enabled for Pathways workloads.
   autoprovisioning_args = ''
   autoprovisioning_enabled, return_code = is_autoprovisioning_enabled(
       args, system
@@ -560,28 +363,72 @@ def workload_create(args) -> None:
     if return_code != 0:
       xpk_exit(return_code)
-  storages: list[Storage] = get_storages_to_mount(k8s_api_client, args.storage)
-  gcs_fuse_storages = list(
-      filter(lambda storage: storage.type == GCS_FUSE_TYPE, storages)
-  )
-  gcpfilestore_storages: list[Storage] = list(
-      filter(lambda storage: storage.type == GCP_FILESTORE_TYPE, storages)
-  )
-  storage_annotations = ''
   service_account = ''
-  if len(gcs_fuse_storages) > 0:
-    storage_annotations = GCS_FUSE_ANNOTATION
-    service_account = XPK_SA
-    xpk_print(f'Detected gcsfuse Storages to add: {gcs_fuse_storages}')
-  else:
-    xpk_print('No gcsfuse Storages to add detected')
-  failure_policy_rules = """rules:
+  all_storages = []
+  # Currently storage customization is not supported for Pathways workloads. b/408468941
+  if not args.use_pathways:
+    storages: list[Storage] = get_storages_to_mount(
+        k8s_api_client, args.storage
+    )
+    gcs_fuse_storages = list(
+        filter(lambda storage: storage.type == GCS_FUSE_TYPE, storages)
+    )
+    gcpfilestore_storages: list[Storage] = list(
+        filter(lambda storage: storage.type == GCP_FILESTORE_TYPE, storages)
+    )
+    parallelstore_storages: list[Storage] = list(
+        filter(lambda storage: storage.type == PARALLELSTORE_TYPE, storages)
+    )
+    pd_storages: list[Storage] = list(
+        filter(lambda storage: storage.type == GCE_PD_TYPE, storages)
+    )
+    if len(gcs_fuse_storages) > 0:
+      service_account = XPK_SA
+      xpk_print(f'Detected gcsfuse Storages to add: {gcs_fuse_storages}')
+    else:
+      xpk_print('No gcsfuse Storages to add detected')
+    if len(gcpfilestore_storages) > 0:
+      service_account = XPK_SA
+      xpk_print(
+          f'Detected gcp filestores instances to add: {gcpfilestore_storages}'
+      )
+    else:
+      xpk_print('No gcp filestore instances to add detected.')
+    if len(parallelstore_storages) > 0:
+      service_account = XPK_SA
+      xpk_print(
+          'Detected gcp parallelstore instances to add:'
+          f' {parallelstore_storages}'
+      )
+    else:
+      xpk_print('No gcp parallelstore instances to add detected.')
+    if len(pd_storages) > 0:
+      service_account = XPK_SA
+      xpk_print(f'Detected gce persistent disk instances to add: {pd_storages}')
+    else:
+      xpk_print('No gce persistent disk instances to add detected.')
+    all_storages = (
+        gcs_fuse_storages
+        + gcpfilestore_storages
+        + parallelstore_storages
+        + pd_storages
+    )
+  # Currently failure policy rules are supported for Pathways workloads. b/408465881
+  failure_policy_rules = ''
+  pod_failure_policy = ''
+  if not args.use_pathways:
+    failure_policy_rules = """rules:
       - action: FailJobSet
-        onJobFailureReasons:
+        onJobFailureReasons:
         - PodFailurePolicy"""
-  restart_on_exit_codes = get_restart_exit_codes(args)
-  restart_on_exit_codes = ','.join(map(str, restart_on_exit_codes))
-  pod_failure_policy = f"""
+    restart_on_exit_codes = get_restart_exit_codes(args)
+    restart_on_exit_codes = ','.join(map(str, restart_on_exit_codes))
+    pod_failure_policy = f"""
           podFailurePolicy:
             rules:
             - action: FailJob
@@ -590,14 +437,6 @@ def workload_create(args) -> None:
                 operator: NotIn
                 values: [{restart_on_exit_codes}]"""
-  if len(gcpfilestore_storages) > 0:
-    xpk_print(
-        f'Detected gcp filestores instances to add: {gcpfilestore_storages}'
-    )
-    service_account = XPK_SA
-  else:
-    xpk_print('No gcp filestore instances to add detected.')
-  all_storages = gcs_fuse_storages + gcpfilestore_storages
   # Create the workload file based on accelerator type or workload type.
   if system.accelerator_type == AcceleratorType['GPU']:
     container, debugging_dashboard_id = get_user_workload_container(
@@ -609,6 +448,13 @@ def workload_create(args) -> None:
     if return_code != 0:
       xpk_exit(return_code)
+    kueue_TAS_annotation = (
+        'kueue.x-k8s.io/podset-preferred-topology:'
+        ' "cloud.google.com/gce-topology-host"'
+    )
+    if not is_TAS_possible(args):
+      kueue_TAS_annotation = ''
     if system.device_type in cluster_gcluster.supported_device_types:
       yml_string = A3_GPU_WORKLOAD_CREATE_YAML.format(
           args=args,
@@ -616,38 +462,34 @@ def workload_create(args) -> None:
           service_account=XPK_SA,
           failure_policy_rules=failure_policy_rules,
           pod_failure_policy=pod_failure_policy,
+          kueue_TAS_annotation=kueue_TAS_annotation,
       )
+      sub_networks = get_cluster_subnetworks(args)
       if args.device_type == cluster_gcluster.a3mega_device_type:
-        sub_networks = get_subnetworks_for_a3mega(args.cluster)
         yml_string = tcpxo_decorator.decorate_jobset(yml_string, sub_networks)
-      if args.device_type == cluster_gcluster.a3ultra_device_type:
-        sub_networks = get_subnetworks_for_a3ultra(args.cluster)
+      elif args.device_type in [
+          cluster_gcluster.a3ultra_device_type,
+          cluster_gcluster.a4_device_type,
+      ]:
         yml_string = rdma_decorator.decorate_jobset(yml_string, sub_networks)
-      if len(gcs_fuse_storages) + len(gcpfilestore_storages) > 0:
+      if all_storages:
         yml_string = storage_decorator.decorate_jobset(yml_string, all_storages)
     else:
       yml_string = GPU_WORKLOAD_CREATE_YAML.format(
           args=args,
           container=container,
-          command=args.command,
-          chips_per_vm=system.chips_per_vm,
           gpu_scheduler=gpu_scheduler,
-          gpu_volume=get_gpu_volume(system),
-          gpu_rxdm_image=get_gpu_rxdm_image(system),
-          gpu_rxdm_cmd=get_gpu_rxdm_cmd(system),
-          gpu_tcp_volume=get_gpu_tcp_volume(system),
-          storage_volumes=get_storage_volumes_yaml_for_gpu(all_storages),
-          storage_volume_mounts=get_storage_volume_mounts_yaml_for_gpu(
-              all_storages
+          volumes=get_volumes(args, system),
+          storage_annotations=('\n' + (' ' * 12)).join(
+              get_storage_annotations(all_storages)
           ),
-          storage_annotations=storage_annotations,
           service_account=service_account,
           failure_policy_rules=failure_policy_rules,
           pod_failure_policy=pod_failure_policy,
       )
+      yml_string = add_gpu_rxdm_container(yml_string, system, all_storages)
   elif args.use_pathways and ensure_pathways_workload_prerequisites(
       args, system
@@ -655,29 +497,14 @@ def workload_create(args) -> None:
     yml_string = PW_WORKLOAD_CREATE_YAML.format(
         args=args,
         system=system,
-        accelerator_label=create_accelerator_label(
-            system.accelerator_type, system
-        ),
-        machine_label=create_machine_label(system.accelerator_type, system),
-        pathways_worker_args=get_pathways_worker_args(args),
-        pathways_proxy_args=get_pathways_proxy_args(args),
-        pathways_sidecar_container=get_pathways_sidecar_container(args),
-        user_workload=get_user_workload_for_pathways(
-            args, system, pod_failure_policy, storages
-        ),
-        resource_type=AcceleratorTypeToAcceleratorCharacteristics[
-            system.accelerator_type
-        ].resource_type,
+        topology=create_tpu_topology(system.accelerator_type, system),
+        machine_type=create_tpu_machine_type(system.accelerator_type, system),
+        custom_pathways_proxy_server=append_custom_pathways_proxy_server(args),
+        custom_pathways_server=append_custom_pathways_server(args),
+        custom_pathways_worker=append_custom_pathways_worker(args),
+        colocated_python_sidecar=append_custom_colocated_python_sidecar(args),
+        user_workload=get_user_workload_for_pathways(args, system),
         local_queue_name=LOCAL_QUEUE_NAME,
-        autoprovisioning_args=autoprovisioning_args,
-        backoff_limit=system.vms_per_slice * 4,
-        storage_annotations=storage_annotations,
-        storage_volumes=get_storage_volumes_yaml(all_storages),
-        storage_volume_mounts=get_storage_volume_mounts_yaml(all_storages),
-        pathways_rm_args=get_pathways_rm_args(args, system),
-        service_account=service_account,
-        failure_policy_rules=failure_policy_rules,
-        pod_failure_policy=pod_failure_policy,
     )
   else:
     container, debugging_dashboard_id = get_user_workload_container(
@@ -695,7 +522,9 @@ def workload_create(args) -> None:
         local_queue_name=LOCAL_QUEUE_NAME,
         autoprovisioning_args=autoprovisioning_args,
         volumes=get_volumes(args, system),
-        storage_annotations=storage_annotations,
+        storage_annotations=('\n' + (' ' * 16)).join(
+            get_storage_annotations(all_storages)
+        ),
         service_account=service_account,
         failure_policy_rules=failure_policy_rules,
         pod_failure_policy=pod_failure_policy,
@@ -708,7 +537,9 @@ def workload_create(args) -> None:
     xpk_print(f'Create Workload request returned ERROR {return_code}')
     xpk_exit(return_code)
-  add_bucket_iam_members(args, storages)
+  if not args.use_pathways:
+    add_bucket_iam_members(args, storages)
   # Get GKE outlier dashboard for TPU
   outlier_dashboard_id = None
   if system.accelerator_type == AcceleratorType['TPU']:
@@ -833,6 +664,12 @@ def workload_delete(args) -> None:
   elif not will_delete:
     xpk_print('Skipping delete command.')
   else:
+    # If PathwaysJob exists, delete it.
+    if check_if_pathways_job_is_installed(
+        args
+    ) and try_to_delete_pathwaysjob_first(args, workloads):
+      xpk_exit(0)
+    # PathwaysJob workload does not exist, delete JobSet
     commands = []
     task_names = []
     for workload in workloads:

xpk/core/blueprint/blueprint_definitions.py CHANGED Viewed

@@ -60,3 +60,5 @@ class Blueprint:
   toolkit_modules_url: str
   toolkit_modules_version: str
   vars: dict[str, str | list[str]] | None
+  terraform_providers: Optional[dict[str, Any]] = None
+  validators: Optional[list[Any]] = None

xpk 0.7.2__py3-none-any.whl → 0.9.0__py3-none-any.whl

xpk 0.7.2py3-none-any.whl → 0.9.0py3-none-any.whl