PyPI - dstack - Versions diffs - 0.19.25rc1__py3-none-any.whl → 0.19.27__py3-none-any.whl - Mend

dstack 0.19.25rc1py3-none-any.whl → 0.19.27py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of dstack might be problematic. Click here for more details.

Files changed (161) hide show

dstack/_internal/cli/commands/__init__.py +2 -2
dstack/_internal/cli/commands/apply.py +3 -61
dstack/_internal/cli/commands/attach.py +1 -1
dstack/_internal/cli/commands/completion.py +1 -1
dstack/_internal/cli/commands/delete.py +2 -2
dstack/_internal/cli/commands/fleet.py +1 -1
dstack/_internal/cli/commands/gateway.py +2 -2
dstack/_internal/cli/commands/init.py +56 -24
dstack/_internal/cli/commands/logs.py +1 -1
dstack/_internal/cli/commands/metrics.py +1 -1
dstack/_internal/cli/commands/offer.py +45 -7
dstack/_internal/cli/commands/project.py +2 -2
dstack/_internal/cli/commands/secrets.py +2 -2
dstack/_internal/cli/commands/server.py +1 -1
dstack/_internal/cli/commands/stop.py +1 -1
dstack/_internal/cli/commands/volume.py +1 -1
dstack/_internal/cli/main.py +2 -2
dstack/_internal/cli/services/completion.py +2 -2
dstack/_internal/cli/services/configurators/__init__.py +6 -2
dstack/_internal/cli/services/configurators/base.py +6 -7
dstack/_internal/cli/services/configurators/fleet.py +1 -3
dstack/_internal/cli/services/configurators/gateway.py +2 -4
dstack/_internal/cli/services/configurators/run.py +293 -58
dstack/_internal/cli/services/configurators/volume.py +2 -4
dstack/_internal/cli/services/profile.py +1 -1
dstack/_internal/cli/services/repos.py +35 -48
dstack/_internal/core/backends/amddevcloud/__init__.py +1 -0
dstack/_internal/core/backends/amddevcloud/backend.py +16 -0
dstack/_internal/core/backends/amddevcloud/compute.py +5 -0
dstack/_internal/core/backends/amddevcloud/configurator.py +29 -0
dstack/_internal/core/backends/aws/compute.py +6 -1
dstack/_internal/core/backends/aws/configurator.py +11 -7
dstack/_internal/core/backends/azure/configurator.py +11 -7
dstack/_internal/core/backends/base/compute.py +33 -5
dstack/_internal/core/backends/base/configurator.py +25 -13
dstack/_internal/core/backends/base/offers.py +2 -0
dstack/_internal/core/backends/cloudrift/configurator.py +13 -7
dstack/_internal/core/backends/configurators.py +15 -0
dstack/_internal/core/backends/cudo/configurator.py +11 -7
dstack/_internal/core/backends/datacrunch/compute.py +5 -1
dstack/_internal/core/backends/datacrunch/configurator.py +13 -7
dstack/_internal/core/backends/digitalocean/__init__.py +1 -0
dstack/_internal/core/backends/digitalocean/backend.py +16 -0
dstack/_internal/core/backends/digitalocean/compute.py +5 -0
dstack/_internal/core/backends/digitalocean/configurator.py +31 -0
dstack/_internal/core/backends/digitalocean_base/__init__.py +1 -0
dstack/_internal/core/backends/digitalocean_base/api_client.py +104 -0
dstack/_internal/core/backends/digitalocean_base/backend.py +5 -0
dstack/_internal/core/backends/digitalocean_base/compute.py +173 -0
dstack/_internal/core/backends/digitalocean_base/configurator.py +57 -0
dstack/_internal/core/backends/digitalocean_base/models.py +43 -0
dstack/_internal/core/backends/gcp/compute.py +32 -8
dstack/_internal/core/backends/gcp/configurator.py +11 -7
dstack/_internal/core/backends/hotaisle/api_client.py +25 -33
dstack/_internal/core/backends/hotaisle/compute.py +1 -6
dstack/_internal/core/backends/hotaisle/configurator.py +13 -7
dstack/_internal/core/backends/kubernetes/configurator.py +13 -7
dstack/_internal/core/backends/lambdalabs/configurator.py +11 -7
dstack/_internal/core/backends/models.py +7 -0
dstack/_internal/core/backends/nebius/compute.py +1 -8
dstack/_internal/core/backends/nebius/configurator.py +11 -7
dstack/_internal/core/backends/nebius/resources.py +21 -11
dstack/_internal/core/backends/oci/compute.py +4 -5
dstack/_internal/core/backends/oci/configurator.py +11 -7
dstack/_internal/core/backends/runpod/configurator.py +11 -7
dstack/_internal/core/backends/template/configurator.py.jinja +11 -7
dstack/_internal/core/backends/tensordock/configurator.py +13 -7
dstack/_internal/core/backends/vastai/configurator.py +11 -7
dstack/_internal/core/backends/vultr/compute.py +1 -5
dstack/_internal/core/backends/vultr/configurator.py +11 -4
dstack/_internal/core/compatibility/fleets.py +5 -0
dstack/_internal/core/compatibility/gpus.py +13 -0
dstack/_internal/core/compatibility/runs.py +9 -1
dstack/_internal/core/models/backends/base.py +5 -1
dstack/_internal/core/models/common.py +3 -3
dstack/_internal/core/models/configurations.py +191 -32
dstack/_internal/core/models/files.py +1 -1
dstack/_internal/core/models/fleets.py +80 -3
dstack/_internal/core/models/profiles.py +41 -11
dstack/_internal/core/models/resources.py +46 -42
dstack/_internal/core/models/runs.py +28 -5
dstack/_internal/core/services/configs/__init__.py +6 -3
dstack/_internal/core/services/profiles.py +2 -2
dstack/_internal/core/services/repos.py +86 -79
dstack/_internal/core/services/ssh/ports.py +1 -1
dstack/_internal/proxy/lib/deps.py +6 -2
dstack/_internal/server/app.py +22 -17
dstack/_internal/server/background/tasks/process_fleets.py +109 -13
dstack/_internal/server/background/tasks/process_gateways.py +4 -1
dstack/_internal/server/background/tasks/process_instances.py +22 -73
dstack/_internal/server/background/tasks/process_probes.py +1 -1
dstack/_internal/server/background/tasks/process_running_jobs.py +12 -4
dstack/_internal/server/background/tasks/process_runs.py +3 -1
dstack/_internal/server/background/tasks/process_submitted_jobs.py +67 -44
dstack/_internal/server/background/tasks/process_terminating_jobs.py +2 -2
dstack/_internal/server/background/tasks/process_volumes.py +1 -1
dstack/_internal/server/db.py +8 -4
dstack/_internal/server/migrations/versions/2498ab323443_add_fleetmodel_consolidation_attempt_.py +44 -0
dstack/_internal/server/models.py +6 -2
dstack/_internal/server/routers/gpus.py +1 -6
dstack/_internal/server/schemas/runner.py +11 -0
dstack/_internal/server/services/backends/__init__.py +14 -8
dstack/_internal/server/services/backends/handlers.py +6 -1
dstack/_internal/server/services/docker.py +5 -5
dstack/_internal/server/services/fleets.py +37 -38
dstack/_internal/server/services/gateways/__init__.py +2 -0
dstack/_internal/server/services/gateways/client.py +5 -2
dstack/_internal/server/services/gateways/connection.py +1 -1
dstack/_internal/server/services/gpus.py +50 -49
dstack/_internal/server/services/instances.py +44 -4
dstack/_internal/server/services/jobs/__init__.py +15 -4
dstack/_internal/server/services/jobs/configurators/base.py +53 -17
dstack/_internal/server/services/jobs/configurators/dev.py +9 -4
dstack/_internal/server/services/jobs/configurators/extensions/cursor.py +6 -8
dstack/_internal/server/services/jobs/configurators/extensions/vscode.py +7 -9
dstack/_internal/server/services/jobs/configurators/service.py +1 -3
dstack/_internal/server/services/jobs/configurators/task.py +3 -3
dstack/_internal/server/services/locking.py +5 -5
dstack/_internal/server/services/logging.py +10 -2
dstack/_internal/server/services/logs/__init__.py +8 -6
dstack/_internal/server/services/logs/aws.py +330 -327
dstack/_internal/server/services/logs/filelog.py +7 -6
dstack/_internal/server/services/logs/gcp.py +141 -139
dstack/_internal/server/services/plugins.py +1 -1
dstack/_internal/server/services/projects.py +2 -5
dstack/_internal/server/services/proxy/repo.py +5 -1
dstack/_internal/server/services/requirements/__init__.py +0 -0
dstack/_internal/server/services/requirements/combine.py +259 -0
dstack/_internal/server/services/runner/client.py +7 -0
dstack/_internal/server/services/runs.py +17 -1
dstack/_internal/server/services/services/__init__.py +8 -2
dstack/_internal/server/services/services/autoscalers.py +2 -0
dstack/_internal/server/services/ssh.py +2 -1
dstack/_internal/server/services/storage/__init__.py +5 -6
dstack/_internal/server/services/storage/gcs.py +49 -49
dstack/_internal/server/services/storage/s3.py +52 -52
dstack/_internal/server/statics/index.html +1 -1
dstack/_internal/server/statics/{main-d151b300fcac3933213d.js → main-4eecc75fbe64067eb1bc.js} +1146 -899
dstack/_internal/server/statics/{main-d151b300fcac3933213d.js.map → main-4eecc75fbe64067eb1bc.js.map} +1 -1
dstack/_internal/server/statics/{main-aec4762350e34d6fbff9.css → main-56191c63d516fd0041c4.css} +1 -1
dstack/_internal/server/testing/common.py +7 -4
dstack/_internal/server/utils/logging.py +3 -3
dstack/_internal/server/utils/provisioning.py +3 -3
dstack/_internal/utils/json_schema.py +3 -1
dstack/_internal/utils/path.py +8 -1
dstack/_internal/utils/ssh.py +7 -0
dstack/_internal/utils/typing.py +14 -0
dstack/api/_public/repos.py +62 -8
dstack/api/_public/runs.py +19 -8
dstack/api/server/__init__.py +17 -19
dstack/api/server/_gpus.py +2 -1
dstack/api/server/_group.py +4 -3
dstack/api/server/_repos.py +20 -3
dstack/plugins/builtin/rest_plugin/_plugin.py +1 -0
dstack/version.py +1 -1
{dstack-0.19.25rc1.dist-info → dstack-0.19.27.dist-info}/METADATA +2 -2
{dstack-0.19.25rc1.dist-info → dstack-0.19.27.dist-info}/RECORD +160 -142
dstack/api/huggingface/__init__.py +0 -73
{dstack-0.19.25rc1.dist-info → dstack-0.19.27.dist-info}/WHEEL +0 -0
{dstack-0.19.25rc1.dist-info → dstack-0.19.27.dist-info}/entry_points.txt +0 -0
{dstack-0.19.25rc1.dist-info → dstack-0.19.27.dist-info}/licenses/LICENSE.md +0 -0

dstack/_internal/server/background/tasks/process_fleets.py CHANGED Viewed

@@ -1,11 +1,13 @@
 from datetime import timedelta
 from typing import List
+from uuid import UUID
 from sqlalchemy import select, update
 from sqlalchemy.ext.asyncio import AsyncSession
 from sqlalchemy.orm import joinedload, load_only
-from dstack._internal.core.models.fleets import FleetStatus
+from dstack._internal.core.models.fleets import FleetSpec, FleetStatus
+from dstack._internal.core.models.instances import InstanceStatus
 from dstack._internal.server.db import get_db, get_session_ctx
 from dstack._internal.server.models import (
     FleetModel,
@@ -15,7 +17,9 @@ from dstack._internal.server.models import (
     RunModel,
 )
 from dstack._internal.server.services.fleets import (
+    create_fleet_instance_model,
     get_fleet_spec,
+    get_next_instance_num,
     is_fleet_empty,
     is_fleet_in_use,
 )
@@ -65,31 +69,111 @@ async def _process_fleets(session: AsyncSession, fleet_models: List[FleetModel])
     res = await session.execute(
         select(FleetModel)
         .where(FleetModel.id.in_(fleet_ids))
-        .options(joinedload(FleetModel.instances).load_only(InstanceModel.deleted))
         .options(
-            joinedload(FleetModel.instances).joinedload(InstanceModel.jobs).load_only(JobModel.id)
+            joinedload(FleetModel.instances).joinedload(InstanceModel.jobs).load_only(JobModel.id),
+            joinedload(FleetModel.project),
         )
         .options(joinedload(FleetModel.runs).load_only(RunModel.status))
         .execution_options(populate_existing=True)
     )
     fleet_models = list(res.unique().scalars().all())
+    # TODO: Drop fleets auto-deletion after dropping fleets auto-creation.
     deleted_fleets_ids = []
-    now = get_current_datetime()
     for fleet_model in fleet_models:
+        _consolidate_fleet_state_with_spec(session, fleet_model)
         deleted = _autodelete_fleet(fleet_model)
         if deleted:
             deleted_fleets_ids.append(fleet_model.id)
-        fleet_model.last_processed_at = now
+        fleet_model.last_processed_at = get_current_datetime()
+    await _update_deleted_fleets_placement_groups(session, deleted_fleets_ids)
+    await session.commit()
-    await session.execute(
-        update(PlacementGroupModel)
-        .where(
-            PlacementGroupModel.fleet_id.in_(deleted_fleets_ids),
+def _consolidate_fleet_state_with_spec(session: AsyncSession, fleet_model: FleetModel):
+    if fleet_model.status == FleetStatus.TERMINATING:
+        return
+    fleet_spec = get_fleet_spec(fleet_model)
+    if fleet_spec.configuration.nodes is None or fleet_spec.autocreated:
+        # Only explicitly created cloud fleets are consolidated.
+        return
+    if not _is_fleet_ready_for_consolidation(fleet_model):
+        return
+    added_instances = _maintain_fleet_nodes_min(session, fleet_model, fleet_spec)
+    if added_instances:
+        fleet_model.consolidation_attempt += 1
+    else:
+        # The fleet is already consolidated or consolidation is in progress.
+        # We reset consolidation_attempt in both cases for simplicity.
+        # The second case does not need reset but is ok to do since
+        # it means consolidation is longer than delay, so it won't happen too often.
+        # TODO: Reset consolidation_attempt on fleet in-place update.
+        fleet_model.consolidation_attempt = 0
+    fleet_model.last_consolidated_at = get_current_datetime()
+def _is_fleet_ready_for_consolidation(fleet_model: FleetModel) -> bool:
+    consolidation_retry_delay = _get_consolidation_retry_delay(fleet_model.consolidation_attempt)
+    last_consolidated_at = fleet_model.last_consolidated_at or fleet_model.last_processed_at
+    duration_since_last_consolidation = get_current_datetime() - last_consolidated_at
+    return duration_since_last_consolidation >= consolidation_retry_delay
+# We use exponentially increasing consolidation retry delays so that
+# consolidation does not happen too often. In particular, this prevents
+# retrying instance provisioning constantly in case of no offers.
+# TODO: Adjust delays.
+_CONSOLIDATION_RETRY_DELAYS = [
+    timedelta(seconds=30),
+    timedelta(minutes=1),
+    timedelta(minutes=2),
+    timedelta(minutes=5),
+    timedelta(minutes=10),
+]
+def _get_consolidation_retry_delay(consolidation_attempt: int) -> timedelta:
+    if consolidation_attempt < len(_CONSOLIDATION_RETRY_DELAYS):
+        return _CONSOLIDATION_RETRY_DELAYS[consolidation_attempt]
+    return _CONSOLIDATION_RETRY_DELAYS[-1]
+def _maintain_fleet_nodes_min(
+    session: AsyncSession,
+    fleet_model: FleetModel,
+    fleet_spec: FleetSpec,
+) -> bool:
+    """
+    Ensures the fleet has at least `nodes.min` instances.
+    Returns `True` if retried or added new instances and `False` otherwise.
+    """
+    assert fleet_spec.configuration.nodes is not None
+    for instance in fleet_model.instances:
+        # Delete terminated but not deleted instances since
+        # they are going to be replaced with new pending instances.
+        if instance.status == InstanceStatus.TERMINATED and not instance.deleted:
+            # It's safe to modify instances without instance lock since
+            # no other task modifies already terminated instances.
+            instance.deleted = True
+            instance.deleted_at = get_current_datetime()
+    active_instances = [i for i in fleet_model.instances if not i.deleted]
+    active_instances_num = len(active_instances)
+    if active_instances_num >= fleet_spec.configuration.nodes.min:
+        return False
+    nodes_missing = fleet_spec.configuration.nodes.min - active_instances_num
+    for i in range(nodes_missing):
+        instance_model = create_fleet_instance_model(
+            session=session,
+            project=fleet_model.project,
+            # TODO: Store fleet.user and pass it instead of the project owner.
+            username=fleet_model.project.owner.name,
+            spec=fleet_spec,
+            instance_num=get_next_instance_num({i.instance_num for i in active_instances}),
         )
-        .values(fleet_deleted=True)
-    )
-    await session.commit()
+        active_instances.append(instance_model)
+        fleet_model.instances.append(instance_model)
+    logger.info("Added %s instances to fleet %s", nodes_missing, fleet_model.name)
+    return True
 def _autodelete_fleet(fleet_model: FleetModel) -> bool:
@@ -100,7 +184,7 @@ def _autodelete_fleet(fleet_model: FleetModel) -> bool:
     if (
         fleet_model.status != FleetStatus.TERMINATING
         and fleet_spec.configuration.nodes is not None
-        and (fleet_spec.configuration.nodes.min is None or fleet_spec.configuration.nodes.min == 0)
+        and fleet_spec.configuration.nodes.min == 0
     ):
         # Empty fleets that allow 0 nodes should not be auto-deleted
         return False
@@ -110,3 +194,15 @@ def _autodelete_fleet(fleet_model: FleetModel) -> bool:
     fleet_model.deleted = True
     logger.info("Fleet %s deleted", fleet_model.name)
     return True
+async def _update_deleted_fleets_placement_groups(session: AsyncSession, fleets_ids: list[UUID]):
+    if len(fleets_ids) == 0:
+        return
+    await session.execute(
+        update(PlacementGroupModel)
+        .where(
+            PlacementGroupModel.fleet_id.in_(fleets_ids),
+        )
+        .values(fleet_deleted=True)
+    )

dstack/_internal/server/background/tasks/process_gateways.py CHANGED Viewed

@@ -49,8 +49,8 @@ async def process_gateways():
             if gateway_model is None:
                 return
             lockset.add(gateway_model.id)
+        gateway_model_id = gateway_model.id
         try:
-            gateway_model_id = gateway_model.id
             initial_status = gateway_model.status
             if initial_status == GatewayStatus.SUBMITTED:
                 await _process_submitted_gateway(session=session, gateway_model=gateway_model)
@@ -165,6 +165,9 @@ async def _process_provisioning_gateway(
     )
     gateway_model = res.unique().scalar_one()
+    # Provisioning gateways must have compute.
+    assert gateway_model.gateway_compute is not None
     # FIXME: problems caused by blocking on connect_to_gateway_with_retry and configure_gateway:
     # - cannot delete the gateway before it is provisioned because the DB model is locked
     # - connection retry counter is reset on server restart

dstack/_internal/server/background/tasks/process_instances.py CHANGED Viewed

@@ -53,14 +53,12 @@ from dstack._internal.core.models.placement import (
     PlacementStrategy,
 )
 from dstack._internal.core.models.profiles import (
-    RetryEvent,
     TerminationPolicy,
 )
 from dstack._internal.core.models.runs import (
     JobProvisioningData,
     Retry,
 )
-from dstack._internal.core.services.profiles import get_retry
 from dstack._internal.server import settings as server_settings
 from dstack._internal.server.background.tasks.common import get_provisioning_timeout
 from dstack._internal.server.db import get_db, get_session_ctx
@@ -85,8 +83,10 @@ from dstack._internal.server.services.instances import (
     get_instance_provisioning_data,
     get_instance_requirements,
     get_instance_ssh_private_keys,
+    remove_dangling_tasks_from_instance,
 )
 from dstack._internal.server.services.locking import get_locker
+from dstack._internal.server.services.logging import fmt
 from dstack._internal.server.services.offers import is_divisible_into_blocks
 from dstack._internal.server.services.placement import (
     get_fleet_placement_group_models,
@@ -181,8 +181,8 @@ async def _process_next_instance():
             if instance is None:
                 return
             lockset.add(instance.id)
+        instance_model_id = instance.id
         try:
-            instance_model_id = instance.id
             await _process_instance(session=session, instance=instance)
         finally:
             lockset.difference_update([instance_model_id])
@@ -325,7 +325,6 @@ async def _add_remote(instance: InstanceModel) -> None:
             e,
         )
         instance.status = InstanceStatus.PENDING
-        instance.last_retry_at = get_current_datetime()
         return
     instance_type = host_info_to_instance_type(host_info, cpu_arch)
@@ -393,6 +392,7 @@ async def _add_remote(instance: InstanceModel) -> None:
         return
     region = instance.region
+    assert region is not None  # always set for ssh instances
     jpd = JobProvisioningData(
         backend=BackendType.REMOTE,
         instance_type=instance_type,
@@ -423,7 +423,6 @@ async def _add_remote(instance: InstanceModel) -> None:
     instance.offer = instance_offer.json()
     instance.job_provisioning_data = jpd.json()
     instance.started_at = get_current_datetime()
-    instance.last_retry_at = get_current_datetime()
 def _deploy_instance(
@@ -490,29 +489,6 @@ def _deploy_instance(
 async def _create_instance(session: AsyncSession, instance: InstanceModel) -> None:
-    if instance.last_retry_at is not None:
-        last_retry = instance.last_retry_at
-        if get_current_datetime() < last_retry + timedelta(minutes=1):
-            return
-    if (
-        instance.profile is None
-        or instance.requirements is None
-        or instance.instance_configuration is None
-    ):
-        instance.status = InstanceStatus.TERMINATED
-        instance.termination_reason = "Empty profile, requirements or instance_configuration"
-        instance.last_retry_at = get_current_datetime()
-        logger.warning(
-            "Empty profile, requirements or instance_configuration. Terminate instance: %s",
-            instance.name,
-            extra={
-                "instance_name": instance.name,
-                "instance_status": InstanceStatus.TERMINATED.value,
-            },
-        )
-        return
     if _need_to_wait_fleet_provisioning(instance):
         logger.debug("Waiting for the first instance in the fleet to be provisioned")
         return
@@ -526,7 +502,6 @@ async def _create_instance(session: AsyncSession, instance: InstanceModel) -> No
         instance.termination_reason = (
             f"Error to parse profile, requirements or instance_configuration: {e}"
         )
-        instance.last_retry_at = get_current_datetime()
         logger.warning(
             "Error to parse profile, requirements or instance_configuration. Terminate instance: %s",
             instance.name,
@@ -537,24 +512,6 @@ async def _create_instance(session: AsyncSession, instance: InstanceModel) -> No
         )
         return
-    retry = get_retry(profile)
-    should_retry = retry is not None and RetryEvent.NO_CAPACITY in retry.on_events
-    if retry is not None:
-        retry_duration_deadline = _get_retry_duration_deadline(instance, retry)
-        if get_current_datetime() > retry_duration_deadline:
-            instance.status = InstanceStatus.TERMINATED
-            instance.termination_reason = "Retry duration expired"
-            logger.warning(
-                "Retry duration expired. Terminating instance %s",
-                instance.name,
-                extra={
-                    "instance_name": instance.name,
-                    "instance_status": InstanceStatus.TERMINATED.value,
-                },
-            )
-            return
     placement_group_models = []
     placement_group_model = None
     if instance.fleet_id:
@@ -592,15 +549,6 @@ async def _create_instance(session: AsyncSession, instance: InstanceModel) -> No
         exclude_not_available=True,
     )
-    if not offers and should_retry:
-        instance.last_retry_at = get_current_datetime()
-        logger.debug(
-            "No offers for instance %s. Next retry",
-            instance.name,
-            extra={"instance_name": instance.name},
-        )
-        return
     # Limit number of offers tried to prevent long-running processing
     # in case all offers fail.
     for backend, instance_offer in offers[: server_settings.MAX_OFFERS_TRIED]:
@@ -678,7 +626,6 @@ async def _create_instance(session: AsyncSession, instance: InstanceModel) -> No
         instance.offer = instance_offer.json()
         instance.total_blocks = instance_offer.total_blocks
         instance.started_at = get_current_datetime()
-        instance.last_retry_at = get_current_datetime()
         logger.info(
             "Created instance %s",
@@ -699,21 +646,18 @@ async def _create_instance(session: AsyncSession, instance: InstanceModel) -> No
             )
         return
-    instance.last_retry_at = get_current_datetime()
-    if not should_retry:
-        _mark_terminated(instance, "All offers failed" if offers else "No offers found")
-        if (
-            instance.fleet
-            and _is_fleet_master_instance(instance)
-            and _is_cloud_cluster(instance.fleet)
-        ):
-            # Do not attempt to deploy other instances, as they won't determine the correct cluster
-            # backend, region, and placement group without a successfully deployed master instance
-            for sibling_instance in instance.fleet.instances:
-                if sibling_instance.id == instance.id:
-                    continue
-                _mark_terminated(sibling_instance, "Master instance failed to start")
+    _mark_terminated(instance, "All offers failed" if offers else "No offers found")
+    if (
+        instance.fleet
+        and _is_fleet_master_instance(instance)
+        and _is_cloud_cluster(instance.fleet)
+    ):
+        # Do not attempt to deploy other instances, as they won't determine the correct cluster
+        # backend, region, and placement group without a successfully deployed master instance
+        for sibling_instance in instance.fleet.instances:
+            if sibling_instance.id == instance.id:
+                continue
+            _mark_terminated(sibling_instance, "Master instance failed to start")
 def _mark_terminated(instance: InstanceModel, termination_reason: str) -> None:
@@ -788,6 +732,7 @@ async def _check_instance(session: AsyncSession, instance: InstanceModel) -> Non
         ssh_private_keys,
         job_provisioning_data,
         None,
+        instance=instance,
         check_instance_health=check_instance_health,
     )
     if instance_check is False:
@@ -934,7 +879,7 @@ async def _wait_for_instance_provisioning_data(
 @runner_ssh_tunnel(ports=[DSTACK_SHIM_HTTP_PORT], retries=1)
 def _check_instance_inner(
-    ports: Dict[int, int], *, check_instance_health: bool = False
+    ports: Dict[int, int], *, instance: InstanceModel, check_instance_health: bool = False
 ) -> InstanceCheck:
     instance_health_response: Optional[InstanceHealthResponse] = None
     shim_client = runner_client.ShimClient(port=ports[DSTACK_SHIM_HTTP_PORT])
@@ -954,6 +899,10 @@ def _check_instance_inner(
         args = (method.__func__.__name__, e.__class__.__name__, e)
         logger.exception(template, *args)
         return InstanceCheck(reachable=False, message=template % args)
+    try:
+        remove_dangling_tasks_from_instance(shim_client, instance)
+    except Exception as e:
+        logger.exception("%s: error removing dangling tasks: %s", fmt(instance), e)
     return runner_client.healthcheck_response_to_instance_check(
         healthcheck_response, instance_health_response
     )

dstack/_internal/server/background/tasks/process_probes.py CHANGED Viewed

@@ -120,7 +120,7 @@ async def _execute_probe(probe: ProbeModel, probe_spec: ProbeSpec) -> bool:
                 method=probe_spec.method,
                 url="http://dstack" + probe_spec.url,
                 headers=[(h.name, h.value) for h in probe_spec.headers],
-                data=probe_spec.body,
+                content=probe_spec.body,
                 timeout=probe_spec.timeout,
                 follow_redirects=False,
             )

dstack/_internal/server/background/tasks/process_running_jobs.py CHANGED Viewed

@@ -41,6 +41,7 @@ from dstack._internal.core.models.volumes import InstanceMountPoint, Volume, Vol
 from dstack._internal.server.background.tasks.common import get_provisioning_timeout
 from dstack._internal.server.db import get_db, get_session_ctx
 from dstack._internal.server.models import (
+    FleetModel,
     InstanceModel,
     JobModel,
     ProbeModel,
@@ -128,9 +129,8 @@ async def _process_next_running_job():
             if job_model is None:
                 return
             lockset.add(job_model.id)
+        job_model_id = job_model.id
         try:
-            job_model_id = job_model.id
             await _process_running_job(session=session, job_model=job_model)
         finally:
             lockset.difference_update([job_model_id])
@@ -152,6 +152,7 @@ async def _process_running_job(session: AsyncSession, job_model: JobModel):
         .options(joinedload(RunModel.project))
         .options(joinedload(RunModel.user))
         .options(joinedload(RunModel.repo))
+        .options(joinedload(RunModel.fleet).load_only(FleetModel.id, FleetModel.name))
         .options(joinedload(RunModel.jobs))
     )
     run_model = res.unique().scalar_one()
@@ -170,6 +171,11 @@ async def _process_running_job(session: AsyncSession, job_model: JobModel):
     job = find_job(run.jobs, job_model.replica_num, job_model.job_num)
+    volumes = []
+    secrets = {}
+    cluster_info = None
+    repo_creds = None
     initial_status = job_model.status
     if initial_status in [JobStatus.PROVISIONING, JobStatus.PULLING]:
         # Wait until all other jobs in the replica are provisioned
@@ -257,6 +263,7 @@ async def _process_running_job(session: AsyncSession, job_model: JobModel):
                 user_ssh_key,
             )
         else:
+            assert cluster_info is not None
             logger.debug(
                 "%s: process provisioning job without shim, age=%s",
                 fmt(job_model),
@@ -275,7 +282,6 @@ async def _process_running_job(session: AsyncSession, job_model: JobModel):
                 repo=repo_model,
                 code_hash=_get_repo_code_hash(run, job),
             )
             success = await common_utils.run_async(
                 _submit_job_to_runner,
                 server_ssh_private_keys,
@@ -309,6 +315,7 @@ async def _process_running_job(session: AsyncSession, job_model: JobModel):
     else:  # fails are not acceptable
         if initial_status == JobStatus.PULLING:
+            assert cluster_info is not None
             logger.debug(
                 "%s: process pulling job with shim, age=%s", fmt(job_model), job_submission.age
             )
@@ -341,7 +348,7 @@ async def _process_running_job(session: AsyncSession, job_model: JobModel):
                 server_ssh_private_keys,
                 job_provisioning_data,
             )
-        elif initial_status == JobStatus.RUNNING:
+        else:
             logger.debug("%s: process running job, age=%s", fmt(job_model), job_submission.age)
             success = await common_utils.run_async(
                 _process_running,
@@ -632,6 +639,7 @@ def _process_pulling_with_shim(
         is successful
     """
     shim_client = client.ShimClient(port=ports[DSTACK_SHIM_HTTP_PORT])
+    job_runtime_data = None
     if shim_client.is_api_v2_supported():  # raises error if shim is down, causes retry
         task = shim_client.get_task(job_model.id)

dstack/_internal/server/background/tasks/process_runs.py CHANGED Viewed

@@ -21,6 +21,7 @@ from dstack._internal.core.models.runs import (
 )
 from dstack._internal.server.db import get_db, get_session_ctx
 from dstack._internal.server.models import (
+    FleetModel,
     InstanceModel,
     JobModel,
     ProjectModel,
@@ -129,8 +130,8 @@ async def _process_next_run():
             job_ids = [j.id for j in run_model.jobs]
             run_lockset.add(run_model.id)
             job_lockset.update(job_ids)
+        run_model_id = run_model.id
         try:
-            run_model_id = run_model.id
             await _process_run(session=session, run_model=run_model)
         finally:
             run_lockset.difference_update([run_model_id])
@@ -145,6 +146,7 @@ async def _process_run(session: AsyncSession, run_model: RunModel):
         .execution_options(populate_existing=True)
         .options(joinedload(RunModel.project).load_only(ProjectModel.id, ProjectModel.name))
         .options(joinedload(RunModel.user).load_only(UserModel.name))
+        .options(joinedload(RunModel.fleet).load_only(FleetModel.id, FleetModel.name))
         .options(
             selectinload(RunModel.jobs)
             .joinedload(JobModel.instance)

dstack 0.19.25rc1__py3-none-any.whl → 0.19.27__py3-none-any.whl

Potentially problematic release.

dstack 0.19.25rc1py3-none-any.whl → 0.19.27py3-none-any.whl