PyPI - dstack - Versions diffs - 0.18.43__py3-none-any.whl → 0.19.0rc1__py3-none-any.whl - Mend

dstack 0.18.43py3-none-any.whl → 0.19.0rc1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (278) hide show

dstack/_internal/cli/commands/gateway.py +15 -3
dstack/_internal/cli/commands/logs.py +0 -22
dstack/_internal/cli/commands/stats.py +8 -17
dstack/_internal/cli/main.py +1 -5
dstack/_internal/cli/services/configurators/fleet.py +4 -39
dstack/_internal/cli/services/configurators/run.py +22 -20
dstack/_internal/cli/services/profile.py +34 -83
dstack/_internal/cli/utils/gateway.py +1 -1
dstack/_internal/cli/utils/run.py +11 -0
dstack/_internal/core/backends/__init__.py +56 -39
dstack/_internal/core/backends/aws/__init__.py +0 -25
dstack/_internal/core/backends/aws/auth.py +1 -10
dstack/_internal/core/backends/aws/backend.py +26 -0
dstack/_internal/core/backends/aws/compute.py +21 -45
dstack/_internal/{server/services/backends/configurators/aws.py → core/backends/aws/configurator.py} +46 -85
dstack/_internal/core/backends/aws/models.py +135 -0
dstack/_internal/core/backends/aws/resources.py +1 -1
dstack/_internal/core/backends/azure/__init__.py +0 -20
dstack/_internal/core/backends/azure/auth.py +2 -11
dstack/_internal/core/backends/azure/backend.py +21 -0
dstack/_internal/core/backends/azure/compute.py +14 -28
dstack/_internal/{server/services/backends/configurators/azure.py → core/backends/azure/configurator.py} +141 -210
dstack/_internal/core/backends/azure/models.py +89 -0
dstack/_internal/core/backends/base/__init__.py +0 -12
dstack/_internal/core/backends/base/backend.py +18 -0
dstack/_internal/core/backends/base/compute.py +153 -33
dstack/_internal/core/backends/base/configurator.py +105 -0
dstack/_internal/core/backends/base/models.py +14 -0
dstack/_internal/core/backends/configurators.py +138 -0
dstack/_internal/core/backends/cudo/__init__.py +0 -15
dstack/_internal/core/backends/cudo/backend.py +16 -0
dstack/_internal/core/backends/cudo/compute.py +8 -26
dstack/_internal/core/backends/cudo/configurator.py +72 -0
dstack/_internal/core/backends/cudo/models.py +37 -0
dstack/_internal/core/backends/datacrunch/__init__.py +0 -15
dstack/_internal/core/backends/datacrunch/backend.py +16 -0
dstack/_internal/core/backends/datacrunch/compute.py +8 -25
dstack/_internal/core/backends/datacrunch/configurator.py +66 -0
dstack/_internal/core/backends/datacrunch/models.py +38 -0
dstack/_internal/core/{models/backends/dstack.py → backends/dstack/models.py} +7 -7
dstack/_internal/core/backends/gcp/__init__.py +0 -16
dstack/_internal/core/backends/gcp/auth.py +2 -11
dstack/_internal/core/backends/gcp/backend.py +17 -0
dstack/_internal/core/backends/gcp/compute.py +14 -44
dstack/_internal/{server/services/backends/configurators/gcp.py → core/backends/gcp/configurator.py} +46 -103
dstack/_internal/core/backends/gcp/models.py +125 -0
dstack/_internal/core/backends/kubernetes/__init__.py +0 -15
dstack/_internal/core/backends/kubernetes/backend.py +16 -0
dstack/_internal/core/backends/kubernetes/compute.py +16 -5
dstack/_internal/core/backends/kubernetes/configurator.py +55 -0
dstack/_internal/core/backends/kubernetes/models.py +72 -0
dstack/_internal/core/backends/lambdalabs/__init__.py +0 -16
dstack/_internal/core/backends/lambdalabs/backend.py +17 -0
dstack/_internal/core/backends/lambdalabs/compute.py +7 -28
dstack/_internal/core/backends/lambdalabs/configurator.py +82 -0
dstack/_internal/core/backends/lambdalabs/models.py +37 -0
dstack/_internal/core/backends/local/__init__.py +0 -13
dstack/_internal/core/backends/local/backend.py +14 -0
dstack/_internal/core/backends/local/compute.py +16 -2
dstack/_internal/core/backends/models.py +128 -0
dstack/_internal/core/backends/oci/__init__.py +0 -15
dstack/_internal/core/backends/oci/auth.py +1 -5
dstack/_internal/core/backends/oci/backend.py +16 -0
dstack/_internal/core/backends/oci/compute.py +9 -23
dstack/_internal/{server/services/backends/configurators/oci.py → core/backends/oci/configurator.py} +40 -85
dstack/_internal/core/{models/backends/oci.py → backends/oci/models.py} +24 -25
dstack/_internal/core/backends/oci/region.py +1 -1
dstack/_internal/core/backends/runpod/__init__.py +0 -15
dstack/_internal/core/backends/runpod/backend.py +16 -0
dstack/_internal/core/backends/runpod/compute.py +28 -6
dstack/_internal/core/backends/runpod/configurator.py +59 -0
dstack/_internal/core/backends/runpod/models.py +54 -0
dstack/_internal/core/backends/template/__init__.py +0 -0
dstack/_internal/core/backends/tensordock/__init__.py +0 -15
dstack/_internal/core/backends/tensordock/backend.py +16 -0
dstack/_internal/core/backends/tensordock/compute.py +8 -27
dstack/_internal/core/backends/tensordock/configurator.py +68 -0
dstack/_internal/core/backends/tensordock/models.py +38 -0
dstack/_internal/core/backends/vastai/__init__.py +0 -15
dstack/_internal/core/backends/vastai/backend.py +16 -0
dstack/_internal/core/backends/vastai/compute.py +2 -2
dstack/_internal/core/backends/vastai/configurator.py +66 -0
dstack/_internal/core/backends/vastai/models.py +37 -0
dstack/_internal/core/backends/vultr/__init__.py +0 -15
dstack/_internal/core/backends/vultr/backend.py +16 -0
dstack/_internal/core/backends/vultr/compute.py +10 -24
dstack/_internal/core/backends/vultr/configurator.py +64 -0
dstack/_internal/core/backends/vultr/models.py +34 -0
dstack/_internal/core/models/backends/__init__.py +0 -184
dstack/_internal/core/models/backends/base.py +0 -19
dstack/_internal/core/models/configurations.py +22 -16
dstack/_internal/core/models/envs.py +4 -3
dstack/_internal/core/models/fleets.py +17 -22
dstack/_internal/core/models/gateways.py +3 -3
dstack/_internal/core/models/instances.py +24 -0
dstack/_internal/core/models/profiles.py +85 -45
dstack/_internal/core/models/projects.py +1 -1
dstack/_internal/core/models/repos/base.py +0 -5
dstack/_internal/core/models/repos/local.py +3 -3
dstack/_internal/core/models/repos/remote.py +26 -12
dstack/_internal/core/models/repos/virtual.py +1 -1
dstack/_internal/core/models/resources.py +45 -76
dstack/_internal/core/models/runs.py +21 -19
dstack/_internal/core/models/volumes.py +1 -3
dstack/_internal/core/services/profiles.py +7 -16
dstack/_internal/core/services/repos.py +0 -4
dstack/_internal/server/app.py +11 -4
dstack/_internal/server/background/__init__.py +10 -0
dstack/_internal/server/background/tasks/process_gateways.py +4 -8
dstack/_internal/server/background/tasks/process_instances.py +14 -9
dstack/_internal/server/background/tasks/process_metrics.py +1 -1
dstack/_internal/server/background/tasks/process_placement_groups.py +5 -1
dstack/_internal/server/background/tasks/process_prometheus_metrics.py +135 -0
dstack/_internal/server/background/tasks/process_running_jobs.py +80 -24
dstack/_internal/server/background/tasks/process_runs.py +1 -0
dstack/_internal/server/background/tasks/process_submitted_jobs.py +20 -38
dstack/_internal/server/background/tasks/process_volumes.py +5 -2
dstack/_internal/server/migrations/versions/60e444118b6d_add_jobprometheusmetrics.py +40 -0
dstack/_internal/server/migrations/versions/7bc2586e8b9e_make_instancemodel_pool_id_optional.py +36 -0
dstack/_internal/server/migrations/versions/98d1b92988bc_add_jobterminationreason_terminated_due_.py +140 -0
dstack/_internal/server/migrations/versions/bc8ca4a505c6_store_backendtype_as_string.py +171 -0
dstack/_internal/server/models.py +59 -9
dstack/_internal/server/routers/backends.py +14 -23
dstack/_internal/server/routers/instances.py +3 -4
dstack/_internal/server/routers/metrics.py +31 -10
dstack/_internal/server/routers/prometheus.py +36 -0
dstack/_internal/server/routers/repos.py +1 -2
dstack/_internal/server/routers/runs.py +13 -59
dstack/_internal/server/schemas/gateways.py +14 -23
dstack/_internal/server/schemas/projects.py +7 -2
dstack/_internal/server/schemas/repos.py +2 -38
dstack/_internal/server/schemas/runner.py +1 -0
dstack/_internal/server/schemas/runs.py +1 -24
dstack/_internal/server/security/permissions.py +1 -1
dstack/_internal/server/services/backends/__init__.py +85 -158
dstack/_internal/server/services/config.py +53 -567
dstack/_internal/server/services/fleets.py +9 -103
dstack/_internal/server/services/gateways/__init__.py +13 -4
dstack/_internal/server/services/{pools.py → instances.py} +22 -329
dstack/_internal/server/services/jobs/__init__.py +9 -6
dstack/_internal/server/services/jobs/configurators/base.py +25 -1
dstack/_internal/server/services/jobs/configurators/dev.py +9 -1
dstack/_internal/server/services/jobs/configurators/extensions/cursor.py +42 -0
dstack/_internal/server/services/metrics.py +131 -72
dstack/_internal/server/services/offers.py +1 -1
dstack/_internal/server/services/projects.py +23 -14
dstack/_internal/server/services/prometheus.py +245 -0
dstack/_internal/server/services/runner/client.py +14 -3
dstack/_internal/server/services/runs.py +67 -31
dstack/_internal/server/services/volumes.py +9 -4
dstack/_internal/server/settings.py +3 -0
dstack/_internal/server/statics/index.html +1 -1
dstack/_internal/server/statics/{main-fe8fd9db55df8d10e648.js → main-4fd5a4770eff59325ee3.js} +68 -15
dstack/_internal/server/statics/{main-fe8fd9db55df8d10e648.js.map → main-4fd5a4770eff59325ee3.js.map} +1 -1
dstack/_internal/server/statics/{main-7510e71dfa9749a4e70e.css → main-da9f8c06a69c20dac23e.css} +1 -1
dstack/_internal/server/statics/static/media/entraID.d65d1f3e9486a8e56d24fc07b3230885.svg +9 -0
dstack/_internal/server/testing/common.py +75 -32
dstack/_internal/utils/json_schema.py +6 -0
dstack/_internal/utils/ssh.py +2 -1
dstack/api/__init__.py +4 -0
dstack/api/_public/__init__.py +16 -20
dstack/api/_public/backends.py +1 -1
dstack/api/_public/repos.py +36 -36
dstack/api/_public/runs.py +170 -83
dstack/api/server/__init__.py +11 -13
dstack/api/server/_backends.py +12 -16
dstack/api/server/_fleets.py +15 -55
dstack/api/server/_gateways.py +3 -14
dstack/api/server/_repos.py +1 -4
dstack/api/server/_runs.py +21 -96
dstack/api/server/_volumes.py +10 -5
dstack/api/utils.py +3 -0
dstack/version.py +1 -1
{dstack-0.18.43.dist-info → dstack-0.19.0rc1.dist-info}/METADATA +10 -1
{dstack-0.18.43.dist-info → dstack-0.19.0rc1.dist-info}/RECORD +229 -206
tests/_internal/cli/services/configurators/test_profile.py +6 -6
tests/_internal/core/backends/aws/test_configurator.py +35 -0
tests/_internal/core/backends/aws/test_resources.py +1 -1
tests/_internal/core/backends/azure/test_configurator.py +61 -0
tests/_internal/core/backends/cudo/__init__.py +0 -0
tests/_internal/core/backends/cudo/test_configurator.py +37 -0
tests/_internal/core/backends/datacrunch/__init__.py +0 -0
tests/_internal/core/backends/datacrunch/test_configurator.py +17 -0
tests/_internal/core/backends/gcp/test_configurator.py +42 -0
tests/_internal/core/backends/kubernetes/test_configurator.py +43 -0
tests/_internal/core/backends/lambdalabs/__init__.py +0 -0
tests/_internal/core/backends/lambdalabs/test_configurator.py +38 -0
tests/_internal/core/backends/oci/test_configurator.py +55 -0
tests/_internal/core/backends/runpod/__init__.py +0 -0
tests/_internal/core/backends/runpod/test_configurator.py +33 -0
tests/_internal/core/backends/tensordock/__init__.py +0 -0
tests/_internal/core/backends/tensordock/test_configurator.py +38 -0
tests/_internal/core/backends/vastai/__init__.py +0 -0
tests/_internal/core/backends/vastai/test_configurator.py +33 -0
tests/_internal/core/backends/vultr/__init__.py +0 -0
tests/_internal/core/backends/vultr/test_configurator.py +33 -0
tests/_internal/server/background/tasks/test_process_gateways.py +4 -0
tests/_internal/server/background/tasks/test_process_instances.py +49 -48
tests/_internal/server/background/tasks/test_process_metrics.py +0 -3
tests/_internal/server/background/tasks/test_process_placement_groups.py +2 -0
tests/_internal/server/background/tasks/test_process_prometheus_metrics.py +186 -0
tests/_internal/server/background/tasks/test_process_running_jobs.py +123 -19
tests/_internal/server/background/tasks/test_process_runs.py +8 -22
tests/_internal/server/background/tasks/test_process_submitted_jobs.py +3 -40
tests/_internal/server/background/tasks/test_process_submitted_volumes.py +2 -0
tests/_internal/server/background/tasks/test_process_terminating_jobs.py +10 -15
tests/_internal/server/routers/test_backends.py +6 -764
tests/_internal/server/routers/test_fleets.py +2 -26
tests/_internal/server/routers/test_gateways.py +27 -3
tests/_internal/server/routers/test_instances.py +0 -10
tests/_internal/server/routers/test_metrics.py +42 -0
tests/_internal/server/routers/test_projects.py +56 -0
tests/_internal/server/routers/test_prometheus.py +333 -0
tests/_internal/server/routers/test_repos.py +0 -15
tests/_internal/server/routers/test_runs.py +83 -275
tests/_internal/server/routers/test_volumes.py +2 -3
tests/_internal/server/services/backends/__init__.py +0 -0
tests/_internal/server/services/jobs/configurators/test_task.py +35 -0
tests/_internal/server/services/test_config.py +7 -4
tests/_internal/server/services/test_fleets.py +1 -4
tests/_internal/server/services/{test_pools.py → test_instances.py} +11 -49
tests/_internal/server/services/test_metrics.py +167 -0
tests/_internal/server/services/test_repos.py +1 -14
tests/_internal/server/services/test_runs.py +0 -4
dstack/_internal/cli/commands/pool.py +0 -581
dstack/_internal/cli/commands/run.py +0 -75
dstack/_internal/core/backends/aws/config.py +0 -18
dstack/_internal/core/backends/azure/config.py +0 -12
dstack/_internal/core/backends/base/config.py +0 -5
dstack/_internal/core/backends/cudo/config.py +0 -9
dstack/_internal/core/backends/datacrunch/config.py +0 -9
dstack/_internal/core/backends/gcp/config.py +0 -22
dstack/_internal/core/backends/kubernetes/config.py +0 -6
dstack/_internal/core/backends/lambdalabs/config.py +0 -9
dstack/_internal/core/backends/nebius/__init__.py +0 -15
dstack/_internal/core/backends/nebius/api_client.py +0 -319
dstack/_internal/core/backends/nebius/compute.py +0 -220
dstack/_internal/core/backends/nebius/config.py +0 -6
dstack/_internal/core/backends/nebius/types.py +0 -37
dstack/_internal/core/backends/oci/config.py +0 -6
dstack/_internal/core/backends/runpod/config.py +0 -9
dstack/_internal/core/backends/tensordock/config.py +0 -9
dstack/_internal/core/backends/vastai/config.py +0 -6
dstack/_internal/core/backends/vultr/config.py +0 -9
dstack/_internal/core/models/backends/aws.py +0 -86
dstack/_internal/core/models/backends/azure.py +0 -68
dstack/_internal/core/models/backends/cudo.py +0 -43
dstack/_internal/core/models/backends/datacrunch.py +0 -44
dstack/_internal/core/models/backends/gcp.py +0 -67
dstack/_internal/core/models/backends/kubernetes.py +0 -40
dstack/_internal/core/models/backends/lambdalabs.py +0 -43
dstack/_internal/core/models/backends/nebius.py +0 -54
dstack/_internal/core/models/backends/runpod.py +0 -40
dstack/_internal/core/models/backends/tensordock.py +0 -44
dstack/_internal/core/models/backends/vastai.py +0 -43
dstack/_internal/core/models/backends/vultr.py +0 -40
dstack/_internal/core/models/pools.py +0 -43
dstack/_internal/server/routers/pools.py +0 -142
dstack/_internal/server/schemas/pools.py +0 -38
dstack/_internal/server/services/backends/configurators/base.py +0 -72
dstack/_internal/server/services/backends/configurators/cudo.py +0 -87
dstack/_internal/server/services/backends/configurators/datacrunch.py +0 -79
dstack/_internal/server/services/backends/configurators/kubernetes.py +0 -63
dstack/_internal/server/services/backends/configurators/lambdalabs.py +0 -98
dstack/_internal/server/services/backends/configurators/nebius.py +0 -85
dstack/_internal/server/services/backends/configurators/runpod.py +0 -97
dstack/_internal/server/services/backends/configurators/tensordock.py +0 -82
dstack/_internal/server/services/backends/configurators/vastai.py +0 -80
dstack/_internal/server/services/backends/configurators/vultr.py +0 -80
dstack/api/_public/pools.py +0 -41
dstack/api/_public/resources.py +0 -105
dstack/api/server/_pools.py +0 -63
tests/_internal/server/routers/test_pools.py +0 -612
/dstack/_internal/{server/services/backends/configurators → core/backends/dstack}/__init__.py +0 -0
{dstack-0.18.43.dist-info → dstack-0.19.0rc1.dist-info}/LICENSE.md +0 -0
{dstack-0.18.43.dist-info → dstack-0.19.0rc1.dist-info}/WHEEL +0 -0
{dstack-0.18.43.dist-info → dstack-0.19.0rc1.dist-info}/entry_points.txt +0 -0
{dstack-0.18.43.dist-info → dstack-0.19.0rc1.dist-info}/top_level.txt +0 -0

dstack/_internal/server/background/tasks/process_submitted_jobs.py CHANGED Viewed

@@ -6,7 +6,8 @@ from sqlalchemy import select
 from sqlalchemy.ext.asyncio import AsyncSession
 from sqlalchemy.orm import joinedload, lazyload, selectinload
-from dstack._internal.core.backends.base import Backend
+from dstack._internal.core.backends.base.backend import Backend
+from dstack._internal.core.backends.base.compute import ComputeWithVolumeSupport
 from dstack._internal.core.errors import BackendError, ServerClientError
 from dstack._internal.core.models.common import NetworkMode
 from dstack._internal.core.models.fleets import (
@@ -17,10 +18,8 @@ from dstack._internal.core.models.fleets import (
 )
 from dstack._internal.core.models.instances import InstanceOfferWithAvailability, InstanceStatus
 from dstack._internal.core.models.profiles import (
-    DEFAULT_POOL_NAME,
     DEFAULT_RUN_TERMINATION_IDLE_TIME,
     CreationPolicy,
-    Profile,
     TerminationPolicy,
 )
 from dstack._internal.core.models.resources import Memory
@@ -35,12 +34,12 @@ from dstack._internal.core.models.runs import (
 )
 from dstack._internal.core.models.volumes import Volume
 from dstack._internal.core.services.profiles import get_termination
+from dstack._internal.server import settings
 from dstack._internal.server.db import get_db, get_session_ctx
 from dstack._internal.server.models import (
     FleetModel,
     InstanceModel,
     JobModel,
-    PoolModel,
     ProjectModel,
     RunModel,
     VolumeAttachmentModel,
@@ -50,6 +49,12 @@ from dstack._internal.server.services.backends import get_project_backend_by_typ
 from dstack._internal.server.services.fleets import (
     fleet_model_to_fleet,
 )
+from dstack._internal.server.services.instances import (
+    filter_pool_instances,
+    get_instance_offer,
+    get_instance_provisioning_data,
+    get_shared_pool_instances_with_offers,
+)
 from dstack._internal.server.services.jobs import (
     check_can_attach_job_volumes,
     find_job,
@@ -61,12 +66,6 @@ from dstack._internal.server.services.jobs import (
 from dstack._internal.server.services.locking import get_locker
 from dstack._internal.server.services.logging import fmt
 from dstack._internal.server.services.offers import get_offers_by_requirements
-from dstack._internal.server.services.pools import (
-    filter_pool_instances,
-    get_instance_offer,
-    get_instance_provisioning_data,
-    get_shared_pool_instances_with_offers,
-)
 from dstack._internal.server.services.runs import (
     check_run_spec_requires_instance_mounts,
     run_model_to_run,
@@ -172,29 +171,27 @@ async def _process_submitted_job(session: AsyncSession, job_model: JobModel):
     except ServerClientError as e:
         logger.warning("%s: failed to prepare run volumes: %s", fmt(job_model), repr(e))
         job_model.status = JobStatus.TERMINATING
-        # TODO: Replace with JobTerminationReason.VOLUME_ERROR in 0.19
-        job_model.termination_reason = JobTerminationReason.TERMINATED_BY_SERVER
+        job_model.termination_reason = JobTerminationReason.VOLUME_ERROR
         job_model.termination_reason_message = e.msg
         job_model.last_processed_at = common_utils.get_current_datetime()
         await session.commit()
         return
-    pool = await _get_pool(session=session, project=project, profile=profile)
     # Submitted jobs processing happens in two steps (transactions).
     # First, the jobs gets an instance assigned (or no instance).
     # Then, the job runs on the assigned instance or a new instance is provisioned.
     # This is needed to avoid holding instances lock for a long time.
     if not job_model.instance_assigned:
-        # Try assigning instances from the pool.
+        # Try assigning an existing instance
         res = await session.execute(
             select(InstanceModel)
             .where(
-                InstanceModel.pool_id == pool.id,
+                InstanceModel.project_id == project.id,
                 InstanceModel.deleted == False,
                 InstanceModel.total_blocks > InstanceModel.busy_blocks,
             )
             .options(lazyload(InstanceModel.jobs))
+            .order_by(InstanceModel.id)  # take locks in order
             .with_for_update()
         )
         pool_instances = list(res.unique().scalars().all())
@@ -287,7 +284,6 @@ async def _process_submitted_job(session: AsyncSession, job_model: JobModel):
         )
         instance = _create_instance_model_for_job(
             project=project,
-            pool=pool,
             fleet_model=fleet_model,
             run_spec=run_spec,
             job_model=job_model,
@@ -319,6 +315,7 @@ async def _process_submitted_job(session: AsyncSession, job_model: JobModel):
         select(VolumeModel)
         .where(VolumeModel.id.in_(volumes_ids))
         .options(selectinload(VolumeModel.user))
+        .order_by(VolumeModel.id)  # take locks in order
         .with_for_update()
     )
     async with get_locker().lock_ctx(VolumeModel.__tablename__, volumes_ids):
@@ -334,19 +331,6 @@ async def _process_submitted_job(session: AsyncSession, job_model: JobModel):
         await session.commit()
-async def _get_pool(session: AsyncSession, project: ProjectModel, profile: Profile) -> PoolModel:
-    res = await session.execute(
-        select(PoolModel)
-        .where(
-            PoolModel.project_id == project.id,
-            PoolModel.name == (profile.pool_name or DEFAULT_POOL_NAME),
-            PoolModel.deleted == False,
-        )
-        .options(lazyload(PoolModel.instances))
-    )
-    return res.scalar_one()
 async def _assign_job_to_pool_instance(
     session: AsyncSession,
     pool_instances: List[InstanceModel],
@@ -450,7 +434,7 @@ async def _run_job_on_new_instance(
     )
     # Limit number of offers tried to prevent long-running processing
     # in case all offers fail.
-    for backend, offer in offers[:15]:
+    for backend, offer in offers[: settings.MAX_OFFERS_TRIED]:
         logger.debug(
             "%s: trying %s in %s/%s for $%0.4f per hour",
             fmt(job_model),
@@ -545,7 +529,6 @@ async def _get_next_instance_num(session: AsyncSession, fleet_model: FleetModel)
 def _create_instance_model_for_job(
     project: ProjectModel,
-    pool: PoolModel,
     fleet_model: FleetModel,
     run_spec: RunSpec,
     job_model: JobModel,
@@ -568,7 +551,6 @@ def _create_instance_model_for_job(
         name=f"{fleet_model.name}-{instance_num}",
         instance_num=instance_num,
         project=project,
-        pool=pool,
         created_at=common_utils.get_current_datetime(),
         started_at=common_utils.get_current_datetime(),
         status=InstanceStatus.PROVISIONING,
@@ -674,8 +656,7 @@ async def _attach_volumes(
             except (ServerClientError, BackendError) as e:
                 logger.warning("%s: failed to attached volume: %s", fmt(job_model), repr(e))
                 job_model.status = JobStatus.TERMINATING
-                # TODO: Replace with JobTerminationReason.VOLUME_ERROR in 0.19
-                job_model.termination_reason = JobTerminationReason.TERMINATED_BY_SERVER
+                job_model.termination_reason = JobTerminationReason.VOLUME_ERROR
                 job_model.termination_reason_message = "Failed to attach volume"
             except Exception:
                 logger.exception(
@@ -683,8 +664,7 @@ async def _attach_volumes(
                     fmt(job_model),
                 )
                 job_model.status = JobStatus.TERMINATING
-                # TODO: Replace with JobTerminationReason.VOLUME_ERROR in 0.19
-                job_model.termination_reason = JobTerminationReason.TERMINATED_BY_SERVER
+                job_model.termination_reason = JobTerminationReason.VOLUME_ERROR
                 job_model.termination_reason_message = "Failed to attach volume"
             finally:
                 job_model.job_runtime_data = job_runtime_data.json()
@@ -697,13 +677,15 @@ async def _attach_volume(
     instance: InstanceModel,
     instance_id: str,
 ):
+    compute = backend.compute()
+    assert isinstance(compute, ComputeWithVolumeSupport)
     volume = volume_model_to_volume(volume_model)
     # Refresh only to check if the volume wasn't deleted before the lock
     await session.refresh(volume_model)
     if volume_model.deleted:
         raise ServerClientError("Cannot attach a deleted volume")
     attachment_data = await common_utils.run_async(
-        backend.compute().attach_volume,
+        compute.attach_volume,
         volume=volume,
         instance_id=instance_id,
     )

dstack/_internal/server/background/tasks/process_volumes.py CHANGED Viewed

@@ -2,6 +2,7 @@ from sqlalchemy import select
 from sqlalchemy.ext.asyncio import AsyncSession
 from sqlalchemy.orm import joinedload
+from dstack._internal.core.backends.base.compute import ComputeWithVolumeSupport
 from dstack._internal.core.errors import BackendError, BackendNotAvailable
 from dstack._internal.core.models.volumes import VolumeStatus
 from dstack._internal.server.db import get_session_ctx
@@ -81,17 +82,19 @@ async def _process_submitted_volume(session: AsyncSession, volume_model: VolumeM
         await session.commit()
         return
+    compute = backend.compute()
+    assert isinstance(compute, ComputeWithVolumeSupport)
     try:
         if volume.configuration.volume_id is not None:
             logger.info("Registering external volume %s", volume_model.name)
             vpd = await run_async(
-                backend.compute().register_volume,
+                compute.register_volume,
                 volume=volume,
             )
         else:
             logger.info("Provisioning new volume %s", volume_model.name)
             vpd = await run_async(
-                backend.compute().create_volume,
+                compute.create_volume,
                 volume=volume,
             )
     except BackendError as e:

dstack/_internal/server/migrations/versions/60e444118b6d_add_jobprometheusmetrics.py ADDED Viewed

@@ -0,0 +1,40 @@
+"""Add JobPrometheusMetrics
+Revision ID: 60e444118b6d
+Revises: a751ef183f27
+Create Date: 2025-02-21 10:59:26.339353
+"""
+import sqlalchemy as sa
+import sqlalchemy_utils
+from alembic import op
+import dstack._internal.server.models
+# revision identifiers, used by Alembic.
+revision = "60e444118b6d"
+down_revision = "a751ef183f27"
+branch_labels = None
+depends_on = None
+def upgrade() -> None:
+    # ### commands auto generated by Alembic - please adjust! ###
+    op.create_table(
+        "job_prometheus_metrics",
+        sa.Column("job_id", sqlalchemy_utils.types.uuid.UUIDType(binary=False), nullable=False),
+        sa.Column("collected_at", dstack._internal.server.models.NaiveDateTime(), nullable=False),
+        sa.Column("text", sa.Text(), nullable=False),
+        sa.ForeignKeyConstraint(
+            ["job_id"], ["jobs.id"], name=op.f("fk_job_prometheus_metrics_job_id_jobs")
+        ),
+        sa.PrimaryKeyConstraint("job_id", name=op.f("pk_job_prometheus_metrics")),
+    )
+    # ### end Alembic commands ###
+def downgrade() -> None:
+    # ### commands auto generated by Alembic - please adjust! ###
+    op.drop_table("job_prometheus_metrics")
+    # ### end Alembic commands ###

dstack/_internal/server/migrations/versions/7bc2586e8b9e_make_instancemodel_pool_id_optional.py ADDED Viewed

@@ -0,0 +1,36 @@
+"""Make InstanceModel.pool_id optional
+Revision ID: 7bc2586e8b9e
+Revises: bc8ca4a505c6
+Create Date: 2025-03-13 11:13:39.748303
+"""
+import sqlalchemy_utils
+from alembic import op
+# revision identifiers, used by Alembic.
+revision = "7bc2586e8b9e"
+down_revision = "bc8ca4a505c6"
+branch_labels = None
+depends_on = None
+def upgrade() -> None:
+    # ### commands auto generated by Alembic - please adjust! ###
+    with op.batch_alter_table("instances", schema=None) as batch_op:
+        batch_op.alter_column(
+            "pool_id", existing_type=sqlalchemy_utils.UUIDType(binary=False), nullable=True
+        )
+    # ### end Alembic commands ###
+def downgrade() -> None:
+    # ### commands auto generated by Alembic - please adjust! ###
+    with op.batch_alter_table("instances", schema=None) as batch_op:
+        batch_op.alter_column(
+            "pool_id", existing_type=sqlalchemy_utils.UUIDType(binary=False), nullable=False
+        )
+    # ### end Alembic commands ###

dstack/_internal/server/migrations/versions/98d1b92988bc_add_jobterminationreason_terminated_due_.py ADDED Viewed

@@ -0,0 +1,140 @@
+"""Add JobTerminationReason.TERMINATED_DUE_TO_UTILIZATION_POLICY
+Revision ID: 98d1b92988bc
+Revises: 60e444118b6d
+Create Date: 2025-02-28 15:12:37.649876
+"""
+import sqlalchemy as sa
+from alembic import op
+from alembic_postgresql_enum import TableReference
+# revision identifiers, used by Alembic.
+revision = "98d1b92988bc"
+down_revision = "60e444118b6d"
+branch_labels = None
+depends_on = None
+def upgrade() -> None:
+    # SQLite
+    with op.batch_alter_table("jobs", schema=None) as batch_op:
+        batch_op.alter_column(
+            "termination_reason",
+            existing_type=sa.VARCHAR(length=34),
+            type_=sa.Enum(
+                "FAILED_TO_START_DUE_TO_NO_CAPACITY",
+                "INTERRUPTED_BY_NO_CAPACITY",
+                "WAITING_INSTANCE_LIMIT_EXCEEDED",
+                "WAITING_RUNNER_LIMIT_EXCEEDED",
+                "TERMINATED_BY_USER",
+                "VOLUME_ERROR",
+                "GATEWAY_ERROR",
+                "SCALED_DOWN",
+                "DONE_BY_RUNNER",
+                "ABORTED_BY_USER",
+                "TERMINATED_BY_SERVER",
+                "INACTIVITY_DURATION_EXCEEDED",
+                "TERMINATED_DUE_TO_UTILIZATION_POLICY",
+                "CONTAINER_EXITED_WITH_ERROR",
+                "PORTS_BINDING_FAILED",
+                "CREATING_CONTAINER_ERROR",
+                "EXECUTOR_ERROR",
+                "MAX_DURATION_EXCEEDED",
+                name="jobterminationreason",
+            ),
+            existing_nullable=True,
+        )
+    # PostgreSQL
+    op.sync_enum_values(
+        enum_schema="public",
+        enum_name="jobterminationreason",
+        new_values=[
+            "FAILED_TO_START_DUE_TO_NO_CAPACITY",
+            "INTERRUPTED_BY_NO_CAPACITY",
+            "WAITING_INSTANCE_LIMIT_EXCEEDED",
+            "WAITING_RUNNER_LIMIT_EXCEEDED",
+            "TERMINATED_BY_USER",
+            "VOLUME_ERROR",
+            "GATEWAY_ERROR",
+            "SCALED_DOWN",
+            "DONE_BY_RUNNER",
+            "ABORTED_BY_USER",
+            "TERMINATED_BY_SERVER",
+            "INACTIVITY_DURATION_EXCEEDED",
+            "TERMINATED_DUE_TO_UTILIZATION_POLICY",
+            "CONTAINER_EXITED_WITH_ERROR",
+            "PORTS_BINDING_FAILED",
+            "CREATING_CONTAINER_ERROR",
+            "EXECUTOR_ERROR",
+            "MAX_DURATION_EXCEEDED",
+        ],
+        affected_columns=[
+            TableReference(
+                table_schema="public", table_name="jobs", column_name="termination_reason"
+            )
+        ],
+        enum_values_to_rename=[],
+    )
+def downgrade() -> None:
+    # SQLite
+    with op.batch_alter_table("jobs", schema=None) as batch_op:
+        batch_op.alter_column(
+            "termination_reason",
+            existing_type=sa.Enum(
+                "FAILED_TO_START_DUE_TO_NO_CAPACITY",
+                "INTERRUPTED_BY_NO_CAPACITY",
+                "WAITING_INSTANCE_LIMIT_EXCEEDED",
+                "WAITING_RUNNER_LIMIT_EXCEEDED",
+                "TERMINATED_BY_USER",
+                "VOLUME_ERROR",
+                "GATEWAY_ERROR",
+                "SCALED_DOWN",
+                "DONE_BY_RUNNER",
+                "ABORTED_BY_USER",
+                "TERMINATED_BY_SERVER",
+                "INACTIVITY_DURATION_EXCEEDED",
+                "TERMINATED_DUE_TO_UTILIZATION_POLICY",
+                "CONTAINER_EXITED_WITH_ERROR",
+                "PORTS_BINDING_FAILED",
+                "CREATING_CONTAINER_ERROR",
+                "EXECUTOR_ERROR",
+                "MAX_DURATION_EXCEEDED",
+                name="jobterminationreason",
+            ),
+            type_=sa.VARCHAR(length=34),
+            existing_nullable=True,
+        )
+    # PostgreSQL
+    op.sync_enum_values(
+        enum_schema="public",
+        enum_name="jobterminationreason",
+        new_values=[
+            "FAILED_TO_START_DUE_TO_NO_CAPACITY",
+            "INTERRUPTED_BY_NO_CAPACITY",
+            "WAITING_INSTANCE_LIMIT_EXCEEDED",
+            "WAITING_RUNNER_LIMIT_EXCEEDED",
+            "TERMINATED_BY_USER",
+            "VOLUME_ERROR",
+            "GATEWAY_ERROR",
+            "SCALED_DOWN",
+            "DONE_BY_RUNNER",
+            "ABORTED_BY_USER",
+            "TERMINATED_BY_SERVER",
+            "INACTIVITY_DURATION_EXCEEDED",
+            "CONTAINER_EXITED_WITH_ERROR",
+            "PORTS_BINDING_FAILED",
+            "CREATING_CONTAINER_ERROR",
+            "EXECUTOR_ERROR",
+            "MAX_DURATION_EXCEEDED",
+        ],
+        affected_columns=[
+            TableReference(
+                table_schema="public", table_name="jobs", column_name="termination_reason"
+            )
+        ],
+        enum_values_to_rename=[],
+    )

dstack/_internal/server/migrations/versions/bc8ca4a505c6_store_backendtype_as_string.py ADDED Viewed

@@ -0,0 +1,171 @@
+"""Store BackendType as string
+Revision ID: bc8ca4a505c6
+Revises: 98d1b92988bc
+Create Date: 2025-03-10 14:49:06.837118
+"""
+import sqlalchemy as sa
+from alembic import op
+from sqlalchemy.dialects import postgresql
+# revision identifiers, used by Alembic.
+revision = "bc8ca4a505c6"
+down_revision = "98d1b92988bc"
+branch_labels = None
+depends_on = None
+def upgrade() -> None:
+    # ### commands auto generated by Alembic - please adjust! ###
+    with op.batch_alter_table("backends", schema=None) as batch_op:
+        batch_op.alter_column(
+            "type",
+            existing_type=postgresql.ENUM(
+                "AWS",
+                "AZURE",
+                "CUDO",
+                "DATACRUNCH",
+                "DSTACK",
+                "GCP",
+                "KUBERNETES",
+                "LAMBDA",
+                "LOCAL",
+                "REMOTE",
+                "NEBIUS",
+                "OCI",
+                "RUNPOD",
+                "TENSORDOCK",
+                "VASTAI",
+                "VULTR",
+                name="backendtype",
+            ),
+            type_=sa.String(length=100),
+            existing_nullable=False,
+        )
+    with op.batch_alter_table("instances", schema=None) as batch_op:
+        batch_op.alter_column(
+            "backend",
+            existing_type=postgresql.ENUM(
+                "AWS",
+                "AZURE",
+                "CUDO",
+                "DATACRUNCH",
+                "DSTACK",
+                "GCP",
+                "KUBERNETES",
+                "LAMBDA",
+                "LOCAL",
+                "REMOTE",
+                "NEBIUS",
+                "OCI",
+                "RUNPOD",
+                "TENSORDOCK",
+                "VASTAI",
+                "VULTR",
+                name="backendtype",
+            ),
+            type_=sa.String(length=100),
+            existing_nullable=True,
+        )
+    sa.Enum(
+        "AWS",
+        "AZURE",
+        "CUDO",
+        "DATACRUNCH",
+        "DSTACK",
+        "GCP",
+        "KUBERNETES",
+        "LAMBDA",
+        "LOCAL",
+        "REMOTE",
+        "NEBIUS",
+        "OCI",
+        "RUNPOD",
+        "TENSORDOCK",
+        "VASTAI",
+        "VULTR",
+        name="backendtype",
+    ).drop(op.get_bind())
+    # ### end Alembic commands ###
+def downgrade() -> None:
+    # ### commands auto generated by Alembic - please adjust! ###
+    sa.Enum(
+        "AWS",
+        "AZURE",
+        "CUDO",
+        "DATACRUNCH",
+        "DSTACK",
+        "GCP",
+        "KUBERNETES",
+        "LAMBDA",
+        "LOCAL",
+        "REMOTE",
+        "NEBIUS",
+        "OCI",
+        "RUNPOD",
+        "TENSORDOCK",
+        "VASTAI",
+        "VULTR",
+        name="backendtype",
+    ).create(op.get_bind())
+    with op.batch_alter_table("instances", schema=None) as batch_op:
+        batch_op.alter_column(
+            "backend",
+            existing_type=sa.String(length=100),
+            type_=postgresql.ENUM(
+                "AWS",
+                "AZURE",
+                "CUDO",
+                "DATACRUNCH",
+                "DSTACK",
+                "GCP",
+                "KUBERNETES",
+                "LAMBDA",
+                "LOCAL",
+                "REMOTE",
+                "NEBIUS",
+                "OCI",
+                "RUNPOD",
+                "TENSORDOCK",
+                "VASTAI",
+                "VULTR",
+                name="backendtype",
+            ),
+            existing_nullable=True,
+            postgresql_using="backend::VARCHAR::backendtype",
+        )
+    with op.batch_alter_table("backends", schema=None) as batch_op:
+        batch_op.alter_column(
+            "type",
+            existing_type=sa.String(length=100),
+            type_=postgresql.ENUM(
+                "AWS",
+                "AZURE",
+                "CUDO",
+                "DATACRUNCH",
+                "DSTACK",
+                "GCP",
+                "KUBERNETES",
+                "LAMBDA",
+                "LOCAL",
+                "REMOTE",
+                "NEBIUS",
+                "OCI",
+                "RUNPOD",
+                "TENSORDOCK",
+                "VASTAI",
+                "VULTR",
+                name="backendtype",
+            ),
+            existing_nullable=False,
+            postgresql_using="type::VARCHAR::backendtype",
+        )
+    # ### end Alembic commands ###

dstack 0.18.43__py3-none-any.whl → 0.19.0rc1__py3-none-any.whl

dstack 0.18.43py3-none-any.whl → 0.19.0rc1py3-none-any.whl