PyPI - datachain - Versions diffs - 0.22.0__py3-none-any.whl → 0.24.0__py3-none-any.whl - Mend

datachain 0.22.0py3-none-any.whl → 0.24.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of datachain might be problematic. Click here for more details.

Files changed (19) hide show

datachain/catalog/catalog.py +58 -13
datachain/cli/commands/datasets.py +4 -10
datachain/data_storage/metastore.py +13 -2
datachain/data_storage/sqlite.py +6 -2
datachain/dataset.py +37 -6
datachain/lib/dc/datachain.py +6 -12
datachain/lib/dc/datasets.py +60 -44
datachain/lib/dc/listings.py +2 -6
datachain/lib/dc/records.py +1 -1
datachain/lib/projects.py +1 -1
datachain/lib/signal_schema.py +8 -0
datachain/query/dataset.py +2 -8
datachain/remote/studio.py +4 -3
{datachain-0.22.0.dist-info → datachain-0.24.0.dist-info}/METADATA +1 -1
{datachain-0.22.0.dist-info → datachain-0.24.0.dist-info}/RECORD +19 -19
{datachain-0.22.0.dist-info → datachain-0.24.0.dist-info}/WHEEL +0 -0
{datachain-0.22.0.dist-info → datachain-0.24.0.dist-info}/entry_points.txt +0 -0
{datachain-0.22.0.dist-info → datachain-0.24.0.dist-info}/licenses/LICENSE +0 -0
{datachain-0.22.0.dist-info → datachain-0.24.0.dist-info}/top_level.txt +0 -0

datachain/catalog/catalog.py CHANGED Viewed

@@ -49,6 +49,7 @@ from datachain.error import (
     DatasetInvalidVersionError,
     DatasetNotFoundError,
     DatasetVersionNotFoundError,
+    NamespaceNotFoundError,
     ProjectNotFoundError,
     QueryScriptCancelError,
     QueryScriptRunError,
@@ -1059,6 +1060,39 @@ class Catalog:
         return self.get_dataset(name, project)
+    def get_full_dataset_name(
+        self,
+        name: str,
+        project_name: Optional[str] = None,
+        namespace_name: Optional[str] = None,
+    ) -> tuple[str, str, str]:
+        """
+        Returns dataset name together with separated namespace and project name.
+        It takes into account all the ways namespace and project can be added.
+        """
+        parsed_namespace_name, parsed_project_name, name = parse_dataset_name(name)
+        namespace_env = os.environ.get("DATACHAIN_NAMESPACE")
+        project_env = os.environ.get("DATACHAIN_PROJECT")
+        if project_env and len(project_env.split(".")) == 2:
+            # we allow setting both namespace and project in DATACHAIN_PROJECT
+            namespace_env, project_env = project_env.split(".")
+        namespace_name = (
+            parsed_namespace_name
+            or namespace_name
+            or namespace_env
+            or self.metastore.default_namespace_name
+        )
+        project_name = (
+            parsed_project_name
+            or project_name
+            or project_env
+            or self.metastore.default_project_name
+        )
+        return namespace_name, project_name, name
     def get_dataset(
         self, name: str, project: Optional[Project] = None
     ) -> DatasetRecord:
@@ -1074,21 +1108,26 @@ class Catalog:
         namespace_name: str,
         project_name: str,
         version: Optional[str] = None,
+        pull_dataset: bool = False,
+        update: bool = False,
     ) -> DatasetRecord:
-        try:
-            project = self.metastore.get_project(project_name, namespace_name)
-            ds = self.get_dataset(name, project)
-            if version and not ds.has_version(version):
-                raise DatasetVersionNotFoundError(
-                    f"Dataset {name} does not have version {version}"
-                )
-            return ds
+        if self.metastore.is_local_dataset(namespace_name) or not update:
+            try:
+                project = self.metastore.get_project(project_name, namespace_name)
+                ds = self.get_dataset(name, project)
+                if not version or ds.has_version(version):
+                    return ds
+            except (NamespaceNotFoundError, ProjectNotFoundError, DatasetNotFoundError):
+                pass
+        if self.metastore.is_local_dataset(namespace_name):
+            raise DatasetNotFoundError(
+                f"Dataset {name}"
+                + (f" version {version} " if version else " ")
+                + "not found"
+            )
-        except (
-            ProjectNotFoundError,
-            DatasetNotFoundError,
-            DatasetVersionNotFoundError,
-        ):
+        if pull_dataset:
             print("Dataset not found in local catalog, trying to get from studio")
             remote_ds_uri = create_dataset_uri(
                 name, namespace_name, project_name, version
@@ -1103,6 +1142,8 @@ class Catalog:
                 name, self.metastore.get_project(project_name, namespace_name)
             )
+        return self.get_remote_dataset(namespace_name, project_name, name)
     def get_dataset_with_version_uuid(self, uuid: str) -> DatasetRecord:
         """Returns dataset that contains version with specific uuid"""
         for dataset in self.ls_datasets():
@@ -1119,6 +1160,10 @@ class Catalog:
         info_response = studio_client.dataset_info(namespace, project, name)
         if not info_response.ok:
+            if info_response.status == 404:
+                raise DatasetNotFoundError(
+                    f"Dataset {namespace}.{project}.{name} not found"
+                )
             raise DataChainError(info_response.message)
         dataset_info = info_response.data

datachain/cli/commands/datasets.py CHANGED Viewed

@@ -8,7 +8,6 @@ if TYPE_CHECKING:
 from datachain.cli.utils import determine_flavors
 from datachain.config import Config
-from datachain.dataset import parse_dataset_name
 from datachain.error import DataChainError, DatasetNotFoundError
 from datachain.studio import list_datasets as list_datasets_studio
@@ -106,9 +105,8 @@ def list_datasets_local(catalog: "Catalog", name: Optional[str] = None):
 def list_datasets_local_versions(catalog: "Catalog", name: str):
-    namespace_name, project_name, name = parse_dataset_name(name)
-    namespace_name = namespace_name or catalog.metastore.default_namespace_name
-    project_name = project_name or catalog.metastore.default_project_name
+    namespace_name, project_name, name = catalog.get_full_dataset_name(name)
     project = catalog.metastore.get_project(project_name, namespace_name)
     ds = catalog.get_dataset(name, project)
     for v in ds.versions:
@@ -137,9 +135,7 @@ def rm_dataset(
     studio: Optional[bool] = False,
     team: Optional[str] = None,
 ):
-    namespace_name, project_name, name = parse_dataset_name(name)
-    namespace_name = namespace_name or catalog.metastore.default_namespace_name
-    project_name = project_name or catalog.metastore.default_project_name
+    namespace_name, project_name, name = catalog.get_full_dataset_name(name)
     if not catalog.metastore.is_local_dataset(namespace_name) and studio:
         from datachain.studio import remove_studio_dataset
@@ -166,9 +162,7 @@ def edit_dataset(
     attrs: Optional[list[str]] = None,
     team: Optional[str] = None,
 ):
-    namespace_name, project_name, name = parse_dataset_name(name)
-    namespace_name = namespace_name or catalog.metastore.default_namespace_name
-    project_name = project_name or catalog.metastore.default_project_name
+    namespace_name, project_name, name = catalog.get_full_dataset_name(name)
     if catalog.metastore.is_local_dataset(namespace_name):
         try:

datachain/data_storage/metastore.py CHANGED Viewed

@@ -132,6 +132,7 @@ class AbstractMetastore(ABC, Serializable):
         description: Optional[str] = None,
         uuid: Optional[str] = None,
         ignore_if_exists: bool = True,
+        validate: bool = True,
         **kwargs,
     ) -> Namespace:
         """Creates new namespace"""
@@ -192,6 +193,7 @@ class AbstractMetastore(ABC, Serializable):
         description: Optional[str] = None,
         uuid: Optional[str] = None,
         ignore_if_exists: bool = True,
+        validate: bool = True,
         **kwargs,
     ) -> Project:
         """Creates new project in specific namespace"""
@@ -725,8 +727,11 @@ class AbstractDBMetastore(AbstractMetastore):
         description: Optional[str] = None,
         uuid: Optional[str] = None,
         ignore_if_exists: bool = True,
+        validate: bool = True,
         **kwargs,
     ) -> Namespace:
+        if validate:
+            Namespace.validate_name(name)
         query = self._namespaces_insert().values(
             name=name,
             uuid=uuid or str(uuid4()),
@@ -775,12 +780,15 @@ class AbstractDBMetastore(AbstractMetastore):
         description: Optional[str] = None,
         uuid: Optional[str] = None,
         ignore_if_exists: bool = True,
+        validate: bool = True,
         **kwargs,
     ) -> Project:
+        if validate:
+            Project.validate_name(name)
         try:
             namespace = self.get_namespace(namespace_name)
         except NamespaceNotFoundError:
-            namespace = self.create_namespace(namespace_name)
+            namespace = self.create_namespace(namespace_name, validate=validate)
         query = self._projects_insert().values(
             namespace_id=namespace.id,
@@ -817,11 +825,14 @@ class AbstractDBMetastore(AbstractMetastore):
         """Gets a single project inside some namespace by name"""
         n = self._namespaces
         p = self._projects
+        validate = True
         if self._is_listing_project(name, namespace_name) or self._is_default_project(
             name, namespace_name
         ):
             # we are always creating default and listing projects if they don't exist
             create = True
+            validate = False
         query = self._projects_select(
             *(getattr(n.c, f) for f in self._namespaces_fields),
@@ -834,7 +845,7 @@ class AbstractDBMetastore(AbstractMetastore):
         rows = list(self.db.execute(query, conn=conn))
         if not rows:
             if create:
-                return self.create_project(namespace_name, name)
+                return self.create_project(namespace_name, name, validate=validate)
             raise ProjectNotFoundError(
                 f"Project {name} in namespace {namespace_name} not found."
             )

datachain/data_storage/sqlite.py CHANGED Viewed

@@ -468,8 +468,12 @@ class SQLiteMetastore(AbstractDBMetastore):
         be created implicitly though, to keep the same fully qualified name with
         Studio dataset.
         """
-        system_namespace = self.create_namespace(Namespace.system(), "System namespace")
-        self.create_project(system_namespace.name, Project.listing(), "Listing project")
+        system_namespace = self.create_namespace(
+            Namespace.system(), "System namespace", validate=False
+        )
+        self.create_project(
+            system_namespace.name, Project.listing(), "Listing project", validate=False
+        )
     def _check_schema_version(self) -> None:
         """

datachain/dataset.py CHANGED Viewed

@@ -12,6 +12,9 @@ from typing import (
 )
 from urllib.parse import urlparse
+from packaging.specifiers import SpecifierSet
+from packaging.version import Version
 from datachain import semver
 from datachain.error import DatasetVersionNotFoundError, InvalidDatasetNameError
 from datachain.namespace import Namespace
@@ -81,8 +84,10 @@ def create_dataset_uri(
 def parse_dataset_name(name: str) -> tuple[Optional[str], Optional[str], str]:
     """Parses dataset name and returns namespace, project and name"""
     if not name:
-        raise ValueError("Name must be defined to parse it")
+        raise InvalidDatasetNameError("Name must be defined to parse it")
     split = name.split(".")
+    if len(split) > 3:
+        raise InvalidDatasetNameError(f"Invalid dataset name {name}")
     name = split[-1]
     project_name = split[-2] if len(split) > 1 else None
     namespace_name = split[-3] if len(split) > 2 else None
@@ -659,13 +664,39 @@ class DatasetRecord:
             return None
         return max(versions).version
-    @property
-    def prev_version(self) -> Optional[str]:
-        """Returns previous version of a dataset"""
-        if len(self.versions) == 1:
+    def latest_compatible_version(self, version_spec: str) -> Optional[str]:
+        """
+        Returns the latest version that matches the given version specifier.
+        Supports Python version specifiers like:
+        - ">=1.0.0,<2.0.0" (compatible release range)
+        - "~=1.4.2" (compatible release clause)
+        - "==1.2.*" (prefix matching)
+        - ">1.0.0" (exclusive ordered comparison)
+        - ">=1.0.0" (inclusive ordered comparison)
+        - "!=1.3.0" (version exclusion)
+        Args:
+            version_spec: Version specifier string following PEP 440
+        Returns:
+            Latest compatible version string, or None if no compatible version found
+        """
+        spec_set = SpecifierSet(version_spec)
+        # Convert dataset versions to packaging.Version objects
+        # and filter compatible ones
+        compatible_versions = []
+        for v in self.versions:
+            pkg_version = Version(v.version)
+            if spec_set.contains(pkg_version):
+                compatible_versions.append(v)
+        if not compatible_versions:
             return None
-        return sorted(self.versions)[-2].version
+        # Return the latest compatible version
+        return max(compatible_versions).version
     @classmethod
     def from_dict(cls, d: dict[str, Any]) -> "DatasetRecord":

datachain/lib/dc/datachain.py CHANGED Viewed

@@ -24,7 +24,7 @@ from pydantic import BaseModel
 from tqdm import tqdm
 from datachain import semver
-from datachain.dataset import DatasetRecord, parse_dataset_name
+from datachain.dataset import DatasetRecord
 from datachain.delta import delta_disabled
 from datachain.error import ProjectCreateNotAllowedError, ProjectNotFoundError
 from datachain.func import literal
@@ -557,6 +557,7 @@ class DataChain:
             update_version: which part of the dataset version to automatically increase.
                 Available values: `major`, `minor` or `patch`. Default is `patch`.
         """
+        catalog = self.session.catalog
         if version is not None:
             semver.validate(version)
@@ -570,17 +571,10 @@ class DataChain:
                 " patch"
             )
-        namespace_name, project_name, name = parse_dataset_name(name)
-        namespace_name = (
-            namespace_name
-            or self._settings.namespace
-            or self.session.catalog.metastore.default_namespace_name
-        )
-        project_name = (
-            project_name
-            or self._settings.project
-            or self.session.catalog.metastore.default_project_name
+        namespace_name, project_name, name = catalog.get_full_dataset_name(
+            name,
+            namespace_name=self._settings.namespace,
+            project_name=self._settings.project,
         )
         try:

datachain/lib/dc/datasets.py CHANGED Viewed

@@ -1,16 +1,12 @@
 from collections.abc import Sequence
 from typing import TYPE_CHECKING, Optional, Union, get_origin, get_type_hints
-from datachain.dataset import parse_dataset_name
 from datachain.error import (
     DatasetNotFoundError,
     DatasetVersionNotFoundError,
     ProjectNotFoundError,
 )
 from datachain.lib.dataset_info import DatasetInfo
-from datachain.lib.file import (
-    File,
-)
 from datachain.lib.projects import get as get_project
 from datachain.lib.settings import Settings
 from datachain.lib.signal_schema import SignalSchema
@@ -35,7 +31,6 @@ def read_dataset(
     version: Optional[Union[str, int]] = None,
     session: Optional[Session] = None,
     settings: Optional[dict] = None,
-    fallback_to_studio: bool = True,
     delta: Optional[bool] = False,
     delta_on: Optional[Union[str, Sequence[str]]] = (
         "file.path",
@@ -45,6 +40,7 @@ def read_dataset(
     delta_result_on: Optional[Union[str, Sequence[str]]] = None,
     delta_compare: Optional[Union[str, Sequence[str]]] = None,
     delta_retry: Optional[Union[bool, str]] = None,
+    update: bool = False,
 ) -> "DataChain":
     """Get data from a saved Dataset. It returns the chain itself.
     If dataset or version is not found locally, it will try to pull it from Studio.
@@ -56,11 +52,12 @@ def read_dataset(
             set; otherwise, default values will be applied.
         namespace : optional name of namespace in which dataset to read is created
         project : optional name of project in which dataset to read is created
-        version : dataset version
+        version : dataset version. Supports:
+            - Exact version strings: "1.2.3"
+            - Legacy integer versions: 1, 2, 3 (finds latest major version)
+            - Version specifiers (PEP 440): ">=1.0.0,<2.0.0", "~=1.4.2", "==1.2.*", etc.
         session : Session to use for the chain.
         settings : Settings to use for the chain.
-        fallback_to_studio : Try to pull dataset from Studio if not found locally.
-            Default is True.
         delta: If True, only process new or changed files instead of reprocessing
             everything. This saves time by skipping files that were already processed in
             previous versions. The optimization is working when a new version of the
@@ -80,6 +77,10 @@ def read_dataset(
               (error mode)
             - True: Reprocess records missing from the result dataset (missing mode)
             - None: No retry processing (default)
+        update: If True always checks for newer versions available on Studio, even if
+            some version of the dataset exists locally already. If False (default), it
+            will only fetch the dataset from Studio if it is not found locally.
     Example:
         ```py
@@ -93,11 +94,22 @@ def read_dataset(
         ```
         ```py
-        chain = dc.read_dataset("my_cats", fallback_to_studio=False)
+        chain = dc.read_dataset("my_cats", version="1.0.0")
         ```
         ```py
-        chain = dc.read_dataset("my_cats", version="1.0.0")
+        # Using version specifiers (PEP 440)
+        chain = dc.read_dataset("my_cats", version=">=1.0.0,<2.0.0")
+        ```
+        ```py
+        # Legacy integer version support (finds latest in major version)
+        chain = dc.read_dataset("my_cats", version=1)  # Latest 1.x.x version
+        ```
+        ```py
+        # Always check for newer versions matching a version specifier from Studio
+        chain = dc.read_dataset("my_cats", version=">=1.0.0", update=True)
         ```
         ```py
@@ -114,7 +126,6 @@ def read_dataset(
             version="1.0.0",
             session=session,
             settings=settings,
-            fallback_to_studio=True,
         )
         ```
     """
@@ -122,41 +133,49 @@ def read_dataset(
     from .datachain import DataChain
+    telemetry.send_event_once("class", "datachain_init", name=name, version=version)
     session = Session.get(session)
     catalog = session.catalog
-    namespace_name, project_name, name = parse_dataset_name(name)
-    namespace_name = (
-        namespace_name or namespace or catalog.metastore.default_namespace_name
+    namespace_name, project_name, name = catalog.get_full_dataset_name(
+        name,
+        project_name=project,
+        namespace_name=namespace,
     )
-    project_name = project_name or project or catalog.metastore.default_project_name
     if version is not None:
+        dataset = session.catalog.get_dataset_with_remote_fallback(
+            name, namespace_name, project_name, update=update
+        )
+        # Convert legacy integer versions to version specifiers
+        # For backward compatibility we still allow users to put version as integer
+        # in which case we convert it to a version specifier that finds the latest
+        # version where major part is equal to that input version.
+        # For example if user sets version=2, we convert it to ">=2.0.0,<3.0.0"
+        # which will find something like 2.4.3 (assuming 2.4.3 is the biggest among
+        # all 2.* dataset versions)
+        if isinstance(version, int):
+            version_spec = f">={version}.0.0,<{version + 1}.0.0"
+        else:
+            version_spec = str(version)
+        from packaging.specifiers import InvalidSpecifier, SpecifierSet
         try:
-            # for backward compatibility we still allow users to put version as integer
-            # in which case we are trying to find latest version where major part is
-            # equal to that input version. For example if user sets version=2, we could
-            # continue with something like 2.4.3 (assuming 2.4.3 is the biggest among
-            # all 2.* dataset versions). If dataset doesn't have any versions where
-            # major part is equal to that input, exception is thrown.
-            major = int(version)
-            try:
-                ds_project = get_project(project_name, namespace_name, session=session)
-            except ProjectNotFoundError:
-                raise DatasetNotFoundError(
-                    f"Dataset {name} not found in namespace {namespace_name} and",
-                    f" project {project_name}",
-                ) from None
-            dataset = session.catalog.get_dataset(name, ds_project)
-            latest_major = dataset.latest_major_version(major)
-            if not latest_major:
+            # Try to parse as version specifier
+            SpecifierSet(version_spec)
+            # If it's a valid specifier set, find the latest compatible version
+            latest_compatible = dataset.latest_compatible_version(version_spec)
+            if not latest_compatible:
                 raise DatasetVersionNotFoundError(
-                    f"Dataset {name} does not have version {version}"
+                    f"No dataset {name} version matching specifier {version_spec}"
                 )
-            version = latest_major
-        except ValueError:
-            # version is in new semver string format, continuing as normal
+            version = latest_compatible
+        except InvalidSpecifier:
+            # If not a valid specifier, treat as exact version string
+            # This handles cases like "1.2.3" which are exact versions, not specifiers
             pass
     if settings:
@@ -170,11 +189,8 @@ def read_dataset(
         namespace_name=namespace_name,
         version=version,  #  type: ignore[arg-type]
         session=session,
-        indexing_column_types=File._datachain_column_types,
-        fallback_to_studio=fallback_to_studio,
     )
-    telemetry.send_event_once("class", "datachain_init", name=name, version=version)
     signals_schema = SignalSchema({"sys": Sys})
     if query.feature_schema:
         signals_schema |= SignalSchema.deserialize(query.feature_schema)
@@ -320,11 +336,11 @@ def delete_dataset(
     session = Session.get(session, in_memory=in_memory)
     catalog = session.catalog
-    namespace_name, project_name, name = parse_dataset_name(name)
-    namespace_name = (
-        namespace_name or namespace or catalog.metastore.default_namespace_name
+    namespace_name, project_name, name = catalog.get_full_dataset_name(
+        name,
+        project_name=project,
+        namespace_name=namespace,
     )
-    project_name = project_name or project or catalog.metastore.default_project_name
     if not catalog.metastore.is_local_dataset(namespace_name) and studio:
         return remove_studio_dataset(

datachain/lib/dc/listings.py CHANGED Viewed

@@ -127,12 +127,8 @@ def read_listing_dataset(
     if version is None:
         version = dataset.latest_version
-    query = DatasetQuery(
-        name=name,
-        session=session,
-        indexing_column_types=File._datachain_column_types,
-        fallback_to_studio=False,
-    )
+    query = DatasetQuery(name=name, session=session)
     if settings:
         cfg = {**settings}
         if "prefetch" not in cfg:

datachain/lib/dc/records.py CHANGED Viewed

@@ -97,4 +97,4 @@ def read_records(
     for chunk in batched(records, INSERT_BATCH_SIZE):
         warehouse.insert_rows(table, chunk)
     warehouse.insert_rows_done(table)
-    return read_dataset(name=dsr.name, session=session, settings=settings)
+    return read_dataset(name=dsr.full_name, session=session, settings=settings)

datachain/lib/projects.py CHANGED Viewed

@@ -54,7 +54,7 @@ def get(name: str, namespace: str, session: Optional[Session]) -> Project:
         ```py
         import datachain as dc
         from datachain.lib.projects import get as get_project
-        project  = get_project("my-project", "local")
+        project = get_project("my-project", "local")
         ```
     """
     return Session.get(session).catalog.metastore.get_project(name, namespace)

datachain/lib/signal_schema.py CHANGED Viewed

@@ -25,6 +25,7 @@ from pydantic import BaseModel, Field, create_model
 from sqlalchemy import ColumnElement
 from typing_extensions import Literal as LiteralEx
+from datachain.func import literal
 from datachain.func.func import Func
 from datachain.lib.convert.python_to_sql import python_to_sql
 from datachain.lib.convert.sql_to_python import sql_to_python
@@ -659,6 +660,7 @@ class SignalSchema:
     def mutate(self, args_map: dict) -> "SignalSchema":
         new_values = self.values.copy()
+        primitives = (bool, str, int, float)
         for name, value in args_map.items():
             if isinstance(value, Column) and value.name in self.values:
@@ -679,6 +681,12 @@ class SignalSchema:
                 # adding new signal with function
                 new_values[name] = value.get_result_type(self)
                 continue
+            if isinstance(value, primitives):
+                # For primitives, store the type, not the value
+                val = literal(value)
+                val.type = python_to_sql(type(value))()
+                new_values[name] = sql_to_python(val)
+                continue
             if isinstance(value, ColumnElement):
                 # adding new signal
                 new_values[name] = sql_to_python(value)

datachain/query/dataset.py CHANGED Viewed

@@ -1099,13 +1099,9 @@ class DatasetQuery:
         namespace_name: Optional[str] = None,
         catalog: Optional["Catalog"] = None,
         session: Optional[Session] = None,
-        indexing_column_types: Optional[dict[str, Any]] = None,
         in_memory: bool = False,
-        fallback_to_studio: bool = True,
         update: bool = False,
     ) -> None:
-        from datachain.remote.studio import is_token_set
         self.session = Session.get(session, catalog=catalog, in_memory=in_memory)
         self.catalog = catalog or self.session.catalog
         self.steps: list[Step] = []
@@ -1137,18 +1133,16 @@ class DatasetQuery:
             # not setting query step yet as listing dataset might not exist at
             # this point
             self.list_ds_name = name
-        elif fallback_to_studio and is_token_set():
+        else:
             self._set_starting_step(
                 self.catalog.get_dataset_with_remote_fallback(
                     name,
                     namespace_name=namespace_name,
                     project_name=project_name,
                     version=version,
+                    pull_dataset=True,
                 )
             )
-        else:
-            project = self.catalog.metastore.get_project(project_name, namespace_name)
-            self._set_starting_step(self.catalog.get_dataset(name, project=project))
     def _set_starting_step(self, ds: "DatasetRecord") -> None:
         if not self.version:

datachain/remote/studio.py CHANGED Viewed

@@ -78,10 +78,11 @@ def _parse_dates(obj: dict, date_fields: list[str]):
 class Response(Generic[T]):
-    def __init__(self, data: T, ok: bool, message: str) -> None:
+    def __init__(self, data: T, ok: bool, message: str, status: int) -> None:
         self.data = data
         self.ok = ok
         self.message = message
+        self.status = status
     def __repr__(self):
         return (
@@ -186,7 +187,7 @@ class StudioClient:
             message = "Indexing in progress"
         else:
             message = content.get("message", "")
-        return Response(response_data, ok, message)
+        return Response(response_data, ok, message, response.status_code)
     @retry_with_backoff(retries=3, errors=(HTTPError, Timeout))
     def _send_request(
@@ -236,7 +237,7 @@ class StudioClient:
         else:
             message = ""
-        return Response(data, ok, message)
+        return Response(data, ok, message, response.status_code)
     @staticmethod
     def _unpacker_hook(code, data):

{datachain-0.22.0.dist-info → datachain-0.24.0.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: datachain
-Version: 0.22.0
+Version: 0.24.0
 Summary: Wrangle unstructured AI data at scale
 Author-email: Dmitry Petrov <support@dvc.org>
 License-Expression: Apache-2.0

{datachain-0.22.0.dist-info → datachain-0.24.0.dist-info}/RECORD RENAMED Viewed

@@ -3,7 +3,7 @@ datachain/__main__.py,sha256=hG3Y4ARGEqe1AWwNMd259rBlqtphx1Wk39YbueQ0yV8,91
 datachain/asyn.py,sha256=RH_jFwJcTXxhEFomaI9yL6S3Onau6NZ6FSKfKFGtrJE,9689
 datachain/cache.py,sha256=ESVRaCJXEThMIfGEFVHx6wJPOZA7FYk9V6WxjyuqUBY,3626
 datachain/config.py,sha256=g8qbNV0vW2VEKpX-dGZ9pAn0DAz6G2ZFcr7SAV3PoSM,4272
-datachain/dataset.py,sha256=--7UI8lZ2lVhk2mNCsHACGigQe96-jBUcbnDMebj-cE,24089
+datachain/dataset.py,sha256=wDrukmkDnYP0X8bAGY-7O1NDE3DWCFqrH8VVDpXM9Ok,25263
 datachain/delta.py,sha256=4RqLLc9dJLF8x9GG9IDgi86DwuPerZQ4HAUnNBeACw8,8446
 datachain/error.py,sha256=OWwWMkzZYJrkcoEDGhJHMf7SfKvxcsOLRF94mjPf29I,1609
 datachain/job.py,sha256=x5PB6d5sqx00hePNNkirESlOVAvnmkEM5ygUgQmAhsk,1262
@@ -21,13 +21,13 @@ datachain/studio.py,sha256=bLok-eJNFRHQScEyAyA_Fas52dmijd5r-73KudWxV4k,13337
 datachain/telemetry.py,sha256=0A4IOPPp9VlP5pyW9eBfaTK3YhHGzHl7dQudQjUAx9A,994
 datachain/utils.py,sha256=DNqOi-Ydb7InyWvD9m7_yailxz6-YGpZzh00biQaHNo,15305
 datachain/catalog/__init__.py,sha256=cMZzSz3VoUi-6qXSVaHYN-agxQuAcz2XSqnEPZ55crE,353
-datachain/catalog/catalog.py,sha256=43Yp1xQnwrozl2_VhVWQDFHxYPunXP95v7n1PoGc6mw,63546
+datachain/catalog/catalog.py,sha256=z4GbRMHeW0YA20Sjh7QuPy1Rj4RkX547WN9Pp5wAD6o,65277
 datachain/catalog/datasource.py,sha256=IkGMh0Ttg6Q-9DWfU_H05WUnZepbGa28HYleECi6K7I,1353
 datachain/catalog/loader.py,sha256=UXjYD6BNRoupPvkiz3-b04jepXhtLHCA4gzKFnXxOtQ,5987
 datachain/cli/__init__.py,sha256=WvBqnwjG8Wp9xGCn-4eqfoZ3n7Sj1HJemCi4MayJh_c,8221
 datachain/cli/utils.py,sha256=wrLnAh7Wx8O_ojZE8AE4Lxn5WoxHbOj7as8NWlLAA74,3036
 datachain/cli/commands/__init__.py,sha256=zp3bYIioO60x_X04A4-IpZqSYVnpwOa1AdERQaRlIhI,493
-datachain/cli/commands/datasets.py,sha256=Bva9gTi1HMvvCQPFUPxLYrHQduDlJDWV8EN6IcJcC3Y,6949
+datachain/cli/commands/datasets.py,sha256=LfOe22O9OCEDI8K2cy05Gp4_Q-GFHOHRv4bXQ-USM4s,6472
 datachain/cli/commands/du.py,sha256=9edEzDEs98K2VYk8Wf-ZMpUzALcgm9uD6YtoqbvtUGU,391
 datachain/cli/commands/index.py,sha256=eglNaIe1yyIadUHHumjtNbgIjht6kme7SS7xE3YHR88,198
 datachain/cli/commands/ls.py,sha256=CBmk838Q-EQp04lE2Qdnpsc1GXAkC4-I-b-a_828n1E,5272
@@ -49,10 +49,10 @@ datachain/client/s3.py,sha256=6DNVGLg-woPS1DVlYVX2rIlunNblsuxyOnI1rSzhW3k,7515
 datachain/data_storage/__init__.py,sha256=9Wit-oe5P46V7CJQTD0BJ5MhOa2Y9h3ddJ4VWTe-Lec,273
 datachain/data_storage/db_engine.py,sha256=n8ojCbvVMPY2e3SG8fUaaD0b9GkVfpl_Naa_6EiHfWg,3788
 datachain/data_storage/job.py,sha256=9r0OGwh22bHNIvLHqg8_-eJSP1YYB-BN5HOla5TdCxw,402
-datachain/data_storage/metastore.py,sha256=YhkHEHvE--jKoOpCS5LkcLDMekfCX76VwubbXPoAiic,52317
+datachain/data_storage/metastore.py,sha256=9mWYOKK3AoHeKPGFm-WBfPrmnYHhwYeXx5MOueKTe7I,52657
 datachain/data_storage/schema.py,sha256=o3JbURKXRg3IJyIVA4QjHHkn6byRuz7avbydU2FlvNY,9897
 datachain/data_storage/serializer.py,sha256=6G2YtOFqqDzJf1KbvZraKGXl2XHZyVml2krunWUum5o,927
-datachain/data_storage/sqlite.py,sha256=bGb4_kEFvnGf3ZWekiv8z3VMZBzQyO0bSaNB5RrpUUs,29991
+datachain/data_storage/sqlite.py,sha256=tT_soVi6l_pFSKaDktA1t4qW_vmPvXnvYSf4TZTKZYk,30067
 datachain/data_storage/warehouse.py,sha256=_7btARw-kd-Nx19S0qW6JqdF3VYyypQXFzsXq68SWKI,32327
 datachain/diff/__init__.py,sha256=-OFZzgOplqO84iWgGY7kfe60NXaWR9JRIh9T-uJboAM,9668
 datachain/fs/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
@@ -82,10 +82,10 @@ datachain/lib/listing_info.py,sha256=9ua40Hw0aiQByUw3oAEeNzMavJYfW0Uhe8YdCTK-m_g
 datachain/lib/meta_formats.py,sha256=zdyg6XLk3QIsSk3I7s0Ez5kaCJSlE3uq7JiGxf7UwtU,6348
 datachain/lib/model_store.py,sha256=DNIv8Y6Jtk1_idNLzIpsThOsdW2BMAudyUCbPUcgcxk,2515
 datachain/lib/namespaces.py,sha256=it52UbbwB8dzhesO2pMs_nThXiPQ1Ph9sD9I3GQkg5s,2099
-datachain/lib/projects.py,sha256=C-HTzTLUbIB735_iBSV6MjWnntV6gaKCEIkMSR1YEQw,2596
+datachain/lib/projects.py,sha256=8lN0qV8czX1LGtWURCUvRlSJk-RpO9w9Rra_pOZus6g,2595
 datachain/lib/pytorch.py,sha256=oBBd6cxYrcwaFz7IQajKqhGqDdNnwUZWs0wJPRizrjk,7712
 datachain/lib/settings.py,sha256=9wi0FoHxRxNiyn99pR28IYsMkoo47jQxeXuObQr2Ar0,2929
-datachain/lib/signal_schema.py,sha256=Zhg8qThFDf9eoNWFH6KGeYB-sIGys7A_ybq2CUBG7Dg,36127
+datachain/lib/signal_schema.py,sha256=dVEqqrQQ_BS3yzU_49-Gari7IjVyMl1UT8h1WIsZabs,36489
 datachain/lib/tar.py,sha256=MLcVjzIgBqRuJacCNpZ6kwSZNq1i2tLyROc8PVprHsA,999
 datachain/lib/text.py,sha256=UNHm8fhidk7wdrWqacEWaA6I9ykfYqarQ2URby7jc7M,1261
 datachain/lib/udf.py,sha256=3uITkhO8IZnX49aePheObzd5ORYi2DIDYZVMQlBAJ-s,16687
@@ -103,14 +103,14 @@ datachain/lib/convert/values_to_tuples.py,sha256=j5yZMrVUH6W7b-7yUvdCTGI7JCUAYUO
 datachain/lib/dc/__init__.py,sha256=HD0NYrdy44u6kkpvgGjJcvGz-UGTHui2azghcT8ZUg0,838
 datachain/lib/dc/csv.py,sha256=q6a9BpapGwP6nwy6c5cklxQumep2fUp9l2LAjtTJr6s,4411
 datachain/lib/dc/database.py,sha256=g5M6NjYR1T0vKte-abV-3Ejnm-HqxTIMir5cRi_SziE,6051
-datachain/lib/dc/datachain.py,sha256=B6z8e33ZAUKbJ-cqQko-VJEtmia2bfUnuqH7BQQVt_A,85998
-datachain/lib/dc/datasets.py,sha256=xiVNe7PosuIsyACFhly9qNxGmRQy1J2TQw3AD6uj9UM,12747
+datachain/lib/dc/datachain.py,sha256=dFI7JX5-41HLgA-TUR99dtR1lvk2vokaMC3mbIW1XT4,85814
+datachain/lib/dc/datasets.py,sha256=U4xqAfs6FdW8HIJjeayQaIg1dunaIsVXYGqfq_sDSv0,13274
 datachain/lib/dc/hf.py,sha256=PJl2wiLjdRsMz0SYbLT-6H8b-D5i2WjeH7li8HHOk_0,2145
 datachain/lib/dc/json.py,sha256=dNijfJ-H92vU3soyR7X1IiDrWhm6yZIGG3bSnZkPdAE,2733
-datachain/lib/dc/listings.py,sha256=eVBUP25W81dv46DLqkv8K0X7N3nxhoZm77gFrByeT_E,4660
+datachain/lib/dc/listings.py,sha256=V379Cb-7ZyquM0w7sWArQZkzInZy4GB7QQ1ZfowKzQY,4544
 datachain/lib/dc/pandas.py,sha256=ObueUXDUFKJGu380GmazdG02ARpKAHPhSaymfmOH13E,1489
 datachain/lib/dc/parquet.py,sha256=zYcSgrWwyEDW9UxGUSVdIVsCu15IGEf0xL8KfWQqK94,1782
-datachain/lib/dc/records.py,sha256=AMtfWc7K6mtbW2OiaeIm3SjHTxDGnSgCEQW5u984Qh0,3111
+datachain/lib/dc/records.py,sha256=FpPbApWopUri1gIaSMsfXN4fevja4mjmfb6Q5eiaGxI,3116
 datachain/lib/dc/storage.py,sha256=8xiV3c6k-sG14RGwNJCp0AbV6L0mNDsTVZ-Est-ccnw,7672
 datachain/lib/dc/utils.py,sha256=VawOAlJSvAtZbsMg33s5tJe21TRx1Km3QggI1nN6tnw,3984
 datachain/lib/dc/values.py,sha256=7l1n352xWrEdql2NhBcZ3hj8xyPglWiY4qHjFPjn6iw,1428
@@ -125,7 +125,7 @@ datachain/model/ultralytics/pose.py,sha256=pBlmt63Qe68FKmexHimUGlNbNOoOlMHXG4fzX
 datachain/model/ultralytics/segment.py,sha256=63bDCj43E6iZ0hFI5J6uQfksdCmjEp6sEm1XzVaE8pw,2986
 datachain/query/__init__.py,sha256=7DhEIjAA8uZJfejruAVMZVcGFmvUpffuZJwgRqNwe-c,263
 datachain/query/batch.py,sha256=-goxLpE0EUvaDHu66rstj53UnfHpYfBUGux8GSpJ93k,4306
-datachain/query/dataset.py,sha256=SjFUh77rBTpgBZG4cfMJiJ2DhiCubGVk2cG1RYX4oyA,61571
+datachain/query/dataset.py,sha256=C60VM0pScsrWcMqLNdX-tU0HE1SnEE9lRN3TU8CfTu4,61223
 datachain/query/dispatch.py,sha256=A0nPxn6mEN5d9dDo6S8m16Ji_9IvJLXrgF2kqXdi4fs,15546
 datachain/query/metrics.py,sha256=DOK5HdNVaRugYPjl8qnBONvTkwjMloLqAr7Mi3TjCO0,858
 datachain/query/params.py,sha256=O_j89mjYRLOwWNhYZl-z7mi-rkdP7WyFmaDufsdTryE,863
@@ -135,7 +135,7 @@ datachain/query/session.py,sha256=gKblltJAVQAVSTswAgWGDgGbpmFlFzFVkIQojDCjgXM,68
 datachain/query/udf.py,sha256=e753bDJzTNjGFQn1WGTvOAWSwjDbrFI1-_DDWkWN2ls,1343
 datachain/query/utils.py,sha256=HaSDNH_XGvp_NIcXjcB7j4vJRPi4_tbztDWclYelHY4,1208
 datachain/remote/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-datachain/remote/studio.py,sha256=aSAh7CCHrTp7U-642jHFkwY0Fer4YRAHVVpWomab3zY,15110
+datachain/remote/studio.py,sha256=oJp2KD9eO8zQDnPfNpAALZYsOlBfqVKKRTeCkEpcsYk,15196
 datachain/sql/__init__.py,sha256=6SQRdbljO3d2hx3EAVXEZrHQKv5jth0Jh98PogT59No,262
 datachain/sql/selectable.py,sha256=cTc60qVoAwqqss0Vop8Lt5Z-ROnM1XrQmL_GLjRxhXs,1765
 datachain/sql/types.py,sha256=ASSPkmM5EzdRindqj2O7WHLXq8VHAgFYedG8lYfGvVI,14045
@@ -157,9 +157,9 @@ datachain/sql/sqlite/vector.py,sha256=ncW4eu2FlJhrP_CIpsvtkUabZlQdl2D5Lgwy_cbfqR
 datachain/toolkit/__init__.py,sha256=eQ58Q5Yf_Fgv1ZG0IO5dpB4jmP90rk8YxUWmPc1M2Bo,68
 datachain/toolkit/split.py,sha256=ktGWzY4kyzjWyR86dhvzw-Zhl0lVk_LOX3NciTac6qo,2914
 datachain/torch/__init__.py,sha256=gIS74PoEPy4TB3X6vx9nLO0Y3sLJzsA8ckn8pRWihJM,579
-datachain-0.22.0.dist-info/licenses/LICENSE,sha256=8DnqK5yoPI_E50bEg_zsHKZHY2HqPy4rYN338BHQaRA,11344
-datachain-0.22.0.dist-info/METADATA,sha256=xfdXuYjS-y5_IokpYEC7ZlmB6Wx1ouF7bh6K-TAacJI,13281
-datachain-0.22.0.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-datachain-0.22.0.dist-info/entry_points.txt,sha256=0GMJS6B_KWq0m3VT98vQI2YZodAMkn4uReZ_okga9R4,49
-datachain-0.22.0.dist-info/top_level.txt,sha256=lZPpdU_2jJABLNIg2kvEOBi8PtsYikbN1OdMLHk8bTg,10
-datachain-0.22.0.dist-info/RECORD,,
+datachain-0.24.0.dist-info/licenses/LICENSE,sha256=8DnqK5yoPI_E50bEg_zsHKZHY2HqPy4rYN338BHQaRA,11344
+datachain-0.24.0.dist-info/METADATA,sha256=QWSVON3r5d5d18gRMs9G5DNV4z-kBBY47dMYUEFR0b0,13281
+datachain-0.24.0.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+datachain-0.24.0.dist-info/entry_points.txt,sha256=0GMJS6B_KWq0m3VT98vQI2YZodAMkn4uReZ_okga9R4,49
+datachain-0.24.0.dist-info/top_level.txt,sha256=lZPpdU_2jJABLNIg2kvEOBi8PtsYikbN1OdMLHk8bTg,10
+datachain-0.24.0.dist-info/RECORD,,

{datachain-0.22.0.dist-info → datachain-0.24.0.dist-info}/WHEEL RENAMED Viewed

File without changes

{datachain-0.22.0.dist-info → datachain-0.24.0.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{datachain-0.22.0.dist-info → datachain-0.24.0.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{datachain-0.22.0.dist-info → datachain-0.24.0.dist-info}/top_level.txt RENAMED Viewed

File without changes

datachain 0.22.0__py3-none-any.whl → 0.24.0__py3-none-any.whl

Potentially problematic release.

datachain 0.22.0py3-none-any.whl → 0.24.0py3-none-any.whl