PyPI - datachain - Versions diffs - 0.30.5__py3-none-any.whl → 0.39.0__py3-none-any.whl - Mend

datachain 0.30.5py3-none-any.whl → 0.39.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (119) hide show

datachain/__init__.py +4 -0
datachain/asyn.py +11 -12
datachain/cache.py +5 -5
datachain/catalog/__init__.py +0 -2
datachain/catalog/catalog.py +276 -354
datachain/catalog/dependency.py +164 -0
datachain/catalog/loader.py +8 -3
datachain/checkpoint.py +43 -0
datachain/cli/__init__.py +10 -17
datachain/cli/commands/__init__.py +1 -8
datachain/cli/commands/datasets.py +42 -27
datachain/cli/commands/ls.py +15 -15
datachain/cli/commands/show.py +2 -2
datachain/cli/parser/__init__.py +3 -43
datachain/cli/parser/job.py +1 -1
datachain/cli/parser/utils.py +1 -2
datachain/cli/utils.py +2 -15
datachain/client/azure.py +2 -2
datachain/client/fsspec.py +34 -23
datachain/client/gcs.py +3 -3
datachain/client/http.py +157 -0
datachain/client/local.py +11 -7
datachain/client/s3.py +3 -3
datachain/config.py +4 -8
datachain/data_storage/db_engine.py +12 -6
datachain/data_storage/job.py +2 -0
datachain/data_storage/metastore.py +716 -137
datachain/data_storage/schema.py +20 -27
datachain/data_storage/serializer.py +105 -15
datachain/data_storage/sqlite.py +114 -114
datachain/data_storage/warehouse.py +140 -48
datachain/dataset.py +109 -89
datachain/delta.py +117 -42
datachain/diff/__init__.py +25 -33
datachain/error.py +24 -0
datachain/func/aggregate.py +9 -11
datachain/func/array.py +12 -12
datachain/func/base.py +7 -4
datachain/func/conditional.py +9 -13
datachain/func/func.py +63 -45
datachain/func/numeric.py +5 -7
datachain/func/string.py +2 -2
datachain/hash_utils.py +123 -0
datachain/job.py +11 -7
datachain/json.py +138 -0
datachain/lib/arrow.py +18 -15
datachain/lib/audio.py +60 -59
datachain/lib/clip.py +14 -13
datachain/lib/convert/python_to_sql.py +6 -10
datachain/lib/convert/values_to_tuples.py +151 -53
datachain/lib/data_model.py +23 -19
datachain/lib/dataset_info.py +7 -7
datachain/lib/dc/__init__.py +2 -1
datachain/lib/dc/csv.py +22 -26
datachain/lib/dc/database.py +37 -34
datachain/lib/dc/datachain.py +518 -324
datachain/lib/dc/datasets.py +38 -30
datachain/lib/dc/hf.py +16 -20
datachain/lib/dc/json.py +17 -18
datachain/lib/dc/listings.py +5 -8
datachain/lib/dc/pandas.py +3 -6
datachain/lib/dc/parquet.py +33 -21
datachain/lib/dc/records.py +9 -13
datachain/lib/dc/storage.py +103 -65
datachain/lib/dc/storage_pattern.py +251 -0
datachain/lib/dc/utils.py +17 -14
datachain/lib/dc/values.py +3 -6
datachain/lib/file.py +187 -50
datachain/lib/hf.py +7 -5
datachain/lib/image.py +13 -13
datachain/lib/listing.py +5 -5
datachain/lib/listing_info.py +1 -2
datachain/lib/meta_formats.py +2 -3
datachain/lib/model_store.py +20 -8
datachain/lib/namespaces.py +59 -7
datachain/lib/projects.py +51 -9
datachain/lib/pytorch.py +31 -23
datachain/lib/settings.py +188 -85
datachain/lib/signal_schema.py +302 -64
datachain/lib/text.py +8 -7
datachain/lib/udf.py +103 -63
datachain/lib/udf_signature.py +59 -34
datachain/lib/utils.py +20 -0
datachain/lib/video.py +3 -4
datachain/lib/webdataset.py +31 -36
datachain/lib/webdataset_laion.py +15 -16
datachain/listing.py +12 -5
datachain/model/bbox.py +3 -1
datachain/namespace.py +22 -3
datachain/node.py +6 -6
datachain/nodes_thread_pool.py +0 -1
datachain/plugins.py +24 -0
datachain/project.py +4 -4
datachain/query/batch.py +10 -12
datachain/query/dataset.py +376 -194
datachain/query/dispatch.py +112 -84
datachain/query/metrics.py +3 -4
datachain/query/params.py +2 -3
datachain/query/queue.py +2 -1
datachain/query/schema.py +7 -6
datachain/query/session.py +190 -33
datachain/query/udf.py +9 -6
datachain/remote/studio.py +90 -53
datachain/script_meta.py +12 -12
datachain/sql/sqlite/base.py +37 -25
datachain/sql/sqlite/types.py +1 -1
datachain/sql/types.py +36 -5
datachain/studio.py +49 -40
datachain/toolkit/split.py +31 -10
datachain/utils.py +39 -48
{datachain-0.30.5.dist-info → datachain-0.39.0.dist-info}/METADATA +26 -38
datachain-0.39.0.dist-info/RECORD +173 -0
datachain/cli/commands/query.py +0 -54
datachain/query/utils.py +0 -36
datachain-0.30.5.dist-info/RECORD +0 -168
{datachain-0.30.5.dist-info → datachain-0.39.0.dist-info}/WHEEL +0 -0
{datachain-0.30.5.dist-info → datachain-0.39.0.dist-info}/entry_points.txt +0 -0
{datachain-0.30.5.dist-info → datachain-0.39.0.dist-info}/licenses/LICENSE +0 -0
{datachain-0.30.5.dist-info → datachain-0.39.0.dist-info}/top_level.txt +0 -0

datachain/dataset.py CHANGED Viewed

@@ -1,21 +1,14 @@
 import builtins
-import json
 from dataclasses import dataclass, fields
 from datetime import datetime
 from functools import cached_property
-from typing import (
-    Any,
-    NewType,
-    Optional,
-    TypeVar,
-    Union,
-)
+from typing import Any, NewType, TypeVar
 from urllib.parse import urlparse
 from packaging.specifiers import SpecifierSet
 from packaging.version import Version
-from datachain import semver
+from datachain import json, semver
 from datachain.error import DatasetVersionNotFoundError, InvalidDatasetNameError
 from datachain.namespace import Namespace
 from datachain.project import Project
@@ -43,7 +36,7 @@ DATASET_NAME_REPLACEMENT_CHAR = "_"
 StorageURI = NewType("StorageURI", str)
-def parse_dataset_uri(uri: str) -> tuple[str, Optional[str]]:
+def parse_dataset_uri(uri: str) -> tuple[str, str | None]:
     """
     Parse dataser uri to extract name and version out of it (if version is defined)
     Example:
@@ -65,7 +58,7 @@ def parse_dataset_uri(uri: str) -> tuple[str, Optional[str]]:
 def create_dataset_uri(
-    name: str, namespace: str, project: str, version: Optional[str] = None
+    name: str, namespace: str, project: str, version: str | None = None
 ) -> str:
     """
     Creates a dataset uri based on namespace, project, dataset name and optionally
@@ -81,7 +74,7 @@ def create_dataset_uri(
     return uri
-def parse_dataset_name(name: str) -> tuple[Optional[str], Optional[str], str]:
+def parse_dataset_name(name: str) -> tuple[str | None, str | None, str]:
     """Parses dataset name and returns namespace, project and name"""
     if not name:
         raise InvalidDatasetNameError("Name must be defined to parse it")
@@ -95,6 +88,40 @@ def parse_dataset_name(name: str) -> tuple[Optional[str], Optional[str], str]:
     return namespace_name, project_name, name
+def parse_schema(ct: dict[str, Any]) -> dict[str, SQLType | type[SQLType]]:
+    """Parse dataset schema from dictionary representation.
+    Args:
+        ct: Dictionary with column definitions
+    Returns:
+        Dictionary mapping column names to SQL types
+    Raises:
+        TypeError: If schema format is invalid
+        ValueError: If column type is not defined or not supported
+    """
+    if not isinstance(ct, dict):
+        raise TypeError("Schema definition must be a dictionary")
+    res = {}
+    for c_name, c_type in ct.items():
+        if not isinstance(c_type, dict):
+            raise TypeError(f"Schema column '{c_name}' type must be a dictionary")
+        if "type" not in c_type:
+            raise ValueError(f"Schema column '{c_name}' type is not defined")
+        if c_type["type"] not in NAME_TYPES_MAPPING:
+            raise ValueError(
+                f"Schema column '{c_name}' type '{c_type['type']}' is not supported"
+            )
+        try:
+            res[c_name] = NAME_TYPES_MAPPING[c_type["type"]].from_dict(c_type)  # type: ignore [attr-defined]
+        except Exception as e:
+            raise ValueError(
+                f"Schema column '{c_name}' type '{c_type['type']}' parsing error: {e}"
+            ) from e
+    return res
 class DatasetDependencyType:
     DATASET = "dataset"
     STORAGE = "storage"
@@ -111,7 +138,7 @@ class DatasetDependency:
     name: str
     version: str
     created_at: datetime
-    dependencies: list[Optional["DatasetDependency"]]
+    dependencies: list["DatasetDependency | None"]
     @property
     def dataset_name(self) -> str:
@@ -131,12 +158,12 @@ class DatasetDependency:
         namespace_name: str,
         project_name: str,
         id: int,
-        dataset_id: Optional[int],
-        dataset_version_id: Optional[int],
-        dataset_name: Optional[str],
-        dataset_version: Optional[str],
-        dataset_version_created_at: Optional[datetime],
-    ) -> Optional["DatasetDependency"]:
+        dataset_id: int | None,
+        dataset_version_id: int | None,
+        dataset_name: str | None,
+        dataset_version: str | None,
+        dataset_version_created_at: datetime | None,
+    ) -> "DatasetDependency | None":
         from datachain.lib.listing import is_listing_dataset
         if not dataset_id:
@@ -198,17 +225,17 @@ class DatasetVersion:
     status: int
     feature_schema: dict
     created_at: datetime
-    finished_at: Optional[datetime]
+    finished_at: datetime | None
     error_message: str
     error_stack: str
     script_output: str
-    schema: dict[str, Union[SQLType, type[SQLType]]]
-    num_objects: Optional[int]
-    size: Optional[int]
-    _preview_data: Optional[Union[str, list[dict]]]
+    schema: dict[str, SQLType | type[SQLType]]
+    num_objects: int | None
+    size: int | None
+    _preview_data: str | list[dict] | None
     sources: str = ""
     query_script: str = ""
-    job_id: Optional[str] = None
+    job_id: str | None = None
     @classmethod
     def parse(  # noqa: PLR0913
@@ -218,20 +245,25 @@ class DatasetVersion:
         dataset_id: int,
         version: str,
         status: int,
-        feature_schema: Optional[str],
+        feature_schema: str | None,
         created_at: datetime,
-        finished_at: Optional[datetime],
+        finished_at: datetime | None,
         error_message: str,
         error_stack: str,
         script_output: str,
-        num_objects: Optional[int],
-        size: Optional[int],
-        preview: Optional[Union[str, list[dict]]],
-        schema: dict[str, Union[SQLType, type[SQLType]]],
+        num_objects: int | None,
+        size: int | None,
+        preview: str | list[dict] | None,
+        schema: str | dict[str, SQLType | type[SQLType]],
         sources: str = "",
         query_script: str = "",
-        job_id: Optional[str] = None,
+        job_id: str | None = None,
     ):
+        if isinstance(schema, str):
+            schema_parsed = parse_schema(json.loads(schema) if schema else {})
+        else:
+            schema_parsed = schema
         return cls(
             id,
             uuid,
@@ -244,7 +276,7 @@ class DatasetVersion:
             error_message,
             error_stack,
             script_output,
-            schema,
+            schema_parsed,
             num_objects,
             size,
             preview,
@@ -292,7 +324,7 @@ class DatasetVersion:
         }
     @cached_property
-    def preview(self) -> Optional[list[dict]]:
+    def preview(self) -> list[dict] | None:
         if isinstance(self._preview_data, str):
             return json.loads(self._preview_data)
         return self._preview_data if self._preview_data else None
@@ -313,13 +345,13 @@ class DatasetListVersion:
     version: str
     status: int
     created_at: datetime
-    finished_at: Optional[datetime]
+    finished_at: datetime | None
     error_message: str
     error_stack: str
-    num_objects: Optional[int]
-    size: Optional[int]
+    num_objects: int | None
+    size: int | None
     query_script: str = ""
-    job_id: Optional[str] = None
+    job_id: str | None = None
     @classmethod
     def parse(
@@ -330,13 +362,13 @@ class DatasetListVersion:
         version: str,
         status: int,
         created_at: datetime,
-        finished_at: Optional[datetime],
+        finished_at: datetime | None,
         error_message: str,
         error_stack: str,
-        num_objects: Optional[int],
-        size: Optional[int],
+        num_objects: int | None,
+        size: int | None,
         query_script: str = "",
-        job_id: Optional[str] = None,
+        job_id: str | None = None,
         **kwargs,
     ):
         return cls(
@@ -368,14 +400,14 @@ class DatasetRecord:
     id: int
     name: str
     project: Project
-    description: Optional[str]
+    description: str | None
     attrs: list[str]
-    schema: dict[str, Union[SQLType, type[SQLType]]]
+    schema: dict[str, SQLType | type[SQLType]]
     feature_schema: dict
     versions: list[DatasetVersion]
     status: int = DatasetStatus.CREATED
-    created_at: Optional[datetime] = None
-    finished_at: Optional[datetime] = None
+    created_at: datetime | None = None
+    finished_at: datetime | None = None
     error_message: str = ""
     error_stack: str = ""
     script_output: str = ""
@@ -385,15 +417,6 @@ class DatasetRecord:
     def __hash__(self):
         return hash(f"{self.id}")
-    @staticmethod
-    def parse_schema(
-        ct: dict[str, Any],
-    ) -> dict[str, Union[SQLType, type[SQLType]]]:
-        return {
-            c_name: NAME_TYPES_MAPPING[c_type["type"]].from_dict(c_type)  # type: ignore [attr-defined]
-            for c_name, c_type in ct.items()
-        }
     @staticmethod
     def validate_name(name: str) -> None:
         """Throws exception if name has reserved characters"""
@@ -409,23 +432,23 @@ class DatasetRecord:
         namespace_id: int,
         namespace_uuid: str,
         namespace_name: str,
-        namespace_description: Optional[str],
+        namespace_description: str | None,
         namespace_created_at: datetime,
         project_id: int,
         project_uuid: str,
         project_name: str,
-        project_description: Optional[str],
+        project_description: str | None,
         project_created_at: datetime,
         project_namespace_id: int,
         dataset_id: int,
         dataset_project_id: int,
         name: str,
-        description: Optional[str],
+        description: str | None,
         attrs: str,
         status: int,
-        feature_schema: Optional[str],
+        feature_schema: str | None,
         created_at: datetime,
-        finished_at: Optional[datetime],
+        finished_at: datetime | None,
         error_message: str,
         error_stack: str,
         script_output: str,
@@ -437,25 +460,22 @@ class DatasetRecord:
         version_dataset_id: int,
         version: str,
         version_status: int,
-        version_feature_schema: Optional[str],
+        version_feature_schema: str | None,
         version_created_at: datetime,
-        version_finished_at: Optional[datetime],
+        version_finished_at: datetime | None,
         version_error_message: str,
         version_error_stack: str,
         version_script_output: str,
-        version_num_objects: Optional[int],
-        version_size: Optional[int],
-        version_preview: Optional[str],
-        version_sources: Optional[str],
-        version_query_script: Optional[str],
+        version_num_objects: int | None,
+        version_size: int | None,
+        version_preview: str | None,
+        version_sources: str | None,
+        version_query_script: str | None,
         version_schema: str,
-        version_job_id: Optional[str] = None,
+        version_job_id: str | None = None,
     ) -> "DatasetRecord":
         attrs_lst: list[str] = json.loads(attrs) if attrs else []
         schema_dct: dict[str, Any] = json.loads(schema) if schema else {}
-        version_schema_dct: dict[str, str] = (
-            json.loads(version_schema) if version_schema else {}
-        )
         namespace = Namespace(
             namespace_id,
@@ -489,7 +509,7 @@ class DatasetRecord:
             version_num_objects,
             version_size,
             version_preview,
-            cls.parse_schema(version_schema_dct),  # type: ignore[arg-type]
+            version_schema,
             version_sources,  # type: ignore[arg-type]
             version_query_script,  # type: ignore[arg-type]
             version_job_id,
@@ -501,7 +521,7 @@ class DatasetRecord:
             project,
             description,
             attrs_lst,
-            cls.parse_schema(schema_dct),  # type: ignore[arg-type]
+            parse_schema(schema_dct),  # type: ignore[arg-type]
             json.loads(feature_schema) if feature_schema else {},
             [dataset_version],
             status,
@@ -527,7 +547,7 @@ class DatasetRecord:
     def full_name(self) -> str:
         return f"{self.project.namespace.name}.{self.project.name}.{self.name}"
-    def get_schema(self, version: str) -> dict[str, Union[SQLType, type[SQLType]]]:
+    def get_schema(self, version: str) -> dict[str, SQLType | type[SQLType]]:
         return self.get_version(version).schema if version else self.schema
     def update(self, **kwargs):
@@ -619,7 +639,7 @@ class DatasetRecord:
         if not self.versions:
             return "1.0.0"
-        major, minor, patch = semver.parse(self.latest_version)
+        major, _, _ = semver.parse(self.latest_version)
         return semver.create(major + 1, 0, 0)
     @property
@@ -630,7 +650,7 @@ class DatasetRecord:
         if not self.versions:
             return "1.0.0"
-        major, minor, patch = semver.parse(self.latest_version)
+        major, minor, _ = semver.parse(self.latest_version)
         return semver.create(major, minor + 1, 0)
     @property
@@ -649,7 +669,7 @@ class DatasetRecord:
         """Returns latest version of a dataset"""
         return max(self.versions).version
-    def latest_major_version(self, major: int) -> Optional[str]:
+    def latest_major_version(self, major: int) -> str | None:
         """
         Returns latest specific major version, e.g if dataset has versions:
             - 1.4.1
@@ -664,7 +684,7 @@ class DatasetRecord:
             return None
         return max(versions).version
-    def latest_compatible_version(self, version_spec: str) -> Optional[str]:
+    def latest_compatible_version(self, version_spec: str) -> str | None:
         """
         Returns the latest version that matches the given version specifier.
@@ -711,10 +731,10 @@ class DatasetListRecord:
     id: int
     name: str
     project: Project
-    description: Optional[str]
+    description: str | None
     attrs: list[str]
     versions: list[DatasetListVersion]
-    created_at: Optional[datetime] = None
+    created_at: datetime | None = None
     @classmethod
     def parse(  # noqa: PLR0913
@@ -722,17 +742,17 @@ class DatasetListRecord:
         namespace_id: int,
         namespace_uuid: str,
         namespace_name: str,
-        namespace_description: Optional[str],
+        namespace_description: str | None,
         namespace_created_at: datetime,
         project_id: int,
         project_uuid: str,
         project_name: str,
-        project_description: Optional[str],
+        project_description: str | None,
         project_created_at: datetime,
         project_namespace_id: int,
         dataset_id: int,
         name: str,
-        description: Optional[str],
+        description: str | None,
         attrs: str,
         created_at: datetime,
         version_id: int,
@@ -741,13 +761,13 @@ class DatasetListRecord:
         version: str,
         version_status: int,
         version_created_at: datetime,
-        version_finished_at: Optional[datetime],
+        version_finished_at: datetime | None,
         version_error_message: str,
         version_error_stack: str,
-        version_num_objects: Optional[int],
-        version_size: Optional[int],
-        version_query_script: Optional[str],
-        version_job_id: Optional[str] = None,
+        version_num_objects: int | None,
+        version_size: int | None,
+        version_query_script: str | None,
+        version_job_id: str | None = None,
     ) -> "DatasetListRecord":
         attrs_lst: list[str] = json.loads(attrs) if attrs else []
@@ -824,7 +844,7 @@ class DatasetListRecord:
         from datachain.client import Client
         # TODO refactor and maybe remove method in
-        # https://github.com/iterative/datachain/issues/318
+        # https://github.com/datachain-ai/datachain/issues/318
         return Client.is_data_source_uri(self.name) or self.name.startswith(
             LISTING_PREFIX
         )

datachain 0.30.5__py3-none-any.whl → 0.39.0__py3-none-any.whl

datachain 0.30.5py3-none-any.whl → 0.39.0py3-none-any.whl