PyPI - datachain - Versions diffs - 0.14.2__py3-none-any.whl → 0.39.0__py3-none-any.whl - Mend

datachain 0.14.2py3-none-any.whl → 0.39.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (137) hide show

datachain/__init__.py +20 -0
datachain/asyn.py +11 -12
datachain/cache.py +7 -7
datachain/catalog/__init__.py +2 -2
datachain/catalog/catalog.py +621 -507
datachain/catalog/dependency.py +164 -0
datachain/catalog/loader.py +28 -18
datachain/checkpoint.py +43 -0
datachain/cli/__init__.py +24 -33
datachain/cli/commands/__init__.py +1 -8
datachain/cli/commands/datasets.py +83 -52
datachain/cli/commands/ls.py +17 -17
datachain/cli/commands/show.py +4 -4
datachain/cli/parser/__init__.py +8 -74
datachain/cli/parser/job.py +95 -3
datachain/cli/parser/studio.py +11 -4
datachain/cli/parser/utils.py +1 -2
datachain/cli/utils.py +2 -15
datachain/client/azure.py +4 -4
datachain/client/fsspec.py +45 -28
datachain/client/gcs.py +6 -6
datachain/client/hf.py +29 -2
datachain/client/http.py +157 -0
datachain/client/local.py +15 -11
datachain/client/s3.py +17 -9
datachain/config.py +4 -8
datachain/data_storage/db_engine.py +12 -6
datachain/data_storage/job.py +5 -1
datachain/data_storage/metastore.py +1252 -186
datachain/data_storage/schema.py +58 -45
datachain/data_storage/serializer.py +105 -15
datachain/data_storage/sqlite.py +286 -127
datachain/data_storage/warehouse.py +250 -113
datachain/dataset.py +353 -148
datachain/delta.py +391 -0
datachain/diff/__init__.py +27 -29
datachain/error.py +60 -0
datachain/func/__init__.py +2 -1
datachain/func/aggregate.py +66 -42
datachain/func/array.py +242 -38
datachain/func/base.py +7 -4
datachain/func/conditional.py +110 -60
datachain/func/func.py +96 -45
datachain/func/numeric.py +55 -38
datachain/func/path.py +32 -20
datachain/func/random.py +2 -2
datachain/func/string.py +67 -37
datachain/func/window.py +7 -8
datachain/hash_utils.py +123 -0
datachain/job.py +11 -7
datachain/json.py +138 -0
datachain/lib/arrow.py +58 -22
datachain/lib/audio.py +245 -0
datachain/lib/clip.py +14 -13
datachain/lib/convert/flatten.py +5 -3
datachain/lib/convert/python_to_sql.py +6 -10
datachain/lib/convert/sql_to_python.py +8 -0
datachain/lib/convert/values_to_tuples.py +156 -51
datachain/lib/data_model.py +42 -20
datachain/lib/dataset_info.py +36 -8
datachain/lib/dc/__init__.py +8 -2
datachain/lib/dc/csv.py +25 -28
datachain/lib/dc/database.py +398 -0
datachain/lib/dc/datachain.py +1289 -425
datachain/lib/dc/datasets.py +320 -38
datachain/lib/dc/hf.py +38 -24
datachain/lib/dc/json.py +29 -32
datachain/lib/dc/listings.py +112 -8
datachain/lib/dc/pandas.py +16 -12
datachain/lib/dc/parquet.py +35 -23
datachain/lib/dc/records.py +31 -23
datachain/lib/dc/storage.py +154 -64
datachain/lib/dc/storage_pattern.py +251 -0
datachain/lib/dc/utils.py +24 -16
datachain/lib/dc/values.py +8 -9
datachain/lib/file.py +622 -89
datachain/lib/hf.py +69 -39
datachain/lib/image.py +14 -14
datachain/lib/listing.py +14 -11
datachain/lib/listing_info.py +1 -2
datachain/lib/meta_formats.py +3 -4
datachain/lib/model_store.py +39 -7
datachain/lib/namespaces.py +125 -0
datachain/lib/projects.py +130 -0
datachain/lib/pytorch.py +32 -21
datachain/lib/settings.py +192 -56
datachain/lib/signal_schema.py +427 -104
datachain/lib/tar.py +1 -2
datachain/lib/text.py +8 -7
datachain/lib/udf.py +164 -76
datachain/lib/udf_signature.py +60 -35
datachain/lib/utils.py +118 -4
datachain/lib/video.py +17 -9
datachain/lib/webdataset.py +61 -56
datachain/lib/webdataset_laion.py +15 -16
datachain/listing.py +22 -10
datachain/model/bbox.py +3 -1
datachain/model/ultralytics/bbox.py +16 -12
datachain/model/ultralytics/pose.py +16 -12
datachain/model/ultralytics/segment.py +16 -12
datachain/namespace.py +84 -0
datachain/node.py +6 -6
datachain/nodes_thread_pool.py +0 -1
datachain/plugins.py +24 -0
datachain/project.py +78 -0
datachain/query/batch.py +40 -41
datachain/query/dataset.py +604 -322
datachain/query/dispatch.py +261 -154
datachain/query/metrics.py +4 -6
datachain/query/params.py +2 -3
datachain/query/queue.py +3 -12
datachain/query/schema.py +11 -6
datachain/query/session.py +200 -33
datachain/query/udf.py +34 -2
datachain/remote/studio.py +171 -69
datachain/script_meta.py +12 -12
datachain/semver.py +68 -0
datachain/sql/__init__.py +2 -0
datachain/sql/functions/array.py +33 -1
datachain/sql/postgresql_dialect.py +9 -0
datachain/sql/postgresql_types.py +21 -0
datachain/sql/sqlite/__init__.py +5 -1
datachain/sql/sqlite/base.py +102 -29
datachain/sql/sqlite/types.py +8 -13
datachain/sql/types.py +70 -15
datachain/studio.py +223 -46
datachain/toolkit/split.py +31 -10
datachain/utils.py +101 -59
{datachain-0.14.2.dist-info → datachain-0.39.0.dist-info}/METADATA +77 -22
datachain-0.39.0.dist-info/RECORD +173 -0
{datachain-0.14.2.dist-info → datachain-0.39.0.dist-info}/WHEEL +1 -1
datachain/cli/commands/query.py +0 -53
datachain/query/utils.py +0 -42
datachain-0.14.2.dist-info/RECORD +0 -158
{datachain-0.14.2.dist-info → datachain-0.39.0.dist-info}/entry_points.txt +0 -0
{datachain-0.14.2.dist-info → datachain-0.39.0.dist-info}/licenses/LICENSE +0 -0
{datachain-0.14.2.dist-info → datachain-0.39.0.dist-info}/top_level.txt +0 -0

datachain/sql/sqlite/base.py CHANGED Viewed

@@ -2,13 +2,12 @@ import logging
 import re
 import sqlite3
 import warnings
-from collections.abc import Iterable
+from collections.abc import Callable, Iterable
+from contextlib import closing
 from datetime import MAXYEAR, MINYEAR, datetime, timezone
 from functools import cache
 from types import MappingProxyType
-from typing import Callable, Optional
-import orjson
 import sqlalchemy as sa
 from sqlalchemy.dialects import sqlite
 from sqlalchemy.ext.compiler import compiles
@@ -16,6 +15,7 @@ from sqlalchemy.sql.elements import literal
 from sqlalchemy.sql.expression import case
 from sqlalchemy.sql.functions import func
+from datachain import json
 from datachain.sql.functions import (
     aggregate,
     array,
@@ -88,6 +88,9 @@ def setup():
     compiles(sql_path.file_ext, "sqlite")(compile_path_file_ext)
     compiles(array.length, "sqlite")(compile_array_length)
     compiles(array.contains, "sqlite")(compile_array_contains)
+    compiles(array.slice, "sqlite")(compile_array_slice)
+    compiles(array.join, "sqlite")(compile_array_join)
+    compiles(array.get_element, "sqlite")(compile_array_get_element)
     compiles(string.length, "sqlite")(compile_string_length)
     compiles(string.split, "sqlite")(compile_string_split)
     compiles(string.regexp_replace, "sqlite")(compile_string_regexp_replace)
@@ -109,7 +112,10 @@ def setup():
     compiles(numeric.int_hash_64, "sqlite")(compile_int_hash_64)
     compiles(numeric.bit_hamming_distance, "sqlite")(compile_bit_hamming_distance)
-    if load_usearch_extension(sqlite3.connect(":memory:")):
+    with closing(sqlite3.connect(":memory:")) as _usearch_conn:
+        usearch_available = load_usearch_extension(_usearch_conn)
+    if usearch_available:
         compiles(array.cosine_distance, "sqlite")(compile_cosine_distance_ext)
         compiles(array.euclidean_distance, "sqlite")(compile_euclidean_distance_ext)
     else:
@@ -129,7 +135,7 @@ def run_compiler_hook(name):
 def functions_exist(
-    names: Iterable[str], connection: Optional[sqlite3.Connection] = None
+    names: Iterable[str], connection: sqlite3.Connection | None = None
 ) -> bool:
     """
     Returns True if all function names are defined for the given connection.
@@ -143,23 +149,34 @@ def functions_exist(
                 f"Found value of type {type(n).__name__}: {n!r}"
             )
+    close_connection = False
     if connection is None:
         connection = sqlite3.connect(":memory:")
+        close_connection = True
-    if not names:
-        return True
-    column1 = sa.column("column1", sa.String)
-    func_name_query = column1.not_in(
-        sa.select(sa.column("name", sa.String)).select_from(func.pragma_function_list())
-    )
-    query = (
-        sa.select(func.count() == 0)
-        .select_from(sa.values(column1).data([(n,) for n in names]))
-        .where(func_name_query)
-    )
-    comp = query.compile(dialect=sqlite_dialect)
-    args = (comp.string, comp.params) if comp.params else (comp.string,)
-    return bool(connection.execute(*args).fetchone()[0])
+    try:
+        if not names:
+            return True
+        column1 = sa.column("column1", sa.String)
+        func_name_query = column1.not_in(
+            sa.select(sa.column("name", sa.String)).select_from(
+                func.pragma_function_list()
+            )
+        )
+        query = (
+            sa.select(func.count() == 0)
+            .select_from(sa.values(column1).data([(n,) for n in names]))
+            .where(func_name_query)
+        )
+        comp = query.compile(dialect=sqlite_dialect)
+        if comp.params:
+            result = connection.execute(comp.string, comp.params)
+        else:
+            result = connection.execute(comp.string)
+        return bool(result.fetchone()[0])
+    finally:
+        if close_connection:
+            connection.close()
 def create_user_defined_sql_functions(connection):
@@ -179,7 +196,7 @@ def missing_vector_function(name, exc):
 def sqlite_string_split(string: str, sep: str, maxsplit: int = -1) -> str:
-    return orjson.dumps(string.split(sep, maxsplit)).decode("utf-8")
+    return json.dumps(string.split(sep, maxsplit), ensure_ascii=False)
 def sqlite_int_hash_64(x: int) -> int:
@@ -198,9 +215,7 @@ def sqlite_int_hash_64(x: int) -> int:
 def sqlite_bit_hamming_distance(a: int, b: int) -> int:
     """Calculate the Hamming distance between two integers."""
     diff = (a & MAX_INT64) ^ (b & MAX_INT64)
-    if hasattr(diff, "bit_count"):
-        return diff.bit_count()
-    return bin(diff).count("1")
+    return diff.bit_count()
 def sqlite_byte_hamming_distance(a: str, b: str) -> int:
@@ -212,7 +227,7 @@ def sqlite_byte_hamming_distance(a: str, b: str) -> int:
     elif len(b) < len(a):
         diff = len(a) - len(b)
         a = a[: len(b)]
-    return diff + sum(c1 != c2 for c1, c2 in zip(a, b))
+    return diff + sum(c1 != c2 for c1, c2 in zip(a, b, strict=False))
 def register_user_defined_sql_functions() -> None:
@@ -270,6 +285,22 @@ def register_user_defined_sql_functions() -> None:
     _registered_function_creators["string_functions"] = create_string_functions
+    def create_array_functions(conn):
+        conn.create_function(
+            "json_array_get_element", 2, py_json_array_get_element, deterministic=True
+        )
+        conn.create_function(
+            "json_array_slice", 2, py_json_array_slice, deterministic=True
+        )
+        conn.create_function(
+            "json_array_slice", 3, py_json_array_slice, deterministic=True
+        )
+        conn.create_function(
+            "json_array_join", 2, py_json_array_join, deterministic=True
+        )
+    _registered_function_creators["array_functions"] = create_array_functions
     has_json_extension = functions_exist(["json_array_length", "json_array_contains"])
     if not has_json_extension:
@@ -285,7 +316,11 @@ def register_user_defined_sql_functions() -> None:
 def adapt_datetime(val: datetime) -> str:
-    if not (val.tzinfo is timezone.utc or val.tzname() == "UTC"):
+    is_utc_check = val.tzinfo is timezone.utc
+    tzname_check = val.tzname() == "UTC"
+    combined_check = is_utc_check or tzname_check
+    if not combined_check:
         try:
             val = val.astimezone(timezone.utc)
         except (OverflowError, ValueError, OSError):
@@ -295,6 +330,7 @@ def adapt_datetime(val: datetime) -> str:
                 val = datetime.min.replace(tzinfo=timezone.utc)
             else:
                 raise
     return val.replace(tzinfo=None).isoformat(" ")
@@ -429,13 +465,42 @@ def compile_byte_hamming_distance(element, compiler, **kwargs):
 def py_json_array_length(arr):
-    return len(orjson.loads(arr))
+    return len(json.loads(arr))
 def py_json_array_contains(arr, value, is_json):
     if is_json:
-        value = orjson.loads(value)
-    return value in orjson.loads(arr)
+        value = json.loads(value)
+    return value in json.loads(arr)
+def py_json_array_get_element(val, idx):
+    arr = json.loads(val)
+    try:
+        return arr[idx]
+    except IndexError:
+        return None
+def py_json_array_slice(val, offset: int, length: int | None = None):
+    arr = json.loads(val)
+    try:
+        return json.dumps(
+            list(arr[offset : offset + length] if length is not None else arr[offset:]),
+            ensure_ascii=False,
+        )
+    except IndexError:
+        return None
+def py_json_array_join(val, sep: str):
+    return sep.join(json.loads(val))
+def compile_array_get_element(element, compiler, **kwargs):
+    return compiler.process(
+        func.json_array_get_element(*element.clauses.clauses), **kwargs
+    )
 def compile_array_length(element, compiler, **kwargs):
@@ -448,6 +513,14 @@ def compile_array_contains(element, compiler, **kwargs):
     )
+def compile_array_slice(element, compiler, **kwargs):
+    return compiler.process(func.json_array_slice(*element.clauses.clauses), **kwargs)
+def compile_array_join(element, compiler, **kwargs):
+    return compiler.process(func.json_array_join(*element.clauses.clauses), **kwargs)
 def compile_string_length(element, compiler, **kwargs):
     return compiler.process(func.length(*element.clauses.clauses), **kwargs)
@@ -544,7 +617,7 @@ def compile_collect(element, compiler, **kwargs):
 @cache
-def usearch_sqlite_path() -> Optional[str]:
+def usearch_sqlite_path() -> str | None:
     try:
         import usearch
     except ImportError:

datachain/sql/sqlite/types.py CHANGED Viewed

@@ -1,8 +1,8 @@
 import sqlite3
-import orjson
 from sqlalchemy import types
+from datachain import json
 from datachain.sql.types import TypeConverter, TypeReadConverter
 try:
@@ -28,26 +28,21 @@ class Array(types.UserDefinedType):
 def adapt_array(arr):
-    return orjson.dumps(arr).decode("utf-8")
+    return json.dumps(arr, ensure_ascii=False)
 def adapt_dict(dct):
-    return orjson.dumps(dct).decode("utf-8")
+    return json.dumps(dct, ensure_ascii=False)
 def convert_array(arr):
-    return orjson.loads(arr)
+    return json.loads(arr)
 def adapt_np_array(arr):
-    def _json_serialize(obj):
-        if isinstance(obj, np.ndarray):
-            return obj.tolist()
-        return obj
-    return orjson.dumps(
-        arr, option=orjson.OPT_SERIALIZE_NUMPY, default=_json_serialize
-    ).decode("utf-8")
+    # Primarily needed for UDF numpy results (e.g. WDS)
+    # tolist() gives nested Python lists + native scalars; ujson.dumps handles NaN/Inf.
+    return json.dumps(arr.tolist(), ensure_ascii=False)
 def adapt_np_generic(val):
@@ -74,5 +69,5 @@ class SQLiteTypeConverter(TypeConverter):
 class SQLiteTypeReadConverter(TypeReadConverter):
     def array(self, value, item_type, dialect):
         if isinstance(value, str):
-            value = orjson.loads(value)
+            value = json.loads(value)
         return super().array(value, item_type, dialect)

datachain/sql/types.py CHANGED Viewed

@@ -12,14 +12,15 @@ for sqlite we can use `sqlite.register_converter`
 ( https://docs.python.org/3/library/sqlite3.html#sqlite3.register_converter )
 """
+import numbers
 from datetime import datetime
 from types import MappingProxyType
 from typing import Any, Union
-import orjson
 import sqlalchemy as sa
 from sqlalchemy import TypeDecorator, types
+from datachain import json as jsonlib
 from datachain.lib.data_model import StandardType
 _registry: dict[str, "TypeConverter"] = {}
@@ -58,9 +59,14 @@ def converter(dialect) -> "TypeConverter":
     try:
         return registry[name]
     except KeyError:
-        raise ValueError(
-            f"No type converter registered for dialect: {dialect.name!r}"
-        ) from None
+        # Fall back to default converter if specific dialect not found
+        try:
+            return registry["default"]
+        except KeyError:
+            raise ValueError(
+                f"No type converter registered for dialect: {dialect.name!r} "
+                f"and no default converter available"
+            ) from None
 def read_converter(dialect) -> "TypeReadConverter":
@@ -68,9 +74,14 @@ def read_converter(dialect) -> "TypeReadConverter":
     try:
         return read_converter_registry[name]
     except KeyError:
-        raise ValueError(
-            f"No read type converter registered for dialect: {dialect.name!r}"
-        ) from None
+        # Fall back to default converter if specific dialect not found
+        try:
+            return read_converter_registry["default"]
+        except KeyError:
+            raise ValueError(
+                f"No read type converter registered for dialect: {dialect.name!r} "
+                f"and no default converter available"
+            ) from None
 def type_defaults(dialect) -> "TypeDefaults":
@@ -78,7 +89,14 @@ def type_defaults(dialect) -> "TypeDefaults":
     try:
         return type_defaults_registry[name]
     except KeyError:
-        raise ValueError(f"No type defaults registered for dialect: {name!r}") from None
+        # Fall back to default converter if specific dialect not found
+        try:
+            return type_defaults_registry["default"]
+        except KeyError:
+            raise ValueError(
+                f"No type defaults registered for dialect: {dialect.name!r} "
+                f"and no default converter available"
+            ) from None
 def db_defaults(dialect) -> "DBDefaults":
@@ -86,7 +104,14 @@ def db_defaults(dialect) -> "DBDefaults":
     try:
         return db_defaults_registry[name]
     except KeyError:
-        raise ValueError(f"No DB defaults registered for dialect: {name!r}") from None
+        # Fall back to default converter if specific dialect not found
+        try:
+            return db_defaults_registry["default"]
+        except KeyError:
+            raise ValueError(
+                f"No DB defaults registered for dialect: {dialect.name!r} "
+                f"and no default converter available"
+            ) from None
 class SQLType(TypeDecorator):
@@ -312,10 +337,28 @@ class Array(SQLType):
     @classmethod
     def from_dict(cls, d: dict[str, Any]) -> Union[type["SQLType"], "SQLType"]:
-        sub_t = NAME_TYPES_MAPPING[d["item_type"]["type"]].from_dict(  # type: ignore [attr-defined]
-            d["item_type"]
-        )
-        return cls(sub_t)
+        try:
+            array_item = d["item_type"]
+        except KeyError as e:
+            raise ValueError("Array type must have 'item_type' field") from e
+        if not isinstance(array_item, dict):
+            raise TypeError("Array 'item_type' field must be a dictionary")
+        try:
+            item_type = array_item["type"]
+        except KeyError as e:
+            raise ValueError("Array 'item_type' must have 'type' field") from e
+        try:
+            sub_t = NAME_TYPES_MAPPING[item_type]
+        except KeyError as e:
+            raise ValueError(f"Array item type '{item_type}' is not supported") from e
+        try:
+            return cls(sub_t.from_dict(d["item_type"]))  # type: ignore [attr-defined]
+        except KeyError as e:
+            raise ValueError(f"Array item type '{item_type}' is not supported") from e
     @staticmethod
     def default_value(dialect):
@@ -328,7 +371,7 @@ class Array(SQLType):
     def on_read_convert(self, value, dialect):
         r = read_converter(dialect).array(value, self.item_type, dialect)
         if isinstance(self.item_type, JSON):
-            r = [orjson.loads(item) if isinstance(item, str) else item for item in r]
+            r = [jsonlib.loads(item) if isinstance(item, str) else item for item in r]
         return r
@@ -403,6 +446,18 @@ class TypeReadConverter:
         return value
     def boolean(self, value):
+        if value is None or isinstance(value, bool):
+            return value
+        if isinstance(value, numbers.Integral):
+            return bool(value)
+        if isinstance(value, str):
+            normalized = value.strip().lower()
+            if normalized in {"true", "t", "yes", "y", "1"}:
+                return True
+            if normalized in {"false", "f", "no", "n", "0"}:
+                return False
         return value
     def int(self, value):
@@ -442,7 +497,7 @@ class TypeReadConverter:
         if isinstance(value, str):
             if value == "":
                 return {}
-            return orjson.loads(value)
+            return jsonlib.loads(value)
         return value
     def datetime(self, value):

datachain 0.14.2__py3-none-any.whl → 0.39.0__py3-none-any.whl

datachain 0.14.2py3-none-any.whl → 0.39.0py3-none-any.whl