PyPI - datachain - Versions diffs - 0.1.13__py3-none-any.whl → 0.2.0__py3-none-any.whl - Mend

datachain 0.1.13py3-none-any.whl → 0.2.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of datachain might be problematic. Click here for more details.

Files changed (44) hide show

datachain/_version.py +2 -2
datachain/asyn.py +3 -3
datachain/catalog/__init__.py +3 -3
datachain/catalog/catalog.py +6 -6
datachain/catalog/loader.py +3 -3
datachain/cli.py +2 -1
datachain/client/azure.py +37 -1
datachain/client/fsspec.py +1 -1
datachain/client/local.py +1 -1
datachain/data_storage/__init__.py +1 -1
datachain/data_storage/metastore.py +11 -3
datachain/data_storage/schema.py +2 -3
datachain/data_storage/warehouse.py +31 -30
datachain/dataset.py +1 -3
datachain/lib/arrow.py +85 -0
datachain/lib/dc.py +377 -178
datachain/lib/feature.py +41 -90
datachain/lib/feature_registry.py +3 -1
datachain/lib/feature_utils.py +2 -2
datachain/lib/file.py +20 -20
datachain/lib/image.py +9 -2
datachain/lib/meta_formats.py +66 -34
datachain/lib/settings.py +5 -5
datachain/lib/signal_schema.py +103 -105
datachain/lib/udf.py +3 -12
datachain/lib/udf_signature.py +11 -6
datachain/lib/webdataset_laion.py +5 -22
datachain/listing.py +8 -8
datachain/node.py +1 -1
datachain/progress.py +1 -1
datachain/query/builtins.py +1 -1
datachain/query/dataset.py +39 -110
datachain/query/dispatch.py +1 -1
datachain/query/metrics.py +19 -0
datachain/query/schema.py +13 -3
datachain/sql/__init__.py +1 -1
datachain/utils.py +1 -122
{datachain-0.1.13.dist-info → datachain-0.2.0.dist-info}/METADATA +10 -3
{datachain-0.1.13.dist-info → datachain-0.2.0.dist-info}/RECORD +43 -42
{datachain-0.1.13.dist-info → datachain-0.2.0.dist-info}/WHEEL +1 -1
datachain/lib/parquet.py +0 -32
{datachain-0.1.13.dist-info → datachain-0.2.0.dist-info}/LICENSE +0 -0
{datachain-0.1.13.dist-info → datachain-0.2.0.dist-info}/entry_points.txt +0 -0
{datachain-0.1.13.dist-info → datachain-0.2.0.dist-info}/top_level.txt +0 -0

datachain/query/dataset.py CHANGED Viewed

@@ -56,13 +56,13 @@ from datachain.storage import Storage, StorageURI
 from datachain.utils import batched, determine_processes
 from .batch import RowBatch
+from .metrics import metrics
 from .schema import C, UDFParamSpec, normalize_param
 from .session import Session
 from .udf import UDFBase, UDFClassWrapper, UDFFactory, UDFType
 if TYPE_CHECKING:
     import pandas as pd
-    from pandas.core.interchange.dataframe_protocol import DataFrame as DataFrameXchg
     from sqlalchemy.sql.elements import ClauseElement
     from sqlalchemy.sql.schema import Table
     from sqlalchemy.sql.selectable import GenerativeSelect
@@ -71,7 +71,6 @@ if TYPE_CHECKING:
     from datachain.catalog import Catalog
     from datachain.data_storage import AbstractWarehouse
     from datachain.dataset import DatasetRecord
-    from datachain.sql.types import SQLType
     from .udf import UDFResult
@@ -197,7 +196,7 @@ class IndexingStep(StartingStep):
     def apply(self):
         self.catalog.index([self.path], **self.kwargs)
         uri, path = self.parse_path()
-        partial_id, partial_path = self.catalog.metastore.get_valid_partial_id(
+        _partial_id, partial_path = self.catalog.metastore.get_valid_partial_id(
             uri, path
         )
         dataset = self.catalog.get_dataset(Storage.dataset_name(uri, partial_path))
@@ -523,30 +522,23 @@ class UDF(Step, ABC):
                     "cache": self.cache,
                 }
-                feature_module_name, feature_file = self.process_feature_module()
-                # Write the module content to a .py file
-                with open(f"{feature_module_name}.py", "w") as module_file:
-                    module_file.write(feature_file)
-                process_data = dumps(udf_info, recurse=True)
                 # Run the UDFDispatcher in another process to avoid needing
                 # if __name__ == '__main__': in user scripts
                 datachain_exec_path = os.environ.get("DATACHAIN_EXEC_PATH", "datachain")
                 envs = dict(os.environ)
                 envs.update({"PYTHONPATH": os.getcwd()})
-                try:
-                    result = subprocess.run(
-                        [datachain_exec_path, "--internal-run-udf"],  # noqa: S603
+                with self.process_feature_module():
+                    process_data = dumps(udf_info, recurse=True)
+                    result = subprocess.run(  # noqa: S603
+                        [datachain_exec_path, "--internal-run-udf"],
                         input=process_data,
                         check=False,
                         env=envs,
                     )
                     if result.returncode != 0:
                         raise RuntimeError("UDF Execution Failed!")
-                finally:
-                    os.unlink(f"{feature_module_name}.py")
             else:
                 # Otherwise process single-threaded (faster for smaller UDFs)
                 # Optionally instantiate the UDF instance if a class is provided.
@@ -600,6 +592,7 @@ class UDF(Step, ABC):
             self.catalog.warehouse.close()
             raise
+    @contextlib.contextmanager
     def process_feature_module(self):
         # Generate a random name for the feature module
         feature_module_name = "tmp" + _random_string(10)
@@ -611,10 +604,14 @@ class UDF(Step, ABC):
             for name, obj in inspect.getmembers(sys.modules["__main__"], _imports)
             if not (name.startswith("__") and name.endswith("__"))
         ]
+        main_module = sys.modules["__main__"]
         # Get the feature classes from the main module
-        feature_classes = dict(
-            inspect.getmembers(sys.modules["__main__"], _feature_predicate)
-        )
+        feature_classes = {
+            name: obj
+            for name, obj in main_module.__dict__.items()
+            if _feature_predicate(obj)
+        }
         # Get the source code of the feature classes
         feature_sources = [source.getsource(cls) for _, cls in feature_classes.items()]
         # Set the module name for the feature classes to the generated name
@@ -626,7 +623,18 @@ class UDF(Step, ABC):
         # Combine the import lines and feature sources
         feature_file = "".join(import_lines) + "\n".join(feature_sources)
-        return feature_module_name, feature_file
+        # Write the module content to a .py file
+        with open(f"{feature_module_name}.py", "w") as module_file:
+            module_file.write(feature_file)
+        try:
+            yield feature_module_name
+        finally:
+            for cls in feature_classes.values():
+                cls.__module__ = main_module.__name__
+            os.unlink(f"{feature_module_name}.py")
+            # Remove the dynamic module from sys.modules
+            del sys.modules[feature_module_name]
     def create_partitions_table(self, query: Select) -> "Table":
         """
@@ -685,8 +693,7 @@ class UDF(Step, ABC):
             )
         query, tables = self.process_input_query(query)
-        for t in tables:
-            temp_tables.append(t.name)
+        temp_tables.extend(t.name for t in tables)
         udf_table = self.create_udf_table(_query)
         temp_tables.append(udf_table.name)
         self.populate_udf_table(udf_table, query)
@@ -1120,6 +1127,12 @@ class DatasetQuery:
         indexing_feature_schema: Optional[dict] = None,
         indexing_column_types: Optional[dict[str, Any]] = None,
     ):
+        if client_config is None:
+            client_config = {}
+        if anon:
+            client_config["anon"] = True
         self.steps: list[Step] = []
         self.catalog = catalog or get_catalog(client_config=client_config)
         self._chunk_index: Optional[int] = None
@@ -1134,22 +1147,14 @@ class DatasetQuery:
         self.column_types: Optional[dict[str, Any]] = None
         self.session = Session.get(session, catalog=catalog)
-        if client_config is None:
-            client_config = {}
-        if anon:
-            client_config["anon"] = True
         if path:
-            self.starting_step = IndexingStep(
-                path, self.catalog, {"client_config": client_config}, recursive
-            )
+            self.starting_step = IndexingStep(path, self.catalog, {}, recursive)
             self.feature_schema = indexing_feature_schema
             self.column_types = indexing_column_types
         elif name:
             ds = self.catalog.get_dataset(name)
             self.version = version or ds.latest_version
-            self.feature_schema = ds.feature_schema
+            self.feature_schema = ds.get_version(self.version).feature_schema
             self.column_types = copy(ds.schema)
             if "id" in self.column_types:
                 self.column_types.pop("id")
@@ -1348,8 +1353,7 @@ class DatasetQuery:
             MapperCls = OrderedMapper if query._order_by_clauses else AsyncMapper  # noqa: N806
             with contextlib.closing(row_iter()) as rows:
                 mapper = MapperCls(get_params, rows, workers=workers)
-                for params in mapper.iterate():
-                    yield params
+                yield from mapper.iterate()
         finally:
             self.cleanup()
@@ -1386,82 +1390,6 @@ class DatasetQuery:
         records = self.to_records()
         return pd.DataFrame.from_records(records)
-    @classmethod
-    def from_dataframe(
-        cls,
-        df: Union["DataFrameXchg", "pd.DataFrame"],
-        name: str = "",
-        version: Optional[int] = None,
-        catalog: Optional["Catalog"] = None,
-        session: Optional[Session] = None,
-    ) -> "Self":
-        from datachain.utils import dtype_mapper
-        catalog = catalog or get_catalog()
-        assert catalog is not None
-        session = Session.get(session, catalog=catalog)
-        assert session is not None
-        try:
-            if name and version and catalog.get_dataset(name).has_version(version):
-                raise RuntimeError(f"Dataset {name} already has version {version}")
-        except DatasetNotFoundError:
-            pass
-        if not name and version:
-            raise RuntimeError("Cannot set version for temporary datasets")
-        import pandas as pd  # noqa: F401
-        from pandas.api.interchange import from_dataframe
-        # This is not optimal for dataframes other than pd.DataFrame, as it may copy
-        # all the data to a new dataframe.
-        pd_df = from_dataframe(df)
-        dtype: dict[str, type[SQLType]] = {
-            str(pd_df.columns[i]): dtype_mapper(pd_df.iloc[:, i])
-            for i in range(len(pd_df.columns))
-        }
-        name = name or session.generate_temp_dataset_name()
-        dataset = catalog.create_dataset(
-            name,
-            version=version,
-            columns=[Column(name, typ) for name, typ in dtype.items()],
-        )
-        version = version or dataset.latest_version
-        dr = catalog.warehouse.dataset_rows(dataset)
-        pd_df.to_sql(
-            dr.table.name,
-            catalog.warehouse.db.engine,
-            if_exists="append",
-            index=False,
-            chunksize=10_000,
-            dtype=dtype,
-        )
-        catalog.metastore.update_dataset_status(
-            dataset, DatasetStatus.COMPLETE, version=version
-        )
-        catalog.update_dataset_version_with_warehouse_info(dataset, version)
-        return cls(name=name, version=version, catalog=catalog, session=session)
-    from_pandas = from_dataframe
-    @classmethod
-    def from_parquet(
-        cls,
-        uri: str,
-        *args,
-        **kwargs,
-    ) -> "Self":
-        import pandas as pd
-        pd_df = pd.read_parquet(uri, dtype_backend="pyarrow")
-        return cls.from_dataframe(pd_df, *args, **kwargs)
     def shuffle(self) -> "Self":
         # ToDo: implement shaffle based on seed and/or generating random column
         return self.order_by(C.random)
@@ -1853,6 +1781,7 @@ def _get_output_fd_for_write() -> Union[str, int]:
 class ExecutionResult:
     preview: list[dict] = attrs.field(factory=list)
     dataset: Optional[tuple[str, int]] = None
+    metrics: dict[str, Any] = attrs.field(factory=dict)
 def _send_result(dataset_query: DatasetQuery) -> None:
@@ -1886,7 +1815,7 @@ def _send_result(dataset_query: DatasetQuery) -> None:
         dataset = dataset_query.name, dataset_query.version
     preview = preview_query.to_records()
-    result = ExecutionResult(preview, dataset)
+    result = ExecutionResult(preview, dataset, metrics)
     data = attrs.asdict(result)
     with open(_get_output_fd_for_write(), mode="w") as f:

datachain/query/dispatch.py CHANGED Viewed

@@ -257,7 +257,7 @@ class UDFDispatcher:
         if self.buffer_size < n_workers:
             raise RuntimeError(
-                f"Parallel run error: buffer size is smaller than "
+                "Parallel run error: buffer size is smaller than "
                 f"number of workers: {self.buffer_size} < {n_workers}"
             )

datachain/query/metrics.py ADDED Viewed

@@ -0,0 +1,19 @@
+from typing import Optional, Union
+metrics: dict[str, Union[str, int, float, bool, None]] = {}
+def set(key: str, value: Union[str, int, float, bool, None]) -> None:  # noqa: PYI041
+    """Set a metric value."""
+    if not isinstance(key, str):
+        raise TypeError("Key must be a string")
+    if not key:
+        raise ValueError("Key must not be empty")
+    if not isinstance(value, (str, int, float, bool, type(None))):
+        raise TypeError("Value must be a string, int, float or bool")
+    metrics[key] = value
+def get(key: str) -> Optional[Union[str, int, float, bool]]:
+    """Get a metric value."""
+    return metrics[key]

datachain/query/schema.py CHANGED Viewed

@@ -18,20 +18,30 @@ if TYPE_CHECKING:
     from datachain.dataset import RowDict
+DEFAULT_DELIMITER = "__"
 class ColumnMeta(type):
+    @staticmethod
+    def to_db_name(name: str) -> str:
+        return name.replace(".", DEFAULT_DELIMITER)
     def __getattr__(cls, name: str):
-        return cls(name)
+        return cls(ColumnMeta.to_db_name(name))
 class Column(sa.ColumnClause, metaclass=ColumnMeta):
     inherit_cache: Optional[bool] = True
     def __init__(self, text, type_=None, is_literal=False, _selectable=None):
-        self.name = text
+        self.name = ColumnMeta.to_db_name(text)
         super().__init__(
-            text, type_=type_, is_literal=is_literal, _selectable=_selectable
+            self.name, type_=type_, is_literal=is_literal, _selectable=_selectable
         )
+    def __getattr__(self, name: str):
+        return Column(self.name + DEFAULT_DELIMITER + name)
     def glob(self, glob_str):
         return self.op("GLOB")(glob_str)

datachain/sql/__init__.py CHANGED Viewed

@@ -7,10 +7,10 @@ from .selectable import select, values
 __all__ = [
     "column",
+    "functions",
     "literal",
     "select",
     "values",
-    "functions",
 ]
 default_setup()

datachain/utils.py CHANGED Viewed

@@ -18,9 +18,6 @@ from dateutil.parser import isoparse
 if TYPE_CHECKING:
     import pandas as pd
-    import pyarrow as pa
-    from datachain.sql.types import SQLType
 NUL = b"\0"
 TIME_ZERO = datetime.fromtimestamp(0, tz=timezone.utc)
@@ -78,7 +75,7 @@ class DataChainDir:
             if create:
                 instance.init()
             else:
-                NotADirectoryError(root)
+                raise NotADirectoryError(root)
         return instance
@@ -363,121 +360,3 @@ class JSONSerialize(json.JSONEncoder):
             return str(obj)
         return super().default(obj)
-def dtype_mapper(col: Union["pd.Index", "pd.Series"]) -> type["SQLType"]:  # noqa: PLR0911
-    from pandas import ArrowDtype
-    from pandas.api.types import infer_dtype
-    from datachain.sql.types import (
-        Binary,
-        Boolean,
-        DateTime,
-        Float,
-        Float32,
-        Float64,
-        Int,
-        Int32,
-        Int64,
-        String,
-        UInt64,
-    )
-    if isinstance(col.dtype, ArrowDtype):
-        return arrow_type_mapper(col.dtype.pyarrow_dtype)
-    col_type = infer_dtype(col, skipna=True)
-    if col_type in ("datetime", "datetime64"):
-        return DateTime
-    if col_type == "bytes":
-        return Binary
-    if col_type == "floating":
-        if col.dtype == "float32":
-            return Float32
-        if col.dtype == "float64":
-            return Float64
-        return Float
-    if col_type == "integer":
-        if col.dtype.name.lower() in ("int8", "int16", "int32"):
-            return Int32
-        if col.dtype.name.lower() == "int64":
-            return Int64
-        if col.dtype.name.lower().startswith("uint"):
-            return UInt64
-        return Int
-    if col_type == "boolean":
-        return Boolean
-    if col_type == "date":
-        return DateTime
-    if col_type in (
-        "complex",
-        "time",
-        "timedelta",
-        "timedelta64",
-        "period",
-        "interval",
-    ):
-        raise ValueError(f"{col_type!r} datatypes not supported")
-    return String
-def arrow_type_mapper(col_type: "pa.DataType") -> type["SQLType"]:  # noqa: PLR0911,C901
-    try:
-        import pyarrow as pa
-    except ImportError as exc:
-        raise ImportError(
-            "Missing required dependency pyarrow for inferring types"
-        ) from exc
-    from datachain.sql.types import (
-        JSON,
-        Array,
-        Binary,
-        Boolean,
-        DateTime,
-        Float,
-        Float32,
-        Float64,
-        Int,
-        Int32,
-        Int64,
-        String,
-        UInt64,
-    )
-    if pa.types.is_timestamp(col_type):
-        return DateTime
-    if pa.types.is_binary(col_type):
-        return Binary
-    if pa.types.is_floating(col_type):
-        if pa.types.is_float32(col_type):
-            return Float32
-        if pa.types.is_float64(col_type):
-            return Float64
-        return Float
-    if pa.types.is_integer(col_type):
-        if (
-            pa.types.is_int8(col_type)
-            or pa.types.is_int16(col_type)
-            or pa.types.is_int32(col_type)
-        ):
-            return Int32
-        if pa.types.is_int64(col_type):
-            return Int64
-        if pa.types.is_unsigned_integer(col_type):
-            return UInt64
-        return Int
-    if pa.types.is_boolean(col_type):
-        return Boolean
-    if pa.types.is_date(col_type):
-        return DateTime
-    if pa.types.is_string(col_type):
-        return String
-    if pa.types.is_list(col_type):
-        return Array(arrow_type_mapper(col_type.value_type))  # type: ignore[return-value]
-    if pa.types.is_struct(col_type) or pa.types.is_map(col_type):
-        return JSON
-    if isinstance(col_type, pa.lib.DictionaryType):
-        return arrow_type_mapper(col_type.value_type)  # type: ignore[return-value]
-    raise ValueError(f"{col_type!r} datatypes not supported")

{datachain-0.1.13.dist-info → datachain-0.2.0.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: datachain
-Version: 0.1.13
+Version: 0.2.0
 Summary: Wrangle unstructured AI data at scale
 Author-email: Dmitry Petrov <support@dvc.org>
 License: Apache-2.0
@@ -44,12 +44,19 @@ Requires-Dist: torch >=2.1.0 ; extra == 'cv'
 Requires-Dist: torchvision ; extra == 'cv'
 Requires-Dist: transformers >=4.36.0 ; extra == 'cv'
 Provides-Extra: dev
-Requires-Dist: datachain[tests] ; extra == 'dev'
-Requires-Dist: mypy ==1.10.0 ; extra == 'dev'
+Requires-Dist: datachain[docs,tests] ; extra == 'dev'
+Requires-Dist: mypy ==1.10.1 ; extra == 'dev'
 Requires-Dist: types-python-dateutil ; extra == 'dev'
 Requires-Dist: types-PyYAML ; extra == 'dev'
 Requires-Dist: types-requests ; extra == 'dev'
 Requires-Dist: types-ujson ; extra == 'dev'
+Provides-Extra: docs
+Requires-Dist: mkdocs >=1.5.2 ; extra == 'docs'
+Requires-Dist: mkdocs-gen-files >=0.5.0 ; extra == 'docs'
+Requires-Dist: mkdocs-material >=9.3.1 ; extra == 'docs'
+Requires-Dist: mkdocs-section-index >=0.3.6 ; extra == 'docs'
+Requires-Dist: mkdocstrings-python >=1.6.3 ; extra == 'docs'
+Requires-Dist: mkdocs-literate-nav >=0.6.1 ; extra == 'docs'
 Provides-Extra: remote
 Requires-Dist: datachain[pandas] ; extra == 'remote'
 Requires-Dist: lz4 ; extra == 'remote'

{datachain-0.1.13.dist-info → datachain-0.2.0.dist-info}/RECORD RENAMED Viewed

@@ -1,82 +1,83 @@
 datachain/__init__.py,sha256=9a0qX6tqyA9KC3ahLmGarqlRTZJXhM7HijAWpfUaOnQ,102
 datachain/__main__.py,sha256=hG3Y4ARGEqe1AWwNMd259rBlqtphx1Wk39YbueQ0yV8,91
-datachain/_version.py,sha256=S22EPqqZRb53L2H7sobVA3TUXv9skvkYd-YtLuHuV6M,413
-datachain/asyn.py,sha256=opARBVZJxTKU3EGYd-8gcpNXoshuCfVz_b0ut3oxC50,7641
+datachain/_version.py,sha256=H-qsvrxCpdhaQzyddR-yajEqI71hPxLa4KxzpP3uS1g,411
+datachain/asyn.py,sha256=CKCFQJ0CbB3r04S7mUTXxriKzPnOvdUaVPXjM8vCtJw,7644
 datachain/cache.py,sha256=FaPWrqWznPffmskTb1pdPkt2jAMMf__9FC2zEnP0vDU,4022
-datachain/cli.py,sha256=1mBozBJS9Nq-EeahxwyKH8ef64E2v93o0CAEzxjcbkY,32209
+datachain/cli.py,sha256=FLKRimIq917Dq0EmG3yLzMTqDaMA0vyCRUREOobUspY,32256
 datachain/cli_utils.py,sha256=jrn9ejGXjybeO1ur3fjdSiAyCHZrX0qsLLbJzN9ErPM,2418
 datachain/config.py,sha256=PfC7W5yO6HFO6-iMB4YB-0RR88LPiGmD6sS_SfVbGso,1979
-datachain/dataset.py,sha256=4ksFJlfo_CEmt5xqXPca-hhQL1syFpKxCl_ZOhTS30s,14506
+datachain/dataset.py,sha256=MZezyuJWNj_3PEtzr0epPMNyWAOTrhTSPI5FmemV6L4,14470
 datachain/error.py,sha256=GY9KYTmb7GHXn2gGHV9X-PBhgwLj3i7VpK7tGHtAoGM,1279
-datachain/listing.py,sha256=-Cm74Ne2Q36QuCpA22feDA_v-7uPqkwAOg-QzkiZAGQ,8243
-datachain/node.py,sha256=jCBvwiEUYSKQa27Tb6RORgaUjoiz7mOX63NQmP7JQY0,5703
+datachain/listing.py,sha256=1arE_9gpjhHqGQCpQZj_mLoocrZWRNDHJ-bkPc08NQs,8247
+datachain/node.py,sha256=fHe7k5ajI2g2qnzsG-_NQR_T-QdBYctVeEa8c8dsu_Y,5703
 datachain/nodes_fetcher.py,sha256=kca19yvu11JxoVY1t4_ydp1FmchiV88GnNicNBQ9NIA,831
 datachain/nodes_thread_pool.py,sha256=ZyzBvUImIPmi4WlKC2SW2msA0UhtembbTdcs2nx29A0,3191
-datachain/progress.py,sha256=cFKpoPon4iRjc4C213j5fKdl-Ga_80rUaKlS67kMa_Y,4550
+datachain/progress.py,sha256=7_8FtJs770ITK9sMq-Lt4k4k18QmYl4yIG_kCoWID3o,4559
 datachain/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 datachain/storage.py,sha256=RiSJLYdHUjnrEWkLBKPcETHpAxld_B2WxLg711t0aZI,3733
-datachain/utils.py,sha256=FW1LR5qCL5BtCYk-B-6LUCCMq8zOobkKKMrLqfFfCAg,13535
-datachain/catalog/__init__.py,sha256=Gkto1V7rUbVjJmgMEnB_VpVeHOfV47IQh1fSjEKnit4,409
-datachain/catalog/catalog.py,sha256=7ZqCsyr7W4enOIX6jiLJbBfFZvjkqjI1E_NOyL3V3AA,78585
+datachain/utils.py,sha256=DV-_OON2OomEbxuQuK1lE_2qNTf28QByNcNcEhYsilE,10202
+datachain/catalog/__init__.py,sha256=g2iAAFx_gEIrqshXlhSEbrc8qDaEH11cjU40n3CHDz4,409
+datachain/catalog/catalog.py,sha256=5WkICtTYCN5xSMGDd5djLnEBw8kkcDf-IpFYf7kfeuQ,78654
 datachain/catalog/datasource.py,sha256=D-VWIVDCM10A8sQavLhRXdYSCG7F4o4ifswEF80_NAQ,1412
-datachain/catalog/loader.py,sha256=FTI9s1b8iX0_TffSAx1mwm-ucsRV14NHX-F1xtTXRSE,7310
+datachain/catalog/loader.py,sha256=GJ8zhEYkC7TuaPzCsjJQ4LtTdECu-wwYzC12MikPOMQ,7307
 datachain/catalog/subclass.py,sha256=B5R0qxeTYEyVAAPM1RutBPSoXZc8L5mVVZeSGXki9Sw,2096
 datachain/client/__init__.py,sha256=T4wiYL9KIM0ZZ_UqIyzV8_ufzYlewmizlV4iymHNluE,86
-datachain/client/azure.py,sha256=5yRxhejOpifYWswbyKZ1Y8pWb6v0K2DfnvVNB_ywF0w,920
+datachain/client/azure.py,sha256=rxvF5erntGD32Y3DYK_TUCsyV2ALfuWWTnE8IWGwKEo,2542
 datachain/client/fileslice.py,sha256=bT7TYco1Qe3bqoc8aUkUZcPdPofJDHlryL5BsTn9xsY,3021
-datachain/client/fsspec.py,sha256=kSr_fgqpWB5YljM9my7R6FzJ59AxHg3nrriR9f6C-4Y,13389
+datachain/client/fsspec.py,sha256=F1Iyyw0iTrp2wQTFeignGtaHpm5Rg_cvbKaIzBX5aSc,13390
 datachain/client/gcs.py,sha256=ucX8e6JrqlFY-f80zkv084vxnKdtxpO32QJ-RG8Nv1s,4454
-datachain/client/local.py,sha256=FwtlrUdpKi1jdqk43XTK8uEPsAqy57Kf9X1FldxFxyk,5148
+datachain/client/local.py,sha256=NQVkLTJQ-a7Udavqbh_4uT-IejfZQYn10j22owz9sis,5150
 datachain/client/s3.py,sha256=TmW4f7VUM5CMZjSmgyFQFKeMUGrXt2SLoLEbLOUleiU,6296
-datachain/data_storage/__init__.py,sha256=arlkQIj2J0ozcT_GvNDxm6PLT9NeabHvIsxPNDY_TxQ,398
+datachain/data_storage/__init__.py,sha256=cEOJpyu1JDZtfUupYucCDNFI6e5Wmp_Oyzq6rZv32Y8,398
 datachain/data_storage/db_engine.py,sha256=mxOoWP4ntBMgLeTAk4dlEeIJArAz4x_tFrHytcAfLpo,3341
 datachain/data_storage/id_generator.py,sha256=VlDALKijggegAnNMJwuMETJgnLoPYxpkrkld5DNTPQw,3839
 datachain/data_storage/job.py,sha256=w-7spowjkOa1P5fUVtJou3OltT0L48P0RYWZ9rSJ9-s,383
-datachain/data_storage/metastore.py,sha256=GnJH2NlFngdj30aK9CSaimJNnh_x_pSjntWUnvQuI2A,53649
-datachain/data_storage/schema.py,sha256=pF3KBi-8Pz3n5jRYoJpDR3gF8qUFdyAu2XR58J4Fyuo,8724
+datachain/data_storage/metastore.py,sha256=y-4fYvuOPnWeYxAvqhDnw6CdlTvQiurg0Gg4TaG9LR0,54074
+datachain/data_storage/schema.py,sha256=FrhmeZ_btT1CfVisa4ScabS11ixZ3xn3d_whvVsBtDA,8700
 datachain/data_storage/serializer.py,sha256=6G2YtOFqqDzJf1KbvZraKGXl2XHZyVml2krunWUum5o,927
 datachain/data_storage/sqlite.py,sha256=eHTiJ0VIxU-chnhKNTN14EsaSnw5LAaxTLi9aMCZpl4,24978
-datachain/data_storage/warehouse.py,sha256=sQLOrv6DH8UcWH1aqlg3YJKmaHr696XkVafBxccZZ3U,33213
+datachain/data_storage/warehouse.py,sha256=tL2mYoXVZe-coKLTRXEJ0sMdEr2BD0GwgIWip5PP5CM,33300
 datachain/lib/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+datachain/lib/arrow.py,sha256=7lAas8hSh3vL7S7s2KOlkYn4viQpfVbM_FQ_hLCh5oc,2593
 datachain/lib/cached_stream.py,sha256=BQI6gpJ2y7_-jqQo_0VB9ntbkOVISvj9wlDwGDQbqw8,3537
 datachain/lib/claude.py,sha256=iAauA1zNVNONpLzUo1t0QN5PZ5Ot6cZkfib7Ka_c638,1969
-datachain/lib/dc.py,sha256=MAy1Bsxknaz2aduZ28ffuq88x8Ja8QHA59CsyyiUlZE,27048
-datachain/lib/feature.py,sha256=C5lxQ_Ef4rL0-mef4A4EeoqB0rcNZ0ExRE26ehx20RM,14196
-datachain/lib/feature_registry.py,sha256=hg_S_9JPEYaQ-8PI64mU0sEhSJ-rcrKtwQk5TPBotEw,1570
-datachain/lib/feature_utils.py,sha256=6wbKZ2xq08b751EFBRJy1OZLqWYd_gxq9A_Em_aMFk4,4713
-datachain/lib/file.py,sha256=ZNGzmJSq7PNVxLhGLNdR9YSYkP-1ZeqY_yhDMcDNfkI,8586
+datachain/lib/dc.py,sha256=szYQC4FOoYDMlSEDAPWZ25z4Nn-WeoaKiqKwwXbOJws,35355
+datachain/lib/feature.py,sha256=KiPiMrU8ec-bJuUs70Xh4jytZdzKk9puQNQnx03K-po,12057
+datachain/lib/feature_registry.py,sha256=YQsLYChNkYK6p2MpcVfAyBybtfN5EMiOJ8LIYakjmeQ,1602
+datachain/lib/feature_utils.py,sha256=LIK233IWGWFhuav5Rm8de0xIOSnuwA1ubk6OYrxrfN0,4712
+datachain/lib/file.py,sha256=K0jH8Q5Xle2TiVDTCzmopku_7Lh-IVufV_mgtaCNHYI,8744
 datachain/lib/gpt4_vision.py,sha256=idyXVZVWzltstGaVIu5RYE5UNbdqcPEjIWy81O1MwkM,2922
 datachain/lib/hf_image_to_text.py,sha256=HiPSWzJRDT-vnz9DXJbJBNCMNl9wmpxiSS3PbbVz8SE,3310
 datachain/lib/hf_pipeline.py,sha256=f0AH_XCziOF1OKN3d1w1swTBLaeajMJ8xgdsX37i5-o,2287
-datachain/lib/image.py,sha256=gb-My4rx5zMwOlDkcu_2G8GtRAMfsRvd7-QWUBErDw8,3486
+datachain/lib/image.py,sha256=l2lgUR3YQzjpBmTJewzUtL5zJsLDQH32lbbaLu9WvWA,3631
 datachain/lib/image_transform.py,sha256=NXWtnVOcofWBgl_YMxb4ABpaT7JTBMx7tLKvErH1IC4,3024
 datachain/lib/iptc_exif_xmp.py,sha256=xrbxFeY-wRP6T5JsUgE3EXfTxKvZVymRaRD_VIfxD0A,2236
-datachain/lib/meta_formats.py,sha256=-JAS47NOO6rx1vmr0Cy-G_txxmTvMflXfzJiFD7rWlQ,5742
-datachain/lib/parquet.py,sha256=_MbRBzcgLLLegjKZNGF9Rm9IkYRSy0IqOksVjL1nntg,917
+datachain/lib/meta_formats.py,sha256=wIVVLRLp45Zk4vjZRd_P1UtD24vpDCb-vILWtcsACwk,6630
 datachain/lib/pytorch.py,sha256=oU16XXAyAmiiabe1IoQoID00-u3uZ5GhCN48uAl6WDs,5421
 datachain/lib/reader.py,sha256=rPXXNoTUdm6PQwkAlaU-nOBreP_q4ett_EjFStrA_W0,1727
-datachain/lib/settings.py,sha256=mVtzyA_y9JA-6chMv1baggDvgeFsaUszySp660Gu4gw,2854
-datachain/lib/signal_schema.py,sha256=WPKHzgZ6HatbDQ2IN_L0JPi46n6acfHpkq91DYdlgSg,11753
+datachain/lib/settings.py,sha256=6Nkoh8riETrftYwDp3aniK53Dsjc07MdztL8N0cW1D8,2849
+datachain/lib/signal_schema.py,sha256=KaH194dAH8Zt8FtlNAgdVqcZlJc42y7RbcB37ldPPAY,11688
 datachain/lib/text.py,sha256=EEZrYohADi5rAGg3aLLRwtvyAV9js_yWAGhr2C3QbwI,2424
-datachain/lib/udf.py,sha256=PeZ-UbprfxlmgVbzH4FtNib3kIhTi9C869QM8RuM5dw,6292
-datachain/lib/udf_signature.py,sha256=1cOMcGXHbdBjyBRkvNxIEt9A_CoyiADxio2wkYu8U5M,7140
+datachain/lib/udf.py,sha256=kPc_6fQ4DzbiYiXvbps7QPlJWTu9MSCS8eUfGqOhjG4,6124
+datachain/lib/udf_signature.py,sha256=DAWMQ0dvFkKabpY5MV5K2q9YmOSTKfiV8KuUBs_6kMg,7258
 datachain/lib/unstructured.py,sha256=9Y6rAelXdYqkNbPaqz6DhXjhS8d6qXcP0ieIsWkzvkk,1143
 datachain/lib/utils.py,sha256=YQKzuW096SGe7QwHwdyS47k_9l2Rh73b-wBqt1-niw4,213
 datachain/lib/vfile.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 datachain/lib/webdataset.py,sha256=JouI5WORgkl-am_DwQwWqO8RI1UwgbUPWsauZZj2Fmc,8221
-datachain/lib/webdataset_laion.py,sha256=tHn3Zhqx7Eb5Ywy_mobs6jDI0o_pFUbsuHqv0W_aNho,2840
+datachain/lib/webdataset_laion.py,sha256=HAtSCbVvEQqzKkoRamRxDKaQALSB3QmJRU2yWRFNxwY,2147
 datachain/query/__init__.py,sha256=tv-spkjUCYamMN9ys_90scYrZ8kJ7C7d1MTYVmxGtk4,325
 datachain/query/batch.py,sha256=sOMxXbaNii7lVyFIEZ2noqbhy_S8qtZ-WWxrka72shc,3474
-datachain/query/builtins.py,sha256=RyVEPZEuC7K1vlulrsaUjATLG_tZEvYYW7N5i6Fg-tQ,2781
-datachain/query/dataset.py,sha256=2DZAaEwX9gQlQgrRY3t-ymXN9SUkN_3XN0AfMFT6Mto,66861
-datachain/query/dispatch.py,sha256=9zcwKkLIuK5-xyRSQNw3yTqYLMHVbuZIn6KcB0g_ZBQ,13107
+datachain/query/builtins.py,sha256=ZKNs49t8Oa_OaboCBIEqtXZt7c1Qe9OR_C_HpoDriIU,2781
+datachain/query/dataset.py,sha256=c0ZoNEjAMmn0BdSnRm8XRWEsbaMH3xa_jd6FBJQDY1o,64576
+datachain/query/dispatch.py,sha256=fEk1qalxAb5JJhN-iq0Mg9MyWve4XoN1Q7uvrX4mJY4,13106
+datachain/query/metrics.py,sha256=vsECqbZfoSDBnvC3GQlziKXmISVYDLgHP1fMPEOtKyo,640
 datachain/query/params.py,sha256=O_j89mjYRLOwWNhYZl-z7mi-rkdP7WyFmaDufsdTryE,863
-datachain/query/schema.py,sha256=CGu9NBIFvX4iHQnaThLLxwWndxqkyUtYmo2JBgnZ4YQ,7660
+datachain/query/schema.py,sha256=tWlUiu9eiS5y8BTQaPI2raGclt0YzcO3DoUN1OkwnrE,7946
 datachain/query/session.py,sha256=e4_vv4RqAjU-g3KK0avgLd9MEsmJBzRVEj1w8v7fP1k,3663
 datachain/query/udf.py,sha256=0WkBPW5ymZbOGMimSXpVWVc8whjTuYfRrnxPWNHabSk,7127
 datachain/remote/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 datachain/remote/studio.py,sha256=bZb85WjtqMNFBoRuPbH-TEGpAyz0afROR7E9UgIef_Y,7438
-datachain/sql/__init__.py,sha256=AUU_NHscXxNt8gfI9WZg08x41JaI4aQNpBlUr6HA4rU,303
+datachain/sql/__init__.py,sha256=A2djrbQwSMUZZEIKGnm-mnRA-NDSbiDJNpAmmwGNyIo,303
 datachain/sql/selectable.py,sha256=fBM-wS1TUA42kVEAAiwqGtibIevyZAEritwt8PZGyLQ,1589
 datachain/sql/types.py,sha256=BzUm0nCcMPASvdqpQouX5bdVcK3G3DBfeeNhau7X_hA,10234
 datachain/sql/utils.py,sha256=rzlJw08etivdrcuQPqNVvVWhuVSyUPUQEEc6DOhu258,818
@@ -92,9 +93,9 @@ datachain/sql/sqlite/__init__.py,sha256=TAdJX0Bg28XdqPO-QwUVKy8rg78cgMileHvMNot7
 datachain/sql/sqlite/base.py,sha256=XVxn4pB-N4pPfiby5uVvfH7feNzRKlBNzsc5eyKPvhI,10965
 datachain/sql/sqlite/types.py,sha256=oP93nLfTBaYnN0z_4Dsv-HZm8j9rrUf1esMM-z3JLbg,1754
 datachain/sql/sqlite/vector.py,sha256=stBeEW6fbVbILmAtV4khjXdJIGT13HkRWJeCoqIOk50,315
-datachain-0.1.13.dist-info/LICENSE,sha256=8DnqK5yoPI_E50bEg_zsHKZHY2HqPy4rYN338BHQaRA,11344
-datachain-0.1.13.dist-info/METADATA,sha256=aqjqnY-YxqDJZhpkKaPQ35QZkehWOcsGIdqNzdLRw-0,13972
-datachain-0.1.13.dist-info/WHEEL,sha256=mguMlWGMX-VHnMpKOjjQidIo1ssRlCFu4a4mBpz1s2M,91
-datachain-0.1.13.dist-info/entry_points.txt,sha256=0GMJS6B_KWq0m3VT98vQI2YZodAMkn4uReZ_okga9R4,49
-datachain-0.1.13.dist-info/top_level.txt,sha256=lZPpdU_2jJABLNIg2kvEOBi8PtsYikbN1OdMLHk8bTg,10
-datachain-0.1.13.dist-info/RECORD,,
+datachain-0.2.0.dist-info/LICENSE,sha256=8DnqK5yoPI_E50bEg_zsHKZHY2HqPy4rYN338BHQaRA,11344
+datachain-0.2.0.dist-info/METADATA,sha256=iMX8hWEMXu-4MtXlD_SVwW3ija6bOLqSbeQvHoiMNfQ,14344
+datachain-0.2.0.dist-info/WHEEL,sha256=y4mX-SOX4fYIkonsAGA5N0Oy-8_gI4FXw5HNI1xqvWg,91
+datachain-0.2.0.dist-info/entry_points.txt,sha256=0GMJS6B_KWq0m3VT98vQI2YZodAMkn4uReZ_okga9R4,49
+datachain-0.2.0.dist-info/top_level.txt,sha256=lZPpdU_2jJABLNIg2kvEOBi8PtsYikbN1OdMLHk8bTg,10
+datachain-0.2.0.dist-info/RECORD,,

{datachain-0.1.13.dist-info → datachain-0.2.0.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,5 @@
 Wheel-Version: 1.0
-Generator: setuptools (70.1.1)
+Generator: setuptools (70.2.0)
 Root-Is-Purelib: true
 Tag: py3-none-any

datachain 0.1.13__py3-none-any.whl → 0.2.0__py3-none-any.whl

Potentially problematic release.

datachain 0.1.13py3-none-any.whl → 0.2.0py3-none-any.whl