PyPI - datachain - Versions diffs - 0.2.11__py3-none-any.whl → 0.2.13__py3-none-any.whl - Mend

datachain 0.2.11py3-none-any.whl → 0.2.13py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of datachain might be problematic. Click here for more details.

Files changed (46) hide show

datachain/__init__.py +3 -4
datachain/cache.py +10 -4
datachain/catalog/catalog.py +42 -16
datachain/cli.py +48 -32
datachain/data_storage/metastore.py +24 -0
datachain/data_storage/warehouse.py +3 -1
datachain/job.py +56 -0
datachain/lib/arrow.py +19 -7
datachain/lib/clip.py +89 -66
datachain/lib/convert/{type_converter.py → python_to_sql.py} +6 -6
datachain/lib/convert/sql_to_python.py +23 -0
datachain/lib/convert/values_to_tuples.py +51 -33
datachain/lib/data_model.py +6 -27
datachain/lib/dataset_info.py +70 -0
datachain/lib/dc.py +618 -156
datachain/lib/file.py +130 -22
datachain/lib/image.py +1 -1
datachain/lib/meta_formats.py +14 -2
datachain/lib/model_store.py +3 -2
datachain/lib/pytorch.py +10 -7
datachain/lib/signal_schema.py +19 -11
datachain/lib/text.py +2 -1
datachain/lib/udf.py +56 -5
datachain/lib/udf_signature.py +1 -1
datachain/node.py +11 -8
datachain/query/dataset.py +62 -28
datachain/query/schema.py +2 -0
datachain/query/session.py +4 -4
datachain/sql/functions/array.py +12 -0
datachain/sql/functions/string.py +8 -0
datachain/torch/__init__.py +1 -1
datachain/utils.py +6 -0
datachain-0.2.13.dist-info/METADATA +411 -0
{datachain-0.2.11.dist-info → datachain-0.2.13.dist-info}/RECORD +38 -42
{datachain-0.2.11.dist-info → datachain-0.2.13.dist-info}/WHEEL +1 -1
datachain/lib/gpt4_vision.py +0 -97
datachain/lib/hf_image_to_text.py +0 -97
datachain/lib/hf_pipeline.py +0 -90
datachain/lib/image_transform.py +0 -103
datachain/lib/iptc_exif_xmp.py +0 -76
datachain/lib/unstructured.py +0 -41
datachain/text/__init__.py +0 -3
datachain-0.2.11.dist-info/METADATA +0 -431
{datachain-0.2.11.dist-info → datachain-0.2.13.dist-info}/LICENSE +0 -0
{datachain-0.2.11.dist-info → datachain-0.2.13.dist-info}/entry_points.txt +0 -0
{datachain-0.2.11.dist-info → datachain-0.2.13.dist-info}/top_level.txt +0 -0

datachain/node.py CHANGED Viewed

@@ -5,7 +5,7 @@ import attrs
 from datachain.cache import UniqueId
 from datachain.storage import StorageURI
-from datachain.utils import time_to_str
+from datachain.utils import TIME_ZERO, time_to_str
 if TYPE_CHECKING:
     from typing_extensions import Self
@@ -111,13 +111,16 @@ class Node:
         if storage is None:
             storage = self.source
         return UniqueId(
-            storage,
-            self.parent,
-            self.name,
-            self.etag,
-            self.size,
-            self.vtype,
-            self.location,
+            storage=storage,
+            parent=self.parent,
+            name=self.name,
+            size=self.size,
+            version=self.version or "",
+            etag=self.etag,
+            is_latest=self.is_latest,
+            vtype=self.vtype,
+            location=self.location,
+            last_modified=self.last_modified or TIME_ZERO,
         )
     @classmethod

datachain/query/dataset.py CHANGED Viewed

@@ -54,6 +54,7 @@ from datachain.utils import (
     batched,
     determine_processes,
     filtered_cloudpickle_dumps,
+    get_datachain_executable,
 )
 from .metrics import metrics
@@ -426,7 +427,7 @@ def get_generated_callback(is_generator: bool = False) -> Callback:
 @frozen
-class UDF(Step, ABC):
+class UDFStep(Step, ABC):
     udf: UDFType
     catalog: "Catalog"
     partition_by: Optional[PartitionByType] = None
@@ -507,13 +508,12 @@ class UDF(Step, ABC):
                 # Run the UDFDispatcher in another process to avoid needing
                 # if __name__ == '__main__': in user scripts
-                datachain_exec_path = os.environ.get("DATACHAIN_EXEC_PATH", "datachain")
+                exec_cmd = get_datachain_executable()
                 envs = dict(os.environ)
                 envs.update({"PYTHONPATH": os.getcwd()})
                 process_data = filtered_cloudpickle_dumps(udf_info)
                 result = subprocess.run(  # noqa: S603
-                    [datachain_exec_path, "--internal-run-udf"],
+                    [*exec_cmd, "internal-run-udf"],
                     input=process_data,
                     check=False,
                     env=envs,
@@ -635,7 +635,7 @@ class UDF(Step, ABC):
 @frozen
-class UDFSignal(UDF):
+class UDFSignal(UDFStep):
     is_generator = False
     def create_udf_table(self, query: Select) -> "Table":
@@ -730,7 +730,7 @@ class UDFSignal(UDF):
 @frozen
-class RowGenerator(UDF):
+class RowGenerator(UDFStep):
     """Extend dataset with new rows."""
     is_generator = True
@@ -820,8 +820,16 @@ class SQLMutate(SQLClause):
     args: tuple[ColumnElement, ...]
     def apply_sql_clause(self, query: Select) -> Select:
-        subquery = query.subquery()
-        return sqlalchemy.select(*subquery.c, *self.args).select_from(subquery)
+        original_subquery = query.subquery()
+        # this is needed for new column to be used in clauses
+        # like ORDER BY, otherwise new column is not recognized
+        subquery = (
+            sqlalchemy.select(*original_subquery.c, *self.args)
+            .select_from(original_subquery)
+            .subquery()
+        )
+        return sqlalchemy.select(*subquery.c).select_from(subquery)
 @frozen
@@ -865,6 +873,18 @@ class SQLCount(SQLClause):
         return sqlalchemy.select(f.count(1)).select_from(query.subquery())
+@frozen
+class SQLDistinct(SQLClause):
+    args: tuple[ColumnElement, ...]
+    dialect: str
+    def apply_sql_clause(self, query):
+        if self.dialect == "sqlite":
+            return query.group_by(*self.args)
+        return query.distinct(*self.args)
 @frozen
 class SQLUnion(Step):
     query1: "DatasetQuery"
@@ -946,12 +966,15 @@ class SQLJoin(Step):
         q1_columns = list(q1.c)
         q1_column_names = {c.name for c in q1_columns}
-        q2_columns = [
-            c
-            if c.name not in q1_column_names and c.name != "sys__id"
-            else c.label(self.rname.format(name=c.name))
-            for c in q2.c
-        ]
+        q2_columns = []
+        for c in q2.c:
+            if c.name.startswith("sys__"):
+                continue
+            if c.name in q1_column_names:
+                c = c.label(self.rname.format(name=c.name))
+            q2_columns.append(c)
         res_columns = q1_columns + q2_columns
         predicates = (
@@ -1058,6 +1081,7 @@ class DatasetQuery:
         anon: bool = False,
         indexing_feature_schema: Optional[dict] = None,
         indexing_column_types: Optional[dict[str, Any]] = None,
+        update: Optional[bool] = False,
     ):
         if client_config is None:
             client_config = {}
@@ -1080,10 +1104,12 @@ class DatasetQuery:
         self.session = Session.get(session, catalog=catalog)
         if path:
-            self.starting_step = IndexingStep(path, self.catalog, {}, recursive)
+            kwargs = {"update": True} if update else {}
+            self.starting_step = IndexingStep(path, self.catalog, kwargs, recursive)
             self.feature_schema = indexing_feature_schema
             self.column_types = indexing_column_types
         elif name:
+            self.name = name
             ds = self.catalog.get_dataset(name)
             self.version = version or ds.latest_version
             self.feature_schema = ds.get_version(self.version).feature_schema
@@ -1091,9 +1117,6 @@ class DatasetQuery:
             if "sys__id" in self.column_types:
                 self.column_types.pop("sys__id")
             self.starting_step = QueryStep(self.catalog, name, self.version)
-            # attaching to specific dataset
-            self.name = name
-            self.version = version
         else:
             raise ValueError("must provide path or name")
@@ -1102,7 +1125,7 @@ class DatasetQuery:
         return bool(re.compile(r"^[a-zA-Z0-9]+://").match(path))
     def __iter__(self):
-        return iter(self.results())
+        return iter(self.db_results())
     def __or__(self, other):
         return self.union(other)
@@ -1223,13 +1246,16 @@ class DatasetQuery:
         warehouse.close()
         self.temp_table_names = []
-    def results(self, row_factory=None, **kwargs):
+    def db_results(self, row_factory=None, **kwargs):
         with self.as_iterable(**kwargs) as result:
             if row_factory:
                 cols = result.columns
                 return [row_factory(cols, r) for r in result]
             return list(result)
+    def to_db_records(self) -> list[dict[str, Any]]:
+        return self.db_results(lambda cols, row: dict(zip(cols, row)))
     @contextlib.contextmanager
     def as_iterable(self, **kwargs) -> Iterator[ResultIter]:
         try:
@@ -1289,9 +1315,6 @@ class DatasetQuery:
         finally:
             self.cleanup()
-    def to_records(self) -> list[dict[str, Any]]:
-        return self.results(lambda cols, row: dict(zip(cols, row)))
     def shuffle(self) -> "Self":
         # ToDo: implement shaffle based on seed and/or generating random column
         return self.order_by(C.sys__rand)
@@ -1407,6 +1430,14 @@ class DatasetQuery:
         query.steps.append(SQLOffset(offset))
         return query
+    @detach
+    def distinct(self, *args) -> "Self":
+        query = self.clone()
+        query.steps.append(
+            SQLDistinct(args, dialect=self.catalog.warehouse.db.dialect.name)
+        )
+        return query
     def as_scalar(self) -> Any:
         with self.as_iterable() as rows:
             row = next(iter(rows))
@@ -1705,10 +1736,13 @@ def _send_result(dataset_query: DatasetQuery) -> None:
     columns = preview_args.get("columns") or []
-    preview_query = (
-        dataset_query.select(*columns)
-        .limit(preview_args.get("limit", 10))
-        .offset(preview_args.get("offset", 0))
+    if type(dataset_query) is DatasetQuery:
+        preview_query = dataset_query.select(*columns)
+    else:
+        preview_query = dataset_query.select(*columns, _sys=False)
+    preview_query = preview_query.limit(preview_args.get("limit", 10)).offset(
+        preview_args.get("offset", 0)
     )
     dataset: Optional[tuple[str, int]] = None
@@ -1717,7 +1751,7 @@ def _send_result(dataset_query: DatasetQuery) -> None:
         assert dataset_query.version, "Dataset version should be provided"
         dataset = dataset_query.name, dataset_query.version
-    preview = preview_query.to_records()
+    preview = preview_query.to_db_records()
     result = ExecutionResult(preview, dataset, metrics)
     data = attrs.asdict(result)

datachain/query/schema.py CHANGED Viewed

@@ -32,6 +32,7 @@ class Column(sa.ColumnClause, metaclass=ColumnMeta):
     inherit_cache: Optional[bool] = True
     def __init__(self, text, type_=None, is_literal=False, _selectable=None):
+        """Dataset column."""
         self.name = ColumnMeta.to_db_name(text)
         super().__init__(
             self.name, type_=type_, is_literal=is_literal, _selectable=_selectable
@@ -41,6 +42,7 @@ class Column(sa.ColumnClause, metaclass=ColumnMeta):
         return Column(self.name + DEFAULT_DELIMITER + name)
     def glob(self, glob_str):
+        """Search for matches using glob pattern matching."""
         return self.op("GLOB")(glob_str)

datachain/query/session.py CHANGED Viewed

@@ -28,9 +28,9 @@ class Session:
     Parameters:
-    `name` (str): The name of the session. Only latters and numbers are supported.
+    name (str): The name of the session. Only latters and numbers are supported.
            It can be empty.
-    `catalog` (Catalog): Catalog object.
+    catalog (Catalog): Catalog object.
     """
     GLOBAL_SESSION_CTX: Optional["Session"] = None
@@ -80,9 +80,9 @@ class Session:
         """Creates a Session() object from a catalog.
         Parameters:
-            `session` (Session): Optional Session(). If not provided a new session will
+            session (Session): Optional Session(). If not provided a new session will
                     be created. It's needed mostly for simplie API purposes.
-            `catalog` (Catalog): Optional catalog. By default a new catalog is created.
+            catalog (Catalog): Optional catalog. By default a new catalog is created.
         """
         if session:
             return session

datachain/sql/functions/array.py CHANGED Viewed

@@ -5,6 +5,10 @@ from datachain.sql.utils import compiler_not_implemented
 class cosine_distance(GenericFunction):  # noqa: N801
+    """
+    Takes a column and array and returns the cosine distance between them.
+    """
     type = Float()
     package = "array"
     name = "cosine_distance"
@@ -12,6 +16,10 @@ class cosine_distance(GenericFunction):  # noqa: N801
 class euclidean_distance(GenericFunction):  # noqa: N801
+    """
+    Takes a column and array and returns the Euclidean distance between them.
+    """
     type = Float()
     package = "array"
     name = "euclidean_distance"
@@ -19,6 +27,10 @@ class euclidean_distance(GenericFunction):  # noqa: N801
 class length(GenericFunction):  # noqa: N801
+    """
+    Returns the length of the array.
+    """
     type = Int64()
     package = "array"
     name = "length"

datachain/sql/functions/string.py CHANGED Viewed

@@ -5,6 +5,10 @@ from datachain.sql.utils import compiler_not_implemented
 class length(GenericFunction):  # noqa: N801
+    """
+    Returns the length of the string.
+    """
     type = Int64()
     package = "string"
     name = "length"
@@ -12,6 +16,10 @@ class length(GenericFunction):  # noqa: N801
 class split(GenericFunction):  # noqa: N801
+    """
+    Takes a column and split character and returns an array of the parts.
+    """
     type = Array(String())
     package = "string"
     name = "split"

datachain/torch/__init__.py CHANGED Viewed

@@ -1,5 +1,5 @@
 try:
-    from datachain.lib.clip import similarity_scores as clip_similarity_scores
+    from datachain.lib.clip import clip_similarity_scores
     from datachain.lib.image import convert_image, convert_images
     from datachain.lib.pytorch import PytorchDataset, label_to_int
     from datachain.lib.text import convert_text

datachain/utils.py CHANGED Viewed

@@ -427,3 +427,9 @@ def filtered_cloudpickle_dumps(obj: Any) -> bytes:
             for model_class, namespace in model_namespaces.items():
                 # Restore original __pydantic_parent_namespace__ locally.
                 model_class.__pydantic_parent_namespace__ = namespace
+def get_datachain_executable() -> list[str]:
+    if datachain_exec_path := os.getenv("DATACHAIN_EXEC_PATH"):
+        return [datachain_exec_path]
+    return [sys.executable, "-m", "datachain"]

datachain 0.2.11__py3-none-any.whl → 0.2.13__py3-none-any.whl

Potentially problematic release.

datachain 0.2.11py3-none-any.whl → 0.2.13py3-none-any.whl