PyPI - datachain - Versions diffs - 0.14.2__py3-none-any.whl → 0.39.0__py3-none-any.whl - Mend

datachain 0.14.2py3-none-any.whl → 0.39.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (137) hide show

datachain/__init__.py +20 -0
datachain/asyn.py +11 -12
datachain/cache.py +7 -7
datachain/catalog/__init__.py +2 -2
datachain/catalog/catalog.py +621 -507
datachain/catalog/dependency.py +164 -0
datachain/catalog/loader.py +28 -18
datachain/checkpoint.py +43 -0
datachain/cli/__init__.py +24 -33
datachain/cli/commands/__init__.py +1 -8
datachain/cli/commands/datasets.py +83 -52
datachain/cli/commands/ls.py +17 -17
datachain/cli/commands/show.py +4 -4
datachain/cli/parser/__init__.py +8 -74
datachain/cli/parser/job.py +95 -3
datachain/cli/parser/studio.py +11 -4
datachain/cli/parser/utils.py +1 -2
datachain/cli/utils.py +2 -15
datachain/client/azure.py +4 -4
datachain/client/fsspec.py +45 -28
datachain/client/gcs.py +6 -6
datachain/client/hf.py +29 -2
datachain/client/http.py +157 -0
datachain/client/local.py +15 -11
datachain/client/s3.py +17 -9
datachain/config.py +4 -8
datachain/data_storage/db_engine.py +12 -6
datachain/data_storage/job.py +5 -1
datachain/data_storage/metastore.py +1252 -186
datachain/data_storage/schema.py +58 -45
datachain/data_storage/serializer.py +105 -15
datachain/data_storage/sqlite.py +286 -127
datachain/data_storage/warehouse.py +250 -113
datachain/dataset.py +353 -148
datachain/delta.py +391 -0
datachain/diff/__init__.py +27 -29
datachain/error.py +60 -0
datachain/func/__init__.py +2 -1
datachain/func/aggregate.py +66 -42
datachain/func/array.py +242 -38
datachain/func/base.py +7 -4
datachain/func/conditional.py +110 -60
datachain/func/func.py +96 -45
datachain/func/numeric.py +55 -38
datachain/func/path.py +32 -20
datachain/func/random.py +2 -2
datachain/func/string.py +67 -37
datachain/func/window.py +7 -8
datachain/hash_utils.py +123 -0
datachain/job.py +11 -7
datachain/json.py +138 -0
datachain/lib/arrow.py +58 -22
datachain/lib/audio.py +245 -0
datachain/lib/clip.py +14 -13
datachain/lib/convert/flatten.py +5 -3
datachain/lib/convert/python_to_sql.py +6 -10
datachain/lib/convert/sql_to_python.py +8 -0
datachain/lib/convert/values_to_tuples.py +156 -51
datachain/lib/data_model.py +42 -20
datachain/lib/dataset_info.py +36 -8
datachain/lib/dc/__init__.py +8 -2
datachain/lib/dc/csv.py +25 -28
datachain/lib/dc/database.py +398 -0
datachain/lib/dc/datachain.py +1289 -425
datachain/lib/dc/datasets.py +320 -38
datachain/lib/dc/hf.py +38 -24
datachain/lib/dc/json.py +29 -32
datachain/lib/dc/listings.py +112 -8
datachain/lib/dc/pandas.py +16 -12
datachain/lib/dc/parquet.py +35 -23
datachain/lib/dc/records.py +31 -23
datachain/lib/dc/storage.py +154 -64
datachain/lib/dc/storage_pattern.py +251 -0
datachain/lib/dc/utils.py +24 -16
datachain/lib/dc/values.py +8 -9
datachain/lib/file.py +622 -89
datachain/lib/hf.py +69 -39
datachain/lib/image.py +14 -14
datachain/lib/listing.py +14 -11
datachain/lib/listing_info.py +1 -2
datachain/lib/meta_formats.py +3 -4
datachain/lib/model_store.py +39 -7
datachain/lib/namespaces.py +125 -0
datachain/lib/projects.py +130 -0
datachain/lib/pytorch.py +32 -21
datachain/lib/settings.py +192 -56
datachain/lib/signal_schema.py +427 -104
datachain/lib/tar.py +1 -2
datachain/lib/text.py +8 -7
datachain/lib/udf.py +164 -76
datachain/lib/udf_signature.py +60 -35
datachain/lib/utils.py +118 -4
datachain/lib/video.py +17 -9
datachain/lib/webdataset.py +61 -56
datachain/lib/webdataset_laion.py +15 -16
datachain/listing.py +22 -10
datachain/model/bbox.py +3 -1
datachain/model/ultralytics/bbox.py +16 -12
datachain/model/ultralytics/pose.py +16 -12
datachain/model/ultralytics/segment.py +16 -12
datachain/namespace.py +84 -0
datachain/node.py +6 -6
datachain/nodes_thread_pool.py +0 -1
datachain/plugins.py +24 -0
datachain/project.py +78 -0
datachain/query/batch.py +40 -41
datachain/query/dataset.py +604 -322
datachain/query/dispatch.py +261 -154
datachain/query/metrics.py +4 -6
datachain/query/params.py +2 -3
datachain/query/queue.py +3 -12
datachain/query/schema.py +11 -6
datachain/query/session.py +200 -33
datachain/query/udf.py +34 -2
datachain/remote/studio.py +171 -69
datachain/script_meta.py +12 -12
datachain/semver.py +68 -0
datachain/sql/__init__.py +2 -0
datachain/sql/functions/array.py +33 -1
datachain/sql/postgresql_dialect.py +9 -0
datachain/sql/postgresql_types.py +21 -0
datachain/sql/sqlite/__init__.py +5 -1
datachain/sql/sqlite/base.py +102 -29
datachain/sql/sqlite/types.py +8 -13
datachain/sql/types.py +70 -15
datachain/studio.py +223 -46
datachain/toolkit/split.py +31 -10
datachain/utils.py +101 -59
{datachain-0.14.2.dist-info → datachain-0.39.0.dist-info}/METADATA +77 -22
datachain-0.39.0.dist-info/RECORD +173 -0
{datachain-0.14.2.dist-info → datachain-0.39.0.dist-info}/WHEEL +1 -1
datachain/cli/commands/query.py +0 -53
datachain/query/utils.py +0 -42
datachain-0.14.2.dist-info/RECORD +0 -158
{datachain-0.14.2.dist-info → datachain-0.39.0.dist-info}/entry_points.txt +0 -0
{datachain-0.14.2.dist-info → datachain-0.39.0.dist-info}/licenses/LICENSE +0 -0
{datachain-0.14.2.dist-info → datachain-0.39.0.dist-info}/top_level.txt +0 -0

datachain/studio.py CHANGED Viewed

@@ -1,10 +1,16 @@
 import asyncio
 import os
 import sys
-from typing import TYPE_CHECKING, Optional
+import warnings
+from datetime import datetime, timezone
+from typing import TYPE_CHECKING
+import dateparser
+import tabulate
 from datachain.config import Config, ConfigLevel
-from datachain.dataset import QUERY_DATASET_PREFIX
+from datachain.data_storage.job import JobStatus
+from datachain.dataset import QUERY_DATASET_PREFIX, parse_dataset_name
 from datachain.error import DataChainError
 from datachain.remote.studio import StudioClient
 from datachain.utils import STUDIO_URL
@@ -16,6 +22,8 @@ POST_LOGIN_MESSAGE = (
     "Once you've logged in, return here "
     "and you'll be ready to start using DataChain with Studio."
 )
+RETRY_MAX_TIMES = 10
+RETRY_SLEEP_SEC = 1
 def process_jobs_args(args: "Namespace"):
@@ -35,14 +43,28 @@ def process_jobs_args(args: "Namespace"):
             args.workers,
             args.files,
             args.python_version,
+            args.repository,
             args.req,
             args.req_file,
+            args.priority,
+            args.cluster,
+            args.start_time,
+            args.cron,
+            args.no_wait,
+            args.credentials_name,
         )
     if args.cmd == "cancel":
         return cancel_job(args.id, args.team)
     if args.cmd == "logs":
         return show_job_logs(args.id, args.team)
+    if args.cmd == "ls":
+        return list_jobs(args.status, args.team, args.limit)
+    if args.cmd == "clusters":
+        return list_clusters(args.team)
     raise DataChainError(f"Unknown command '{args.cmd}'.")
@@ -60,14 +82,24 @@ def process_auth_cli_args(args: "Namespace"):
         return logout(args.local)
     if args.cmd == "token":
         return token()
     if args.cmd == "team":
         return set_team(args)
     raise DataChainError(f"Unknown command '{args.cmd}'.")
 def set_team(args: "Namespace"):
-    level = ConfigLevel.GLOBAL if args.__dict__.get("global") else ConfigLevel.LOCAL
+    if args.team_name is None:
+        config = Config().read().get("studio", {})
+        team = config.get("team")
+        if team:
+            print(f"Default team is '{team}'")
+            return 0
+        raise DataChainError(
+            "No default team set. Use `datachain auth team <team_name>` to set one."
+        )
+    level = ConfigLevel.LOCAL if args.local else ConfigLevel.GLOBAL
     config = Config(level)
     with config.edit() as conf:
         studio_conf = conf.get("studio", {})
@@ -80,11 +112,13 @@ def set_team(args: "Namespace"):
 def login(args: "Namespace"):
     from dvc_studio_client.auth import StudioAuthError, get_access_token
+    from datachain.remote.studio import get_studio_env_variable
     config = Config().read().get("studio", {})
     name = args.name
     hostname = (
         args.hostname
-        or os.environ.get("DVC_STUDIO_URL")
+        or get_studio_env_variable("URL")
         or config.get("url")
         or STUDIO_URL
     )
@@ -113,6 +147,7 @@ def login(args: "Namespace"):
     level = ConfigLevel.LOCAL if args.local else ConfigLevel.GLOBAL
     config_path = save_config(hostname, access_token, level=level)
     print(f"Authentication complete. Saved token to {config_path}.")
+    print("You can now use 'datachain auth team' to set the default team.")
     return 0
@@ -141,7 +176,12 @@ def token():
     print(token)
-def list_datasets(team: Optional[str] = None, name: Optional[str] = None):
+def list_datasets(team: str | None = None, name: str | None = None):
+    def ds_full_name(ds: dict) -> str:
+        return (
+            f"{ds['project']['namespace']['name']}.{ds['project']['name']}.{ds['name']}"
+        )
     if name:
         yield from list_dataset_versions(team, name)
         return
@@ -158,18 +198,22 @@ def list_datasets(team: Optional[str] = None, name: Optional[str] = None):
     for d in response.data:
         name = d.get("name")
+        full_name = ds_full_name(d)
         if name and name.startswith(QUERY_DATASET_PREFIX):
             continue
         for v in d.get("versions", []):
             version = v.get("version")
-            yield (name, version)
+            yield (full_name, version)
-def list_dataset_versions(team: Optional[str] = None, name: str = ""):
+def list_dataset_versions(team: str | None = None, name: str = ""):
     client = StudioClient(team=team)
-    response = client.dataset_info(name)
+    namespace_name, project_name, name = parse_dataset_name(name)
+    if not namespace_name or not project_name:
+        raise DataChainError(f"Missing namespace or project form dataset name {name}")
+    response = client.dataset_info(namespace_name, project_name, name)
     if not response.ok:
         raise DataChainError(response.message)
@@ -183,14 +227,18 @@ def list_dataset_versions(team: Optional[str] = None, name: str = ""):
 def edit_studio_dataset(
-    team_name: Optional[str],
+    team_name: str | None,
     name: str,
-    new_name: Optional[str] = None,
-    description: Optional[str] = None,
-    labels: Optional[list[str]] = None,
+    namespace: str,
+    project: str,
+    new_name: str | None = None,
+    description: str | None = None,
+    attrs: list[str] | None = None,
 ):
     client = StudioClient(team=team_name)
-    response = client.edit_dataset(name, new_name, description, labels)
+    response = client.edit_dataset(
+        name, namespace, project, new_name, description, attrs
+    )
     if not response.ok:
         raise DataChainError(response.message)
@@ -198,13 +246,15 @@ def edit_studio_dataset(
 def remove_studio_dataset(
-    team_name: Optional[str],
+    team_name: str | None,
     name: str,
-    version: Optional[int] = None,
-    force: Optional[bool] = False,
+    namespace: str,
+    project: str,
+    version: str | None = None,
+    force: bool | None = False,
 ):
     client = StudioClient(team=team_name)
-    response = client.rm_dataset(name, version, force)
+    response = client.rm_dataset(name, namespace, project, version, force)
     if not response.ok:
         raise DataChainError(response.message)
@@ -222,42 +272,102 @@ def save_config(hostname, token, level=ConfigLevel.GLOBAL):
     return config.config_file()
+def parse_start_time(start_time_str: str | None) -> str | None:
+    if not start_time_str:
+        return None
+    # dateparser#1246: it explores strptime patterns lacking a year, which
+    # triggers a CPython 3.13 DeprecationWarning. Suppress that noise until a
+    # new dateparser release includes the upstream fix.
+    # https://github.com/scrapinghub/dateparser/issues/1246
+    with warnings.catch_warnings():
+        warnings.filterwarnings(
+            "ignore",
+            category=DeprecationWarning,
+            module="dateparser\\.utils\\.strptime",
+        )
+        parsed_datetime = dateparser.parse(start_time_str)
+    if parsed_datetime is None:
+        raise DataChainError(
+            f"Could not parse datetime string: '{start_time_str}'. "
+            f"Supported formats include: '2024-01-15 14:30:00', 'tomorrow 3pm', "
+            f"'monday 9am', '2024-01-15T14:30:00Z', 'in 2 hours', etc."
+        )
+    # Convert to ISO format string
+    return parsed_datetime.isoformat()
 def show_logs_from_client(client, job_id):
     # Sync usage
     async def _run():
-        async for message in client.tail_job_logs(job_id):
-            if "logs" in message:
-                for log in message["logs"]:
-                    print(log["message"], end="")
-            elif "job" in message:
-                print(f"\n>>>> Job is now in {message['job']['status']} status.")
-    asyncio.run(_run())
+        retry_count = 0
+        latest_status = None
+        processed_statuses = set()
+        while True:
+            async for message in client.tail_job_logs(job_id):
+                if "logs" in message:
+                    for log in message["logs"]:
+                        print(log["message"], end="")
+                elif "job" in message:
+                    latest_status = message["job"]["status"]
+                    if latest_status in processed_statuses:
+                        continue
+                    processed_statuses.add(latest_status)
+                    print(f"\n>>>> Job is now in {latest_status} status.")
+            try:
+                if retry_count > RETRY_MAX_TIMES or (
+                    latest_status and JobStatus[latest_status].finished()
+                ):
+                    break
+                await asyncio.sleep(RETRY_SLEEP_SEC)
+                retry_count += 1
+            except KeyError:
+                pass
+        return latest_status
+    final_status = asyncio.run(_run())
     response = client.dataset_job_versions(job_id)
     if not response.ok:
         raise DataChainError(response.message)
     response_data = response.data
-    if response_data:
+    if response_data and response_data.get("dataset_versions"):
         dataset_versions = response_data.get("dataset_versions", [])
         print("\n\n>>>> Dataset versions created during the job:")
         for version in dataset_versions:
             print(f"    - {version.get('dataset_name')}@v{version.get('version')}")
     else:
-        print("No dataset versions created during the job.")
+        print("\n\nNo dataset versions created during the job.")
+    exit_code_by_status = {
+        "FAILED": 1,
+        "CANCELED": 2,
+    }
+    return exit_code_by_status.get(final_status.upper(), 0) if final_status else 0
 def create_job(
     query_file: str,
-    team_name: Optional[str],
-    env_file: Optional[str] = None,
-    env: Optional[list[str]] = None,
-    workers: Optional[int] = None,
-    files: Optional[list[str]] = None,
-    python_version: Optional[str] = None,
-    req: Optional[list[str]] = None,
-    req_file: Optional[str] = None,
+    team_name: str | None,
+    env_file: str | None = None,
+    env: list[str] | None = None,
+    workers: int | None = None,
+    files: list[str] | None = None,
+    python_version: str | None = None,
+    repository: str | None = None,
+    req: list[str] | None = None,
+    req_file: str | None = None,
+    priority: int | None = None,
+    cluster: str | None = None,
+    start_time: str | None = None,
+    cron: str | None = None,
+    no_wait: bool | None = False,
+    credentials_name: str | None = None,
 ):
     query_type = "PYTHON" if query_file.endswith(".py") else "SHELL"
     with open(query_file) as f:
@@ -276,6 +386,11 @@ def create_job(
     client = StudioClient(team=team_name)
     file_ids = upload_files(client, files) if files else []
+    # Parse start_time if provided
+    parsed_start_time = parse_start_time(start_time)
+    if cron and parsed_start_time is None:
+        parsed_start_time = datetime.now(timezone.utc).isoformat()
     response = client.create_job(
         query=query,
         query_type=query_type,
@@ -284,7 +399,13 @@ def create_job(
         query_name=os.path.basename(query_file),
         files=file_ids,
         python_version=python_version,
+        repository=repository,
         requirements=requirements,
+        priority=priority,
+        cluster=cluster,
+        start_time=parsed_start_time,
+        cron=cron,
+        credentials_name=credentials_name,
     )
     if not response.ok:
         raise DataChainError(response.message)
@@ -292,12 +413,17 @@ def create_job(
     if not response.data:
         raise DataChainError("Failed to create job")
-    job_id = response.data.get("job", {}).get("id")
+    job_id = response.data.get("id")
+    if parsed_start_time or cron:
+        print(f"Job {job_id} is scheduled as a task in Studio.")
+        return 0
     print(f"Job {job_id} created")
-    print("Open the job in Studio at", response.data.get("job", {}).get("url"))
+    print("Open the job in Studio at", response.data.get("url"))
     print("=" * 40)
-    show_logs_from_client(client, job_id)
+    return 0 if no_wait else show_logs_from_client(client, job_id)
 def upload_files(client: StudioClient, files: list[str]) -> list[str]:
@@ -305,21 +431,19 @@ def upload_files(client: StudioClient, files: list[str]) -> list[str]:
     for file in files:
         file_name = os.path.basename(file)
         with open(file, "rb") as f:
-            file_content = f.read()
-        response = client.upload_file(file_content, file_name)
+            response = client.upload_file(f, file_name)
         if not response.ok:
             raise DataChainError(response.message)
         if not response.data:
             raise DataChainError(f"Failed to upload file {file_name}")
-        file_id = response.data.get("blob", {}).get("id")
-        if file_id:
+        if file_id := response.data.get("id"):
             file_ids.append(str(file_id))
     return file_ids
-def cancel_job(job_id: str, team_name: Optional[str]):
+def cancel_job(job_id: str, team_name: str | None):
     token = Config().read().get("studio", {}).get("token")
     if not token:
         raise DataChainError(
@@ -334,7 +458,32 @@ def cancel_job(job_id: str, team_name: Optional[str]):
     print(f"Job {job_id} canceled")
-def show_job_logs(job_id: str, team_name: Optional[str]):
+def list_jobs(status: str | None, team_name: str | None, limit: int):
+    client = StudioClient(team=team_name)
+    response = client.get_jobs(status, limit)
+    if not response.ok:
+        raise DataChainError(response.message)
+    jobs = response.data or []
+    if not jobs:
+        print("No jobs found")
+        return
+    rows = [
+        {
+            "ID": job.get("id"),
+            "Name": job.get("name"),
+            "Status": job.get("status"),
+            "Created at": job.get("created_at"),
+            "Created by": job.get("created_by"),
+        }
+        for job in jobs
+    ]
+    print(tabulate.tabulate(rows, headers="keys", tablefmt="grid"))
+def show_job_logs(job_id: str, team_name: str | None):
     token = Config().read().get("studio", {}).get("token")
     if not token:
         raise DataChainError(
@@ -342,4 +491,32 @@ def show_job_logs(job_id: str, team_name: Optional[str]):
         )
     client = StudioClient(team=team_name)
-    show_logs_from_client(client, job_id)
+    return show_logs_from_client(client, job_id)
+def list_clusters(team_name: str | None):
+    client = StudioClient(team=team_name)
+    response = client.get_clusters()
+    if not response.ok:
+        raise DataChainError(response.message)
+    clusters = response.data or []
+    if not clusters:
+        print("No clusters found")
+        return
+    rows = [
+        {
+            "ID": cluster.get("id"),
+            "Name": cluster.get("name"),
+            "Status": cluster.get("status"),
+            "Cloud Provider": cluster.get("cloud_provider"),
+            "Cloud Credentials": cluster.get("cloud_credentials"),
+            "Is Active": cluster.get("is_active"),
+            "Is Default": cluster.get("default"),
+            "Max Workers": cluster.get("max_workers"),
+        }
+        for cluster in clusters
+    ]
+    print(tabulate.tabulate(rows, headers="keys", tablefmt="grid"))

datachain/toolkit/split.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import random
-from typing import Optional
 from datachain import C, DataChain
+from datachain.lib.signal_schema import SignalResolvingError
 RESOLUTION = 2**31 - 1  # Maximum positive value for a 32-bit signed integer.
@@ -9,7 +9,7 @@ RESOLUTION = 2**31 - 1  # Maximum positive value for a 32-bit signed integer.
 def train_test_split(
     dc: DataChain,
     weights: list[float],
-    seed: Optional[int] = None,
+    seed: int | None = None,
 ) -> list[DataChain]:
     """
     Splits a DataChain into multiple subsets based on the provided weights.
@@ -60,7 +60,10 @@ def train_test_split(
         ```
     Note:
-        The splits are random but deterministic, based on Dataset `sys__rand` field.
+        Splits reuse the same best-effort shuffle used by `DataChain.shuffle`. Results
+        are typically repeatable, but earlier operations such as `merge`, `union`, or
+        custom SQL that reshuffle rows can change the outcome between runs. Add order by
+        stable keys first when you need strict reproducibility.
     """
     if len(weights) < 2:
         raise ValueError("Weights should have at least two elements")
@@ -69,16 +72,34 @@ def train_test_split(
     weights_normalized = [weight / sum(weights) for weight in weights]
+    try:
+        dc.signals_schema.resolve("sys.rand")
+    except SignalResolvingError:
+        dc = dc.persist()
     rand_col = C("sys.rand")
     if seed is not None:
         uniform_seed = random.Random(seed).randrange(1, RESOLUTION)  # noqa: S311
         rand_col = (rand_col % RESOLUTION) * uniform_seed  # type: ignore[assignment]
     rand_col = rand_col % RESOLUTION  # type: ignore[assignment]
-    return [
-        dc.filter(
-            rand_col >= round(sum(weights_normalized[:index]) * (RESOLUTION - 1)),
-            rand_col < round(sum(weights_normalized[: index + 1]) * (RESOLUTION - 1)),
-        )
-        for index, _ in enumerate(weights_normalized)
-    ]
+    boundaries: list[int] = [0]
+    cumulative = 0.0
+    for weight in weights_normalized[:-1]:
+        cumulative += weight
+        boundary = round(cumulative * RESOLUTION)
+        boundaries.append(min(boundary, RESOLUTION))
+    boundaries.append(RESOLUTION)
+    splits: list[DataChain] = []
+    last_index = len(weights_normalized) - 1
+    for index in range(len(weights_normalized)):
+        lower = boundaries[index]
+        if index == last_index:
+            condition = rand_col >= lower
+        else:
+            upper = boundaries[index + 1]
+            condition = (rand_col >= lower) & (rand_col < upper)
+        splits.append(dc.filter(condition))
+    return splits

datachain 0.14.2__py3-none-any.whl → 0.39.0__py3-none-any.whl

datachain 0.14.2py3-none-any.whl → 0.39.0py3-none-any.whl