PyPI - datachain - Versions diffs - 0.26.4__py3-none-any.whl → 0.28.0__py3-none-any.whl - Mend

datachain 0.26.4py3-none-any.whl → 0.28.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of datachain might be problematic. Click here for more details.

Files changed (16) hide show

datachain/cli/parser/job.py +8 -3
datachain/data_storage/job.py +2 -1
datachain/lib/arrow.py +1 -1
datachain/lib/audio.py +123 -30
datachain/lib/data_model.py +9 -1
datachain/lib/dc/hf.py +20 -4
datachain/lib/file.py +43 -8
datachain/lib/hf.py +17 -7
datachain/lib/video.py +4 -1
datachain/studio.py +42 -27
{datachain-0.26.4.dist-info → datachain-0.28.0.dist-info}/METADATA +6 -3
{datachain-0.26.4.dist-info → datachain-0.28.0.dist-info}/RECORD +16 -16
{datachain-0.26.4.dist-info → datachain-0.28.0.dist-info}/WHEEL +0 -0
{datachain-0.26.4.dist-info → datachain-0.28.0.dist-info}/entry_points.txt +0 -0
{datachain-0.26.4.dist-info → datachain-0.28.0.dist-info}/licenses/LICENSE +0 -0
{datachain-0.26.4.dist-info → datachain-0.28.0.dist-info}/top_level.txt +0 -0

datachain/cli/parser/job.py CHANGED Viewed

@@ -20,8 +20,8 @@ def add_jobs_parser(subparsers, parent_parser) -> None:
     studio_run_description = "Run a job in Studio. \n"
     studio_run_description += (
         "When using --start-time or --cron,"
-        " the job is scheduled as a task and will not show logs immediately."
-        " The job will be executed according to the schedule."
+        " the job is scheduled to run but won't start immediately"
+        " (can be seen in the Tasks tab in UI)"
     )
     studio_run_parser = jobs_subparser.add_parser(
@@ -104,11 +104,16 @@ def add_jobs_parser(subparsers, parent_parser) -> None:
     studio_run_parser.add_argument(
         "--start-time",
         action="store",
-        help="Start time in ISO format or natural language for the cron task.",
+        help="Time to schedule a task in YYYY-MM-DDTHH:mm format or natural language.",
     )
     studio_run_parser.add_argument(
         "--cron", action="store", help="Cron expression for the cron task."
     )
+    studio_run_parser.add_argument(
+        "--no-wait",
+        action="store_true",
+        help="Do not wait for the job to finish",
+    )
     studio_ls_help = "List jobs in Studio"
     studio_ls_description = "List jobs in Studio."

datachain/data_storage/job.py CHANGED Viewed

@@ -12,10 +12,11 @@ class JobStatus(int, Enum):
     CANCELING = 7
     CANCELED = 8
     CANCELING_SCHEDULED = 9
+    TASK = 11
     @classmethod
     def finished(cls) -> tuple[int, ...]:
-        return cls.COMPLETE, cls.FAILED, cls.CANCELED
+        return cls.COMPLETE, cls.FAILED, cls.CANCELED, cls.TASK
 class JobQueryType(int, Enum):

datachain/lib/arrow.py CHANGED Viewed

@@ -245,7 +245,7 @@ def arrow_type_mapper(col_type: pa.DataType, column: str = "") -> type:  # noqa:
             if field.nullable and not ModelStore.is_pydantic(dtype):
                 dtype = Optional[dtype]  # type: ignore[assignment]
             type_dict[field.name] = dtype
-        return dict_to_data_model(column, type_dict)
+        return dict_to_data_model(f"ArrowDataModel_{column}", type_dict)
     if pa.types.is_map(col_type):
         return dict
     if isinstance(col_type, pa.lib.DictionaryType):

datachain/lib/audio.py CHANGED Viewed

@@ -33,10 +33,14 @@ def audio_info(file: "Union[File, AudioFile]") -> "Audio":
             frames = int(info.num_frames)
             duration = float(frames / sample_rate) if sample_rate > 0 else 0.0
-            # Get format information
-            format_name = getattr(info, "format", "")
             codec_name = getattr(info, "encoding", "")
-            bit_rate = getattr(info, "bits_per_sample", 0) * sample_rate * channels
+            file_ext = file.get_file_ext().lower()
+            format_name = _encoding_to_format(codec_name, file_ext)
+            bits_per_sample = getattr(info, "bits_per_sample", 0)
+            bit_rate = (
+                bits_per_sample * sample_rate * channels if bits_per_sample > 0 else -1
+            )
     except Exception as exc:
         raise FileError(
@@ -54,7 +58,47 @@ def audio_info(file: "Union[File, AudioFile]") -> "Audio":
     )
-def audio_fragment_np(
+def _encoding_to_format(encoding: str, file_ext: str) -> str:
+    """
+    Map torchaudio encoding to a format name.
+    Args:
+        encoding: The encoding string from torchaudio.info()
+        file_ext: The file extension as a fallback
+    Returns:
+        Format name as a string
+    """
+    # Direct mapping for formats that match exactly
+    encoding_map = {
+        "FLAC": "flac",
+        "MP3": "mp3",
+        "VORBIS": "ogg",
+        "AMR_WB": "amr",
+        "AMR_NB": "amr",
+        "OPUS": "opus",
+        "GSM": "gsm",
+    }
+    if encoding in encoding_map:
+        return encoding_map[encoding]
+    # For PCM variants, use file extension to determine format
+    if encoding.startswith("PCM_"):
+        # Common PCM formats by extension
+        pcm_formats = {
+            "wav": "wav",
+            "aiff": "aiff",
+            "au": "au",
+            "raw": "raw",
+        }
+        return pcm_formats.get(file_ext, "wav")  # Default to wav for PCM
+    # Fallback to file extension if encoding is unknown
+    return file_ext if file_ext else "unknown"
+def audio_to_np(
     audio: "AudioFile", start: float = 0, duration: Optional[float] = None
 ) -> "tuple[ndarray, int]":
     """Load audio fragment as numpy array.
@@ -98,14 +142,17 @@ def audio_fragment_np(
         ) from exc
-def audio_fragment_bytes(
+def audio_to_bytes(
     audio: "AudioFile",
+    format: str = "wav",
     start: float = 0,
     duration: Optional[float] = None,
-    format: str = "wav",
 ) -> bytes:
-    """Convert audio fragment to bytes using soundfile."""
-    y, sr = audio_fragment_np(audio, start, duration)
+    """Convert audio to bytes using soundfile.
+    If duration is None, converts from start to end of file.
+    If start is 0 and duration is None, converts entire file."""
+    y, sr = audio_to_np(audio, start, duration)
     import io
@@ -116,36 +163,82 @@ def audio_fragment_bytes(
     return buffer.getvalue()
-def save_audio_fragment(
+def save_audio(
     audio: "AudioFile",
-    start: float,
-    end: float,
     output: str,
     format: Optional[str] = None,
+    start: float = 0,
+    end: Optional[float] = None,
 ) -> "AudioFile":
-    """Save audio fragment with timestamped filename.
-    Supports local and remote storage upload."""
-    if start < 0 or end < 0 or start >= end:
-        raise ValueError(f"Invalid time range: ({start:.3f}, {end:.3f})")
+    """Save audio file or extract fragment to specified format.
+    Args:
+        audio: Source AudioFile object
+        output: Output directory path
+        format: Output format ('wav', 'mp3', etc). Defaults to source format
+        start: Start time in seconds (>= 0). Defaults to 0
+        end: End time in seconds. If None, extracts to end of file
+    Returns:
+        AudioFile: New audio file with format conversion/extraction applied
+    Examples:
+        save_audio(audio, "/path", "mp3")                       # Entire file to MP3
+        save_audio(audio, "s3://bucket/path", "wav", start=2.5) # From 2.5s to end
+        save_audio(audio, "/path", "flac", start=1, end=3)      # Extract 1-3s fragment
+    """
     if format is None:
         format = audio.get_file_ext()
-    duration = end - start
-    start_ms = int(start * 1000)
-    end_ms = int(end * 1000)
-    output_file = posixpath.join(
-        output, f"{audio.get_file_stem()}_{start_ms:06d}_{end_ms:06d}.{format}"
-    )
+    # Validate start time
+    if start < 0:
+        raise ValueError(
+            f"Can't save audio for '{audio.path}', "
+            f"start time must be non-negative: {start:.3f}"
+        )
+    # Handle full file conversion when end is None and start is 0
+    if end is None and start == 0:
+        output_file = posixpath.join(output, f"{audio.get_file_stem()}.{format}")
+        try:
+            audio_bytes = audio_to_bytes(audio, format, start=0, duration=None)
+        except Exception as exc:
+            raise FileError(
+                "unable to convert audio file", audio.source, audio.path
+            ) from exc
+    elif end is None:
+        # Extract from start to end of file
+        output_file = posixpath.join(
+            output, f"{audio.get_file_stem()}_{int(start * 1000):06d}_end.{format}"
+        )
+        try:
+            audio_bytes = audio_to_bytes(audio, format, start=start, duration=None)
+        except Exception as exc:
+            raise FileError(
+                "unable to save audio fragment", audio.source, audio.path
+            ) from exc
+    else:
+        # Fragment extraction mode with specific end time
+        if end < 0 or start >= end:
+            raise ValueError(
+                f"Can't save audio for '{audio.path}', "
+                f"invalid time range: ({start:.3f}, {end:.3f})"
+            )
-    try:
-        audio_bytes = audio_fragment_bytes(audio, start, duration, format)
+        duration = end - start
+        start_ms = int(start * 1000)
+        end_ms = int(end * 1000)
+        output_file = posixpath.join(
+            output, f"{audio.get_file_stem()}_{start_ms:06d}_{end_ms:06d}.{format}"
+        )
-        from datachain.lib.file import AudioFile
+        try:
+            audio_bytes = audio_to_bytes(audio, format, start, duration)
+        except Exception as exc:
+            raise FileError(
+                "unable to save audio fragment", audio.source, audio.path
+            ) from exc
-        return AudioFile.upload(audio_bytes, output_file, catalog=audio._catalog)
+    from datachain.lib.file import AudioFile
-    except Exception as exc:
-        raise FileError(
-            "unable to save audio fragment", audio.source, audio.path
-        ) from exc
+    return AudioFile.upload(audio_bytes, output_file, catalog=audio._catalog)

datachain/lib/data_model.py CHANGED Viewed

@@ -1,3 +1,5 @@
+import inspect
+import uuid
 from collections.abc import Sequence
 from datetime import datetime
 from typing import ClassVar, Optional, Union, get_args, get_origin
@@ -80,7 +82,9 @@ def dict_to_data_model(
     fields = {
         name: (
-            anno,
+            anno
+            if inspect.isclass(anno) and issubclass(anno, BaseModel)
+            else Optional[anno],
             Field(
                 validation_alias=AliasChoices(name, original_names[idx] or name),
                 default=None,
@@ -101,6 +105,10 @@ def dict_to_data_model(
                     field_info[str(alias)] = (_name, field)
             return field_info
+    # Generate random unique name if not provided
+    if not name:
+        name = f"DataModel_{uuid.uuid4().hex[:8]}"
     return create_model(
         name,
         __base__=_DataModelStrict,

datachain/lib/dc/hf.py CHANGED Viewed

@@ -25,19 +25,23 @@ def read_hf(
     settings: Optional[dict] = None,
     column: str = "",
     model_name: str = "",
+    limit: int = 0,
     **kwargs,
 ) -> "DataChain":
-    """Generate chain from huggingface hub dataset.
+    """Generate chain from Hugging Face Hub dataset.
     Parameters:
         dataset : Path or name of the dataset to read from Hugging Face Hub,
             or an instance of `datasets.Dataset`-like object.
-        args : Additional positional arguments to pass to datasets.load_dataset.
+        args : Additional positional arguments to pass to `datasets.load_dataset`.
         session : Session to use for the chain.
         settings : Settings to use for the chain.
         column : Generated object column name.
         model_name : Generated model name.
-        kwargs : Parameters to pass to datasets.load_dataset.
+        limit : Limit the number of items to read from the HF dataset.
+                Adds `take(limit)` to the `datasets.load_dataset`.
+                Defaults to 0 (no limit).
+        kwargs : Parameters to pass to `datasets.load_dataset`.
     Example:
         Load from Hugging Face Hub:
@@ -53,6 +57,18 @@ def read_hf(
         import datachain as dc
         chain = dc.read_hf(ds)
         ```
+        Streaming with limit, for large datasets:
+        ```py
+        import datachain as dc
+        ds = dc.read_hf("beans", split="train", streaming=True, limit=10)
+        ```
+        or use HF split syntax (not supported if streaming is enabled):
+        ```py
+        import datachain as dc
+        ds = dc.read_hf("beans", split="train[%10]")
+        ```
     """
     from datachain.lib.hf import HFGenerator, get_output_schema, stream_splits
@@ -72,4 +88,4 @@ def read_hf(
         output = {column: model}
     chain = read_values(split=list(ds_dict.keys()), session=session, settings=settings)
-    return chain.gen(HFGenerator(dataset, model, *args, **kwargs), output=output)
+    return chain.gen(HFGenerator(dataset, model, limit, *args, **kwargs), output=output)

datachain/lib/file.py CHANGED Viewed

@@ -832,7 +832,10 @@ class VideoFile(File):
             VideoFragment: A Model representing the video fragment.
         """
         if start < 0 or end < 0 or start >= end:
-            raise ValueError(f"Invalid time range: ({start:.3f}, {end:.3f})")
+            raise ValueError(
+                f"Can't get video fragment for '{self.path}', "
+                f"invalid time range: ({start:.3f}, {end:.3f})"
+            )
         return VideoFragment(video=self, start=start, end=end)
@@ -915,7 +918,10 @@ class AudioFile(File):
             AudioFragment: A Model representing the audio fragment.
         """
         if start < 0 or end < 0 or start >= end:
-            raise ValueError(f"Invalid time range: ({start:.3f}, {end:.3f})")
+            raise ValueError(
+                f"Can't get audio fragment for '{self.path}', "
+                f"invalid time range: ({start:.3f}, {end:.3f})"
+            )
         return AudioFragment(audio=self, start=start, end=end)
@@ -958,6 +964,35 @@ class AudioFile(File):
             yield self.get_fragment(start, min(start + duration, end))
             start += duration
+    def save(  # type: ignore[override]
+        self,
+        output: str,
+        format: Optional[str] = None,
+        start: float = 0,
+        end: Optional[float] = None,
+        client_config: Optional[dict] = None,
+    ) -> "AudioFile":
+        """Save audio file or extract fragment to specified format.
+        Args:
+            output: Output directory path
+            format: Output format ('wav', 'mp3', etc). Defaults to source format
+            start: Start time in seconds (>= 0). Defaults to 0
+            end: End time in seconds. If None, extracts to end of file
+            client_config: Optional client configuration
+        Returns:
+            AudioFile: New audio file with format conversion/extraction applied
+        Examples:
+            audio.save("/path", "mp3")                        # Entire file to MP3
+            audio.save("s3://bucket/path", "wav", start=2.5)  # From 2.5s to end as WAV
+            audio.save("/path", "flac", start=1, end=3)       # 1-3s fragment as FLAC
+        """
+        from .audio import save_audio
+        return save_audio(self, output, format, start, end)
 class AudioFragment(DataModel):
     """
@@ -985,10 +1020,10 @@ class AudioFragment(DataModel):
             tuple[ndarray, int]: A tuple containing the audio data as a NumPy array
                                and the sample rate.
         """
-        from .audio import audio_fragment_np
+        from .audio import audio_to_np
         duration = self.end - self.start
-        return audio_fragment_np(self.audio, self.start, duration)
+        return audio_to_np(self.audio, self.start, duration)
     def read_bytes(self, format: str = "wav") -> bytes:
         """
@@ -1001,10 +1036,10 @@ class AudioFragment(DataModel):
         Returns:
             bytes: The encoded audio fragment as bytes.
         """
-        from .audio import audio_fragment_bytes
+        from .audio import audio_to_bytes
         duration = self.end - self.start
-        return audio_fragment_bytes(self.audio, self.start, duration, format)
+        return audio_to_bytes(self.audio, format, self.start, duration)
     def save(self, output: str, format: Optional[str] = None) -> "AudioFile":
         """
@@ -1022,9 +1057,9 @@ class AudioFragment(DataModel):
         Returns:
             AudioFile: A Model representing the saved audio file.
         """
-        from .audio import save_audio_fragment
+        from .audio import save_audio
-        return save_audio_fragment(self.audio, self.start, self.end, output, format)
+        return save_audio(self.audio, output, format, self.start, self.end)
 class VideoFrame(DataModel):

datachain/lib/hf.py CHANGED Viewed

@@ -69,21 +69,25 @@ class HFGenerator(Generator):
         self,
         ds: Union[str, HFDatasetType],
         output_schema: type["BaseModel"],
+        limit: int = 0,
         *args,
         **kwargs,
     ):
         """
-        Generator for chain from huggingface datasets.
+        Generator for chain from Hugging Face datasets.
         Parameters:
-        ds : Path or name of the dataset to read from Hugging Face Hub,
-            or an instance of `datasets.Dataset`-like object.
-        output_schema : Pydantic model for validation.
+            ds : Path or name of the dataset to read from Hugging Face Hub,
+                or an instance of `datasets.Dataset`-like object.
+            limit : Limit the number of items to read from the HF dataset.
+                    Defaults to 0 (no limit).
+            output_schema : Pydantic model for validation.
         """
         super().__init__()
         self.ds = ds
         self.output_schema = output_schema
+        self.limit = limit
         self.args = args
         self.kwargs = kwargs
@@ -93,6 +97,8 @@ class HFGenerator(Generator):
     def process(self, split: str = ""):
         desc = "Parsed Hugging Face dataset"
         ds = self.ds_dict[split]
+        if self.limit > 0:
+            ds = ds.take(self.limit)
         if split:
             desc += f" split '{split}'"
         model_fields = self.output_schema._model_fields_by_aliases()  # type: ignore[attr-defined]
@@ -113,7 +119,6 @@ class HFGenerator(Generator):
 def stream_splits(ds: Union[str, HFDatasetType], *args, **kwargs):
     if isinstance(ds, str):
-        kwargs["streaming"] = True
         ds = load_dataset(ds, *args, **kwargs)
     if isinstance(ds, (DatasetDict, IterableDatasetDict)):
         return ds
@@ -132,7 +137,12 @@ def convert_feature(val: Any, feat: Any, anno: Any) -> Any:
             sfeat = feat[sname]
             norm_name, info = model_fields[sname]
             sanno = info.annotation
-            sdict[norm_name] = [convert_feature(v, sfeat, sanno) for v in val[sname]]
+            if isinstance(val[sname], list):
+                sdict[norm_name] = [
+                    convert_feature(v, sfeat, sanno) for v in val[sname]
+                ]
+            else:
+                sdict[norm_name] = convert_feature(val[sname], sfeat, sanno)
         return anno(**sdict)
     if isinstance(feat, Image):
         if isinstance(val, dict):
@@ -174,7 +184,7 @@ def _feature_to_chain_type(name: str, val: Any) -> DataType:  # noqa: PLR0911
         for sname, sval in val.items():
             dtype = _feature_to_chain_type(sname, sval)
             sequence_dict[sname] = dtype  # type: ignore[valid-type]
-        return dict_to_data_model(name, sequence_dict)  # type: ignore[arg-type]
+        return dict_to_data_model(f"HFDataModel_{name}", sequence_dict)  # type: ignore[arg-type]
     if isinstance(val, List):
         return list[_feature_to_chain_type(name, val.feature)]  # type: ignore[arg-type,misc,return-value]
     if isinstance(val, Array2D):

datachain/lib/video.py CHANGED Viewed

@@ -205,7 +205,10 @@ def save_video_fragment(
         VideoFile: Video fragment model.
     """
     if start < 0 or end < 0 or start >= end:
-        raise ValueError(f"Invalid time range: ({start:.3f}, {end:.3f})")
+        raise ValueError(
+            f"Can't save video fragment for '{video.path}', "
+            f"invalid time range: ({start:.3f}, {end:.3f})"
+        )
     if format is None:
         format = video.get_file_ext()

datachain/studio.py CHANGED Viewed

@@ -8,6 +8,7 @@ import dateparser
 import tabulate
 from datachain.config import Config, ConfigLevel
+from datachain.data_storage.job import JobStatus
 from datachain.dataset import QUERY_DATASET_PREFIX, parse_dataset_name
 from datachain.error import DataChainError
 from datachain.remote.studio import StudioClient
@@ -20,6 +21,8 @@ POST_LOGIN_MESSAGE = (
     "Once you've logged in, return here "
     "and you'll be ready to start using DataChain with Studio."
 )
+RETRY_MAX_TIMES = 10
+RETRY_SLEEP_SEC = 1
 def process_jobs_args(args: "Namespace"):
@@ -46,6 +49,7 @@ def process_jobs_args(args: "Namespace"):
             args.cluster,
             args.start_time,
             args.cron,
+            args.no_wait,
         )
     if args.cmd == "cancel":
@@ -270,41 +274,51 @@ def parse_start_time(start_time_str: Optional[str]) -> Optional[str]:
     if not start_time_str:
         return None
-    try:
-        # Parse the datetime string using dateparser
-        parsed_datetime = dateparser.parse(start_time_str)
-        if parsed_datetime is None:
-            raise DataChainError(
-                f"Could not parse datetime string: '{start_time_str}'. "
-                f"Supported formats include: '2024-01-15 14:30:00', 'tomorrow 3pm', "
-                f"'monday 9am', '2024-01-15T14:30:00Z', 'in 2 hours', etc."
-            )
+    # Parse the datetime string using dateparser
+    parsed_datetime = dateparser.parse(start_time_str)
-        # Convert to ISO format string
-        return parsed_datetime.isoformat()
-    except Exception as e:
+    if parsed_datetime is None:
         raise DataChainError(
-            f"Invalid datetime format for start_time: '{start_time_str}'. "
+            f"Could not parse datetime string: '{start_time_str}'. "
             f"Supported formats include: '2024-01-15 14:30:00', 'tomorrow 3pm', "
-            f"'monday 9am', '2024-01-15T14:30:00Z', 'in 2 hours', etc. Error: {e}"
-        ) from e
+            f"'monday 9am', '2024-01-15T14:30:00Z', 'in 2 hours', etc."
+        )
+    # Convert to ISO format string
+    return parsed_datetime.isoformat()
 def show_logs_from_client(client, job_id):
     # Sync usage
     async def _run():
+        retry_count = 0
         latest_status = None
-        async for message in client.tail_job_logs(job_id):
-            if "logs" in message:
-                for log in message["logs"]:
-                    print(log["message"], end="")
-            elif "job" in message:
-                latest_status = message["job"]["status"]
-                print(f"\n>>>> Job is now in {latest_status} status.")
+        processed_statuses = set()
+        while True:
+            async for message in client.tail_job_logs(job_id):
+                if "logs" in message:
+                    for log in message["logs"]:
+                        print(log["message"], end="")
+                elif "job" in message:
+                    latest_status = message["job"]["status"]
+                    if latest_status in processed_statuses:
+                        continue
+                    processed_statuses.add(latest_status)
+                    print(f"\n>>>> Job is now in {latest_status} status.")
+            try:
+                if retry_count > RETRY_MAX_TIMES or (
+                    latest_status and JobStatus[latest_status].finished()
+                ):
+                    break
+                await asyncio.sleep(RETRY_SLEEP_SEC)
+                retry_count += 1
+            except KeyError:
+                pass
         return latest_status
-    latest_status = asyncio.run(_run())
+    final_status = asyncio.run(_run())
     response = client.dataset_job_versions(job_id)
     if not response.ok:
@@ -321,9 +335,9 @@ def show_logs_from_client(client, job_id):
     exit_code_by_status = {
         "FAILED": 1,
-        "CANCELLED": 2,
+        "CANCELED": 2,
     }
-    return exit_code_by_status.get(latest_status.upper(), 0) if latest_status else 0
+    return exit_code_by_status.get(final_status.upper(), 0) if final_status else 0
 def create_job(
@@ -341,6 +355,7 @@ def create_job(
     cluster: Optional[str] = None,
     start_time: Optional[str] = None,
     cron: Optional[str] = None,
+    no_wait: Optional[bool] = False,
 ):
     query_type = "PYTHON" if query_file.endswith(".py") else "SHELL"
     with open(query_file) as f:
@@ -395,7 +410,7 @@ def create_job(
     print("Open the job in Studio at", response.data.get("job", {}).get("url"))
     print("=" * 40)
-    return show_logs_from_client(client, job_id)
+    return 0 if no_wait else show_logs_from_client(client, job_id)
 def upload_files(client: StudioClient, files: list[str]) -> list[str]:

{datachain-0.26.4.dist-info → datachain-0.28.0.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: datachain
-Version: 0.26.4
+Version: 0.28.0
 Summary: Wrangle unstructured AI data at scale
 Author-email: Dmitry Petrov <support@dvc.org>
 License-Expression: Apache-2.0
@@ -45,7 +45,7 @@ Requires-Dist: datamodel-code-generator>=0.25
 Requires-Dist: Pillow<12,>=10.0.0
 Requires-Dist: msgpack<2,>=1.0.4
 Requires-Dist: psutil
-Requires-Dist: huggingface_hub
+Requires-Dist: huggingface_hub<0.34.0
 Requires-Dist: iterative-telemetry>=0.0.10
 Requires-Dist: platformdirs
 Requires-Dist: dvc-studio-client<1,>=0.21
@@ -120,7 +120,7 @@ Dynamic: license-file
 |logo| DataChain
 ================
-|PyPI| |Python Version| |Codecov| |Tests|
+|PyPI| |Python Version| |Codecov| |Tests| |DeepWiki|
 .. |logo| image:: docs/assets/datachain.svg
    :height: 24
@@ -136,6 +136,9 @@ Dynamic: license-file
 .. |Tests| image:: https://github.com/iterative/datachain/actions/workflows/tests.yml/badge.svg
    :target: https://github.com/iterative/datachain/actions/workflows/tests.yml
    :alt: Tests
+.. |DeepWiki| image:: https://deepwiki.com/badge.svg
+   :target: https://deepwiki.com/iterative/datachain
+   :alt: DeepWiki
 DataChain is a Python-based AI-data warehouse for transforming and analyzing unstructured
 data like images, audio, videos, text and PDFs. It integrates with external storage

{datachain-0.26.4.dist-info → datachain-0.28.0.dist-info}/RECORD RENAMED Viewed

@@ -17,7 +17,7 @@ datachain/project.py,sha256=90D4GpJSA3t0fayYZbzrL3sk4U7EJhQo8psnWvdI7_o,2280
 datachain/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 datachain/script_meta.py,sha256=V-LaFOZG84pD0Zc0NvejYdzwDgzITv6yHvAHggDCnuY,4978
 datachain/semver.py,sha256=UB8GHPBtAP3UJGeiuJoInD7SK-DnB93_Xd1qy_CQ9cU,2074
-datachain/studio.py,sha256=w5RyntqSl6qOs2mbw4Dc7SpZNNEN97xpvjxfJL0rO7M,14850
+datachain/studio.py,sha256=-BmKLVNBLPFveUgVVE2So3aaiGndO2jK2qbHZ0zBDd8,15239
 datachain/telemetry.py,sha256=0A4IOPPp9VlP5pyW9eBfaTK3YhHGzHl7dQudQjUAx9A,994
 datachain/utils.py,sha256=DNqOi-Ydb7InyWvD9m7_yailxz6-YGpZzh00biQaHNo,15305
 datachain/catalog/__init__.py,sha256=cMZzSz3VoUi-6qXSVaHYN-agxQuAcz2XSqnEPZ55crE,353
@@ -35,7 +35,7 @@ datachain/cli/commands/misc.py,sha256=c0DmkOLwcDI2YhA8ArOuLJk6aGzSMZCiKL_E2JGibV
 datachain/cli/commands/query.py,sha256=Xzfgh14nPVH-sclqX1tpZqgfdTugw5s_44v0D33z6FA,1505
 datachain/cli/commands/show.py,sha256=Cf8wBs12h-xtdOzjU5GTDy2C8rF5HJSF0hDJYER1zH8,1606
 datachain/cli/parser/__init__.py,sha256=NPB6ssP4CCt7G1SWZ_8oNQEH2C1lktWgkyHYXDQJZNc,15073
-datachain/cli/parser/job.py,sha256=2_g46bx_p7DnqZoYsXY2rHlB07BjBCuRPzpGP-Duk-s,5804
+datachain/cli/parser/job.py,sha256=g6ozI3pnV0ly79L7M9mikCeYTPgKlG5gR0D144R82tk,5928
 datachain/cli/parser/studio.py,sha256=Bo__LKM7qhJGgkyX8M_bCvgZ2Gvqq6r_X4t1NdtaBIY,3881
 datachain/cli/parser/utils.py,sha256=rETdD-9Hq9A4OolgfT7jQw4aoawtbfmkdtH6E7nkhpI,2888
 datachain/client/__init__.py,sha256=1kDpCPoibMXi1gExR4lTLc5pi-k6M5TANiwtXkPoLhU,49
@@ -48,7 +48,7 @@ datachain/client/local.py,sha256=0J52Wzvw25hSucVlzBvLuMRAZwrAHZAYDvD1mNBqf4c,460
 datachain/client/s3.py,sha256=6DNVGLg-woPS1DVlYVX2rIlunNblsuxyOnI1rSzhW3k,7515
 datachain/data_storage/__init__.py,sha256=9Wit-oe5P46V7CJQTD0BJ5MhOa2Y9h3ddJ4VWTe-Lec,273
 datachain/data_storage/db_engine.py,sha256=n8ojCbvVMPY2e3SG8fUaaD0b9GkVfpl_Naa_6EiHfWg,3788
-datachain/data_storage/job.py,sha256=9r0OGwh22bHNIvLHqg8_-eJSP1YYB-BN5HOla5TdCxw,402
+datachain/data_storage/job.py,sha256=ZkeXCNUj_VCkoKYx29hqB4AcfVUielnRjY-GYUcUxt4,426
 datachain/data_storage/metastore.py,sha256=Qw332arvhgXB4UY0yX-Hu8Vgl3smU12l6bvxrL9Q-vo,53810
 datachain/data_storage/schema.py,sha256=o3JbURKXRg3IJyIVA4QjHHkn6byRuz7avbydU2FlvNY,9897
 datachain/data_storage/serializer.py,sha256=6G2YtOFqqDzJf1KbvZraKGXl2XHZyVml2krunWUum5o,927
@@ -70,13 +70,13 @@ datachain/func/random.py,sha256=t7jwXsI8-hy0qAdvjAntgzy-AHtTAfozlZ1CpKR-QZE,458
 datachain/func/string.py,sha256=X9u4ip97U63RCaKRhMddoze7HgPiY3LbPRn9G06UWWo,7311
 datachain/func/window.py,sha256=ImyRpc1QI8QUSPO7KdD60e_DPVo7Ja0G5kcm6BlyMcw,1584
 datachain/lib/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-datachain/lib/arrow.py,sha256=gMgmiMOhTGFMSyWBbjyzF2RsSXjx0XmUGPoSBxcWwe0,10756
-datachain/lib/audio.py,sha256=J7XJ14ItPF9y6pN-tmMV9In9X9rgwlBwzyzdGOUkPGk,4376
+datachain/lib/arrow.py,sha256=geoLvyDd5uMqS3D9Ec1ODlShCUAdtwHUwl8FqbUX_hg,10776
+datachain/lib/audio.py,sha256=fQmIBq-9hrUZtkgeJdPHYA_D8Wfe9D4cQZk4_ijxpNc,7580
 datachain/lib/clip.py,sha256=lm5CzVi4Cj1jVLEKvERKArb-egb9j1Ls-fwTItT6vlI,6150
-datachain/lib/data_model.py,sha256=JPHPO6z-pehyiY-qNBAnp8u015xUHrijPKbGkMHS6lo,3493
+datachain/lib/data_model.py,sha256=Rjah76GHwIV6AZQk4rsdg6JLre5D8Kb9T4PS5SXzsPA,3740
 datachain/lib/dataset_info.py,sha256=7w-DoKOyIVoOtWGCgciMLcP5CiAWJB3rVI-vUDF80k0,3311
-datachain/lib/file.py,sha256=vlSFsmj0ltvQWG6_isfWwNZt5u002bwrl70J2KbdvDE,41335
-datachain/lib/hf.py,sha256=dadHs2dsi4ALwXz92Y3T7AUgq3wQF4mBydWqHCMjvks,6880
+datachain/lib/file.py,sha256=_ch7xYcpl0kzImgEwccbQ-a5qb9rbEvx1vcuWerOn9k,42608
+datachain/lib/hf.py,sha256=3xdvPQPilnJiGv3H4S4bTGqvrGGlZgZmqjE1n_SMJZg,7293
 datachain/lib/image.py,sha256=erWvZW5M3emnbl6_fGAOPyKm-1EKbt3vOdWPfe3Oo7U,3265
 datachain/lib/listing.py,sha256=U-2stsTEwEsq4Y80dqGfktGzkmB5-ZntnL1_rzXlH0k,7089
 datachain/lib/listing_info.py,sha256=9ua40Hw0aiQByUw3oAEeNzMavJYfW0Uhe8YdCTK-m_g,1110
@@ -92,7 +92,7 @@ datachain/lib/text.py,sha256=UNHm8fhidk7wdrWqacEWaA6I9ykfYqarQ2URby7jc7M,1261
 datachain/lib/udf.py,sha256=SUnJWRDC3TlLhvpi8iqqJbeZGn5DChot7DyH-0Q-z20,17305
 datachain/lib/udf_signature.py,sha256=Yz20iJ-WF1pijT3hvcDIKFzgWV9gFxZM73KZRx3NbPk,7560
 datachain/lib/utils.py,sha256=rG2y7NwTqZOuomZZRmrA-Q-ANM_j1cToQYqDJoOeGyU,1480
-datachain/lib/video.py,sha256=u6fLJWj5G6QqsVkpfHnKGklBNpG3BRRg6v3izngnNcU,6767
+datachain/lib/video.py,sha256=ddVstiMkfxyBPDsnjCKY0d_93bw-DcMqGqN60yzsZoo,6851
 datachain/lib/webdataset.py,sha256=CkW8FfGigNx6wo2EEK4KMjhEE8FamRHWGs2HZuH7jDY,7214
 datachain/lib/webdataset_laion.py,sha256=xvT6m_r5y0KbOx14BUe7UC5mOgrktJq53Mh-H0EVlUE,2525
 datachain/lib/convert/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
@@ -106,7 +106,7 @@ datachain/lib/dc/csv.py,sha256=q6a9BpapGwP6nwy6c5cklxQumep2fUp9l2LAjtTJr6s,4411
 datachain/lib/dc/database.py,sha256=g5M6NjYR1T0vKte-abV-3Ejnm-HqxTIMir5cRi_SziE,6051
 datachain/lib/dc/datachain.py,sha256=mLE5v4KhzEQm7HVWBTxY6EwJ2J-YeFVcLUY4I21216c,93212
 datachain/lib/dc/datasets.py,sha256=P6CIJizD2IYFwOQG5D3VbQRjDmUiRH0ysdtb551Xdm8,15098
-datachain/lib/dc/hf.py,sha256=MJWO-NL4jAD6CEAmXsyeqXEyvefRLMhyxhT9jKT5vMU,2324
+datachain/lib/dc/hf.py,sha256=AP_MUHg6HJWae10PN9hD_beQVjrl0cleZ6Cvhtl1yoI,2901
 datachain/lib/dc/json.py,sha256=dNijfJ-H92vU3soyR7X1IiDrWhm6yZIGG3bSnZkPdAE,2733
 datachain/lib/dc/listings.py,sha256=V379Cb-7ZyquM0w7sWArQZkzInZy4GB7QQ1ZfowKzQY,4544
 datachain/lib/dc/pandas.py,sha256=ObueUXDUFKJGu380GmazdG02ARpKAHPhSaymfmOH13E,1489
@@ -158,9 +158,9 @@ datachain/sql/sqlite/vector.py,sha256=ncW4eu2FlJhrP_CIpsvtkUabZlQdl2D5Lgwy_cbfqR
 datachain/toolkit/__init__.py,sha256=eQ58Q5Yf_Fgv1ZG0IO5dpB4jmP90rk8YxUWmPc1M2Bo,68
 datachain/toolkit/split.py,sha256=ktGWzY4kyzjWyR86dhvzw-Zhl0lVk_LOX3NciTac6qo,2914
 datachain/torch/__init__.py,sha256=gIS74PoEPy4TB3X6vx9nLO0Y3sLJzsA8ckn8pRWihJM,579
-datachain-0.26.4.dist-info/licenses/LICENSE,sha256=8DnqK5yoPI_E50bEg_zsHKZHY2HqPy4rYN338BHQaRA,11344
-datachain-0.26.4.dist-info/METADATA,sha256=oWaaj_Avr95dDdM_txeheiOefsoHuXTu0QR71hTN634,13624
-datachain-0.26.4.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-datachain-0.26.4.dist-info/entry_points.txt,sha256=0GMJS6B_KWq0m3VT98vQI2YZodAMkn4uReZ_okga9R4,49
-datachain-0.26.4.dist-info/top_level.txt,sha256=lZPpdU_2jJABLNIg2kvEOBi8PtsYikbN1OdMLHk8bTg,10
-datachain-0.26.4.dist-info/RECORD,,
+datachain-0.28.0.dist-info/licenses/LICENSE,sha256=8DnqK5yoPI_E50bEg_zsHKZHY2HqPy4rYN338BHQaRA,11344
+datachain-0.28.0.dist-info/METADATA,sha256=lA3lv9RX2NeQPobrEjoEbAwg5K3zmnAnbDJ_hjR8KLw,13766
+datachain-0.28.0.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+datachain-0.28.0.dist-info/entry_points.txt,sha256=0GMJS6B_KWq0m3VT98vQI2YZodAMkn4uReZ_okga9R4,49
+datachain-0.28.0.dist-info/top_level.txt,sha256=lZPpdU_2jJABLNIg2kvEOBi8PtsYikbN1OdMLHk8bTg,10
+datachain-0.28.0.dist-info/RECORD,,

{datachain-0.26.4.dist-info → datachain-0.28.0.dist-info}/WHEEL RENAMED Viewed

File without changes

{datachain-0.26.4.dist-info → datachain-0.28.0.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{datachain-0.26.4.dist-info → datachain-0.28.0.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{datachain-0.26.4.dist-info → datachain-0.28.0.dist-info}/top_level.txt RENAMED Viewed

File without changes

datachain 0.26.4__py3-none-any.whl → 0.28.0__py3-none-any.whl

Potentially problematic release.

datachain 0.26.4py3-none-any.whl → 0.28.0py3-none-any.whl