PyPI - dtflow - Versions diffs - 0.5.0__tar.gz → 0.5.3__tar.gz - Mend

dtflow 0.5.0tar.gz → 0.5.3tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (56) hide show

dtflow-0.5.3/CHANGELOG.md ADDED Viewed

@@ -0,0 +1,19 @@
+# Changelog
+## [0.5.2] - 2026-01-18
+### Miscellaneous
+- Bump version to 0.5.2
+- 添加 pre-commit 配置和发版脚本
+## [0.5.1] - 2026-01-18
+### Features
+- 优化 sample 命令文本预览显示
+### Testing
+- 添加测试运行说明
+- 补充 tail/token-stats/validate 性能测试

{dtflow-0.5.0 → dtflow-0.5.3}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: dtflow
-Version: 0.5.0
+Version: 0.5.3
 Summary: A flexible data transformation tool for ML training formats (SFT, RLHF, Pretrain)
 Project-URL: Homepage, https://github.com/yourusername/DataTransformer
 Project-URL: Documentation, https://github.com/yourusername/DataTransformer#readme
@@ -32,16 +32,26 @@ Requires-Dist: orjson>=3.9.0
 Requires-Dist: polars>=0.20.0
 Requires-Dist: pyyaml>=5.4.0
 Requires-Dist: rich>=10.0.0
+Requires-Dist: tiktoken>=0.5.0
 Requires-Dist: typer>=0.9.0
 Provides-Extra: converters
 Requires-Dist: datasets>=2.0.0; extra == 'converters'
 Provides-Extra: dev
 Requires-Dist: black>=21.0; extra == 'dev'
+Requires-Dist: datasets>=2.0.0; extra == 'dev'
+Requires-Dist: datasketch>=1.5.0; extra == 'dev'
 Requires-Dist: flake8>=3.9.0; extra == 'dev'
+Requires-Dist: huggingface-hub>=0.20.0; extra == 'dev'
 Requires-Dist: isort>=5.9.0; extra == 'dev'
 Requires-Dist: mypy>=0.910; extra == 'dev'
+Requires-Dist: pyarrow; extra == 'dev'
 Requires-Dist: pytest-cov>=2.12.0; extra == 'dev'
 Requires-Dist: pytest>=6.0.0; extra == 'dev'
+Requires-Dist: rich>=10.0.0; extra == 'dev'
+Requires-Dist: scikit-learn>=0.24.0; extra == 'dev'
+Requires-Dist: tiktoken>=0.5.0; extra == 'dev'
+Requires-Dist: tokenizers>=0.15.0; extra == 'dev'
+Requires-Dist: toolong>=1.5.0; extra == 'dev'
 Provides-Extra: display
 Provides-Extra: docs
 Requires-Dist: myst-parser>=0.15.0; extra == 'docs'

{dtflow-0.5.0 → dtflow-0.5.3}/dtflow/__init__.py RENAMED Viewed

@@ -26,6 +26,12 @@ from .converters import (  # LLaMA-Factory 扩展; ms-swift
     to_swift_vlm,
 )
 from .core import DataTransformer, DictWrapper, TransformError, TransformErrors
+from .framework import (
+    CompatibilityResult,
+    check_compatibility,
+    detect_format,
+    export_for,
+)
 from .presets import get_preset, list_presets
 from .schema import (
     Field,
@@ -38,12 +44,6 @@ from .schema import (
     sharegpt_schema,
     validate_data,
 )
-from .framework import (
-    CompatibilityResult,
-    check_compatibility,
-    detect_format,
-    export_for,
-)
 from .storage import load_data, sample_file, save_data
 from .streaming import StreamingTransformer, load_sharded, load_stream, process_shards
 from .tokenizers import (
@@ -60,7 +60,7 @@ from .tokenizers import (
     token_stats,
 )
-__version__ = "0.5.0"
+__version__ = "0.5.3"
 __all__ = [
     # core

{dtflow-0.5.0 → dtflow-0.5.3}/dtflow/cli/common.py RENAMED Viewed

@@ -57,7 +57,7 @@ def _get_file_row_count(filepath: Path) -> Optional[int]:
     return None
-def _format_value(value: Any, max_len: int = 80) -> str:
+def _format_value(value: Any, max_len: int = 120) -> str:
     """格式化单个值，长文本截断。"""
     if value is None:
         return "[dim]null[/dim]"
@@ -66,18 +66,22 @@ def _format_value(value: Any, max_len: int = 80) -> str:
     if isinstance(value, (int, float)):
         return f"[cyan]{value}[/cyan]"
     if isinstance(value, str):
+        half_len = max_len // 2
         # 处理多行文本
         if "\n" in value:
             lines = value.split("\n")
-            if len(lines) > 3:
-                preview = lines[0][:max_len] + f"... [dim]({len(lines)} 行)[/dim]"
-            else:
-                preview = value.replace("\n", "\\n")
-                if len(preview) > max_len:
-                    preview = preview[:max_len] + "..."
+            preview = value.replace("\n", "\\n")
+            if len(preview) > max_len:
+                # 前半 + 省略标记 + 后半
+                head = preview[:half_len]
+                tail = preview[-half_len:]
+                return f'"{head} [yellow]<<<{len(lines)}行>>>[/yellow] {tail}"'
             return f'"{preview}"'
         if len(value) > max_len:
-            return f'"{value[:max_len]}..." [dim]({len(value)} 字符)[/dim]'
+            # 前半 + 省略标记 + 后半
+            head = value[:half_len]
+            tail = value[-half_len:]
+            return f'"{head} [yellow]<<<{len(value)}字符>>>[/yellow] {tail}"'
         return f'"{value}"'
     return str(value)
@@ -86,7 +90,7 @@ def _format_nested(
     value: Any,
     indent: str = "",
     is_last: bool = True,
-    max_len: int = 80,
+    max_len: int = 120,
 ) -> List[str]:
     """
     递归格式化嵌套结构，返回行列表。

{dtflow-0.5.0 → dtflow-0.5.3}/dtflow/cli/stats.py RENAMED Viewed

@@ -465,34 +465,65 @@ def token_stats(
         return
     total = len(data)
-    print(f"   共 {total} 条数据")
-    print(f"🔢 统计 Token (模型: {model}, 字段: {field})...")
+    print(f"   共 {total:,} 条数据")
     # 检查字段类型并选择合适的统计方法（支持嵌套路径）
     sample = data[0]
     field_value = get_field_with_spec(sample, field)
+    # 尝试使用 rich 进度条
     try:
-        if isinstance(field_value, list) and field_value and isinstance(field_value[0], dict):
-            # messages 格式
-            from ..tokenizers import messages_token_stats
-            stats_result = messages_token_stats(data, messages_field=field, model=model)
-            _print_messages_token_stats(stats_result, detailed)
-        else:
-            # 普通文本字段
-            from ..tokenizers import token_stats as compute_token_stats
-            stats_result = compute_token_stats(data, fields=field, model=model)
-            _print_text_token_stats(stats_result, detailed)
-    except ImportError as e:
-        print(f"错误: {e}")
-        return
-    except Exception as e:
-        print(f"错误: 统计失败 - {e}")
-        import traceback
+        from rich.progress import Progress, SpinnerColumn, TextColumn, BarColumn, TaskProgressColumn
+        with Progress(
+            SpinnerColumn(),
+            TextColumn("[bold blue]统计 Token"),
+            BarColumn(),
+            TaskProgressColumn(),
+            TextColumn(f"(模型: {model})"),
+        ) as progress:
+            task = progress.add_task("", total=total)
+            def update_progress(current: int, total_count: int):
+                progress.update(task, completed=current)
+            if isinstance(field_value, list) and field_value and isinstance(field_value[0], dict):
+                from ..tokenizers import messages_token_stats
+                stats_result = messages_token_stats(
+                    data, messages_field=field, model=model, progress_callback=update_progress
+                )
+                _print_messages_token_stats(stats_result, detailed)
+            else:
+                from ..tokenizers import token_stats as compute_token_stats
+                stats_result = compute_token_stats(
+                    data, fields=field, model=model, progress_callback=update_progress
+                )
+                _print_text_token_stats(stats_result, detailed)
+    except ImportError:
+        # 没有 rich，显示简单进度
+        print(f"🔢 统计 Token (模型: {model}, 字段: {field})...")
+        try:
+            if isinstance(field_value, list) and field_value and isinstance(field_value[0], dict):
+                from ..tokenizers import messages_token_stats
+                stats_result = messages_token_stats(data, messages_field=field, model=model)
+                _print_messages_token_stats(stats_result, detailed)
+            else:
+                from ..tokenizers import token_stats as compute_token_stats
-        traceback.print_exc()
+                stats_result = compute_token_stats(data, fields=field, model=model)
+                _print_text_token_stats(stats_result, detailed)
+        except ImportError as e:
+            print(f"错误: {e}")
+            return
+        except Exception as e:
+            print(f"错误: 统计失败 - {e}")
+            import traceback
+            traceback.print_exc()
 def _print_messages_token_stats(stats: Dict[str, Any], detailed: bool) -> None:
@@ -505,21 +536,39 @@ def _print_messages_token_stats(stats: Dict[str, Any], detailed: bool) -> None:
         console = Console()
         # 概览
+        std = stats.get("std_tokens", 0)
         overview = (
             f"[bold]总样本数:[/bold] {stats['count']:,}\n"
             f"[bold]总 Token:[/bold] {stats['total_tokens']:,}\n"
-            f"[bold]平均 Token:[/bold] {stats['avg_tokens']:,}\n"
-            f"[bold]中位数:[/bold] {stats['median_tokens']:,}\n"
+            f"[bold]平均 Token:[/bold] {stats['avg_tokens']:,} (std: {std:.1f})\n"
             f"[bold]范围:[/bold] {stats['min_tokens']:,} - {stats['max_tokens']:,}"
         )
         console.print(Panel(overview, title="📊 Token 统计概览", expand=False))
+        # 百分位数表格
+        table = Table(title="📈 分布统计")
+        table.add_column("百分位", style="cyan", justify="center")
+        table.add_column("Token 数", justify="right")
+        percentiles = [
+            ("Min", stats["min_tokens"]),
+            ("P25", stats.get("p25", "-")),
+            ("P50 (中位数)", stats.get("median_tokens", "-")),
+            ("P75", stats.get("p75", "-")),
+            ("P90", stats.get("p90", "-")),
+            ("P95", stats.get("p95", "-")),
+            ("P99", stats.get("p99", "-")),
+            ("Max", stats["max_tokens"]),
+        ]
+        for name, val in percentiles:
+            table.add_row(name, f"{val:,}" if isinstance(val, int) else str(val))
+        console.print(table)
         if detailed:
-            # 详细统计
-            table = Table(title="📋 分角色统计")
-            table.add_column("角色", style="cyan")
-            table.add_column("Token 数", justify="right")
-            table.add_column("占比", justify="right")
+            # 分角色统计
+            role_table = Table(title="📋 分角色统计")
+            role_table.add_column("角色", style="cyan")
+            role_table.add_column("Token 数", justify="right")
+            role_table.add_column("占比", justify="right")
             total = stats["total_tokens"]
             for role, key in [
@@ -529,22 +578,27 @@ def _print_messages_token_stats(stats: Dict[str, Any], detailed: bool) -> None:
             ]:
                 tokens = stats.get(key, 0)
                 pct = tokens / total * 100 if total > 0 else 0
-                table.add_row(role, f"{tokens:,}", f"{pct:.1f}%")
+                role_table.add_row(role, f"{tokens:,}", f"{pct:.1f}%")
-            console.print(table)
+            console.print(role_table)
             console.print(f"\n平均对话轮数: {stats.get('avg_turns', 0)}")
     except ImportError:
         # 没有 rich，使用普通打印
+        std = stats.get("std_tokens", 0)
         print(f"\n{'=' * 40}")
         print("📊 Token 统计概览")
         print(f"{'=' * 40}")
         print(f"总样本数: {stats['count']:,}")
         print(f"总 Token: {stats['total_tokens']:,}")
-        print(f"平均 Token: {stats['avg_tokens']:,}")
-        print(f"中位数: {stats['median_tokens']:,}")
+        print(f"平均 Token: {stats['avg_tokens']:,} (std: {std:.1f})")
         print(f"范围: {stats['min_tokens']:,} - {stats['max_tokens']:,}")
+        print(f"\n📈 百分位分布:")
+        print(f"  P25: {stats.get('p25', '-'):,}  P50: {stats.get('median_tokens', '-'):,}")
+        print(f"  P75: {stats.get('p75', '-'):,}  P90: {stats.get('p90', '-'):,}")
+        print(f"  P95: {stats.get('p95', '-'):,}  P99: {stats.get('p99', '-'):,}")
         if detailed:
             print(f"\n{'=' * 40}")
             print("📋 分角色统计")
@@ -566,24 +620,48 @@ def _print_text_token_stats(stats: Dict[str, Any], detailed: bool) -> None:
     try:
         from rich.console import Console
         from rich.panel import Panel
+        from rich.table import Table
         console = Console()
+        std = stats.get("std_tokens", 0)
         overview = (
             f"[bold]总样本数:[/bold] {stats['count']:,}\n"
             f"[bold]总 Token:[/bold] {stats['total_tokens']:,}\n"
-            f"[bold]平均 Token:[/bold] {stats['avg_tokens']:.1f}\n"
-            f"[bold]中位数:[/bold] {stats['median_tokens']:,}\n"
+            f"[bold]平均 Token:[/bold] {stats['avg_tokens']:.1f} (std: {std:.1f})\n"
             f"[bold]范围:[/bold] {stats['min_tokens']:,} - {stats['max_tokens']:,}"
         )
         console.print(Panel(overview, title="📊 Token 统计", expand=False))
+        # 百分位数表格
+        table = Table(title="📈 分布统计")
+        table.add_column("百分位", style="cyan", justify="center")
+        table.add_column("Token 数", justify="right")
+        percentiles = [
+            ("Min", stats["min_tokens"]),
+            ("P25", stats.get("p25", "-")),
+            ("P50 (中位数)", stats.get("median_tokens", "-")),
+            ("P75", stats.get("p75", "-")),
+            ("P90", stats.get("p90", "-")),
+            ("P95", stats.get("p95", "-")),
+            ("P99", stats.get("p99", "-")),
+            ("Max", stats["max_tokens"]),
+        ]
+        for name, val in percentiles:
+            table.add_row(name, f"{val:,}" if isinstance(val, int) else str(val))
+        console.print(table)
     except ImportError:
+        std = stats.get("std_tokens", 0)
         print(f"\n{'=' * 40}")
         print("📊 Token 统计")
         print(f"{'=' * 40}")
         print(f"总样本数: {stats['count']:,}")
         print(f"总 Token: {stats['total_tokens']:,}")
-        print(f"平均 Token: {stats['avg_tokens']:.1f}")
-        print(f"中位数: {stats['median_tokens']:,}")
+        print(f"平均 Token: {stats['avg_tokens']:.1f} (std: {std:.1f})")
         print(f"范围: {stats['min_tokens']:,} - {stats['max_tokens']:,}")
+        print(f"\n📈 百分位分布:")
+        print(f"  P25: {stats.get('p25', '-'):,}  P50: {stats.get('median_tokens', '-'):,}")
+        print(f"  P75: {stats.get('p75', '-'):,}  P90: {stats.get('p90', '-'):,}")
+        print(f"  P95: {stats.get('p95', '-'):,}  P99: {stats.get('p99', '-'):,}")

{dtflow-0.5.0 → dtflow-0.5.3}/dtflow/converters.py RENAMED Viewed

@@ -4,7 +4,7 @@
 提供与 HuggingFace datasets 等常用格式的互转功能。
 """
-from typing import Any, Callable, Dict, List, Optional, Union
+from typing import Any, Callable, Dict, List, Optional
 def to_hf_dataset(data: List[Dict[str, Any]]):
@@ -143,14 +143,16 @@ def to_openai_batch(
         >>> batch_input = dt.to(to_openai_batch(model="gpt-4o"))
     """
-    def transform(item, idx=[0]) -> dict:
+    counter = {"idx": 0}
+    def transform(item) -> dict:
         messages = item.get(messages_field, []) if hasattr(item, "get") else item[messages_field]
         if custom_id_field:
             custom_id = item.get(custom_id_field) if hasattr(item, "get") else item[custom_id_field]
         else:
-            custom_id = f"request-{idx[0]}"
-            idx[0] += 1
+            custom_id = f"request-{counter['idx']}"
+            counter["idx"] += 1
         return {
             "custom_id": str(custom_id),
@@ -196,7 +198,7 @@ def to_llama_factory(
     """
     def transform(item) -> dict:
-        get = lambda f: (item.get(f, "") if hasattr(item, "get") else item.get(f, ""))
+        get = lambda f: item.get(f, "") if hasattr(item, "get") else getattr(item, f, "")
         result = {
             "instruction": get(instruction_field),
@@ -248,7 +250,7 @@ def to_axolotl(
         conversations = (
             item.get(conversations_field, [])
             if hasattr(item, "get")
-            else item.get(conversations_field, [])
+            else getattr(item, conversations_field, [])
         )
         # 如果已经是正确格式，直接返回
@@ -257,7 +259,9 @@ def to_axolotl(
                 return {"conversations": conversations}
         # 尝试从 messages 格式转换
-        messages = item.get("messages", []) if hasattr(item, "get") else item.get("messages", [])
+        messages = (
+            item.get("messages", []) if hasattr(item, "get") else getattr(item, "messages", [])
+        )
         if messages:
             role_map = {"user": "human", "assistant": "gpt", "system": "system"}
             conversations = [
@@ -312,7 +316,7 @@ def to_llama_factory_sharegpt(
     }
     def transform(item) -> dict:
-        get = lambda f: (item.get(f, "") if hasattr(item, "get") else item.get(f, ""))
+        get = lambda f: item.get(f, "") if hasattr(item, "get") else getattr(item, f, "")
         messages = get(messages_field) or []
         conversations = []
@@ -385,7 +389,7 @@ def to_llama_factory_vlm(
     """
     def transform(item) -> dict:
-        get = lambda f: item.get(f) if hasattr(item, "get") else item.get(f)
+        get = lambda f: item.get(f) if hasattr(item, "get") else getattr(item, f, None)
         messages = get(messages_field) or []
         instruction = ""
@@ -467,7 +471,7 @@ def to_llama_factory_vlm_sharegpt(
     role_map = {"user": "human", "assistant": "gpt", "system": "system"}
     def transform(item) -> dict:
-        get = lambda f: item.get(f) if hasattr(item, "get") else item.get(f)
+        get = lambda f: item.get(f) if hasattr(item, "get") else getattr(item, f, None)
         messages = get(messages_field) or []
         conversations = []
@@ -541,7 +545,7 @@ def to_swift_messages(
     """
     def transform(item) -> dict:
-        get = lambda f: item.get(f) if hasattr(item, "get") else item.get(f)
+        get = lambda f: item.get(f) if hasattr(item, "get") else getattr(item, f, None)
         messages = get(messages_field) or []
         # 复制 messages，避免修改原数据
@@ -600,7 +604,7 @@ def to_swift_query_response(
     """
     def transform(item) -> dict:
-        get = lambda f: item.get(f) if hasattr(item, "get") else item.get(f)
+        get = lambda f: item.get(f) if hasattr(item, "get") else getattr(item, f, None)
         query = get(query_field)
         response = get(response_field)
@@ -693,7 +697,7 @@ def to_swift_vlm(
     """
     def transform(item) -> dict:
-        get = lambda f: item.get(f) if hasattr(item, "get") else item.get(f)
+        get = lambda f: item.get(f) if hasattr(item, "get") else getattr(item, f, None)
         messages = get(messages_field) or []
         result_messages = []

{dtflow-0.5.0 → dtflow-0.5.3}/dtflow/core.py RENAMED Viewed

@@ -793,19 +793,29 @@ class DataTransformer:
             seed: 随机种子
         Returns:
-            (train, test) 两个 DataTransformer
+            (train, test) 两个 DataTransformer，各自拥有独立的血缘追踪器
         """
         data = self.shuffle(seed).data
         split_idx = int(len(data) * ratio)
-        # 分割后血缘追踪器各自独立
+        # 分割后血缘追踪器各自独立（使用深拷贝避免相互影响）
         tracker = self._lineage_tracker
+        train_tracker = None
+        test_tracker = None
         if tracker:
             tracker.record("split", {"ratio": ratio, "seed": seed}, len(self._data), len(data))
+            # 为每个子数据集创建独立的追踪器副本
+            train_tracker = tracker.copy()
+            train_tracker.record("split_part", {"part": "train", "ratio": ratio}, len(data), split_idx)
+            test_tracker = tracker.copy()
+            test_tracker.record(
+                "split_part", {"part": "test", "ratio": 1 - ratio}, len(data), len(data) - split_idx
+            )
         return (
-            DataTransformer(data[:split_idx], _lineage_tracker=tracker),
-            DataTransformer(data[split_idx:], _lineage_tracker=tracker),
+            DataTransformer(data[:split_idx], _lineage_tracker=train_tracker),
+            DataTransformer(data[split_idx:], _lineage_tracker=test_tracker),
         )
     # ============ 并行处理 ============
@@ -815,6 +825,7 @@ class DataTransformer:
         func: Callable[[Dict], Any],
         workers: Optional[int] = None,
         chunksize: int = 1000,
+        timeout: Optional[float] = None,
     ) -> List[Any]:
         """
         并行执行转换函数（使用多进程）。
@@ -825,24 +836,46 @@ class DataTransformer:
             func: 转换函数，接收原始 dict，返回转换结果
             workers: 进程数，默认为 CPU 核心数
             chunksize: 每个进程处理的数据块大小
+            timeout: 超时时间（秒），None 表示无超时
         Returns:
             转换后的结果列表
+        Raises:
+            TypeError: 如果 func 无法被 pickle（如 lambda 函数）
+            RuntimeError: 如果子进程执行出错或超时
         Examples:
             >>> def transform(item):
             ...     return {"id": item["id"], "text": item["text"].upper()}
             >>> results = dt.map_parallel(transform)
         """
-        from multiprocessing import Pool, cpu_count
+        from multiprocessing import Pool, TimeoutError, cpu_count
+        import pickle
         if not self._data:
             return []
+        # 检查函数是否可 pickle
+        try:
+            pickle.dumps(func)
+        except (pickle.PicklingError, AttributeError, TypeError) as e:
+            func_name = getattr(func, "__name__", str(func))
+            raise TypeError(
+                f"函数 '{func_name}' 无法被 pickle，不能用于并行处理。"
+                f"请使用模块级函数而非 lambda 或闭包。错误: {e}"
+            ) from e
         workers = workers or cpu_count()
-        with Pool(workers) as pool:
-            results = pool.map(func, self._data, chunksize=chunksize)
+        try:
+            with Pool(workers) as pool:
+                async_result = pool.map_async(func, self._data, chunksize=chunksize)
+                results = async_result.get(timeout=timeout)
+        except TimeoutError:
+            raise RuntimeError(f"并行处理超时（{timeout}秒）")
+        except Exception as e:
+            raise RuntimeError(f"并行处理失败: {type(e).__name__}: {e}") from e
         return results
@@ -851,6 +884,7 @@ class DataTransformer:
         func: Callable[[Dict], bool],
         workers: Optional[int] = None,
         chunksize: int = 1000,
+        timeout: Optional[float] = None,
     ) -> "DataTransformer":
         """
         并行执行过滤函数（使用多进程）。
@@ -861,24 +895,46 @@ class DataTransformer:
             func: 过滤函数，接收原始 dict，返回 True 保留
             workers: 进程数，默认为 CPU 核心数
             chunksize: 每个进程处理的数据块大小
+            timeout: 超时时间（秒），None 表示无超时
         Returns:
             过滤后的新 DataTransformer
+        Raises:
+            TypeError: 如果 func 无法被 pickle（如 lambda 函数）
+            RuntimeError: 如果子进程执行出错或超时
         Examples:
             >>> def is_valid(item):
             ...     return len(item["text"]) > 10
             >>> filtered = dt.filter_parallel(is_valid)
         """
-        from multiprocessing import Pool, cpu_count
+        from multiprocessing import Pool, TimeoutError, cpu_count
+        import pickle
         if not self._data:
             return DataTransformer([])
+        # 检查函数是否可 pickle
+        try:
+            pickle.dumps(func)
+        except (pickle.PicklingError, AttributeError, TypeError) as e:
+            func_name = getattr(func, "__name__", str(func))
+            raise TypeError(
+                f"函数 '{func_name}' 无法被 pickle，不能用于并行处理。"
+                f"请使用模块级函数而非 lambda 或闭包。错误: {e}"
+            ) from e
         workers = workers or cpu_count()
-        with Pool(workers) as pool:
-            mask = pool.map(func, self._data, chunksize=chunksize)
+        try:
+            with Pool(workers) as pool:
+                async_result = pool.map_async(func, self._data, chunksize=chunksize)
+                mask = async_result.get(timeout=timeout)
+        except TimeoutError:
+            raise RuntimeError(f"并行处理超时（{timeout}秒）")
+        except Exception as e:
+            raise RuntimeError(f"并行处理失败: {type(e).__name__}: {e}") from e
         filtered = [item for item, keep in zip(self._data, mask) if keep]
         return DataTransformer(filtered)

{dtflow-0.5.0 → dtflow-0.5.3}/dtflow/lineage.py RENAMED Viewed

@@ -237,6 +237,23 @@ class LineageTracker:
         return lineage_path
+    def copy(self) -> "LineageTracker":
+        """
+        创建追踪器的深拷贝。
+        用于 split() 等场景，确保子数据集有独立的血缘追踪。
+        Returns:
+            新的 LineageTracker 实例
+        """
+        import copy as copy_module
+        new_tracker = LineageTracker.__new__(LineageTracker)
+        new_tracker.source_path = self.source_path
+        new_tracker.source_lineage = self.source_lineage  # LineageRecord 是不可变的，可共享
+        new_tracker.operations = copy_module.deepcopy(self.operations)
+        return new_tracker
 def _sanitize_params(params: Dict[str, Any]) -> Dict[str, Any]:
     """

dtflow 0.5.0__tar.gz → 0.5.3__tar.gz

dtflow 0.5.0tar.gz → 0.5.3tar.gz