PyPI - dtflow - Versions diffs - 0.3.0__tar.gz → 0.3.2__tar.gz - Mend

dtflow 0.3.0tar.gz → 0.3.2tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (33) hide show

{dtflow-0.3.0 → dtflow-0.3.2}/PKG-INFO +153 -7
{dtflow-0.3.0 → dtflow-0.3.2}/README.md +140 -1
dtflow-0.3.2/dtflow/__init__.py +94 -0
dtflow-0.3.2/dtflow/__main__.py +316 -0
dtflow-0.3.2/dtflow/cli/__init__.py +33 -0
{dtflow-0.3.0 → dtflow-0.3.2}/dtflow/cli/commands.py +1112 -113
{dtflow-0.3.0 → dtflow-0.3.2}/dtflow/converters.py +39 -23
{dtflow-0.3.0 → dtflow-0.3.2}/dtflow/core.py +140 -72
dtflow-0.3.2/dtflow/lineage.py +410 -0
{dtflow-0.3.0 → dtflow-0.3.2}/dtflow/mcp/__init__.py +1 -0
{dtflow-0.3.0 → dtflow-0.3.2}/dtflow/mcp/__main__.py +2 -0
{dtflow-0.3.0 → dtflow-0.3.2}/dtflow/mcp/cli.py +35 -17
{dtflow-0.3.0 → dtflow-0.3.2}/dtflow/mcp/docs.py +0 -5
dtflow-0.3.2/dtflow/pipeline.py +460 -0
{dtflow-0.3.0 → dtflow-0.3.2}/dtflow/presets.py +24 -22
{dtflow-0.3.0 → dtflow-0.3.2}/dtflow/storage/__init__.py +11 -10
dtflow-0.3.2/dtflow/storage/io.py +710 -0
dtflow-0.3.2/dtflow/streaming.py +656 -0
{dtflow-0.3.0 → dtflow-0.3.2}/dtflow/tokenizers.py +212 -57
{dtflow-0.3.0 → dtflow-0.3.2}/dtflow/utils/__init__.py +2 -1
{dtflow-0.3.0 → dtflow-0.3.2}/dtflow/utils/display.py +28 -27
{dtflow-0.3.0 → dtflow-0.3.2}/pyproject.toml +17 -5
dtflow-0.3.2/tests/benchmark_io.py +229 -0
dtflow-0.3.2/tests/test_streaming.py +281 -0
dtflow-0.3.0/dtflow/__init__.py +0 -67
dtflow-0.3.0/dtflow/__main__.py +0 -254
dtflow-0.3.0/dtflow/cli/__init__.py +0 -6
dtflow-0.3.0/dtflow/storage/io.py +0 -695
{dtflow-0.3.0 → dtflow-0.3.2}/.gitignore +0 -0
{dtflow-0.3.0 → dtflow-0.3.2}/dtflow/mcp/server.py +0 -0
{dtflow-0.3.0 → dtflow-0.3.2}/tests/test_converters.py +0 -0
{dtflow-0.3.0 → dtflow-0.3.2}/tests/test_tokenizers.py +0 -0
{dtflow-0.3.0 → dtflow-0.3.2}/tests/test_transformer.py +0 -0

{dtflow-0.3.0 → dtflow-0.3.2}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: dtflow
-Version: 0.3.0
+Version: 0.3.2
 Summary: A flexible data transformation tool for ML training formats (SFT, RLHF, Pretrain)
 Project-URL: Homepage, https://github.com/yourusername/DataTransformer
 Project-URL: Documentation, https://github.com/yourusername/DataTransformer#readme
@@ -27,11 +27,12 @@ Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
 Classifier: Topic :: Software Development :: Libraries :: Python Modules
 Classifier: Topic :: Text Processing
 Requires-Python: >=3.8
-Requires-Dist: fire>=0.4.0
 Requires-Dist: numpy>=1.20.0
 Requires-Dist: orjson>=3.9.0
+Requires-Dist: polars>=0.20.0
 Requires-Dist: pyyaml>=5.4.0
-Requires-Dist: tqdm>=4.60.0
+Requires-Dist: rich>=10.0.0
+Requires-Dist: typer>=0.9.0
 Provides-Extra: converters
 Requires-Dist: datasets>=2.0.0; extra == 'converters'
 Provides-Extra: dev
@@ -42,7 +43,6 @@ Requires-Dist: mypy>=0.910; extra == 'dev'
 Requires-Dist: pytest-cov>=2.12.0; extra == 'dev'
 Requires-Dist: pytest>=6.0.0; extra == 'dev'
 Provides-Extra: display
-Requires-Dist: rich>=10.0.0; extra == 'display'
 Provides-Extra: docs
 Requires-Dist: myst-parser>=0.15.0; extra == 'docs'
 Requires-Dist: sphinx-rtd-theme>=0.5.0; extra == 'docs'
@@ -50,21 +50,28 @@ Requires-Dist: sphinx>=4.0.0; extra == 'docs'
 Provides-Extra: full
 Requires-Dist: datasets>=2.0.0; extra == 'full'
 Requires-Dist: datasketch>=1.5.0; extra == 'full'
-Requires-Dist: pandas>=1.3.0; extra == 'full'
+Requires-Dist: huggingface-hub>=0.20.0; extra == 'full'
 Requires-Dist: pyarrow; extra == 'full'
 Requires-Dist: rich>=10.0.0; extra == 'full'
 Requires-Dist: scikit-learn>=0.24.0; extra == 'full'
 Requires-Dist: tiktoken>=0.5.0; extra == 'full'
+Requires-Dist: tokenizers>=0.15.0; extra == 'full'
+Requires-Dist: toolong>=1.5.0; extra == 'full'
+Provides-Extra: logs
+Requires-Dist: toolong>=1.5.0; extra == 'logs'
 Provides-Extra: mcp
 Requires-Dist: mcp>=1.0.0; extra == 'mcp'
 Provides-Extra: similarity
 Requires-Dist: datasketch>=1.5.0; extra == 'similarity'
 Requires-Dist: scikit-learn>=0.24.0; extra == 'similarity'
 Provides-Extra: storage
-Requires-Dist: pandas>=1.3.0; extra == 'storage'
 Requires-Dist: pyarrow; extra == 'storage'
 Provides-Extra: tokenizers
 Requires-Dist: tiktoken>=0.5.0; extra == 'tokenizers'
+Provides-Extra: tokenizers-hf
+Requires-Dist: huggingface-hub>=0.20.0; extra == 'tokenizers-hf'
+Requires-Dist: tiktoken>=0.5.0; extra == 'tokenizers-hf'
+Requires-Dist: tokenizers>=0.15.0; extra == 'tokenizers-hf'
 Description-Content-Type: text/markdown
 # dtflow
@@ -101,7 +108,7 @@ dt = DataTransformer.load("data.jsonl")
 ### 数据加载与保存
 ```python
-# 支持 JSONL、JSON、CSV、Parquet
+# 支持 JSONL、JSON、CSV、Parquet、Arrow（使用 Polars 引擎，比 Pandas 快 3x）
 dt = DataTransformer.load("data.jsonl")
 dt.save("output.jsonl")
@@ -293,6 +300,7 @@ dt.shuffle(seed=42)
 # 数据采样
 dt sample data.jsonl --num=10
 dt sample data.csv --num=100 --sample_type=head
+dt sample data.jsonl 1000 --by=category           # 分层采样
 # 数据转换 - 预设模式
 dt transform data.jsonl --preset=openai_chat
@@ -303,6 +311,18 @@ dt transform data.jsonl                    # 首次运行生成配置文件
 # 编辑 .dt/data.py 后再次运行
 dt transform data.jsonl --num=100          # 执行转换
+# Pipeline 执行（可复现的数据处理流程）
+dt run pipeline.yaml
+dt run pipeline.yaml --input=new_data.jsonl --output=result.jsonl
+# Token 统计
+dt token-stats data.jsonl --field=messages --model=gpt-4
+dt token-stats data.jsonl --field=text --detailed
+# 数据对比
+dt diff v1/train.jsonl v2/train.jsonl
+dt diff a.jsonl b.jsonl --key=id
 # 数据清洗
 dt clean data.jsonl --drop-empty                    # 删除任意空值记录
 dt clean data.jsonl --drop-empty=text,answer        # 删除指定字段为空的记录
@@ -325,6 +345,132 @@ dt concat a.jsonl b.jsonl -o merged.jsonl
 dt stats data.jsonl
 ```
+### Pipeline 配置
+使用 YAML 配置文件定义可复现的数据处理流程：
+```yaml
+# pipeline.yaml
+version: "1.0"
+seed: 42
+input: raw_data.jsonl
+output: processed.jsonl
+steps:
+  - type: filter
+    condition: "score > 0.5"
+  - type: filter
+    condition: "len(text) > 10"
+  - type: transform
+    preset: openai_chat
+    params:
+      user_field: q
+      assistant_field: a
+  - type: dedupe
+    key: text
+```
+支持的步骤类型：
+| 步骤 | 参数 | 说明 |
+|------|------|------|
+| `filter` | `condition` | 条件过滤：`score > 0.5`, `len(text) > 10`, `field is not empty` |
+| `transform` | `preset`, `params` | 格式转换，使用预设模板 |
+| `dedupe` | `key`, `similar` | 去重，支持精确和相似度去重 |
+| `sample` | `num`, `seed` | 随机采样 |
+| `head` | `num` | 取前 N 条 |
+| `tail` | `num` | 取后 N 条 |
+| `shuffle` | `seed` | 打乱顺序 |
+| `split` | `ratio`, `seed` | 数据集分割 |
+执行 Pipeline：
+```bash
+dt run pipeline.yaml
+dt run pipeline.yaml --input=new_data.jsonl  # 覆盖输入文件
+```
+### 数据血缘追踪
+记录数据处理的完整历史，支持可复现和问题追溯：
+```python
+# 启用血缘追踪
+dt = DataTransformer.load("raw.jsonl", track_lineage=True)
+# 正常进行数据处理
+result = (dt
+    .filter(lambda x: x.score > 0.5)
+    .transform(lambda x: {"q": x.q, "a": x.a})
+    .dedupe("q")
+)
+# 保存时记录血缘
+result.save("processed.jsonl", lineage=True)
+# 自动生成 processed.jsonl.lineage.json
+```
+查看血缘历史：
+```bash
+dt history processed.jsonl
+# 输出：
+# 📊 数据血缘报告: processed.jsonl
+# └─ 版本 1
+#    来源: raw.jsonl
+#    操作链:
+#      ├─ filter: 1000 → 800
+#      ├─ transform: 800 → 800
+#      └─ dedupe: 800 → 750
+#    输出数量: 750
+dt history processed.jsonl --json  # JSON 格式输出
+```
+### 大文件流式处理
+专为超大文件设计的流式处理接口，内存占用 O(1)，支持 JSONL、CSV、Parquet、Arrow 格式：
+```python
+from dtflow import load_stream, load_sharded
+# 流式加载和处理（100GB 文件也只用常量内存）
+(load_stream("huge_100gb.jsonl")
+    .filter(lambda x: x["score"] > 0.5)
+    .transform(lambda x: {"text": x["content"]})
+    .save("output.jsonl"))
+# 跨格式转换（CSV → Parquet）
+(load_stream("data.csv")
+    .filter(lambda x: x["score"] > 0.5)
+    .save("output.parquet"))
+# 分片文件加载（支持多格式）
+(load_sharded("data/train_*.parquet")
+    .filter(lambda x: len(x["text"]) > 10)
+    .save("merged.jsonl"))
+# 分片保存
+(load_stream("huge.jsonl")
+    .transform(lambda x: {"q": x["question"], "a": x["answer"]})
+    .save_sharded("output/", shard_size=100000))
+# 生成: output/part-00000.jsonl, output/part-00001.jsonl, ...
+# 批次处理（适合需要批量调用 API 的场景）
+for batch in load_stream("data.jsonl").batch(1000):
+    results = call_api(batch)  # 批量处理
+```
+特点：
+- **惰性执行**：filter/transform 不会立即执行，只在 save/collect 时才触发
+- **O(1) 内存**：无论文件多大，内存占用恒定（读取侧）
+- **多格式支持**：JSONL、CSV、Parquet、Arrow 均支持流式处理
+- **跨格式转换**：可直接从 CSV 读取并保存为 Parquet 等
+- **分片支持**：支持 glob 模式加载多个分片，自动合并处理
 ## 错误处理
 ```python

{dtflow-0.3.0 → dtflow-0.3.2}/README.md RENAMED Viewed

@@ -32,7 +32,7 @@ dt = DataTransformer.load("data.jsonl")
 ### 数据加载与保存
 ```python
-# 支持 JSONL、JSON、CSV、Parquet
+# 支持 JSONL、JSON、CSV、Parquet、Arrow（使用 Polars 引擎，比 Pandas 快 3x）
 dt = DataTransformer.load("data.jsonl")
 dt.save("output.jsonl")
@@ -224,6 +224,7 @@ dt.shuffle(seed=42)
 # 数据采样
 dt sample data.jsonl --num=10
 dt sample data.csv --num=100 --sample_type=head
+dt sample data.jsonl 1000 --by=category           # 分层采样
 # 数据转换 - 预设模式
 dt transform data.jsonl --preset=openai_chat
@@ -234,6 +235,18 @@ dt transform data.jsonl                    # 首次运行生成配置文件
 # 编辑 .dt/data.py 后再次运行
 dt transform data.jsonl --num=100          # 执行转换
+# Pipeline 执行（可复现的数据处理流程）
+dt run pipeline.yaml
+dt run pipeline.yaml --input=new_data.jsonl --output=result.jsonl
+# Token 统计
+dt token-stats data.jsonl --field=messages --model=gpt-4
+dt token-stats data.jsonl --field=text --detailed
+# 数据对比
+dt diff v1/train.jsonl v2/train.jsonl
+dt diff a.jsonl b.jsonl --key=id
 # 数据清洗
 dt clean data.jsonl --drop-empty                    # 删除任意空值记录
 dt clean data.jsonl --drop-empty=text,answer        # 删除指定字段为空的记录
@@ -256,6 +269,132 @@ dt concat a.jsonl b.jsonl -o merged.jsonl
 dt stats data.jsonl
 ```
+### Pipeline 配置
+使用 YAML 配置文件定义可复现的数据处理流程：
+```yaml
+# pipeline.yaml
+version: "1.0"
+seed: 42
+input: raw_data.jsonl
+output: processed.jsonl
+steps:
+  - type: filter
+    condition: "score > 0.5"
+  - type: filter
+    condition: "len(text) > 10"
+  - type: transform
+    preset: openai_chat
+    params:
+      user_field: q
+      assistant_field: a
+  - type: dedupe
+    key: text
+```
+支持的步骤类型：
+| 步骤 | 参数 | 说明 |
+|------|------|------|
+| `filter` | `condition` | 条件过滤：`score > 0.5`, `len(text) > 10`, `field is not empty` |
+| `transform` | `preset`, `params` | 格式转换，使用预设模板 |
+| `dedupe` | `key`, `similar` | 去重，支持精确和相似度去重 |
+| `sample` | `num`, `seed` | 随机采样 |
+| `head` | `num` | 取前 N 条 |
+| `tail` | `num` | 取后 N 条 |
+| `shuffle` | `seed` | 打乱顺序 |
+| `split` | `ratio`, `seed` | 数据集分割 |
+执行 Pipeline：
+```bash
+dt run pipeline.yaml
+dt run pipeline.yaml --input=new_data.jsonl  # 覆盖输入文件
+```
+### 数据血缘追踪
+记录数据处理的完整历史，支持可复现和问题追溯：
+```python
+# 启用血缘追踪
+dt = DataTransformer.load("raw.jsonl", track_lineage=True)
+# 正常进行数据处理
+result = (dt
+    .filter(lambda x: x.score > 0.5)
+    .transform(lambda x: {"q": x.q, "a": x.a})
+    .dedupe("q")
+)
+# 保存时记录血缘
+result.save("processed.jsonl", lineage=True)
+# 自动生成 processed.jsonl.lineage.json
+```
+查看血缘历史：
+```bash
+dt history processed.jsonl
+# 输出：
+# 📊 数据血缘报告: processed.jsonl
+# └─ 版本 1
+#    来源: raw.jsonl
+#    操作链:
+#      ├─ filter: 1000 → 800
+#      ├─ transform: 800 → 800
+#      └─ dedupe: 800 → 750
+#    输出数量: 750
+dt history processed.jsonl --json  # JSON 格式输出
+```
+### 大文件流式处理
+专为超大文件设计的流式处理接口，内存占用 O(1)，支持 JSONL、CSV、Parquet、Arrow 格式：
+```python
+from dtflow import load_stream, load_sharded
+# 流式加载和处理（100GB 文件也只用常量内存）
+(load_stream("huge_100gb.jsonl")
+    .filter(lambda x: x["score"] > 0.5)
+    .transform(lambda x: {"text": x["content"]})
+    .save("output.jsonl"))
+# 跨格式转换（CSV → Parquet）
+(load_stream("data.csv")
+    .filter(lambda x: x["score"] > 0.5)
+    .save("output.parquet"))
+# 分片文件加载（支持多格式）
+(load_sharded("data/train_*.parquet")
+    .filter(lambda x: len(x["text"]) > 10)
+    .save("merged.jsonl"))
+# 分片保存
+(load_stream("huge.jsonl")
+    .transform(lambda x: {"q": x["question"], "a": x["answer"]})
+    .save_sharded("output/", shard_size=100000))
+# 生成: output/part-00000.jsonl, output/part-00001.jsonl, ...
+# 批次处理（适合需要批量调用 API 的场景）
+for batch in load_stream("data.jsonl").batch(1000):
+    results = call_api(batch)  # 批量处理
+```
+特点：
+- **惰性执行**：filter/transform 不会立即执行，只在 save/collect 时才触发
+- **O(1) 内存**：无论文件多大，内存占用恒定（读取侧）
+- **多格式支持**：JSONL、CSV、Parquet、Arrow 均支持流式处理
+- **跨格式转换**：可直接从 CSV 读取并保存为 Parquet 等
+- **分片支持**：支持 glob 模式加载多个分片，自动合并处理
 ## 错误处理
 ```python

dtflow-0.3.2/dtflow/__init__.py ADDED Viewed

@@ -0,0 +1,94 @@
+"""
+DataTransformer: 简洁的数据格式转换工具
+核心功能:
+- DataTransformer: 数据加载、转换、保存
+- presets: 预设转换模板 (openai_chat, alpaca, sharegpt, dpo_pair, simple_qa)
+- tokenizers: Token 统计和过滤
+- converters: HuggingFace/OpenAI 等格式转换
+"""
+from .converters import (  # LLaMA-Factory 扩展; ms-swift
+    from_hf_dataset,
+    from_openai_batch,
+    messages_to_text,
+    to_axolotl,
+    to_hf_chat_format,
+    to_hf_dataset,
+    to_llama_factory,
+    to_llama_factory_sharegpt,
+    to_llama_factory_vlm,
+    to_llama_factory_vlm_sharegpt,
+    to_openai_batch,
+    to_swift_messages,
+    to_swift_query_response,
+    to_swift_vlm,
+)
+from .core import DataTransformer, DictWrapper, TransformError, TransformErrors
+from .presets import get_preset, list_presets
+from .storage import load_data, sample_file, save_data
+from .streaming import StreamingTransformer, load_sharded, load_stream, process_shards
+from .tokenizers import (
+    DEFAULT_MODEL,
+    MODEL_ALIASES,
+    OPENAI_MODELS,
+    count_tokens,
+    messages_token_counter,
+    messages_token_filter,
+    messages_token_stats,
+    resolve_model,
+    token_counter,
+    token_filter,
+    token_stats,
+)
+__version__ = "0.3.2"
+__all__ = [
+    # core
+    "DataTransformer",
+    "DictWrapper",
+    "TransformError",
+    "TransformErrors",
+    # presets
+    "get_preset",
+    "list_presets",
+    # storage
+    "save_data",
+    "load_data",
+    "sample_file",
+    # tokenizers
+    "count_tokens",
+    "token_counter",
+    "token_filter",
+    "token_stats",
+    "messages_token_counter",
+    "messages_token_filter",
+    "messages_token_stats",
+    "DEFAULT_MODEL",
+    "MODEL_ALIASES",
+    "OPENAI_MODELS",
+    "resolve_model",
+    # converters
+    "to_hf_dataset",
+    "from_hf_dataset",
+    "to_hf_chat_format",
+    "from_openai_batch",
+    "to_openai_batch",
+    "to_llama_factory",
+    "to_axolotl",
+    "messages_to_text",
+    # LLaMA-Factory 扩展
+    "to_llama_factory_sharegpt",
+    "to_llama_factory_vlm",
+    "to_llama_factory_vlm_sharegpt",
+    # ms-swift
+    "to_swift_messages",
+    "to_swift_query_response",
+    "to_swift_vlm",
+    # streaming
+    "StreamingTransformer",
+    "load_stream",
+    "load_sharded",
+    "process_shards",
+]

dtflow 0.3.0__tar.gz → 0.3.2__tar.gz

dtflow 0.3.0tar.gz → 0.3.2tar.gz