PyPI - dtflow - Versions diffs - 0.3.0__py3-none-any.whl → 0.3.2__py3-none-any.whl - Mend

dtflow 0.3.0py3-none-any.whl → 0.3.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (24) hide show

dtflow/__init__.py +70 -43
dtflow/__main__.py +301 -239
dtflow/cli/__init__.py +29 -2
dtflow/cli/commands.py +1112 -113
dtflow/converters.py +39 -23
dtflow/core.py +140 -72
dtflow/lineage.py +410 -0
dtflow/mcp/__init__.py +1 -0
dtflow/mcp/__main__.py +2 -0
dtflow/mcp/cli.py +35 -17
dtflow/mcp/docs.py +0 -5
dtflow/pipeline.py +460 -0
dtflow/presets.py +24 -22
dtflow/storage/__init__.py +11 -10
dtflow/storage/io.py +384 -369
dtflow/streaming.py +656 -0
dtflow/tokenizers.py +212 -57
dtflow/utils/__init__.py +2 -1
dtflow/utils/display.py +28 -27
{dtflow-0.3.0.dist-info → dtflow-0.3.2.dist-info}/METADATA +153 -7
dtflow-0.3.2.dist-info/RECORD +24 -0
dtflow-0.3.0.dist-info/RECORD +0 -21
{dtflow-0.3.0.dist-info → dtflow-0.3.2.dist-info}/WHEEL +0 -0
{dtflow-0.3.0.dist-info → dtflow-0.3.2.dist-info}/entry_points.txt +0 -0

dtflow/__init__.py CHANGED Viewed

@@ -7,61 +7,88 @@ DataTransformer: 简洁的数据格式转换工具
 - tokenizers: Token 统计和过滤
 - converters: HuggingFace/OpenAI 等格式转换
 """
+from .converters import (  # LLaMA-Factory 扩展; ms-swift
+    from_hf_dataset,
+    from_openai_batch,
+    messages_to_text,
+    to_axolotl,
+    to_hf_chat_format,
+    to_hf_dataset,
+    to_llama_factory,
+    to_llama_factory_sharegpt,
+    to_llama_factory_vlm,
+    to_llama_factory_vlm_sharegpt,
+    to_openai_batch,
+    to_swift_messages,
+    to_swift_query_response,
+    to_swift_vlm,
+)
 from .core import DataTransformer, DictWrapper, TransformError, TransformErrors
 from .presets import get_preset, list_presets
-from .storage import save_data, load_data, sample_file
+from .storage import load_data, sample_file, save_data
+from .streaming import StreamingTransformer, load_sharded, load_stream, process_shards
 from .tokenizers import (
-    count_tokens, token_counter, token_filter, token_stats,
-    messages_token_counter, messages_token_filter, messages_token_stats,
-)
-from .converters import (
-    to_hf_dataset, from_hf_dataset, to_hf_chat_format,
-    from_openai_batch, to_openai_batch,
-    to_llama_factory, to_axolotl, messages_to_text,
-    # LLaMA-Factory 扩展
-    to_llama_factory_sharegpt, to_llama_factory_vlm, to_llama_factory_vlm_sharegpt,
-    # ms-swift
-    to_swift_messages, to_swift_query_response, to_swift_vlm,
+    DEFAULT_MODEL,
+    MODEL_ALIASES,
+    OPENAI_MODELS,
+    count_tokens,
+    messages_token_counter,
+    messages_token_filter,
+    messages_token_stats,
+    resolve_model,
+    token_counter,
+    token_filter,
+    token_stats,
 )
-__version__ = '0.3.0'
+__version__ = "0.3.2"
 __all__ = [
     # core
-    'DataTransformer',
-    'DictWrapper',
-    'TransformError',
-    'TransformErrors',
+    "DataTransformer",
+    "DictWrapper",
+    "TransformError",
+    "TransformErrors",
     # presets
-    'get_preset',
-    'list_presets',
+    "get_preset",
+    "list_presets",
     # storage
-    'save_data',
-    'load_data',
-    'sample_file',
+    "save_data",
+    "load_data",
+    "sample_file",
     # tokenizers
-    'count_tokens',
-    'token_counter',
-    'token_filter',
-    'token_stats',
-    'messages_token_counter',
-    'messages_token_filter',
-    'messages_token_stats',
+    "count_tokens",
+    "token_counter",
+    "token_filter",
+    "token_stats",
+    "messages_token_counter",
+    "messages_token_filter",
+    "messages_token_stats",
+    "DEFAULT_MODEL",
+    "MODEL_ALIASES",
+    "OPENAI_MODELS",
+    "resolve_model",
     # converters
-    'to_hf_dataset',
-    'from_hf_dataset',
-    'to_hf_chat_format',
-    'from_openai_batch',
-    'to_openai_batch',
-    'to_llama_factory',
-    'to_axolotl',
-    'messages_to_text',
+    "to_hf_dataset",
+    "from_hf_dataset",
+    "to_hf_chat_format",
+    "from_openai_batch",
+    "to_openai_batch",
+    "to_llama_factory",
+    "to_axolotl",
+    "messages_to_text",
     # LLaMA-Factory 扩展
-    'to_llama_factory_sharegpt',
-    'to_llama_factory_vlm',
-    'to_llama_factory_vlm_sharegpt',
+    "to_llama_factory_sharegpt",
+    "to_llama_factory_vlm",
+    "to_llama_factory_vlm_sharegpt",
     # ms-swift
-    'to_swift_messages',
-    'to_swift_query_response',
-    'to_swift_vlm',
+    "to_swift_messages",
+    "to_swift_query_response",
+    "to_swift_vlm",
+    # streaming
+    "StreamingTransformer",
+    "load_stream",
+    "load_sharded",
+    "process_shards",
 ]

dtflow 0.3.0__py3-none-any.whl → 0.3.2__py3-none-any.whl

dtflow 0.3.0py3-none-any.whl → 0.3.2py3-none-any.whl