PyPI - mysphinx-forge - Versions diffs - 0.2.1__tar.gz → 0.2.2__tar.gz - Mend

mysphinx-forge 0.2.1tar.gz → 0.2.2tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (46) hide show

{mysphinx_forge-0.2.1 → mysphinx_forge-0.2.2}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: mysphinx-forge
-Version: 0.2.1
+Version: 0.2.2
 Summary: Data and model workflow toolkit for cleaning, clustering, generation, and evaluation
 Keywords: data-cleaning,deduplication,clustering,nlp,cli
 Classifier: Development Status :: 3 - Alpha
@@ -166,7 +166,25 @@ uv run python main.py ...
 除了命令行参数，也可以在当前目录放一个 `mysphinx-forge.yaml`，或通过 `--config <path>` 显式指定配置文件。
-仓库根目录已经提供了一份带完整注释的 [mysphinx-forge.yaml](./mysphinx-forge.yaml)，可以直接按需修改。
+在你的项目目录下运行以下命令，可以生成一份带完整注释的配置模版：
+```bash
+mysphinx-forge init
+```
+如需生成到指定路径：
+```bash
+mysphinx-forge init -o configs/mysphinx-forge.yaml
+```
+如需覆盖已有文件：
+```bash
+mysphinx-forge init --force
+```
+生成的模版包含所有参数的默认值和说明，修改 `action` 和 `input_file` 后即可直接运行。
 优先级规则：
@@ -254,6 +272,19 @@ cp .env.example .env
 ## 常用命令
+### 生成配置模版
+```bash
+mysphinx-forge init
+```
+在当前目录生成 `mysphinx-forge.yaml` 配置模版，包含所有参数的默认值和注释说明。修改 `action` 和 `input_file` 后即可直接运行 `mysphinx-forge`，无需每次手动输入命令行参数。
+```bash
+mysphinx-forge init -o configs/mysphinx-forge.yaml   # 指定输出路径
+mysphinx-forge init --force                           # 覆盖已有文件
+```
 ### 数据清洗
 `clean` 会删除目标列中的以下行：
@@ -449,13 +480,19 @@ data/input_deduplicated_split_train_pa.jsonl
 mysphinx-forge --action convert-sft --sft-format pa --input-file data/input.xlsx --sft-system-prompt "你是证券领域用户意图识别专家。"
 ```
-**自动切分**：当转换结果超过 10000 条时，自动按 10000 条一份切分为多个 JSONL 文件，文件名末尾追加序号。例如输入文件 `input_deduplicated_split_train.xlsx` 包含 12000 条数据，输出为：
+**自动切分**：当转换结果超过阈值（默认 10000）时，自动按阈值切分为多个 JSONL 文件，文件名末尾追加序号。例如输入文件 `input_deduplicated_split_train.xlsx` 包含 12000 条数据，输出为：
 ```
 input_deduplicated_split_train_pa_1.jsonl   # 前 10000 条
 input_deduplicated_split_train_pa_2.jsonl   # 后 2000 条
 ```
+通过 `--sft-pa-max-records-per-file` 可自定义阈值：
+```bash
+mysphinx-forge --action convert-sft --sft-format pa --input-file data/input.xlsx --sft-pa-max-records-per-file 5000
+```
 说明：
 - 支持 `alpaca`（默认）和 `pa` 两种格式，通过 `--sft-format` 切换
@@ -508,11 +545,15 @@ OPENAI_API_KEY=... mysphinx-forge --action cluster --input-file data/input_dedup
 mysphinx-forge --action split --input-file data/input_deduplicated.xlsx
 ```
-如果输入是 Excel，多 sheet 会默认合并；其中名字精确等于 `increment` 的 sheet 会被视为增量数据：
+如果输入是 Excel，多 sheet 会默认合并。以下三个特殊 sheet 名（大小写不敏感）用于注入数据，不参与比例切分：
+| sheet 名 | 注入目标 |
+|----------|----------|
+| `train`  | 全量追加到训练集 |
+| `valid`  | 全量追加到验证集 |
+| `test`   | 全量追加到测试集 |
-- `increment` 不参与 train / valid / test 比例切分
-- `increment` 会全量追加到 train 和 valid
-- `increment` 不会进入 test
+三者均为可选，可以同时存在，也可以只有其中一个或多个。
 显式分层切分：
@@ -800,7 +841,7 @@ mysphinx-forge --action convert-sft --input-file data/raw_deduplicated_split_val
 - `convert-sft` 默认会自动探测输出列：`category`、`label`、`intent`、`output`、`response`、`answer`、`target`
 - 如果输入是 Excel，多 sheet 会默认合并
-- 如果存在名字精确等于 `increment` 的 sheet，它在 `split` 时不会参与比例切分，而是会全量注入 `train` 和 `valid`
+- 如果存在名为 `train` / `valid` / `test` 的 sheet（大小写不敏感），它们在 `split` 时不参与比例切分，而是分别全量注入对应的集合
 ### 场景 2：收到一份原始 Excel，但只有问题文本，没有标签

{mysphinx_forge-0.2.1 → mysphinx_forge-0.2.2}/README.md RENAMED Viewed

@@ -129,7 +129,25 @@ uv run python main.py ...
 除了命令行参数，也可以在当前目录放一个 `mysphinx-forge.yaml`，或通过 `--config <path>` 显式指定配置文件。
-仓库根目录已经提供了一份带完整注释的 [mysphinx-forge.yaml](./mysphinx-forge.yaml)，可以直接按需修改。
+在你的项目目录下运行以下命令，可以生成一份带完整注释的配置模版：
+```bash
+mysphinx-forge init
+```
+如需生成到指定路径：
+```bash
+mysphinx-forge init -o configs/mysphinx-forge.yaml
+```
+如需覆盖已有文件：
+```bash
+mysphinx-forge init --force
+```
+生成的模版包含所有参数的默认值和说明，修改 `action` 和 `input_file` 后即可直接运行。
 优先级规则：
@@ -217,6 +235,19 @@ cp .env.example .env
 ## 常用命令
+### 生成配置模版
+```bash
+mysphinx-forge init
+```
+在当前目录生成 `mysphinx-forge.yaml` 配置模版，包含所有参数的默认值和注释说明。修改 `action` 和 `input_file` 后即可直接运行 `mysphinx-forge`，无需每次手动输入命令行参数。
+```bash
+mysphinx-forge init -o configs/mysphinx-forge.yaml   # 指定输出路径
+mysphinx-forge init --force                           # 覆盖已有文件
+```
 ### 数据清洗
 `clean` 会删除目标列中的以下行：
@@ -412,13 +443,19 @@ data/input_deduplicated_split_train_pa.jsonl
 mysphinx-forge --action convert-sft --sft-format pa --input-file data/input.xlsx --sft-system-prompt "你是证券领域用户意图识别专家。"
 ```
-**自动切分**：当转换结果超过 10000 条时，自动按 10000 条一份切分为多个 JSONL 文件，文件名末尾追加序号。例如输入文件 `input_deduplicated_split_train.xlsx` 包含 12000 条数据，输出为：
+**自动切分**：当转换结果超过阈值（默认 10000）时，自动按阈值切分为多个 JSONL 文件，文件名末尾追加序号。例如输入文件 `input_deduplicated_split_train.xlsx` 包含 12000 条数据，输出为：
 ```
 input_deduplicated_split_train_pa_1.jsonl   # 前 10000 条
 input_deduplicated_split_train_pa_2.jsonl   # 后 2000 条
 ```
+通过 `--sft-pa-max-records-per-file` 可自定义阈值：
+```bash
+mysphinx-forge --action convert-sft --sft-format pa --input-file data/input.xlsx --sft-pa-max-records-per-file 5000
+```
 说明：
 - 支持 `alpaca`（默认）和 `pa` 两种格式，通过 `--sft-format` 切换
@@ -471,11 +508,15 @@ OPENAI_API_KEY=... mysphinx-forge --action cluster --input-file data/input_dedup
 mysphinx-forge --action split --input-file data/input_deduplicated.xlsx
 ```
-如果输入是 Excel，多 sheet 会默认合并；其中名字精确等于 `increment` 的 sheet 会被视为增量数据：
+如果输入是 Excel，多 sheet 会默认合并。以下三个特殊 sheet 名（大小写不敏感）用于注入数据，不参与比例切分：
+| sheet 名 | 注入目标 |
+|----------|----------|
+| `train`  | 全量追加到训练集 |
+| `valid`  | 全量追加到验证集 |
+| `test`   | 全量追加到测试集 |
-- `increment` 不参与 train / valid / test 比例切分
-- `increment` 会全量追加到 train 和 valid
-- `increment` 不会进入 test
+三者均为可选，可以同时存在，也可以只有其中一个或多个。
 显式分层切分：
@@ -763,7 +804,7 @@ mysphinx-forge --action convert-sft --input-file data/raw_deduplicated_split_val
 - `convert-sft` 默认会自动探测输出列：`category`、`label`、`intent`、`output`、`response`、`answer`、`target`
 - 如果输入是 Excel，多 sheet 会默认合并
-- 如果存在名字精确等于 `increment` 的 sheet，它在 `split` 时不会参与比例切分，而是会全量注入 `train` 和 `valid`
+- 如果存在名为 `train` / `valid` / `test` 的 sheet（大小写不敏感），它们在 `split` 时不参与比例切分，而是分别全量注入对应的集合
 ### 场景 2：收到一份原始 Excel，但只有问题文本，没有标签

{mysphinx_forge-0.2.1 → mysphinx_forge-0.2.2}/mysphinx_forge/cli.py RENAMED Viewed

@@ -31,7 +31,9 @@ from mysphinx_forge.config import (
 from mysphinx_forge.deduplication import DeduplicationStats, deduplicate_dataframe
 from mysphinx_forge.env_utils import load_project_env_files
 from mysphinx_forge.file_io import (
-    INCREMENT_SHEET_NAME,
+    TEST_SHEET_NAME,
+    TRAIN_SHEET_NAME,
+    VALID_SHEET_NAME,
     append_dataframe_chunk,
     count_csv_rows,
     iter_dataframes,
@@ -61,6 +63,7 @@ from mysphinx_forge.semantic_deduplication import (
 )
 from mysphinx_forge.sft_dataset import (
     DEFAULT_SFT_FORMAT,
+    PA_MAX_RECORDS_PER_FILE,
     PA_SFT_FORMAT,
     SftConversionStats,
     convert_dataframe_to_alpaca,
@@ -89,6 +92,10 @@ _ACTION_CHOICES = [
 def main() -> int:
     load_project_env_files()
     raw_argv = sys.argv[1:]
+    if raw_argv and raw_argv[0] == "init":
+        return _run_init(raw_argv[1:])
     bootstrap_args, _ = _build_bootstrap_parser().parse_known_args(raw_argv)
     try:
@@ -305,12 +312,63 @@ def main() -> int:
             resolved_sft_system_prompt,
             args.sft_system_column,
             args.sft_user_query_as_instruction,
+            args.sft_pa_max_records_per_file,
         )
     parser.print_help()
     return 1
+def _run_init(argv: list[str]) -> int:
+    init_parser = argparse.ArgumentParser(
+        prog="mysphinx-forge init",
+        description="在当前目录生成 mysphinx-forge.yaml 配置模版。",
+    )
+    init_parser.add_argument(
+        "--output",
+        "-o",
+        default=DEFAULT_CONFIG_FILE_NAME,
+        help=f"输出文件路径，默认为当前目录下的 {DEFAULT_CONFIG_FILE_NAME}。",
+    )
+    init_parser.add_argument(
+        "--force",
+        action="store_true",
+        help="若目标文件已存在，强制覆盖。",
+    )
+    args = init_parser.parse_args(argv)
+    output_path = Path(args.output)
+    if not output_path.is_absolute():
+        output_path = Path.cwd() / output_path
+    if output_path.exists() and not args.force:
+        print(f"文件已存在：{output_path}")
+        print("如需覆盖，请添加 --force 参数。")
+        return 1
+    try:
+        from importlib.resources import files as _pkg_files
+        template_text = (
+            _pkg_files("mysphinx_forge.templates")
+            .joinpath("mysphinx-forge.yaml")
+            .read_text(encoding="utf-8")
+        )
+    except Exception as exc:
+        print(f"读取配置模版失败：{exc}")
+        return 1
+    try:
+        output_path.parent.mkdir(parents=True, exist_ok=True)
+        output_path.write_text(template_text, encoding="utf-8")
+    except OSError as exc:
+        print(f"写出配置模版失败：{output_path}，{type(exc).__name__}: {exc}")
+        return 1
+    print(f"已生成配置模版：{output_path}")
+    print("请编辑文件，将 action 和 input_file 替换为实际值后直接运行 mysphinx-forge。")
+    return 0
 def _build_bootstrap_parser() -> argparse.ArgumentParser:
     parser = argparse.ArgumentParser(add_help=False)
     parser.add_argument("--config", default="")
@@ -656,6 +714,13 @@ def _build_parser(
         default=config_defaults.get("sft_user_query_as_instruction", True),
         help="为 true 时将用户输入作为 alpaca instruction 字段，input 字段留空；为 false 时保持原有行为（input 存用户输入，instruction 为固定文本）。默认 true。",
     )
+    parser.add_argument(
+        "--sft-pa-max-records-per-file",
+        type=int,
+        dest="sft_pa_max_records_per_file",
+        default=config_defaults.get("sft_pa_max_records_per_file", PA_MAX_RECORDS_PER_FILE),
+        help=f"pa 格式每个 JSONL 文件最大记录数，超出时自动切分为多个文件，默认 {PA_MAX_RECORDS_PER_FILE}。",
+    )
     return parser
@@ -1366,9 +1431,8 @@ def _run_split(
     try:
         run_stage("读取文件", logger=logger)
-        dataframe, increment_dataframe = load_split_dataframes(
+        dataframe, train_inject_df, valid_inject_df, test_inject_df = load_split_dataframes(
             input_file,
-            increment_sheet_name=INCREMENT_SHEET_NAME,
         )
         resolved_split_mode, resolved_stratify_column = resolve_auto_split_mode(
             dataframe,
@@ -1387,15 +1451,21 @@ def _run_split(
             time_column=time_column,
             time_ascending=time_ascending,
         )
-        if not increment_dataframe.empty:
-            train_df = pd.concat([train_df, increment_dataframe], ignore_index=True)
-            validation_df = pd.concat([validation_df, increment_dataframe], ignore_index=True)
-            stats.total_rows += len(increment_dataframe)
+        if not train_inject_df.empty:
+            train_df = pd.concat([train_df, train_inject_df], ignore_index=True)
+            stats.inject_train_rows = len(train_inject_df)
+        if not valid_inject_df.empty:
+            validation_df = pd.concat([validation_df, valid_inject_df], ignore_index=True)
+            stats.inject_valid_rows = len(valid_inject_df)
+        if not test_inject_df.empty:
+            test_df = pd.concat([test_df, test_inject_df], ignore_index=True)
+            stats.inject_test_rows = len(test_inject_df)
+        total_inject = stats.inject_train_rows + stats.inject_valid_rows + stats.inject_test_rows
+        if total_inject > 0:
+            stats.total_rows += total_inject
             stats.train_rows = len(train_df)
             stats.validation_rows = len(validation_df)
             stats.test_rows = len(test_df)
-            stats.increment_rows = len(increment_dataframe)
-            stats.increment_sheet_name = INCREMENT_SHEET_NAME
     except ValueError as exc:
         _emit_error(str(exc), logger)
         close_logger()
@@ -1405,8 +1475,15 @@ def _run_split(
     write_dataframe(train_df, train_output_path)
     run_stage("写出 valid", logger=logger)
     write_dataframe(validation_df, validation_output_path)
-    run_stage("写出 test", logger=logger)
-    write_dataframe(test_df, test_output_path)
+    if test_ratio > 0:
+        run_stage("写出 test", logger=logger)
+        write_dataframe(test_df, test_output_path)
+    extra_output_files: dict[str, Path] = {
+        "train_file": train_output_path,
+        "validation_file": validation_output_path,
+    }
+    if test_ratio > 0:
+        extra_output_files["test_file"] = test_output_path
     _write_meta(
         output_path=base_output_path,
         action="split",
@@ -1421,21 +1498,18 @@ def _run_split(
             "group_column": group_column,
             "time_column": time_column,
             "time_order": "asc" if time_ascending else "desc",
-            "increment_sheet_name": stats.increment_sheet_name,
-            "increment_rows": stats.increment_rows,
+            "inject_train_rows": stats.inject_train_rows,
+            "inject_valid_rows": stats.inject_valid_rows,
+            "inject_test_rows": stats.inject_test_rows,
         },
         split_stats=stats,
-        extra_output_files={
-            "train_file": train_output_path,
-            "validation_file": validation_output_path,
-            "test_file": test_output_path,
-        },
+        extra_output_files=extra_output_files,
     )
     _print_split_stats(
         stats,
         train_output_path=train_output_path,
         validation_output_path=validation_output_path,
-        test_output_path=test_output_path,
+        test_output_path=test_output_path if test_ratio > 0 else None,
         logger=logger,
     )
     close_logger()
@@ -1744,6 +1818,7 @@ def _run_convert_sft(
     sft_system_prompt: str,
     sft_system_column: str,
     sft_user_query_as_instruction: bool = True,
+    sft_pa_max_records_per_file: int = PA_MAX_RECORDS_PER_FILE,
 ) -> int:
     input_path = Path(input_file)
     output_path = _resolve_sft_output_path(input_path, output_arg, sft_format)
@@ -1764,6 +1839,7 @@ def _run_convert_sft(
                 dataframe,
                 target_column=target_column,
                 output_column=sft_output_column,
+                instruction=sft_instruction,
                 system_prompt=sft_system_prompt,
                 system_column=sft_system_column,
             )
@@ -1786,7 +1862,9 @@ def _run_convert_sft(
     run_stage("写出结果", logger=logger)
     if sft_format == PA_SFT_FORMAT:
-        written_paths = write_pa_dataset(records, output_path)
+        written_paths = write_pa_dataset(
+            records, output_path, max_records_per_file=sft_pa_max_records_per_file
+        )
     else:
         write_alpaca_dataset(records, output_path)
         written_paths = [output_path]
@@ -1802,6 +1880,7 @@ def _run_convert_sft(
             "sft_system_prompt": sft_system_prompt,
             "sft_system_column": sft_system_column,
             "sft_user_query_as_instruction": sft_user_query_as_instruction,
+            "sft_pa_max_records_per_file": sft_pa_max_records_per_file,
         },
         sft_conversion_stats=stats,
         extra_output_files={f"output_file_{i + 1}": p for i, p in enumerate(written_paths)}
@@ -2004,7 +2083,7 @@ def _print_split_stats(
     *,
     train_output_path: Path,
     validation_output_path: Path,
-    test_output_path: Path,
+    test_output_path: Path | None,
     logger: Logger,
 ) -> None:
     _emit_message("数据切分完成", logger)
@@ -2016,17 +2095,22 @@ def _print_split_stats(
     if stats.time_column:
         _emit_message(f"时间列：{stats.time_column}", logger)
         _emit_message(f"时间顺序：{'asc' if stats.time_ascending else 'desc'}", logger)
-    if stats.increment_rows > 0:
-        _emit_message(f"增量工作表：{stats.increment_sheet_name}", logger)
-        _emit_message(f"增量注入行数：{stats.increment_rows}", logger)
+    if stats.inject_train_rows > 0:
+        _emit_message(f"注入训练集行数（{TRAIN_SHEET_NAME!r} sheet）：{stats.inject_train_rows}", logger)
+    if stats.inject_valid_rows > 0:
+        _emit_message(f"注入验证集行数（{VALID_SHEET_NAME!r} sheet）：{stats.inject_valid_rows}", logger)
+    if stats.inject_test_rows > 0:
+        _emit_message(f"注入测试集行数（{TEST_SHEET_NAME!r} sheet）：{stats.inject_test_rows}", logger)
     _emit_message(f"随机种子：{stats.random_seed}", logger)
     _emit_message(f"总行数：{stats.total_rows}", logger)
     _emit_message(f"训练集行数：{stats.train_rows}", logger)
     _emit_message(f"验证集行数：{stats.validation_rows}", logger)
-    _emit_message(f"测试集行数：{stats.test_rows}", logger)
+    if test_output_path is not None:
+        _emit_message(f"测试集行数：{stats.test_rows}", logger)
     _emit_message(f"训练集文件：{train_output_path}", logger)
     _emit_message(f"验证集文件：{validation_output_path}", logger)
-    _emit_message(f"测试集文件：{test_output_path}", logger)
+    if test_output_path is not None:
+        _emit_message(f"测试集文件：{test_output_path}", logger)
 def _print_sft_conversion_stats(
@@ -2134,8 +2218,9 @@ def _write_meta(
             "group_column": split_stats.group_column,
             "time_column": split_stats.time_column,
             "time_ascending": split_stats.time_ascending,
-            "increment_rows": split_stats.increment_rows,
-            "increment_sheet_name": split_stats.increment_sheet_name,
+            "inject_train_rows": split_stats.inject_train_rows,
+            "inject_valid_rows": split_stats.inject_valid_rows,
+            "inject_test_rows": split_stats.inject_test_rows,
         }
     if sft_conversion_stats is not None:
         meta["sft_conversion_stats"] = {

{mysphinx_forge-0.2.1 → mysphinx_forge-0.2.2}/mysphinx_forge/file_io.py RENAMED Viewed

@@ -14,7 +14,10 @@ if TYPE_CHECKING:
 SUPPORTED_EXTENSIONS = {".csv", ".xls", ".xlsx", ".xlsm"}
-INCREMENT_SHEET_NAME = "increment"
+TRAIN_SHEET_NAME = "train"
+VALID_SHEET_NAME = "valid"
+TEST_SHEET_NAME = "test"
+_INJECT_SHEET_NAMES = {TRAIN_SHEET_NAME, VALID_SHEET_NAME, TEST_SHEET_NAME}
 DEFAULT_PROGRESS_COLOURS = [
     "red",
     "green",
@@ -44,28 +47,40 @@ def load_dataframe(file_path: str | Path) -> pd.DataFrame:
 def load_split_dataframes(
     file_path: str | Path,
-    *,
-    increment_sheet_name: str = INCREMENT_SHEET_NAME,
-) -> tuple[pd.DataFrame, pd.DataFrame]:
+) -> tuple[pd.DataFrame, pd.DataFrame, pd.DataFrame, pd.DataFrame]:
     path = validate_tabular_file(file_path)
+    empty = pd.DataFrame()
     if path.suffix.lower() == ".csv":
         dataframe = pd.read_csv(path, skip_blank_lines=False)
-        return dataframe, dataframe.head(0).copy()
+        return dataframe, empty, empty, empty
     regular_frames: list[pd.DataFrame] = []
-    increment_frames: list[pd.DataFrame] = []
+    train_frames: list[pd.DataFrame] = []
+    valid_frames: list[pd.DataFrame] = []
+    test_frames: list[pd.DataFrame] = []
     for sheet_name, dataframe in _load_excel_sheets(path).items():
-        if sheet_name == increment_sheet_name:
-            increment_frames.append(dataframe)
+        lower = sheet_name.lower()
+        if lower == TRAIN_SHEET_NAME:
+            train_frames.append(dataframe)
+        elif lower == VALID_SHEET_NAME:
+            valid_frames.append(dataframe)
+        elif lower == TEST_SHEET_NAME:
+            test_frames.append(dataframe)
         else:
             regular_frames.append(dataframe)
     if not regular_frames:
+        inject_names = ", ".join(f"{n!r}" for n in sorted(_INJECT_SHEET_NAMES))
         raise ValueError(
-            f"除工作表 {increment_sheet_name!r} 外没有可切分的 Excel sheet。"
+            f"除注入工作表（{inject_names}）外没有可切分的 Excel sheet。"
         )
-    return _concat_excel_frames(regular_frames), _concat_excel_frames(increment_frames)
+    return (
+        _concat_excel_frames(regular_frames),
+        _concat_excel_frames(train_frames),
+        _concat_excel_frames(valid_frames),
+        _concat_excel_frames(test_frames),
+    )
 def iter_dataframes(file_path: str | Path, chunksize: int = 50_000) -> Iterable[pd.DataFrame]:

{mysphinx_forge-0.2.1 → mysphinx_forge-0.2.2}/mysphinx_forge/sft_dataset.py RENAMED Viewed

@@ -114,6 +114,7 @@ def convert_dataframe_to_pa(
     *,
     target_column: str = "text",
     output_column: str = "",
+    instruction: str = "",
     system_prompt: str = "",
     system_column: str = "",
 ) -> tuple[list[dict], SftConversionStats]:
@@ -121,6 +122,7 @@ def convert_dataframe_to_pa(
     resolved_output_column = resolve_sft_output_column(dataframe, output_column)
     resolved_system_column = _resolve_optional_column(dataframe, system_column)
+    fixed_instruction = instruction.strip()
     final_system_prompt = system_prompt.strip()
     records: list[dict] = []
     skipped_blank_input_rows = 0
@@ -146,7 +148,8 @@ def convert_dataframe_to_pa(
         if system_text:
             conversations.append({"context": system_text, "role": "system"})
-        conversations.append({"context": input_text, "role": "human"})
+        human_text = f"{fixed_instruction}\n{input_text}" if fixed_instruction else input_text
+        conversations.append({"context": human_text, "role": "human"})
         conversations.append({"context": output_text, "role": "assistant"})
         records.append({"conversations": conversations, "id": str(len(records) + 1)})
@@ -163,14 +166,21 @@ def convert_dataframe_to_pa(
     return records, stats
-def write_pa_dataset(records: list[dict], output_path: str | Path) -> list[Path]:
-    """Write PA-format records as one or more JSONL files split at PA_MAX_RECORDS_PER_FILE.
+def write_pa_dataset(
+    records: list[dict],
+    output_path: str | Path,
+    *,
+    max_records_per_file: int = PA_MAX_RECORDS_PER_FILE,
+) -> list[Path]:
+    """Write PA-format records as one or more JSONL files.
-    Returns the list of paths written.
+    When len(records) <= max_records_per_file a single file is written.
+    Otherwise the records are split into numbered chunks, e.g. *_1.jsonl,
+    *_2.jsonl, ... Returns the list of paths written.
     """
     output_path = Path(output_path)
     total = len(records)
-    if total <= PA_MAX_RECORDS_PER_FILE:
+    if total <= max_records_per_file:
         _write_pa_jsonl(records, output_path)
         return [output_path]
@@ -179,8 +189,8 @@ def write_pa_dataset(records: list[dict], output_path: str | Path) -> list[Path]
     parent = output_path.parent
     written: list[Path] = []
     chunk_index = 1
-    for start in range(0, total, PA_MAX_RECORDS_PER_FILE):
-        chunk = records[start : start + PA_MAX_RECORDS_PER_FILE]
+    for start in range(0, total, max_records_per_file):
+        chunk = records[start : start + max_records_per_file]
         chunk_path = parent / f"{stem}_{chunk_index}{suffix}"
         _write_pa_jsonl(chunk, chunk_path)
         written.append(chunk_path)

{mysphinx_forge-0.2.1 → mysphinx_forge-0.2.2}/mysphinx_forge/splitting.py RENAMED Viewed

@@ -24,8 +24,9 @@ class SplitStats:
     group_column: str | None = None
     time_column: str | None = None
     time_ascending: bool = True
-    increment_rows: int = 0
-    increment_sheet_name: str | None = None
+    inject_train_rows: int = 0
+    inject_valid_rows: int = 0
+    inject_test_rows: int = 0
 def split_dataframe(

mysphinx_forge-0.2.2/mysphinx_forge/templates/__init__.py ADDED Viewed

File without changes

mysphinx-forge 0.2.1__tar.gz → 0.2.2__tar.gz

mysphinx-forge 0.2.1tar.gz → 0.2.2tar.gz