PyPI - mindstudio-probe - Versions diffs - 1.0.1__py3-none-any.whl - Mend

mindstudio-probe 1.0.1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (228) hide show

mindstudio_probe-1.0.1.dist-info/LICENSE +201 -0
mindstudio_probe-1.0.1.dist-info/METADATA +30 -0
mindstudio_probe-1.0.1.dist-info/RECORD +228 -0
mindstudio_probe-1.0.1.dist-info/WHEEL +5 -0
mindstudio_probe-1.0.1.dist-info/entry_points.txt +2 -0
mindstudio_probe-1.0.1.dist-info/top_level.txt +1 -0
msprobe/README.md +182 -0
msprobe/__init__.py +0 -0
msprobe/config/README.md +397 -0
msprobe/config/config.json +28 -0
msprobe/config/img/free_benchmark.png +0 -0
msprobe/core/common/const.py +241 -0
msprobe/core/common/exceptions.py +88 -0
msprobe/core/common/file_check.py +265 -0
msprobe/core/common/log.py +55 -0
msprobe/core/common/utils.py +516 -0
msprobe/core/common_config.py +58 -0
msprobe/core/data_dump/data_collector.py +140 -0
msprobe/core/data_dump/data_processor/base.py +245 -0
msprobe/core/data_dump/data_processor/factory.py +61 -0
msprobe/core/data_dump/data_processor/pytorch_processor.py +346 -0
msprobe/core/data_dump/json_writer.py +116 -0
msprobe/core/data_dump/scope.py +178 -0
msprobe/mindspore/__init__.py +1 -0
msprobe/mindspore/debugger/__init__.py +0 -0
msprobe/mindspore/debugger/debugger_config.py +51 -0
msprobe/mindspore/debugger/precision_debugger.py +32 -0
msprobe/mindspore/doc/dump.md +65 -0
msprobe/mindspore/dump/__init__.py +0 -0
msprobe/mindspore/dump/api_kbk_dump.py +55 -0
msprobe/mindspore/dump/dump_tool_factory.py +38 -0
msprobe/mindspore/dump/kernel_graph_dump.py +60 -0
msprobe/mindspore/ms_config.py +78 -0
msprobe/mindspore/overflow_check/__init__.py +0 -0
msprobe/mindspore/overflow_check/kernel_graph_overflow_check.py +45 -0
msprobe/mindspore/overflow_check/overflow_check_tool_factory.py +32 -0
msprobe/mindspore/task_handler_factory.py +21 -0
msprobe/msprobe.py +67 -0
msprobe/pytorch/__init__.py +4 -0
msprobe/pytorch/advisor/advisor.py +124 -0
msprobe/pytorch/advisor/advisor_const.py +59 -0
msprobe/pytorch/advisor/advisor_result.py +58 -0
msprobe/pytorch/api_accuracy_checker/.keep +0 -0
msprobe/pytorch/api_accuracy_checker/__init__.py +0 -0
msprobe/pytorch/api_accuracy_checker/common/.keep +0 -0
msprobe/pytorch/api_accuracy_checker/common/__init__.py +0 -0
msprobe/pytorch/api_accuracy_checker/common/config.py +50 -0
msprobe/pytorch/api_accuracy_checker/common/utils.py +224 -0
msprobe/pytorch/api_accuracy_checker/compare/__init__.py +0 -0
msprobe/pytorch/api_accuracy_checker/compare/algorithm.py +216 -0
msprobe/pytorch/api_accuracy_checker/compare/api_precision_compare.py +545 -0
msprobe/pytorch/api_accuracy_checker/compare/api_precision_standard.yaml +133 -0
msprobe/pytorch/api_accuracy_checker/compare/api_precision_threshold.yaml +390 -0
msprobe/pytorch/api_accuracy_checker/compare/compare.py +345 -0
msprobe/pytorch/api_accuracy_checker/compare/compare_column.py +74 -0
msprobe/pytorch/api_accuracy_checker/compare/compare_utils.py +249 -0
msprobe/pytorch/api_accuracy_checker/config.yaml +4 -0
msprobe/pytorch/api_accuracy_checker/run_ut/.keep +0 -0
msprobe/pytorch/api_accuracy_checker/run_ut/__init__.py +0 -0
msprobe/pytorch/api_accuracy_checker/run_ut/data_generate.py +328 -0
msprobe/pytorch/api_accuracy_checker/run_ut/multi_run_ut.py +203 -0
msprobe/pytorch/api_accuracy_checker/run_ut/run_overflow_check.py +127 -0
msprobe/pytorch/api_accuracy_checker/run_ut/run_ut.py +493 -0
msprobe/pytorch/api_accuracy_checker/run_ut/run_ut_utils.py +7 -0
msprobe/pytorch/api_accuracy_checker/run_ut/torch_ut_setting.json +5 -0
msprobe/pytorch/common/__init__.py +2 -0
msprobe/pytorch/common/compare_script.template +14 -0
msprobe/pytorch/common/log.py +32 -0
msprobe/pytorch/common/parse_json.py +37 -0
msprobe/pytorch/common/utils.py +224 -0
msprobe/pytorch/compare/acc_compare.py +1024 -0
msprobe/pytorch/compare/distributed_compare.py +111 -0
msprobe/pytorch/compare/highlight.py +100 -0
msprobe/pytorch/compare/mapping.yaml +607 -0
msprobe/pytorch/compare/match.py +36 -0
msprobe/pytorch/compare/npy_compare.py +244 -0
msprobe/pytorch/debugger/__init__.py +0 -0
msprobe/pytorch/debugger/debugger_config.py +86 -0
msprobe/pytorch/debugger/precision_debugger.py +95 -0
msprobe/pytorch/doc/FAQ.md +193 -0
msprobe/pytorch/doc/api_accuracy_checker.md +269 -0
msprobe/pytorch/doc/atat/321/207/342/226/223/342/225/233/321/205/342/225/221/320/266/321/205/342/225/226/320/265/321/205/320/225/342/225/226/321/206/320/245/342/226/221/321/206/320/235/320/276dump/321/206/320/260/320/227/321/205/320/227/320/226/321/206/320/220/320/267/321/210/320/223/342/225/234/321/205/320/257/342/225/221/321/207/342/225/221/342/224/220/321/206/320/232/320/265/321/205/320/241/320/232.md +182 -0
msprobe/pytorch/doc/dump.md +207 -0
msprobe/pytorch/doc/img/BLOOM-7B_1.png +0 -0
msprobe/pytorch/doc/img/BLOOM-7B_2.png +0 -0
msprobe/pytorch/doc/img/BLOOM-7B_3.png +0 -0
msprobe/pytorch/doc/img/BLOOM-7B_4.png +0 -0
msprobe/pytorch/doc/img/GPT-3_1.png +0 -0
msprobe/pytorch/doc/img/GPT-3_2.png +0 -0
msprobe/pytorch/doc/img/GPT-3_3.png +0 -0
msprobe/pytorch/doc/img/GPT-3_4.png +0 -0
msprobe/pytorch/doc/img/GPT-3_5.png +0 -0
msprobe/pytorch/doc/img/GPT-3_6.png +0 -0
msprobe/pytorch/doc/img/GPT-3_7.png +0 -0
msprobe/pytorch/doc/img/GPT-3_8.png +0 -0
msprobe/pytorch/doc/img/YOLOV5S_1.png +0 -0
msprobe/pytorch/doc/img/YOLOV5S_2.png +0 -0
msprobe/pytorch/doc/img/accuracy_checking_details.png +0 -0
msprobe/pytorch/doc/img/accuracy_checking_result.png +0 -0
msprobe/pytorch/doc/img/api_precision_compare_details.png +0 -0
msprobe/pytorch/doc/img/api_precision_compare_result.png +0 -0
msprobe/pytorch/doc/img/auto_analyze_log.png +0 -0
msprobe/pytorch/doc/img/compare_result_pkl.png +0 -0
msprobe/pytorch/doc/img/compare_result_pkl_md5.png.png +0 -0
msprobe/pytorch/doc/img/cpu_info.png +0 -0
msprobe/pytorch/doc/img/module_compare.png +0 -0
msprobe/pytorch/doc/parse_tool.md +286 -0
msprobe/pytorch/doc/ptdbg_ascend_compare.md +176 -0
msprobe/pytorch/doc/ptdbg_ascend_overview.md +68 -0
msprobe/pytorch/doc/ptdbg_ascend_quickstart.md +381 -0
msprobe/pytorch/doc/run_overflow_check.md +25 -0
msprobe/pytorch/doc//321/205/320/254/320/270/321/207/342/225/221/342/224/220/321/207/342/226/223/342/225/233/321/205/342/225/221/320/266/321/206/320/277/320/244/321/205/320/277/342/225/243.md +90 -0
msprobe/pytorch/free_benchmark/__init__.py +8 -0
msprobe/pytorch/free_benchmark/common/__init__.py +0 -0
msprobe/pytorch/free_benchmark/common/constant.py +67 -0
msprobe/pytorch/free_benchmark/common/counter.py +72 -0
msprobe/pytorch/free_benchmark/common/enums.py +37 -0
msprobe/pytorch/free_benchmark/common/params.py +129 -0
msprobe/pytorch/free_benchmark/common/utils.py +98 -0
msprobe/pytorch/free_benchmark/compare/grad_saver.py +183 -0
msprobe/pytorch/free_benchmark/compare/single_benchmark.py +104 -0
msprobe/pytorch/free_benchmark/main.py +102 -0
msprobe/pytorch/free_benchmark/perturbed_layers/__init__.py +0 -0
msprobe/pytorch/free_benchmark/perturbed_layers/base_layer.py +13 -0
msprobe/pytorch/free_benchmark/perturbed_layers/layer_factory.py +41 -0
msprobe/pytorch/free_benchmark/perturbed_layers/npu/__init__.py +0 -0
msprobe/pytorch/free_benchmark/perturbed_layers/npu/add_noise.py +90 -0
msprobe/pytorch/free_benchmark/perturbed_layers/npu/bit_noise.py +104 -0
msprobe/pytorch/free_benchmark/perturbed_layers/npu/change_value.py +63 -0
msprobe/pytorch/free_benchmark/perturbed_layers/npu/improve_precision.py +68 -0
msprobe/pytorch/free_benchmark/perturbed_layers/npu/no_change.py +28 -0
msprobe/pytorch/free_benchmark/perturbed_layers/npu/npu_base_layser.py +45 -0
msprobe/pytorch/free_benchmark/perturbed_layers/run_cpu.py +19 -0
msprobe/pytorch/free_benchmark/result_handlers/__init__.py +0 -0
msprobe/pytorch/free_benchmark/result_handlers/base_handler.py +203 -0
msprobe/pytorch/free_benchmark/result_handlers/check_handler.py +39 -0
msprobe/pytorch/free_benchmark/result_handlers/fix_handler.py +24 -0
msprobe/pytorch/free_benchmark/result_handlers/handler_factory.py +31 -0
msprobe/pytorch/free_benchmark/result_handlers/preheat_handler.py +170 -0
msprobe/pytorch/functional/__init__.py +0 -0
msprobe/pytorch/functional/data_processor.py +0 -0
msprobe/pytorch/functional/dump_module.py +39 -0
msprobe/pytorch/hook_module/__init__.py +1 -0
msprobe/pytorch/hook_module/api_registry.py +161 -0
msprobe/pytorch/hook_module/hook_module.py +109 -0
msprobe/pytorch/hook_module/support_wrap_ops.yaml +1876 -0
msprobe/pytorch/hook_module/utils.py +29 -0
msprobe/pytorch/hook_module/wrap_aten.py +100 -0
msprobe/pytorch/hook_module/wrap_distributed.py +75 -0
msprobe/pytorch/hook_module/wrap_functional.py +108 -0
msprobe/pytorch/hook_module/wrap_npu_custom.py +73 -0
msprobe/pytorch/hook_module/wrap_tensor.py +72 -0
msprobe/pytorch/hook_module/wrap_torch.py +88 -0
msprobe/pytorch/hook_module/wrap_vf.py +64 -0
msprobe/pytorch/module_processer.py +98 -0
msprobe/pytorch/online_dispatch/__init__.py +20 -0
msprobe/pytorch/online_dispatch/compare.py +236 -0
msprobe/pytorch/online_dispatch/dispatch.py +274 -0
msprobe/pytorch/online_dispatch/dump_compare.py +186 -0
msprobe/pytorch/online_dispatch/single_compare.py +391 -0
msprobe/pytorch/online_dispatch/torch_ops_config.yaml +50 -0
msprobe/pytorch/online_dispatch/utils.py +187 -0
msprobe/pytorch/parse.py +4 -0
msprobe/pytorch/parse_tool/__init__.py +0 -0
msprobe/pytorch/parse_tool/cli.py +32 -0
msprobe/pytorch/parse_tool/lib/__init__.py +0 -0
msprobe/pytorch/parse_tool/lib/compare.py +259 -0
msprobe/pytorch/parse_tool/lib/config.py +51 -0
msprobe/pytorch/parse_tool/lib/file_desc.py +31 -0
msprobe/pytorch/parse_tool/lib/interactive_cli.py +102 -0
msprobe/pytorch/parse_tool/lib/parse_exception.py +54 -0
msprobe/pytorch/parse_tool/lib/parse_tool.py +158 -0
msprobe/pytorch/parse_tool/lib/utils.py +367 -0
msprobe/pytorch/parse_tool/lib/visualization.py +90 -0
msprobe/pytorch/pt_config.py +93 -0
msprobe/pytorch/service.py +167 -0
msprobe/test/core_ut/common/test_utils.py +345 -0
msprobe/test/core_ut/data_dump/test_data_collector.py +47 -0
msprobe/test/core_ut/data_dump/test_json_writer.py +183 -0
msprobe/test/core_ut/data_dump/test_scope.py +151 -0
msprobe/test/core_ut/test_common_config.py +152 -0
msprobe/test/core_ut/test_file_check.py +218 -0
msprobe/test/core_ut/test_log.py +109 -0
msprobe/test/mindspore_ut/test_api_kbk_dump.py +51 -0
msprobe/test/mindspore_ut/test_debugger_config.py +42 -0
msprobe/test/mindspore_ut/test_dump_tool_factory.py +51 -0
msprobe/test/mindspore_ut/test_kernel_graph_dump.py +66 -0
msprobe/test/mindspore_ut/test_kernel_graph_overflow_check.py +63 -0
msprobe/test/mindspore_ut/test_ms_config.py +69 -0
msprobe/test/mindspore_ut/test_overflow_check_tool_factory.py +51 -0
msprobe/test/mindspore_ut/test_precision_debugger.py +56 -0
msprobe/test/mindspore_ut/test_task_handler_factory.py +58 -0
msprobe/test/pytorch_ut/advisor/test_advisor.py +83 -0
msprobe/test/pytorch_ut/api_accuracy_checker/common/test_common_utils.py +108 -0
msprobe/test/pytorch_ut/api_accuracy_checker/common/test_config.py +39 -0
msprobe/test/pytorch_ut/api_accuracy_checker/compare/test_algorithm.py +112 -0
msprobe/test/pytorch_ut/api_accuracy_checker/compare/test_api_precision_compare.py +77 -0
msprobe/test/pytorch_ut/api_accuracy_checker/compare/test_compare.py +125 -0
msprobe/test/pytorch_ut/api_accuracy_checker/compare/test_compare_column.py +10 -0
msprobe/test/pytorch_ut/api_accuracy_checker/compare/test_compare_utils.py +43 -0
msprobe/test/pytorch_ut/api_accuracy_checker/run_ut/dump.json +179 -0
msprobe/test/pytorch_ut/api_accuracy_checker/run_ut/forward.json +63 -0
msprobe/test/pytorch_ut/api_accuracy_checker/run_ut/test_data_generate.py +99 -0
msprobe/test/pytorch_ut/api_accuracy_checker/run_ut/test_multi_run_ut.py +115 -0
msprobe/test/pytorch_ut/api_accuracy_checker/run_ut/test_run_ut.py +72 -0
msprobe/test/pytorch_ut/compare/test_acc_compare.py +17 -0
msprobe/test/pytorch_ut/free_benchmark/perturbed_layers/test_perturbed_layser.py +105 -0
msprobe/test/pytorch_ut/free_benchmark/result_handlers/test_result_handler.py +121 -0
msprobe/test/pytorch_ut/free_benchmark/test_main.py +101 -0
msprobe/test/pytorch_ut/functional/test_dump_module.py +15 -0
msprobe/test/pytorch_ut/hook_module/test_api_registry.py +130 -0
msprobe/test/pytorch_ut/hook_module/test_hook_module.py +42 -0
msprobe/test/pytorch_ut/hook_module/test_wrap_aten.py +65 -0
msprobe/test/pytorch_ut/hook_module/test_wrap_distributed.py +35 -0
msprobe/test/pytorch_ut/hook_module/test_wrap_functional.py +20 -0
msprobe/test/pytorch_ut/hook_module/test_wrap_tensor.py +35 -0
msprobe/test/pytorch_ut/hook_module/test_wrap_torch.py +43 -0
msprobe/test/pytorch_ut/hook_module/test_wrap_vf.py +11 -0
msprobe/test/pytorch_ut/test_pt_config.py +69 -0
msprobe/test/pytorch_ut/test_service.py +59 -0
msprobe/test/resources/advisor.txt +3 -0
msprobe/test/resources/compare_result_20230703104808.csv +9 -0
msprobe/test/resources/compare_result_without_accuracy.csv +9 -0
msprobe/test/resources/config.yaml +3 -0
msprobe/test/resources/npu_test.pkl +8 -0
msprobe/test/run_test.sh +30 -0
msprobe/test/run_ut.py +58 -0
msprobe/test/test_module_processer.py +64 -0

msprobe/pytorch/doc/ptdbg_ascend_quickstart.md ADDED Viewed

@@ -0,0 +1,381 @@
+# **精度比对工具**
+本文主要介绍msprobe的精度比对工具的快速入门和场景化示例。
+本文介绍的操作需要安装msprobe工具，详见《[MindStudio精度调试工具](../../README.md)》的“工具安装”章节。
+本文介绍的操作主要是精度数据dump和精度比对，详细操作指导可参考《[精度数据采集](./dump.md)》和《[CPU或GPU与NPU精度数据比对](./ptdbg_ascend.md)》。
+## 快速入门
+### 单卡场景精度比对
+**精度分析建议**
+PyTorch训练场景的精度问题分析建议参考以下思路进行精度比对和比对结果分析：
+1. 整网比对：dump整网数据并进行精度比对，初步定位异常范围。
+   对于模型数据庞大（比如达到T级别）的场景，不推荐直接dump整网比对，整网dump可能导致磁盘不足，需要预留足够的存储空间或者分多次dump。
+2. 缩小范围：根据Accuracy Reached or Not找出不符合精度标准的API。
+3. 范围比对：对不符合精度标准的API重新dump详细信息。
+4. 分析原因并优化：分析API精度不符合标准的原因并进行优化调整。
+5. 整网比对：重新进行整网比对，判断优化后的API是否已符合精度标准以及是否出现新的精度问题。
+6. 重复1~5步，直到不存在精度问题为止。
+**精度分析示例**
+1. 修改dump配置文件config.json。
+   ```json
+   {
+       "task": "tensor",
+       "dump_path": "./npu_dump",
+       "rank": [],
+       "step": [],
+       "level": "L1",
+       "seed": 1234,
+       "is_deterministic": false,
+       "tensor": {
+           "scope": [],
+           "list": [],
+           "data_mode": ["all"],
+           "summary_mode": "statistics"
+       }
+   }
+   ```
+2. 在训练脚本内添加msprobe工具，dump整网数据。
+   分别dump CPU或GPU以及NPU数据，在PyTorch训练脚本插入dump接口，示例代码如下（下面以NPU为例，CPU或GPU dump基本相同）：
+   ```python
+   from msprobe.pytorch import PrecisionDebugger
+   debugger = PrecisionDebugger(config_path="./config.json", dump_path="./npu_dump")
+   # 请勿将以上初始化流程插入到循环代码中
+   # 模型初始化
+   # 下面代码也可以用PrecisionDebugger.start()和PrecisionDebugger.stop()
+   debugger.start()
+   # 需要dump的代码片段1
+   debugger.stop()
+   debugger.start()
+   # 需要dump的代码片段2
+   debugger.stop()
+   debugger.step()
+   ```
+3. 比对整网数据。
+   第1步中的NPU dump数据目录为npu_dump，假设GPU dump数据目录为gpu_dump；dump将生成dump.json、stack.json、construct.json文件以及dump数据目录。
+   创建并配置精度比对脚本，以创建compare.py为例，示例代码如下：
+   ```python
+   from msprobe.pytorch import compare
+   dump_result_param={
+   "npu_json_path": "./npu_dump/dump.json",
+   "bench_json_path": "./gpu_dump/dump.json",
+   "stack_json_path": "./npu_dump/stack.json",
+   "is_print_compare_log": True
+   }
+   compare(dump_result_param, output_path="./output", stack_mode=True)
+   ```
+   执行比对：
+   ```bash
+python3 compare.py
+   ```
+   在output目录下生成结果文件，包括：`compare_result_{timestamp}.xlsx`和`advisor_{timestamp}.txt`
+4. 找出存在问题的API。
+   1. 根据`advisor_{timestamp}.txt`或打屏信息的提示，可找到存在精度问题的算子（Suspect Nodes）和专家建议（Expert Advice)。
+      ![auto_analyze_log](img/auto_analyze_log.png)
+   2. 根据第2步结果文件`compare_result_{timestamp}.xlsx`中的Accuracy Reached or No字段显示为NO的API，针对该API执行后续比对操作，分析该API存在的精度问题。
+5. （可选）重新比对。
+   根据第3步的dump数据重新配置compare.py并执行比对，可以对单API模型进行问题复现。
+**注意**：部分API存在调用嵌套关系，比如functional.batch_norm实际调用torch.batch_norm，该场景会影响kernel init初始化多次，导致功能异常。
+### 溢出检测场景
+溢出检测是针对NPU的PyTorch API，检测是否存在溢出的情况。当前仅支持识别aicore浮点溢出。
+溢出检测原理：针对溢出阶段，开启acl dump模式，重新对溢出阶段执行，落盘数据。
+建议按照如下步骤操作：
+1. 修改dump配置文件config.json。
+   ```json
+   {
+       "task": "overflow_check",
+       "dump_path": "./npu_dump",
+       "rank": [],
+       "step": [],
+       "level": "L1",
+       "seed": 1234,
+       "is_deterministic": false,
+       "overflow_check": {
+           "overflow_nums": 3
+       }
+   }
+   ```
+2. 在NPU训练脚本内添加msprobe工具，执行溢出检测dump。
+   ```python
+   from msprobe.pytorch import PrecisionDebugger
+   debugger = PrecisionDebugger(config_path="./config.json", dump_path="./npu_dump")
+   # 请勿将以上初始化流程插入到循环代码中
+   # 模型初始化
+   # 下面代码也可以用PrecisionDebugger.start()和PrecisionDebugger.stop()
+   debugger.start()
+   # 需要dump的代码片段1
+   debugger.stop()
+   debugger.start()
+   # 需要dump的代码片段2
+   debugger.stop()
+   debugger.step()
+   ```
+   多卡使用时各卡单独计算溢出次数。
+3. NPU环境下执行训练dump溢出数据。
+   针对输入正常但输出存在溢出的API，会在训练执行目录下将溢出的API信息dump并保存为`dump.json`通过《[溢出解析工具](./run_overflow_check.md)》对json文件进行解析，输出溢出API为正常溢出还是非正常溢出，从而帮助用户快速判断。
+   溢出解析工具执行命令如下：
+   ```bash
+   msprobe -f pytorch run_overflow_check -api_info ./dump.json
+   ```
+   反向过程溢出的API暂不支持精度预检功能。
+当重复执行溢出检测dump操作时，需要删除上一次dump目录下的溢出检测dump数据，否则将因重名而报错。
+**注意事项**
+* （暂不支持）level为L2场景下，会增加npu的内存消耗，请谨慎开启。
+* （暂不支持）l部分API存在调用嵌套关系，比如functional.batch_norm实际调用torch.batch_norm，该场景会影响acl init初始化多次，导致level为L2功能异常。
+* 混合精度动态loss scale场景下，正常训练会有"Gradient overflow. SKipping step"日志，添加溢出检测后日志消失，可以通过设置环境变量export OVERFLOW_DEBUG_MODE_ENABLE=1，并将register_hook位置调整amp.initialize之前解决。此功能需要cann包配套支持，不支持版本执行报错EZ3003。
+## 场景化示例
+### 多卡场景精度比对
+精度工具支持多卡场景的精度比对，多卡场景的dump步骤与单卡场景完全一致，请参见“**单卡场景精度比对**”章节，不同的是多卡数据精度比对时需要使用“compare_distributed”函数进行比对。
+如下示例：
+说明：多机多卡场景需要每个节点单独执行比对操作。
+假设NPU dump 数据目录为npu_dump，GPU dump数据目录为gpu_dump。
+1. 创建比对脚本，例如compare_distributed.py，拷贝如下代码。
+   ```python
+   from msprobe.pytorch import *
+   compare_distributed('./npu_dump/step0', './gpu_dump/step0', './output')
+   ```
+   dump数据目录须指定到step级。
+2. 执行比对：
+   ```bash
+   python3 compare_distributed.py
+   ```
+两次运行须用相同数量的卡，传入`compare_distributed`的两个文件夹下须有相同个数的rank文件夹，且不包含其他无关文件，否则将无法比对。
+**多卡set_dump_path注意事项**
+多卡一般为多进程，须保证每个进程都正确调用PrecisionDebugger，或把PrecisionDebugger插入到import语句后，如：
+```python
+from msprobe.pytorch import PrecisionDebugger
+debugger = PrecisionDebugger(config_path="./config.json", dump_path="./npu_dump")
+```
+如此可保证set_dump_path在每个进程都被调用。
+### NPU vs NPU精度比对
+对于NPU vs NPU场景，是针对同一模型，进行迭代（模型、API版本升级或设备硬件升级）时存在的精度下降问题，对比相同模型在迭代前后版本的API计算数值，进行问题定位。
+一般情况下迭代涉及NPU自定义算子，因此，可以仅dump NPU自定义算子进行比对。比对精度问题分析请参见“**单卡场景精度比对**”章节。
+工具当前支持dump NPU自定义算子如下：
+| 序号 | NPU自定义算子                                   |
+| :--- | ----------------------------------------------- |
+| 1    | torch_npu.one_                                  |
+| 2    | torch_npu.npu_sort_v2                           |
+| 3    | torch_npu.npu_transpose                         |
+| 4    | torch_npu.npu_broadcast                         |
+| 5    | torch_npu.npu_dtype_cast                        |
+| 6    | torch_npu.empty_with_format                     |
+| 7    | torch_npu.npu_one_hot                           |
+| 8    | torch_npu.npu_stride_add                        |
+| 9    | torch_npu.npu_ps_roi_pooling                    |
+| 10   | torch_npu.npu_roi_align                         |
+| 11   | torch_npu.npu_nms_v4                            |
+| 12   | torch_npu.npu_iou                               |
+| 13   | torch_npu.npu_nms_with_mask                     |
+| 14   | torch_npu.npu_pad                               |
+| 15   | torch_npu.npu_bounding_box_encode               |
+| 16   | torch_npu.npu_bounding_box_decode               |
+| 17   | torch_npu.npu_batch_nms                         |
+| 18   | torch_npu.npu_slice                             |
+| 19   | torch_npu._npu_dropout                          |
+| 20   | torch_npu.npu_indexing                          |
+| 21   | torch_npu.npu_ifmr                              |
+| 22   | torch_npu.npu_max                               |
+| 23   | torch_npu.npu_scatter                           |
+| 24   | torch_npu.npu_layer_norm_eval                   |
+| 25   | torch_npu.npu_alloc_float_status                |
+| 26   | torch_npu.npu_confusion_transpose               |
+| 27   | torch_npu.npu_bmmV2                             |
+| 28   | torch_npu.fast_gelu                             |
+| 29   | torch_npu.npu_sub_sample                        |
+| 30   | torch_npu.npu_deformable_conv2d                 |
+| 31   | torch_npu.npu_mish                              |
+| 32   | torch_npu.npu_anchor_response_flags             |
+| 33   | torch_npu.npu_yolo_boxes_encode                 |
+| 34   | torch_npu.npu_grid_assign_positive              |
+| 35   | torch_npu.npu_normalize_batch                   |
+| 36   | torch_npu.npu_masked_fill_range                 |
+| 37   | torch_npu.npu_linear                            |
+| 38   | torch_npu.npu_bert_apply_adam                   |
+| 39   | torch_npu.npu_giou                              |
+| 40   | torch_npu.npu_ciou                              |
+| 41   | torch_npu.npu_diou                              |
+| 42   | torch_npu.npu_sign_bits_pack                    |
+| 43   | torch_npu.npu_sign_bits_unpack                  |
+| 44   | torch_npu.npu_flash_attention                   |
+| 45   | torch_npu.npu_scaled_masked_softmax             |
+| 46   | torch_npu.npu_rotary_mul                        |
+| 47   | torch_npu.npu_roi_align                         |
+| 48   | torch_npu.npu_roi_alignbk                       |
+| 49   | torch_npu.npu_ptiou                             |
+| 50   | torch_npu.npu_fusion_attention                  |
+| 51   | torch_npu.npu_dropout_with_add_softmax          |
+| 52   | torch_npu.npu_random_choice_with_mask           |
+| 53   | torch_npu.npu_rotated_iou                       |
+| 54   | torch_npu.npu_conv2d                            |
+| 55   | torch_npu.npu_conv3d                            |
+| 56   | torch_npu.npu_softmax_cross_entropy_with_logits |
+| 57   | torch_npu.npu_all_gather_base_mm                |
+| 58   | torch_npu.npu_swiglu                            |
+| 59   | torch_npu.npu_rms_norm                          |
+| 60   | torch_npu.npu_mm_reduce_scatter_base            |
+| 61   | torch_npu.npu_mm_all_reduce_base                |
+| 62   | torch_npu.npu_conv_transpose2d                  |
+| 63   | torch_npu.npu_convolution                       |
+| 64   | torch_npu.npu_convolution_transpose             |
+| 65   | torch_npu.npu_min                               |
+| 66   | torch_npu.npu_nms_rotated                       |
+| 67   | torch_npu.npu_reshape                           |
+| 68   | torch_npu.npu_rotated_box_decode                |
+| 69   | torch_npu.npu_rotated_box_encode                |
+| 70   | torch_npu.npu_rotated_overlaps                  |
+| 71   | torch_npu.npu_silu                              |
+| 72   | torch_npu.npu_fused_attention_score             |
+| 73   | torch_npu.npu_multi_head_attention              |
+| 74   | torch_npu.npu_gru                               |
+| 75   | torch_npu.npu_incre_flash_attention             |
+| 76   | torch_npu.npu_prompt_flash_attention            |
+| 77   | torch_npu.npu_lstm                              |
+| 78   | torch_npu.npu_apply_adam                        |
+### 通信API的数据dump
+通信类API数据可以使用全量dump方式获取，若只dump通信类API数据，可以使用如下示例：
+1. 修改dump配置文件config.json。
+   ```json
+   {
+       "task": "tensor",
+       "dump_path": "./npu_dump",
+       "rank": [],
+       "step": [],
+       "level": "L1",
+       "seed": 1234,
+       "is_deterministic": false,
+       "tensor": {
+           "scope": [],
+           "list": ["distributed"],
+           "data_mode": ["all"],
+           "summary_mode": "statistics"
+       }
+   }
+   ```
+2. 在训练脚本内添加msprobe工具，dump整网数据。
+   ```python
+   from msprobe.pytorch import PrecisionDebugger
+   debugger = PrecisionDebugger(config_path="./config.json", dump_path="./npu_dump")
+   # 请勿将以上初始化流程插入到循环代码中
+   # 模型初始化
+   # 下面代码也可以用PrecisionDebugger.start()和PrecisionDebugger.stop()
+   debugger.start()
+   # 需要dump的代码片段1
+   debugger.stop()
+   debugger.start()
+   # 需要dump的代码片段2
+   debugger.stop()
+   debugger.step()
+   ```
+通信类API支持列表：
+| 序号 | Distributed          |
+| :--- | -------------------- |
+| 1    | send                 |
+| 2    | recv                 |
+| 3    | broadcast            |
+| 4    | all_reduce           |
+| 5    | reduce               |
+| 6    | all_gather           |
+| 7    | gather               |
+| 8    | isend                |
+| 9    | irecv                |
+| 10   | scatter              |
+| 11   | reduce_scatter       |
+| 12   | _reduce_scatter_base |
+| 13   | _all_gather_base     |

msprobe/pytorch/doc/run_overflow_check.md ADDED Viewed

@@ -0,0 +1,25 @@
+# **溢出解析工具**
+针对训练过程中的溢出检测场景（当《[精度数据采集](./dump.md)》开启溢出检测dump时），对于输入正常但输出存在溢出的API，会在训练执行目录下将溢出的API信息按照前向和反向分类，dump并保存为`dump.json`，前向过程溢出的API可通过该工具对`dump.json`进行解析，输出溢出API为正常溢出还是非正常溢出，从而帮助用户快速判断。
+工具支持PyTorch版本：1.11.0/2.0/2.1/2.2。
+操作步骤如下：
+1. 安装工具。
+   详见《[MindStudio精度调试工具](../../README.md)》的“工具安装”章节。
+2. 执行溢出API解析操作。
+   ```bash
+   msprobe -f pytorch run_overflow_check -api_info ./dump.json
+   ```
+| 参数名称                   | 说明                                               | 是否必选 |
+| -------------------------- | -------------------------------------------------- | -------- |
+| -api_info或--api_info_file | 指定API信息文件dump.json。                         | 是       |
+| -j或--jit_compile          | 开启jit编译。                                      | 否       |
+| -d或--device               | 指定Device ID，选择UT代码运行所在的卡，默认值为0。 | 否       |
+反向过程溢出的API暂不支持该功能。

msprobe/pytorch/doc//321/205/320/254/320/270/321/207/342/225/221/342/224/220/321/207/342/226/223/342/225/233/321/205/342/225/221/320/266/321/206/320/277/320/244/321/205/320/277/342/225/243.md ADDED Viewed

@@ -0,0 +1,90 @@
+# **PyTorch NPU在线精度比对工具使用指南**
+PyTorch NPU在线精度比对是ptdbg_ascend工具实现在PyTorch训练过程中直接完成精度比对并输出比对结果的功能。
+在线精度比对实现的是NPU与CPU之间的精度比对。
+## PyTorch NPU在线精度比对总体流程
+1. 准备NPU训练工程。
+2. 在NPU环境下安装ptdbg_ascend工具，参见《[PyTorch精度工具](https://gitee.com/ascend/mstt/blob/master/debug/accuracy_tools/ptdbg_ascend/README.md)》。
+3. 在训练脚本内插入ptdbg_ascend工具在线精度比对接口。
+4. 执行训练并获取在线精度比对NPU和CPU分别执行后的精度比对结果。
+5. 比对结果分析。
+##  PyTorch NPU在线精度比对
+### 总体说明
+- 本节主要介绍NPU精度比对所需要的函数以及示例。
+- 在线精度比对工具通过截获PyTorch框架中部分Aten Ir及其输入输出，并将输入数据转到CPU执行，最后将NPU和CPU的执行结果进行精度比对得到比对结果。
+### 约束
+- Pytorch 只支持2.0及其以上版本。
+- 只支持Aten Ir级在线精度比对，所有Aten Ir可以通过dir(torch.ops.aten)查看，其中部分IR不支持在线比对：Aten Ir无对应CPU实现、NPU和CPU同AtenIR实现逻辑不一致，导致同输入不同输出。
+- 正反向不支持同时在线精度比对，不支持跨step在线精度比对。
+### 场景示例
+1. 在NPU训练脚本中添加在线精度比对接口，示例如下：
+   ```python
+   from msprobe.pytorch.common.utils import seed_all
+   from msprobe.pytorch.online_dispatch import PtdbgDispatch
+      # 在main函数开始前固定随机数
+      seed_all()
+      ...
+      # 在需要调试精度的正向或反向代码前设置
+      # 正向示例
+      with PtdbgDispatch(dump_mode="auto", dump_path="/home/dump"):
+           output = model_cpu(inputs)
+      # 反向示例
+      with PtdbgDispatch(dump_mode="auto", dump_path="/home/dump"):
+       	loss.backward()
+   ```
+2. 执行训练。
+3. 找出精度不达标的Aten IR。
+   执行过程中会打屏Failed，Failed在比对结果csv中的Accuracy Reached or Not列标记为No，并在Dump目录下存盘精度不达标Aten IR的输入输出。
+   ![图片说明](http://image.huawei.com/tiny-lts/v1/images/d83d564e337e80c7cfb557ca3600d0d4_1689x178.png@900-0-90-f.png)
+### 计算精度评价指标
+1. Cosine < 0.99 且 MaxAbsError > 0.001时，精度不达标；
+2. Cosine < 0.9，精度不达标；
+3. MaxAbsError > 1，精度不达标。
+### 在线精度比对参数设置说明
+| 参数名称 | 说明                                                                                              | 是否必选 |
+| -------- |-------------------------------------------------------------------------------------------------| -------- |
+| dump_mode| dump模式，可取值"all"、"list"、"auto"、"OFF"，默认值为OFF（表示不Dump数据）。                                         | 否       |
+| api_list | dump范围，dump_mode="list"时设置，需要Dump Aten Ir API名称，默认为None，Aten Ir API名称可以通过dir(torch.ops.aten)查看。 | 否       |
+| dump_path| dump文件生成的路径。                                                                                    | 是       |
+| tag      | 传入tag字符串，成为dump文件夹名一部分，默认为None。                                                                 | 否       |
+| process_num | 多进程并发数，默认为0。                                                                                    | 否       |
+| debug       | debug信息打印，默认为False。                                                                             | 否       |
+### dump数据存盘说明
+dump数据存盘目录名格式：`msprobe_tag_rankid_{timestamp}`。
+子目录下包含1个比对结果csv文件、cpu和npudump数据目录，npu目录下包含Aten IR在NPU上的输入输出的dump数据，由于CPU的输入是直接使用NPU的输入执行，因此cpu目录下只包含执行输出的dump数据。
+```bash
+msprobe_rank4_20230911170521
+├── compare_result_rank4_20230911170521.csv
+├── cpu
+│   ├── native_batch_norm_backward_10_output.0.npy
+│   ............
+└── npu
+    ├── native_batch_norm_backward_10_input.0.npy
+    ............
+```

msprobe/pytorch/free_benchmark/__init__.py ADDED Viewed

@@ -0,0 +1,8 @@
+from msprobe.core.common.log import logger
+from msprobe.core.common.exceptions import FreeBenchmarkException
+from msprobe.core.common.const import Const
+from .main import FreeBenchmarkCheck
+from .common.params import UnequalRow
+__all__ = [FreeBenchmarkCheck, UnequalRow]

msprobe/pytorch/free_benchmark/common/__init__.py ADDED Viewed

File without changes

msprobe/pytorch/free_benchmark/common/constant.py ADDED Viewed

@@ -0,0 +1,67 @@
+from typing import Dict
+import numpy as np
+import torch
+from msprobe.pytorch.free_benchmark.common.enums import FuzzThreshold
+from msprobe.pytorch.free_benchmark.common.params import BenchmarkThd
+class CommonField:
+    DEVICE = "device"
+    META = "meta"
+    FUZZ_TENSOR = "fuzz_tensor"
+    REQUIRES_GRAD = "requires_grad"
+    HOLD_PLACE = "hold_place"
+    DISTRIBUTED_OP = "torch.distributed"
+    GRADSAVER = "grad_saver"
+class ThresholdConfig:
+    PERTURBATION_VALUE_DICT: Dict = {
+        torch.bfloat16: FuzzThreshold.BF16_THD,
+        torch.float16: FuzzThreshold.F16_THD,
+        torch.float32: FuzzThreshold.F32_THD,
+        torch.float64: FuzzThreshold.F64_THD,
+    }
+    ABS_TOL_VALUE_DICT: Dict = {
+        torch.bfloat16: FuzzThreshold.BF16_THD,
+        torch.float16: FuzzThreshold.F16_THD,
+        torch.float32: FuzzThreshold.F32_THD,
+        torch.float64: FuzzThreshold.F64_THD,
+    }
+    # bit翻转需要匹配到等长或更长的整型
+    PERTURBATION_BIT_DICT = {
+        torch.bfloat16: torch.int16,
+        torch.float16: torch.int16,
+        torch.float32: torch.int32,
+        torch.float64: torch.int64,
+    }
+    # 输入噪声下界
+    NOISE_INPUT_LOWER_BOUND = 1e-8
+    COMP_CONSISTENT = 1.0
+    COMP_NAN = np.nan
+    SYMBOL_FLIPPING = "symbol_flipping"
+    BACKWARD_OUTPUT_LOWER_BOUND = 1e-3
+    SMALL_VALUE = 1.0
+    # 预热初始阈值
+    PREHEAT_INITIAL_THD = 2.05
+    API_THD_STEP = 2.0
+    DTYPE_PER_THD = {
+        torch.float16: 1.002,
+        torch.float32: 1.0002,
+    }
+    BENCHMARK_THD_DICT = {
+        torch.float32: BenchmarkThd(2**-14, 1.0, 2**-14, 1e-4),
+        torch.float16: BenchmarkThd(2**-11, 1.0, 2**-11, 1e-4),
+        torch.bfloat16: BenchmarkThd(2**-8, 1.0, 2**-8, 1e-4),
+    }
+class PreheatConfig:
+    IF_PREHEAT = "if_preheat"
+    PREHEAT_STEP = "preheat_step"
+    MAX_SAMPLE = "max_sample"

msprobe/pytorch/free_benchmark/common/counter.py ADDED Viewed

@@ -0,0 +1,72 @@
+from collections import defaultdict
+from msprobe.pytorch.free_benchmark.common.constant import ThresholdConfig
+class PreheatCounter:
+    def __init__(self) -> None:
+        self.api_called_time: dict = defaultdict(int)
+        self.api_sample_time: dict = defaultdict(int)
+        self.one_step_used_api: dict = defaultdict(int)
+        self.api_thd: dict = defaultdict(dict)
+        self.preheat_record: dict = defaultdict(dict)
+        self.dtype_map: dict = {}
+        self.if_preheat: dict = defaultdict(dict)
+        self.step = 0
+    def clear_step(self):
+        self.preheat_record.clear()
+        self.api_called_time.clear()
+        self.api_sample_time.clear()
+    def check_step(self, current_step):
+        if current_step != self.step:
+            self.clear_step()
+            self.step = current_step
+    def add_api_called_time(self, api_name: str):
+        self.api_called_time[api_name] += 1
+    def get_api_called_time(self, api_name: str) -> int:
+        return self.api_called_time[api_name]
+    def add_api_sample_time(self, api_name: str):
+        self.api_sample_time[api_name] += 1
+    def get_api_sample_time(self, api_name: str) -> int:
+        return self.api_sample_time[api_name]
+    def add_one_step_used_api(self, api_name: str):
+        self.one_step_used_api[api_name] += 1
+    def get_one_step_used_api(self, api_name: str):
+        return self.one_step_used_api[api_name]
+    def update_preheat_record(self, api_name, dtype, cmp_result):
+        # 记录预热阶段CPU标杆比对的结果
+        if str(dtype) not in self.preheat_record[api_name].keys():
+            self.preheat_record[api_name][str(dtype)] = list()
+        self.preheat_record[api_name][str(dtype)].append(cmp_result)
+        self.dtype_map[str(dtype)] = dtype
+    def update_api_thd(self, api_name, dtype, threshold, dthreshold):
+        self.api_thd[api_name][str(dtype)] = (
+            threshold if threshold > dthreshold else dthreshold
+        )
+    def get_api_thd(self, api_name, dtype):
+        if not str(dtype) in self.api_thd[api_name]:
+            self.api_thd[api_name][str(dtype)] = ThresholdConfig.PREHEAT_INITIAL_THD
+            self.dtype_map[str(dtype)] = dtype
+        return self.api_thd[api_name][str(dtype)]
+    def set_api_preheat(self, api_name, dtype_str, is_preheat=True):
+        # 标记cpu不一致的dtype 不再进行预热
+        self.if_preheat[api_name][dtype_str] = is_preheat
+    def get_api_preheat(self, api_name, dtype):
+        # 标记cpu不一致的dtype 不再进行预热
+        if str(dtype) not in self.if_preheat[api_name]:
+            return True
+        return self.if_preheat[api_name][str(dtype)]
+preheat_counter = PreheatCounter()

msprobe/pytorch/free_benchmark/common/enums.py ADDED Viewed

@@ -0,0 +1,37 @@
+class PerturbationMode:
+    ADD_NOISE = "add_noise"
+    CHANGE_VALUE = "change_value"
+    IMPROVE_PRECISION = "improve_precision"
+    NO_CHANGE = "no_change"
+    BIT_NOISE = "bit_noise"
+    TO_CPU = "to_cpu"
+class DeviceType:
+    NPU = "npu"
+    CPU = "cpu"
+class FuzzThreshold:
+    BF16_THD = 1e-4
+    F16_THD = 1e-6
+    F32_THD = 1e-8
+    F64_THD = 1e-16
+class NormType:
+    ONE_NORM = (1, "one_norm")
+    TWO_NORM = (2, "two_norm")
+    ENDLESS_NORM = (3, "endless_norm")
+class HandlerType:
+    CHECK = "check"
+    PREHEAT = "preheat"
+    FIX = "fix"
+class FuzzLevel:
+    BASE_LEVEL = "L1"
+    ADV_LEVEL = "L2"
+    REAL_LEVEL = "L3"