PyPI - mindstudio-probe - Versions diffs - 1.2.1__py3-none-any.whl → 1.3.0__py3-none-any.whl - Mend

mindstudio-probe 1.2.1py3-none-any.whl → 1.3.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (177) hide show

{mindstudio_probe-1.2.1.dist-info → mindstudio_probe-1.3.0.dist-info}/METADATA +3 -3
{mindstudio_probe-1.2.1.dist-info → mindstudio_probe-1.3.0.dist-info}/RECORD +168 -150
msprobe/README.md +27 -22
msprobe/core/common/const.py +129 -60
msprobe/core/common/decorator.py +50 -0
msprobe/core/common/exceptions.py +3 -1
msprobe/core/common/file_utils.py +25 -2
msprobe/core/common/inplace_ops.yaml +1 -0
msprobe/core/common/utils.py +43 -33
msprobe/core/compare/acc_compare.py +43 -74
msprobe/core/compare/check.py +2 -6
msprobe/core/compare/highlight.py +2 -0
msprobe/core/compare/layer_mapping/data_scope_parser.py +1 -1
msprobe/core/compare/layer_mapping/layer_mapping.py +2 -1
msprobe/core/compare/merge_result/merge_result.py +16 -9
msprobe/core/compare/merge_result/utils.py +81 -0
msprobe/core/compare/multiprocessing_compute.py +19 -12
msprobe/core/compare/npy_compare.py +30 -12
msprobe/core/compare/utils.py +30 -10
msprobe/core/data_dump/api_registry.py +176 -0
msprobe/core/data_dump/data_collector.py +58 -13
msprobe/core/data_dump/data_processor/base.py +94 -10
msprobe/core/data_dump/data_processor/factory.py +3 -0
msprobe/core/data_dump/data_processor/mindspore_processor.py +33 -33
msprobe/core/data_dump/data_processor/pytorch_processor.py +99 -18
msprobe/core/data_dump/json_writer.py +61 -40
msprobe/core/grad_probe/constant.py +1 -0
msprobe/core/grad_probe/grad_compare.py +1 -1
msprobe/core/overflow_check/abnormal_scene.py +2 -0
msprobe/docs/01.installation.md +27 -1
msprobe/docs/02.config_introduction.md +27 -23
msprobe/docs/03.config_examples.md +24 -0
msprobe/docs/05.data_dump_PyTorch.md +103 -16
msprobe/docs/06.data_dump_MindSpore.md +76 -32
msprobe/docs/07.accuracy_checker_PyTorch.md +11 -1
msprobe/docs/08.accuracy_checker_online_PyTorch.md +3 -1
msprobe/docs/09.accuracy_checker_MindSpore.md +5 -3
msprobe/docs/10.accuracy_compare_PyTorch.md +59 -33
msprobe/docs/11.accuracy_compare_MindSpore.md +40 -16
msprobe/docs/12.overflow_check_PyTorch.md +3 -1
msprobe/docs/13.overflow_check_MindSpore.md +4 -2
msprobe/docs/14.data_parse_PyTorch.md +1 -7
msprobe/docs/18.online_dispatch.md +1 -1
msprobe/docs/19.monitor.md +332 -273
msprobe/docs/21.visualization_PyTorch.md +42 -13
msprobe/docs/22.visualization_MindSpore.md +43 -13
msprobe/docs/23.generate_operator_PyTorch.md +9 -9
msprobe/docs/27.dump_json_instruction.md +301 -27
msprobe/docs/28.debugger_save_instruction.md +94 -0
msprobe/docs/28.kernel_dump_MindSpore.md +69 -0
msprobe/docs/29.data_dump_MSAdapter.md +229 -0
msprobe/docs/30.overflow_check_MSAdapter.md +31 -0
msprobe/docs/FAQ.md +3 -11
msprobe/docs/img/compare_result.png +0 -0
msprobe/docs/img/merge_result.png +0 -0
msprobe/docs/img/monitor/step_count_per_record.png +0 -0
msprobe/docs/img/visualization/vis_browser_1.png +0 -0
msprobe/docs/img/visualization/vis_match_info.png +0 -0
msprobe/docs/img/visualization/vis_precision_info.png +0 -0
msprobe/docs/img/visualization/vis_search_info.png +0 -0
msprobe/docs/img/visualization/vis_show_info.png +0 -0
msprobe/docs/img/visualization/vis_showcase.png +0 -0
msprobe/docs/img/visualization/vis_unmatch_info.png +0 -0
msprobe/mindspore/__init__.py +4 -2
msprobe/mindspore/api_accuracy_checker/api_accuracy_checker.py +32 -7
msprobe/mindspore/api_accuracy_checker/api_runner.py +70 -22
msprobe/mindspore/api_accuracy_checker/base_compare_algorithm.py +2 -1
msprobe/mindspore/api_accuracy_checker/bench_functions/flash_attention_score.py +602 -0
msprobe/mindspore/api_accuracy_checker/bench_functions/fusion_operator.py +41 -0
msprobe/mindspore/api_accuracy_checker/compute_element.py +47 -1
msprobe/mindspore/api_accuracy_checker/data_manager.py +2 -1
msprobe/mindspore/api_accuracy_checker/multi_api_accuracy_checker.py +2 -1
msprobe/mindspore/api_accuracy_checker/torch_mindtorch_importer.py +130 -0
msprobe/mindspore/api_accuracy_checker/type_mapping.py +24 -1
msprobe/mindspore/api_accuracy_checker/utils.py +6 -1
msprobe/mindspore/common/const.py +61 -0
msprobe/mindspore/common/utils.py +48 -18
msprobe/mindspore/compare/ms_compare.py +27 -19
msprobe/mindspore/compare/ms_graph_compare.py +6 -5
msprobe/mindspore/debugger/debugger_config.py +31 -6
msprobe/mindspore/debugger/precision_debugger.py +45 -14
msprobe/mindspore/dump/dump_tool_factory.py +5 -3
msprobe/mindspore/dump/hook_cell/api_register.py +142 -0
msprobe/mindspore/dump/hook_cell/hook_cell.py +9 -10
msprobe/mindspore/dump/hook_cell/support_wrap_ops.yaml +24 -26
msprobe/mindspore/dump/jit_dump.py +21 -15
msprobe/mindspore/dym_loader/hook_dynamic_loader.cc +22 -56
msprobe/mindspore/dym_loader/hook_dynamic_loader.h +0 -1
msprobe/mindspore/free_benchmark/api_pynative_self_check.py +10 -6
msprobe/mindspore/free_benchmark/perturbation/perturbation_factory.py +4 -2
msprobe/mindspore/free_benchmark/self_check_tool_factory.py +6 -3
msprobe/mindspore/grad_probe/global_context.py +2 -0
msprobe/mindspore/grad_probe/grad_analyzer.py +2 -1
msprobe/mindspore/grad_probe/hook.py +2 -4
msprobe/mindspore/monitor/anomaly_detect.py +404 -0
msprobe/mindspore/monitor/distributed/__init__.py +0 -0
msprobe/mindspore/monitor/distributed/distributed_ops.yaml +15 -0
msprobe/mindspore/monitor/distributed/stack_blacklist.yaml +5 -0
msprobe/mindspore/monitor/distributed/wrap_distributed.py +300 -0
msprobe/mindspore/monitor/features.py +63 -0
msprobe/mindspore/monitor/module_hook.py +873 -0
msprobe/mindspore/monitor/module_spec_verifier.py +94 -0
msprobe/mindspore/monitor/utils.py +309 -0
msprobe/mindspore/ms_config.py +8 -2
msprobe/mindspore/overflow_check/overflow_check_tool_factory.py +5 -3
msprobe/mindspore/service.py +114 -34
msprobe/pytorch/__init__.py +0 -1
msprobe/pytorch/api_accuracy_checker/compare/api_precision_compare.py +3 -6
msprobe/pytorch/api_accuracy_checker/generate_op_script/op_generator.py +12 -7
msprobe/pytorch/api_accuracy_checker/generate_op_script/operator_replication.template +2 -2
msprobe/pytorch/api_accuracy_checker/run_ut/multi_run_ut.py +4 -5
msprobe/pytorch/api_accuracy_checker/run_ut/run_overflow_check.py +5 -5
msprobe/pytorch/api_accuracy_checker/run_ut/run_ut.py +25 -6
msprobe/pytorch/api_accuracy_checker/run_ut/run_ut_utils.py +28 -19
msprobe/pytorch/api_accuracy_checker/tensor_transport_layer/attl.py +3 -1
msprobe/pytorch/bench_functions/apply_adam.py +215 -0
msprobe/pytorch/bench_functions/group_norm_silu.py +27 -0
msprobe/pytorch/{parse.py → bench_functions/mish.py} +6 -4
msprobe/pytorch/bench_functions/moe_gating_top_k_softmax.py +50 -0
msprobe/pytorch/bench_functions/sort_v2.py +21 -0
msprobe/pytorch/common/utils.py +97 -4
msprobe/pytorch/debugger/debugger_config.py +19 -9
msprobe/pytorch/debugger/precision_debugger.py +24 -1
msprobe/pytorch/dump/module_dump/module_dump.py +4 -3
msprobe/pytorch/dump/module_dump/module_processer.py +21 -35
msprobe/pytorch/free_benchmark/common/utils.py +1 -1
msprobe/pytorch/free_benchmark/compare/single_benchmark.py +1 -1
msprobe/pytorch/free_benchmark/perturbed_layers/npu/add_noise.py +3 -3
msprobe/pytorch/free_benchmark/perturbed_layers/npu/bit_noise.py +3 -3
msprobe/pytorch/free_benchmark/perturbed_layers/npu/change_value.py +1 -1
msprobe/pytorch/free_benchmark/perturbed_layers/npu/improve_precision.py +1 -1
msprobe/pytorch/free_benchmark/result_handlers/check_handler.py +1 -1
msprobe/pytorch/function_factory.py +8 -2
msprobe/pytorch/grad_probe/grad_monitor.py +2 -2
msprobe/pytorch/hook_module/api_register.py +131 -0
msprobe/pytorch/hook_module/hook_module.py +19 -14
msprobe/pytorch/hook_module/register_optimizer_hook.py +2 -1
msprobe/pytorch/hook_module/support_wrap_ops.yaml +173 -75
msprobe/pytorch/monitor/anomaly_detect.py +14 -29
msprobe/pytorch/monitor/csv2tb.py +18 -14
msprobe/pytorch/monitor/distributed/wrap_distributed.py +8 -2
msprobe/pytorch/monitor/module_hook.py +238 -193
msprobe/pytorch/monitor/module_metric.py +9 -6
msprobe/pytorch/monitor/optimizer_collect.py +100 -67
msprobe/pytorch/monitor/unittest/test_monitor.py +1 -1
msprobe/pytorch/monitor/utils.py +76 -44
msprobe/pytorch/online_dispatch/compare.py +0 -2
msprobe/pytorch/online_dispatch/dispatch.py +9 -0
msprobe/pytorch/online_dispatch/dump_compare.py +3 -0
msprobe/pytorch/online_dispatch/utils.py +3 -0
msprobe/pytorch/parse_tool/lib/interactive_cli.py +1 -6
msprobe/pytorch/parse_tool/lib/utils.py +2 -1
msprobe/pytorch/pt_config.py +30 -29
msprobe/pytorch/service.py +114 -32
msprobe/visualization/builder/graph_builder.py +75 -10
msprobe/visualization/builder/msprobe_adapter.py +7 -6
msprobe/visualization/compare/graph_comparator.py +42 -38
msprobe/visualization/compare/mode_adapter.py +0 -19
msprobe/visualization/graph/base_node.py +11 -3
msprobe/visualization/graph/distributed_analyzer.py +71 -3
msprobe/visualization/graph/graph.py +0 -11
msprobe/visualization/graph/node_op.py +4 -3
msprobe/visualization/graph_service.py +4 -5
msprobe/visualization/utils.py +12 -35
msprobe/mindspore/dump/hook_cell/api_registry.py +0 -205
msprobe/mindspore/dump/hook_cell/wrap_api.py +0 -212
msprobe/pytorch/hook_module/api_registry.py +0 -166
msprobe/pytorch/hook_module/wrap_distributed.py +0 -75
msprobe/pytorch/hook_module/wrap_functional.py +0 -66
msprobe/pytorch/hook_module/wrap_npu_custom.py +0 -85
msprobe/pytorch/hook_module/wrap_tensor.py +0 -69
msprobe/pytorch/hook_module/wrap_torch.py +0 -84
msprobe/pytorch/hook_module/wrap_vf.py +0 -60
{mindstudio_probe-1.2.1.dist-info → mindstudio_probe-1.3.0.dist-info}/LICENSE +0 -0
{mindstudio_probe-1.2.1.dist-info → mindstudio_probe-1.3.0.dist-info}/WHEEL +0 -0
{mindstudio_probe-1.2.1.dist-info → mindstudio_probe-1.3.0.dist-info}/entry_points.txt +0 -0
{mindstudio_probe-1.2.1.dist-info → mindstudio_probe-1.3.0.dist-info}/top_level.txt +0 -0

msprobe/README.md CHANGED Viewed

@@ -15,7 +15,7 @@ debugger = PrecisionDebugger(config_path='./config.json')
 ...
 debugger.start() # 一般在训练循环开头启动工具
 ... # 循环体
-debugger.stop() # 一般在训练循环末尾结束工具
+debugger.stop() # 一般在训练循环末尾结束工具。必须调用，否则可能导致精度数据落盘不全
 debugger.step() # 在训练循环的最后需要重置工具，非循环场景不需要
 ```
@@ -44,6 +44,7 @@ export MSPROBE_LOG_LEVEL={x}
 - msprobe支持AscendPyTorch 1.11.0或更高版本，支持的PyTorch和CANN以及PyTorch和python软件版本配套关系请参见《[Ascend Extension for PyTorch插件](https://gitee.com/ascend/pytorch)》。
 - msprobe支持MindSpore 2.4.0或更高版本，支持的MindSpore和CANN以及MindSpore和python软件版本配套关系请参见《[MindSpore版本发布列表](https://www.mindspore.cn/versions)》。
+- msprobe支持MSAdapter 2.1.0。
 - msprobe支持的固件驱动版本与配套CANN软件支持的固件驱动版本相同，开发者可通过“[昇腾社区-固件与驱动](https://gitee.com/link?target=https%3A%2F%2Fwww.hiascend.com%2Fhardware%2Ffirmware-drivers%2Fcommunity%3Fproduct%3D2%26model%3D28%26cann%3D8.0.RC3.alpha003%26driver%3D1.0.25.alpha)”页面根据产品型号与CANN软件版本获取配套的固件与驱动。
@@ -69,35 +70,37 @@ export MSPROBE_LOG_LEVEL={x}
 ### 1 数据采集
-msprobe 通过在训练脚本中添加 PrecisionDebugger 接口的方式对 API 执行精度数据 dump 操作，对应 config.json 中的 task 为 statistics 或 tensor。
+msprobe 通过在训练脚本中添加 PrecisionDebugger 接口的方式对 API 执行精度数据 dump 操作。对应 config.json 中的 "statistics" 或 "tensor" task。
 [PyTorch 场景的数据采集](./docs/05.data_dump_PyTorch.md)
 [MindSpore 场景的数据采集](./docs/06.data_dump_MindSpore.md)
+[MSAdapter 场景的数据采集](./docs/29.data_dump_MSAdapter.md)
 ### 2 精度预检
-精度预检旨在昇腾 NPU 上扫描训练模型中的所有 API 进行 API 复现，给出精度情况的诊断和分析。对应 config.json 中的 task 为 run_ut。
+精度预检旨在昇腾 NPU 上扫描训练模型中的所有 API 进行 API 复现，给出精度情况的诊断和分析。对应 config.json 中的 "run_ut" task。
 PyTorch 场景的[离线预检](./docs/07.accuracy_checker_PyTorch.md)和[在线预检](./docs/08.accuracy_checker_online_PyTorch.md)
 MindSpore 动态图场景的[离线预检](./docs/09.accuracy_checker_MindSpore.md)
-### 3 精度比对
+### 3 分级可视化构图比对
-该功能进行 PyTorch 整网 API 粒度的数据 dump、精度比对，进而定位训练场景下的精度问题。
+该功能将msprobe工具dump的精度数据进行解析，还原模型图结构，实现模型各个层级的精度数据比对，方便用户理解模型结构、分析精度问题。
-[PyTorch 场景的精度比对](./docs/10.accuracy_compare_PyTorch.md)
+[PyTorch 场景的分级可视化构图比对](./docs/21.visualization_PyTorch.md)
-[MindSpore 场景的精度比对](./docs/11.accuracy_compare_MindSpore.md)
+[MindSpore 场景的分级可视化构图比对](./docs/22.visualization_MindSpore.md)
-### 4 溢出检测与解析
+### 4 精度比对
-溢出检测与解析是在执行精度数据 dump 时，判断是否存在输入正常但输出存在溢出的 API，从而判断是否为正常溢出。对应 config.json 中的 overflow_check。
+该功能进行 PyTorch 整网 API 粒度的数据 dump、精度比对，进而定位训练场景下的精度问题。
-[PyTorch 场景的溢出检测与解析](./docs/12.overflow_check_PyTorch.md)
+[PyTorch 场景的精度比对](./docs/10.accuracy_compare_PyTorch.md)
-[MindSpore 场景的溢出检测与解析](./docs/13.overflow_check_MindSpore.md)
+[MindSpore 场景的精度比对](./docs/11.accuracy_compare_MindSpore.md)
 ### 5 数据解析
@@ -127,28 +130,30 @@ MindSpore 动态图场景的[离线预检](./docs/09.accuracy_checker_MindSpore.
 该功能收集和聚合模型训练过程中的网络层，优化器， 通信算子的中间值，帮助诊断模型训练过程中计算， 通信，优化器各部分出现的异常情况。
-[PyTorch 场景的训练状态监控](./docs/19.monitor.md)
+[兼容 PyTorch 和 MindSpore 框架的训练状态监控](./docs/19.monitor.md)
-### 10 分级可视化构图比对
+### 10 单算子API自动生成脚本
-该功能将msprobe工具dump的精度数据进行解析，还原模型图结构，实现模型各个层级的精度数据比对，方便用户理解模型结构、分析精度问题。
+该功能将msprobe工具dump的精度数据进行解析，自动生成单API脚本，用于复现整网中出现的算子问题，降低用户复现问题的成本，供开发分析算子问题。
-[PyTorch 场景的分级可视化构图比对](./docs/21.visualization_PyTorch.md)
+[PyTorch 单算子API自动生成脚本](./docs/23.generate_operator_PyTorch.md)
-[MindSpore 场景的分级可视化构图比对](./docs/22.visualization_MindSpore.md)
+### 11 数码关联
+该功能只支持 MindSpore 静态图场景，用于将IR图与dump数据进行关联，获取dump数据和代码调用栈的关联关系。
-### 11 单算子API自动生成脚本
+[MindSpore 场景的数码关联](./docs/24.code_mapping_Mindspore.md)
-该功能将msprobe工具dump的精度数据进行解析，自动生成单API脚本，用于复现整网中出现的算子问题，降低用户复现问题的成本，供开发分析算子问题。
+### 12 溢出检测与解析
-[PyTorch 单算子API自动生成脚本](./docs/23.generate_operator_PyTorch.md)
+溢出检测用于采集溢出 API 或 模块的精度数据，而溢出解析则是通过对溢出数据的分析，进一步判断是否为正常溢出。对应 config.json 中的 "overflow_check" task。
+推荐直接使用[数据采集](#1-数据采集)功能采集统计量信息,检测溢出问题。
-### 12 数码关联
+[PyTorch 场景的溢出检测与解析](./docs/12.overflow_check_PyTorch.md)
-该功能只支持 MindSpore 静态图场景，用于将IR图与dump数据进行关联，获取dump数据和代码调用栈的关联关系。
+[MindSpore 场景的溢出检测](./docs/13.overflow_check_MindSpore.md)
-[MindSpore 场景的数码关联](./docs/24.code_mapping_Mindspore.md)
+[MSAdapter 场景的溢出检测](./docs/30.overflow_check_MSAdapter.md)
 ## 📑 补充材料

msprobe/core/common/const.py CHANGED Viewed

@@ -51,7 +51,10 @@ class Const:
     FOUR_SEGMENT = 4
     SIX_SEGMENT = 6
     SEVEN_SEGMENT = 7
     MAX_DEPTH = 10
+    CPU_QUARTER = 4
+    DUMP_MAX_DEPTH = 50
     # dump mode
     ALL = "all"
@@ -103,14 +106,16 @@ class Const:
     FREE_BENCHMARK = "free_benchmark"
     RUN_UT = "run_ut"
     GRAD_PROBE = "grad_probe"
-    TASK_LIST = [TENSOR, STATISTICS, OVERFLOW_CHECK, FREE_BENCHMARK, RUN_UT, GRAD_PROBE]
-    DUMP_DATA_COLLECTION_LIST = [STATISTICS, TENSOR]
+    STRUCTURE = "structure"
+    TASK_LIST = [TENSOR, STATISTICS, OVERFLOW_CHECK, FREE_BENCHMARK, RUN_UT, GRAD_PROBE, STRUCTURE]
+    DUMP_DATA_COLLECTION_LIST = [STATISTICS, TENSOR, STRUCTURE]
     DUMP_DATA_MODE_LIST = [ALL, INPUT, OUTPUT, FORWARD, BACKWARD]
     LEVEL_L0 = "L0"
     LEVEL_L1 = "L1"
     LEVEL_L2 = "L2"
     LEVEL_MIX = "mix"
-    LEVEL_LIST = [LEVEL_L0, LEVEL_L1, LEVEL_L2, LEVEL_MIX]
+    LEVEL_DEBUG = "debug"
+    LEVEL_LIST = [LEVEL_L0, LEVEL_L1, LEVEL_L2, LEVEL_MIX, LEVEL_DEBUG]
     ATTR_NAME_PREFIX = "wrap_"
     ATTR_NAME_PREFIX_LEN = len(ATTR_NAME_PREFIX)
     KERNEL_DUMP = "kernel_dump"
@@ -228,6 +233,92 @@ class Const:
     TENSOR_STAT_LEN = 2
+    SUPPORT_API_FILE_NAME = "support_wrap_ops.yaml"
+    PT_API_TYPE_FUNCTIONAL = "functional"
+    PT_API_TYPE_TENSOR = "tensor"
+    PT_API_TYPE_TORCH = "torch"
+    PT_API_TYPE_VF = "_VF"
+    PT_API_TYPE_NPU = "torch_npu"
+    PT_API_TYPE_ATEN = "aten"
+    PT_API_TYPE_DIST = "distributed"
+    PT_API_TYPE_NPU_DIST = "npu_distributed"
+    MS_API_TYPE_OPS = "ops"
+    MS_API_TYPE_TENSOR = "tensor"
+    MS_API_TYPE_STUB_TENSOR = "stubtensor"
+    MS_API_TYPE_MINT = "mint.ops"
+    MS_API_TYPE_MINT_FUNC = "mint.nn.functional"
+    MS_API_TYPE_COM = "communication.comm_func"
+    FUNCTIONAL_API_TYPE_PREFIX = "Functional"
+    TENSOR_API_TYPE_PREFIX = "Tensor"
+    DIST_API_TYPE_PREFIX = "Distributed"
+    TORCH_API_TYPE_PREFIX = "Torch"
+    NPU_API_TYPE_PREFIX = "NPU"
+    ATEN_API_TYPE_PREFIX = "Aten"
+    VF_API_TYPE_PREFIX = "VF"
+    MINT_API_TYPE_PREFIX = "Mint"
+    MINT_FUNC_API_TYPE_PREFIX = "MintFunctional"
+    SUPPORT_API_DICT_KEY_MAP = {
+        PT_FRAMEWORK: {
+            PT_API_TYPE_FUNCTIONAL: PT_API_TYPE_FUNCTIONAL,
+            PT_API_TYPE_TENSOR: PT_API_TYPE_TENSOR,
+            PT_API_TYPE_TORCH: PT_API_TYPE_TORCH,
+            PT_API_TYPE_VF: PT_API_TYPE_VF,
+            PT_API_TYPE_NPU: PT_API_TYPE_NPU,
+            PT_API_TYPE_ATEN: PT_API_TYPE_ATEN,
+            PT_API_TYPE_DIST: PT_API_TYPE_DIST,
+            PT_API_TYPE_NPU_DIST: PT_API_TYPE_NPU_DIST
+        },
+        MS_FRAMEWORK: {
+            MS_API_TYPE_OPS: MS_API_TYPE_OPS,
+            MS_API_TYPE_TENSOR: MS_API_TYPE_TENSOR,
+            MS_API_TYPE_STUB_TENSOR: MS_API_TYPE_TENSOR,
+            MS_API_TYPE_MINT: MS_API_TYPE_MINT,
+            MS_API_TYPE_MINT_FUNC: MS_API_TYPE_MINT_FUNC,
+            MS_API_TYPE_COM: MS_API_TYPE_COM
+        },
+        MT_FRAMEWORK: {
+            PT_API_TYPE_FUNCTIONAL: PT_API_TYPE_FUNCTIONAL,
+            PT_API_TYPE_TENSOR: PT_API_TYPE_TENSOR,
+            PT_API_TYPE_TORCH: PT_API_TYPE_TORCH,
+            PT_API_TYPE_NPU: PT_API_TYPE_NPU,
+            PT_API_TYPE_DIST: PT_API_TYPE_DIST
+        }
+    }
+    API_DATA_PREFIX = {
+        PT_FRAMEWORK: {
+            PT_API_TYPE_FUNCTIONAL: FUNCTIONAL_API_TYPE_PREFIX,
+            PT_API_TYPE_TENSOR: TENSOR_API_TYPE_PREFIX,
+            PT_API_TYPE_TORCH: TORCH_API_TYPE_PREFIX,
+            PT_API_TYPE_VF: VF_API_TYPE_PREFIX,
+            PT_API_TYPE_NPU: NPU_API_TYPE_PREFIX,
+            PT_API_TYPE_ATEN: ATEN_API_TYPE_PREFIX,
+            PT_API_TYPE_DIST: DIST_API_TYPE_PREFIX,
+            PT_API_TYPE_NPU_DIST: DIST_API_TYPE_PREFIX
+        },
+        MS_FRAMEWORK: {
+            MS_API_TYPE_OPS: FUNCTIONAL_API_TYPE_PREFIX,
+            MS_API_TYPE_TENSOR: TENSOR_API_TYPE_PREFIX,
+            MS_API_TYPE_STUB_TENSOR: TENSOR_API_TYPE_PREFIX,
+            MS_API_TYPE_MINT: MINT_API_TYPE_PREFIX,
+            MS_API_TYPE_MINT_FUNC: MINT_FUNC_API_TYPE_PREFIX,
+            MS_API_TYPE_COM: DIST_API_TYPE_PREFIX
+        },
+        MT_FRAMEWORK: {
+            PT_API_TYPE_FUNCTIONAL: FUNCTIONAL_API_TYPE_PREFIX,
+            PT_API_TYPE_TENSOR: TENSOR_API_TYPE_PREFIX,
+            PT_API_TYPE_TORCH: TORCH_API_TYPE_PREFIX,
+            PT_API_TYPE_NPU: NPU_API_TYPE_PREFIX,
+            PT_API_TYPE_DIST: DIST_API_TYPE_PREFIX
+        }
+    }
 class CompareConst:
     """
@@ -254,6 +345,7 @@ class CompareConst:
     MEAN_DIFF = "Mean diff"
     NORM_DIFF = "L2norm diff"
     COSINE = "Cosine"
+    EUC_DIST = "EucDist"
     MAX_ABS_ERR = "MaxAbsErr"
     MAX_RELATIVE_ERR = "MaxRelativeErr"
     MIN_RELATIVE_ERR = "MinRelativeErr"
@@ -328,8 +420,8 @@ class CompareConst:
     ULP_ERR_STATUS = "ulp_err_status"
     COMPARE_RESULT_HEADER = [
-        NPU_NAME, BENCH_NAME, NPU_DTYPE, BENCH_DTYPE, NPU_SHAPE, BENCH_SHAPE, COSINE, MAX_ABS_ERR, MAX_RELATIVE_ERR,
-        ONE_THOUSANDTH_ERR_RATIO, FIVE_THOUSANDTHS_ERR_RATIO,
+        NPU_NAME, BENCH_NAME, NPU_DTYPE, BENCH_DTYPE, NPU_SHAPE, BENCH_SHAPE, COSINE, EUC_DIST,
+        MAX_ABS_ERR, MAX_RELATIVE_ERR, ONE_THOUSANDTH_ERR_RATIO, FIVE_THOUSANDTHS_ERR_RATIO,
         NPU_MAX, NPU_MIN, NPU_MEAN, NPU_NORM, BENCH_MAX, BENCH_MIN, BENCH_MEAN, BENCH_NORM, ACCURACY, ERROR_MESSAGE
     ]
@@ -355,18 +447,16 @@ class CompareConst:
         Const.MD5: MD5_COMPARE_RESULT_HEADER
     }
-    ALL_COMPARE_INDEX = [COSINE, MAX_ABS_ERR, MAX_RELATIVE_ERR, ONE_THOUSANDTH_ERR_RATIO, FIVE_THOUSANDTHS_ERR_RATIO]
+    ALL_COMPARE_INDEX = [COSINE, EUC_DIST, MAX_ABS_ERR, MAX_RELATIVE_ERR, ONE_THOUSANDTH_ERR_RATIO,
+                         FIVE_THOUSANDTHS_ERR_RATIO]
     SUMMARY_COMPARE_INDEX = [MAX_DIFF, MIN_DIFF, MEAN_DIFF, NORM_DIFF,
                              MAX_RELATIVE_ERR, MIN_RELATIVE_ERR, MEAN_RELATIVE_ERR, NORM_RELATIVE_ERR]
     # dtype match
-    MS_TYPE = [
-        [Const.FLOAT16, Const.FLOAT32], [Const.FLOAT32, Const.FLOAT16],
-        [Const.FLOAT16, Const.BFLOAT16], [Const.BFLOAT16, Const.FLOAT16]
-    ]
-    TORCH_TYPE = [
-        [Const.TORCH_FLOAT16, Const.TORCH_FLOAT32], [Const.TORCH_FLOAT32, Const.TORCH_FLOAT16],
-        [Const.TORCH_FLOAT16, Const.TORCH_BFLOAT16], [Const.TORCH_BFLOAT16, Const.TORCH_FLOAT16]
+    DTYPE_MATCH_GROUPS = [
+        {Const.FLOAT16, Const.FLOAT32, Const.BFLOAT16},
+        {Const.TORCH_FLOAT16, Const.TORCH_FLOAT32, Const.TORCH_BFLOAT16}
     ]
     # read_op
@@ -465,7 +555,7 @@ class CompareConst:
         BENCH_MEAN: None, BENCH_NORM: None, ACCURACY: '', ERROR_MESSAGE: ''
     }
     MS_GRAPH_NPY = {
-        COSINE: None, MAX_ABS_ERR: None, MAX_RELATIVE_ERR: None, ONE_THOUSANDTH_ERR_RATIO: None,
+        COSINE: None, EUC_DIST: None, MAX_ABS_ERR: None, MAX_RELATIVE_ERR: None, ONE_THOUSANDTH_ERR_RATIO: None,
         FIVE_THOUSANDTHS_ERR_RATIO: None
     }
     MS_GRAPH_STATISTIC = {
@@ -536,46 +626,6 @@ class OverflowConst:
     OVERFLOW_DEBUG_MODE = 1
-class MsCompareConst:
-    # api_info field
-    MINT = "Mint"
-    MINT_FUNCTIONAL = "MintFunctional"
-    TENSOR_API = "Tensor"
-    API_NAME_STR_LENGTH = 4
-    TASK_FIELD = "task"
-    STATISTICS_TASK = "statistics"
-    TENSOR_TASK = "tensor"
-    DUMP_DATA_DIR_FIELD = "dump_data_dir"
-    DATA_FIELD = "data"
-    # supported api yaml
-    SUPPORTED_API_LIST_FILE = "checker_support_api.yaml"
-    SUPPORTED_TENSOR_LIST_KEY = "tensor"
-    # detail_csv
-    DETAIL_CSV_API_NAME = "API Name"
-    DETAIL_CSV_BENCH_DTYPE = "Bench Dtype"
-    DETAIL_CSV_TESTED_DTYPE = "Tested Dtype"
-    DETAIL_CSV_SHAPE = "Shape"
-    DETAIL_CSV_PASS_STATUS = "Status"
-    DETAIL_CSV_MESSAGE = "Message"
-    DETAIL_CSV_FILE_NAME = "accuracy_checking_details"
-    # result_csv
-    RESULT_CSV_FORWARD_TEST_SUCCESS = "Forward Test Success"
-    RESULT_CSV_BACKWARD_TEST_SUCCESS = "Backward Test Success"
-    RESULT_CSV_FILE_NAME = "accuracy_checking_result"
-    EPSILON = 1e-8
-    class ProcessStatus:
-        SUCCESS = "success"
-        API_NOT_FOUND = "api_not_found"
-        EXCEPTION_SKIP = "exception_skip"
 class MsgConst:
     """
     Class for log messages const
@@ -612,6 +662,15 @@ class MonitorConst:
     """
     Class for monitor const
     """
+    # monitor config set default values
+    DEFAULT_GRAD_ACC_STEPS = 1
+    DEFAULT_START_ITERATION = 0
+    DEFAULT_START_STEP = 0
+    DEFAULT_MAX_COLLECT_TIMES = 1e8
+    DEFAULT_MIN_COLLECT_TIMES = 0
+    DEFAULT_STEP_INTERVAL = 1
     OP_LIST = ["norm", "min", "max", "zeros", "nans", "id", "mean"]
     MONITOR_OUTPUT_DIR = "MONITOR_OUTPUT_DIR"
     DEFAULT_MONITOR_OUTPUT_DIR = "./monitor_output"
@@ -623,29 +682,39 @@ class MonitorConst:
         "DeepSpeedZeroOptimizer_Stage1_or_2",
         "DeepSpeedZeroOptimizer_Stage3"
     )
+    DEEPSPEED_ZERO_OPT_FILTER = "DeepSpeedZeroOptimizer"
     RULE_NAME = ['AnomalyTurbulence']
     SLICE_SIZE = 20480
+    # used for name
     DOT = "."
-    VPP_SEP = ":"
+    NAME_SEP = ":"
+    INPUT_GRAD = "input_grad"
+    OUTPUT_GRAD = "output_grad"
     ACTV_IN = "input"
     ACTV_OUT = "output"
     ACTVGRAD_IN = "input_grad"
     ACTVGRAD_OUT = "output_grad"
+    # used for tasks
+    ACTV = "actv"
+    ACTVGRAD = "actv_grad"
     POST_GRAD = "post_grad"
     PRE_GRAD = "pre_grad"
     ACC_GRAD = "acc_grad"
     PREFIX_POST = "post"
     PREFIX_PRE = "pre"
-    OUTPUT_DIR_PATTERN = r"([\w-]{0,20})-rank(\d{1,5})-"
     EXP_AVG = "exp_avg"
-    EFXP_AVG_SQ = "efxp_avg_sq"
+    EXP_AVG_SQ = "exp_avg_sq"
+    PARAM = "param"
+    CSV_HEADER = ["vpp_stage", "name", "step"]
+    CSV_HEADER_XY = ["vpp_stage", "name", "step", "micro_step"]
+    OUTPUT_DIR_PATTERN = r"([\w-]{0,20})-rank(\d{1,5})-"
     ANOMALY_JSON = "anomaly.json"
     ANALYSE_JSON = "anomaly_analyse.json"
     TENSORBOARD = "tensorboard"
     CSV = "csv"
     API = "api"
-    OPS_START_INDEX = 3
-    HEADER_NAME_INDEX = 1
+    HEADER_NAME = 'name'
+    MAX_NDIGITS = 20

msprobe/core/common/decorator.py ADDED Viewed

@@ -0,0 +1,50 @@
+# Copyright (c) 2024-2025, Huawei Technologies Co., Ltd.
+# All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0  (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from collections import defaultdict
+from functools import wraps
+from msprobe.core.common.const import Const
+from msprobe.core.common.exceptions import MsprobeException
+from msprobe.core.common.log import logger
+# 记录工具函数递归的深度
+recursion_depth = defaultdict(int)
+def recursion_depth_decorator(func_info, max_depth=Const.MAX_DEPTH):
+    """装饰一个函数，当函数递归调用超过限制时，抛出异常并打印函数信息。"""
+    def decorator(func):
+        @wraps(func)
+        def wrapper(*args, **kwargs):
+            func_id = id(func)
+            recursion_depth[func_id] += 1
+            if recursion_depth[func_id] > max_depth:
+                msg = f"call {func_info} exceeds the recursion limit."
+                logger.error_log_with_exp(
+                    msg,
+                    MsprobeException(
+                        MsprobeException.RECURSION_LIMIT_ERROR, msg
+                    ),
+                )
+            try:
+                result = func(*args, **kwargs)
+            finally:
+                recursion_depth[func_id] -= 1
+            return result
+        return wrapper
+    return decorator

msprobe/core/common/exceptions.py CHANGED Viewed

@@ -28,12 +28,14 @@ class MsprobeException(CodedException):
     OVERFLOW_NUMS_ERROR = 1
     RECURSION_LIMIT_ERROR = 2
     INTERFACE_USAGE_ERROR = 3
+    UNSUPPORTED_TYPE_ERROR = 4
     err_strs = {
         INVALID_PARAM_ERROR: "[msprobe] 无效参数：",
         OVERFLOW_NUMS_ERROR: "[msprobe] 超过预设溢出次数 当前溢出次数：",
         RECURSION_LIMIT_ERROR: "[msprobe] 递归调用超过限制：",
-        INTERFACE_USAGE_ERROR: "[msprobe] Invalid interface usage: "
+        INTERFACE_USAGE_ERROR: "[msprobe] Invalid interface usage: ",
+        UNSUPPORTED_TYPE_ERROR: "[msprobe] Unsupported type: "
     }

msprobe/core/common/file_utils.py CHANGED Viewed

@@ -26,6 +26,7 @@ import yaml
 import numpy as np
 import pandas as pd
+from msprobe.core.common.decorator import recursion_depth_decorator
 from msprobe.core.common.log import logger
 from msprobe.core.common.exceptions import FileCheckException
 from msprobe.core.common.const import FileCheckConst
@@ -266,6 +267,7 @@ def make_dir(dir_path):
     file_check.common_check()
+@recursion_depth_decorator('msprobe.core.common.file_utils.create_directory', max_depth=16)
 def create_directory(dir_path):
     """
     Function Description:
@@ -332,6 +334,23 @@ def change_mode(path, mode):
                                  'Failed to change {} authority. {}'.format(path, str(ex))) from ex
+@recursion_depth_decorator('msprobe.core.common.file_utils.recursive_chmod')
+def recursive_chmod(path):
+    """
+    递归地修改目录及其子目录和文件的权限，文件修改为640，路径修改为750
+    :param path: 要修改权限的目录路径
+    """
+    for _, dirs, files in os.walk(path):
+        for file_name in files:
+            file_path = os.path.join(path, file_name)
+            change_mode(file_path, FileCheckConst.DATA_FILE_AUTHORITY)
+        for dir_name in dirs:
+            dir_path = os.path.join(path, dir_name)
+            change_mode(dir_path, FileCheckConst.DATA_DIR_AUTHORITY)
+            recursive_chmod(dir_path)
 def path_len_exceeds_limit(file_path):
     return len(os.path.realpath(file_path)) > FileCheckConst.DIRECTORY_LENGTH or \
         len(os.path.basename(file_path)) > FileCheckConst.FILE_NAME_LENGTH
@@ -632,7 +651,7 @@ def os_walk_for_files(path, depth):
     return res
-def check_crt_valid(pem_path):
+def check_crt_valid(pem_path, is_public_key=False):
     """
     Check the validity of the SSL certificate.
@@ -641,6 +660,7 @@ def check_crt_valid(pem_path):
     Parameters:
     pem_path (str): The file path of the SSL certificate.
+    is_public_key (bool): The file is public key or not.
     Raises:
     RuntimeError: If the SSL certificate is invalid or expired.
@@ -649,7 +669,10 @@ def check_crt_valid(pem_path):
     try:
         with FileOpen(pem_path, "r") as f:
             pem_data = f.read()
-        cert = OpenSSL.crypto.load_certificate(OpenSSL.crypto.FILETYPE_PEM, pem_data)
+        if is_public_key:
+            cert = OpenSSL.crypto.load_publickey(OpenSSL.crypto.FILETYPE_PEM, pem_data)
+        else:
+            cert = OpenSSL.crypto.load_certificate(OpenSSL.crypto.FILETYPE_PEM, pem_data)
         pem_start = parser.parse(cert.get_notBefore().decode("UTF-8"))
         pem_end = parser.parse(cert.get_notAfter().decode("UTF-8"))
         logger.info(f"The SSL certificate passes the verification and the validity period "

msprobe/core/common/inplace_ops.yaml CHANGED Viewed

@@ -250,5 +250,6 @@ inplace_distributed_op:
   - all_to_all
   - all_gather_into_tensor
   - reduce_scatter_tensor
+  - batch_isend_irecv

msprobe/core/common/utils.py CHANGED Viewed

@@ -18,9 +18,7 @@ import os
 import re
 import subprocess
 import time
-from collections import defaultdict
 from datetime import datetime, timezone
-from functools import wraps
 import numpy as np
@@ -75,6 +73,7 @@ class MsprobeBaseException(Exception):
     MERGE_COMPARE_RESULT_ERROR = 33
     NAMES_STRUCTS_MATCH_ERROR = 34
     INVALID_STATE_ERROR = 35
+    INVALID_API_NAME_ERROR = 36
     def __init__(self, code, error_info: str = ""):
         super(MsprobeBaseException, self).__init__()
@@ -239,12 +238,18 @@ def md5_find(data):
                 for data_detail in data[key_op][api_info]:
                     if data_detail and 'md5' in data_detail:
                         return True
+            if isinstance(data[key_op][api_info], bool):
+                continue
             elif data[key_op][api_info] and 'md5' in data[key_op][api_info]:
                 return True
     return False
 def detect_framework_by_dump_json(file_path):
+    json_data = load_json(file_path)
+    framework = json_data.get("framework", None)
+    if framework in [Const.PT_FRAMEWORK, Const.MS_FRAMEWORK]:
+        return framework
     pattern_ms = r'"type":\s*"mindspore'
     pattern_pt = r'"type":\s*"torch'
     with FileOpen(file_path, 'r') as file:
@@ -277,7 +282,7 @@ def set_dump_path(input_param):
     npu_path_valid = npu_path is not None and npu_path.endswith("dump.json")
     bench_path_valid = bench_path is not None and bench_path.endswith("dump.json")
     if not npu_path_valid or not bench_path_valid:
-        logger.error(f"Please check the json path is valid. npu_path: {npu_path}, bench_path: {bench_path}")
+        logger.error(f"Please check the json path is valid and ensure that neither npu_path nor bench_path is None.")
         raise CompareException(CompareException.INVALID_PATH_ERROR)
     input_param['npu_dump_data_dir'] = os.path.join(os.path.dirname(npu_path), Const.DUMP_TENSOR_DATA)
     input_param['bench_dump_data_dir'] = os.path.join(os.path.dirname(bench_path), Const.DUMP_TENSOR_DATA)
@@ -303,6 +308,9 @@ def get_dump_mode(input_param):
     if npu_task == Const.TENSOR:
         return Const.ALL
+    if npu_task == Const.STRUCTURE:
+        return Const.STRUCTURE
     if npu_task == Const.STATISTICS:
         npu_md5_compare = md5_find(npu_json_data['data'])
         bench_md5_compare = md5_find(bench_json_data['data'])
@@ -419,6 +427,15 @@ def get_real_step_or_rank(step_or_rank_input, obj):
     return real_step_or_rank
+def check_init_step(step):
+    if not is_int(step):
+        raise MsprobeException(MsprobeException.INVALID_PARAM_ERROR,
+                        f"{step} must be an integer")
+    if not step >= 0:
+        raise MsprobeException(MsprobeException.INVALID_PARAM_ERROR,
+                f"{step} must be greater than or equal to 0")
 def check_seed_all(seed, mode, rm_dropout):
     if is_int(seed):
         if seed < 0 or seed > Const.MAX_SEED_VALUE:
@@ -462,37 +479,30 @@ def safe_get_value(container, index, container_name, key=None):
         raise MsprobeBaseException(MsprobeBaseException.INVALID_OBJECT_TYPE_ERROR) from e
-# 记录工具函数递归的深度
-recursion_depth = defaultdict(int)
-# 装饰一个函数，当函数递归调用超过限制时，抛出异常并打印函数信息。
-def recursion_depth_decorator(func_info):
-    def decorator(func):
-        @wraps(func)
-        def wrapper(*args, **kwargs):
-            func_id = id(func)
-            recursion_depth[func_id] += 1
-            if recursion_depth[func_id] > Const.MAX_DEPTH:
-                msg = f"call {func_info} exceeds the recursion limit."
-                logger.error_log_with_exp(
-                    msg,
-                    MsprobeException(
-                        MsprobeException.RECURSION_LIMIT_ERROR, msg
-                    ),
-                )
-            try:
-                result = func(*args, **kwargs)
-            finally:
-                recursion_depth[func_id] -= 1
-            return result
-        return wrapper
-    return decorator
 def check_str_param(param):
     if not re.match(Const.REGEX_PREFIX_PATTERN, param):
         logger.error('The parameter {} contains special characters.'.format(param))
         raise MsprobeBaseException(MsprobeBaseException.INVALID_CHAR_ERROR)
+class DumpPathAggregation:
+    dump_file_path = None
+    stack_file_path = None
+    construct_file_path = None
+    dump_tensor_data_dir = None
+    free_benchmark_file_path = None
+    debug_file_path = None
+def is_save_variable_valid(variable, valid_special_types, depth=0):
+    if depth > Const.DUMP_MAX_DEPTH:
+        return False
+    if isinstance(variable, valid_special_types):
+        return True
+    elif isinstance(variable, (list, tuple)):
+        return all(is_save_variable_valid(item, valid_special_types, depth + 1) for item in variable)
+    elif isinstance(variable, dict):
+        return all(isinstance(key, str) and is_save_variable_valid(value, valid_special_types, depth + 1)
+                   for key, value in variable.items())
+    else:
+        return False

mindstudio-probe 1.2.1__py3-none-any.whl → 1.3.0__py3-none-any.whl

mindstudio-probe 1.2.1py3-none-any.whl → 1.3.0py3-none-any.whl