PyPI - mindstudio-probe - Versions diffs - 1.2.2__py3-none-any.whl → 8.1.0__py3-none-any.whl - Mend

mindstudio-probe 1.2.2py3-none-any.whl → 8.1.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (261) hide show

{mindstudio_probe-1.2.2.dist-info → mindstudio_probe-8.1.0.dist-info}/METADATA +4 -3
{mindstudio_probe-1.2.2.dist-info → mindstudio_probe-8.1.0.dist-info}/RECORD +243 -191
msprobe/README.md +57 -21
msprobe/core/__init__.py +17 -0
msprobe/core/common/const.py +224 -82
msprobe/core/common/decorator.py +50 -0
msprobe/core/common/exceptions.py +5 -3
msprobe/core/common/file_utils.py +274 -40
msprobe/core/common/framework_adapter.py +169 -0
msprobe/core/common/global_lock.py +86 -0
msprobe/core/common/runtime.py +25 -0
msprobe/core/common/utils.py +148 -72
msprobe/core/common_config.py +7 -0
msprobe/core/compare/acc_compare.py +640 -462
msprobe/core/compare/check.py +36 -107
msprobe/core/compare/compare_cli.py +4 -0
msprobe/core/compare/config.py +72 -0
msprobe/core/compare/highlight.py +217 -215
msprobe/core/compare/layer_mapping/layer_mapping.py +4 -1
msprobe/core/compare/merge_result/merge_result.py +12 -6
msprobe/core/compare/multiprocessing_compute.py +227 -107
msprobe/core/compare/npy_compare.py +32 -16
msprobe/core/compare/utils.py +218 -244
msprobe/{mindspore/runtime.py → core/config_check/__init__.py} +2 -4
msprobe/{pytorch/dump/kernel_dump/kernel_config.py → core/config_check/checkers/__init__.py} +8 -16
msprobe/core/config_check/checkers/base_checker.py +60 -0
msprobe/core/config_check/checkers/dataset_checker.py +138 -0
msprobe/core/config_check/checkers/env_args_checker.py +96 -0
msprobe/core/config_check/checkers/hyperparameter_checker.py +170 -0
msprobe/core/config_check/checkers/pip_checker.py +90 -0
msprobe/core/config_check/checkers/random_checker.py +367 -0
msprobe/core/config_check/checkers/weights_checker.py +147 -0
msprobe/core/config_check/ckpt_compare/ckpt_comparator.py +74 -0
msprobe/core/config_check/ckpt_compare/megatron_loader.py +302 -0
msprobe/core/config_check/ckpt_compare/metrics.py +83 -0
msprobe/core/config_check/ckpt_compare/name_mapping.yaml +12 -0
msprobe/core/config_check/config_check_cli.py +51 -0
msprobe/core/config_check/config_checker.py +100 -0
msprobe/{pytorch/parse.py → core/config_check/resource/dependency.yaml} +7 -4
msprobe/core/config_check/resource/env.yaml +57 -0
msprobe/core/config_check/resource/hyperparameter.yaml +21 -0
msprobe/core/config_check/utils/hyperparameter_parser.py +115 -0
msprobe/core/config_check/utils/utils.py +107 -0
msprobe/core/data_dump/api_registry.py +239 -0
msprobe/core/data_dump/data_collector.py +36 -9
msprobe/core/data_dump/data_processor/base.py +74 -53
msprobe/core/data_dump/data_processor/mindspore_processor.py +119 -78
msprobe/core/data_dump/data_processor/pytorch_processor.py +134 -96
msprobe/core/data_dump/json_writer.py +146 -57
msprobe/core/debugger/precision_debugger.py +143 -0
msprobe/core/grad_probe/constant.py +2 -1
msprobe/core/grad_probe/grad_compare.py +2 -2
msprobe/core/grad_probe/utils.py +1 -1
msprobe/core/hook_manager.py +242 -0
msprobe/core/monitor/anomaly_processor.py +384 -0
msprobe/core/overflow_check/abnormal_scene.py +2 -0
msprobe/core/service.py +356 -0
msprobe/core/single_save/__init__.py +0 -0
msprobe/core/single_save/single_comparator.py +243 -0
msprobe/core/single_save/single_saver.py +157 -0
msprobe/docs/01.installation.md +6 -5
msprobe/docs/02.config_introduction.md +89 -30
msprobe/docs/03.config_examples.md +1 -0
msprobe/docs/04.kernel_dump_PyTorch.md +1 -1
msprobe/docs/05.data_dump_PyTorch.md +184 -50
msprobe/docs/06.data_dump_MindSpore.md +193 -28
msprobe/docs/07.accuracy_checker_PyTorch.md +13 -3
msprobe/docs/08.accuracy_checker_online_PyTorch.md +72 -10
msprobe/docs/09.accuracy_checker_MindSpore.md +19 -7
msprobe/docs/10.accuracy_compare_PyTorch.md +266 -102
msprobe/docs/11.accuracy_compare_MindSpore.md +117 -43
msprobe/docs/12.overflow_check_PyTorch.md +5 -3
msprobe/docs/13.overflow_check_MindSpore.md +6 -4
msprobe/docs/14.data_parse_PyTorch.md +4 -10
msprobe/docs/17.grad_probe.md +2 -1
msprobe/docs/18.online_dispatch.md +3 -3
msprobe/docs/19.monitor.md +211 -103
msprobe/docs/21.visualization_PyTorch.md +100 -28
msprobe/docs/22.visualization_MindSpore.md +103 -31
msprobe/docs/23.generate_operator_PyTorch.md +9 -9
msprobe/docs/25.tool_function_introduction.md +23 -22
msprobe/docs/26.data_dump_PyTorch_baseline.md +14 -3
msprobe/docs/27.dump_json_instruction.md +278 -8
msprobe/docs/28.debugger_save_instruction.md +111 -20
msprobe/docs/28.kernel_dump_MindSpore.md +1 -1
msprobe/docs/29.data_dump_MSAdapter.md +229 -0
msprobe/docs/30.overflow_check_MSAdapter.md +31 -0
msprobe/docs/31.config_check.md +95 -0
msprobe/docs/32.ckpt_compare.md +69 -0
msprobe/docs/33.generate_operator_MindSpore.md +190 -0
msprobe/docs/34.RL_collect.md +92 -0
msprobe/docs/35.nan_analyze.md +72 -0
msprobe/docs/FAQ.md +3 -11
msprobe/docs/data_dump_MindSpore/data_dump_MindSpore_baseline.md +12 -1
msprobe/docs/data_dump_MindSpore/dynamic_graph_quick_start_example.md +3 -1
msprobe/docs/img/compare_result.png +0 -0
msprobe/docs/img/merge_result.png +0 -0
msprobe/docs/img/save_compare_result_sample.png +0 -0
msprobe/docs/img/visualization/proxy.png +0 -0
msprobe/docs/img/visualization/vis_browser_1.png +0 -0
msprobe/docs/img/visualization/vis_match_info.png +0 -0
msprobe/docs/img/visualization/vis_precision_info.png +0 -0
msprobe/docs/img/visualization/vis_search_info.png +0 -0
msprobe/docs/img/visualization/vis_show_info.png +0 -0
msprobe/docs/img/visualization/vis_showcase.png +0 -0
msprobe/docs/img/visualization/vis_unmatch_info.png +0 -0
msprobe/mindspore/__init__.py +3 -3
msprobe/mindspore/api_accuracy_checker/api_accuracy_checker.py +151 -55
msprobe/mindspore/api_accuracy_checker/api_runner.py +25 -11
msprobe/mindspore/api_accuracy_checker/base_compare_algorithm.py +2 -1
msprobe/mindspore/api_accuracy_checker/bench_functions/flash_attention_score.py +580 -0
msprobe/mindspore/api_accuracy_checker/bench_functions/fusion_operator.py +41 -0
msprobe/mindspore/api_accuracy_checker/cmd_parser.py +4 -0
msprobe/mindspore/api_accuracy_checker/data_manager.py +4 -3
msprobe/mindspore/api_accuracy_checker/generate_op_script/config_op.json +9 -0
msprobe/mindspore/api_accuracy_checker/generate_op_script/op_generator.py +451 -0
msprobe/mindspore/api_accuracy_checker/generate_op_script/operator_replication.template +2081 -0
msprobe/mindspore/api_accuracy_checker/multi_api_accuracy_checker.py +11 -1
msprobe/mindspore/api_accuracy_checker/torch_mindtorch_importer.py +2 -1
msprobe/mindspore/cell_processor.py +204 -33
msprobe/mindspore/code_mapping/graph_parser.py +4 -21
msprobe/mindspore/common/const.py +73 -2
msprobe/mindspore/common/utils.py +157 -29
msprobe/mindspore/compare/common_dir_compare.py +382 -0
msprobe/mindspore/compare/distributed_compare.py +2 -26
msprobe/mindspore/compare/ms_compare.py +18 -398
msprobe/mindspore/compare/ms_graph_compare.py +20 -10
msprobe/mindspore/compare/utils.py +37 -0
msprobe/mindspore/debugger/debugger_config.py +59 -7
msprobe/mindspore/debugger/precision_debugger.py +83 -90
msprobe/mindspore/dump/cell_dump_process.py +902 -0
msprobe/mindspore/dump/cell_dump_with_insert_gradient.py +889 -0
msprobe/mindspore/dump/dump_tool_factory.py +18 -8
msprobe/mindspore/dump/graph_mode_cell_dump.py +139 -0
msprobe/mindspore/dump/graph_tensor_dump.py +123 -0
msprobe/mindspore/dump/hook_cell/api_register.py +176 -0
msprobe/mindspore/dump/hook_cell/hook_cell.py +22 -12
msprobe/mindspore/dump/hook_cell/ms_hook_manager.py +88 -0
msprobe/mindspore/dump/hook_cell/primitive_hooks.py +8 -2
msprobe/mindspore/dump/hook_cell/support_wrap_ops.yaml +42 -26
msprobe/mindspore/dump/jit_dump.py +35 -27
msprobe/mindspore/dump/kernel_kbyk_dump.py +6 -3
msprobe/mindspore/dym_loader/hook_dynamic_loader.cpp +110 -0
msprobe/mindspore/dym_loader/hook_dynamic_loader.h +15 -16
msprobe/mindspore/free_benchmark/api_pynative_self_check.py +22 -12
msprobe/mindspore/free_benchmark/common/utils.py +1 -1
msprobe/mindspore/free_benchmark/perturbation/perturbation_factory.py +4 -2
msprobe/mindspore/free_benchmark/self_check_tool_factory.py +6 -3
msprobe/mindspore/grad_probe/global_context.py +9 -2
msprobe/mindspore/grad_probe/grad_analyzer.py +2 -1
msprobe/mindspore/grad_probe/grad_stat_csv.py +3 -2
msprobe/mindspore/grad_probe/hook.py +2 -4
msprobe/mindspore/mindspore_service.py +111 -0
msprobe/mindspore/monitor/common_func.py +52 -0
msprobe/mindspore/monitor/data_writers.py +237 -0
msprobe/mindspore/monitor/distributed/wrap_distributed.py +1 -1
msprobe/mindspore/monitor/features.py +13 -1
msprobe/mindspore/monitor/module_hook.py +568 -444
msprobe/mindspore/monitor/optimizer_collect.py +331 -0
msprobe/mindspore/monitor/utils.py +71 -9
msprobe/mindspore/ms_config.py +16 -15
msprobe/mindspore/overflow_check/overflow_check_tool_factory.py +5 -3
msprobe/mindspore/task_handler_factory.py +5 -2
msprobe/msprobe.py +19 -0
msprobe/nan_analyze/__init__.py +14 -0
msprobe/nan_analyze/analyzer.py +255 -0
msprobe/nan_analyze/graph.py +189 -0
msprobe/nan_analyze/utils.py +211 -0
msprobe/pytorch/api_accuracy_checker/common/config.py +2 -2
msprobe/pytorch/api_accuracy_checker/compare/api_precision_compare.py +3 -6
msprobe/pytorch/api_accuracy_checker/compare/compare.py +36 -34
msprobe/pytorch/api_accuracy_checker/generate_op_script/op_generator.py +15 -13
msprobe/pytorch/api_accuracy_checker/generate_op_script/operator_replication.template +206 -4
msprobe/pytorch/api_accuracy_checker/run_ut/multi_run_ut.py +9 -9
msprobe/pytorch/api_accuracy_checker/run_ut/run_overflow_check.py +6 -5
msprobe/pytorch/api_accuracy_checker/run_ut/run_ut.py +31 -9
msprobe/pytorch/api_accuracy_checker/run_ut/run_ut_utils.py +28 -20
msprobe/pytorch/api_accuracy_checker/tensor_transport_layer/attl.py +3 -1
msprobe/pytorch/api_accuracy_checker/tensor_transport_layer/client.py +29 -13
msprobe/pytorch/api_accuracy_checker/tensor_transport_layer/device_dispatch.py +12 -2
msprobe/pytorch/api_accuracy_checker/tensor_transport_layer/server.py +45 -31
msprobe/pytorch/api_accuracy_checker/tensor_transport_layer/utils.py +154 -0
msprobe/pytorch/attl_manager.py +65 -0
msprobe/pytorch/bench_functions/moe_gating_top_k_softmax.py +6 -0
msprobe/pytorch/bench_functions/npu_fusion_attention.py +27 -0
msprobe/pytorch/common/utils.py +53 -19
msprobe/pytorch/compare/distributed_compare.py +4 -36
msprobe/pytorch/compare/pt_compare.py +13 -84
msprobe/pytorch/compare/utils.py +47 -0
msprobe/pytorch/debugger/debugger_config.py +34 -17
msprobe/pytorch/debugger/precision_debugger.py +50 -96
msprobe/pytorch/dump/module_dump/hook_wrapper.py +93 -0
msprobe/pytorch/dump/module_dump/module_dump.py +15 -61
msprobe/pytorch/dump/module_dump/module_processer.py +150 -114
msprobe/pytorch/free_benchmark/common/utils.py +1 -1
msprobe/pytorch/free_benchmark/compare/single_benchmark.py +1 -1
msprobe/pytorch/free_benchmark/perturbed_layers/npu/add_noise.py +3 -3
msprobe/pytorch/free_benchmark/perturbed_layers/npu/bit_noise.py +3 -3
msprobe/pytorch/free_benchmark/perturbed_layers/npu/change_value.py +1 -1
msprobe/pytorch/free_benchmark/perturbed_layers/npu/improve_precision.py +1 -1
msprobe/pytorch/free_benchmark/result_handlers/check_handler.py +1 -1
msprobe/pytorch/function_factory.py +1 -1
msprobe/pytorch/grad_probe/grad_monitor.py +2 -2
msprobe/pytorch/grad_probe/grad_stat_csv.py +3 -2
msprobe/pytorch/hook_module/api_register.py +155 -0
msprobe/pytorch/hook_module/hook_module.py +18 -22
msprobe/pytorch/hook_module/jit_script_wrapper.py +33 -0
msprobe/pytorch/hook_module/pt_hook_manager.py +68 -0
msprobe/pytorch/hook_module/register_optimizer_hook.py +2 -1
msprobe/pytorch/hook_module/support_wrap_ops.yaml +193 -75
msprobe/pytorch/hook_module/utils.py +28 -2
msprobe/pytorch/monitor/csv2tb.py +14 -4
msprobe/pytorch/monitor/data_writers.py +259 -0
msprobe/pytorch/monitor/distributed/wrap_distributed.py +8 -2
msprobe/pytorch/monitor/module_hook.py +336 -241
msprobe/pytorch/monitor/module_metric.py +17 -0
msprobe/pytorch/monitor/optimizer_collect.py +244 -224
msprobe/pytorch/monitor/utils.py +84 -4
msprobe/pytorch/online_dispatch/compare.py +0 -2
msprobe/pytorch/online_dispatch/dispatch.py +13 -2
msprobe/pytorch/online_dispatch/dump_compare.py +8 -2
msprobe/pytorch/online_dispatch/utils.py +3 -0
msprobe/pytorch/parse_tool/lib/interactive_cli.py +1 -6
msprobe/pytorch/parse_tool/lib/utils.py +5 -4
msprobe/pytorch/pt_config.py +16 -11
msprobe/pytorch/pytorch_service.py +70 -0
msprobe/visualization/builder/graph_builder.py +69 -10
msprobe/visualization/builder/msprobe_adapter.py +24 -12
msprobe/visualization/compare/graph_comparator.py +63 -51
msprobe/visualization/compare/mode_adapter.py +22 -20
msprobe/visualization/graph/base_node.py +11 -4
msprobe/visualization/graph/distributed_analyzer.py +1 -10
msprobe/visualization/graph/graph.py +2 -13
msprobe/visualization/graph/node_op.py +1 -2
msprobe/visualization/graph_service.py +251 -104
msprobe/visualization/utils.py +26 -44
msprobe/mindspore/dump/hook_cell/api_registry.py +0 -207
msprobe/mindspore/dump/hook_cell/wrap_api.py +0 -212
msprobe/mindspore/dym_loader/hook_dynamic_loader.cc +0 -140
msprobe/mindspore/monitor/anomaly_detect.py +0 -404
msprobe/mindspore/monitor/module_spec_verifier.py +0 -94
msprobe/mindspore/service.py +0 -543
msprobe/pytorch/hook_module/api_registry.py +0 -166
msprobe/pytorch/hook_module/wrap_distributed.py +0 -79
msprobe/pytorch/hook_module/wrap_functional.py +0 -66
msprobe/pytorch/hook_module/wrap_npu_custom.py +0 -85
msprobe/pytorch/hook_module/wrap_tensor.py +0 -69
msprobe/pytorch/hook_module/wrap_torch.py +0 -84
msprobe/pytorch/hook_module/wrap_vf.py +0 -60
msprobe/pytorch/monitor/anomaly_analyse.py +0 -201
msprobe/pytorch/monitor/anomaly_detect.py +0 -410
msprobe/pytorch/monitor/module_spec_verifier.py +0 -95
msprobe/pytorch/monitor/unittest/test_monitor.py +0 -160
msprobe/pytorch/service.py +0 -470
{mindstudio_probe-1.2.2.dist-info → mindstudio_probe-8.1.0.dist-info}/LICENSE +0 -0
{mindstudio_probe-1.2.2.dist-info → mindstudio_probe-8.1.0.dist-info}/WHEEL +0 -0
{mindstudio_probe-1.2.2.dist-info → mindstudio_probe-8.1.0.dist-info}/entry_points.txt +0 -0
{mindstudio_probe-1.2.2.dist-info → mindstudio_probe-8.1.0.dist-info}/top_level.txt +0 -0
/msprobe/{mindspore → core}/compare/ms_to_pt_api.yaml +0 -0
/msprobe/{mindspore/dump → core}/kernel_dump/kernel_config.py +0 -0
/msprobe/{pytorch/monitor/unittest → core/monitor}/__init__.py +0 -0

msprobe/README.md CHANGED Viewed

@@ -44,6 +44,7 @@ export MSPROBE_LOG_LEVEL={x}
 - msprobe支持AscendPyTorch 1.11.0或更高版本，支持的PyTorch和CANN以及PyTorch和python软件版本配套关系请参见《[Ascend Extension for PyTorch插件](https://gitee.com/ascend/pytorch)》。
 - msprobe支持MindSpore 2.4.0或更高版本，支持的MindSpore和CANN以及MindSpore和python软件版本配套关系请参见《[MindSpore版本发布列表](https://www.mindspore.cn/versions)》。
+- msprobe支持MSAdapter 2.1.0。
 - msprobe支持的固件驱动版本与配套CANN软件支持的固件驱动版本相同，开发者可通过“[昇腾社区-固件与驱动](https://gitee.com/link?target=https%3A%2F%2Fwww.hiascend.com%2Fhardware%2Ffirmware-drivers%2Fcommunity%3Fproduct%3D2%26model%3D28%26cann%3D8.0.RC3.alpha003%26driver%3D1.0.25.alpha)”页面根据产品型号与CANN软件版本获取配套的固件与驱动。
@@ -53,7 +54,9 @@ export MSPROBE_LOG_LEVEL={x}
 **2. 工具读写的所有路径，如config_path、dump_path等，只允许包含大小写字母、数字、下划线、斜杠、点和短横线。**
-## ⚙️ [安装](./docs/01.installation.md)
+## ⚙️ 安装
+请参见[安装指导说明](./docs/01.installation.md)。
 ## 🌟 新版本特性
@@ -69,35 +72,37 @@ export MSPROBE_LOG_LEVEL={x}
 ### 1 数据采集
-msprobe 通过在训练脚本中添加 PrecisionDebugger 接口的方式对 API 执行精度数据 dump 操作，对应 config.json 中的 task 为 statistics 或 tensor。
+msprobe 通过在训练脚本中添加 PrecisionDebugger 接口的方式对 API 执行精度数据 dump 操作。对应 config.json 中的 "statistics" 或 "tensor" task。
 [PyTorch 场景的数据采集](./docs/05.data_dump_PyTorch.md)
 [MindSpore 场景的数据采集](./docs/06.data_dump_MindSpore.md)
+[MSAdapter 场景的数据采集](./docs/29.data_dump_MSAdapter.md)
 ### 2 精度预检
-精度预检旨在昇腾 NPU 上扫描训练模型中的所有 API 进行 API 复现，给出精度情况的诊断和分析。对应 config.json 中的 task 为 run_ut。
+精度预检旨在昇腾 NPU 上扫描训练模型中的所有 API 进行 API 复现，给出精度情况的诊断和分析。对应 config.json 中的 "run_ut" task。
 PyTorch 场景的[离线预检](./docs/07.accuracy_checker_PyTorch.md)和[在线预检](./docs/08.accuracy_checker_online_PyTorch.md)
 MindSpore 动态图场景的[离线预检](./docs/09.accuracy_checker_MindSpore.md)
-### 3 精度比对
+### 3 分级可视化构图比对
-该功能进行 PyTorch 整网 API 粒度的数据 dump、精度比对，进而定位训练场景下的精度问题。
+该功能将msprobe工具dump的精度数据进行解析，还原模型图结构，实现模型各个层级的精度数据比对，方便用户理解模型结构、分析精度问题。
-[PyTorch 场景的精度比对](./docs/10.accuracy_compare_PyTorch.md)
+[PyTorch 场景的分级可视化构图比对](./docs/21.visualization_PyTorch.md)
-[MindSpore 场景的精度比对](./docs/11.accuracy_compare_MindSpore.md)
+[MindSpore 场景的分级可视化构图比对](./docs/22.visualization_MindSpore.md)
-### 4 溢出检测与解析
+### 4 精度比对
-溢出检测与解析是在执行精度数据 dump 时，判断是否存在输入正常但输出存在溢出的 API，从而判断是否为正常溢出。对应 config.json 中的 overflow_check。
+该功能进行 PyTorch 整网 API 粒度的数据 dump、精度比对，进而定位训练场景下的精度问题。
-[PyTorch 场景的溢出检测与解析](./docs/12.overflow_check_PyTorch.md)
+[PyTorch 场景的精度比对](./docs/10.accuracy_compare_PyTorch.md)
-[MindSpore 场景的溢出检测与解析](./docs/13.overflow_check_MindSpore.md)
+[MindSpore 场景的精度比对](./docs/11.accuracy_compare_MindSpore.md)
 ### 5 数据解析
@@ -129,26 +134,57 @@ MindSpore 动态图场景的[离线预检](./docs/09.accuracy_checker_MindSpore.
 [兼容 PyTorch 和 MindSpore 框架的训练状态监控](./docs/19.monitor.md)
-### 10 分级可视化构图比对
+### 10 单算子API自动生成脚本
-该功能将msprobe工具dump的精度数据进行解析，还原模型图结构，实现模型各个层级的精度数据比对，方便用户理解模型结构、分析精度问题。
+该功能将msprobe工具dump的精度数据进行解析，自动生成单API脚本，用于复现整网中出现的算子问题，降低用户复现问题的成本，供开发分析算子问题。
-[PyTorch 场景的分级可视化构图比对](./docs/21.visualization_PyTorch.md)
+[PyTorch 单算子API自动生成脚本](./docs/23.generate_operator_PyTorch.md)
-[MindSpore 场景的分级可视化构图比对](./docs/22.visualization_MindSpore.md)
+[MindSpore 单算子API自动生成脚本](./docs/33.generate_operator_MindSpore.md)
+### 11 数码关联
-### 11 单算子API自动生成脚本
+该功能只支持 MindSpore 静态图场景，用于将IR图与dump数据进行关联，获取dump数据和代码调用栈的关联关系。
-该功能将msprobe工具dump的精度数据进行解析，自动生成单API脚本，用于复现整网中出现的算子问题，降低用户复现问题的成本，供开发分析算子问题。
+[MindSpore 场景的数码关联](./docs/24.code_mapping_Mindspore.md)
-[PyTorch 单算子API自动生成脚本](./docs/23.generate_operator_PyTorch.md)
+### 12 溢出检测与解析
-### 12 数码关联
+溢出检测用于采集溢出 API 或 模块的精度数据，而溢出解析则是通过对溢出数据的分析，进一步判断是否为正常溢出。对应 config.json 中的 "overflow_check" task。
+推荐直接使用[数据采集](#1-数据采集)功能采集统计量信息,检测溢出问题。
-该功能只支持 MindSpore 静态图场景，用于将IR图与dump数据进行关联，获取dump数据和代码调用栈的关联关系。
+[PyTorch 场景的溢出检测与解析](./docs/12.overflow_check_PyTorch.md)
+[MindSpore 场景的溢出检测](./docs/13.overflow_check_MindSpore.md)
+[MSAdapter 场景的溢出检测](./docs/30.overflow_check_MSAdapter.md)
+### 13 训练检查
+该工具主要包括：
+训练前或精度比对前，对比两个环境下可能影响训练精度的配置差异。
+[PyTorch 训练前配置检查](./docs/31.config_check.md)
+训练过程中或结束后，比较两个不同的checkpoint，评估模型相似度。
+[checkpoint比对](./docs/32.ckpt_compare.md)
+### 14 强化学习数据采集
+主要能力：
+灵活采集强化学习中重要关键过程数据，并支持比对。
+[强化学习数据采集](./docs/34.RL_collect.md)
+### 15 整网首个溢出节点分析
+多rank场景下通过dump数据找到首个出现Nan或Inf的节点。
+[PyTorch 场景整网首个溢出节点分析](./docs/35.nan_analyze.md)
-[MindSpore 场景的数码关联](./docs/24.code_mapping_Mindspore.md)
 ## 📑 补充材料

msprobe/core/__init__.py CHANGED Viewed

@@ -0,0 +1,17 @@
+# Copyright (c) 2025-2025, Huawei Technologies Co., Ltd.
+# All rights reserved.
+#
+# Licensed under the Apache License, Version 2.0  (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from msprobe.core.single_save.single_saver import SingleSave
+from msprobe.core.single_save.single_comparator import SingleComparator

msprobe/core/common/const.py CHANGED Viewed

@@ -51,7 +51,10 @@ class Const:
     FOUR_SEGMENT = 4
     SIX_SEGMENT = 6
     SEVEN_SEGMENT = 7
     MAX_DEPTH = 10
+    CPU_QUARTER = 4
+    DUMP_MAX_DEPTH = 50
     # dump mode
     ALL = "all"
@@ -67,7 +70,7 @@ class Const:
     SUMMARY = "summary"
     MD5 = "md5"
     VALUE = "value"
-    SUMMARY_MODE = [ALL, SUMMARY, MD5]
+    SUMMARY_MODE = ["statistics", "md5"]
     WRITE_FLAGS = os.O_WRONLY | os.O_CREAT
     WRITE_MODES = stat.S_IWUSR | stat.S_IRUSR
@@ -77,6 +80,8 @@ class Const:
     NUMPY_SUFFIX = ".npy"
     NUMPY_PATTERN = "*.npy"
     PT_SUFFIX = ".pt"
+    PY_SUFFIX = ".py"
+    INIT_PY = "init.py"
     ONE_GB = 1073741824  # 1 * 1024 * 1024 * 1024
     TEN_GB = 10737418240  # 10 * 1024 * 1024 * 1024
     ONE_MB = 1048576  # 1 * 1024 * 1024
@@ -92,6 +97,7 @@ class Const:
     GRAD_OUTPUT = 'grad_output'
     PARAMS = 'parameters'
     PARAMS_GRAD = 'parameters_grad'
+    DEBUG = 'debug'
     START = "start"
     STOP = "stop"
     ENV_ENABLE = "1"
@@ -129,6 +135,7 @@ class Const:
     NPU = 'NPU'
     NPU_LOWERCASE = 'npu'
     CPU_LOWERCASE = 'cpu'
+    GPU_LOWERCASE = 'gpu'
     CUDA_LOWERCASE = 'cuda'
     DEVICE = 'device'
     DISTRIBUTED = 'Distributed'
@@ -137,6 +144,10 @@ class Const:
     MODULE_PREFIX = ["Module", "Cell"]
     FORWARD_NAME_SUFFIX = ".forward"
+    DUMP_JSON_FILE = "dump_json_file"
+    DEBUG_JSON_FILE = "debug_json_file"
+    STACK_JSON_FILE = "stack_json_file"
     # struct json param
     ORIGIN_DATA = "origin_data"
     SCOPE = "scope"
@@ -167,6 +178,10 @@ class Const:
     TOP_LAYER = "TopLayer"
     CELL = "Cell"
     MODULE = "Module"
+    API = "api"
+    PYNATIVE_MODE = "pynative"
+    PYNATIVE_GRAPH_MODE = "pynative_graph"
     FRAME_FILE_LIST = ["site-packages/torch", "package/torch", "site-packages/mindspore", "package/mindspore"]
     INPLACE_LIST = [
         "broadcast", "all_reduce", "reduce", "all_gather", "gather", "scatter", "reduce_scatter",
@@ -188,7 +203,11 @@ class Const:
     FILL_CHAR_NUMS = 50
     TOOL_ENDS_SUCCESSFULLY = f"{TOOL_NAME} ends successfully."
     WITHOUT_CALL_STACK = "The call stack retrieval failed."
+    STACK_FILTER_KEYWORDS = ["msprobe/core", "msprobe/pytorch", "msprobe/mindspore"]
+    CALL_STACK_FLAG = "data_dump/api_registry"
+    NEW_STACK_FLAG = "0"
     STEP = "step"
     RANK = "rank"
@@ -206,12 +225,16 @@ class Const:
     TORCH_FLOAT32 = "torch.float32"
     TORCH_BFLOAT16 = "torch.bfloat16"
+    TYPE = 'type'
     DTYPE = 'dtype'
     SHAPE = 'shape'
+    STACK_INFO = 'stack_info'
     MAX = 'Max'
     MIN = 'Min'
     MEAN = 'Mean'
     NORM = 'Norm'
+    DATA_NAME = 'data_name'
+    TENSOR_STAT_INDEX = 'tensor_stat_index'
     CODE_STACK = 'Code Stack'
     OP_NAME = 'Op Name'
@@ -223,6 +246,10 @@ class Const:
     # 分隔符常量
     SCOPE_SEPARATOR = "/"
     REPLACEMENT_CHARACTER = "_"
+    PIPE_SEPARATOR = "|"
+    FORWARD_PATTERN = SEP + FORWARD + SEP
+    BACKWARD_PATTERN = SEP + BACKWARD + SEP
     OPTIMIZER = "optimizer"
     CLIP_GRAD = "clip_grad"
@@ -230,12 +257,136 @@ class Const:
     TENSOR_STAT_LEN = 2
+    SUPPORT_API_FILE_NAME = "support_wrap_ops.yaml"
+    PT_API_TYPE_FUNCTIONAL = "functional"
+    PT_API_TYPE_TENSOR = "tensor"
+    PT_API_TYPE_TORCH = "torch"
+    PT_API_TYPE_VF = "_VF"
+    PT_API_TYPE_NPU = "torch_npu"
+    PT_API_TYPE_ATEN = "aten"
+    PT_API_TYPE_DIST = "distributed"
+    PT_API_TYPE_NPU_DIST = "npu_distributed"
+    PT_API_TYPE_MINDSPEED = "mindspeed"
+    MS_API_TYPE_OPS = "ops"
+    MS_API_TYPE_TENSOR = "tensor"
+    MS_API_TYPE_STUB_TENSOR = "stubtensor"
+    MS_API_TYPE_MINT = "mint.ops"
+    MS_API_TYPE_MINT_FUNC = "mint.nn.functional"
+    MS_API_TYPE_COM = "communication.comm_func"
+    MS_API_TYPE_MINT_DIST = "mint.distributed"
+    FUNCTIONAL_API_TYPE_PREFIX = "Functional"
+    TENSOR_API_TYPE_PREFIX = "Tensor"
+    DIST_API_TYPE_PREFIX = "Distributed"
+    TORCH_API_TYPE_PREFIX = "Torch"
+    NPU_API_TYPE_PREFIX = "NPU"
+    ATEN_API_TYPE_PREFIX = "Aten"
+    VF_API_TYPE_PREFIX = "VF"
+    MINDSPEED_API_TYPE_PREFIX = "MindSpeed"
+    MINT_API_TYPE_PREFIX = "Mint"
+    MINT_FUNC_API_TYPE_PREFIX = "MintFunctional"
+    MINT_DIST_API_TYPE_PREFIX = "MintDistributed"
+    SUPPORT_API_DICT_KEY_MAP = {
+        PT_FRAMEWORK: {
+            PT_API_TYPE_FUNCTIONAL: PT_API_TYPE_FUNCTIONAL,
+            PT_API_TYPE_TENSOR: PT_API_TYPE_TENSOR,
+            PT_API_TYPE_TORCH: PT_API_TYPE_TORCH,
+            PT_API_TYPE_VF: PT_API_TYPE_VF,
+            PT_API_TYPE_NPU: PT_API_TYPE_NPU,
+            PT_API_TYPE_ATEN: PT_API_TYPE_ATEN,
+            PT_API_TYPE_DIST: PT_API_TYPE_DIST,
+            PT_API_TYPE_NPU_DIST: PT_API_TYPE_NPU_DIST,
+            PT_API_TYPE_MINDSPEED: PT_API_TYPE_MINDSPEED
+        },
+        MS_FRAMEWORK: {
+            MS_API_TYPE_OPS: MS_API_TYPE_OPS,
+            MS_API_TYPE_TENSOR: MS_API_TYPE_TENSOR,
+            MS_API_TYPE_STUB_TENSOR: MS_API_TYPE_TENSOR,
+            MS_API_TYPE_MINT: MS_API_TYPE_MINT,
+            MS_API_TYPE_MINT_FUNC: MS_API_TYPE_MINT_FUNC,
+            MS_API_TYPE_COM: MS_API_TYPE_COM,
+            MS_API_TYPE_MINT_DIST: MS_API_TYPE_MINT_DIST
+        },
+        MT_FRAMEWORK: {
+            PT_API_TYPE_FUNCTIONAL: PT_API_TYPE_FUNCTIONAL,
+            PT_API_TYPE_TENSOR: PT_API_TYPE_TENSOR,
+            PT_API_TYPE_TORCH: PT_API_TYPE_TORCH,
+            PT_API_TYPE_NPU: PT_API_TYPE_NPU,
+            PT_API_TYPE_DIST: PT_API_TYPE_DIST
+        }
+    }
+    API_DATA_PREFIX = {
+        PT_FRAMEWORK: {
+            PT_API_TYPE_FUNCTIONAL: FUNCTIONAL_API_TYPE_PREFIX,
+            PT_API_TYPE_TENSOR: TENSOR_API_TYPE_PREFIX,
+            PT_API_TYPE_TORCH: TORCH_API_TYPE_PREFIX,
+            PT_API_TYPE_VF: VF_API_TYPE_PREFIX,
+            PT_API_TYPE_NPU: NPU_API_TYPE_PREFIX,
+            PT_API_TYPE_ATEN: ATEN_API_TYPE_PREFIX,
+            PT_API_TYPE_DIST: DIST_API_TYPE_PREFIX,
+            PT_API_TYPE_NPU_DIST: DIST_API_TYPE_PREFIX,
+            PT_API_TYPE_MINDSPEED: MINDSPEED_API_TYPE_PREFIX
+        },
+        MS_FRAMEWORK: {
+            MS_API_TYPE_OPS: FUNCTIONAL_API_TYPE_PREFIX,
+            MS_API_TYPE_TENSOR: TENSOR_API_TYPE_PREFIX,
+            MS_API_TYPE_STUB_TENSOR: TENSOR_API_TYPE_PREFIX,
+            MS_API_TYPE_MINT: MINT_API_TYPE_PREFIX,
+            MS_API_TYPE_MINT_FUNC: MINT_FUNC_API_TYPE_PREFIX,
+            MS_API_TYPE_COM: DIST_API_TYPE_PREFIX,
+            MS_API_TYPE_MINT_DIST: MINT_DIST_API_TYPE_PREFIX
+        },
+        MT_FRAMEWORK: {
+            PT_API_TYPE_FUNCTIONAL: FUNCTIONAL_API_TYPE_PREFIX,
+            PT_API_TYPE_TENSOR: TENSOR_API_TYPE_PREFIX,
+            PT_API_TYPE_TORCH: TORCH_API_TYPE_PREFIX,
+            PT_API_TYPE_NPU: NPU_API_TYPE_PREFIX,
+            PT_API_TYPE_DIST: DIST_API_TYPE_PREFIX
+        }
+    }
+    def _fused_adamw_(
+        self,
+        grads,
+        exp_avgs,
+        exp_avg_sqs,
+        max_exp_avg_sqs,
+        state_steps,
+        *,
+        lr,
+        beta1,
+        beta2,
+        weight_decay,
+        eps,
+        amsgrad,
+        maximize,
+        grad_scale=None,
+        found_inf=None
+    ):
+        pass
+    API_WITH_SELF_ARG = {
+        'Torch._fused_adamw_': _fused_adamw_
+    }
+    ASCEND = "ASCEND"
+    MATCH_MODE_NAME = "pure name"
+    MATCH_MODE_MAPPING = "mapping"
+    MATCH_MODE_SIMILARITY = "similarity"
 class CompareConst:
     """
     Class for compare module const
     """
     SPACE = " "
+    NAME = "Name"
     # compare result column name
     NPU_NAME = "NPU Name"
     BENCH_NAME = "Bench Name"
@@ -256,6 +407,7 @@ class CompareConst:
     MEAN_DIFF = "Mean diff"
     NORM_DIFF = "L2norm diff"
     COSINE = "Cosine"
+    EUC_DIST = "EucDist"
     MAX_ABS_ERR = "MaxAbsErr"
     MAX_RELATIVE_ERR = "MaxRelativeErr"
     MIN_RELATIVE_ERR = "MinRelativeErr"
@@ -278,6 +430,7 @@ class CompareConst:
     OUTPUT_STRUCT = "output_struct"
     PARAMS_STRUCT = "params_struct"
     PARAMS_GRAD_STRUCT = "params_grad_struct"
+    DEBUG_STRUCT = "debug_struct"
     SUMMARY = "summary"
     COMPARE_RESULT = "compare_result"
     COMPARE_MESSAGE = "compare_message"
@@ -330,8 +483,8 @@ class CompareConst:
     ULP_ERR_STATUS = "ulp_err_status"
     COMPARE_RESULT_HEADER = [
-        NPU_NAME, BENCH_NAME, NPU_DTYPE, BENCH_DTYPE, NPU_SHAPE, BENCH_SHAPE, COSINE, MAX_ABS_ERR, MAX_RELATIVE_ERR,
-        ONE_THOUSANDTH_ERR_RATIO, FIVE_THOUSANDTHS_ERR_RATIO,
+        NPU_NAME, BENCH_NAME, NPU_DTYPE, BENCH_DTYPE, NPU_SHAPE, BENCH_SHAPE, COSINE, EUC_DIST,
+        MAX_ABS_ERR, MAX_RELATIVE_ERR, ONE_THOUSANDTH_ERR_RATIO, FIVE_THOUSANDTHS_ERR_RATIO,
         NPU_MAX, NPU_MIN, NPU_MEAN, NPU_NORM, BENCH_MAX, BENCH_MIN, BENCH_MEAN, BENCH_NORM, ACCURACY, ERROR_MESSAGE
     ]
@@ -357,18 +510,16 @@ class CompareConst:
         Const.MD5: MD5_COMPARE_RESULT_HEADER
     }
-    ALL_COMPARE_INDEX = [COSINE, MAX_ABS_ERR, MAX_RELATIVE_ERR, ONE_THOUSANDTH_ERR_RATIO, FIVE_THOUSANDTHS_ERR_RATIO]
+    ALL_COMPARE_INDEX = [COSINE, EUC_DIST, MAX_ABS_ERR, MAX_RELATIVE_ERR, ONE_THOUSANDTH_ERR_RATIO,
+                         FIVE_THOUSANDTHS_ERR_RATIO]
     SUMMARY_COMPARE_INDEX = [MAX_DIFF, MIN_DIFF, MEAN_DIFF, NORM_DIFF,
                              MAX_RELATIVE_ERR, MIN_RELATIVE_ERR, MEAN_RELATIVE_ERR, NORM_RELATIVE_ERR]
     # dtype match
-    MS_TYPE = [
-        [Const.FLOAT16, Const.FLOAT32], [Const.FLOAT32, Const.FLOAT16],
-        [Const.FLOAT16, Const.BFLOAT16], [Const.BFLOAT16, Const.FLOAT16]
-    ]
-    TORCH_TYPE = [
-        [Const.TORCH_FLOAT16, Const.TORCH_FLOAT32], [Const.TORCH_FLOAT32, Const.TORCH_FLOAT16],
-        [Const.TORCH_FLOAT16, Const.TORCH_BFLOAT16], [Const.TORCH_BFLOAT16, Const.TORCH_FLOAT16]
+    DTYPE_MATCH_GROUPS = [
+        {Const.FLOAT16, Const.FLOAT32, Const.BFLOAT16},
+        {Const.TORCH_FLOAT16, Const.TORCH_FLOAT32, Const.TORCH_BFLOAT16}
     ]
     # read_op
@@ -386,16 +537,10 @@ class CompareConst:
         Const.KWARGS: INPUT_STRUCT,
         Const.OUTPUT: OUTPUT_STRUCT,
         Const.PARAMS: PARAMS_STRUCT,
-        Const.PARAMS_GRAD: PARAMS_GRAD_STRUCT
+        Const.PARAMS_GRAD: PARAMS_GRAD_STRUCT,
+        Const.DEBUG: DEBUG_STRUCT
     }
-    STRUCT_COMPARE_KEY = [
-        INPUT_STRUCT,
-        OUTPUT_STRUCT,
-        PARAMS_STRUCT,
-        PARAMS_GRAD_STRUCT
-    ]
     # compare standard
     HUNDRED_RATIO_THRESHOLD = 0.01
     THOUSAND_RATIO_THRESHOLD = 0.001
@@ -467,22 +612,42 @@ class CompareConst:
         BENCH_MEAN: None, BENCH_NORM: None, ACCURACY: '', ERROR_MESSAGE: ''
     }
     MS_GRAPH_NPY = {
-        COSINE: None, MAX_ABS_ERR: None, MAX_RELATIVE_ERR: None, ONE_THOUSANDTH_ERR_RATIO: None,
+        COSINE: None, EUC_DIST: None, MAX_ABS_ERR: None, MAX_RELATIVE_ERR: None, ONE_THOUSANDTH_ERR_RATIO: None,
         FIVE_THOUSANDTHS_ERR_RATIO: None
     }
     MS_GRAPH_STATISTIC = {
         MAX_DIFF: None, MIN_DIFF: None, MEAN_DIFF: None, NORM_DIFF: None, MAX_RELATIVE_ERR: None,
         MIN_RELATIVE_ERR: None, MEAN_RELATIVE_ERR: None, NORM_RELATIVE_ERR: None
     }
+    API_MAPPING_KEYS_TO_COMPARE = [
+        ('ms_args', 'pt_args'),
+        ('ms_outputs', 'pt_outputs'),
+        ('ms_parameters', 'pt_parameters'),
+        ('ms_parameters_grad', 'pt_parameters_grad')
+    ]
     INPUT_PATTERN = Const.SEP + Const.INPUT + Const.SEP
     KWARGS_PATTERN = Const.SEP + Const.KWARGS + Const.SEP
     OUTPUT_PATTERN = Const.SEP + Const.OUTPUT + Const.SEP
     PARAMS_PATTERN = Const.SEP + Const.PARAMS + Const.SEP
     PARAMS_GRAD_PATTERN = Const.SEP + Const.PARAMS_GRAD + Const.SEP
-    COMPARE_KEY = 'compare_key'
-    COMPARE_SHAPE = 'compare_shape'
+    CMP_KEY = 'compare_key'
+    CMP_SHAPE = 'compare_shape'
+    OP_NAME_X = 'op_name_x'
+    MATCH_RESULT_COLUMNS = [
+        OP_NAME_X, 'dtype_x', 'shape_x', 'summary_x', 'stack_info_x', 'data_name_x',
+        CMP_KEY, CMP_SHAPE,
+        'op_name_y', 'dtype_y', 'shape_y', 'summary_y', 'stack_info_y', 'data_name_y',
+    ]
     INTERNAL_API_MAPPING_FILE = 'ms_to_pt_api.yaml'
     UNREADABLE = 'unreadable data'
+    NPU_DUMP_DATA_DIR = 'npu_dump_data_dir'
+    BENCH_DUMP_DATA_DIR = 'bench_dump_data_dir'
+    NO_REAL_DATA_FLAG = '-1'
 class FileCheckConst:
@@ -504,6 +669,8 @@ class FileCheckConst:
     XLSX_SUFFIX = ".xlsx"
     YAML_SUFFIX = ".yaml"
     IR_SUFFIX = ".ir"
+    ZIP_SUFFIX = ".zip"
+    SHELL_SUFFIX = ".sh"
     MAX_PKL_SIZE = 1073741824  # 1 * 1024 * 1024 * 1024
     MAX_NUMPY_SIZE = 10737418240  # 10 * 1024 * 1024 * 1024
     MAX_JSON_SIZE = 1073741824  # 1 * 1024 * 1024 * 1024
@@ -512,6 +679,8 @@ class FileCheckConst:
     MAX_XLSX_SIZE = 1073741824  # 1 * 1024 * 1024 * 1024
     MAX_YAML_SIZE = 1073741824  # 1 * 1024 * 1024 * 1024
     MAX_IR_SIZE = 1073741824  # 1 * 1024 * 1024 * 1024
+    MAX_ZIP_SIZE = 10737418240  # 10 * 1024 * 1024 * 1024
+    MAX_FILE_IN_ZIP_SIZE = 1073741824  # 1 * 1024 * 1024 * 1024
     COMMOM_FILE_SIZE = 1048576  # 1 * 1024 * 1024
     DIR = "dir"
     FILE = "file"
@@ -525,7 +694,8 @@ class FileCheckConst:
         CSV_SUFFIX: MAX_CSV_SIZE,
         XLSX_SUFFIX: MAX_XLSX_SIZE,
         YAML_SUFFIX: MAX_YAML_SIZE,
-        IR_SUFFIX: MAX_IR_SIZE
+        IR_SUFFIX: MAX_IR_SIZE,
+        ZIP_SUFFIX: MAX_ZIP_SIZE
     }
     CSV_BLACK_LIST = r'^[＋－＝％＠\+\-=%@]|;[＋－＝％＠\+\-=%@]'
@@ -538,61 +708,6 @@ class OverflowConst:
     OVERFLOW_DEBUG_MODE = 1
-class MsCompareConst:
-    # api_info field
-    MINT = "Mint"
-    MINT_FUNCTIONAL = "MintFunctional"
-    TENSOR_API = "Tensor"
-    API_NAME_STR_LENGTH = 4
-    MAX_RECURSION_DEPTH = 20
-    # Mindtorch api_info field
-    MINDTORCH_TENSOR = "Tensor"
-    MINDTORCH = "Torch"
-    MINDTORCH_FUNC = "Functional"
-    MINDTORCH_NPU = "NPU"
-    MINDTORCH_DIST = "Distributed"
-    MT_VALID_API_TYPES = [
-        MINDTORCH, MINDTORCH_FUNC, MINDTORCH_TENSOR
-    ]
-    TASK_FIELD = "task"
-    STATISTICS_TASK = "statistics"
-    FRAMEWORK = "framework"
-    TENSOR_TASK = "tensor"
-    DUMP_DATA_DIR_FIELD = "dump_data_dir"
-    DATA_FIELD = "data"
-    # supported api yaml
-    SUPPORTED_API_LIST_FILE = "checker_support_api.yaml"
-    SUPPORTED_TENSOR_LIST_KEY = "tensor"
-    # detail_csv
-    DETAIL_CSV_API_NAME = "API Name"
-    DETAIL_CSV_BENCH_DTYPE = "Bench Dtype"
-    DETAIL_CSV_TESTED_DTYPE = "Tested Dtype"
-    DETAIL_CSV_SHAPE = "Shape"
-    DETAIL_CSV_PASS_STATUS = "Status"
-    DETAIL_CSV_MESSAGE = "Message"
-    DETAIL_CSV_FILE_NAME = "accuracy_checking_details"
-    # result_csv
-    RESULT_CSV_FORWARD_TEST_SUCCESS = "Forward Test Success"
-    RESULT_CSV_BACKWARD_TEST_SUCCESS = "Backward Test Success"
-    RESULT_CSV_FILE_NAME = "accuracy_checking_result"
-    EPSILON = 1e-8
-    class ProcessStatus:
-        SUCCESS = "success"
-        API_NOT_FOUND = "api_not_found"
-        EXCEPTION_SKIP = "exception_skip"
 class MsgConst:
     """
     Class for log messages const
@@ -629,7 +744,16 @@ class MonitorConst:
     """
     Class for monitor const
     """
-    OP_LIST = ["norm", "min", "max", "zeros", "nans", "id", "mean"]
+    # monitor config set default values
+    DEFAULT_GRAD_ACC_STEPS = 1
+    DEFAULT_START_ITERATION = 0
+    DEFAULT_START_STEP = 0
+    DEFAULT_MAX_COLLECT_TIMES = 1e8
+    DEFAULT_MIN_COLLECT_TIMES = 0
+    DEFAULT_STEP_INTERVAL = 1
+    OP_LIST = ["norm", "min", "max", "zeros", "nans", "id", "mean", "shape", "dtype"]
     MONITOR_OUTPUT_DIR = "MONITOR_OUTPUT_DIR"
     DEFAULT_MONITOR_OUTPUT_DIR = "./monitor_output"
     DATABASE = "database"
@@ -641,7 +765,7 @@ class MonitorConst:
         "DeepSpeedZeroOptimizer_Stage3"
     )
     DEEPSPEED_ZERO_OPT_FILTER = "DeepSpeedZeroOptimizer"
-    RULE_NAME = ['AnomalyTurbulence']
+    RULE_NAME = ['AnomalyTurbulence', 'AnomalyNan']
     SLICE_SIZE = 20480
     # used for name
@@ -658,15 +782,16 @@ class MonitorConst:
     ACTVGRAD = "actv_grad"
     POST_GRAD = "post_grad"
     PRE_GRAD = "pre_grad"
+    PRE_PARAM = "param_origin"
+    POST_PARAM = "param_updated"
     ACC_GRAD = "acc_grad"
     PREFIX_POST = "post"
     PREFIX_PRE = "pre"
     EXP_AVG = "exp_avg"
     EXP_AVG_SQ = "exp_avg_sq"
-    PARAM = "param"
     CSV_HEADER = ["vpp_stage", "name", "step"]
-    CSV_HEADER_XY = ["vpp_stage", "name", "step", "micro_step"]
+    CSV_HEADER_MICRO_STEP = ["vpp_stage", "name", "step", "micro_step"]
     OUTPUT_DIR_PATTERN = r"([\w-]{0,20})-rank(\d{1,5})-"
     ANOMALY_JSON = "anomaly.json"
     ANALYSE_JSON = "anomaly_analyse.json"
@@ -674,3 +799,20 @@ class MonitorConst:
     CSV = "csv"
     API = "api"
     HEADER_NAME = 'name'
+    MAX_NDIGITS = 20
+    DEFAULT_STAGE = -1
+    FORWARD_STAGE = 0
+    BACKWARD_STAGE = 1
+    OPTIMIZER_STAGE = 2
+    FORWARD_KEY = [ACTV]
+    BACKWARD_KEY = [ACTVGRAD, PRE_GRAD, POST_GRAD, ACC_GRAD]
+    OPTIMIZER_KEY = [EXP_AVG, EXP_AVG_SQ]
+    TRAIN_STAGE = {}
+    for key in FORWARD_KEY:
+        TRAIN_STAGE[key] = FORWARD_STAGE
+    for key in BACKWARD_KEY:
+        TRAIN_STAGE[key] = BACKWARD_STAGE
+    for key in OPTIMIZER_KEY:
+        TRAIN_STAGE[key] = OPTIMIZER_STAGE

mindstudio-probe 1.2.2__py3-none-any.whl → 8.1.0__py3-none-any.whl

mindstudio-probe 1.2.2py3-none-any.whl → 8.1.0py3-none-any.whl