PyPI - mindstudio-probe - Versions diffs - 8.1.0__py3-none-any.whl → 8.1.1__py3-none-any.whl - Mend

mindstudio-probe 8.1.0py3-none-any.whl → 8.1.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (47) hide show

msprobe/docs/25.tool_function_introduction.md CHANGED Viewed

@@ -4,27 +4,27 @@
 | 功能名（英文）                                                                          | 简介                                                                                                                                                | 适用场景/优势                                                                                                                                                       | 当前版本局限性                                                                                                                                                                                            |
 | --------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
-| [数据采集`<br>`（dump）](./05.data_dump_PyTorch.md)                                      | 采集模型训练过程中的API或Module层级的前反向输入输出数据，包括层次关系、统计值信息、真实数据和调用栈等。                                             | 1、将模型中训练的API或Module的前反向输入输出数据保存下来分析`<br>` 2、模型出现溢出时，可用于查看哪些API或Module出现了溢出                                         | 1、API级数据采集仅支持白名单列表上的API`<br>`2、工具会做一些同步操作，引入工具可能会导致一些同步问题消失`<br>`3、当前对inplace操作API或Module的支持度有限`<br>`4、暂不支持参数及参数梯度的采集      |
-| [离线预检`<br>`（api_accuracy_checker）](./07.accuracy_checker_PyTorch.md)               | 为网络中每个API创建用例，检验其精度，并根据不同比对算法综合判定API在NPU上的精度是否达标，快速找出精度差异API。                                      | 1、对模型中所有的API做精度初步排查`<br>`2、精度排查不受模型累计误差影响                                                                                           | 1、依赖GPU环境`<br>`2、不支持通信算子`<br>`3、仅支持部分融合算子                                                                                                                                      |
-| [整网比对`<br>`（compare）](./10.accuracy_compare_PyTorch.md)                            | 计算模型整网NPU和标杆设备的精度误差指标，标记精度异常API或Module，助力快速定位精度问题根因。                                                        | 1、整网比对定位精度可疑算子                                                                                                                                         | 1、由于使用整网dump数据，定位的可疑算子受累计误差影响`<br>`2、当模型规模较大时，比对所需时间较长                                                                                                        |
-| [在线预检`<br>`（online_api_accuracy_checker）](./08.accuracy_checker_online_PyTorch.md) | 通过TCP通信或共享存储空间的方式，进行在线精度预检，解决离线预检大数据量落盘、传输困难痛点。                                                         | 1、使用离线预检，数据量较大落盘困难或传输耗时长时，可通过在线预检进行精度排查                                                                                       | 1、依赖GPU环境，NPU和GPU能够通信`<br>`2、重计算模式下，不支持反向aten算子预检                                                                                                                           |
-| [溢出检查`<br>`（overflow_checker）](./12.overflow_check_PyTorch.md)                     | 检测模型计算过程的输入输出，并在溢出时落盘数据，助力用户快速定位溢出位置。                                                                          | 1、当模型出现溢出时，用于快速定位最先溢出的API或Module`<br>`2、相比数据采集，性能更优，磁盘压力更小                                                               | 1、局限性同数据采集                                                                                                                                                                                       |
-| [数据解析`<br>`（parse_tool）](./14.data_parse_PyTorch.md)                               | 交互式界面处理解析kernel层级dump数据，便于查看分析。                                                                                                | 1、比对kernel层级dump数据的一致性                                                                                                                                   | 1、仅限于NPU                                                                                                                                                                                              |
-| [无标杆比对`<br>`（free_benchmark）](./15.free_benchmarking_PyTorch.md)                  | 不依赖标杆数据，通过对算子输入增加微小扰动，计算扰动后输出与原始输出的相对误差，识别有精度风险算子。                                                | 1、无标杆数据场景下的算子精度排查`<br>`2、对个别算子进行升精度、“to cpu”等操作，以验证其对模型loss的影响                                                        | 1、由于需要拷贝输入进行二次执行，所以在遇到大张量的输入时容易发生显存OOM的问题, 特别是反向比对过程。建议结合白名单使用`<br>`2、比对会延长训练时间，整网比对可能会造成严重的耗时膨胀，建议结合白名单使用 |
-| [梯度状态监测`<br>`（grad_probe）](./17.grad_probe.md)                                   | 可导出模型权重梯度数据并对比相似度，助力确认训练过程精度问题step和反向中的异常。                                                                    | 1、需要分析梯度数据时`<br>`2、需要定位发生问题的step时                                                                                                            | 暂无                                                                                                                                                                                                      |
-| [在线精度比对`<br>`（online_dispatch）](./18.online_dispatch.md)                         | 训练过程中直接完成NPU和CPU的精度比对并输出比对结果。                                                                                                | 1、执行一次就可获取NPU和CPU分别执行后的精度比对结果                                                                                                                 | 暂无                                                                                                                                                                                                      |
-| [训练状态监控`<br>`（monitor）](./19.monitor.md)                                         | 收集模型训练过程中的激活值、梯度和优化器状态，助力分析计算、通信、优化器各部分异常情况。                                                            | 1、通过监控模块级统计量指标，快速定位异常模块位置，如loss出现nan                                                                                                    | 1、仅支持模块级别统计量指标分析`<br>`2、仅支持megatron、deepspeed框架`<br>`3、少量增加时间和显存膨胀                                                                                                  |
-| [可视化比对`<br>`（visualization） ](./21.visualization_PyTorch.md)                      | 解析dump的精度数据，还原模型图结构，比对各层级精度数据，助力理解模型结构、分析精度问题。                                                            | 1、整网精度比对定位可疑算子，通过浏览器展示比对结果，支持快速搜索到可疑算子`<br>`2、支持查看模型层级结果，比对模型层级结构差异                                    | 1、由于使用整网dump数据，定位的可疑算子受累计误差影响`<br>`2、当模型规模较大时，比对所需时间较长                                                                                                        |
-| [单API自动生成脚本`<br>`（generate_operator） ](./23.generate_operator_PyTorch.md)       | 解析dump的精度数据，提取可疑的API算子，自动生成单API复现脚本，并根据不同的API采用不同的比对算法，给定最终比对结果数据；帮助开发者分析算子精度问题。 | 1、该工具支持从整网dump下来的数据中提取可疑算子，并自动生成单API脚本`<br>`2、除了支持复现单API的前反向过程，同时会根据不同的API选择不同的比对方法，并给出比对结果 | 1、不支持通信算子`<br>`2、融合算子需手动修改脚本进行适配`<br>`3、目前比对的标杆均为和CPU进行比对，暂不支持直接NPU和GPU比对                                                                            |
+| [数据采集<br>（dump）](./05.data_dump_PyTorch.md)                                      | 采集模型训练过程中的API或Module层级的前反向输入输出数据，包括层次关系、统计值信息、真实数据和调用栈等。                                             | 1、将模型中训练的API或Module的前反向输入输出数据保存下来分析<br> 2、模型出现溢出时，可用于查看哪些API或Module出现了溢出                                         | 1、API级数据采集仅支持白名单列表上的API<br>2、工具会做一些同步操作，引入工具可能会导致一些同步问题消失<br>3、当前对inplace操作API或Module的支持度有限<br>4、暂不支持参数及参数梯度的采集      |
+| [离线预检<br>（api_accuracy_checker）](./07.accuracy_checker_PyTorch.md)               | 为网络中每个API创建用例，检验其精度，并根据不同比对算法综合判定API在NPU上的精度是否达标，快速找出精度差异API。                                      | 1、对模型中所有的API做精度初步排查<br>2、精度排查不受模型累计误差影响                                                                                           | 1、依赖GPU环境<br>2、不支持通信算子<br>3、仅支持部分融合算子                                                                                                                                      |
+| [整网比对<br>（compare）](./10.accuracy_compare_PyTorch.md)                            | 计算模型整网NPU和标杆设备的精度误差指标，标记精度异常API或Module，助力快速定位精度问题根因。                                                        | 1、整网比对定位精度可疑算子                                                                                                                                         | 1、由于使用整网dump数据，定位的可疑算子受累计误差影响<br>2、当模型规模较大时，比对所需时间较长                                                                                                        |
+| [在线预检<br>（online_api_accuracy_checker）](./08.accuracy_checker_online_PyTorch.md) | 通过TCP通信或共享存储空间的方式，进行在线精度预检，解决离线预检大数据量落盘、传输困难痛点。                                                         | 1、使用离线预检，数据量较大落盘困难或传输耗时长时，可通过在线预检进行精度排查                                                                                       | 1、依赖GPU环境，NPU和GPU能够通信<br>2、重计算模式下，不支持反向aten算子预检                                                                                                                           |
+| [溢出检查<br>（overflow_checker）](./12.overflow_check_PyTorch.md)                     | 检测模型计算过程的输入输出，并在溢出时落盘数据，助力用户快速定位溢出位置。                                                                          | 1、当模型出现溢出时，用于快速定位最先溢出的API或Module<br>2、相比数据采集，性能更优，磁盘压力更小                                                               | 1、局限性同数据采集                                                                                                                                                                                       |
+| [数据解析<br>（parse_tool）](./14.data_parse_PyTorch.md)                               | 交互式界面处理解析kernel层级dump数据，便于查看分析。                                                                                                | 1、比对kernel层级dump数据的一致性                                                                                                                                   | 1、仅限于NPU                                                                                                                                                                                              |
+| [无标杆比对<br>（free_benchmark）](./15.free_benchmarking_PyTorch.md)                  | 不依赖标杆数据，通过对算子输入增加微小扰动，计算扰动后输出与原始输出的相对误差，识别有精度风险算子。                                                | 1、无标杆数据场景下的算子精度排查<br>2、对个别算子进行升精度、“to cpu”等操作，以验证其对模型loss的影响                                                        | 1、由于需要拷贝输入进行二次执行，所以在遇到大张量的输入时容易发生显存OOM的问题, 特别是反向比对过程。建议结合白名单使用<br>2、比对会延长训练时间，整网比对可能会造成严重的耗时膨胀，建议结合白名单使用 |
+| [梯度状态监测<br>（grad_probe）](./17.grad_probe.md)                                   | 可导出模型权重梯度数据并对比相似度，助力确认训练过程精度问题step和反向中的异常。                                                                    | 1、需要分析梯度数据时<br>2、需要定位发生问题的step时                                                                                                            | 暂无                                                                                                                                                                                                      |
+| [在线精度比对<br>（online_dispatch）](./18.online_dispatch.md)                         | 训练过程中直接完成NPU和CPU的精度比对并输出比对结果。                                                                                                | 1、执行一次就可获取NPU和CPU分别执行后的精度比对结果                                                                                                                 | 暂无                                                                                                                                                                                                      |
+| [训练状态监控<br>（monitor）](./19.monitor.md)                                         | 收集模型训练过程中的激活值、梯度和优化器状态，助力分析计算、通信、优化器各部分异常情况。                                                            | 1、通过监控模块级统计量指标，快速定位异常模块位置，如loss出现nan                                                                                                    | 1、仅支持模块级别统计量指标分析<br>2、仅支持megatron、deepspeed框架<br>3、少量增加时间和显存膨胀                                                                                                  |
+| [可视化比对<br>（visualization） ](./21.visualization_PyTorch.md)                      | 解析dump的精度数据，还原模型图结构，比对各层级精度数据，助力理解模型结构、分析精度问题。                                                            | 1、整网精度比对定位可疑算子，通过浏览器展示比对结果，支持快速搜索到可疑算子<br>2、支持查看模型层级结果，比对模型层级结构差异                                    | 1、由于使用整网dump数据，定位的可疑算子受累计误差影响<br>2、当模型规模较大时，比对所需时间较长                                                                                                        |
+| [单API自动生成脚本<br>（generate_operator） ](./23.generate_operator_PyTorch.md)       | 解析dump的精度数据，提取可疑的API算子，自动生成单API复现脚本，并根据不同的API采用不同的比对算法，给定最终比对结果数据；帮助开发者分析算子精度问题。 | 1、该工具支持从整网dump下来的数据中提取可疑算子，并自动生成单API脚本<br>2、除了支持复现单API的前反向过程，同时会根据不同的API选择不同的比对方法，并给出比对结果 | 1、不支持通信算子<br>2、融合算子需手动修改脚本进行适配<br>3、目前比对的标杆均为和CPU进行比对，暂不支持直接NPU和GPU比对                                                                            |
 ## 2 MindSpore框架
 | 功能名（英文）                                                               | 简介                                                                                                           | 适用场景/优势                                                                                                                     | 当前版本局限性                                                                                                                                                                                                                                                                         |
 | ---------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------- | --------------------------------------------------------------------------------------------------------------------------------- | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
-| [数据采集 `<br>`（dump）](./06.data_dump_MindSpore.md)                        | 采集模型训练过程中的API或Cell层级的前反向输入输出数据，包括层次关系、统计值信息、真实数据和调用栈等。          | 1、将模型中训练的API或Cell的前反向输入输出数据保存下来分析 `<br>` 2、模型出现溢出时，可用于查看哪些API或Cell出现了溢出          | 1、API级数据采集仅支持白名单列表上的API `<br>`2、当前对inplace操作API或Cell的支持度有限 `<br>`3、暂不支持参数及参数梯度的采集                                                                                                                                                      |
-| [离线预检 `<br>`（api_accuracy_checker）](./09.accuracy_checker_MindSpore.md) | 为网络中每个API创建用例，检验其精度，并根据不同比对算法综合判定API在NPU上的精度是否达标，快速找出精度差异API。 | 1、对模型中所有的API做精度初步排查 `<br>`2、精度排查不受模型累计误差影响                                                        | 1、仅针对MindSpore.mint API                                                                                                                                                                                                                                                            |
-| [整网比对 `<br>`（compare）](./11.accuracy_compare_MindSpore.md)              | NPU精度数据与标杆数据的比对，支持MindSpore框架内和与PyTorch跨框架的比对，助力快速定位精度异常API或Cell。       | 1、MindSpore同框架静态图比对 `<br>`2、MindSpore同框架动态图比对 `<br>`3、MindSpore vs PyTorch跨框架动态图比对                 | 1、部分PyTorch的API关联不到MindSpore，需要手动配置映射关系                                                                                                                                                                                                                             |
-| [溢出检查 `<br>`（overflow_checker）](./13.overflow_check_MindSpore.md)       | 检测模型计算过程的输入输出，并在溢出时落盘数据，助力用户快速定位溢出位置。                                     | 1、当模型出现溢出时，可用于定位最先溢出的API或Cell或kernel `<br>`2、相比数据采集，性能更优，磁盘压力更小                        | 1、除具有与数据采集功能相同的局限性外，动态图场景下，不支持 Primitive 和 Jit 类 API 的检测 `<br>`2、动态图场景下，仅支持检测API或Cell级别溢出 `<br>`3、静态图场景下，仅支持检测kernel级别溢出                                                                                      |
-| [无标杆比对 `<br>`（free_benchmark）](./16.free_benchmarking_MindSpore.md)    | 不依赖标杆数据，通过对算子输入增加微小扰动，计算扰动后输出与原始输出的相对误差，识别有精度风险算子。           | 1、无标杆数据场景下的算子精度排查 `<br>`2、对个别算子进行升精度修复，验证其对模型loss的影响                                     | 1、仅支持动态图场景 `<br>`2、由于需要拷贝输入进行二次执行，所以在遇到大张量的输入时容易发生显存OOM的问题, 特别是反向比对过程。建议结合白名单使用 `<br>`3、比对会延长训练时间，整网比对可能会造成严重的耗时膨胀，建议结合白名单使用 `<br>`4、不支持“to cpu”操作，不支持预热功能 |
-| [可视化比对 `<br>`（visualization） ](./22.visualization_MindSpore.md)        | 解析dump的精度数据，还原模型图结构，比对各层级精度数据，助力理解模型结构、分析精度问题。                       | 1、整网精度比对定位可疑算子，通过浏览器展示比对结果，支持快速搜索到可疑算子 `<br>`2、支持查看模型层级结果，比对模型层级结构差异 | 1、由于使用整网dump数据，定位的可疑算子受累计误差影响 `<br>`2、当模型规模较大时，比对所需时间较长                                                                                                                                                                                    |
-| [训练状态监控 `<br>`（monitor）](./19.monitor.md)                             | 收集模型训练过程中的激活值、梯度和优化器状态，助力分析计算、通信、优化器各部分异常情况。                       | 1、通过监控模块级统计量指标，快速定位异常模块位置，如loss出现nan                                                                  | 1、仅支持模块级别统计量指标分析 `<br>`2、仅支持megatron、deepspeed框架 `<br>`3、少量增加时间和显存膨胀                                                                                                                                                                             |
+| [数据采集 <br>（dump）](./06.data_dump_MindSpore.md)                        | 采集模型训练过程中的API或Cell层级的前反向输入输出数据，包括层次关系、统计值信息、真实数据和调用栈等。          | 1、将模型中训练的API或Cell的前反向输入输出数据保存下来分析 <br> 2、模型出现溢出时，可用于查看哪些API或Cell出现了溢出          | 1、API级数据采集仅支持白名单列表上的API <br>2、当前对inplace操作API或Cell的支持度有限 <br>3、暂不支持参数及参数梯度的采集                                                                                                                                                      |
+| [离线预检 <br>（api_accuracy_checker）](./09.accuracy_checker_MindSpore.md) | 为网络中每个API创建用例，检验其精度，并根据不同比对算法综合判定API在NPU上的精度是否达标，快速找出精度差异API。 | 1、对模型中所有的API做精度初步排查 <br>2、精度排查不受模型累计误差影响                                                        | 1、仅针对MindSpore.mint API                                                                                                                                                                                                                                                            |
+| [整网比对 <br>（compare）](./11.accuracy_compare_MindSpore.md)              | NPU精度数据与标杆数据的比对，支持MindSpore框架内和与PyTorch跨框架的比对，助力快速定位精度异常API或Cell。       | 1、MindSpore同框架静态图比对 <br>2、MindSpore同框架动态图比对 <br>3、MindSpore vs PyTorch跨框架动态图比对                 | 1、部分PyTorch的API关联不到MindSpore，需要手动配置映射关系                                                                                                                                                                                                                             |
+| [溢出检查 <br>（overflow_checker）](./13.overflow_check_MindSpore.md)       | 检测模型计算过程的输入输出，并在溢出时落盘数据，助力用户快速定位溢出位置。                                     | 1、当模型出现溢出时，可用于定位最先溢出的API或Cell或kernel <br>2、相比数据采集，性能更优，磁盘压力更小                        | 1、除具有与数据采集功能相同的局限性外，动态图场景下，不支持 Primitive 和 Jit 类 API 的检测 <br>2、动态图场景下，仅支持检测API或Cell级别溢出 <br>3、静态图场景下，仅支持检测kernel级别溢出                                                                                      |
+| [无标杆比对 <br>（free_benchmark）](./16.free_benchmarking_MindSpore.md)    | 不依赖标杆数据，通过对算子输入增加微小扰动，计算扰动后输出与原始输出的相对误差，识别有精度风险算子。           | 1、无标杆数据场景下的算子精度排查 <br>2、对个别算子进行升精度修复，验证其对模型loss的影响                                     | 1、仅支持动态图场景 <br>2、由于需要拷贝输入进行二次执行，所以在遇到大张量的输入时容易发生显存OOM的问题, 特别是反向比对过程。建议结合白名单使用 <br>3、比对会延长训练时间，整网比对可能会造成严重的耗时膨胀，建议结合白名单使用 <br>4、不支持“to cpu”操作，不支持预热功能 |
+| [可视化比对 <br>（visualization） ](./22.visualization_MindSpore.md)        | 解析dump的精度数据，还原模型图结构，比对各层级精度数据，助力理解模型结构、分析精度问题。                       | 1、整网精度比对定位可疑算子，通过浏览器展示比对结果，支持快速搜索到可疑算子 <br>2、支持查看模型层级结果，比对模型层级结构差异 | 1、由于使用整网dump数据，定位的可疑算子受累计误差影响 <br>2、当模型规模较大时，比对所需时间较长                                                                                                                                                                                    |
+| [训练状态监控 <br>（monitor）](./19.monitor.md)                             | 收集模型训练过程中的激活值、梯度和优化器状态，助力分析计算、通信、优化器各部分异常情况。                       | 1、通过监控模块级统计量指标，快速定位异常模块位置，如loss出现nan                                                                  | 1、仅支持模块级别统计量指标分析 <br>2、仅支持megatron、deepspeed框架 <br>3、少量增加时间和显存膨胀                                                                                                                                                                             |

msprobe/docs/33.generate_operator_MindSpore.md CHANGED Viewed

@@ -113,31 +113,22 @@ a. 在生成单API脚本时可以选择由工具构造随机数获得 dump 数
 ```
 **配置文件参数说明**
-   | 参数名称                     | 解释                                                                                                                |
-   | ---------------------------- |-------------------------------------------------------------------------------------------------------------------|
-   | dump_json_path   | dump.json的文件路径，包含所有dump算子的信息；如果已经提取了可疑算子并保存可以不指定。                                                                 |
-   | api_name             | 算子名（目前只支持Mint，Tensor，Functional，Torch类中可自动求导api），如Mint.split.1，Functional.softmax.3、Tensor.add.0、Torch.matmul.5等。 |
-   | extract_api_path               | 提取可疑算子的json文件路径                                                                                                   |
-   | propagation | 选择复现算子的forward还是backward，默认为forward                                                                               |
-   | data_mode                 | 选择复现算子的随机数据（random_data）还是真实数据（real_data）模式，默认为random_data                                                        |
-   | random_seed | 仅random_data模式有效，表示手动设定的随机种子，默认为1234                                                                              |
-   | iter_times             | 仅random_data模式有效，表示单API运行的次数，由于安全相关原因，最大支持设置为1000                                                                 |
+   | 参数名称                     | 解释                                                                                                                                                    |
+   | ---------------------------- |-------------------------------------------------------------------------------------------------------------------------------------------------------|
+   | dump_json_path   | dump.json的文件路径，包含所有dump算子的信息；如果已经提取了可疑算子并保存可以不指定。                                                                                                     |
+   | api_name             | 算子名（目前MindSpore支持类型包括：Mint，Tensor，Msadapter支持类型包括：Tensor，Functional，Torch类中可自动求导api），如Mint.split.1，Functional.softmax.3、Tensor.add.0、Torch.matmul.5等。 |
+   | extract_api_path               | 提取可疑算子的json文件路径                                                                                                                                       |
+   | propagation | 选择复现算子的forward还是backward，默认为forward                                                                                                                   |
+   | data_mode                 | 选择复现算子的随机数据（random_data）还是真实数据（real_data）模式，默认为random_data                                                                                            |
+   | random_seed | 仅random_data模式有效，表示手动设定的随机种子，默认为42                                                                                                                    |
+   | iter_times             | 仅random_data模式有效，表示单API运行的次数，由于安全相关原因，最大支持设置为1000                                                                                                     |
  ### 2.3 运行命令生成单API脚本
 config_op.json配置好后，运行如下命令：
 ```
-msprobe -f mindspore op_generate -i ./config.json -o ./
+msprobe -f mindspore op_generate -i ./config_op.json -o ./
 ```
-或者
-进入到mstt的generate_op_script文件夹
-```
-cd mstt/debug/accuracy_tools/msprobe/mindspore/api_accuracy_checker/generate_op_script
-```
-运行
-```
-python op_generator.py -i ./config_op.json -o ./
-```
 **参数说明**
    | 参数名称                     | 解释                                                         | 是否必选                           |
    | ---------------------------- | ------------------------------------------------------------ | ---------------------------------- |

msprobe/mindspore/api_accuracy_checker/api_accuracy_checker.py CHANGED Viewed

@@ -112,6 +112,7 @@ class ApiAccuracyChecker:
         dump_path_aggregation = DumpPathAggregation()
         dump_path_aggregation.dump_file_path = os.path.join(dump_dir, "dump.json")
         dump_path_aggregation.stack_file_path = os.path.join(dump_dir, "stack.json")
+        dump_path_aggregation.dump_error_info_path = os.path.join(dump_dir, "dump_error_info.log")
         dump_path_aggregation.dump_tensor_data_dir = dump_data_dir
         return config, dump_path_aggregation

msprobe/mindspore/api_accuracy_checker/compute_element.py CHANGED Viewed

@@ -17,7 +17,6 @@ import os
 import mindspore
 import numpy as np
-import torch
 from mindspore._c_expression import typing
 from msprobe.core.common.const import Const
 from msprobe.core.common.exceptions import ApiAccuracyCheckerException

msprobe/mindspore/api_accuracy_checker/generate_op_script/op_generator.py CHANGED Viewed

@@ -116,10 +116,19 @@ class CommonConfig:
         filtered = {k: v for k, v in json_content.items() if k not in EXCLUED}
+        if not filtered:
+            raise ValueError(f'json file is empty!')
         if len(filtered) > API_INFO:
             raise ValueError(f'json file has more than one API, the API only contains forward and backward info')
-        if propagation == Const.FORWARD and filtered and all(k.endswith('forward') for k in filtered):
+        is_forward_phase = propagation == Const.FORWARD
+        is_exact_api_count = len(filtered) == API_INFO
+        all_keys_forward = all(k.endswith('forward') for k in filtered)
+        if is_forward_phase and is_exact_api_count and all_keys_forward:
             raise ValueError(
                 "json file has more than one API, the API only contains forward info。"
             )

msprobe/mindspore/api_accuracy_checker/torch_mindtorch_importer.py CHANGED Viewed

@@ -108,7 +108,8 @@ def delete_torch_paths():
         if count_delete_env_path >= MsCompareConst.MAX_RECURSION_DEPTH - 1:
             raise Exception(f"Please check if you have a valid PyTorch and MindTorch environment, and ensure "
-                            f"the PYTHONPATH environment variable depth does not exceed {Const.MAX_RECURSION_DEPTH}.")
+                            f"the PYTHONPATH environment variable depth does not "
+                            f"exceed {MsCompareConst.MAX_RECURSION_DEPTH}.")
 if not is_mindtorch():

msprobe/mindspore/common/utils.py CHANGED Viewed

@@ -323,5 +323,6 @@ def has_kwargs_in_forward_hook():
             kwargs_exist_in_forward_hook = 'with_kwargs' in func_params
         except Exception:
             kwargs_exist_in_forward_hook = False
+        return kwargs_exist_in_forward_hook
     return kwargs_exist_in_forward_hook

msprobe/mindspore/debugger/precision_debugger.py CHANGED Viewed

@@ -96,7 +96,7 @@ class PrecisionDebugger(BasePrecisionDebugger):
             _dump_set_dynamic()
     @staticmethod
-    def get_task_config(task, json_config):
+    def _get_task_config(task, json_config):
         return parse_task_config(task, json_config)
     @staticmethod
@@ -129,7 +129,7 @@ class PrecisionDebugger(BasePrecisionDebugger):
     @classmethod
     def start(cls, model=None, token_range=None):
-        instance = cls.get_instance()
+        instance = cls._get_instance()
         if instance is None:
             return
         if cls._need_msprobe_c() and _msprobe_c:
@@ -158,7 +158,7 @@ class PrecisionDebugger(BasePrecisionDebugger):
     @classmethod
     def stop(cls):
-        instance = cls.get_instance()
+        instance = cls._get_instance()
         if instance is None:
             return
@@ -175,7 +175,7 @@ class PrecisionDebugger(BasePrecisionDebugger):
     @classmethod
     def step(cls):
-        instance = cls.get_instance()
+        instance = cls._get_instance()
         if instance is None:
             return

msprobe/mindspore/dump/cell_dump_process.py CHANGED Viewed

@@ -143,10 +143,10 @@ def cell_construct_wrapper(func, self):
             if backward_or_all and ops.is_tensor(item):
                 if need_tensordump_in(self, 'input_dump_mode', index):
                     item = gd(gen_file_path(self.dump_path, self.cell_prefix, KEY_BACKWARD, KEY_OUTPUT, index),
-                              item, "in")
+                              item, "out")
                 else:
                     item = gd(gen_file_path(self.dump_path, self.cell_prefix, KEY_BACKWARD, KEY_OUTPUT, index),
-                              item, "out")
+                              item, "in")
             if forward_or_all and ops.is_tensor(item):
                 if need_tensordump_in(self, 'input_dump_mode', index):
                     temp = td_in(
@@ -169,10 +169,10 @@ def cell_construct_wrapper(func, self):
                 if backward_or_all and ops.is_tensor(item):
                     if need_tensordump_in(self, 'output_dump_mode', index):
                         item = gd(gen_file_path(self.dump_path, self.cell_prefix, KEY_BACKWARD, KEY_INPUT, index),
-                                  item, "in")
+                                  item, "out")
                     else:
                         item = gd(gen_file_path(self.dump_path, self.cell_prefix, KEY_BACKWARD, KEY_INPUT, index),
-                                  item, "out")
+                                  item, "in")
                 if forward_or_all and ops.is_tensor(item):
                     if need_tensordump_in(self, 'output_dump_mode', index):
                         temp = td_in(
@@ -194,10 +194,10 @@ def cell_construct_wrapper(func, self):
             if backward_or_all:
                 if need_tensordump_in(self, 'output_dump_mode', index):
                     out = gd(gen_file_path(self.dump_path, self.cell_prefix, KEY_BACKWARD, KEY_INPUT, 0),
-                             out, "in")
+                             out, "out")
                 else:
                     out = gd(gen_file_path(self.dump_path, self.cell_prefix, KEY_BACKWARD, KEY_INPUT, 0),
-                             out, "out")
+                             out, "in")
             if forward_or_all and ops.is_tensor(out):
                 if need_tensordump_in(self, 'output_dump_mode', index):
                     temp = td_in(
@@ -223,34 +223,9 @@ def sort_filenames(path):
     return filenames
-# 删除重复dump的文件：自定义文件名相同，并且数据相同
-def del_same_file(path, filenames):
-    result_list = []
-    seen_prefixes = {}
-    for current_filename in filenames:
-        parts = current_filename.rsplit(CoreConst.REPLACEMENT_CHARACTER, 1)
-        prefix = parts[0]
-        if prefix not in seen_prefixes:
-            result_list.append(current_filename)
-            seen_prefixes[prefix] = current_filename
-        else:
-            current_file_path = os.path.join(path, current_filename)
-            current_file = load_npy(current_file_path)
-            prev_filename = seen_prefixes[prefix]
-            prev_file_path = os.path.join(path, prev_filename)
-            prev_file = load_npy(prev_file_path)
-            if np.array_equal(current_file, prev_file):
-                remove_path(current_file_path)
-                logger.warning(f"{current_file_path} is deleted!")
-            else:
-                result_list.append(current_filename)
-    return result_list
 def rename_filename(path="", data_df=None):
     if dump_task == CoreConst.TENSOR:
         filenames = sort_filenames(path)
-        filenames = del_same_file(path, filenames)
     if dump_task == CoreConst.STATISTICS:
         filenames = data_df[CoreConst.OP_NAME].tolist()
@@ -284,8 +259,8 @@ def rename_filename(path="", data_df=None):
 # Extract the field between the first "." and the third to last ".", i.e. {cell_name}
-def get_cell_name(str):
-    parts = str.split(CoreConst.SEP)
+def get_cell_name(cell_str):
+    parts = cell_str.split(CoreConst.SEP)
     if len(parts) < 4:
         return None
     start_index = 1
@@ -294,10 +269,10 @@ def get_cell_name(str):
 # Extract the field between the last "." and the second to last ".", i.e. {data_made}
-def get_data_mode(str):
-    last_dot_index = str.rfind(CoreConst.SEP)
-    second_last_dot_index = str.rfind(CoreConst.SEP, 0, last_dot_index)
-    data_mode = str[second_last_dot_index + 1:last_dot_index]
+def get_data_mode(cell_str):
+    last_dot_index = cell_str.rfind(CoreConst.SEP)
+    second_last_dot_index = cell_str.rfind(CoreConst.SEP, 0, last_dot_index)
+    data_mode = cell_str[second_last_dot_index + 1:last_dot_index]
     return data_mode
@@ -804,7 +779,7 @@ def create_kbyk_json(dump_path, summary_mode, step):
     rank_id = os.environ.get('RANK_ID')
     if rank_id is None:
         rank_id = 0
-    config_json_path = os.path.join(dump_path, rank_id + "kernel_kbyk_dump.json")
+    config_json_path = os.path.join(dump_path, str(rank_id) + "kernel_kbyk_dump.json")
     save_json(config_json_path, config_json, indent=4)
     logger.info(config_json_path + " has been created.")
     return config_json_path

msprobe/mindspore/dump/cell_dump_with_insert_gradient.py CHANGED Viewed

@@ -201,34 +201,9 @@ def sort_filenames(path):
     return filenames
-# 删除重复dump的文件：自定义文件名相同，并且数据相同
-def del_same_file(path, filenames):
-    result_list = []
-    seen_prefixes = {}
-    for current_filename in filenames:
-        parts = current_filename.rsplit(CoreConst.REPLACEMENT_CHARACTER, 1)
-        prefix = parts[0]
-        if prefix not in seen_prefixes:
-            result_list.append(current_filename)
-            seen_prefixes[prefix] = current_filename
-        else:
-            current_file_path = os.path.join(path, current_filename)
-            current_file = load_npy(current_file_path)
-            prev_filename = seen_prefixes[prefix]
-            prev_file_path = os.path.join(path, prev_filename)
-            prev_file = load_npy(prev_file_path)
-            if np.array_equal(current_file, prev_file):
-                remove_path(current_file_path)
-                logger.warning(f"{current_file_path} is deleted!")
-            else:
-                result_list.append(current_filename)
-    return result_list
 def rename_filename(path="", data_df=None):
     if dump_task == CoreConst.TENSOR:
         filenames = sort_filenames(path)
-        filenames = del_same_file(path, filenames)
     if dump_task == CoreConst.STATISTICS:
         filenames = data_df[CoreConst.OP_NAME].tolist()
@@ -781,7 +756,7 @@ def create_kbyk_json(dump_path, summary_mode, step):
     rank_id = os.environ.get('RANK_ID')
     if rank_id is None:
         rank_id = 0
-    config_json_path = os.path.join(dump_path, rank_id + "kernel_kbyk_dump.json")
+    config_json_path = os.path.join(dump_path, str(rank_id) + "kernel_kbyk_dump.json")
     save_json(config_json_path, config_json, indent=4)
     logger.info(config_json_path + " has been created.")
     return config_json_path

msprobe/mindspore/dump/hook_cell/api_register.py CHANGED Viewed

@@ -118,12 +118,12 @@ class ApiTemplate(HOOKCell):
             try:
                 bound = inspect.signature(self.api_func).bind(*args, **kwargs)
                 bound.apply_defaults()
-                use_asyn_op_flag = bound.arguments.get("asyn_op", False)
+                use_async_op_flag = bound.arguments.get("async_op", False)
             except Exception as e:
-                use_asyn_op_flag = False
+                use_async_op_flag = False
                 logger.warning(f"fail to get dist api's func signature because {e}, no wait")
-            if use_asyn_op_flag or self.api_name in ["isend", "irecv"]:
+            if use_async_op_flag or self.api_name in ["isend", "irecv"]:
                 output = self.async_to_sync(output)
             if self.api_name == "batch_isend_irecv" and isinstance(output, list):
                 output = [self.async_to_sync(handle) for handle in output]

msprobe/mindspore/dym_loader/hook_dynamic_loader.cpp CHANGED Viewed

@@ -1,5 +1,5 @@
-/**
- * Copyright 2024 Huawei Technologies Co., Ltd
+/*
+ * Copyright (C) 2024-2025. Huawei Technologies Co., Ltd. All rights reserved.
  *
  * Licensed under the Apache License, Version 2.0 (the "License");
  * you may not use this file except in compliance with the License.
@@ -39,7 +39,7 @@ bool HookDynamicLoader::LoadFunction(void *handle, const std::string &functionNa
     return true;
 }
-bool HookDynamicLoader::LoadLibrary()
+bool HookDynamicLoader::LoadLibrary()
 {
     std::string msprobePath = "";
     // 获取gil锁
@@ -98,7 +98,7 @@ bool HookDynamicLoader::UnloadLibrary()
     return true;
 }
-void *HookDynamicLoader::GetHooker(const std::string &funcName)
+void *HookDynamicLoader::GetHooker(const std::string &funcName)
 {
     std::lock_guard<std::mutex> lock(mutex_);
     auto iter = funcMap_.find(funcName);

msprobe/mindspore/mindspore_service.py CHANGED Viewed

@@ -51,6 +51,9 @@ class MindsporeService(BaseService):
     def empty(self, *args, **kwargs):
         pass
+    def reset_status(self):
+        self._reset_status()
     def _init_specific_components(self):
         self.logger = logger
         self.api_register = get_api_register()

msprobe/mindspore/monitor/features.py CHANGED Viewed

@@ -64,12 +64,13 @@ def get_dtype(t):
     return t.dtype
-FUNC_MAP = {"min"  : get_min,
-            "max"  : get_max,
-            "mean" : get_mean,
-            "norm" : get_norm,
-            "nans" : get_nans,
-            "zeros": get_zeros,
-            "shape": get_shape,
-            "dtype": get_dtype
-           }
+FUNC_MAP = {
+    "min": get_min,
+    "max": get_max,
+    "mean": get_mean,
+    "norm": get_norm,
+    "nans": get_nans,
+    "zeros": get_zeros,
+    "shape": get_shape,
+    "dtype": get_dtype
+}

msprobe/mindspore/monitor/optimizer_collect.py CHANGED Viewed

@@ -105,6 +105,9 @@ class OptimizerMon(object):
                     else:
                         logger.warning(f"step of {name} is None, maybe something wrong happened.")
                         continue
+                    if exp_avg is None or exp_avg_sq is None:
+                        logger.warning(f"exp_avg or exp_avg_sq of {name} is None, skip calculation.")
+                        continue
                     exp_avg_hat = exp_avg / (1 - self.optim.defaults['betas'][0] ** step)
                     exp_avg_sq_hat = exp_avg_sq / (1 - self.optim.defaults['betas'][1] ** step)
                     update_dict[name] = exp_avg_hat / (mint.sqrt(exp_avg_sq_hat) + self.optim.defaults['eps'])
@@ -292,7 +295,7 @@ class DeepSpeedZeroOptimizerStage3Mon(DeepSpeedZeroOptimizerMon):
         self.fp32_flat_groups = optim.fp32_partitioned_groups_flat
         self.param2group = self.get_group_index()
-    def param_not_in_partition(self, param, group_index):
+    def param_not_in_partition(self, lp_param, group_idx):
         """Each param partioned across all zero ranks"""
         return False

msprobe/pytorch/api_accuracy_checker/compare/compare_utils.py CHANGED Viewed

@@ -73,27 +73,27 @@ DETAIL_TEST_ROWS = [
 precision_configs = {
-    torch.float16 : {
-        'small_value' : [
+    torch.float16: {
+        'small_value': [
             1e-3
         ],
-        'small_value_atol' : [
+        'small_value_atol': [
             1e-5
         ]
     },
     torch.bfloat16: {
-        'small_value' : [
+        'small_value': [
             1e-3
         ],
-        'small_value_atol' : [
+        'small_value_atol': [
             1e-5
         ]
     },
-    torch.float32:{
-        'small_value' : [
+    torch.float32: {
+        'small_value': [
             1e-6
         ],
-        'small_value_atol' : [
+        'small_value_atol': [
             1e-9
         ]
     }
@@ -101,33 +101,33 @@ precision_configs = {
 ULP_PARAMETERS = {
-    torch.float16 : {
-        'min_eb' : [
+    torch.float16: {
+        'min_eb': [
             -14
         ],
-        'exponent_num' : [
+        'exponent_num': [
             10
         ]
     },
-    torch.bfloat16 : {
-        'min_eb' : [
+    torch.bfloat16: {
+        'min_eb': [
             -126
         ],
-        'exponent_num' : [
+        'exponent_num': [
             7
         ]
     },
-    torch.float32 : {
-        'min_eb' : [
+    torch.float32: {
+        'min_eb': [
             -126
         ],
-        'exponent_num' : [
+        'exponent_num': [
             23
         ]
     }
 }
 class ApiPrecisionCompareColumn:
     API_NAME = 'API Name'
     DEVICE_DTYPE = 'DEVICE Dtype'
@@ -202,7 +202,7 @@ class ApiPrecisionCompareColumn:
 CompareMessage = {
-    "topk" : "在npu上，topk的入参sorted=False时不生效，会返回有序tensor，而cpu上会返回无序tensor。 如果topk精度不达标，请检查是否是该原因导致的。"
+    "topk": "在npu上，topk的入参sorted=False时不生效，会返回有序tensor，而cpu上会返回无序tensor。 如果topk精度不达标，请检查是否是该原因导致的。"
 }

mindstudio-probe 8.1.0__py3-none-any.whl → 8.1.1__py3-none-any.whl

mindstudio-probe 8.1.0py3-none-any.whl → 8.1.1py3-none-any.whl