PyPI - mindspore - Versions diffs - 2.7.0rc1__cp310-cp310-win_amd64.whl → 2.7.1__cp310-cp310-win_amd64.whl - Mend

mindspore 2.7.0rc1__cp310-cp310-win_amd64.whl → 2.7.1__cp310-cp310-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mindspore might be problematic. Click here for more details.

Files changed (370) hide show

mindspore/.commit_id +1 -1
mindspore/__init__.py +5 -2
mindspore/_c_dataengine.cp310-win_amd64.pyd +0 -0
mindspore/_c_expression.cp310-win_amd64.pyd +0 -0
mindspore/_c_mindrecord.cp310-win_amd64.pyd +0 -0
mindspore/_checkparam.py +2 -2
mindspore/_extends/builtin_operations.py +3 -3
mindspore/_extends/parallel_compile/akg_compiler/custom.py +1109 -0
mindspore/_extends/parallel_compile/akg_compiler/gen_custom_op_files.py +1 -1
mindspore/_extends/parse/__init__.py +3 -3
mindspore/_extends/parse/compile_config.py +24 -1
mindspore/_extends/parse/deprecated/deprecated_tensor_method.py +6 -3
mindspore/_extends/parse/parser.py +28 -22
mindspore/_extends/parse/resources.py +1 -1
mindspore/_extends/parse/standard_method.py +23 -2
mindspore/_extends/parse/trope.py +2 -1
mindspore/_extends/pijit/pijit_func_white_list.py +9 -27
mindspore/amp.py +0 -18
mindspore/avcodec-59.dll +0 -0
mindspore/avdevice-59.dll +0 -0
mindspore/avfilter-8.dll +0 -0
mindspore/avformat-59.dll +0 -0
mindspore/avutil-57.dll +0 -0
mindspore/boost/base.py +29 -2
mindspore/common/__init__.py +18 -12
mindspore/common/_decorator.py +3 -2
mindspore/common/_grad_function.py +3 -1
mindspore/common/_tensor_cpp_method.py +1 -1
mindspore/common/_tensor_docs.py +371 -96
mindspore/common/_utils.py +7 -43
mindspore/common/api.py +434 -135
mindspore/common/dtype.py +98 -57
mindspore/common/dump.py +7 -108
mindspore/common/dynamic_shape/__init__.py +0 -0
mindspore/common/{auto_dynamic_shape.py → dynamic_shape/auto_dynamic_shape.py} +15 -23
mindspore/common/dynamic_shape/enable_dynamic.py +197 -0
mindspore/common/file_system.py +59 -9
mindspore/common/hook_handle.py +82 -3
mindspore/common/jit_config.py +5 -1
mindspore/common/jit_trace.py +27 -12
mindspore/common/lazy_inline.py +5 -3
mindspore/common/np_dtype.py +3 -3
mindspore/common/parameter.py +17 -127
mindspore/common/recompute.py +4 -13
mindspore/common/tensor.py +50 -217
mindspore/communication/_comm_helper.py +11 -1
mindspore/communication/comm_func.py +138 -4
mindspore/communication/management.py +85 -1
mindspore/config/op_info.config +0 -15
mindspore/context.py +20 -106
mindspore/dataset/__init__.py +1 -1
mindspore/dataset/audio/transforms.py +1 -1
mindspore/dataset/core/config.py +35 -1
mindspore/dataset/engine/datasets.py +338 -319
mindspore/dataset/engine/datasets_user_defined.py +38 -22
mindspore/dataset/engine/datasets_vision.py +1 -1
mindspore/dataset/engine/validators.py +1 -15
mindspore/dataset/transforms/c_transforms.py +2 -2
mindspore/dataset/transforms/transforms.py +3 -3
mindspore/dataset/vision/__init__.py +1 -1
mindspore/dataset/vision/py_transforms.py +8 -8
mindspore/dataset/vision/transforms.py +17 -5
mindspore/dataset/vision/utils.py +632 -21
mindspore/device_context/ascend/op_tuning.py +35 -1
mindspore/dnnl.dll +0 -0
mindspore/{profiler/common/validator → graph}/__init__.py +9 -1
mindspore/graph/custom_pass.py +55 -0
mindspore/include/api/cell.h +28 -4
mindspore/include/api/cfg.h +24 -7
mindspore/include/api/context.h +1 -0
mindspore/include/api/delegate.h +0 -2
mindspore/include/api/dual_abi_helper.h +100 -19
mindspore/include/api/graph.h +14 -1
mindspore/include/api/kernel.h +16 -3
mindspore/include/api/kernel_api.h +9 -1
mindspore/include/api/metrics/accuracy.h +9 -0
mindspore/include/api/model.h +5 -1
mindspore/include/api/model_group.h +4 -0
mindspore/include/api/model_parallel_runner.h +2 -0
mindspore/include/api/status.h +48 -10
mindspore/include/api/types.h +6 -1
mindspore/include/dataset/constants.h +9 -0
mindspore/include/dataset/execute.h +2 -2
mindspore/jpeg62.dll +0 -0
mindspore/mindrecord/__init__.py +3 -3
mindspore/mindrecord/common/exceptions.py +1 -0
mindspore/mindrecord/config.py +1 -1
mindspore/{parallel/mpi → mindrecord/core}/__init__.py +4 -1
mindspore/mindrecord/{shardheader.py → core/shardheader.py} +2 -1
mindspore/mindrecord/{shardindexgenerator.py → core/shardindexgenerator.py} +1 -1
mindspore/mindrecord/{shardreader.py → core/shardreader.py} +2 -1
mindspore/mindrecord/{shardsegment.py → core/shardsegment.py} +2 -2
mindspore/mindrecord/{shardutils.py → core/shardutils.py} +1 -1
mindspore/mindrecord/{shardwriter.py → core/shardwriter.py} +1 -1
mindspore/mindrecord/filereader.py +4 -4
mindspore/mindrecord/filewriter.py +5 -5
mindspore/mindrecord/mindpage.py +2 -2
mindspore/mindrecord/tools/cifar10.py +4 -3
mindspore/mindrecord/tools/cifar100.py +1 -1
mindspore/mindrecord/tools/cifar100_to_mr.py +1 -1
mindspore/mindrecord/tools/cifar10_to_mr.py +6 -6
mindspore/mindrecord/tools/csv_to_mr.py +1 -1
mindspore/mindrecord/tools/imagenet_to_mr.py +1 -1
mindspore/mindrecord/tools/mnist_to_mr.py +1 -1
mindspore/mindrecord/tools/tfrecord_to_mr.py +1 -1
mindspore/mindspore_backend_common.dll +0 -0
mindspore/mindspore_backend_manager.dll +0 -0
mindspore/mindspore_cluster.dll +0 -0
mindspore/mindspore_common.dll +0 -0
mindspore/mindspore_core.dll +0 -0
mindspore/mindspore_cpu.dll +0 -0
mindspore/mindspore_dump.dll +0 -0
mindspore/mindspore_frontend.dll +0 -0
mindspore/mindspore_glog.dll +0 -0
mindspore/mindspore_hardware_abstract.dll +0 -0
mindspore/mindspore_memory_pool.dll +0 -0
mindspore/mindspore_ms_backend.dll +0 -0
mindspore/mindspore_ops.dll +0 -0
mindspore/{mindspore_ops_host.dll → mindspore_ops_cpu.dll} +0 -0
mindspore/mindspore_profiler.dll +0 -0
mindspore/mindspore_pyboost.dll +0 -0
mindspore/mindspore_pynative.dll +0 -0
mindspore/mindspore_runtime_pipeline.dll +0 -0
mindspore/mindspore_runtime_utils.dll +0 -0
mindspore/mindspore_tools.dll +0 -0
mindspore/mint/__init__.py +15 -10
mindspore/mint/distributed/__init__.py +4 -0
mindspore/mint/distributed/distributed.py +392 -69
mindspore/mint/nn/__init__.py +2 -16
mindspore/mint/nn/functional.py +4 -110
mindspore/mint/nn/layer/__init__.py +0 -2
mindspore/mint/nn/layer/_functions.py +1 -2
mindspore/mint/nn/layer/activation.py +0 -6
mindspore/mint/nn/layer/basic.py +0 -47
mindspore/mint/nn/layer/conv.py +10 -10
mindspore/mint/nn/layer/normalization.py +11 -16
mindspore/mint/nn/layer/pooling.py +0 -4
mindspore/nn/__init__.py +1 -3
mindspore/nn/cell.py +231 -239
mindspore/nn/layer/activation.py +4 -2
mindspore/nn/layer/basic.py +56 -14
mindspore/nn/layer/container.py +16 -0
mindspore/nn/layer/embedding.py +4 -169
mindspore/nn/layer/image.py +1 -1
mindspore/nn/layer/normalization.py +2 -1
mindspore/nn/layer/thor_layer.py +4 -85
mindspore/nn/optim/ada_grad.py +0 -1
mindspore/nn/optim/adafactor.py +0 -1
mindspore/nn/optim/adam.py +32 -127
mindspore/nn/optim/adamax.py +0 -1
mindspore/nn/optim/asgd.py +0 -1
mindspore/nn/optim/ftrl.py +8 -102
mindspore/nn/optim/lamb.py +1 -4
mindspore/nn/optim/lars.py +0 -3
mindspore/nn/optim/lazyadam.py +25 -218
mindspore/nn/optim/momentum.py +5 -43
mindspore/nn/optim/optimizer.py +6 -55
mindspore/nn/optim/proximal_ada_grad.py +0 -1
mindspore/nn/optim/rmsprop.py +0 -1
mindspore/nn/optim/rprop.py +0 -1
mindspore/nn/optim/sgd.py +0 -1
mindspore/nn/optim/tft_wrapper.py +2 -4
mindspore/nn/optim/thor.py +0 -2
mindspore/nn/probability/bijector/bijector.py +7 -8
mindspore/nn/probability/bijector/gumbel_cdf.py +2 -2
mindspore/nn/probability/bijector/power_transform.py +20 -21
mindspore/nn/probability/bijector/scalar_affine.py +5 -5
mindspore/nn/probability/bijector/softplus.py +13 -14
mindspore/nn/probability/distribution/_utils/utils.py +2 -2
mindspore/nn/wrap/cell_wrapper.py +39 -5
mindspore/nn/wrap/grad_reducer.py +4 -89
mindspore/numpy/array_creations.py +4 -4
mindspore/numpy/fft.py +9 -9
mindspore/numpy/utils_const.py +1 -1
mindspore/{nn/reinforcement → onnx}/__init__.py +5 -8
mindspore/onnx/onnx_export.py +137 -0
mindspore/opencv_core4110.dll +0 -0
mindspore/opencv_imgcodecs4110.dll +0 -0
mindspore/{opencv_imgproc452.dll → opencv_imgproc4110.dll} +0 -0
mindspore/ops/__init__.py +2 -0
mindspore/ops/_grad_experimental/grad_comm_ops.py +38 -2
mindspore/ops/_grad_experimental/grad_inner_ops.py +0 -9
mindspore/ops/_op_impl/aicpu/__init__.py +0 -10
mindspore/ops/_op_impl/cpu/__init__.py +1 -5
mindspore/ops/_op_impl/cpu/{buffer_append.py → joinedstr_op.py} +8 -8
mindspore/ops/auto_generate/cpp_create_prim_instance_helper.py +28 -24
mindspore/ops/auto_generate/gen_extend_func.py +6 -11
mindspore/ops/auto_generate/gen_ops_def.py +385 -154
mindspore/ops/auto_generate/gen_ops_prim.py +5676 -5167
mindspore/ops/communication.py +97 -0
mindspore/ops/composite/__init__.py +5 -2
mindspore/ops/composite/base.py +16 -2
mindspore/ops/composite/multitype_ops/__init__.py +3 -1
mindspore/ops/composite/multitype_ops/_compile_utils.py +150 -8
mindspore/ops/composite/multitype_ops/_constexpr_utils.py +1 -1
mindspore/ops/composite/multitype_ops/add_impl.py +7 -0
mindspore/ops/composite/multitype_ops/mod_impl.py +27 -0
mindspore/ops/function/__init__.py +2 -0
mindspore/ops/function/array_func.py +24 -18
mindspore/ops/function/comm_func.py +3883 -0
mindspore/ops/function/debug_func.py +7 -6
mindspore/ops/function/grad/grad_func.py +4 -12
mindspore/ops/function/math_func.py +89 -86
mindspore/ops/function/nn_func.py +92 -313
mindspore/ops/function/random_func.py +9 -18
mindspore/ops/functional.py +4 -1
mindspore/ops/functional_overload.py +377 -30
mindspore/ops/operations/__init__.py +2 -5
mindspore/ops/operations/_custom_ops_utils.py +7 -9
mindspore/ops/operations/_inner_ops.py +12 -50
mindspore/ops/operations/_rl_inner_ops.py +0 -933
mindspore/ops/operations/array_ops.py +5 -50
mindspore/ops/operations/comm_ops.py +95 -17
mindspore/ops/operations/custom_ops.py +237 -22
mindspore/ops/operations/debug_ops.py +33 -35
mindspore/ops/operations/manually_defined/ops_def.py +39 -318
mindspore/ops/operations/math_ops.py +5 -5
mindspore/ops/operations/nn_ops.py +3 -3
mindspore/ops/operations/sparse_ops.py +0 -83
mindspore/ops/primitive.py +4 -27
mindspore/ops/tensor_method.py +88 -10
mindspore/ops_generate/aclnn/aclnn_kernel_register_auto_cc_generator.py +5 -5
mindspore/ops_generate/aclnn/gen_aclnn_implement.py +8 -8
mindspore/ops_generate/api/functions_cc_generator.py +53 -4
mindspore/ops_generate/api/tensor_func_reg_cpp_generator.py +25 -11
mindspore/ops_generate/common/gen_constants.py +11 -10
mindspore/ops_generate/common/op_proto.py +18 -1
mindspore/ops_generate/common/template.py +102 -245
mindspore/ops_generate/common/template_utils.py +212 -0
mindspore/ops_generate/gen_custom_ops.py +69 -0
mindspore/ops_generate/op_def/ops_def_cc_generator.py +78 -7
mindspore/ops_generate/op_def_py/base_op_prim_py_generator.py +360 -0
mindspore/ops_generate/op_def_py/custom_op_prim_py_generator.py +140 -0
mindspore/ops_generate/op_def_py/op_def_py_generator.py +54 -7
mindspore/ops_generate/op_def_py/op_prim_py_generator.py +5 -312
mindspore/ops_generate/pyboost/auto_grad_impl_cc_generator.py +74 -17
mindspore/ops_generate/pyboost/auto_grad_reg_cc_generator.py +22 -5
mindspore/ops_generate/pyboost/gen_pyboost_func.py +0 -16
mindspore/ops_generate/pyboost/op_template_parser.py +3 -2
mindspore/ops_generate/pyboost/pyboost_functions_cpp_generator.py +21 -5
mindspore/ops_generate/pyboost/pyboost_functions_h_generator.py +2 -2
mindspore/ops_generate/pyboost/pyboost_functions_impl_cpp_generator.py +30 -10
mindspore/ops_generate/pyboost/pyboost_grad_function_cpp_generator.py +10 -3
mindspore/ops_generate/pyboost/pyboost_internal_kernel_info_adapter_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_native_grad_functions_generator.py +19 -9
mindspore/ops_generate/pyboost/pyboost_op_cpp_code_generator.py +71 -28
mindspore/ops_generate/pyboost/pyboost_overload_functions_cpp_generator.py +10 -9
mindspore/ops_generate/pyboost/pyboost_utils.py +27 -16
mindspore/ops_generate/resources/yaml_loader.py +13 -0
mindspore/ops_generate/tensor_py_cc_generator.py +2 -2
mindspore/parallel/_auto_parallel_context.py +5 -15
mindspore/parallel/_cell_wrapper.py +1 -1
mindspore/parallel/_parallel_serialization.py +4 -6
mindspore/parallel/_ps_context.py +2 -2
mindspore/parallel/_utils.py +34 -17
mindspore/parallel/auto_parallel.py +23 -9
mindspore/parallel/checkpoint_transform.py +20 -2
mindspore/parallel/cluster/process_entity/_api.py +28 -33
mindspore/parallel/cluster/process_entity/_utils.py +9 -5
mindspore/parallel/cluster/run.py +5 -3
mindspore/{experimental/llm_boost/ascend_native → parallel/distributed}/__init__.py +21 -22
mindspore/parallel/distributed/distributed_data_parallel.py +393 -0
mindspore/parallel/distributed/flatten_grad_buffer.py +295 -0
mindspore/parallel/function/reshard_func.py +6 -5
mindspore/parallel/nn/parallel_cell_wrapper.py +40 -3
mindspore/parallel/nn/parallel_grad_reducer.py +0 -8
mindspore/parallel/shard.py +7 -21
mindspore/parallel/strategy.py +336 -0
mindspore/parallel/transform_safetensors.py +127 -20
mindspore/profiler/analysis/viewer/ascend_kernel_details_viewer.py +13 -9
mindspore/profiler/analysis/viewer/ascend_op_memory_viewer.py +1 -1
mindspore/profiler/analysis/viewer/ms_minddata_viewer.py +1 -1
mindspore/profiler/common/constant.py +5 -0
mindspore/profiler/common/file_manager.py +9 -0
mindspore/profiler/common/msprof_cmd_tool.py +40 -4
mindspore/profiler/common/path_manager.py +65 -24
mindspore/profiler/common/profiler_context.py +27 -14
mindspore/profiler/common/profiler_info.py +3 -3
mindspore/profiler/common/profiler_meta_data.py +1 -0
mindspore/profiler/common/profiler_op_analyse.py +10 -6
mindspore/profiler/common/profiler_path_manager.py +13 -0
mindspore/profiler/common/util.py +30 -3
mindspore/profiler/dynamic_profiler.py +91 -46
mindspore/profiler/envprofiler.py +30 -5
mindspore/profiler/experimental_config.py +18 -2
mindspore/profiler/platform/cpu_profiler.py +10 -4
mindspore/profiler/platform/npu_profiler.py +34 -7
mindspore/profiler/profiler.py +193 -145
mindspore/profiler/profiler_action_controller.py +1 -1
mindspore/profiler/profiler_interface.py +2 -2
mindspore/rewrite/symbol_tree/symbol_tree.py +1 -1
mindspore/run_check/_check_version.py +108 -24
mindspore/runtime/__init__.py +9 -6
mindspore/runtime/executor.py +35 -0
mindspore/runtime/memory.py +113 -0
mindspore/runtime/thread_bind_core.py +1 -1
mindspore/swresample-4.dll +0 -0
mindspore/swscale-6.dll +0 -0
mindspore/tinyxml2.dll +0 -0
mindspore/{experimental/llm_boost → tools}/__init__.py +5 -5
mindspore/tools/data_dump.py +130 -0
mindspore/tools/sdc_detect.py +91 -0
mindspore/tools/stress_detect.py +63 -0
mindspore/train/__init__.py +6 -6
mindspore/train/_utils.py +8 -21
mindspore/train/amp.py +6 -7
mindspore/train/callback/_callback.py +2 -1
mindspore/train/callback/_checkpoint.py +1 -17
mindspore/train/callback/_flops_collector.py +10 -6
mindspore/train/callback/_train_fault_tolerance.py +72 -25
mindspore/train/data_sink.py +5 -9
mindspore/train/dataset_helper.py +5 -5
mindspore/train/model.py +41 -230
mindspore/train/serialization.py +160 -401
mindspore/train/train_thor/model_thor.py +2 -2
mindspore/turbojpeg.dll +0 -0
mindspore/utils/__init__.py +6 -3
mindspore/utils/dlpack.py +92 -0
mindspore/utils/dryrun.py +1 -1
mindspore/utils/runtime_execution_order_check.py +10 -0
mindspore/utils/sdc_detect.py +14 -12
mindspore/utils/stress_detect.py +43 -0
mindspore/utils/utils.py +152 -16
mindspore/version.py +1 -1
{mindspore-2.7.0rc1.dist-info → mindspore-2.7.1.dist-info}/METADATA +3 -2
{mindspore-2.7.0rc1.dist-info → mindspore-2.7.1.dist-info}/RECORD +330 -344
mindspore/_extends/remote/kernel_build_server_ascend.py +0 -75
mindspore/communication/_hccl_management.py +0 -297
mindspore/experimental/llm_boost/ascend_native/llama_boost_ascend_native.py +0 -207
mindspore/experimental/llm_boost/ascend_native/llm_boost.py +0 -52
mindspore/experimental/llm_boost/atb/__init__.py +0 -23
mindspore/experimental/llm_boost/atb/boost_base.py +0 -385
mindspore/experimental/llm_boost/atb/llama_boost.py +0 -137
mindspore/experimental/llm_boost/atb/qwen_boost.py +0 -124
mindspore/experimental/llm_boost/register.py +0 -130
mindspore/experimental/llm_boost/utils.py +0 -31
mindspore/include/OWNERS +0 -7
mindspore/mindspore_cpu_res_manager.dll +0 -0
mindspore/mindspore_ops_kernel_common.dll +0 -0
mindspore/mindspore_res_manager.dll +0 -0
mindspore/nn/optim/_dist_optimizer_registry.py +0 -111
mindspore/nn/reinforcement/_batch_read_write.py +0 -142
mindspore/nn/reinforcement/_tensors_queue.py +0 -152
mindspore/nn/reinforcement/tensor_array.py +0 -145
mindspore/opencv_core452.dll +0 -0
mindspore/opencv_imgcodecs452.dll +0 -0
mindspore/ops/_op_impl/aicpu/priority_replay_buffer.py +0 -113
mindspore/ops/_op_impl/aicpu/reservoir_replay_buffer.py +0 -96
mindspore/ops/_op_impl/aicpu/sparse_cross.py +0 -42
mindspore/ops/_op_impl/cpu/buffer_get.py +0 -28
mindspore/ops/_op_impl/cpu/buffer_sample.py +0 -28
mindspore/ops/_op_impl/cpu/priority_replay_buffer.py +0 -42
mindspore/ops/operations/_tensor_array.py +0 -359
mindspore/ops/operations/rl_ops.py +0 -288
mindspore/parallel/_offload_context.py +0 -275
mindspore/parallel/_recovery_context.py +0 -115
mindspore/parallel/_transformer/__init__.py +0 -35
mindspore/parallel/_transformer/layers.py +0 -765
mindspore/parallel/_transformer/loss.py +0 -251
mindspore/parallel/_transformer/moe.py +0 -693
mindspore/parallel/_transformer/op_parallel_config.py +0 -222
mindspore/parallel/_transformer/transformer.py +0 -3124
mindspore/parallel/mpi/_mpi_config.py +0 -116
mindspore/profiler/common/validator/validate_path.py +0 -84
mindspore/train/memory_profiling_pb2.py +0 -298
mindspore/utils/hooks.py +0 -81
/mindspore/common/{_auto_dynamic.py → dynamic_shape/_auto_dynamic.py} +0 -0
{mindspore-2.7.0rc1.dist-info → mindspore-2.7.1.dist-info}/WHEEL +0 -0
{mindspore-2.7.0rc1.dist-info → mindspore-2.7.1.dist-info}/entry_points.txt +0 -0
{mindspore-2.7.0rc1.dist-info → mindspore-2.7.1.dist-info}/top_level.txt +0 -0

mindspore/parallel/cluster/process_entity/_utils.py CHANGED Viewed

@@ -30,7 +30,7 @@ def _generate_cmd(cmd, cmd_args, output_name):
     """
     if cmd not in ['python', 'pytest', 'python3']:
-        # If user don't set binary file name, defaulty use 'python' to launch the job.
+        # If user don't set binary file name, defaultly use 'python' to launch the job.
         command = f"python {cmd} {' '.join(cmd_args)} > {output_name} 2>&1 &"
     else:
         command = f"{cmd} {' '.join(cmd_args)} > {output_name} 2>&1 &"
@@ -42,7 +42,7 @@ def _generate_cmd_args_list(cmd, cmd_args):
     Generates arguments list for 'Popen'. It consists of a binary file name and subsequential arguments.
     """
     if cmd not in ['python', 'pytest', 'python3']:
-        # If user don't set binary file name, defaulty use 'python' to launch the job.
+        # If user don't set binary file name, defaultly use 'python' to launch the job.
         return ['python'] + [cmd] + cmd_args
     return [cmd] + cmd_args
@@ -55,7 +55,7 @@ def _generate_cmd_args_list_with_core(cmd, cmd_args, affinity_cpu_str):
     taskset_args = ['taskset'] + ['-c'] + [affinity_cpu_str]
     final_cmd = []
     if cmd not in ['python', 'pytest', 'python3']:
-        # If user don't set binary file name, defaulty use 'python' to launch the job.
+        # If user don't set binary file name, defaultly use 'python' to launch the job.
         final_cmd = taskset_args + ['python'] + [cmd] + cmd_args
     else:
         final_cmd = taskset_args + [cmd] + cmd_args
@@ -143,8 +143,14 @@ def _parse_global_device_to_cpu_map(local_rank_id, physical_device_id, device_to
     Parse the global device_to_cpu_map and return a cpu list for assigned local_rank_id.
     """
+    if local_rank_id >= len(list(device_to_cpu_map.keys())):
+        logger.warning(f"Cannot find process[{local_rank_id}] in args '--bind_core'. "
+                       "Will not launch process with taskset.")
+        return ""
     input_device_id = int(list(device_to_cpu_map.keys())[local_rank_id].replace("device", ""))
     if physical_device_id != input_device_id:
+        logger.warning(f"Cannot find physical_device_id[{physical_device_id}] for process[{local_rank_id}] "
+                       "in args '--bind_core'. Will not launch process with taskset.")
         return ""
     affinity_cpu_list = list(device_to_cpu_map.values())[local_rank_id]
     affinity_cpu_str = ",".join(affinity_cpu_list)
@@ -212,8 +218,6 @@ def _generate_bind_core_strategy(local_rank_id, device_to_cpu_map, arg_bind_core
     if isinstance(arg_bind_core, dict):
         affinity_cpu_str = _parse_global_device_to_cpu_map(local_rank_id, physical_device_id, arg_bind_core)
         if not affinity_cpu_str:
-            logger.warning(f"Failed to find physical_device_id[{physical_device_id}] for "
-                           f"process[{local_rank_id}]. Will not launch process with taskset.")
             return None
     elif arg_bind_core is True:
         cpu_list_for_device = device_to_cpu_map.get(physical_device_id, [])

mindspore/parallel/cluster/run.py CHANGED Viewed

@@ -125,14 +125,16 @@ def get_args():
         default=-1,
         type=int,
         choices=[0, 1, 2, 3],
-        help="specifies simulation level. When this argument is set, msrun only spawns one process "
-             "but export RANK_SIZE with value worker_num and RANK_ID with value sim_rank_id."
+        help="specifies simulation level. This argument activates dryrun mode, functioning "
+             "equivalently to environment variable 'MS_SIMULATION_LEVEL' while having higher priority."
     )
     parser.add_argument(
         "--sim_rank_id",
         default=-1,
         type=int,
-        help="specifies simulation process's rank id. Only one process is spawned in simulation scenario."
+        help="specifies simulation process's rank id. When this argument is set, only one process "
+             "is spawned on dryrun mode, functioning equivalently to environment variable 'RANK_ID' "
+             "while having higher priority."
     )
     parser.add_argument(
         "--rank_table_file",

mindspore/{experimental/llm_boost/ascend_native → parallel/distributed}/__init__.py RENAMED Viewed

@@ -1,22 +1,21 @@
-# Copyright 2024 Huawei Technologies Co., Ltd
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-# ============================================================================
-"""
-Provide llm boost for inference, such as LlamaBoost.
-"""
-from __future__ import absolute_import
-from mindspore.experimental.llm_boost.ascend_native.llama_boost_ascend_native import LlamaBoostAscendNative
-__all__ = ['LlamaBoostAscendNative']
+# Copyright 2025 Huawei Technologies Co., Ltd
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ============================================================================
+"""distributed init"""
+from mindspore.parallel.distributed.distributed_data_parallel import DistributedDataParallel
+__all__ = [
+    "DistributedDataParallel",
+]

mindspore/parallel/distributed/distributed_data_parallel.py ADDED Viewed

@@ -0,0 +1,393 @@
+# Copyright 2025 Huawei Technologies Co., Ltd
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ============================================================================
+""" Distributed data parallel wrapper. """
+from __future__ import absolute_import
+__all__ = ["DistributedDataParallel"]
+import itertools
+from contextlib import contextmanager
+from typing import Optional
+import mindspore.nn as nn
+import mindspore.log as logger
+from mindspore import Tensor, mint
+from mindspore.common import dtype as mstype
+from mindspore.mint.distributed import get_world_size
+from mindspore.communication import GlobalComm
+from mindspore.common.api import _pynative_executor
+from mindspore.mint.distributed import broadcast, get_global_rank
+from mindspore.parallel.distributed.flatten_grad_buffer import FlattenGradBuffer
+from mindspore._c_expression import Reducer, _find_unused_parameters
+def get_data_parallel_group():
+    """get default global data parallel group"""
+    return GlobalComm.WORLD_COMM_GROUP
+def get_data_parallel_world_size(group):
+    """get group world size"""
+    return get_world_size(group)
+def _find_tensors(obj):
+    if isinstance(obj, Tensor):
+        return [obj]
+    if isinstance(obj, (list, tuple)):
+        return itertools.chain.from_iterable(map(_find_tensors, obj))
+    if isinstance(obj, dict):
+        return itertools.chain.from_iterable(map(_find_tensors, obj.values()))
+    return []
+class DistributedDataParallel(nn.Cell):
+    """
+    DistributedDataParallel wrapper. DistributedDataParallel allocates contiguous memory buffer for gradients.
+    Parameters' gradients will be combined into multiple buckets which are the unit to conduct all-reduce
+    communication among data parallel group to overlap communication latency.
+    .. warning::
+        - The method is currently only supported in PyNative mode.
+        - This is an experimental interface, may be changed or canceled in the future.
+    Args:
+        module (nn.Cell): the module to be wrapped with DDP.
+        init_sync (bool, optional): whether to sync params from rank0 of process_group when init. Default: ``True``.
+        process_group (str, optional): the comm group of data prallel. Default: ``None``.
+        bucket_cap_mb (int, optional): size of bucket in MB, default is 25MB if not set. Default: ``None``.
+        find_unused_parameters (bool, optional): whether to find unused params in the bucket. Default: ``False``.
+        average_in_collective (bool, optional): True means allreduce sum within DP group firstly then scaling with
+            dp size. Otherwise scaling local rank grad first and then allreduce sum. Default: ``False``.
+        static_graph (bool, optional): Indicate whether it is a static network. When it is a static network, the
+            parameter `find_unused_parameters` will be ignored, and unused parameters will be searched for in the
+            first step. Bucket reconstruction will be performed in execution order before the second step to achieve
+            better performance. Default: ``False``.
+        reducer_mode (str, optional): the backend to be used, could be "CppReducer" for cpp backend or "PythonReducer"
+            for Python backend. Default: ``"CppReducer"``.
+    Returns:
+        Model wrapped with DistributedDataParallel.
+    Supported Platforms:
+        ``Ascend``
+    Examples:
+        .. note::
+            - When enabling recomputation or gradient freezing, the model should be wrapped by
+              `DistributedDataParallel` at the outermost layer.
+            - Before running the following examples, you need to configure the communication environment variables.
+              For Ascend devices, it is recommended to use the msrun startup method
+              without any third-party or configuration file dependencies. For detailed information, refer to
+              `msrun launch <https://www.mindspore.cn/tutorials/en/master/parallel/msrun_launcher.html>`_ .
+        >>> from mindspore.parallel.distributed import DistributedDataParallel
+        >>> from mindspore.mint.optim import AdamW
+        >>> from mindspore import Parameter, Tensor, ops, nn
+        >>> import mindspore as ms
+        >>> from mindspore.communication import init
+        >>> from mindspore.mint.distributed.distributed import init_process_group
+        >>> ms.set_context(mode=ms.PYNATIVE_MODE)
+        >>> init_process_group()
+        >>> # Define the network structure of LeNet5. Refer to
+        >>> # https://gitee.com/mindspore/docs/blob/master/docs/mindspore/code/lenet.py
+        >>> net = LeNet5()
+        >>> net = DistributedDataParallel(module=net,
+        ...                              bucket_cap_mb=None,
+        ...                              average_in_collective=True,
+        ...                              static_graph=True)
+        >>> optimizer = AdamW(net.trainable_params(), 1e-4)
+        >>> loss_fn = nn.CrossEntropyLoss()
+        >>>
+        >>> def forward_fn(data, target):
+        ...     logits = net(data)
+        ...     loss = loss_fn(logits, target)
+        ...     return loss, logits
+        >>>
+        >>> grad_fn = ms.value_and_grad(forward_fn, None, net.trainable_params(), has_aux=True)
+        >>>
+        >>> # Create the dataset taking MNIST as an example. Refer to
+        >>> # https://gitee.com/mindspore/docs/blob/master/docs/mindspore/code/mnist.py
+        >>> dataset = create_dataset()
+        >>> for epoch in range(1):
+        ...     step = 0
+        ...     for image, label in dataset:
+        ...         (loss_value, _), grads = grad_fn(image, label)
+        ...         optimizer(grads)
+        ...         net.zero_grad()
+        ...         step += 1
+        ...         print("epoch: %s, step: %s, loss is %.15f" % (epoch, step, loss_value))
+    """
+    def __init__(self, module, init_sync=True, process_group=None, bucket_cap_mb: Optional[int] = None,
+                 find_unused_parameters=False, average_in_collective: bool = False, static_graph=False,
+                 reducer_mode="CppReducer"):
+        super(DistributedDataParallel, self).__init__(auto_prefix=False)
+        self.init_sync = init_sync
+        self.bucket_cap_mb = bucket_cap_mb
+        self.average_in_collective = average_in_collective
+        self.grad_reduce_in_fp32 = False
+        self.process_group = process_group if process_group else get_data_parallel_group()
+        self.static_graph = static_graph
+        self.find_unused_parameters = find_unused_parameters
+        self.module = module
+        self.param_to_buffer = {}
+        self.has_buckets_grad_sync = False
+        # default is 25MB for each buck
+        if bucket_cap_mb is None:
+            bucket_cap_mb = 25
+        self.bucket_bytes_cap = int(bucket_cap_mb * 1024 * 1024)
+        # grads sync with allreduce comm
+        self.sync_enabled = True
+        self.reducer_mode = reducer_mode # "CppReducer" or "PythonReducer"
+        self.buffers = []
+        self.has_mark_unused_param = False
+        bucketed_params = []
+        self.skipped_params = []
+        for _, param in self.module.parameters_and_names():
+            if not param.requires_grad:
+                self.skipped_params.append(param)
+                continue
+            param.grad = None
+            param.main_grad = None
+            bucketed_params.append(param)
+            if self.average_in_collective:
+                # allreduce to add grads, then to scale grads with dp size
+                self.gradient_scaling_factor = 1.0
+            else:
+                # scale grads with dp size locally, then allreduce to add grads
+                data_parallel_world_size = get_data_parallel_world_size(self.process_group)
+                self.gradient_scaling_factor = 1.0 / data_parallel_world_size
+        self.bucketed_params = bucketed_params
+        if self.reducer_mode == "CppReducer":
+            self.reducer = Reducer(self.bucketed_params,
+                                   self.process_group,
+                                   bucket_cap_mb,
+                                   self.grad_reduce_in_fp32,
+                                   average_in_collective,
+                                   static_graph,
+                                   find_unused_parameters)
+            if self.init_sync:
+                self.broadcast_coalesced()
+            return
+        # allocate buffer for trained params
+        self.buffers = self.allocate_buffers_for_parameters(
+            self.bucketed_params,
+            group=self.process_group,
+            gradient_scaling_factor=self.gradient_scaling_factor,
+        )
+        if self.init_sync:
+            self.broadcast_coalesced()
+        # register hook for bucket grad reduce
+        self._register_hook_for_params()
+        # bucket rebuilding
+        self.rebuilt_params_ = []
+        self.buffer_iterations = 0
+        self.has_bucket_rebuilt = False
+        self.buffer_issued = 0
+        self.triggered_once = False
+    def _group_params_by_dtype(self, input_params):
+        param_and_grad_dtype_to_params = {}
+        # group all params by parameter's data type and their gradient's data type.
+        for param in input_params:
+            param_dtype = param.dtype
+            grad_dtype = mstype.float32 if self.grad_reduce_in_fp32 else param.dtype
+            if (param_dtype, grad_dtype) not in param_and_grad_dtype_to_params:
+                param_and_grad_dtype_to_params[(param_dtype, grad_dtype)] = []
+            param_and_grad_dtype_to_params[(param_dtype, grad_dtype)].append(param)
+        return param_and_grad_dtype_to_params
+    def allocate_buffers_for_parameters(self, input_params, group, gradient_scaling_factor):
+        """allocate buffers for parameters in different dtype group."""
+        param_and_grad_dtype_to_params = self._group_params_by_dtype(input_params)
+        buffers = []
+        # allocate buffer for each group separately
+        for (param_dtype, grad_dtype,), params in param_and_grad_dtype_to_params.items():
+            buffers.append(
+                FlattenGradBuffer(
+                    average_in_collective=self.average_in_collective,
+                    param_dtype=param_dtype,
+                    grad_dtype=grad_dtype,
+                    params=params,
+                    data_parallel_group=group,
+                    bucket_size=self.bucket_bytes_cap,
+                    gradient_scaling_factor=gradient_scaling_factor,
+                    ddp_handle=self,
+                )
+            )
+            for param in params:
+                self.param_to_buffer[param] = buffers[-1]
+        logger.debug("allocate buffers for parameters: %s", buffers)
+        return buffers
+    def final_grad_reduce(self):
+        """trigger final grad reduction"""
+        logger.debug("trigger ddp final grad reduce, %d, %d", self.static_graph, len(self.unused_param))
+        if self._should_rebuild_buckets():
+            for param in self.unused_param:
+                self.rebuilt_params_.append(param)
+        for buffer in self.buffers:
+            buffer.final_grad_reduce()
+            buffer.issued = 0
+        self.buffer_issued = 0
+    def _register_hook_for_params(self):
+        """register backward hook for each params."""
+        for param in self.module.get_parameters():
+            if param.requires_grad:
+                param.register_hook(self._make_param_hook(param))
+    def _post_forward(self, output):
+        """prepare for backward (e.g. find unused params) if needed"""
+        if self.reducer_mode == "CppReducer":
+            if _pynative_executor.grad_flag() and self.sync_enabled:
+                self.reducer.prepare_for_backward(list(_find_tensors(output)))
+        else:
+            unused_param_idx = []
+            if self.static_graph and not self.triggered_once:
+                self.triggered_once = True
+                self.find_unused_parameters = False
+                unused_param_idx = _find_unused_parameters(list(_find_tensors(output)), self.bucketed_params)
+            elif self.find_unused_parameters:
+                unused_param_idx = _find_unused_parameters(list(_find_tensors(output)), self.bucketed_params)
+            self.unused_param = [self.bucketed_params[idx] for idx in unused_param_idx]
+            self.unused_param_name = [param.name for param in self.unused_param]
+            self.has_mark_unused_param = False
+    def _pre_forward(self):
+        """pre-process of forward pass to allocate buffer for parameters."""
+        if self.reducer_mode == "CppReducer":
+            if _pynative_executor.grad_flag() and self.sync_enabled:
+                self.reducer.prepare_for_forward()
+                self.reducer.rebuild_buckets()
+            return
+        if self.rebuilt_params_ and self._should_rebuild_buckets():
+            for i in self.rebuilt_params_:
+                i.old_grad = i.grad
+            self.buffers = self.allocate_buffers_for_parameters(
+                self.rebuilt_params_,
+                group=self.process_group,
+                gradient_scaling_factor=self.gradient_scaling_factor,
+            )
+            for buffer in self.buffers:
+                buffer.sync_enabled = self.sync_enabled
+            for i in self.rebuilt_params_:
+                i.grad.copy_(i.old_grad)
+                i.old_grad = None
+            logger.debug("register unused param: %s", self.rebuilt_params_)
+            self.has_bucket_rebuilt = True
+            self.rebuilt_params_ = []
+    def construct(self, *inputs, **inputs_dict):
+        """construct for DistributedDataParallel."""
+        self._pre_forward()
+        output = self.module(*inputs, **inputs_dict)
+        self._post_forward(output)
+        return output
+    def zero_grad(self):
+        """DPP will accumulate grads automatically, it will zero grads when call zero_grad() manually."""
+        if self.reducer_mode == "CppReducer":
+            self.reducer.zero_grad()
+        else:
+            for buffer in self.buffers:
+                buffer.reset()
+    def _enable_sync(self, enable):
+        """enable grad buffer sync or not."""
+        for buffer in self.buffers:
+            buffer.sync_enabled = enable
+        self.sync_enabled = enable
+    @contextmanager
+    def no_sync(self):
+        """Context manager helper function. When enabled, no grad allreduce synchronization will be executed."""
+        self._enable_sync(False)
+        try:
+            yield
+        finally:
+            self._enable_sync(True)
+    def _should_rebuild_buckets(self):
+        if self.static_graph and not self.has_bucket_rebuilt:
+            return True
+        return False
+    def _make_param_hook(self, param):
+        """make closure function as the param hook."""
+        def param_hook(grad):
+            if not self.has_mark_unused_param:
+                for cur_param in self.unused_param:
+                    buffer = self.param_to_buffer[cur_param]
+                    logger.debug("register unused param: %s", cur_param)
+                    buffer.register_grad_ready(cur_param)
+                self.has_mark_unused_param = True
+            elif param.name in self.unused_param_name:
+                logger.debug("unused param already registered: %s", param)
+                return param.grad
+            logger.debug("register normal param: %s", param)
+            buffer = self.param_to_buffer[param]
+            param.grad.add_(grad)
+            buffer.register_grad_ready(param)
+            if self._should_rebuild_buckets():
+                self.rebuilt_params_.append(param)
+            return param.grad
+        return param_hook
+    def broadcast_coalesced(self):
+        """broadcast params from rank 0"""
+        if self.reducer_mode == "CppReducer":
+            buckets = [[self.bucketed_params[idx] for idx in bucket] for bucket in self.reducer.bucket_indices]
+        else:
+            buckets = [bucket.params_list for buffer in self.buffers for bucket in buffer.buckets]
+        if self.skipped_params:
+            param_and_grad_dtype_to_params = self._group_params_by_dtype(self.skipped_params)
+            for params_list in param_and_grad_dtype_to_params.values():
+                buckets.append(params_list)
+        def finish(rate_limiter):
+            for _ in rate_limiter:
+                handle, coalesced, params = rate_limiter.pop(0)
+                handle.wait()
+                ptr = 0
+                for param in params:
+                    param.view(-1).copy_(coalesced[ptr:ptr + param.numel()])
+                    ptr += param.numel()
+        rate_limiter = []
+        for params in buckets:
+            flat_tensors = [t.view(-1) for t in params]
+            coalesced = mint.cat(flat_tensors)
+            global_rank = get_global_rank(self.process_group, 0)
+            handle = broadcast(coalesced, src=global_rank, group=self.process_group, async_op=True)
+            rate_limiter.append((handle, coalesced, params))
+            if len(rate_limiter) >= 2:
+                finish(rate_limiter)
+        finish(rate_limiter)