PyPI - mindspore - Versions diffs - 2.4.1__cp311-cp311-win_amd64.whl → 2.5.0__cp311-cp311-win_amd64.whl - Mend

mindspore 2.4.1__cp311-cp311-win_amd64.whl → 2.5.0__cp311-cp311-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mindspore might be problematic. Click here for more details.

Files changed (395) hide show

mindspore/.commit_id +1 -1
mindspore/Microsoft.VisualStudio.Telemetry.dll +0 -0
mindspore/Newtonsoft.Json.dll +0 -0
mindspore/__init__.py +8 -3
mindspore/_c_dataengine.cp311-win_amd64.pyd +0 -0
mindspore/_c_expression.cp311-win_amd64.pyd +0 -0
mindspore/_c_mindrecord.cp311-win_amd64.pyd +0 -0
mindspore/_checkparam.py +0 -5
mindspore/_extends/parallel_compile/akg_compiler/gen_custom_op_files.py +1 -1
mindspore/_extends/parse/compile_config.py +64 -0
mindspore/_extends/parse/deprecated/__init__.py +0 -0
mindspore/_extends/parse/deprecated/deprecated_tensor_method.py +375 -0
mindspore/_extends/parse/parser.py +23 -5
mindspore/_extends/parse/standard_method.py +123 -27
mindspore/_extends/pijit/pijit_func_white_list.py +1 -1
mindspore/amp.py +7 -1
mindspore/atlprov.dll +0 -0
mindspore/avcodec-59.dll +0 -0
mindspore/avdevice-59.dll +0 -0
mindspore/avfilter-8.dll +0 -0
mindspore/avformat-59.dll +0 -0
mindspore/avutil-57.dll +0 -0
mindspore/boost/boost_cell_wrapper.py +136 -41
mindspore/c1.dll +0 -0
mindspore/c1xx.dll +0 -0
mindspore/c2.dll +0 -0
mindspore/common/__init__.py +3 -1
mindspore/common/_register_for_tensor.py +0 -1
mindspore/common/_stub_tensor.py +25 -4
mindspore/common/_tensor_cpp_method.py +17 -0
mindspore/common/_tensor_docs.py +6132 -0
mindspore/common/api.py +99 -25
mindspore/common/dtype.py +34 -34
mindspore/common/dump.py +2 -1
mindspore/common/file_system.py +8 -1
mindspore/common/generator.py +2 -0
mindspore/common/hook_handle.py +3 -1
mindspore/common/initializer.py +3 -4
mindspore/common/lazy_inline.py +8 -2
mindspore/common/mindir_util.py +10 -2
mindspore/common/parameter.py +30 -27
mindspore/common/tensor.py +713 -1337
mindspore/communication/__init__.py +1 -1
mindspore/communication/_comm_helper.py +10 -0
mindspore/communication/comm_func.py +215 -173
mindspore/communication/management.py +23 -20
mindspore/context.py +292 -193
mindspore/dataset/__init__.py +23 -19
mindspore/dataset/callback/ds_callback.py +2 -1
mindspore/dataset/core/config.py +84 -3
mindspore/dataset/engine/cache_admin.py +3 -3
mindspore/dataset/engine/cache_client.py +5 -4
mindspore/dataset/engine/datasets.py +192 -149
mindspore/dataset/engine/datasets_audio.py +14 -0
mindspore/dataset/engine/datasets_standard_format.py +28 -11
mindspore/dataset/engine/datasets_text.py +38 -1
mindspore/dataset/engine/datasets_user_defined.py +125 -65
mindspore/dataset/engine/datasets_vision.py +81 -8
mindspore/dataset/engine/iterators.py +281 -63
mindspore/dataset/engine/obs/util.py +8 -0
mindspore/dataset/engine/queue.py +40 -0
mindspore/dataset/engine/samplers.py +26 -2
mindspore/dataset/engine/serializer_deserializer.py +1 -1
mindspore/dataset/engine/validators.py +43 -11
mindspore/dataset/transforms/py_transforms_util.py +17 -0
mindspore/dataset/transforms/transforms.py +29 -12
mindspore/dataset/vision/validators.py +1 -2
mindspore/device_context/__init__.py +21 -0
mindspore/device_context/ascend/__init__.py +25 -0
mindspore/device_context/ascend/device.py +72 -0
mindspore/device_context/ascend/op_debug.py +94 -0
mindspore/device_context/ascend/op_precision.py +193 -0
mindspore/device_context/ascend/op_tuning.py +127 -0
mindspore/device_context/cpu/__init__.py +25 -0
mindspore/device_context/cpu/device.py +62 -0
mindspore/device_context/cpu/op_tuning.py +43 -0
mindspore/device_context/gpu/__init__.py +21 -0
mindspore/device_context/gpu/device.py +70 -0
mindspore/device_context/gpu/op_precision.py +67 -0
mindspore/device_context/gpu/op_tuning.py +175 -0
mindspore/device_manager.py +134 -0
mindspore/dnnl.dll +0 -0
mindspore/dpcmi.dll +0 -0
mindspore/experimental/llm_boost/__init__.py +3 -2
mindspore/experimental/llm_boost/ascend_native/__init__.py +22 -0
mindspore/experimental/llm_boost/ascend_native/llama_boost_ascend_native.py +211 -0
mindspore/experimental/llm_boost/ascend_native/llm_boost.py +52 -0
mindspore/experimental/llm_boost/atb/boost_base.py +239 -64
mindspore/experimental/llm_boost/atb/llama_boost.py +52 -30
mindspore/experimental/llm_boost/atb/qwen_boost.py +47 -24
mindspore/experimental/llm_boost/register.py +1 -0
mindspore/experimental/optim/adadelta.py +26 -22
mindspore/experimental/optim/adam.py +3 -0
mindspore/experimental/optim/lr_scheduler.py +33 -24
mindspore/experimental/optim/radam.py +33 -30
mindspore/hal/device.py +28 -0
mindspore/hal/event.py +17 -0
mindspore/hal/memory.py +94 -3
mindspore/hal/stream.py +91 -6
mindspore/include/api/context.h +1 -2
mindspore/include/dataset/constants.h +2 -2
mindspore/jpeg62.dll +0 -0
mindspore/log.py +12 -0
mindspore/mindrecord/__init__.py +1 -1
mindspore/mindrecord/config.py +17 -316
mindspore/mindrecord/filereader.py +1 -9
mindspore/mindrecord/filewriter.py +5 -15
mindspore/mindrecord/mindpage.py +1 -9
mindspore/mindspore_backend.dll +0 -0
mindspore/mindspore_common.dll +0 -0
mindspore/mindspore_core.dll +0 -0
mindspore/mindspore_glog.dll +0 -0
mindspore/mindspore_ops.dll +0 -0
mindspore/mint/__init__.py +824 -218
mindspore/mint/distributed/__init__.py +66 -4
mindspore/mint/distributed/distributed.py +2594 -44
mindspore/mint/linalg/__init__.py +6 -0
mindspore/mint/nn/__init__.py +473 -14
mindspore/mint/nn/functional.py +486 -11
mindspore/mint/nn/layer/__init__.py +17 -4
mindspore/mint/nn/layer/_functions.py +330 -0
mindspore/mint/nn/layer/activation.py +169 -1
mindspore/mint/nn/layer/basic.py +123 -0
mindspore/mint/nn/layer/conv.py +727 -0
mindspore/mint/nn/layer/normalization.py +215 -19
mindspore/mint/nn/layer/padding.py +797 -0
mindspore/mint/nn/layer/pooling.py +170 -0
mindspore/mint/optim/__init__.py +2 -1
mindspore/mint/optim/adam.py +223 -0
mindspore/mint/optim/adamw.py +26 -19
mindspore/mint/special/__init__.py +2 -1
mindspore/msobj140.dll +0 -0
mindspore/mspdb140.dll +0 -0
mindspore/mspdbcore.dll +0 -0
mindspore/mspdbst.dll +0 -0
mindspore/mspft140.dll +0 -0
mindspore/msvcdis140.dll +0 -0
mindspore/msvcp140_1.dll +0 -0
mindspore/msvcp140_2.dll +0 -0
mindspore/msvcp140_atomic_wait.dll +0 -0
mindspore/msvcp140_codecvt_ids.dll +0 -0
mindspore/multiprocessing/__init__.py +5 -0
mindspore/nn/__init__.py +2 -0
mindspore/nn/cell.py +142 -21
mindspore/nn/dynamic_lr.py +2 -1
mindspore/nn/layer/activation.py +6 -6
mindspore/nn/layer/basic.py +35 -25
mindspore/nn/layer/channel_shuffle.py +3 -3
mindspore/nn/layer/conv.py +3 -0
mindspore/nn/layer/embedding.py +3 -3
mindspore/nn/layer/normalization.py +8 -7
mindspore/nn/layer/padding.py +4 -3
mindspore/nn/layer/pooling.py +55 -23
mindspore/nn/layer/rnn_cells.py +1 -1
mindspore/nn/layer/rnns.py +2 -1
mindspore/nn/layer/timedistributed.py +5 -5
mindspore/nn/layer/transformer.py +48 -26
mindspore/nn/learning_rate_schedule.py +5 -3
mindspore/nn/loss/loss.py +31 -36
mindspore/nn/optim/ada_grad.py +1 -0
mindspore/nn/optim/adadelta.py +2 -2
mindspore/nn/optim/adam.py +1 -1
mindspore/nn/optim/lars.py +1 -4
mindspore/nn/optim/optimizer.py +1 -1
mindspore/nn/optim/rprop.py +2 -2
mindspore/nn/optim/thor.py +2 -1
mindspore/nn/utils/__init__.py +22 -0
mindspore/nn/utils/init.py +73 -0
mindspore/nn/wrap/cell_wrapper.py +4 -6
mindspore/nn/wrap/loss_scale.py +3 -4
mindspore/numpy/array_creations.py +60 -62
mindspore/numpy/array_ops.py +148 -143
mindspore/numpy/logic_ops.py +41 -42
mindspore/numpy/math_ops.py +361 -359
mindspore/numpy/utils.py +16 -16
mindspore/numpy/utils_const.py +4 -4
mindspore/opencv_core452.dll +0 -0
mindspore/opencv_imgcodecs452.dll +0 -0
mindspore/opencv_imgproc452.dll +0 -0
mindspore/ops/__init__.py +2 -1
mindspore/ops/_grad_experimental/grad_comm_ops.py +107 -8
mindspore/ops/_grad_experimental/grad_debug_ops.py +6 -1
mindspore/ops/_grad_experimental/grad_inner_ops.py +9 -0
mindspore/ops/_grad_experimental/grad_math_ops.py +2 -1
mindspore/ops/_op_impl/cpu/__init__.py +1 -0
mindspore/ops/_op_impl/cpu/raise_op.py +28 -0
mindspore/ops/_vmap/vmap_array_ops.py +20 -19
mindspore/ops/_vmap/vmap_base.py +0 -2
mindspore/ops/_vmap/vmap_grad_nn_ops.py +19 -13
mindspore/ops/_vmap/vmap_math_ops.py +11 -9
mindspore/ops/_vmap/vmap_nn_ops.py +20 -34
mindspore/ops/auto_generate/cpp_create_prim_instance_helper.py +149 -12
mindspore/ops/auto_generate/gen_arg_handler.py +0 -61
mindspore/ops/auto_generate/gen_extend_func.py +554 -60
mindspore/ops/auto_generate/gen_ops_def.py +1621 -115
mindspore/ops/auto_generate/gen_ops_prim.py +8027 -3411
mindspore/ops/auto_generate/pyboost_inner_prim.py +183 -79
mindspore/ops/composite/base.py +1 -1
mindspore/ops/composite/multitype_ops/_compile_utils.py +229 -30
mindspore/ops/composite/multitype_ops/pow_impl.py +0 -29
mindspore/ops/function/__init__.py +12 -0
mindspore/ops/function/array_func.py +561 -159
mindspore/ops/function/clip_func.py +64 -0
mindspore/ops/function/debug_func.py +28 -20
mindspore/ops/function/image_func.py +1 -1
mindspore/ops/function/linalg_func.py +5 -4
mindspore/ops/function/math_func.py +1664 -294
mindspore/ops/function/nn_func.py +988 -317
mindspore/ops/function/parameter_func.py +3 -56
mindspore/ops/function/random_func.py +243 -33
mindspore/ops/function/sparse_unary_func.py +1 -1
mindspore/ops/functional.py +18 -5
mindspore/ops/functional_overload.py +897 -0
mindspore/ops/operations/__init__.py +3 -2
mindspore/ops/operations/_embedding_cache_ops.py +4 -4
mindspore/ops/operations/_grad_ops.py +2 -34
mindspore/ops/operations/_infer_ops.py +2 -1
mindspore/ops/operations/_inner_ops.py +38 -8
mindspore/ops/operations/array_ops.py +45 -303
mindspore/ops/operations/comm_ops.py +23 -17
mindspore/ops/operations/custom_ops.py +7 -49
mindspore/ops/operations/debug_ops.py +42 -47
mindspore/ops/operations/inner_ops.py +6 -4
mindspore/ops/operations/linalg_ops.py +3 -2
mindspore/ops/operations/manually_defined/ops_def.py +185 -104
mindspore/ops/operations/math_ops.py +11 -216
mindspore/ops/operations/nn_ops.py +153 -310
mindspore/ops/primitive.py +23 -21
mindspore/ops/tensor_method.py +1669 -0
mindspore/ops_generate/aclnn_kernel_register_auto_cc_generator.py +110 -0
mindspore/ops_generate/add_tensor_docs_generator.py +54 -0
mindspore/ops_generate/arg_handler.py +0 -61
mindspore/ops_generate/auto_grad_impl_cc_generator.py +135 -0
mindspore/ops_generate/auto_grad_reg_cc_generator.py +93 -0
mindspore/ops_generate/base_generator.py +11 -0
mindspore/ops_generate/cpp_create_prim_instance_helper_generator.py +108 -0
mindspore/ops_generate/functional_map_cpp_generator.py +491 -0
mindspore/ops_generate/functional_overload_py_generator.py +110 -0
mindspore/ops_generate/functions_cc_generator.py +233 -0
mindspore/ops_generate/gen_aclnn_implement.py +110 -114
mindspore/ops_generate/gen_constants.py +157 -3
mindspore/ops_generate/gen_ops.py +245 -990
mindspore/ops_generate/gen_pyboost_func.py +97 -998
mindspore/ops_generate/gen_utils.py +119 -33
mindspore/ops_generate/lite_ops_cpp_generator.py +155 -0
mindspore/ops_generate/op_api_proto.py +206 -0
mindspore/ops_generate/op_def_py_generator.py +131 -0
mindspore/ops_generate/op_prim_py_generator.py +480 -0
mindspore/ops_generate/op_proto.py +373 -108
mindspore/ops_generate/op_template_parser.py +436 -0
mindspore/ops_generate/ops_def_cc_generator.py +288 -0
mindspore/ops_generate/ops_def_h_generator.py +74 -0
mindspore/ops_generate/ops_name_h_generator.py +68 -0
mindspore/ops_generate/ops_primitive_h_generator.py +81 -0
mindspore/ops_generate/pyboost_functions_cpp_generator.py +370 -0
mindspore/ops_generate/pyboost_functions_h_generator.py +68 -0
mindspore/ops_generate/pyboost_functions_py_generator.py +148 -0
mindspore/ops_generate/pyboost_grad_function_cpp_generator.py +154 -0
mindspore/ops_generate/pyboost_inner_prim_generator.py +131 -0
mindspore/ops_generate/pyboost_native_grad_functions_generator.py +268 -0
mindspore/ops_generate/pyboost_op_cpp_code_generator.py +851 -0
mindspore/ops_generate/pyboost_overload_functions_cpp_generator.py +344 -0
mindspore/ops_generate/pyboost_utils.py +92 -33
mindspore/ops_generate/template.py +294 -44
mindspore/ops_generate/tensor_func_reg_cpp_generator.py +422 -0
mindspore/parallel/__init__.py +3 -3
mindspore/parallel/_auto_parallel_context.py +44 -34
mindspore/parallel/_cell_wrapper.py +22 -3
mindspore/parallel/_parallel_serialization.py +13 -2
mindspore/parallel/_utils.py +4 -2
mindspore/parallel/algo_parameter_config.py +1 -1
mindspore/parallel/checkpoint_transform.py +44 -0
mindspore/parallel/cluster/process_entity/_api.py +131 -37
mindspore/parallel/cluster/process_entity/_utils.py +41 -6
mindspore/parallel/cluster/run.py +20 -3
mindspore/parallel/parameter_broadcast.py +1 -1
mindspore/parallel/shard.py +3 -0
mindspore/parallel/transform_safetensors.py +119 -253
mindspore/pgodb140.dll +0 -0
mindspore/pgort140.dll +0 -0
mindspore/profiler/__init__.py +17 -4
mindspore/profiler/analysis/__init__.py +0 -0
mindspore/profiler/analysis/parser/__init__.py +0 -0
mindspore/profiler/analysis/parser/ascend_cann_parser.py +166 -0
mindspore/profiler/analysis/parser/base_parser.py +158 -0
mindspore/profiler/analysis/parser/framework_cann_relation_parser.py +45 -0
mindspore/profiler/analysis/parser/ms_framework_parser.py +142 -0
mindspore/profiler/analysis/parser/ms_minddata_parser.py +145 -0
mindspore/profiler/analysis/parser/timeline_assembly_factory/__init__.py +0 -0
mindspore/profiler/analysis/parser/timeline_assembly_factory/ascend_timeline_assembler.py +261 -0
mindspore/profiler/analysis/parser/timeline_assembly_factory/base_timeline_assembler.py +40 -0
mindspore/profiler/analysis/parser/timeline_assembly_factory/trace_view_container.py +84 -0
mindspore/profiler/analysis/parser/timeline_creator/__init__.py +0 -0
mindspore/profiler/analysis/parser/timeline_creator/base_timeline_creator.py +44 -0
mindspore/profiler/analysis/parser/timeline_creator/cpu_op_timeline_creator.py +90 -0
mindspore/profiler/analysis/parser/timeline_creator/fwk_timeline_creator.py +76 -0
mindspore/profiler/analysis/parser/timeline_creator/msprof_timeline_creator.py +103 -0
mindspore/profiler/analysis/parser/timeline_creator/scope_layer_timeline_creator.py +134 -0
mindspore/profiler/analysis/parser/timeline_event/__init__.py +0 -0
mindspore/profiler/analysis/parser/timeline_event/base_event.py +233 -0
mindspore/profiler/analysis/parser/timeline_event/cpu_op_event.py +47 -0
mindspore/profiler/analysis/parser/timeline_event/flow_event.py +36 -0
mindspore/profiler/analysis/parser/timeline_event/fwk_event.py +260 -0
mindspore/profiler/analysis/parser/timeline_event/msprof_event.py +73 -0
mindspore/profiler/analysis/parser/timeline_event/scope_layer_event.py +53 -0
mindspore/profiler/analysis/parser/timeline_event/timeline_event_pool.py +146 -0
mindspore/profiler/analysis/task_manager.py +131 -0
mindspore/profiler/analysis/time_converter.py +84 -0
mindspore/profiler/analysis/viewer/__init__.py +0 -0
mindspore/profiler/analysis/viewer/ascend_communication_viewer.py +333 -0
mindspore/profiler/analysis/viewer/ascend_integrate_viewer.py +87 -0
mindspore/profiler/analysis/viewer/ascend_kernel_details_viewer.py +252 -0
mindspore/profiler/analysis/viewer/ascend_memory_viewer.py +313 -0
mindspore/profiler/analysis/viewer/ascend_op_memory_viewer.py +322 -0
mindspore/profiler/analysis/viewer/ascend_step_trace_time_viewer.py +265 -0
mindspore/profiler/analysis/viewer/ascend_timeline_viewer.py +58 -0
mindspore/profiler/analysis/viewer/base_viewer.py +26 -0
mindspore/profiler/analysis/viewer/ms_dataset_viewer.py +97 -0
mindspore/profiler/analysis/viewer/ms_minddata_viewer.py +581 -0
mindspore/profiler/analysis/work_flow.py +73 -0
mindspore/profiler/common/ascend_msprof_exporter.py +138 -0
mindspore/profiler/common/command_executor.py +90 -0
mindspore/profiler/common/constant.py +174 -3
mindspore/profiler/common/file_manager.py +208 -0
mindspore/profiler/common/log.py +130 -0
mindspore/profiler/common/msprof_cmd_tool.py +202 -0
mindspore/profiler/common/path_manager.py +371 -0
mindspore/profiler/common/process_bar.py +168 -0
mindspore/profiler/common/process_pool.py +9 -3
mindspore/profiler/common/profiler_context.py +476 -0
mindspore/profiler/common/profiler_info.py +304 -0
mindspore/profiler/common/profiler_output_path.py +284 -0
mindspore/profiler/common/profiler_parameters.py +210 -0
mindspore/profiler/common/profiler_path_manager.py +120 -0
mindspore/profiler/common/record_function.py +76 -0
mindspore/profiler/common/tlv_decoder.py +76 -0
mindspore/profiler/common/util.py +75 -2
mindspore/profiler/dynamic_profiler.py +270 -37
mindspore/profiler/envprofiler.py +138 -0
mindspore/profiler/mstx.py +199 -0
mindspore/profiler/platform/__init__.py +21 -0
mindspore/profiler/platform/base_profiler.py +40 -0
mindspore/profiler/platform/cpu_profiler.py +124 -0
mindspore/profiler/platform/gpu_profiler.py +74 -0
mindspore/profiler/platform/npu_profiler.py +309 -0
mindspore/profiler/profiler.py +580 -93
mindspore/profiler/profiler_action_controller.py +187 -0
mindspore/profiler/profiler_interface.py +114 -0
mindspore/profiler/schedule.py +208 -0
mindspore/rewrite/api/symbol_tree.py +1 -2
mindspore/run_check/_check_version.py +18 -13
mindspore/runtime/__init__.py +37 -0
mindspore/runtime/device.py +27 -0
mindspore/runtime/event.py +209 -0
mindspore/runtime/executor.py +148 -0
mindspore/runtime/memory.py +392 -0
mindspore/runtime/stream.py +460 -0
mindspore/runtime/thread_bind_core.py +401 -0
mindspore/swresample-4.dll +0 -0
mindspore/swscale-6.dll +0 -0
mindspore/tbbmalloc.dll +0 -0
mindspore/tinyxml2.dll +0 -0
mindspore/train/__init__.py +2 -2
mindspore/train/_utils.py +53 -18
mindspore/train/amp.py +8 -4
mindspore/train/callback/_checkpoint.py +32 -18
mindspore/train/callback/_early_stop.py +1 -1
mindspore/train/callback/_flops_collector.py +105 -69
mindspore/train/callback/_history.py +1 -1
mindspore/train/callback/_summary_collector.py +44 -6
mindspore/train/callback/_tft_register.py +37 -15
mindspore/train/dataset_helper.py +11 -11
mindspore/train/metrics/precision.py +4 -5
mindspore/train/mind_ir_pb2.py +167 -46
mindspore/train/model.py +13 -14
mindspore/train/serialization.py +461 -72
mindspore/train/summary/summary_record.py +1 -2
mindspore/train/train_thor/model_thor.py +1 -1
mindspore/turbojpeg.dll +0 -0
mindspore/utils/__init__.py +4 -2
mindspore/utils/dryrun.py +138 -0
mindspore/utils/runtime_execution_order_check.py +550 -0
mindspore/vcmeta.dll +0 -0
mindspore/vcruntime140.dll +0 -0
mindspore/vcruntime140_1.dll +0 -0
mindspore/version.py +1 -1
{mindspore-2.4.1.dist-info → mindspore-2.5.0.dist-info}/METADATA +3 -4
{mindspore-2.4.1.dist-info → mindspore-2.5.0.dist-info}/RECORD +391 -265
{mindspore-2.4.1.dist-info → mindspore-2.5.0.dist-info}/entry_points.txt +1 -1
mindspore/common/_tensor_overload.py +0 -139
mindspore/mindspore_np_dtype.dll +0 -0
mindspore/profiler/envprofiling.py +0 -254
mindspore/profiler/profiling.py +0 -1926
{mindspore-2.4.1.dist-info → mindspore-2.5.0.dist-info}/WHEEL +0 -0
{mindspore-2.4.1.dist-info → mindspore-2.5.0.dist-info}/top_level.txt +0 -0

mindspore/parallel/algo_parameter_config.py CHANGED Viewed

@@ -370,7 +370,7 @@ def get_algo_parameters(attr_key):
     Examples:
         >>> import mindspore as ms
         >>> ms.get_algo_parameters("fully_use_devices")
-        True
+        False
     """
     if attr_key not in get_algo_parameters_config_func_map:
         raise ValueError("Get context keyword %s is not recognized!" % attr_key)

mindspore/parallel/checkpoint_transform.py CHANGED Viewed

@@ -28,6 +28,7 @@ from mindspore.parallel._parallel_serialization import _rank_list_for_transform_
     _extract_layout_map, _extract_src_dst_layout_map, _parameter_not_in_local_stage, _extract_pipeline_stage_num, \
     _merge_protobuf_strategy, _merge_json_strategy, _extract_src_dst_layout_map_by_src
 from mindspore.parallel.transform_safetensors import _transform_safetensors, _collect_safetensor_files
+from mindspore._c_expression import AutoParallelContext
 __all__ = ["merge_pipeline_strategys", "rank_list_for_transform", "transform_checkpoint_by_rank",
            "transform_checkpoints", "sync_pipeline_shared_parameters", "load_segmented_checkpoints"]
@@ -648,3 +649,46 @@ def load_segmented_checkpoints(ckpt_file_dir, net=None, strict_load=False, filte
         parameter_dict.update(ms.load_checkpoint(checkpoint_file, net, strict_load, filter_prefix, dec_key,
                                                  dec_mode, specify_prefix, choice_func))
     return parameter_dict
+def set_op_strategy_config(mode="SAVE", path=""):
+    """
+    Set strategy json configuration when using sharding propagation.
+    .. warning::
+        This is an experimental interface, may be changed or canceled in the future;
+        This interface currently doesn't support saving or loading strategies using layout.
+    Note:
+        - It only works when `parallel_mode=ParallelMode.AUTO_PARALLEL` and `search_mode='sharding_propagation'`.
+        - It only supports saving and reloading with the same configuration for the same network. If the network
+          or training hyperparameters are modified after using the `SAVE` mode to save the strategies of operator
+          to the setting json file, which may lead to the failure of using the `LOAD` mode to load operator
+          strategies from json.
+        - When performing distributed training, users can first save the strategy using dryrun on a single device
+          and then load strategy to perform distributed training.
+    Args:
+        mode (str): The parameter for choosing save or load .json file. Default value: ``"SAVE"`` .
+        path (str): Path to save or load parallel strategy json, must be an absolute path. Default value: ``""`` .
+    Raises:
+        KeyError: When type is not ``"SAVE"`` or ``"LOAD"`` .
+        KeyError: When path does not end in ``".json"`` .
+        KeyError: When path is not an absolute path.
+    """
+    if not os.path.isabs(path):
+        raise KeyError("File path must be an absolute path")
+    _, file_type = os.path.splitext(path)
+    if file_type != ".json":
+        raise KeyError("File type must be .json")
+    dir_path = os.path.dirname(path)
+    if dir_path and not os.path.exists(dir_path):
+        os.makedirs(dir_path, mode=0o700, exist_ok=True)
+    check_mode_type = ["SAVE", "LOAD"]
+    if mode in check_mode_type:
+        if AutoParallelContext.get_instance() is None:
+            raise ValueError("Get AutoParallelContext instance failed!!!")
+        AutoParallelContext.get_instance().set_ops_strategy_json_config(mode, path, "all")
+    else:
+        raise KeyError("Type must be 'SAVE' or 'LOAD'")

mindspore/parallel/cluster/process_entity/_api.py CHANGED Viewed

@@ -16,23 +16,30 @@
 import os
 import re
 import sys
+import signal
 import subprocess
+import socket
 import mindspore.log as logger
 from ._utils import _generate_cmd_args_list, _generate_cmd_args_list_with_core, _generate_url,\
-                    _is_local_ip, _send_scale_num
+                    _is_local_ip, _convert_addr_to_ip, _send_scale_num, _get_local_ip
 class _Node:
     """
     Base class for dynamic networking nodes.
     """
-    def __init__(self, worker_num, sched_host, sched_port, timeout, args_list, output_file):
+    def __init__(self, worker_num, sched_host, sched_port, timeout, args_list, output_file, tail_worker_log,
+                 join, is_simulation):
         self.worker_num = worker_num
         self.sched_host = sched_host
         self.sched_port = sched_port
         self.args_list = args_list
         self.output_file = output_file
         self.timeout = timeout
+        self.tail_worker_log = tail_worker_log
+        self.join = join
+        self.is_simulation = is_simulation
     def run(self):
         """
@@ -40,9 +47,11 @@ class _Node:
         """
         os.environ["MS_WORKER_NUM"] = str(self.worker_num)
-        os.environ["MS_SCHED_HOST"] = self.sched_host
-        os.environ["MS_SCHED_PORT"] = str(self.sched_port)
-        os.environ["MS_TOPO_TIMEOUT"] = str(self.timeout)
+        # If simulation level is set, environment variables for dynamic networking will not be set and scheduler will not be started.
+        if not self.is_simulation:
+            os.environ["MS_SCHED_HOST"] = self.sched_host
+            os.environ["MS_SCHED_PORT"] = str(self.sched_port)
+            os.environ["MS_TOPO_TIMEOUT"] = str(self.timeout)
 class _MetaServerNode(_Node):
     """
@@ -63,8 +72,10 @@ class _ComputeGraphNode(_Node):
     """
     Worker node for dynamic networking. Inherits from the Node class.
     """
-    def __init__(self, worker_num, sched_host, sched_port, timeout, node_id, args_list, output_file):
-        super().__init__(worker_num, sched_host, sched_port, timeout, args_list, output_file)
+    def __init__(self, worker_num, sched_host, sched_port, timeout, node_id, args_list, output_file,
+                 tail_worker_log, join, is_simulation):
+        super().__init__(worker_num, sched_host, sched_port, timeout, args_list, output_file,
+                         tail_worker_log, join, is_simulation)
         self.node_id = node_id
@@ -78,9 +89,36 @@ class _ComputeGraphNode(_Node):
         super().run()
         if self.node_id is not None:
             os.environ["MS_NODE_ID"] = str(self.node_id)
-        os.environ["MS_ROLE"] = "MS_WORKER"
+        # If simulation level is set, environment variable 'MS_ROLE' will not be set.
+        if not self.is_simulation:
+            os.environ["MS_ROLE"] = "MS_WORKER"
+        tail_worker_process = None
+        is_tail_worker_log = self.enable_tail_worker_log()
+        if self.join and not is_tail_worker_log:
+            logger.warning(f"The '--tail_worker_log' is:{self.tail_worker_log}, "
+                           f"which doesn't contain this worker {self.node_id}."
+                           f" So this worker {self.node_id}'s log will not be output to console. Reset "
+                           "'--tail_worker_log', if you want to output this worker's log to console.")
         with open(self.output_file, "w") as file_handle:
-            return subprocess.Popen(self.args_list, stdout=file_handle, stderr=subprocess.STDOUT)
+            worker_process = subprocess.Popen(self.args_list, preexec_fn=os.setsid, stdout=file_handle,
+                                              stderr=subprocess.STDOUT)
+            if self.join and is_tail_worker_log:
+                tail_worker_process = self.output_to_console()
+            return worker_process, tail_worker_process
+    def output_to_console(self):
+        """
+        Output worker log file to console.
+        """
+        return subprocess.Popen(['/usr/bin/tail', '-f', self.output_file])
+    def enable_tail_worker_log(self):
+        tail_worker_log_list = []
+        if self.tail_worker_log != "-1":
+            tail_worker_log_list.extend([int(num) for num in self.tail_worker_log.split(',')])
+        if self.tail_worker_log != "-1" and self.node_id not in tail_worker_log_list:
+            return False
+        return True
 class _ProcessManager:
@@ -99,13 +137,14 @@ class _ProcessManager:
         """
         self.msn_process = None
         self.cgn_processes = []
+        self.tail_cgn_processes = []
-        """`is_master` flags whether the current node is the master node."""
-        self.is_master = _is_local_ip(args.master_addr)
-        self.master_addr = args.master_addr
+        self.master_addr = _convert_addr_to_ip(args.master_addr)
         self.master_port = args.master_port
+        """`is_master` flags whether the current node is the master node."""
+        self.is_master = _is_local_ip(self.master_addr)
         self.worker_num = args.worker_num
         if self.worker_num <= 0:
             raise ValueError(f"worker_num must be greater than 0, but got {self.worker_num}.")
@@ -115,6 +154,8 @@ class _ProcessManager:
         self.log_dir = args.log_dir
         self.join = args.join
+        self.worker_log_name = args.worker_log_name
+        self.tail_worker_log = args.tail_worker_log
         self.cluster_time_out = args.cluster_time_out
         self.bind_core = args.bind_core
         self.rank_table_file = args.rank_table_file
@@ -123,19 +164,21 @@ class _ProcessManager:
         self.sim_rank_id = args.sim_rank_id
         self.is_simulation = (self.sim_level != -1)
         if self.is_simulation:
-            # If simulation level is set, reset the worker_num and local_worker_num to 1
-            # so that host cluster could be initialized.
-            self.worker_num = 1
-            self.local_worker_num = 1
             os.environ["MS_SIMULATION_LEVEL"] = str(self.sim_level)
         elif os.getenv("MS_SIMULATION_LEVEL"):
-            # If simulation level env is set, load RANK_ID and RANK_SIZE envs.
-            self.worker_num = 1
-            self.local_worker_num = 1
             self.is_simulation = True
-            self.sim_rank_id = os.getenv("RANK_ID", "0")
+            self.sim_rank_id = int(os.getenv("RANK_ID", "-1"))
             if os.getenv("RANK_SIZE"):
                 self.exported_rank_size = os.getenv("RANK_SIZE")
+        # If sim_rank_id is set, single worker can be started.
+        if self.is_simulation and (self.sim_rank_id != -1):
+            logger.info(f"Simulation rank id is set to {self.sim_rank_id}, will dryrun a single process.")
+            self.local_worker_num = 1
+        if self.is_simulation and self.local_worker_num > 128:
+            self.local_worker_num = 1
+            self.sim_rank_id = 0
+            logger.warning(f"In dryrun case, local worker num is set to larger than 128. "
+                           "To avoid a system clash, local worker num is set to 1.")
         self.cmd = args.task_script
         self.cmd_args = args.task_script_args
@@ -173,7 +216,7 @@ class _ProcessManager:
             else:
                 sys.exit()
         else:
-            if self.is_master:
+            if self.is_master and not self.is_simulation:
                 self.start_scheduler()
         self.start_workers()
@@ -190,7 +233,8 @@ class _ProcessManager:
         os.environ['RANK_ID'] = str(0)
         msn = _MetaServerNode(self.worker_num, self.master_addr, self.master_port, self.cluster_time_out,
                               _generate_cmd_args_list(self.cmd, self.cmd_args),
-                              os.path.join(self.log_dir, "scheduler.log"))
+                              os.path.join(self.log_dir, "scheduler.log"), self.tail_worker_log, self.join,
+                              self.is_simulation)
         self.msn_process = msn.run()
     def start_workers(self):
@@ -208,9 +252,6 @@ class _ProcessManager:
                            "You can access 'RANK_ID' environment variable after calling "
                            "'mindspore.communication.init()'")
-        if self.is_simulation and self.worker_num != 1:
-            raise ValueError(f"Simulation level is set, worker_num must be 1, but got {self.worker_num}.")
         for i in range(self.local_worker_num):
             os.environ["DEVICE_ID"] = str(i)
             node_id, log_name = self._get_node_id_and_log_path(i)
@@ -223,9 +264,10 @@ class _ProcessManager:
                 os.environ["RANK_ID"] = str(node_id)
                 logger.warning(f"Start worker process with rank id:{node_id}, log file:{log_name}. "
                                "Environment variable [RANK_ID] is exported.")
-            if self.is_simulation:
-                # Reset RANK_ID env to sim_rank_id.
+            if self.is_simulation and (self.sim_rank_id != -1):
+                # Reset RANK_ID env to sim_rank_id if sim_rank_id is set.
                 os.environ["RANK_ID"] = str(self.sim_rank_id)
+                logger.warning(f"In dryrun case, RANK_ID is assigned to {self.sim_rank_id}.")
             cpu_num = subprocess.getoutput("cat /proc/cpuinfo|grep processor|wc -l")
             if not cpu_num.isdigit():
@@ -238,9 +280,11 @@ class _ProcessManager:
             else:
                 cmd = _generate_cmd_args_list(self.cmd, self.cmd_args)
             cgn = _ComputeGraphNode(self.worker_num, self.master_addr, self.master_port, self.cluster_time_out,
-                                    node_id, cmd, log_name)
-            process = cgn.run()
+                                    node_id, cmd, log_name, self.tail_worker_log, self.join, self.is_simulation)
+            process, tail_process = cgn.run()
             self.cgn_processes.append(process)
+            self.tail_cgn_processes.append(tail_process)
     def join_processes(self):
         """
@@ -248,8 +292,14 @@ class _ProcessManager:
         If there's any process does not exit normally, logs will be analyzed
         so that understandable root cause of exception could be returned.
         """
+        def signal_handler(sig, frame):
+            logger.warning("msrun process received SIGNIN (Ctrl+C), terminating all workers.")
+            self.kill_all_processes()
+            sys.exit(0)
         has_exception = False
         success_cgn_processes = set()
+        signal.signal(signal.SIGINT, signal_handler)
         while True:
             # Traversal all workers and kill immediately if any exception happens.
             for p in self.cgn_processes:
@@ -266,15 +316,14 @@ class _ProcessManager:
             if has_exception:
                 logger.warning("There's worker exits with exception, kill all other workers.")
-                for p in self.cgn_processes:
-                    if p.poll() is None:
-                        p.kill()
+                self.kill_worker_processes()
+                self.kill_tail_log_processes()
                 break
             elif len(success_cgn_processes) == len(self.cgn_processes):
                 logger.info("All workers successfully exit!")
+                self.kill_tail_log_processes()
                 break
         if self.msn_process:
             self.msn_process.wait()
             if self.msn_process.returncode != 0:
@@ -287,6 +336,35 @@ class _ProcessManager:
             raise RuntimeError("Distributed job exited with exception. Please check logs in "
                                f"directory: {self.log_dir}.")
+    def kill_tail_log_processes(self):
+        """
+        Kills all tail worker log processes.
+        """
+        for p_tail in self.tail_cgn_processes:
+            if p_tail is not None:
+                logger.debug("Tail worker log process:{p_tail.pid} has been killed!")
+                p_tail.kill()
+    def kill_worker_processes(self):
+        """
+        Kills all worker processes.
+        """
+        for p in self.cgn_processes:
+            if p.poll() is None:
+                os.killpg(os.getpgid(p.pid), signal.SIGKILL)
+    def kill_all_processes(self):
+        """
+        Kills all running processes, including scheduler, worker and tail log.
+        """
+        self.kill_worker_processes()
+        self.kill_tail_log_processes()
+        if self.msn_process.poll() is None:
+            self.msn_process.kill()
     def stop_processes(self):
         """
         Stops all running processes.
@@ -310,26 +388,29 @@ class _ProcessManager:
             self.start_scheduler()
         self.start_workers()
     def _get_node_id_and_log_path(self, index):
         """
         Generate node id and log path for corresponding process.
         """
+        formatted_log_name = self.format_worker_log_name()
         if self.local_worker_num > self.worker_num:
             raise ValueError(f"Total worker number is {self.worker_num}, "
                              f"but got exceeded local worker number: {self.local_worker_num}.")
         if self.local_worker_num == self.worker_num:
-            return index, os.path.join(self.log_dir, "worker_" + str(index) + ".log")
+            return index, os.path.join(self.log_dir, formatted_log_name + "_" + str(index) + ".log")
         if self.node_rank >= 0:
             # We assume that each node has same process number.
             node_id = self.node_rank * self.local_worker_num + index
-            log_name = os.path.join(self.log_dir, "worker_" + str(node_id) + ".log")
+            log_name = os.path.join(self.log_dir, formatted_log_name + "_" + str(node_id) + ".log")
         else:
             # If node_rank is default value -1, let MindSpore assign rank id.
             node_id = None
-            log_name = os.path.join(self.log_dir, "worker_" + str(index) + ".log")
+            log_name = os.path.join(self.log_dir, formatted_log_name + "_" + str(index) + ".log")
         return node_id, log_name
     def _analyze_log(self):
         """
         Analyze exception logs.
@@ -350,3 +431,16 @@ class _ProcessManager:
             logger.error(f"Time out nodes are {time_out_node_ids}")
         os.system(f"grep -rn -E 'ERROR|CRITICAL|Traceback|Error' -C 5 {self.log_dir}")
+    def format_worker_log_name(self):
+        """
+        Format worker log files' name.
+        """
+        if not self.worker_log_name:
+            formatted_worker_log_name = "worker"
+        else:
+            current_ip = _get_local_ip(self.master_addr)
+            formatted_worker_log_name = re.sub(r'\{ip\}', current_ip, self.worker_log_name)
+            formatted_worker_log_name = re.sub(r'\{hostname\}', socket.gethostname(), formatted_worker_log_name)
+        return formatted_worker_log_name

mindspore/parallel/cluster/process_entity/_utils.py CHANGED Viewed

@@ -16,8 +16,11 @@
 import os
 import json
 import socket
+import ipaddress
 import mindspore.log as logger
+CURRENT_IP = None
 def _generate_cmd(cmd, cmd_args, output_name):
     """
     Generates a command string to execute a Python script in the background, r
@@ -67,6 +70,24 @@ def _generate_url(addr, port):
     return url
+def _get_local_ip(ip_address):
+    """
+    Get current IP address.
+    """
+    global CURRENT_IP
+    if CURRENT_IP is None:
+        try:
+            s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
+            s.connect((ip_address, 0))
+            CURRENT_IP = s.getsockname()[0]
+            s.close()
+        except Exception as e:
+            raise RuntimeError(f"Get local ip failed: {e}. Please check whether an accessible address "
+                               "is input by '--master_address'.")
+    return CURRENT_IP
 def _is_local_ip(ip_address):
     """
     Check if the current input IP address is a local IP address.
@@ -75,13 +96,8 @@ def _is_local_ip(ip_address):
     p = os.popen("ip -j addr")
     addr_info_str = p.read()
     p.close()
+    current_ip = _get_local_ip(ip_address)
     if not addr_info_str:
-        # This means this host has no "ip -j addr" command.
-        # We use socket module to get local ip address.
-        s = socket.socket(socket.AF_INET, socket.SOCK_DGRAM)
-        s.connect((ip_address, 0))
-        current_ip = s.getsockname()[0]
-        s.close()
         return current_ip == ip_address
     addr_infos = json.loads(addr_info_str)
@@ -93,6 +109,25 @@ def _is_local_ip(ip_address):
     return False
+def _convert_addr_to_ip(master_addr):
+    """
+    Check whether the input parameter 'master_addr' is IPv4. If a hostname is inserted, it will be converted
+    to IP and then set as master host's IP.
+    """
+    try:
+        ipaddress.IPv4Address(master_addr)
+        return master_addr
+    except ipaddress.AddressValueError:
+        try:
+            ip_address = socket.gethostbyname(master_addr)
+            logger.info(f"Convert input host name:{master_addr} to ip address:{ip_address}.")
+            return ip_address
+        except socket.gaierror as e:
+            raise RuntimeError(f"DNS resolution failed: {e}. Please check whether a correct host name "
+                               "is input by '--master_address'.")
 def _send_scale_num(url, scale_num):
     """
     Send an HTTP request to a specified URL, informing scale_num.

mindspore/parallel/cluster/run.py CHANGED Viewed

@@ -37,8 +37,8 @@ def get_args():
     parser.add_argument(
         "--master_addr",
         default="127.0.0.1", type=str,
-        help="specifies the IP address of the scheduler and its data type is string."
-        " Allowed values: valid IP addresses."
+        help="specifies the IP address or the host name of the scheduler and its data type is string."
+        " Allowed values: valid IP addresses or valid host name."
     )
     parser.add_argument(
         "--master_port", default=8118, type=int,
@@ -91,7 +91,7 @@ def get_args():
     )
     parser.add_argument(
         "--sim_rank_id",
-        default=0,
+        default=-1,
         type=int,
         help="specifies simulation process's rank id. Only one process is spawned in simulation scenario."
     )
@@ -102,6 +102,23 @@ def get_args():
         help="specifies rank table file path. This path is not used to initialize distributed job in "
              "'rank table file manner' but to help support other features."
     )
+    parser.add_argument(
+        "--worker_log_name",
+        default="",
+        type=str,
+        help="Specifies the worker log file name as a string for current node; the default is worker_[rankid]. "
+             "Support configuring the current IP address and host name by using {ip} and {hostname} respectively. "
+             "e.g. --worker_log_name=worker_{ip}_{hostname}_test, worker [rankid] log name for current node "
+             "will be worker_[real IP address]_[real host name]_test_[rankid]."
+    )
+    parser.add_argument(
+        "--tail_worker_log",
+        default="-1",
+        type=str,
+        help="Only tail worker log to console when '--join=True' and the configured value should be within "
+             "[0, local_worker_num], otherwise worker log will not be tail. All worker logs will be tail by "
+             "default. Support tail the specified worker log (e.g. --tail_log=0 tail the worker 0 log to console)."
+    )
     parser.add_argument(
         "task_script",
         type=str,

mindspore/parallel/parameter_broadcast.py CHANGED Viewed

@@ -56,7 +56,7 @@ def parameter_broadcast(net, layout, cur_rank=0, initial_rank=0):
         >>> from mindspore.parallel.parameter_broadcast import parameter_broadcast
         >>> from mindspore.train.serialization import load_checkpoint, load_param_into_net
         >>> ms.set_context(mode=ms.GRAPH_MODE)
-        >>> ms.set_context(max_device_memory="28GB")
+        >>> ms.runtime.set_memory(max_size="28GB")
         >>> ms.set_auto_parallel_context(parallel_mode=ms.ParallelMode.SEMI_AUTO_PARALLEL)
         >>> init()
         >>> ms.set_seed(1)

mindspore/parallel/shard.py CHANGED Viewed

@@ -24,6 +24,9 @@ class Layout:
     """
     Parallel layout describes the detailed sharding information.
+    For more detailed information, refer to the file `Higher-order Operator-level Parallelism
+    <https://www.mindspore.cn/docs/en/master/model_train/parallel/advanced_operator_parallel.html>`_.
     Note:
         - It is valid only in semi auto parallel or auto parallel mode.
         - The multiplication result of the `device_matrix` must be equal to the device count in a pipeline stage.