PyPI - mindspore - Versions diffs - 2.6.0rc1__cp39-cp39-win_amd64.whl → 2.7.0rc1__cp39-cp39-win_amd64.whl - Mend

mindspore 2.6.0rc1__cp39-cp39-win_amd64.whl → 2.7.0rc1__cp39-cp39-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mindspore might be problematic. Click here for more details.

Files changed (384) hide show

mindspore/.commit_id +1 -1
mindspore/__init__.py +1 -1
mindspore/_c_dataengine.cp39-win_amd64.pyd +0 -0
mindspore/_c_expression.cp39-win_amd64.pyd +0 -0
mindspore/_c_mindrecord.cp39-win_amd64.pyd +0 -0
mindspore/_checkparam.py +40 -9
mindspore/{_deprecated → _extends/optimize}/__init__.py +9 -3
mindspore/_extends/optimize/cell_utils.py +96 -0
mindspore/_extends/parse/__init__.py +2 -2
mindspore/_extends/parse/compile_config.py +44 -22
mindspore/_extends/parse/deprecated/deprecated_tensor_method.py +1 -1
mindspore/_extends/parse/parser.py +37 -62
mindspore/_extends/parse/resources.py +39 -0
mindspore/_extends/parse/standard_method.py +43 -13
mindspore/_extends/parse/trope.py +8 -1
mindspore/_extends/pijit/__init__.py +1 -2
mindspore/amp.py +4 -4
mindspore/avcodec-59.dll +0 -0
mindspore/avdevice-59.dll +0 -0
mindspore/avfilter-8.dll +0 -0
mindspore/avformat-59.dll +0 -0
mindspore/avutil-57.dll +0 -0
mindspore/boost/adasum.py +1 -1
mindspore/boost/boost_cell_wrapper.py +4 -4
mindspore/common/__init__.py +27 -2
mindspore/common/_grad_function.py +2 -1
mindspore/common/_pijit_context.py +28 -7
mindspore/common/_stub_tensor.py +1 -209
mindspore/common/_tensor_cpp_method.py +1 -1
mindspore/common/_tensor_docs.py +77 -16
mindspore/common/api.py +238 -113
mindspore/common/dtype.py +21 -11
mindspore/common/dump.py +10 -15
mindspore/common/generator.py +5 -3
mindspore/common/hook_handle.py +11 -2
mindspore/common/jit_config.py +1 -1
mindspore/common/jit_trace.py +84 -105
mindspore/common/parameter.py +26 -12
mindspore/common/recompute.py +3 -3
mindspore/common/sparse_tensor.py +0 -3
mindspore/common/symbol.py +0 -1
mindspore/common/tensor.py +81 -81
mindspore/communication/_comm_helper.py +46 -4
mindspore/communication/management.py +79 -7
mindspore/context.py +58 -40
mindspore/dataset/core/config.py +3 -3
mindspore/dataset/engine/datasets.py +20 -7
mindspore/dataset/engine/datasets_user_defined.py +33 -3
mindspore/dataset/engine/iterators.py +2 -2
mindspore/dataset/engine/obs/config_loader.py +2 -2
mindspore/dataset/engine/obs/obs_mindrecord_dataset.py +8 -0
mindspore/dataset/transforms/py_transforms.py +7 -3
mindspore/dataset/transforms/transforms.py +7 -3
mindspore/dataset/vision/validators.py +1 -0
mindspore/device_context/ascend/device.py +1 -1
mindspore/device_context/gpu/__init__.py +2 -2
mindspore/device_context/gpu/device.py +1 -1
mindspore/device_context/gpu/op_precision.py +4 -2
mindspore/device_context/gpu/op_tuning.py +6 -3
mindspore/device_manager.py +16 -9
mindspore/dnnl.dll +0 -0
mindspore/experimental/llm_boost/ascend_native/llama_boost_ascend_native.py +3 -7
mindspore/experimental/llm_boost/atb/boost_base.py +2 -3
mindspore/experimental/optim/adadelta.py +13 -20
mindspore/experimental/optim/adagrad.py +15 -22
mindspore/experimental/optim/adam.py +17 -24
mindspore/experimental/optim/adamax.py +14 -22
mindspore/experimental/optim/adamw.py +28 -34
mindspore/experimental/optim/asgd.py +15 -25
mindspore/experimental/optim/lr_scheduler.py +27 -45
mindspore/experimental/optim/nadam.py +14 -24
mindspore/experimental/optim/optimizer.py +13 -23
mindspore/experimental/optim/radam.py +18 -24
mindspore/experimental/optim/rmsprop.py +14 -25
mindspore/experimental/optim/rprop.py +15 -26
mindspore/experimental/optim/sgd.py +9 -19
mindspore/hal/__init__.py +4 -4
mindspore/hal/contiguous_tensors_handle.py +2 -2
mindspore/hal/memory.py +27 -7
mindspore/include/api/cell.h +37 -1
mindspore/include/api/delegate.h +10 -0
mindspore/include/api/model.h +3 -0
mindspore/include/api/types.h +2 -2
mindspore/include/c_api/model_c.h +0 -58
mindspore/include/c_api/tensor_c.h +0 -26
mindspore/include/dataset/vision_ascend.h +1 -1
mindspore/jpeg62.dll +0 -0
mindspore/mindrecord/tools/cifar10.py +60 -11
mindspore/mindrecord/tools/cifar10_to_mr.py +5 -0
mindspore/mindspore_backend_common.dll +0 -0
mindspore/mindspore_backend_manager.dll +0 -0
mindspore/mindspore_common.dll +0 -0
mindspore/mindspore_core.dll +0 -0
mindspore/mindspore_cpu_res_manager.dll +0 -0
mindspore/mindspore_dump.dll +0 -0
mindspore/mindspore_frontend.dll +0 -0
mindspore/mindspore_glog.dll +0 -0
mindspore/mindspore_memory_pool.dll +0 -0
mindspore/mindspore_ms_backend.dll +0 -0
mindspore/mindspore_ops.dll +0 -0
mindspore/mindspore_ops_host.dll +0 -0
mindspore/mindspore_ops_kernel_common.dll +0 -0
mindspore/mindspore_profiler.dll +0 -0
mindspore/mindspore_pyboost.dll +0 -0
mindspore/mindspore_pynative.dll +0 -0
mindspore/mindspore_res_manager.dll +0 -0
mindspore/mindspore_runtime_pipeline.dll +0 -0
mindspore/mint/__init__.py +6 -46
mindspore/mint/distributed/__init__.py +1 -0
mindspore/mint/distributed/distributed.py +212 -9
mindspore/mint/nn/__init__.py +1 -1
mindspore/mint/nn/functional.py +53 -6
mindspore/mint/nn/layer/_functions.py +164 -294
mindspore/mint/nn/layer/activation.py +8 -6
mindspore/mint/nn/layer/conv.py +137 -101
mindspore/mint/nn/layer/normalization.py +8 -22
mindspore/mint/optim/adam.py +19 -18
mindspore/mint/optim/adamw.py +14 -8
mindspore/mint/optim/sgd.py +5 -5
mindspore/nn/cell.py +328 -502
mindspore/nn/grad/cell_grad.py +11 -12
mindspore/nn/layer/activation.py +32 -34
mindspore/nn/layer/basic.py +67 -64
mindspore/nn/layer/channel_shuffle.py +4 -4
mindspore/nn/layer/combined.py +4 -2
mindspore/nn/layer/conv.py +117 -110
mindspore/nn/layer/dense.py +9 -7
mindspore/nn/layer/embedding.py +50 -52
mindspore/nn/layer/image.py +37 -39
mindspore/nn/layer/math.py +111 -112
mindspore/nn/layer/normalization.py +56 -44
mindspore/nn/layer/pooling.py +58 -63
mindspore/nn/layer/rnn_cells.py +33 -33
mindspore/nn/layer/rnns.py +56 -56
mindspore/nn/layer/thor_layer.py +74 -73
mindspore/nn/layer/transformer.py +11 -1
mindspore/nn/learning_rate_schedule.py +20 -20
mindspore/nn/loss/loss.py +79 -81
mindspore/nn/optim/adam.py +3 -3
mindspore/nn/optim/adasum.py +2 -2
mindspore/nn/optim/asgd.py +2 -0
mindspore/nn/optim/optimizer.py +1 -1
mindspore/nn/optim/thor.py +2 -2
mindspore/nn/probability/distribution/exponential.py +2 -1
mindspore/nn/probability/distribution/poisson.py +2 -1
mindspore/nn/sparse/sparse.py +3 -3
mindspore/nn/wrap/cell_wrapper.py +34 -37
mindspore/nn/wrap/grad_reducer.py +37 -37
mindspore/nn/wrap/loss_scale.py +72 -74
mindspore/numpy/array_creations.py +5 -5
mindspore/numpy/fft.py +1 -1
mindspore/numpy/math_ops.py +5 -5
mindspore/opencv_core452.dll +0 -0
mindspore/opencv_imgcodecs452.dll +0 -0
mindspore/opencv_imgproc452.dll +0 -0
mindspore/ops/_grad_experimental/grad_comm_ops.py +51 -13
mindspore/ops/_grad_experimental/grad_debug_ops.py +14 -0
mindspore/ops/_vmap/vmap_array_ops.py +31 -13
mindspore/ops/_vmap/vmap_nn_ops.py +8 -16
mindspore/ops/auto_generate/cpp_create_prim_instance_helper.py +42 -11
mindspore/ops/auto_generate/gen_extend_func.py +23 -141
mindspore/ops/auto_generate/gen_ops_def.py +727 -321
mindspore/ops/auto_generate/gen_ops_prim.py +1721 -984
mindspore/ops/auto_generate/pyboost_inner_prim.py +31 -1
mindspore/ops/composite/__init__.py +10 -0
mindspore/ops/composite/base.py +8 -4
mindspore/ops/composite/multitype_ops/__init__.py +12 -1
mindspore/ops/composite/multitype_ops/_compile_utils.py +133 -109
mindspore/ops/composite/multitype_ops/add_impl.py +70 -2
mindspore/ops/composite/multitype_ops/div_impl.py +49 -0
mindspore/ops/composite/multitype_ops/floordiv_impl.py +29 -0
mindspore/ops/composite/multitype_ops/getitem_impl.py +11 -0
mindspore/ops/composite/multitype_ops/mod_impl.py +5 -3
mindspore/ops/composite/multitype_ops/mul_impl.py +49 -0
mindspore/ops/composite/multitype_ops/setitem_impl.py +57 -0
mindspore/ops/composite/multitype_ops/sub_impl.py +34 -0
mindspore/ops/composite/multitype_ops/zeros_like_impl.py +14 -0
mindspore/ops/function/__init__.py +3 -1
mindspore/ops/function/_add_attr_func.py +11 -6
mindspore/ops/function/array_func.py +9 -96
mindspore/ops/function/debug_func.py +4 -3
mindspore/ops/function/grad/grad_func.py +1 -1
mindspore/ops/function/math_func.py +33 -540
mindspore/ops/function/nn_func.py +28 -74
mindspore/ops/function/other_func.py +4 -1
mindspore/ops/function/random_func.py +44 -5
mindspore/ops/function/vmap_func.py +2 -1
mindspore/ops/functional.py +2 -3
mindspore/ops/functional_overload.py +571 -6
mindspore/ops/op_info_register.py +21 -0
mindspore/ops/operations/__init__.py +16 -11
mindspore/ops/operations/_custom_ops_utils.py +689 -34
mindspore/ops/operations/_inner_ops.py +3 -6
mindspore/ops/operations/_sequence_ops.py +1 -1
mindspore/ops/operations/array_ops.py +2 -2
mindspore/ops/operations/comm_ops.py +185 -26
mindspore/ops/operations/custom_ops.py +294 -174
mindspore/ops/operations/debug_ops.py +59 -4
mindspore/ops/operations/image_ops.py +13 -13
mindspore/ops/operations/manually_defined/ops_def.py +15 -16
mindspore/ops/operations/math_ops.py +3 -4
mindspore/ops/operations/nn_ops.py +7 -39
mindspore/ops/primitive.py +6 -10
mindspore/ops/tensor_method.py +47 -8
mindspore/ops_generate/api/cpp_create_prim_instance_helper_generator.py +1 -1
mindspore/ops_generate/api/functional_map_cpp_generator.py +10 -9
mindspore/ops_generate/api/functions_cc_generator.py +58 -10
mindspore/ops_generate/api/tensor_func_reg_cpp_generator.py +1 -1
mindspore/ops_generate/common/base_generator.py +14 -0
mindspore/ops_generate/common/gen_constants.py +8 -3
mindspore/ops_generate/common/gen_utils.py +0 -19
mindspore/ops_generate/common/op_proto.py +11 -4
mindspore/ops_generate/common/template.py +88 -11
mindspore/ops_generate/gen_ops.py +1 -1
mindspore/ops_generate/op_def/lite_ops_cpp_generator.py +4 -4
mindspore/ops_generate/op_def/ops_def_cc_generator.py +0 -3
mindspore/ops_generate/op_def/ops_name_h_generator.py +0 -3
mindspore/ops_generate/op_def/ops_primitive_h_generator.py +0 -4
mindspore/ops_generate/op_def_py/op_prim_py_generator.py +5 -2
mindspore/ops_generate/pyboost/auto_grad_impl_cc_generator.py +49 -8
mindspore/ops_generate/pyboost/auto_grad_reg_cc_generator.py +2 -2
mindspore/ops_generate/pyboost/gen_pyboost_func.py +31 -0
mindspore/ops_generate/pyboost/op_template_parser.py +98 -72
mindspore/ops_generate/pyboost/pyboost_functions_cpp_generator.py +70 -273
mindspore/ops_generate/pyboost/pyboost_functions_h_generator.py +14 -6
mindspore/ops_generate/pyboost/pyboost_functions_impl_cpp_generator.py +316 -0
mindspore/ops_generate/pyboost/pyboost_functions_py_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_grad_function_cpp_generator.py +5 -3
mindspore/ops_generate/pyboost/pyboost_inner_prim_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_internal_functions_cpp_generator.py +76 -0
mindspore/ops_generate/pyboost/pyboost_internal_functions_h_generator.py +76 -0
mindspore/ops_generate/pyboost/pyboost_internal_kernel_info_adapter_generator.py +125 -0
mindspore/ops_generate/pyboost/pyboost_native_grad_functions_generator.py +4 -3
mindspore/ops_generate/pyboost/pyboost_op_cpp_code_generator.py +348 -61
mindspore/ops_generate/pyboost/pyboost_overload_functions_cpp_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_utils.py +118 -9
mindspore/ops_generate/tensor_py_cc_generator.py +1 -24
mindspore/parallel/_auto_parallel_context.py +11 -8
mindspore/parallel/_cell_wrapper.py +113 -45
mindspore/parallel/_parallel_serialization.py +1 -1
mindspore/parallel/_ps_context.py +4 -6
mindspore/parallel/_tensor.py +167 -12
mindspore/parallel/_transformer/moe.py +1 -1
mindspore/parallel/_transformer/transformer.py +13 -8
mindspore/parallel/auto_parallel.py +14 -7
mindspore/parallel/checkpoint_convert.py +3 -3
mindspore/parallel/checkpoint_transform.py +11 -7
mindspore/parallel/cluster/process_entity/_api.py +84 -48
mindspore/parallel/cluster/process_entity/_utils.py +95 -7
mindspore/parallel/cluster/run.py +43 -4
mindspore/parallel/function/__init__.py +8 -1
mindspore/parallel/function/reshard_func.py +6 -7
mindspore/parallel/nn/__init__.py +15 -2
mindspore/parallel/nn/parallel_cell_wrapper.py +9 -10
mindspore/parallel/nn/parallel_grad_reducer.py +7 -6
mindspore/parallel/shard.py +3 -4
mindspore/parallel/transform_safetensors.py +463 -174
mindspore/profiler/__init__.py +2 -1
mindspore/profiler/analysis/parser/timeline_assembly_factory/ascend_timeline_assembler.py +7 -7
mindspore/profiler/analysis/parser/timeline_assembly_factory/base_timeline_assembler.py +3 -0
mindspore/profiler/analysis/parser/timeline_assembly_factory/trace_view_container.py +12 -6
mindspore/profiler/analysis/parser/timeline_creator/cpu_op_timeline_creator.py +3 -3
mindspore/profiler/analysis/parser/timeline_creator/fwk_timeline_creator.py +3 -3
mindspore/profiler/analysis/parser/timeline_creator/msprof_timeline_creator.py +4 -4
mindspore/profiler/analysis/parser/timeline_creator/scope_layer_timeline_creator.py +3 -3
mindspore/profiler/analysis/parser/timeline_event/fwk_event.py +4 -1
mindspore/profiler/analysis/parser/timeline_event/timeline_event_pool.py +2 -1
mindspore/profiler/analysis/task_manager.py +1 -1
mindspore/profiler/analysis/viewer/ascend_communication_viewer.py +5 -1
mindspore/profiler/analysis/viewer/ascend_integrate_viewer.py +2 -1
mindspore/profiler/analysis/viewer/ascend_op_memory_viewer.py +42 -22
mindspore/profiler/analysis/viewer/ascend_step_trace_time_viewer.py +3 -2
mindspore/profiler/analysis/viewer/ms_minddata_viewer.py +9 -5
mindspore/profiler/analysis/viewer/ms_operator_details_viewer.py +132 -0
mindspore/profiler/common/constant.py +16 -0
mindspore/profiler/common/profiler_context.py +25 -27
mindspore/profiler/common/profiler_info.py +0 -16
mindspore/profiler/common/profiler_op_analyse.py +235 -0
mindspore/profiler/common/profiler_output_path.py +23 -8
mindspore/profiler/common/profiler_parameters.py +128 -35
mindspore/profiler/dynamic_profile/__init__.py +0 -0
mindspore/profiler/dynamic_profile/dynamic_monitor_proxy.py +39 -0
mindspore/profiler/dynamic_profile/dynamic_profiler_config_context.py +666 -0
mindspore/profiler/dynamic_profile/dynamic_profiler_utils.py +62 -0
mindspore/profiler/dynamic_profiler.py +305 -314
mindspore/profiler/envprofiler.py +12 -7
mindspore/profiler/experimental_config.py +96 -6
mindspore/profiler/mstx.py +33 -12
mindspore/profiler/platform/__init__.py +2 -3
mindspore/profiler/platform/npu_profiler.py +29 -19
mindspore/profiler/profiler.py +35 -19
mindspore/profiler/profiler_action_controller.py +64 -76
mindspore/profiler/schedule.py +10 -4
mindspore/rewrite/common/config.py +1 -0
mindspore/rewrite/common/namer.py +1 -0
mindspore/rewrite/common/namespace.py +1 -0
mindspore/rewrite/node/node.py +31 -11
mindspore/rewrite/parsers/assign_parser.py +1 -1
mindspore/rewrite/symbol_tree/symbol_tree.py +1 -1
mindspore/run_check/_check_version.py +7 -10
mindspore/runtime/__init__.py +5 -5
mindspore/runtime/event.py +10 -4
mindspore/runtime/executor.py +60 -45
mindspore/runtime/memory.py +30 -32
mindspore/runtime/thread_bind_core.py +298 -164
mindspore/safeguard/rewrite_obfuscation.py +12 -13
mindspore/swresample-4.dll +0 -0
mindspore/swscale-6.dll +0 -0
mindspore/tinyxml2.dll +0 -0
mindspore/train/_utils.py +14 -4
mindspore/train/amp.py +43 -20
mindspore/train/callback/__init__.py +5 -5
mindspore/train/callback/_checkpoint.py +3 -6
mindspore/train/callback/_flops_collector.py +1 -1
mindspore/train/callback/_landscape.py +0 -1
mindspore/train/callback/_train_fault_tolerance.py +97 -16
mindspore/train/data_sink.py +11 -2
mindspore/train/dataset_helper.py +9 -0
mindspore/train/model.py +135 -55
mindspore/train/serialization.py +133 -111
mindspore/train/summary/summary_record.py +13 -2
mindspore/turbojpeg.dll +0 -0
mindspore/utils/__init__.py +3 -2
mindspore/utils/dryrun.py +0 -6
mindspore/utils/runtime_execution_order_check.py +163 -77
mindspore/utils/sdc_detect.py +68 -0
mindspore/utils/utils.py +6 -9
mindspore/version.py +1 -1
{mindspore-2.6.0rc1.dist-info → mindspore-2.7.0rc1.dist-info}/METADATA +5 -4
{mindspore-2.6.0rc1.dist-info → mindspore-2.7.0rc1.dist-info}/RECORD +333 -371
mindspore/_deprecated/jit.py +0 -198
mindspore/experimental/es/__init__.py +0 -22
mindspore/experimental/es/embedding_service.py +0 -891
mindspore/experimental/es/embedding_service_layer.py +0 -581
mindspore/profiler/parser/__init__.py +0 -14
mindspore/profiler/parser/aicpu_data_parser.py +0 -272
mindspore/profiler/parser/ascend_analysis/__init__.py +0 -14
mindspore/profiler/parser/ascend_analysis/constant.py +0 -71
mindspore/profiler/parser/ascend_analysis/file_manager.py +0 -180
mindspore/profiler/parser/ascend_analysis/function_event.py +0 -185
mindspore/profiler/parser/ascend_analysis/fwk_cann_parser.py +0 -136
mindspore/profiler/parser/ascend_analysis/fwk_file_parser.py +0 -131
mindspore/profiler/parser/ascend_analysis/msprof_timeline_parser.py +0 -104
mindspore/profiler/parser/ascend_analysis/path_manager.py +0 -313
mindspore/profiler/parser/ascend_analysis/profiler_info_parser.py +0 -123
mindspore/profiler/parser/ascend_analysis/tlv_decoder.py +0 -86
mindspore/profiler/parser/ascend_analysis/trace_event_manager.py +0 -75
mindspore/profiler/parser/ascend_cluster_generator.py +0 -116
mindspore/profiler/parser/ascend_communicate_generator.py +0 -314
mindspore/profiler/parser/ascend_flops_generator.py +0 -116
mindspore/profiler/parser/ascend_fpbp_generator.py +0 -82
mindspore/profiler/parser/ascend_hccl_generator.py +0 -271
mindspore/profiler/parser/ascend_integrate_generator.py +0 -42
mindspore/profiler/parser/ascend_memory_generator.py +0 -185
mindspore/profiler/parser/ascend_msprof_exporter.py +0 -282
mindspore/profiler/parser/ascend_msprof_generator.py +0 -187
mindspore/profiler/parser/ascend_op_generator.py +0 -334
mindspore/profiler/parser/ascend_steptrace_generator.py +0 -94
mindspore/profiler/parser/ascend_timeline_generator.py +0 -545
mindspore/profiler/parser/base_timeline_generator.py +0 -483
mindspore/profiler/parser/container.py +0 -229
mindspore/profiler/parser/cpu_gpu_timeline_generator.py +0 -697
mindspore/profiler/parser/flops_parser.py +0 -531
mindspore/profiler/parser/framework_enum.py +0 -111
mindspore/profiler/parser/framework_parser.py +0 -464
mindspore/profiler/parser/framework_struct.py +0 -61
mindspore/profiler/parser/gpu_analysis/__init__.py +0 -14
mindspore/profiler/parser/gpu_analysis/function_event.py +0 -44
mindspore/profiler/parser/gpu_analysis/fwk_file_parser.py +0 -89
mindspore/profiler/parser/gpu_analysis/profiler_info_parser.py +0 -72
mindspore/profiler/parser/hccl_parser.py +0 -573
mindspore/profiler/parser/hwts_log_parser.py +0 -122
mindspore/profiler/parser/integrator.py +0 -526
mindspore/profiler/parser/memory_usage_parser.py +0 -277
mindspore/profiler/parser/minddata_analyzer.py +0 -800
mindspore/profiler/parser/minddata_parser.py +0 -186
mindspore/profiler/parser/minddata_pipeline_parser.py +0 -299
mindspore/profiler/parser/op_intermediate_parser.py +0 -149
mindspore/profiler/parser/optime_parser.py +0 -250
mindspore/profiler/parser/profiler_info.py +0 -213
mindspore/profiler/parser/step_trace_parser.py +0 -666
{mindspore-2.6.0rc1.dist-info → mindspore-2.7.0rc1.dist-info}/WHEEL +0 -0
{mindspore-2.6.0rc1.dist-info → mindspore-2.7.0rc1.dist-info}/entry_points.txt +0 -0
{mindspore-2.6.0rc1.dist-info → mindspore-2.7.0rc1.dist-info}/top_level.txt +0 -0

mindspore/device_manager.py CHANGED Viewed

@@ -15,16 +15,14 @@
 """Device manager interfaces."""
+__all__ = ['set_device', 'set_deterministic', 'get_current_device']
 import os
 from mindspore import log as logger
 from mindspore._c_expression import DeviceManagerConf, DeviceContextManager, MSContext, CollectiveManager
 from mindspore._checkparam import args_type_check
 from mindspore.parallel._ps_context import _need_reset_device_target_for_ps
-__all__ = ['set_device', 'set_deterministic', 'get_current_device']
 class DeviceInfo(tuple):
     """
     DeviceInfo class. Store the current device target and the corresponding device id.
@@ -120,14 +118,21 @@ def set_deterministic(deterministic):
     """
     Enables or disables deterministic computing.
-    When deterministic computing is enabled, the same output is generated if an operator is executed
-    for multiple times with the same hardware and input.This often slows down operator execution.
-    In distributed scenario, we suggest user to set deterministic mode before
-    calling :func:`mindspore.communication.init` to enable deterministic operation for
-    communication operators in the global communication group.
+    This configuration is a global configuration, and once enabled, subsequent calculation operations
+    will follow the configuration setting. When deterministic computing is enabled, the same output
+    is generated if an operator is executed for multiple times with the same hardware and input. This often
+    slows down operator execution.
     The framework not enabled deterministic computation by default.
+    Note:
+        - In distributed scenario, we suggest user to set deterministic computing before
+          calling :func:`mindspore.communication.init` to enable deterministic operation for
+          communication operators in the global communication group.
+        - The fixed method for deterministic calculation must be in the same main process as the network,
+          operator, etc. Only one deterministic state can be set in the same thread, and it is not recommended
+          to set deterministic state multiple times in one thread.
     Args:
         deterministic (bool): Whether to enable deterministic computing.
@@ -139,6 +144,8 @@ def set_deterministic(deterministic):
     if DeviceManagerConf.get_instance().is_deterministic_configured():
         raise RuntimeError("The 'mindspore.set_deterministic' can not be set repeatedly.")
+    logger.info(f"Set deterministic setting to '{deterministic}'.")
     # Must wait for all async created groups to be initialized so that
     # deterministic feature could be consistent between all processes.
     CollectiveManager.get_instance().wait_all_comm_init()

mindspore/dnnl.dll CHANGED Viewed

Binary file

mindspore/experimental/llm_boost/ascend_native/llama_boost_ascend_native.py CHANGED Viewed

@@ -18,8 +18,6 @@ import os
 import numpy as np
 from mindspore.common import Tensor, dtype
 from mindspore.experimental.llm_boost.ascend_native.llm_boost import LLMBoost
-from mindspore.experimental.llm_boost.register import LlmBoostRegister, LlmBoostType
 def RoundUp(val: int, align: int) -> int:
     if align == 0:
@@ -44,8 +42,6 @@ def ConvertTensor(nd_mat: np.ndarray, transpose: bool = True, nd2nz: bool = True
     nz_mat = nz_mat.reshape(r, c)
     return nz_mat
-@LlmBoostRegister.register(LlmBoostType.ASCEND_NATIVE, "Llama")
 class LlamaBoostAscendNative(LLMBoost):
     r"""
     Implements an Llama model in a single kernel.
@@ -68,7 +64,7 @@ class LlamaBoostAscendNative(LLMBoost):
     def _prepare_single_layer(self, ckpt, config, id):
         """ prepares the dictionary of weights of a single layer """
         prefix = 'model.layers.' + str(id)
-        is_last = (id == config.num_layers-1)
+        is_last = id == config.num_layers-1
         layer = 'layers.' + str(id) + '.'
         l_dict = {key: value for key, value in ckpt.items() if layer in key}
         if config.n_kv_heads is None:
@@ -96,8 +92,8 @@ class LlamaBoostAscendNative(LLMBoost):
         else:
             raise RuntimeError("hidden size and ffn hidden size must be divided by rank size without remainder.  \
                                 hidden_size: ", hid_size, " ffn_hidden_size: ", ffn_hid, " rank_size: ", rank_size)
-        quant = (self._get_from_dict(l_dict, "_weight_quantizer") is not None)
-        unite_qkv = (config.num_heads == config.n_kv_heads)
+        quant = self._get_from_dict(l_dict, "_weight_quantizer") is not None
+        unite_qkv = config.num_heads == config.n_kv_heads
         self.dictionary[prefix + ".attention_norm.weight"] = \
             Tensor(self._get_from_dict(l_dict, "attention_norm"), dtype=dtype.float16)
         self.dictionary[prefix + ".ffn_norm.weight"] = \

mindspore/experimental/llm_boost/atb/boost_base.py CHANGED Viewed

@@ -18,7 +18,6 @@ import numpy as np
 import mindspore as ms
 from mindspore import ops, Tensor
 from mindspore import log as logger
-from mindspore.ops import operations as P
 import mindspore.common.dtype as mstype
 from mindspore._c_expression import _set_format
 from mindspore.common.parameter import Parameter
@@ -95,8 +94,8 @@ class AtbBoostBase:
             self.max_base_len, dtype=self.dtype, need_nz=self.need_nz
         )
-        self.cast = P.Cast()
-        self.reshape = P.Reshape()
+        self.cast = ops.Cast()
+        self.reshape = ops.Reshape()
         self.kv_quant = None
         self.rank_id = get_real_rank()
         self.device_num = get_real_group_size()

mindspore/experimental/optim/adadelta.py CHANGED Viewed

@@ -1,34 +1,24 @@
-# Copyright 2023 Huawei Technologies Co., Ltd
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
+# The code implementation refers to the following files from pytorch:
+# - https://github.com/pytorch/pytorch/blob/v1.13.0/torch/optim/adadelta.py
+# Additional modifications are made by Huawei Technologies Co., Ltd in 2023.
 # ============================================================================
 """adadelta"""
 from __future__ import absolute_import
-from mindspore.ops import functional as F, composite as C, operations as P
+from mindspore import ops
 import mindspore.common.dtype as mstype
 from mindspore.experimental.optim.optimizer import Optimizer, check_not_less_than, check_not_less_than_without_equal
 from mindspore import _checkparam as validator
 from mindspore import jit
-_adadelta_opt = C.MultitypeFuncGraph("adadelta_opt")
+_adadelta_opt = ops.MultitypeFuncGraph("adadelta_opt")
 @_adadelta_opt.register("Function", "Number", "Number", "Tensor", "Tensor", "Tensor", "Tensor", "Tensor")
 def _tensor_run_opt(opt, rho, epsilon, learning_rate, weight, accum, accum_update, gradient):
     """Apply adadelta optimizer to the weight parameter."""
     success = True
-    success = F.depend(success, opt(weight, accum, accum_update, learning_rate, rho, epsilon, gradient))
+    success = ops.depend(success, opt(weight, accum, accum_update, learning_rate, rho, epsilon, gradient))
     return success
@@ -60,6 +50,9 @@ class Adadelta(Optimizer):
             &\rule{180mm}{0.4pt}                                                          \\[-1.ex]
         \end{aligned}
+    For more details about Adadelta algorithm, please refer to `ADADELTA: An Adaptive Learning Rate Method
+    <https://arxiv.org/abs/1212.5701>`_.
     .. warning::
         This is an experimental optimizer API that is subject to change.
         This module must be used with lr scheduler module in `LRScheduler Class
@@ -129,18 +122,18 @@ class Adadelta(Optimizer):
         self.accum = self.parameters.clone(prefix="accum", init=0)
         self.accum_update = self.parameters.clone(prefix="accum_update", init=0)
-        self.opt = P.ApplyAdadelta()
-        self.op_cast = P.Cast()
+        self.opt = ops.ApplyAdadelta()
+        self.op_cast = ops.Cast()
     @jit
     def implementation(self, lr, rho, eps, maximize, weight_decay, start_id, end_id, gradients):
         """Extract the common computing part for acceleration"""
         params = self.parameters[start_id: end_id]
-        grads = tuple([grad if not maximize else F.neg(grad) for grad in gradients[start_id: end_id]])
+        grads = tuple([grad if not maximize else ops.neg(grad) for grad in gradients[start_id: end_id]])
         grads = self._decay_weight(weight_decay, params, grads)
         accum = self.accum[start_id: end_id]
         accum_update = self.accum_update[start_id: end_id]
-        self.hyper_map(F.partial(_adadelta_opt, self.opt, rho, eps, lr),
+        self.hyper_map(ops.partial(_adadelta_opt, self.opt, rho, eps, lr),
                        params, accum, accum_update, grads)
         return True

mindspore/experimental/optim/adagrad.py CHANGED Viewed

@@ -1,34 +1,24 @@
-# Copyright 2023 Huawei Technologies Co., Ltd
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
+# The code implementation refers to the following files from pytorch:
+# - https://github.com/pytorch/pytorch/blob/v1.13.0/torch/optim/adagrad.py
+# Additional modifications are made by Huawei Technologies Co., Ltd in 2023.
 # ============================================================================
 """adagrad"""
 from __future__ import absolute_import
-from mindspore.ops import functional as F, composite as C, operations as P
+from mindspore import ops
 from mindspore.common import Tensor, Parameter
 import mindspore.common.dtype as mstype
 from mindspore.experimental.optim.optimizer import Optimizer, check_not_less_than, check_not_less_than_without_equal
 from mindspore import jit
-_adagrad_opt = C.MultitypeFuncGraph("adagrad_opt")
+_adagrad_opt = ops.MultitypeFuncGraph("adagrad_opt")
 @_adagrad_opt.register("Function", "Tensor", "Tensor", "Tensor", "Tensor")
 def _tensor_run_opt(opt, learning_rate, weight, accum, gradient):
     """Apply adagrad optimizer to the weight parameter."""
     success = True
-    success = F.depend(success, opt(weight, accum, learning_rate, gradient))
+    success = ops.depend(success, opt(weight, accum, learning_rate, gradient))
     return success
@@ -57,6 +47,9 @@ class Adagrad(Optimizer):
             &\rule{160mm}{0.4pt}                                                          \\[-1.ex]
        \end{aligned}
+    For more details about Adagrad algorithm, please refer to `Adaptive Subgradient Methods for Online Learning and \
+    Stochastic Optimization <https://jmlr.org/papers/v12/duchi11a.html>`_.
     .. warning::
         This is an experimental optimizer API that is subject to change.
         This module must be used with lr scheduler module in `LRScheduler Class
@@ -129,22 +122,22 @@ class Adagrad(Optimizer):
         super(Adagrad, self).__init__(params, defaults)
         self.accum = self.parameters.clone(prefix="accum", init=initial_accumulator_value)
-        self.op_cast = P.Cast()
+        self.op_cast = ops.Cast()
         self.step_t = Parameter(Tensor(0, mstype.int32), "step_t")
         self.increase_tensor = Tensor(1, mstype.int32)
-        self.assignadd = P.AssignAdd()
-        self.assign = P.Assign()
+        self.assignadd = ops.AssignAdd()
+        self.assign = ops.Assign()
     @jit
     def implementation(self, eps, lr, lr_decay, maximize, weight_decay, start_id, end_id, gradients):
         """Extract the common computing part for acceleration"""
-        opt = P.ApplyAdagradV2(epsilon=eps, update_slots=True)
+        opt = ops.ApplyAdagradV2(epsilon=eps, update_slots=True)
         decay_lr = lr / (1 + self.step_t * lr_decay)
         params = self.parameters[start_id: end_id]
-        grads = tuple([grad if not maximize else F.neg(grad) for grad in gradients[start_id: end_id]])
+        grads = tuple([grad if not maximize else ops.neg(grad) for grad in gradients[start_id: end_id]])
         grads = self._decay_weight(weight_decay, params, grads)
         accum = self.accum[start_id: end_id]
-        self.hyper_map(F.partial(_adagrad_opt, opt, decay_lr), params, accum, grads)
+        self.hyper_map(ops.partial(_adagrad_opt, opt, decay_lr), params, accum, grads)
         return True
     def construct(self, gradients):

mindspore/experimental/optim/adam.py CHANGED Viewed

@@ -1,29 +1,19 @@
-# Copyright 2023 Huawei Technologies Co., Ltd
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
+# The code implementation refers to the following files from pytorch:
+# - https://github.com/pytorch/pytorch/blob/v1.13.0/torch/optim/adam.py
+# Additional modifications are made by Huawei Technologies Co., Ltd in 2023.
 # ============================================================================
 """adam"""
 from __future__ import absolute_import
-from mindspore.ops import functional as F, composite as C, operations as P
+from mindspore import ops
 from mindspore.common.parameter import Parameter
 from mindspore.common.tensor import Tensor
 import mindspore.common.dtype as mstype
 from mindspore.experimental.optim.optimizer import Optimizer
 from mindspore.common.api import jit
-_adam_opt = C.MultitypeFuncGraph("adam_opt")
-adam_op = P.Adam(False, False)
+_adam_opt = ops.MultitypeFuncGraph("adam_opt")
+adam_op = ops.Adam(False, False)
 @_adam_opt.register("Tensor", "Tensor", "Float", "Float", "Float", "Tensor",
@@ -81,6 +71,9 @@ class Adam(Optimizer):
             &\rule{180mm}{0.4pt}                                                          \\[-1.ex]
        \end{aligned}
+    For more details about Adam algorithm, please refer to `Adam: A Method for Stochastic Optimization
+    <https://arxiv.org/abs/1412.6980>`_.
     .. warning::
         The implementation formula of this optimizer interface is not completely consistent with that in the paper.
         If you want to use an interface that is completely consistent, it is recommended to use
@@ -160,12 +153,12 @@ class Adam(Optimizer):
         self.max_exp_avg_sq = self.parameters.clone(prefix="max_exp_avg_sq", init='zeros')
         self.state_step = Parameter(Tensor(0, mstype.int32), "state_step")
         self.increase_tensor = Tensor(1, mstype.int32)
-        self.assignadd = P.AssignAdd()
-        self.op_add = P.AddN()
-        self.op_mul = P.Mul()
-        self.op_pow = P.Pow()
-        self.adam_opt = P.Adam(False, False)
-        self.op_cast = P.Cast()
+        self.assignadd = ops.AssignAdd()
+        self.op_add = ops.AddN()
+        self.op_mul = ops.Mul()
+        self.op_pow = ops.Pow()
+        self.adam_opt = ops.Adam(False, False)
+        self.op_cast = ops.Cast()
     @jit
     def implementation(self, beta1, beta2, eps, lr, start_id, end_id, gradients, maximize, weight_decay):
@@ -173,9 +166,9 @@ class Adam(Optimizer):
         beta1_power = self.op_pow(beta1, self.state_step)
         beta2_power = self.op_pow(beta2, self.state_step)
         params = self.parameters[start_id: end_id]
-        grads = tuple([grad if not maximize else F.neg(grad) for grad in gradients[start_id: end_id]])
+        grads = tuple([grad if not maximize else ops.neg(grad) for grad in gradients[start_id: end_id]])
         grads = self._decay_weight(weight_decay, params, grads)
-        self.hyper_map(F.partial(_adam_opt, beta1_power, beta2_power, beta1, beta2, eps, lr),
+        self.hyper_map(ops.partial(_adam_opt, beta1_power, beta2_power, beta1, beta2, eps, lr),
                        grads, params,
                        self.exp_avg[start_id: end_id], self.exp_avg_sq[start_id: end_id])
         return True

mindspore/experimental/optim/adamax.py CHANGED Viewed

@@ -1,21 +1,10 @@
-# Copyright 2023 Huawei Technologies Co., Ltd
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
+# The code implementation refers to the following files from pytorch:
+# - https://github.com/pytorch/pytorch/blob/v1.13.0/torch/optim/adamax.py
+# Additional modifications are made by Huawei Technologies Co., Ltd in 2023.
 # ============================================================================
 """adamax"""
 from __future__ import absolute_import
-from mindspore.ops import functional as F, composite as C, operations as P
 from mindspore.common import Tensor, Parameter
 import mindspore.common.dtype as mstype
 from mindspore import _checkparam as validator
@@ -23,17 +12,17 @@ from mindspore.experimental.optim.optimizer import Optimizer, check_not_less_tha
 from mindspore import ops
 from mindspore import jit
-_adamax_opt = C.MultitypeFuncGraph("adamax_opt")
+_adamax_opt = ops.MultitypeFuncGraph("adamax_opt")
 @_adamax_opt.register("Number", "Number", "Number", "Tensor", "Tensor", "Tensor", "Tensor", "Tensor")
 def _tensor_run_opt(beta1, beta2, eps, clr, param, grad, exp_avg, exp_inf):
     """Apply adamax optimizer to the weight parameter."""
-    F.assign(exp_avg, exp_avg * beta1 + grad * (1-beta1))
+    ops.assign(exp_avg, exp_avg * beta1 + grad * (1-beta1))
     norm_buf = ops.cat([ops.unsqueeze(exp_inf * beta2, 0), ops.unsqueeze(grad.abs().add(eps), 0)], 0)
-    F.assign(exp_inf, ops.amax(norm_buf, 0))
+    ops.assign(exp_inf, ops.amax(norm_buf, 0))
-    F.assign(param, param - clr * exp_avg / exp_inf)
+    ops.assign(param, param - clr * exp_avg / exp_inf)
     return True
@@ -68,6 +57,9 @@ class Adamax(Optimizer):
         This module must be used with lr scheduler module in `LRScheduler Class
         <https://www.mindspore.cn/docs/en/master/api_python/mindspore.experimental.html#lrscheduler-class>`_ .
+    For more details about Adamax algorithm, please refer to `Adam: A Method for Stochastic Optimization
+    <https://arxiv.org/abs/1412.6980>`_.
     Args:
         params (Union[list(Parameter), list(dict)]): list of parameters to optimize or dicts defining
             parameter groups.
@@ -135,8 +127,8 @@ class Adamax(Optimizer):
         self.exp_avg = self.parameters.clone(prefix="exp_avg", init='zeros')
         self.exp_inf = self.parameters.clone(prefix="exp_inf", init='zeros')
         self.increase_tensor = Tensor(1, mstype.int32)
-        self.assignadd = P.AssignAdd()
-        self.op_cast = P.Cast()
+        self.assignadd = ops.AssignAdd()
+        self.op_cast = ops.Cast()
     @jit
     def implementation(self, group_id, lr, gradients, maximize, weight_decay, beta1, beta2, eps):
@@ -144,13 +136,13 @@ class Adamax(Optimizer):
         start_id = self.group_start_id[group_id]
         end_id = self.group_start_id[group_id + 1]
         params = self.parameters[start_id: end_id]
-        grads = tuple([grad if not maximize else F.neg(grad) for grad in gradients[start_id: end_id]])
+        grads = tuple([grad if not maximize else ops.neg(grad) for grad in gradients[start_id: end_id]])
         grads = self._decay_weight(weight_decay, params, grads)
         exp_avg = self.exp_avg[start_id: end_id]
         exp_inf = self.exp_inf[start_id: end_id]
         bias_correction = 1 - beta1 ** self.step_t
         clr = lr / bias_correction
-        self.hyper_map(F.partial(_adamax_opt, beta1, beta2, eps, clr),
+        self.hyper_map(ops.partial(_adamax_opt, beta1, beta2, eps, clr),
                        params, grads, exp_avg, exp_inf)
         return True

mindspore/experimental/optim/adamw.py CHANGED Viewed

@@ -1,21 +1,10 @@
-# Copyright 2023 Huawei Technologies Co., Ltd
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
+# The code implementation refers to the following files from pytorch:
+# - https://github.com/pytorch/pytorch/blob/v1.13.0/torch/optim/adamw.py
+# Additional modifications are made by Huawei Technologies Co., Ltd in 2023.
 # ============================================================================
 """adamw"""
 from __future__ import absolute_import
-from mindspore.ops import functional as F, composite as C, operations as P
 from mindspore.common.parameter import Parameter
 from mindspore.common.tensor import Tensor
 import mindspore.common.dtype as mstype
@@ -25,14 +14,14 @@ from mindspore.ops import auto_generate as gen
 from mindspore import ops
 from mindspore import jit
-_adamw_opt = C.MultitypeFuncGraph("adamw_opt")
-_speed_adamw_opt = C.MultitypeFuncGraph("speed_adamw_opt")
+_adamw_opt = ops.MultitypeFuncGraph("adamw_opt")
+_speed_adamw_opt = ops.MultitypeFuncGraph("speed_adamw_opt")
-op_mul = P.Mul()
-op_pow = P.Pow()
-op_sqrt = P.Sqrt()
-op_maximum = P.Maximum()
-hyper_map = C.HyperMap()
+op_mul = ops.Mul()
+op_pow = ops.Pow()
+op_sqrt = ops.Sqrt()
+op_maximum = ops.Maximum()
+hyper_map = ops.HyperMap()
 @_speed_adamw_opt.register("Function", "Float", "Float", "Tensor", "Float", "Float", "Bool", "Bool", "Tensor", "Tensor",
@@ -76,18 +65,18 @@ def _run_adamw_opt(weight_decay_new, step_size, amsgrad, eps, bias_correction2_s
     """Apply adamw optimizer to the weight parameter."""
     success = True
     next_param = op_mul(param, weight_decay_new)
-    F.assign(exp_avg, op_mul(exp_avg, beta1) + op_mul(grad, 1 - beta1))
-    F.assign(exp_avg_sq, ops.addcmul(op_mul(exp_avg_sq, beta2), grad, grad, 1 - beta2))
+    ops.assign(exp_avg, op_mul(exp_avg, beta1) + op_mul(grad, 1 - beta1))
+    ops.assign(exp_avg_sq, ops.addcmul(op_mul(exp_avg_sq, beta2), grad, grad, 1 - beta2))
     if amsgrad:
         next_max_exp_avg = op_maximum(max_exp_avg_sq, exp_avg_sq)
         denom = op_sqrt(next_max_exp_avg) / bias_correction2_sqrt + eps
-        F.assign(max_exp_avg_sq, next_max_exp_avg)
+        ops.assign(max_exp_avg_sq, next_max_exp_avg)
     else:
         denom = op_sqrt(exp_avg_sq) / bias_correction2_sqrt + eps
     return_param = next_param - op_mul(exp_avg / denom, step_size)
-    F.assign(param, return_param)
+    ops.assign(param, return_param)
     return success
@@ -129,6 +118,10 @@ class AdamW(Optimizer):
             &\rule{180mm}{0.4pt}                                                          \\[-1.ex]
        \end{aligned}
+    More details of the AdamW algorithm can be found in the paper `Decoupled Weight Decay Regularization
+    <https://arxiv.org/abs/1711.05101>`_ and `On the Convergence of Adam and Beyond
+    <https://openreview.net/forum?id=ryQu7f-RZ>`_.
     .. warning::
         This is an experimental optimizer API that is subject to change.
         This module must be used with lr scheduler module in `LRScheduler Class
@@ -205,16 +198,16 @@ class AdamW(Optimizer):
         self.max_exp_avg_sq = self.parameters.clone(prefix="max_exp_avg_sq", init='zeros')
         self.state_step = Parameter(Tensor(0, mstype.int32), "state_step")
         self.increase_tensor = Tensor(1, mstype.int32)
-        self.assignadd = P.AssignAdd()
-        self.op_cast = P.Cast()
+        self.assignadd = ops.AssignAdd()
+        self.op_cast = ops.Cast()
     @jit
     def implementation(self, lr, weight_decay, beta1, beta2, amsgrad, eps, grads, start_id, end_id):
         """Extract the common computing part for acceleration"""
         weight_decay_new, step_size, bias_correction2_sqrt = prepare_func(lr, weight_decay,
                                                                           self.state_step, beta1, beta2)
-        self.hyper_map(F.partial(_adamw_opt, weight_decay_new, step_size, amsgrad,
-                                 eps, bias_correction2_sqrt, beta1, beta2),
+        self.hyper_map(ops.partial(_adamw_opt, weight_decay_new, step_size, amsgrad,
+                                   eps, bias_correction2_sqrt, beta1, beta2),
                        self.parameters[start_id: end_id], grads, self.exp_avg[start_id: end_id],
                        self.exp_avg_sq[start_id: end_id], self.max_exp_avg_sq[start_id: end_id])
         return True
@@ -228,7 +221,8 @@ class AdamW(Optimizer):
             lr = self.lrs[group_id]
             if isinstance(group.get("lr"), float):
                 lr = self.op_cast(group.get("lr"), mstype.float32)
-            grads = tuple([grad if not group.get("maximize") else F.neg(grad) for grad in gradients[start_id: end_id]])
+            grads = tuple([grad if not group.get("maximize") else ops.neg(grad) \
+                           for grad in gradients[start_id:end_id]])
             self.implementation(lr, group.get("weight_decay"), beta1, beta2, group.get("amsgrad"), group.get("eps"),
                                 grads, start_id, end_id)
@@ -265,7 +259,7 @@ class SpeedAdamW(Optimizer):
         self.exp_avg_sq = self.parameters.clone(prefix="exp_avg_sq", init='zeros')
         self.state_step = Parameter(Tensor([0], mstype.float32), "state_step")
         self.increase_tensor = Tensor(1, mstype.float32)
-        self.assignadd = P.AssignAdd()
+        self.assignadd = ops.AssignAdd()
         self.adamw_opt = gen.ApplyAdamW()
     def construct(self, gradients):
@@ -285,9 +279,9 @@ class SpeedAdamW(Optimizer):
             if group.get("amsgrad"):
                 raise ValueError("For SpeedAdamW, the value of amsgrad can only be False.")
-            self.hyper_map(F.partial(_speed_adamw_opt, self.adamw_opt, beta1, beta2, lr,
-                                     group.get("eps"), group.get("weight_decay"),
-                                     group.get("amsgrad"), maximize, bias_correction1, bias_correction2),
+            self.hyper_map(ops.partial(_speed_adamw_opt, self.adamw_opt, beta1, beta2, lr,
+                                       group.get("eps"), group.get("weight_decay"),
+                                       group.get("amsgrad"), maximize, bias_correction1, bias_correction2),
                            self.parameters[start_id: end_id], grads, self.exp_avg[start_id: end_id],
                            self.exp_avg_sq[start_id: end_id])

mindspore/experimental/optim/asgd.py CHANGED Viewed

@@ -1,33 +1,23 @@
-# Copyright 2021-2022 Huawei Technologies Co., Ltd
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
+# The code implementation refers to the following files from pytorch:
+# - https://github.com/pytorch/pytorch/blob/v1.13.0/torch/optim/asgd.py
+# Additional modifications are made by Huawei Technologies Co., Ltd in 2023.
 # ============================================================================
 """asgd"""
 from __future__ import absolute_import
-from mindspore.ops import functional as F, composite as C, operations as P
+from mindspore import ops
 from mindspore.common import Tensor, Parameter
 import mindspore.common.dtype as mstype
 from mindspore.experimental.optim.optimizer import Optimizer, check_not_less_than, check_not_less_than_without_equal
 from mindspore.common.api import jit
-_asgd_opt = C.MultitypeFuncGraph("asgd_opt")
+_asgd_opt = ops.MultitypeFuncGraph("asgd_opt")
-op_cast = P.Cast()
-op_pow = P.Pow()
-op_maximum = P.Maximum()
-op_assign = P.Assign()
-op_assignadd = P.AssignAdd()
+op_cast = ops.Cast()
+op_pow = ops.Pow()
+op_maximum = ops.Maximum()
+op_assign = ops.Assign()
+op_assignadd = ops.AssignAdd()
 @_asgd_opt.register("Number", "Number", "Number", "Tensor", "Tensor", "Tensor", "Tensor",
@@ -37,7 +27,7 @@ def _run_asgd_opt(lambd, alpha, t0, step, lr, param, grad, eta, mu, ax):
     if step == 1:
         op_assign(eta, lr)
     next_param = op_cast(param * (1. - lambd * eta) - eta * grad, param.dtype)
-    F.assign(param, next_param)
+    ops.assign(param, next_param)
     if mu != 1:
         op_assignadd(ax, op_cast((next_param - ax) * mu, ax.dtype))
@@ -121,8 +111,8 @@ class ASGD(Optimizer):
         self.ax = self.parameters.clone(prefix="ax", init='zeros')
         self.step_t = Parameter(Tensor(0, mstype.int32), "step_t")
         self.increase_tensor = Tensor(1, mstype.int32)
-        self.assignadd = P.AssignAdd()
-        self.op_cast = P.Cast()
+        self.assignadd = ops.AssignAdd()
+        self.op_cast = ops.Cast()
     @jit(backend="ms_backend")
     def implementation(self, lambd, alpha, t0, lr, group_id, maximize, gradients, weight_decay):
@@ -130,13 +120,13 @@ class ASGD(Optimizer):
         start_id = self.group_start_id[group_id]
         end_id = self.group_start_id[group_id + 1]
         params = self.parameters[start_id: end_id]
-        grads = tuple([grad if not maximize else F.neg(grad) for grad in gradients[start_id: end_id]])
+        grads = tuple([grad if not maximize else ops.neg(grad) for grad in gradients[start_id: end_id]])
         grads = self._decay_weight(weight_decay, params, grads)
         ax = self.ax[start_id: end_id]
         eta = self.eta[start_id: end_id]
         mu = self.mu[start_id: end_id]
-        self.hyper_map(F.partial(_asgd_opt, lambd, alpha, t0, self.step_t, lr),
+        self.hyper_map(ops.partial(_asgd_opt, lambd, alpha, t0, self.step_t, lr),
                        params, grads, eta, mu, ax)
         return True