PyPI - mindspore - Versions diffs - 2.6.0__cp39-cp39-win_amd64.whl → 2.7.0rc1__cp39-cp39-win_amd64.whl - Mend

mindspore 2.6.0__cp39-cp39-win_amd64.whl → 2.7.0rc1__cp39-cp39-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mindspore might be problematic. Click here for more details.

Files changed (380) hide show

mindspore/.commit_id +1 -1
mindspore/__init__.py +1 -1
mindspore/_c_dataengine.cp39-win_amd64.pyd +0 -0
mindspore/_c_expression.cp39-win_amd64.pyd +0 -0
mindspore/_c_mindrecord.cp39-win_amd64.pyd +0 -0
mindspore/_checkparam.py +40 -9
mindspore/{_deprecated → _extends/optimize}/__init__.py +9 -3
mindspore/_extends/optimize/cell_utils.py +96 -0
mindspore/_extends/parse/__init__.py +2 -2
mindspore/_extends/parse/compile_config.py +44 -22
mindspore/_extends/parse/deprecated/deprecated_tensor_method.py +1 -1
mindspore/_extends/parse/parser.py +36 -61
mindspore/_extends/parse/resources.py +39 -0
mindspore/_extends/parse/standard_method.py +32 -13
mindspore/_extends/parse/trope.py +8 -1
mindspore/_extends/pijit/__init__.py +1 -2
mindspore/amp.py +4 -4
mindspore/avcodec-59.dll +0 -0
mindspore/avdevice-59.dll +0 -0
mindspore/avfilter-8.dll +0 -0
mindspore/avformat-59.dll +0 -0
mindspore/avutil-57.dll +0 -0
mindspore/boost/adasum.py +1 -1
mindspore/boost/boost_cell_wrapper.py +4 -4
mindspore/common/__init__.py +27 -2
mindspore/common/_grad_function.py +2 -1
mindspore/common/_pijit_context.py +28 -7
mindspore/common/_stub_tensor.py +1 -209
mindspore/common/_tensor_cpp_method.py +1 -1
mindspore/common/_tensor_docs.py +76 -15
mindspore/common/api.py +193 -112
mindspore/common/dtype.py +21 -11
mindspore/common/dump.py +10 -15
mindspore/common/generator.py +2 -3
mindspore/common/hook_handle.py +11 -2
mindspore/common/jit_config.py +1 -1
mindspore/common/jit_trace.py +84 -105
mindspore/common/parameter.py +26 -12
mindspore/common/recompute.py +3 -3
mindspore/common/sparse_tensor.py +0 -3
mindspore/common/symbol.py +0 -1
mindspore/common/tensor.py +48 -83
mindspore/communication/_comm_helper.py +46 -4
mindspore/communication/management.py +79 -7
mindspore/context.py +38 -23
mindspore/dataset/core/config.py +3 -3
mindspore/dataset/engine/datasets.py +20 -7
mindspore/dataset/engine/datasets_user_defined.py +32 -2
mindspore/dataset/engine/iterators.py +2 -2
mindspore/dataset/engine/obs/config_loader.py +2 -2
mindspore/dataset/engine/obs/obs_mindrecord_dataset.py +8 -0
mindspore/dataset/transforms/py_transforms.py +7 -3
mindspore/dataset/transforms/transforms.py +7 -3
mindspore/dataset/vision/validators.py +1 -0
mindspore/device_context/ascend/device.py +1 -1
mindspore/device_context/gpu/__init__.py +2 -2
mindspore/device_context/gpu/device.py +1 -1
mindspore/device_context/gpu/op_precision.py +4 -2
mindspore/device_context/gpu/op_tuning.py +6 -3
mindspore/device_manager.py +16 -9
mindspore/dnnl.dll +0 -0
mindspore/experimental/llm_boost/ascend_native/llama_boost_ascend_native.py +3 -5
mindspore/experimental/llm_boost/atb/boost_base.py +2 -3
mindspore/experimental/optim/adadelta.py +13 -20
mindspore/experimental/optim/adagrad.py +15 -22
mindspore/experimental/optim/adam.py +17 -24
mindspore/experimental/optim/adamax.py +14 -22
mindspore/experimental/optim/adamw.py +28 -34
mindspore/experimental/optim/asgd.py +15 -25
mindspore/experimental/optim/lr_scheduler.py +27 -45
mindspore/experimental/optim/nadam.py +14 -24
mindspore/experimental/optim/optimizer.py +13 -23
mindspore/experimental/optim/radam.py +18 -24
mindspore/experimental/optim/rmsprop.py +14 -25
mindspore/experimental/optim/rprop.py +15 -26
mindspore/experimental/optim/sgd.py +9 -19
mindspore/hal/__init__.py +4 -4
mindspore/hal/contiguous_tensors_handle.py +2 -2
mindspore/hal/memory.py +1 -0
mindspore/include/api/cell.h +37 -1
mindspore/include/api/delegate.h +10 -0
mindspore/include/api/model.h +3 -0
mindspore/include/api/types.h +2 -2
mindspore/include/c_api/model_c.h +0 -58
mindspore/include/c_api/tensor_c.h +0 -26
mindspore/include/dataset/vision_ascend.h +1 -1
mindspore/jpeg62.dll +0 -0
mindspore/mindrecord/tools/cifar10.py +60 -11
mindspore/mindrecord/tools/cifar10_to_mr.py +5 -0
mindspore/mindspore_backend_common.dll +0 -0
mindspore/mindspore_backend_manager.dll +0 -0
mindspore/mindspore_common.dll +0 -0
mindspore/mindspore_core.dll +0 -0
mindspore/mindspore_cpu_res_manager.dll +0 -0
mindspore/mindspore_dump.dll +0 -0
mindspore/mindspore_frontend.dll +0 -0
mindspore/mindspore_glog.dll +0 -0
mindspore/mindspore_memory_pool.dll +0 -0
mindspore/mindspore_ms_backend.dll +0 -0
mindspore/mindspore_ops.dll +0 -0
mindspore/mindspore_ops_host.dll +0 -0
mindspore/mindspore_ops_kernel_common.dll +0 -0
mindspore/mindspore_profiler.dll +0 -0
mindspore/mindspore_pyboost.dll +0 -0
mindspore/mindspore_pynative.dll +0 -0
mindspore/mindspore_res_manager.dll +0 -0
mindspore/mindspore_runtime_pipeline.dll +0 -0
mindspore/mint/__init__.py +4 -44
mindspore/mint/distributed/__init__.py +1 -0
mindspore/mint/distributed/distributed.py +208 -5
mindspore/mint/nn/__init__.py +1 -1
mindspore/mint/nn/functional.py +53 -6
mindspore/mint/nn/layer/_functions.py +164 -294
mindspore/mint/nn/layer/activation.py +8 -6
mindspore/mint/nn/layer/conv.py +122 -98
mindspore/mint/nn/layer/normalization.py +8 -22
mindspore/mint/optim/adam.py +19 -18
mindspore/mint/optim/adamw.py +14 -8
mindspore/mint/optim/sgd.py +5 -5
mindspore/nn/cell.py +325 -499
mindspore/nn/grad/cell_grad.py +11 -12
mindspore/nn/layer/activation.py +32 -34
mindspore/nn/layer/basic.py +67 -64
mindspore/nn/layer/channel_shuffle.py +4 -4
mindspore/nn/layer/combined.py +4 -2
mindspore/nn/layer/conv.py +86 -85
mindspore/nn/layer/dense.py +9 -7
mindspore/nn/layer/embedding.py +50 -52
mindspore/nn/layer/image.py +37 -39
mindspore/nn/layer/math.py +111 -112
mindspore/nn/layer/normalization.py +56 -44
mindspore/nn/layer/pooling.py +58 -63
mindspore/nn/layer/rnn_cells.py +33 -33
mindspore/nn/layer/rnns.py +56 -56
mindspore/nn/layer/thor_layer.py +74 -73
mindspore/nn/layer/transformer.py +11 -1
mindspore/nn/learning_rate_schedule.py +20 -20
mindspore/nn/loss/loss.py +79 -81
mindspore/nn/optim/adam.py +1 -1
mindspore/nn/optim/adasum.py +2 -2
mindspore/nn/optim/optimizer.py +1 -1
mindspore/nn/optim/thor.py +2 -2
mindspore/nn/probability/distribution/exponential.py +2 -1
mindspore/nn/probability/distribution/poisson.py +2 -1
mindspore/nn/sparse/sparse.py +3 -3
mindspore/nn/wrap/cell_wrapper.py +34 -37
mindspore/nn/wrap/grad_reducer.py +37 -37
mindspore/nn/wrap/loss_scale.py +72 -74
mindspore/numpy/array_creations.py +5 -5
mindspore/numpy/fft.py +1 -1
mindspore/numpy/math_ops.py +1 -1
mindspore/opencv_core452.dll +0 -0
mindspore/opencv_imgcodecs452.dll +0 -0
mindspore/opencv_imgproc452.dll +0 -0
mindspore/ops/_grad_experimental/grad_comm_ops.py +51 -13
mindspore/ops/_grad_experimental/grad_debug_ops.py +14 -0
mindspore/ops/_vmap/vmap_array_ops.py +6 -13
mindspore/ops/_vmap/vmap_nn_ops.py +8 -16
mindspore/ops/auto_generate/cpp_create_prim_instance_helper.py +17 -8
mindspore/ops/auto_generate/gen_extend_func.py +1 -51
mindspore/ops/auto_generate/gen_ops_def.py +463 -257
mindspore/ops/auto_generate/gen_ops_prim.py +1127 -885
mindspore/ops/auto_generate/pyboost_inner_prim.py +31 -1
mindspore/ops/composite/__init__.py +10 -0
mindspore/ops/composite/base.py +8 -4
mindspore/ops/composite/multitype_ops/__init__.py +12 -1
mindspore/ops/composite/multitype_ops/_compile_utils.py +132 -108
mindspore/ops/composite/multitype_ops/add_impl.py +70 -2
mindspore/ops/composite/multitype_ops/div_impl.py +49 -0
mindspore/ops/composite/multitype_ops/floordiv_impl.py +29 -0
mindspore/ops/composite/multitype_ops/getitem_impl.py +11 -0
mindspore/ops/composite/multitype_ops/mod_impl.py +5 -3
mindspore/ops/composite/multitype_ops/mul_impl.py +49 -0
mindspore/ops/composite/multitype_ops/setitem_impl.py +57 -0
mindspore/ops/composite/multitype_ops/sub_impl.py +34 -0
mindspore/ops/composite/multitype_ops/zeros_like_impl.py +14 -0
mindspore/ops/function/__init__.py +3 -1
mindspore/ops/function/_add_attr_func.py +11 -6
mindspore/ops/function/array_func.py +7 -94
mindspore/ops/function/debug_func.py +4 -3
mindspore/ops/function/grad/grad_func.py +1 -1
mindspore/ops/function/math_func.py +21 -367
mindspore/ops/function/nn_func.py +26 -41
mindspore/ops/function/other_func.py +4 -1
mindspore/ops/function/random_func.py +31 -4
mindspore/ops/functional.py +0 -2
mindspore/ops/functional_overload.py +463 -6
mindspore/ops/op_info_register.py +21 -0
mindspore/ops/operations/__init__.py +5 -2
mindspore/ops/operations/_custom_ops_utils.py +675 -8
mindspore/ops/operations/_inner_ops.py +3 -6
mindspore/ops/operations/_sequence_ops.py +1 -1
mindspore/ops/operations/comm_ops.py +185 -26
mindspore/ops/operations/custom_ops.py +235 -172
mindspore/ops/operations/debug_ops.py +55 -4
mindspore/ops/operations/image_ops.py +13 -13
mindspore/ops/operations/manually_defined/ops_def.py +15 -16
mindspore/ops/operations/math_ops.py +3 -4
mindspore/ops/operations/nn_ops.py +5 -6
mindspore/ops/primitive.py +6 -10
mindspore/ops/tensor_method.py +36 -4
mindspore/ops_generate/api/cpp_create_prim_instance_helper_generator.py +1 -1
mindspore/ops_generate/api/functional_map_cpp_generator.py +10 -9
mindspore/ops_generate/api/functions_cc_generator.py +58 -10
mindspore/ops_generate/api/tensor_func_reg_cpp_generator.py +1 -1
mindspore/ops_generate/common/base_generator.py +14 -0
mindspore/ops_generate/common/gen_constants.py +7 -2
mindspore/ops_generate/common/gen_utils.py +0 -19
mindspore/ops_generate/common/op_proto.py +11 -4
mindspore/ops_generate/common/template.py +88 -11
mindspore/ops_generate/gen_ops.py +1 -1
mindspore/ops_generate/op_def/lite_ops_cpp_generator.py +4 -4
mindspore/ops_generate/op_def/ops_name_h_generator.py +0 -3
mindspore/ops_generate/op_def/ops_primitive_h_generator.py +0 -4
mindspore/ops_generate/op_def_py/op_prim_py_generator.py +5 -2
mindspore/ops_generate/pyboost/auto_grad_impl_cc_generator.py +49 -8
mindspore/ops_generate/pyboost/auto_grad_reg_cc_generator.py +2 -2
mindspore/ops_generate/pyboost/gen_pyboost_func.py +31 -0
mindspore/ops_generate/pyboost/op_template_parser.py +98 -72
mindspore/ops_generate/pyboost/pyboost_functions_cpp_generator.py +70 -273
mindspore/ops_generate/pyboost/pyboost_functions_h_generator.py +14 -6
mindspore/ops_generate/pyboost/pyboost_functions_impl_cpp_generator.py +316 -0
mindspore/ops_generate/pyboost/pyboost_functions_py_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_grad_function_cpp_generator.py +5 -3
mindspore/ops_generate/pyboost/pyboost_inner_prim_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_internal_functions_cpp_generator.py +76 -0
mindspore/ops_generate/pyboost/pyboost_internal_functions_h_generator.py +76 -0
mindspore/ops_generate/pyboost/pyboost_internal_kernel_info_adapter_generator.py +125 -0
mindspore/ops_generate/pyboost/pyboost_native_grad_functions_generator.py +4 -3
mindspore/ops_generate/pyboost/pyboost_op_cpp_code_generator.py +348 -61
mindspore/ops_generate/pyboost/pyboost_overload_functions_cpp_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_utils.py +118 -9
mindspore/ops_generate/tensor_py_cc_generator.py +1 -24
mindspore/parallel/_auto_parallel_context.py +4 -2
mindspore/parallel/_cell_wrapper.py +106 -40
mindspore/parallel/_parallel_serialization.py +1 -1
mindspore/parallel/_ps_context.py +4 -6
mindspore/parallel/_tensor.py +167 -12
mindspore/parallel/_transformer/moe.py +1 -1
mindspore/parallel/_transformer/transformer.py +13 -8
mindspore/parallel/auto_parallel.py +12 -5
mindspore/parallel/checkpoint_convert.py +3 -3
mindspore/parallel/checkpoint_transform.py +3 -1
mindspore/parallel/cluster/process_entity/_api.py +84 -48
mindspore/parallel/cluster/process_entity/_utils.py +95 -7
mindspore/parallel/cluster/run.py +43 -4
mindspore/parallel/function/__init__.py +8 -1
mindspore/parallel/function/reshard_func.py +1 -1
mindspore/parallel/nn/__init__.py +15 -2
mindspore/parallel/nn/parallel_cell_wrapper.py +9 -10
mindspore/parallel/nn/parallel_grad_reducer.py +7 -6
mindspore/parallel/shard.py +2 -2
mindspore/parallel/transform_safetensors.py +462 -174
mindspore/profiler/__init__.py +2 -1
mindspore/profiler/analysis/parser/timeline_assembly_factory/ascend_timeline_assembler.py +7 -7
mindspore/profiler/analysis/parser/timeline_assembly_factory/base_timeline_assembler.py +3 -0
mindspore/profiler/analysis/parser/timeline_assembly_factory/trace_view_container.py +3 -0
mindspore/profiler/analysis/parser/timeline_creator/cpu_op_timeline_creator.py +3 -3
mindspore/profiler/analysis/parser/timeline_creator/fwk_timeline_creator.py +3 -3
mindspore/profiler/analysis/parser/timeline_creator/msprof_timeline_creator.py +4 -4
mindspore/profiler/analysis/parser/timeline_creator/scope_layer_timeline_creator.py +3 -3
mindspore/profiler/analysis/parser/timeline_event/fwk_event.py +4 -1
mindspore/profiler/analysis/parser/timeline_event/timeline_event_pool.py +2 -1
mindspore/profiler/analysis/task_manager.py +1 -1
mindspore/profiler/analysis/viewer/ascend_communication_viewer.py +5 -1
mindspore/profiler/analysis/viewer/ascend_integrate_viewer.py +2 -1
mindspore/profiler/analysis/viewer/ascend_op_memory_viewer.py +42 -22
mindspore/profiler/analysis/viewer/ascend_step_trace_time_viewer.py +3 -2
mindspore/profiler/analysis/viewer/ms_minddata_viewer.py +9 -5
mindspore/profiler/analysis/viewer/ms_operator_details_viewer.py +132 -0
mindspore/profiler/common/constant.py +16 -0
mindspore/profiler/common/profiler_context.py +25 -27
mindspore/profiler/common/profiler_info.py +0 -16
mindspore/profiler/common/profiler_op_analyse.py +235 -0
mindspore/profiler/common/profiler_output_path.py +23 -8
mindspore/profiler/common/profiler_parameters.py +128 -35
mindspore/profiler/dynamic_profile/__init__.py +0 -0
mindspore/profiler/dynamic_profile/dynamic_monitor_proxy.py +39 -0
mindspore/profiler/dynamic_profile/dynamic_profiler_config_context.py +666 -0
mindspore/profiler/dynamic_profile/dynamic_profiler_utils.py +62 -0
mindspore/profiler/dynamic_profiler.py +305 -314
mindspore/profiler/envprofiler.py +12 -7
mindspore/profiler/experimental_config.py +96 -6
mindspore/profiler/mstx.py +33 -12
mindspore/profiler/platform/__init__.py +2 -3
mindspore/profiler/platform/npu_profiler.py +29 -19
mindspore/profiler/profiler.py +35 -19
mindspore/profiler/profiler_action_controller.py +64 -76
mindspore/profiler/schedule.py +10 -4
mindspore/rewrite/common/config.py +1 -0
mindspore/rewrite/common/namer.py +1 -0
mindspore/rewrite/common/namespace.py +1 -0
mindspore/rewrite/node/node.py +31 -11
mindspore/rewrite/parsers/assign_parser.py +1 -1
mindspore/rewrite/symbol_tree/symbol_tree.py +1 -1
mindspore/run_check/_check_version.py +7 -10
mindspore/runtime/__init__.py +5 -5
mindspore/runtime/event.py +10 -4
mindspore/runtime/executor.py +60 -45
mindspore/runtime/memory.py +21 -30
mindspore/runtime/thread_bind_core.py +298 -164
mindspore/safeguard/rewrite_obfuscation.py +12 -13
mindspore/swresample-4.dll +0 -0
mindspore/swscale-6.dll +0 -0
mindspore/tinyxml2.dll +0 -0
mindspore/train/_utils.py +6 -2
mindspore/train/amp.py +43 -20
mindspore/train/callback/__init__.py +5 -5
mindspore/train/callback/_checkpoint.py +3 -6
mindspore/train/callback/_flops_collector.py +1 -1
mindspore/train/callback/_landscape.py +0 -1
mindspore/train/callback/_train_fault_tolerance.py +71 -13
mindspore/train/data_sink.py +11 -2
mindspore/train/dataset_helper.py +9 -0
mindspore/train/model.py +51 -33
mindspore/train/serialization.py +133 -111
mindspore/train/summary/summary_record.py +13 -2
mindspore/turbojpeg.dll +0 -0
mindspore/utils/__init__.py +3 -2
mindspore/utils/dryrun.py +0 -6
mindspore/utils/runtime_execution_order_check.py +162 -78
mindspore/utils/sdc_detect.py +68 -0
mindspore/utils/utils.py +6 -9
mindspore/version.py +1 -1
{mindspore-2.6.0.dist-info → mindspore-2.7.0rc1.dist-info}/METADATA +5 -4
{mindspore-2.6.0.dist-info → mindspore-2.7.0rc1.dist-info}/RECORD +329 -367
mindspore/_deprecated/jit.py +0 -198
mindspore/experimental/es/__init__.py +0 -22
mindspore/experimental/es/embedding_service.py +0 -891
mindspore/experimental/es/embedding_service_layer.py +0 -581
mindspore/profiler/parser/__init__.py +0 -14
mindspore/profiler/parser/aicpu_data_parser.py +0 -272
mindspore/profiler/parser/ascend_analysis/__init__.py +0 -14
mindspore/profiler/parser/ascend_analysis/constant.py +0 -71
mindspore/profiler/parser/ascend_analysis/file_manager.py +0 -180
mindspore/profiler/parser/ascend_analysis/function_event.py +0 -185
mindspore/profiler/parser/ascend_analysis/fwk_cann_parser.py +0 -136
mindspore/profiler/parser/ascend_analysis/fwk_file_parser.py +0 -131
mindspore/profiler/parser/ascend_analysis/msprof_timeline_parser.py +0 -104
mindspore/profiler/parser/ascend_analysis/path_manager.py +0 -313
mindspore/profiler/parser/ascend_analysis/profiler_info_parser.py +0 -123
mindspore/profiler/parser/ascend_analysis/tlv_decoder.py +0 -86
mindspore/profiler/parser/ascend_analysis/trace_event_manager.py +0 -75
mindspore/profiler/parser/ascend_cluster_generator.py +0 -116
mindspore/profiler/parser/ascend_communicate_generator.py +0 -314
mindspore/profiler/parser/ascend_flops_generator.py +0 -116
mindspore/profiler/parser/ascend_fpbp_generator.py +0 -82
mindspore/profiler/parser/ascend_hccl_generator.py +0 -271
mindspore/profiler/parser/ascend_integrate_generator.py +0 -42
mindspore/profiler/parser/ascend_memory_generator.py +0 -185
mindspore/profiler/parser/ascend_msprof_exporter.py +0 -282
mindspore/profiler/parser/ascend_msprof_generator.py +0 -187
mindspore/profiler/parser/ascend_op_generator.py +0 -334
mindspore/profiler/parser/ascend_steptrace_generator.py +0 -94
mindspore/profiler/parser/ascend_timeline_generator.py +0 -545
mindspore/profiler/parser/base_timeline_generator.py +0 -483
mindspore/profiler/parser/container.py +0 -229
mindspore/profiler/parser/cpu_gpu_timeline_generator.py +0 -697
mindspore/profiler/parser/flops_parser.py +0 -531
mindspore/profiler/parser/framework_enum.py +0 -111
mindspore/profiler/parser/framework_parser.py +0 -464
mindspore/profiler/parser/framework_struct.py +0 -61
mindspore/profiler/parser/gpu_analysis/__init__.py +0 -14
mindspore/profiler/parser/gpu_analysis/function_event.py +0 -44
mindspore/profiler/parser/gpu_analysis/fwk_file_parser.py +0 -89
mindspore/profiler/parser/gpu_analysis/profiler_info_parser.py +0 -72
mindspore/profiler/parser/hccl_parser.py +0 -573
mindspore/profiler/parser/hwts_log_parser.py +0 -122
mindspore/profiler/parser/integrator.py +0 -526
mindspore/profiler/parser/memory_usage_parser.py +0 -277
mindspore/profiler/parser/minddata_analyzer.py +0 -800
mindspore/profiler/parser/minddata_parser.py +0 -186
mindspore/profiler/parser/minddata_pipeline_parser.py +0 -299
mindspore/profiler/parser/op_intermediate_parser.py +0 -149
mindspore/profiler/parser/optime_parser.py +0 -250
mindspore/profiler/parser/profiler_info.py +0 -213
mindspore/profiler/parser/step_trace_parser.py +0 -666
{mindspore-2.6.0.dist-info → mindspore-2.7.0rc1.dist-info}/WHEEL +0 -0
{mindspore-2.6.0.dist-info → mindspore-2.7.0rc1.dist-info}/entry_points.txt +0 -0
{mindspore-2.6.0.dist-info → mindspore-2.7.0rc1.dist-info}/top_level.txt +0 -0

mindspore/experimental/optim/adam.py CHANGED Viewed

@@ -1,29 +1,19 @@
-# Copyright 2023 Huawei Technologies Co., Ltd
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
+# The code implementation refers to the following files from pytorch:
+# - https://github.com/pytorch/pytorch/blob/v1.13.0/torch/optim/adam.py
+# Additional modifications are made by Huawei Technologies Co., Ltd in 2023.
 # ============================================================================
 """adam"""
 from __future__ import absolute_import
-from mindspore.ops import functional as F, composite as C, operations as P
+from mindspore import ops
 from mindspore.common.parameter import Parameter
 from mindspore.common.tensor import Tensor
 import mindspore.common.dtype as mstype
 from mindspore.experimental.optim.optimizer import Optimizer
 from mindspore.common.api import jit
-_adam_opt = C.MultitypeFuncGraph("adam_opt")
-adam_op = P.Adam(False, False)
+_adam_opt = ops.MultitypeFuncGraph("adam_opt")
+adam_op = ops.Adam(False, False)
 @_adam_opt.register("Tensor", "Tensor", "Float", "Float", "Float", "Tensor",
@@ -81,6 +71,9 @@ class Adam(Optimizer):
             &\rule{180mm}{0.4pt}                                                          \\[-1.ex]
        \end{aligned}
+    For more details about Adam algorithm, please refer to `Adam: A Method for Stochastic Optimization
+    <https://arxiv.org/abs/1412.6980>`_.
     .. warning::
         The implementation formula of this optimizer interface is not completely consistent with that in the paper.
         If you want to use an interface that is completely consistent, it is recommended to use
@@ -160,12 +153,12 @@ class Adam(Optimizer):
         self.max_exp_avg_sq = self.parameters.clone(prefix="max_exp_avg_sq", init='zeros')
         self.state_step = Parameter(Tensor(0, mstype.int32), "state_step")
         self.increase_tensor = Tensor(1, mstype.int32)
-        self.assignadd = P.AssignAdd()
-        self.op_add = P.AddN()
-        self.op_mul = P.Mul()
-        self.op_pow = P.Pow()
-        self.adam_opt = P.Adam(False, False)
-        self.op_cast = P.Cast()
+        self.assignadd = ops.AssignAdd()
+        self.op_add = ops.AddN()
+        self.op_mul = ops.Mul()
+        self.op_pow = ops.Pow()
+        self.adam_opt = ops.Adam(False, False)
+        self.op_cast = ops.Cast()
     @jit
     def implementation(self, beta1, beta2, eps, lr, start_id, end_id, gradients, maximize, weight_decay):
@@ -173,9 +166,9 @@ class Adam(Optimizer):
         beta1_power = self.op_pow(beta1, self.state_step)
         beta2_power = self.op_pow(beta2, self.state_step)
         params = self.parameters[start_id: end_id]
-        grads = tuple([grad if not maximize else F.neg(grad) for grad in gradients[start_id: end_id]])
+        grads = tuple([grad if not maximize else ops.neg(grad) for grad in gradients[start_id: end_id]])
         grads = self._decay_weight(weight_decay, params, grads)
-        self.hyper_map(F.partial(_adam_opt, beta1_power, beta2_power, beta1, beta2, eps, lr),
+        self.hyper_map(ops.partial(_adam_opt, beta1_power, beta2_power, beta1, beta2, eps, lr),
                        grads, params,
                        self.exp_avg[start_id: end_id], self.exp_avg_sq[start_id: end_id])
         return True

mindspore/experimental/optim/adamax.py CHANGED Viewed

@@ -1,21 +1,10 @@
-# Copyright 2023 Huawei Technologies Co., Ltd
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
+# The code implementation refers to the following files from pytorch:
+# - https://github.com/pytorch/pytorch/blob/v1.13.0/torch/optim/adamax.py
+# Additional modifications are made by Huawei Technologies Co., Ltd in 2023.
 # ============================================================================
 """adamax"""
 from __future__ import absolute_import
-from mindspore.ops import functional as F, composite as C, operations as P
 from mindspore.common import Tensor, Parameter
 import mindspore.common.dtype as mstype
 from mindspore import _checkparam as validator
@@ -23,17 +12,17 @@ from mindspore.experimental.optim.optimizer import Optimizer, check_not_less_tha
 from mindspore import ops
 from mindspore import jit
-_adamax_opt = C.MultitypeFuncGraph("adamax_opt")
+_adamax_opt = ops.MultitypeFuncGraph("adamax_opt")
 @_adamax_opt.register("Number", "Number", "Number", "Tensor", "Tensor", "Tensor", "Tensor", "Tensor")
 def _tensor_run_opt(beta1, beta2, eps, clr, param, grad, exp_avg, exp_inf):
     """Apply adamax optimizer to the weight parameter."""
-    F.assign(exp_avg, exp_avg * beta1 + grad * (1-beta1))
+    ops.assign(exp_avg, exp_avg * beta1 + grad * (1-beta1))
     norm_buf = ops.cat([ops.unsqueeze(exp_inf * beta2, 0), ops.unsqueeze(grad.abs().add(eps), 0)], 0)
-    F.assign(exp_inf, ops.amax(norm_buf, 0))
+    ops.assign(exp_inf, ops.amax(norm_buf, 0))
-    F.assign(param, param - clr * exp_avg / exp_inf)
+    ops.assign(param, param - clr * exp_avg / exp_inf)
     return True
@@ -68,6 +57,9 @@ class Adamax(Optimizer):
         This module must be used with lr scheduler module in `LRScheduler Class
         <https://www.mindspore.cn/docs/en/master/api_python/mindspore.experimental.html#lrscheduler-class>`_ .
+    For more details about Adamax algorithm, please refer to `Adam: A Method for Stochastic Optimization
+    <https://arxiv.org/abs/1412.6980>`_.
     Args:
         params (Union[list(Parameter), list(dict)]): list of parameters to optimize or dicts defining
             parameter groups.
@@ -135,8 +127,8 @@ class Adamax(Optimizer):
         self.exp_avg = self.parameters.clone(prefix="exp_avg", init='zeros')
         self.exp_inf = self.parameters.clone(prefix="exp_inf", init='zeros')
         self.increase_tensor = Tensor(1, mstype.int32)
-        self.assignadd = P.AssignAdd()
-        self.op_cast = P.Cast()
+        self.assignadd = ops.AssignAdd()
+        self.op_cast = ops.Cast()
     @jit
     def implementation(self, group_id, lr, gradients, maximize, weight_decay, beta1, beta2, eps):
@@ -144,13 +136,13 @@ class Adamax(Optimizer):
         start_id = self.group_start_id[group_id]
         end_id = self.group_start_id[group_id + 1]
         params = self.parameters[start_id: end_id]
-        grads = tuple([grad if not maximize else F.neg(grad) for grad in gradients[start_id: end_id]])
+        grads = tuple([grad if not maximize else ops.neg(grad) for grad in gradients[start_id: end_id]])
         grads = self._decay_weight(weight_decay, params, grads)
         exp_avg = self.exp_avg[start_id: end_id]
         exp_inf = self.exp_inf[start_id: end_id]
         bias_correction = 1 - beta1 ** self.step_t
         clr = lr / bias_correction
-        self.hyper_map(F.partial(_adamax_opt, beta1, beta2, eps, clr),
+        self.hyper_map(ops.partial(_adamax_opt, beta1, beta2, eps, clr),
                        params, grads, exp_avg, exp_inf)
         return True

mindspore/experimental/optim/adamw.py CHANGED Viewed

@@ -1,21 +1,10 @@
-# Copyright 2023 Huawei Technologies Co., Ltd
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
+# The code implementation refers to the following files from pytorch:
+# - https://github.com/pytorch/pytorch/blob/v1.13.0/torch/optim/adamw.py
+# Additional modifications are made by Huawei Technologies Co., Ltd in 2023.
 # ============================================================================
 """adamw"""
 from __future__ import absolute_import
-from mindspore.ops import functional as F, composite as C, operations as P
 from mindspore.common.parameter import Parameter
 from mindspore.common.tensor import Tensor
 import mindspore.common.dtype as mstype
@@ -25,14 +14,14 @@ from mindspore.ops import auto_generate as gen
 from mindspore import ops
 from mindspore import jit
-_adamw_opt = C.MultitypeFuncGraph("adamw_opt")
-_speed_adamw_opt = C.MultitypeFuncGraph("speed_adamw_opt")
+_adamw_opt = ops.MultitypeFuncGraph("adamw_opt")
+_speed_adamw_opt = ops.MultitypeFuncGraph("speed_adamw_opt")
-op_mul = P.Mul()
-op_pow = P.Pow()
-op_sqrt = P.Sqrt()
-op_maximum = P.Maximum()
-hyper_map = C.HyperMap()
+op_mul = ops.Mul()
+op_pow = ops.Pow()
+op_sqrt = ops.Sqrt()
+op_maximum = ops.Maximum()
+hyper_map = ops.HyperMap()
 @_speed_adamw_opt.register("Function", "Float", "Float", "Tensor", "Float", "Float", "Bool", "Bool", "Tensor", "Tensor",
@@ -76,18 +65,18 @@ def _run_adamw_opt(weight_decay_new, step_size, amsgrad, eps, bias_correction2_s
     """Apply adamw optimizer to the weight parameter."""
     success = True
     next_param = op_mul(param, weight_decay_new)
-    F.assign(exp_avg, op_mul(exp_avg, beta1) + op_mul(grad, 1 - beta1))
-    F.assign(exp_avg_sq, ops.addcmul(op_mul(exp_avg_sq, beta2), grad, grad, 1 - beta2))
+    ops.assign(exp_avg, op_mul(exp_avg, beta1) + op_mul(grad, 1 - beta1))
+    ops.assign(exp_avg_sq, ops.addcmul(op_mul(exp_avg_sq, beta2), grad, grad, 1 - beta2))
     if amsgrad:
         next_max_exp_avg = op_maximum(max_exp_avg_sq, exp_avg_sq)
         denom = op_sqrt(next_max_exp_avg) / bias_correction2_sqrt + eps
-        F.assign(max_exp_avg_sq, next_max_exp_avg)
+        ops.assign(max_exp_avg_sq, next_max_exp_avg)
     else:
         denom = op_sqrt(exp_avg_sq) / bias_correction2_sqrt + eps
     return_param = next_param - op_mul(exp_avg / denom, step_size)
-    F.assign(param, return_param)
+    ops.assign(param, return_param)
     return success
@@ -129,6 +118,10 @@ class AdamW(Optimizer):
             &\rule{180mm}{0.4pt}                                                          \\[-1.ex]
        \end{aligned}
+    More details of the AdamW algorithm can be found in the paper `Decoupled Weight Decay Regularization
+    <https://arxiv.org/abs/1711.05101>`_ and `On the Convergence of Adam and Beyond
+    <https://openreview.net/forum?id=ryQu7f-RZ>`_.
     .. warning::
         This is an experimental optimizer API that is subject to change.
         This module must be used with lr scheduler module in `LRScheduler Class
@@ -205,16 +198,16 @@ class AdamW(Optimizer):
         self.max_exp_avg_sq = self.parameters.clone(prefix="max_exp_avg_sq", init='zeros')
         self.state_step = Parameter(Tensor(0, mstype.int32), "state_step")
         self.increase_tensor = Tensor(1, mstype.int32)
-        self.assignadd = P.AssignAdd()
-        self.op_cast = P.Cast()
+        self.assignadd = ops.AssignAdd()
+        self.op_cast = ops.Cast()
     @jit
     def implementation(self, lr, weight_decay, beta1, beta2, amsgrad, eps, grads, start_id, end_id):
         """Extract the common computing part for acceleration"""
         weight_decay_new, step_size, bias_correction2_sqrt = prepare_func(lr, weight_decay,
                                                                           self.state_step, beta1, beta2)
-        self.hyper_map(F.partial(_adamw_opt, weight_decay_new, step_size, amsgrad,
-                                 eps, bias_correction2_sqrt, beta1, beta2),
+        self.hyper_map(ops.partial(_adamw_opt, weight_decay_new, step_size, amsgrad,
+                                   eps, bias_correction2_sqrt, beta1, beta2),
                        self.parameters[start_id: end_id], grads, self.exp_avg[start_id: end_id],
                        self.exp_avg_sq[start_id: end_id], self.max_exp_avg_sq[start_id: end_id])
         return True
@@ -228,7 +221,8 @@ class AdamW(Optimizer):
             lr = self.lrs[group_id]
             if isinstance(group.get("lr"), float):
                 lr = self.op_cast(group.get("lr"), mstype.float32)
-            grads = tuple([grad if not group.get("maximize") else F.neg(grad) for grad in gradients[start_id: end_id]])
+            grads = tuple([grad if not group.get("maximize") else ops.neg(grad) \
+                           for grad in gradients[start_id:end_id]])
             self.implementation(lr, group.get("weight_decay"), beta1, beta2, group.get("amsgrad"), group.get("eps"),
                                 grads, start_id, end_id)
@@ -265,7 +259,7 @@ class SpeedAdamW(Optimizer):
         self.exp_avg_sq = self.parameters.clone(prefix="exp_avg_sq", init='zeros')
         self.state_step = Parameter(Tensor([0], mstype.float32), "state_step")
         self.increase_tensor = Tensor(1, mstype.float32)
-        self.assignadd = P.AssignAdd()
+        self.assignadd = ops.AssignAdd()
         self.adamw_opt = gen.ApplyAdamW()
     def construct(self, gradients):
@@ -285,9 +279,9 @@ class SpeedAdamW(Optimizer):
             if group.get("amsgrad"):
                 raise ValueError("For SpeedAdamW, the value of amsgrad can only be False.")
-            self.hyper_map(F.partial(_speed_adamw_opt, self.adamw_opt, beta1, beta2, lr,
-                                     group.get("eps"), group.get("weight_decay"),
-                                     group.get("amsgrad"), maximize, bias_correction1, bias_correction2),
+            self.hyper_map(ops.partial(_speed_adamw_opt, self.adamw_opt, beta1, beta2, lr,
+                                       group.get("eps"), group.get("weight_decay"),
+                                       group.get("amsgrad"), maximize, bias_correction1, bias_correction2),
                            self.parameters[start_id: end_id], grads, self.exp_avg[start_id: end_id],
                            self.exp_avg_sq[start_id: end_id])

mindspore/experimental/optim/asgd.py CHANGED Viewed

@@ -1,33 +1,23 @@
-# Copyright 2021-2022 Huawei Technologies Co., Ltd
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
+# The code implementation refers to the following files from pytorch:
+# - https://github.com/pytorch/pytorch/blob/v1.13.0/torch/optim/asgd.py
+# Additional modifications are made by Huawei Technologies Co., Ltd in 2023.
 # ============================================================================
 """asgd"""
 from __future__ import absolute_import
-from mindspore.ops import functional as F, composite as C, operations as P
+from mindspore import ops
 from mindspore.common import Tensor, Parameter
 import mindspore.common.dtype as mstype
 from mindspore.experimental.optim.optimizer import Optimizer, check_not_less_than, check_not_less_than_without_equal
 from mindspore.common.api import jit
-_asgd_opt = C.MultitypeFuncGraph("asgd_opt")
+_asgd_opt = ops.MultitypeFuncGraph("asgd_opt")
-op_cast = P.Cast()
-op_pow = P.Pow()
-op_maximum = P.Maximum()
-op_assign = P.Assign()
-op_assignadd = P.AssignAdd()
+op_cast = ops.Cast()
+op_pow = ops.Pow()
+op_maximum = ops.Maximum()
+op_assign = ops.Assign()
+op_assignadd = ops.AssignAdd()
 @_asgd_opt.register("Number", "Number", "Number", "Tensor", "Tensor", "Tensor", "Tensor",
@@ -37,7 +27,7 @@ def _run_asgd_opt(lambd, alpha, t0, step, lr, param, grad, eta, mu, ax):
     if step == 1:
         op_assign(eta, lr)
     next_param = op_cast(param * (1. - lambd * eta) - eta * grad, param.dtype)
-    F.assign(param, next_param)
+    ops.assign(param, next_param)
     if mu != 1:
         op_assignadd(ax, op_cast((next_param - ax) * mu, ax.dtype))
@@ -121,8 +111,8 @@ class ASGD(Optimizer):
         self.ax = self.parameters.clone(prefix="ax", init='zeros')
         self.step_t = Parameter(Tensor(0, mstype.int32), "step_t")
         self.increase_tensor = Tensor(1, mstype.int32)
-        self.assignadd = P.AssignAdd()
-        self.op_cast = P.Cast()
+        self.assignadd = ops.AssignAdd()
+        self.op_cast = ops.Cast()
     @jit(backend="ms_backend")
     def implementation(self, lambd, alpha, t0, lr, group_id, maximize, gradients, weight_decay):
@@ -130,13 +120,13 @@ class ASGD(Optimizer):
         start_id = self.group_start_id[group_id]
         end_id = self.group_start_id[group_id + 1]
         params = self.parameters[start_id: end_id]
-        grads = tuple([grad if not maximize else F.neg(grad) for grad in gradients[start_id: end_id]])
+        grads = tuple([grad if not maximize else ops.neg(grad) for grad in gradients[start_id: end_id]])
         grads = self._decay_weight(weight_decay, params, grads)
         ax = self.ax[start_id: end_id]
         eta = self.eta[start_id: end_id]
         mu = self.mu[start_id: end_id]
-        self.hyper_map(F.partial(_asgd_opt, lambd, alpha, t0, self.step_t, lr),
+        self.hyper_map(ops.partial(_asgd_opt, lambd, alpha, t0, self.step_t, lr),
                        params, grads, eta, mu, ax)
         return True

mindspore/experimental/optim/lr_scheduler.py CHANGED Viewed

@@ -1,16 +1,6 @@
-# Copyright 2023 Huawei Technologies Co., Ltd
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
+# The code implementation refers to the following files from pytorch:
+# - https://github.com/pytorch/pytorch/blob/v1.13.0/torch/optim/lr_scheduler.py
+# Additional modifications are made by Huawei Technologies Co., Ltd in 2023.
 # ============================================================================
 """LRScheduler."""
 from collections import Counter
@@ -20,8 +10,6 @@ from mindspore import ops, Tensor, Parameter
 from mindspore.experimental.optim.optimizer import Optimizer
 from mindspore.common.api import jit_class
 import mindspore.common.dtype as mstype
-from mindspore.ops import functional as F
-from mindspore.ops import operations as P
 from mindspore import _checkparam as Validator
 __all__ = ['StepLR', 'LinearLR', 'LRScheduler', 'ExponentialLR', 'PolynomialLR',
@@ -143,9 +131,12 @@ class LRScheduler:
 @jit_class
 class StepLR(LRScheduler):
-    """Decays the learning rate of each parameter group by gamma every
-    step_size epochs. Notice that such decay can happen simultaneously with
-    other changes to the learning rate from outside this scheduler.
+    """
+    During training, when calling `StepLR.step()` , if the current epoch number is an integer multiple of `step_size` ,
+    the learning rate will be decayed by multiplying it with `gamma` . The adjustment of the learning rate and
+    the parameter update of the optimizer are synergistically performed. The optimizer executes parameter optimization
+    operations based on the currently adjusted learning rate. The learning rate decay of StepLR may occur simultaneously
+    with external changes to the learning rate.
     .. warning::
         This is an experimental lr scheduler module that is subject to change.
@@ -431,8 +422,8 @@ class PolynomialLR(LRScheduler):
             raise TypeError(f"For 'PolynomialLR', the type of total_iters must be int, but got {type(total_iters)}.")
         self.total_iters = total_iters
         self.power = power
-        self.min = P.Minimum()
-        self.cast = P.Cast()
+        self.min = ops.Minimum()
+        self.cast = ops.Cast()
         super(PolynomialLR, self).__init__(optimizer, last_epoch)
     def get_lr(self):
@@ -804,7 +795,7 @@ class SequentialLR:
 @jit_class
 class ReduceLROnPlateau:
-    """
+    r"""
     Reduce learning rate when a metric has stopped improving.
     Models often benefit from reducing the learning rate by a factor
     of 2-10 once learning stagnates. The scheduler reads the metrics `metrics` during execution
@@ -886,7 +877,7 @@ class ReduceLROnPlateau:
         [Tensor(shape=[], dtype=Float32, value= 0.001)]
         [Tensor(shape=[], dtype=Float32, value= 0.001)]
         [Tensor(shape=[], dtype=Float32, value= 0.0001)]
-        """
+    """
     def __init__(self, optimizer, mode='min', factor=0.1, patience=10,
                  threshold=1e-4, threshold_mode='rel', cooldown=0,
@@ -915,8 +906,8 @@ class ReduceLROnPlateau:
         self.cooldown_counter = 0
         self.eps = eps
         self.mode_worse = None
-        self.assign = P.Assign()
-        self.cast = P.Cast()
+        self.assign = ops.Assign()
+        self.cast = ops.Cast()
         self.last_epoch = Parameter(Tensor(0, dtype=mstype.int32),
                                     name='last_epoch_' + self.__class__.__name__)
@@ -1079,17 +1070,8 @@ class CyclicLR(LRScheduler):
         [Tensor(shape=[], dtype=Float32, value= 0.010225)]
     """
-    def __init__(self,
-                 optimizer,
-                 base_lr,
-                 max_lr,
-                 step_size_up=2000,
-                 step_size_down=None,
-                 mode='triangular',
-                 gamma=1.,
-                 scale_fn=None,
-                 scale_mode='cycle',
-                 last_epoch=-1):
+    def __init__(self, optimizer, base_lr, max_lr, step_size_up=2000, step_size_down=None, mode='triangular',
+                 gamma=1.0, scale_fn=None, scale_mode='cycle', last_epoch=-1):
         base_lrs = self._preprocess_input_param(optimizer, base_lr, 'base_lr')
@@ -1117,7 +1099,7 @@ class CyclicLR(LRScheduler):
         self._scale_fn_custom = scale_fn
         self.scale_mode = scale_mode
         self._init_scale_fn()
-        self.floor = P.Floor()
+        self.floor = ops.Floor()
         super(CyclicLR, self).__init__(optimizer, last_epoch)
         self.base_lrs = [Tensor(lr) for lr in base_lrs]
@@ -1252,12 +1234,12 @@ class CosineAnnealingWarmRestarts(LRScheduler):
         self.zero_tensor = Tensor(0, mstype.int32)
         self.math_pi = math.pi
-        self.cos = P.Cos()
-        self.cast = P.Cast()
-        self.log = P.Log()
-        self.cast = P.Cast()
-        self.assign = P.Assign()
-        self.floor = P.Floor()
+        self.cos = ops.Cos()
+        self.cast = ops.Cast()
+        self.log = ops.Log()
+        self.cast = ops.Cast()
+        self.assign = ops.Assign()
+        self.floor = ops.Floor()
         self._last_lr = [group["lr"] for group in optimizer.param_groups]
         super(CosineAnnealingWarmRestarts, self).__init__(optimizer, last_epoch)
@@ -1306,7 +1288,7 @@ class CosineAnnealingWarmRestarts(LRScheduler):
         for i, data in enumerate(zip(self.optimizer.param_groups, self.get_lr())):
             _, lr = data
-            F.assign(self.optimizer.param_groups[i]["lr"], lr)
+            ops.assign(self.optimizer.param_groups[i]["lr"], lr)
 @jit_class
@@ -1371,8 +1353,8 @@ class CosineAnnealingLR(LRScheduler):
         self.T_max = T_max
         self.eta_min = eta_min
         self.math_pi = math.pi
-        self.cos = P.Cos()
-        self.cast = P.Cast()
+        self.cos = ops.Cos()
+        self.cast = ops.Cast()
         super(CosineAnnealingLR, self).__init__(optimizer, last_epoch)
     def get_lr(self):

mindspore/experimental/optim/nadam.py CHANGED Viewed

@@ -1,30 +1,20 @@
-# Copyright 2023 Huawei Technologies Co., Ltd
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-# http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
+# The code implementation refers to the following files from pytorch:
+# - https://github.com/pytorch/pytorch/blob/v1.13.0/torch/optim/nadam.py
+# Additional modifications are made by Huawei Technologies Co., Ltd in 2023.
 # ============================================================================
 """nadam"""
 from __future__ import absolute_import
-from mindspore.ops import functional as F, composite as C, operations as P
+from mindspore import ops
 from mindspore.common import Parameter, Tensor
 import mindspore.common.dtype as mstype
 from mindspore import _checkparam as validator
 from mindspore.experimental.optim.optimizer import Optimizer, check_not_less_than, check_not_less_than_without_equal
 from mindspore import jit
-_nadam_opt = C.MultitypeFuncGraph("nadam_opt")
+_nadam_opt = ops.MultitypeFuncGraph("nadam_opt")
-op_sqrt = P.Sqrt()
+op_sqrt = ops.Sqrt()
 @_nadam_opt.register("Number", "Number", "Number", "Number", "Tensor", "Tensor", "Tensor",
@@ -34,15 +24,15 @@ def _tensor_run_opt(beta1, beta2, momentum_decay, eps, step_t, lr, param, grad,
     bias_correction2 = 1 - beta2 ** step_t
     mu = beta1 * (1. - 0.5 * (0.96 ** (step_t * momentum_decay)))
     mu_next = beta1 * (1. - 0.5 * (0.96 ** ((step_t + 1) * momentum_decay)))
-    F.assign(mu_product, mu_product * mu)
-    F.assign(exp_avg, exp_avg * beta1 + grad * (1 - beta1))
-    F.assign(exp_avg_sq, exp_avg_sq * beta2 + grad * grad * (1 - beta2))
+    ops.assign(mu_product, mu_product * mu)
+    ops.assign(exp_avg, exp_avg * beta1 + grad * (1 - beta1))
+    ops.assign(exp_avg_sq, exp_avg_sq * beta2 + grad * grad * (1 - beta2))
     denom = op_sqrt(exp_avg_sq / bias_correction2) + eps
     mu_product_next = mu_product * mu_next
-    F.assign(param, param - lr * (1. - mu) / (1. - mu_product) * grad / denom)
-    F.assign(param, param - (lr * mu_next) / (1. - mu_product_next) * exp_avg / denom)
+    ops.assign(param, param - lr * (1. - mu) / (1. - mu_product) * grad / denom)
+    ops.assign(param, param - (lr * mu_next) / (1. - mu_product_next) * exp_avg / denom)
     return True
@@ -122,8 +112,8 @@ class NAdam(Optimizer):
         self.mu_product = [Parameter(Tensor(1.), "mu_product_" + param.name) for param in self.parameters]
         self.increase_tensor = Tensor(1, mstype.int32)
-        self.assignadd = P.AssignAdd()
-        self.op_cast = P.Cast()
+        self.assignadd = ops.AssignAdd()
+        self.op_cast = ops.Cast()
     @jit
     def implementation(self, lr, beta1, beta2, weight_decay, momentum_decay, eps, start_id, end_id, gradients):
@@ -135,7 +125,7 @@ class NAdam(Optimizer):
         exp_avg_sq = self.exp_avg_sq[start_id: end_id]
         mu_product = self.mu_product[start_id: end_id]
-        self.hyper_map(F.partial(_nadam_opt, beta1, beta2, momentum_decay, eps, self.step_t, lr),
+        self.hyper_map(ops.partial(_nadam_opt, beta1, beta2, momentum_decay, eps, self.step_t, lr),
                        params, grads, exp_avg, exp_avg_sq, mu_product)
         return True