PyPI - mindspore - Versions diffs - 2.7.0__cp311-cp311-win_amd64.whl → 2.7.1__cp311-cp311-win_amd64.whl - Mend

mindspore 2.7.0__cp311-cp311-win_amd64.whl → 2.7.1__cp311-cp311-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mindspore might be problematic. Click here for more details.

Files changed (290) hide show

mindspore/.commit_id +1 -1
mindspore/__init__.py +4 -1
mindspore/_c_dataengine.cp311-win_amd64.pyd +0 -0
mindspore/_c_expression.cp311-win_amd64.pyd +0 -0
mindspore/_c_mindrecord.cp311-win_amd64.pyd +0 -0
mindspore/_extends/parse/compile_config.py +24 -1
mindspore/_extends/parse/deprecated/deprecated_tensor_method.py +6 -2
mindspore/_extends/parse/resources.py +1 -1
mindspore/_extends/parse/standard_method.py +8 -1
mindspore/_extends/parse/trope.py +2 -1
mindspore/_extends/pijit/pijit_func_white_list.py +7 -22
mindspore/avcodec-59.dll +0 -0
mindspore/avdevice-59.dll +0 -0
mindspore/avfilter-8.dll +0 -0
mindspore/avformat-59.dll +0 -0
mindspore/avutil-57.dll +0 -0
mindspore/boost/base.py +29 -2
mindspore/common/_decorator.py +3 -2
mindspore/common/_grad_function.py +3 -1
mindspore/common/_tensor_cpp_method.py +1 -1
mindspore/common/_tensor_docs.py +275 -64
mindspore/common/_utils.py +0 -44
mindspore/common/api.py +285 -35
mindspore/common/dump.py +7 -108
mindspore/common/dynamic_shape/auto_dynamic_shape.py +1 -3
mindspore/common/hook_handle.py +60 -0
mindspore/common/jit_config.py +5 -1
mindspore/common/jit_trace.py +27 -12
mindspore/common/lazy_inline.py +5 -3
mindspore/common/parameter.py +13 -107
mindspore/common/recompute.py +4 -11
mindspore/common/tensor.py +16 -169
mindspore/communication/_comm_helper.py +11 -1
mindspore/communication/comm_func.py +138 -4
mindspore/communication/management.py +85 -1
mindspore/config/op_info.config +0 -15
mindspore/context.py +5 -85
mindspore/dataset/engine/datasets.py +8 -4
mindspore/dataset/engine/datasets_vision.py +1 -1
mindspore/dataset/engine/validators.py +1 -15
mindspore/dnnl.dll +0 -0
mindspore/{experimental/llm_boost/ascend_native → graph}/__init__.py +7 -7
mindspore/graph/custom_pass.py +55 -0
mindspore/include/dataset/execute.h +2 -2
mindspore/jpeg62.dll +0 -0
mindspore/mindrecord/__init__.py +3 -3
mindspore/mindrecord/common/exceptions.py +1 -0
mindspore/mindrecord/config.py +1 -1
mindspore/{parallel/mpi → mindrecord/core}/__init__.py +4 -1
mindspore/mindrecord/{shardheader.py → core/shardheader.py} +2 -1
mindspore/mindrecord/{shardindexgenerator.py → core/shardindexgenerator.py} +1 -1
mindspore/mindrecord/{shardreader.py → core/shardreader.py} +2 -1
mindspore/mindrecord/{shardsegment.py → core/shardsegment.py} +2 -2
mindspore/mindrecord/{shardutils.py → core/shardutils.py} +1 -1
mindspore/mindrecord/{shardwriter.py → core/shardwriter.py} +1 -1
mindspore/mindrecord/filereader.py +4 -4
mindspore/mindrecord/filewriter.py +5 -5
mindspore/mindrecord/mindpage.py +2 -2
mindspore/mindrecord/tools/cifar10.py +1 -1
mindspore/mindrecord/tools/cifar100.py +1 -1
mindspore/mindrecord/tools/cifar100_to_mr.py +1 -1
mindspore/mindrecord/tools/cifar10_to_mr.py +1 -1
mindspore/mindrecord/tools/csv_to_mr.py +1 -1
mindspore/mindrecord/tools/imagenet_to_mr.py +1 -1
mindspore/mindrecord/tools/mnist_to_mr.py +1 -1
mindspore/mindrecord/tools/tfrecord_to_mr.py +1 -1
mindspore/mindspore_backend_common.dll +0 -0
mindspore/mindspore_backend_manager.dll +0 -0
mindspore/mindspore_cluster.dll +0 -0
mindspore/mindspore_common.dll +0 -0
mindspore/mindspore_core.dll +0 -0
mindspore/mindspore_cpu.dll +0 -0
mindspore/mindspore_dump.dll +0 -0
mindspore/mindspore_frontend.dll +0 -0
mindspore/mindspore_glog.dll +0 -0
mindspore/mindspore_hardware_abstract.dll +0 -0
mindspore/mindspore_memory_pool.dll +0 -0
mindspore/mindspore_ms_backend.dll +0 -0
mindspore/mindspore_ops.dll +0 -0
mindspore/{mindspore_ops_host.dll → mindspore_ops_cpu.dll} +0 -0
mindspore/mindspore_profiler.dll +0 -0
mindspore/mindspore_pyboost.dll +0 -0
mindspore/mindspore_pynative.dll +0 -0
mindspore/mindspore_runtime_pipeline.dll +0 -0
mindspore/mindspore_runtime_utils.dll +0 -0
mindspore/mindspore_tools.dll +0 -0
mindspore/mint/__init__.py +15 -10
mindspore/mint/distributed/distributed.py +182 -62
mindspore/mint/nn/__init__.py +2 -16
mindspore/mint/nn/functional.py +4 -110
mindspore/mint/nn/layer/__init__.py +0 -2
mindspore/mint/nn/layer/activation.py +0 -6
mindspore/mint/nn/layer/basic.py +0 -47
mindspore/mint/nn/layer/conv.py +4 -4
mindspore/mint/nn/layer/normalization.py +8 -13
mindspore/mint/nn/layer/pooling.py +0 -4
mindspore/nn/__init__.py +1 -3
mindspore/nn/cell.py +16 -66
mindspore/nn/layer/basic.py +49 -1
mindspore/nn/layer/container.py +16 -0
mindspore/nn/layer/embedding.py +4 -169
mindspore/nn/layer/normalization.py +2 -1
mindspore/nn/layer/thor_layer.py +4 -85
mindspore/nn/optim/ada_grad.py +0 -1
mindspore/nn/optim/adafactor.py +0 -1
mindspore/nn/optim/adam.py +31 -124
mindspore/nn/optim/adamax.py +0 -1
mindspore/nn/optim/asgd.py +0 -1
mindspore/nn/optim/ftrl.py +8 -102
mindspore/nn/optim/lamb.py +0 -1
mindspore/nn/optim/lars.py +0 -3
mindspore/nn/optim/lazyadam.py +25 -218
mindspore/nn/optim/momentum.py +5 -43
mindspore/nn/optim/optimizer.py +6 -55
mindspore/nn/optim/proximal_ada_grad.py +0 -1
mindspore/nn/optim/rmsprop.py +0 -1
mindspore/nn/optim/rprop.py +0 -1
mindspore/nn/optim/sgd.py +0 -1
mindspore/nn/optim/tft_wrapper.py +0 -1
mindspore/nn/optim/thor.py +0 -2
mindspore/nn/probability/bijector/bijector.py +7 -8
mindspore/nn/probability/bijector/gumbel_cdf.py +2 -2
mindspore/nn/probability/bijector/power_transform.py +20 -21
mindspore/nn/probability/bijector/scalar_affine.py +5 -5
mindspore/nn/probability/bijector/softplus.py +13 -14
mindspore/nn/wrap/grad_reducer.py +4 -74
mindspore/numpy/array_creations.py +2 -2
mindspore/numpy/fft.py +9 -9
mindspore/{nn/reinforcement → onnx}/__init__.py +5 -8
mindspore/onnx/onnx_export.py +137 -0
mindspore/opencv_core4110.dll +0 -0
mindspore/opencv_imgcodecs4110.dll +0 -0
mindspore/{opencv_imgproc452.dll → opencv_imgproc4110.dll} +0 -0
mindspore/ops/__init__.py +2 -0
mindspore/ops/_grad_experimental/grad_comm_ops.py +38 -2
mindspore/ops/_op_impl/aicpu/__init__.py +0 -10
mindspore/ops/_op_impl/cpu/__init__.py +0 -5
mindspore/ops/auto_generate/cpp_create_prim_instance_helper.py +16 -22
mindspore/ops/auto_generate/gen_extend_func.py +2 -7
mindspore/ops/auto_generate/gen_ops_def.py +98 -141
mindspore/ops/auto_generate/gen_ops_prim.py +12708 -12686
mindspore/ops/communication.py +97 -0
mindspore/ops/composite/__init__.py +5 -2
mindspore/ops/composite/base.py +15 -1
mindspore/ops/composite/multitype_ops/__init__.py +3 -1
mindspore/ops/composite/multitype_ops/_compile_utils.py +150 -8
mindspore/ops/composite/multitype_ops/add_impl.py +7 -0
mindspore/ops/composite/multitype_ops/mod_impl.py +27 -0
mindspore/ops/function/__init__.py +1 -0
mindspore/ops/function/array_func.py +14 -12
mindspore/ops/function/comm_func.py +3883 -0
mindspore/ops/function/debug_func.py +3 -4
mindspore/ops/function/math_func.py +45 -54
mindspore/ops/function/nn_func.py +75 -294
mindspore/ops/function/random_func.py +9 -18
mindspore/ops/functional.py +2 -0
mindspore/ops/functional_overload.py +354 -18
mindspore/ops/operations/__init__.py +2 -5
mindspore/ops/operations/_custom_ops_utils.py +7 -9
mindspore/ops/operations/_inner_ops.py +1 -38
mindspore/ops/operations/_rl_inner_ops.py +0 -933
mindspore/ops/operations/array_ops.py +1 -0
mindspore/ops/operations/comm_ops.py +94 -2
mindspore/ops/operations/custom_ops.py +228 -19
mindspore/ops/operations/debug_ops.py +27 -29
mindspore/ops/operations/manually_defined/ops_def.py +27 -306
mindspore/ops/operations/nn_ops.py +2 -2
mindspore/ops/operations/sparse_ops.py +0 -83
mindspore/ops/primitive.py +1 -17
mindspore/ops/tensor_method.py +72 -3
mindspore/ops_generate/aclnn/aclnn_kernel_register_auto_cc_generator.py +5 -5
mindspore/ops_generate/aclnn/gen_aclnn_implement.py +8 -8
mindspore/ops_generate/api/functions_cc_generator.py +53 -4
mindspore/ops_generate/api/tensor_func_reg_cpp_generator.py +25 -11
mindspore/ops_generate/common/gen_constants.py +11 -10
mindspore/ops_generate/common/op_proto.py +18 -1
mindspore/ops_generate/common/template.py +102 -245
mindspore/ops_generate/common/template_utils.py +212 -0
mindspore/ops_generate/gen_custom_ops.py +69 -0
mindspore/ops_generate/op_def/ops_def_cc_generator.py +78 -7
mindspore/ops_generate/op_def_py/base_op_prim_py_generator.py +360 -0
mindspore/ops_generate/op_def_py/custom_op_prim_py_generator.py +140 -0
mindspore/ops_generate/op_def_py/op_def_py_generator.py +54 -7
mindspore/ops_generate/op_def_py/op_prim_py_generator.py +5 -312
mindspore/ops_generate/pyboost/auto_grad_impl_cc_generator.py +74 -17
mindspore/ops_generate/pyboost/auto_grad_reg_cc_generator.py +22 -5
mindspore/ops_generate/pyboost/op_template_parser.py +3 -2
mindspore/ops_generate/pyboost/pyboost_functions_cpp_generator.py +21 -5
mindspore/ops_generate/pyboost/pyboost_functions_h_generator.py +2 -2
mindspore/ops_generate/pyboost/pyboost_functions_impl_cpp_generator.py +30 -10
mindspore/ops_generate/pyboost/pyboost_grad_function_cpp_generator.py +10 -3
mindspore/ops_generate/pyboost/pyboost_internal_kernel_info_adapter_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_native_grad_functions_generator.py +19 -9
mindspore/ops_generate/pyboost/pyboost_op_cpp_code_generator.py +71 -28
mindspore/ops_generate/pyboost/pyboost_overload_functions_cpp_generator.py +10 -9
mindspore/ops_generate/pyboost/pyboost_utils.py +27 -16
mindspore/ops_generate/resources/yaml_loader.py +13 -0
mindspore/ops_generate/tensor_py_cc_generator.py +2 -2
mindspore/parallel/_cell_wrapper.py +1 -1
mindspore/parallel/_parallel_serialization.py +1 -4
mindspore/parallel/_utils.py +29 -6
mindspore/parallel/checkpoint_transform.py +18 -2
mindspore/parallel/cluster/process_entity/_api.py +24 -32
mindspore/parallel/cluster/process_entity/_utils.py +9 -5
mindspore/{experimental/llm_boost/atb → parallel/distributed}/__init__.py +21 -23
mindspore/parallel/distributed/distributed_data_parallel.py +393 -0
mindspore/parallel/distributed/flatten_grad_buffer.py +295 -0
mindspore/parallel/strategy.py +336 -0
mindspore/parallel/transform_safetensors.py +117 -16
mindspore/profiler/analysis/viewer/ascend_kernel_details_viewer.py +3 -0
mindspore/profiler/analysis/viewer/ms_minddata_viewer.py +1 -1
mindspore/profiler/common/constant.py +5 -0
mindspore/profiler/common/file_manager.py +9 -0
mindspore/profiler/common/msprof_cmd_tool.py +38 -2
mindspore/profiler/common/path_manager.py +56 -24
mindspore/profiler/common/profiler_context.py +2 -12
mindspore/profiler/common/profiler_info.py +3 -3
mindspore/profiler/common/profiler_path_manager.py +13 -0
mindspore/profiler/common/util.py +30 -3
mindspore/profiler/experimental_config.py +2 -1
mindspore/profiler/platform/npu_profiler.py +33 -6
mindspore/run_check/_check_version.py +108 -24
mindspore/runtime/__init__.py +3 -2
mindspore/runtime/executor.py +11 -3
mindspore/runtime/memory.py +112 -0
mindspore/swresample-4.dll +0 -0
mindspore/swscale-6.dll +0 -0
mindspore/tinyxml2.dll +0 -0
mindspore/{experimental/llm_boost → tools}/__init__.py +5 -5
mindspore/tools/data_dump.py +130 -0
mindspore/tools/sdc_detect.py +91 -0
mindspore/tools/stress_detect.py +63 -0
mindspore/train/__init__.py +6 -6
mindspore/train/_utils.py +5 -18
mindspore/train/amp.py +6 -4
mindspore/train/callback/_checkpoint.py +0 -9
mindspore/train/callback/_train_fault_tolerance.py +69 -18
mindspore/train/data_sink.py +1 -5
mindspore/train/model.py +38 -211
mindspore/train/serialization.py +126 -387
mindspore/turbojpeg.dll +0 -0
mindspore/utils/__init__.py +6 -3
mindspore/utils/dlpack.py +92 -0
mindspore/utils/dryrun.py +1 -1
mindspore/utils/runtime_execution_order_check.py +10 -0
mindspore/utils/sdc_detect.py +14 -12
mindspore/utils/stress_detect.py +43 -0
mindspore/utils/utils.py +144 -8
mindspore/version.py +1 -1
{mindspore-2.7.0.dist-info → mindspore-2.7.1.dist-info}/METADATA +3 -2
{mindspore-2.7.0.dist-info → mindspore-2.7.1.dist-info}/RECORD +254 -267
mindspore/experimental/llm_boost/ascend_native/llama_boost_ascend_native.py +0 -210
mindspore/experimental/llm_boost/ascend_native/llm_boost.py +0 -52
mindspore/experimental/llm_boost/atb/boost_base.py +0 -385
mindspore/experimental/llm_boost/atb/llama_boost.py +0 -137
mindspore/experimental/llm_boost/atb/qwen_boost.py +0 -124
mindspore/experimental/llm_boost/register.py +0 -130
mindspore/experimental/llm_boost/utils.py +0 -31
mindspore/include/OWNERS +0 -7
mindspore/mindspore_cpu_res_manager.dll +0 -0
mindspore/mindspore_ops_kernel_common.dll +0 -0
mindspore/mindspore_res_manager.dll +0 -0
mindspore/nn/optim/_dist_optimizer_registry.py +0 -111
mindspore/nn/reinforcement/_batch_read_write.py +0 -142
mindspore/nn/reinforcement/_tensors_queue.py +0 -152
mindspore/nn/reinforcement/tensor_array.py +0 -145
mindspore/opencv_core452.dll +0 -0
mindspore/opencv_imgcodecs452.dll +0 -0
mindspore/ops/_op_impl/aicpu/priority_replay_buffer.py +0 -113
mindspore/ops/_op_impl/aicpu/reservoir_replay_buffer.py +0 -96
mindspore/ops/_op_impl/aicpu/sparse_cross.py +0 -42
mindspore/ops/_op_impl/cpu/buffer_append.py +0 -28
mindspore/ops/_op_impl/cpu/buffer_get.py +0 -28
mindspore/ops/_op_impl/cpu/buffer_sample.py +0 -28
mindspore/ops/_op_impl/cpu/priority_replay_buffer.py +0 -42
mindspore/ops/operations/_tensor_array.py +0 -359
mindspore/ops/operations/rl_ops.py +0 -288
mindspore/parallel/_offload_context.py +0 -275
mindspore/parallel/_recovery_context.py +0 -115
mindspore/parallel/_transformer/__init__.py +0 -35
mindspore/parallel/_transformer/layers.py +0 -765
mindspore/parallel/_transformer/loss.py +0 -251
mindspore/parallel/_transformer/moe.py +0 -693
mindspore/parallel/_transformer/op_parallel_config.py +0 -222
mindspore/parallel/_transformer/transformer.py +0 -3124
mindspore/parallel/mpi/_mpi_config.py +0 -116
mindspore/train/memory_profiling_pb2.py +0 -298
{mindspore-2.7.0.dist-info → mindspore-2.7.1.dist-info}/WHEEL +0 -0
{mindspore-2.7.0.dist-info → mindspore-2.7.1.dist-info}/entry_points.txt +0 -0
{mindspore-2.7.0.dist-info → mindspore-2.7.1.dist-info}/top_level.txt +0 -0

mindspore/nn/optim/adam.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# Copyright 2020-2022 Huawei Technologies Co., Ltd
+# Copyright 2020-2021 Huawei Technologies Co., Ltd
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
 # you may not use this file except in compliance with the License.
@@ -28,7 +28,6 @@ from mindspore.common.tensor import Tensor
 from mindspore import _checkparam as validator
 from mindspore.nn.optim.optimizer import Optimizer
 from mindspore.nn.optim.optimizer import opt_init_args_register
-from mindspore.nn.optim._dist_optimizer_registry import _register_dist_optimizer
 from mindspore.common._decorator import deprecated
 _adam_opt = C.MultitypeFuncGraph("adam_opt")
@@ -727,7 +726,6 @@ class Adam(Optimizer):
             self.opt = P.Adam(use_locking, use_nesterov)
             self.sparse_opt = P.FusedSparseLazyAdam(use_locking, use_nesterov)
             self.sparse_opt.set_device("CPU")
-            self._init_distributed_opts(use_locking, use_nesterov)
         else:
             self._is_device = True
@@ -737,7 +735,6 @@ class Adam(Optimizer):
                 self.opt = P.Adam(use_locking, use_nesterov)
             self.sparse_opt = P.FusedSparseAdam(use_locking, use_nesterov)
             self.sparse_opt.set_device("CPU")
-            self._init_distributed_opts(use_locking, use_nesterov)
     def _apply_adam(self, params, beta1_power, beta2_power, moment1, moment2, lr, gradients):
         """Execute Adam optimizer and its variants."""
@@ -750,83 +747,44 @@ class Adam(Optimizer):
                                                      self.beta2, self.eps, lr), gradients, params, moment1, moment2)
         # Lazy adam or normal adam
         else:
-            if self.use_dist_optimizer:
-                if self.use_dist_optimizer and self.use_amsgrad:
-                    raise ValueError(f"Adam with amsgrad is currently not supporting distributed training!"
-                                     f"Please set use_amsgrad=False for distributed training.")
-                if self.is_group_lr:
-                    if self.use_lazy:
-                        success = self.map_reverse(F.partial(_lazy_adam_opt, self.opt, self.sparse_opt,
-                                                             self.use_locking, self.use_nesterov,
-                                                             self._is_device, beta1_power, beta2_power,
-                                                             self.beta1, self.beta2, self.eps),
-                                                   lr, gradients, self._parameters, self.moment1, self.moment2,
-                                                   self.dense_lazyadam_opts,
-                                                   self.use_dense_opt_flags, self.sparse_lazyadam_opts,
-                                                   self.use_sparse_opt_flags)
-                    # Normal Adam
-                    else:
-                        success = self.map_(F.partial(_adam_opt, self.opt, self.sparse_opt, self.use_locking,
-                                                      self.use_nesterov, self._is_device, beta1_power, beta2_power,
-                                                      self.beta1, self.beta2, self.eps),
-                                            lr, gradients, params, moment1, moment2,
-                                            self.dense_adam_opts, self.use_dense_opt_flags,
-                                            self.sparse_adam_opts, self.use_sparse_opt_flags)
+            if self.is_group_lr:
+                if self.use_lazy:
+                    success = self.map_(F.partial(_lazy_adam_opt, self.opt, self.sparse_opt,
+                                                  self.use_locking, self.use_nesterov,
+                                                  self._is_device, beta1_power, beta2_power, self.beta1, self.beta2,
+                                                  self.eps), lr, gradients, params, moment1, moment2)
                 else:
-                    if self.use_lazy:
-                        success = self.map_reverse(F.partial(_lazy_adam_opt, self.opt, self.sparse_opt,
-                                                             self.use_locking, self.use_nesterov,
-                                                             self._is_device, beta1_power, beta2_power, self.beta1,
-                                                             self.beta2, self.eps, lr), gradients, self._parameters,
-                                                   self.moment1, self.moment2,
-                                                   self.dense_lazyadam_opts, self.use_dense_opt_flags,
-                                                   self.sparse_lazyadam_opts, self.use_sparse_opt_flags)
+                    if self.use_amsgrad:
+                        success = self.map_(F.partial(_adam_opt, self.opt, self.sparse_opt,
+                                                      self.use_locking, self.use_nesterov,
+                                                      self._is_device, beta1_power, beta2_power,
+                                                      self.beta1, self.beta2, self.eps), lr, gradients, params,
+                                            moment1, moment2, self.vhat)
                     else:
                         success = self.map_(F.partial(_adam_opt, self.opt, self.sparse_opt,
                                                       self.use_locking, self.use_nesterov,
-                                                      self._is_device, beta1_power, beta2_power, self.beta1, self.beta2,
-                                                      self.eps, lr), gradients, params, moment1, moment2,
-                                            self.dense_adam_opts,
-                                            self.use_dense_opt_flags, self.sparse_adam_opts, self.use_sparse_opt_flags)
+                                                      self._is_device, beta1_power, beta2_power,
+                                                      self.beta1, self.beta2, self.eps), lr, gradients, params,
+                                            moment1, moment2)
             else:
-                if self.is_group_lr:
-                    if self.use_lazy:
-                        success = self.map_(F.partial(_lazy_adam_opt, self.opt, self.sparse_opt,
-                                                      self.use_locking, self.use_nesterov,
-                                                      self._is_device, beta1_power, beta2_power, self.beta1, self.beta2,
-                                                      self.eps), lr, gradients, params, moment1, moment2)
-                    else:
-                        if self.use_amsgrad:
-                            success = self.map_(F.partial(_adam_opt, self.opt, self.sparse_opt,
-                                                          self.use_locking, self.use_nesterov,
-                                                          self._is_device, beta1_power, beta2_power,
-                                                          self.beta1, self.beta2, self.eps), lr, gradients, params,
-                                                moment1, moment2, self.vhat)
-                        else:
-                            success = self.map_(F.partial(_adam_opt, self.opt, self.sparse_opt,
-                                                          self.use_locking, self.use_nesterov,
-                                                          self._is_device, beta1_power, beta2_power,
-                                                          self.beta1, self.beta2, self.eps), lr, gradients, params,
-                                                moment1, moment2)
+                if self.use_lazy:
+                    success = self.map_(F.partial(_lazy_adam_opt, self.opt, self.sparse_opt,
+                                                  self.use_locking, self.use_nesterov,
+                                                  self._is_device, beta1_power, beta2_power, self.beta1, self.beta2,
+                                                  self.eps, lr), gradients, params, moment1, moment2)
                 else:
-                    if self.use_lazy:
-                        success = self.map_(F.partial(_lazy_adam_opt, self.opt, self.sparse_opt,
+                    if self.use_amsgrad:
+                        success = self.map_(F.partial(_adam_opt, self.opt, self.sparse_opt,
                                                       self.use_locking, self.use_nesterov,
-                                                      self._is_device, beta1_power, beta2_power, self.beta1, self.beta2,
-                                                      self.eps, lr), gradients, params, moment1, moment2)
+                                                      self._is_device, beta1_power, beta2_power,
+                                                      self.beta1, self.beta2, self.eps, lr), gradients, params,
+                                            moment1, moment2, self.vhat)
                     else:
-                        if self.use_amsgrad:
-                            success = self.map_(F.partial(_adam_opt, self.opt, self.sparse_opt,
-                                                          self.use_locking, self.use_nesterov,
-                                                          self._is_device, beta1_power, beta2_power,
-                                                          self.beta1, self.beta2, self.eps, lr), gradients, params,
-                                                moment1, moment2, self.vhat)
-                        else:
-                            success = self.map_(F.partial(_adam_opt, self.opt, self.sparse_opt,
-                                                          self.use_locking, self.use_nesterov,
-                                                          self._is_device, beta1_power, beta2_power,
-                                                          self.beta1, self.beta2, self.eps, lr), gradients, params,
-                                                moment1, moment2)
+                        success = self.map_(F.partial(_adam_opt, self.opt, self.sparse_opt,
+                                                      self.use_locking, self.use_nesterov,
+                                                      self._is_device, beta1_power, beta2_power,
+                                                      self.beta1, self.beta2, self.eps, lr), gradients, params,
+                                            moment1, moment2)
         return success
@@ -835,7 +793,6 @@ class Adam(Optimizer):
         params = self._parameters
         moment1 = self.moment1
         moment2 = self.moment2
-        gradients = self.flatten_gradients(gradients)
         gradients = self.decay_weight(gradients)
         if not self.use_offload:
             gradients = self.gradients_centralization(gradients)
@@ -859,13 +816,6 @@ class Adam(Optimizer):
         """
         self._set_base_target(value)
-    def _init_distributed_opts(self, use_locking, use_nesterov):
-        self.use_dist_optimizer = self._use_distibuted_optimizer()
-        self.dense_adam_opts, self.use_dense_opt_flags = \
-            self._get_distributed_optimizer_list("adam", use_locking, use_nesterov)
-        self.sparse_adam_opts, self.use_sparse_opt_flags = \
-            self._get_distributed_optimizer_list("fused_sparse_adam", use_locking, use_nesterov)
 class AdamWeightDecay(Optimizer):
     r"""
@@ -1028,11 +978,9 @@ class AdamWeightDecay(Optimizer):
     @jit(backend="ms_backend")
     def construct(self, gradients):
-        gradients = self.flatten_gradients(gradients)
         weight_decay = self.get_weight_decay()
         lr = self.get_lr()
         self.assignadd(self.global_step, self.global_step_increase_tensor)
         if self.use_fused_opt:
             if self.is_group:
                 if self.is_group_lr:
@@ -1070,19 +1018,6 @@ class AdamWeightDecay(Optimizer):
         return optim_result
-    @Optimizer.target.setter
-    def target(self, value):
-        """
-        If the input value is set to "CPU", the parameters will be updated on the host using the Fused
-        optimizer operation.
-        """
-        self._set_base_target(value)
-        if value == 'CPU':
-            self.fused_opt.set_device("CPU")
-            self.use_fused_opt = True
-        else:
-            self.use_fused_opt = False
 class AdamOffload(Optimizer):
     r"""
@@ -1251,7 +1186,6 @@ class AdamOffload(Optimizer):
         params = self._parameters
         moment1 = self.moment1
         moment2 = self.moment2
-        gradients = self.flatten_gradients(gradients)
         gradients = self.decay_weight(gradients)
         gradients = self.scale_grad(gradients)
         lr = self.get_lr()
@@ -1270,30 +1204,3 @@ class AdamOffload(Optimizer):
                                                  beta1_power, beta2_power, self.beta1, self.beta2, self.eps, lr),
                                        gradients, params, moment1, moment2)
         return success
-def create_distributed_adam(*args, **kwargs):
-    """
-    Create the distributed Adam op.
-    """
-    adam = P.Adam(*args, **kwargs)
-    adam.add_prim_attr("gradient_type", "dense_gradient")
-    adam.add_prim_attr("parameter_input_index", 0)
-    adam.add_prim_attr("gradient_input_index", 9)
-    return adam
-def create_distributed_fused_sparse_adam(*args, **kwargs):
-    """
-    Create the distributed FusedSparseAdam op.
-    """
-    sparse_adam = P.FusedSparseAdam(*args, **kwargs)
-    sparse_adam.add_prim_attr("gradient_type", "sparse_gradient")
-    sparse_adam.add_prim_attr("parameter_input_index", 0)
-    sparse_adam.add_prim_attr("gradient_input_index", 9)
-    sparse_adam.add_prim_attr("indices_input_index", 10)
-    return sparse_adam
-_register_dist_optimizer("adam", create_distributed_adam)
-_register_dist_optimizer("fused_sparse_adam", create_distributed_fused_sparse_adam)

mindspore/nn/optim/adamax.py CHANGED Viewed

@@ -202,7 +202,6 @@ class AdaMax(Optimizer):
     @jit
     def construct(self, gradients):
-        gradients = self.flatten_gradients(gradients)
         gradients = self.decay_weight(gradients)
         gradients = self.gradients_centralization(gradients)
         gradients = self.scale_grad(gradients)

mindspore/nn/optim/asgd.py CHANGED Viewed

@@ -184,7 +184,6 @@ class ASGD(Optimizer):
     @jit(backend="ms_backend")
     def construct(self, gradients):
-        gradients = self.flatten_gradients(gradients)
         gradients = self.decay_weight(gradients)
         gradients = self.gradients_centralization(gradients)
         gradients = self.scale_grad(gradients)

mindspore/nn/optim/ftrl.py CHANGED Viewed

@@ -21,27 +21,10 @@ from mindspore.common.api import jit
 from mindspore import _checkparam as validator
 from mindspore.nn.optim.optimizer import Optimizer
 from mindspore.nn.optim.optimizer import opt_init_args_register
-from mindspore.nn.optim._dist_optimizer_registry import _register_dist_optimizer
 _ftrl_opt = C.MultitypeFuncGraph("ftrl_opt")
-@_ftrl_opt.register("Function", "Function", "Number", "Number", "Number", "Tensor", "Tensor",
-                    "RowTensor", "Tensor", "Tensor", "Bool", "Function", "Bool", "Function", "Bool")
-def _tensor_run_opt_with_sparse_dist(opt, spars_opt, l1, l2, lr_power, learning_rate, linear,
-                                     gradient, weight, moment, cache_enable,
-                                     distributed_opt, use_flag, distributed_sparse_opt, use_sparse_flag):
-    """Apply sparse ftrl optimizer to the weight parameter when the gradient is sparse."""
-    success = True
-    indices = gradient.indices
-    values = gradient.values
-    if use_sparse_flag:
-        success = F.depend(success, distributed_sparse_opt(weight, moment, linear, values, indices))
-    else:
-        success = F.depend(success, spars_opt(weight, moment, linear, values, indices))
-    return success
 def _apply_map_tensor_ftrl(l1, l2, lr_power, learning_rate, linear, weight, moment, indices, values):
     """Apllpy ftrl optimizer for map parameter"""
     success = True
@@ -78,43 +61,10 @@ def _apply_map_tensor_ftrl(l1, l2, lr_power, learning_rate, linear, weight, mome
     return success
-@_ftrl_opt.register("Function", "Function", "Number", "Number", "Number", "Tensor", "MapTensor",
-                    "MapTensor", "MapTensor", "MapTensor", "Bool", "Function", "Bool", "Function", "Bool")
-def _run_map_tensor_opt_with_sparse_dist(opt, spars_opt, l1, l2, lr_power, learning_rate, linear,
-                                         gradient, weight, moment, cache_enable,
-                                         distributed_opt, use_flag, distributed_sparse_opt, use_sparse_flag):
-    """Apply sparse ftrl optimizer to the weight parameter when the gradient is sparse."""
-    success = True
-    indices, values = gradient.get_data()
-    if use_sparse_flag:
-        # PS Mode.
-        success = F.depend(success, distributed_sparse_opt(weight, moment, linear, values, indices))
-    elif cache_enable:
-        # PS Cache mode.
-        _apply_map_tensor_ftrl(l1, l2, lr_power, learning_rate, linear, weight, moment, indices, values)
-    else:
-        raise Exception("Unexpected mode for distributed optimizer.")
-    return success
-@_ftrl_opt.register("Function", "Function", "Number", "Number", "Number", "Tensor", "Tensor",
-                    "Tensor", "Tensor", "Tensor", "Bool", "Function", "Bool", "Function", "Bool")
-def _tensor_run_opt_dist(opt, spars_opt, l1, l2, lr_power, learning_rate, linear,
-                         gradient, weight, moment, cache_enable,
-                         distributed_opt, use_flag, distributed_sparse_opt, use_sparse_flag):
-    """Apply ftrl optimizer to the weight parameter."""
-    success = True
-    if use_flag:
-        success = F.depend(success, distributed_opt(weight, moment, linear, gradient, learning_rate, l1, l2, lr_power))
-    else:
-        success = F.depend(success, opt(weight, moment, linear, gradient, learning_rate, l1, l2, lr_power))
-    return success
 @_ftrl_opt.register("Function", "Function", "Number", "Number", "Number", "Tensor", "Tensor",
-                    "RowTensor", "Tensor", "Tensor", "Bool")
+                    "RowTensor", "Tensor", "Tensor")
 def _tensor_run_opt_with_sparse(opt, spars_opt, l1, l2, lr_power, learning_rate, linear,
-                                gradient, weight, moment, cache_enable):
+                                gradient, weight, moment):
     """Apply sparse ftrl optimizer to the weight parameter when the gradient is sparse."""
     success = True
     indices = gradient.indices
@@ -124,9 +74,9 @@ def _tensor_run_opt_with_sparse(opt, spars_opt, l1, l2, lr_power, learning_rate,
 @_ftrl_opt.register("Function", "Function", "Number", "Number", "Number", "Tensor", "MapTensor",
-                    "MapTensor", "MapTensor", "MapTensor", "Bool")
+                    "MapTensor", "MapTensor", "MapTensor")
 def _run_map_tensor_opt_with_sparse(opt, spars_opt, l1, l2, lr_power, learning_rate, linear,
-                                    gradient, weight, moment, cache_enable):
+                                    gradient, weight, moment):
     """Apply sparse ftrl optimizer to the weight parameter when the gradient is sparse."""
     success = True
     indices, values = gradient.get_data()
@@ -135,9 +85,9 @@ def _run_map_tensor_opt_with_sparse(opt, spars_opt, l1, l2, lr_power, learning_r
 @_ftrl_opt.register("Function", "Function", "Number", "Number", "Number", "Tensor", "Tensor",
-                    "Tensor", "Tensor", "Tensor", "Bool")
+                    "Tensor", "Tensor", "Tensor")
 def _tensor_run_opt(opt, spars_opt, l1, l2, lr_power, learning_rate, linear,
-                    gradient, weight, moment, cache_enable):
+                    gradient, weight, moment):
     """Apply ftrl optimizer to the weight parameter."""
     success = True
     success = F.depend(success, opt(weight, moment, linear, gradient, learning_rate, l1, l2, lr_power))
@@ -320,14 +270,11 @@ class FTRL(Optimizer):
         self.use_locking = use_locking
         self.sparse_opt = P.SparseApplyFtrl(learning_rate, l1, l2, lr_power, use_locking=use_locking)
-        self._init_distributed_opts(use_locking, learning_rate, l1, l2, lr_power)
     @jit
     def construct(self, grads):
         params = self._parameters
         moments = self.moments
         linear = self.linear
-        grads = self.flatten_gradients(grads)
         grads = self.decay_weight(grads)
         grads = self.gradients_centralization(grads)
         grads = self.scale_grad(grads)
@@ -335,14 +282,8 @@ class FTRL(Optimizer):
         lr = self.get_lr()
         self.assignadd(self.global_step, self.global_step_increase_tensor)
-        if self.use_dist_optimizer:
-            success = self.map_(F.partial(_ftrl_opt, self.opt, self.sparse_opt, self.l1, self.l2, self.lr_power, lr),
-                                linear, grads, params, moments, self.cache_enable,
-                                self.distributed_opts, self.use_distributed_opt_flags,
-                                self.distributed_sparse_opts, self.use_distributed_sparse_opt_flags)
-        else:
-            success = self.map_(F.partial(_ftrl_opt, self.opt, self.sparse_opt, self.l1, self.l2, self.lr_power, lr),
-                                linear, grads, params, moments, self.cache_enable)
+        success = self.map_(F.partial(_ftrl_opt, self.opt, self.sparse_opt, self.l1, self.l2, self.lr_power, lr),
+                            linear, grads, params, moments)
         return success
     @Optimizer.target.setter
@@ -366,38 +307,3 @@ class FTRL(Optimizer):
             self.sparse_opt = P.SparseApplyFtrl(self.lr, self.l1, self.l2, self.lr_power, self.use_locking)
         self._target = value
-    def _init_distributed_opts(self, use_locking, learning_rate, l1, l2, lr_power):
-        self.use_dist_optimizer = self._use_distibuted_optimizer()
-        self.distributed_opts, self.use_distributed_opt_flags =\
-        self._get_distributed_optimizer_list("ftrl", use_locking=use_locking)
-        self.distributed_sparse_opts, self.use_distributed_sparse_opt_flags =\
-        self._get_distributed_optimizer_list("fused_sparse_ftrl", learning_rate,
-                                             l1, l2, lr_power, use_locking=use_locking)
-def create_distributed_ftrl(*args, **kwargs):
-    """
-    Create the distributed ApplyFtrl op.
-    """
-    ftrl = P.ApplyFtrl(*args, **kwargs)
-    ftrl.add_prim_attr("gradient_type", "dense_gradient")
-    ftrl.add_prim_attr("parameter_input_index", 0)
-    ftrl.add_prim_attr("gradient_input_index", 3)
-    return ftrl
-def create_distributed_fused_sparse_ftrl(*args, **kwargs):
-    """
-    Create the distributed FusedSparseFtrl op.
-    """
-    sparse_ftrl = P.FusedSparseFtrl(*args, **kwargs)
-    sparse_ftrl.add_prim_attr("gradient_type", "sparse_gradient")
-    sparse_ftrl.add_prim_attr("parameter_input_index", 0)
-    sparse_ftrl.add_prim_attr("gradient_input_index", 3)
-    sparse_ftrl.add_prim_attr("indices_input_index", 4)
-    return sparse_ftrl
-_register_dist_optimizer("ftrl", create_distributed_ftrl)
-_register_dist_optimizer("fused_sparse_ftrl", create_distributed_fused_sparse_ftrl)

mindspore/nn/optim/lamb.py CHANGED Viewed

@@ -269,7 +269,6 @@ class Lamb(Optimizer):
         lr = self.get_lr()
         self.assignadd(self.global_step, self.global_step_increase_tensor)
         lamb_opt = _lamb_opt
-        gradients = self.flatten_gradients(gradients)
         gradients = self.gradients_centralization(gradients)
         if self.is_group:
             if self.is_group_lr:

mindspore/nn/optim/lars.py CHANGED Viewed

@@ -125,8 +125,6 @@ class LARS(Optimizer):
         self.weight_decay = optimizer.weight_decay
         self.global_step = optimizer.global_step
         self.parameters = optimizer.parameters
-        if optimizer._use_flattened_params:  # pylint: disable=W0212
-            self.opt._use_flattened_params = False  # pylint: disable=W0212
         self._user_parameters += [param.name for param in self.parameters]
         self.use_clip = use_clip
         self.lars_flag = tuple(lars_filter(x) for x in self.parameters)
@@ -173,7 +171,6 @@ class LARS(Optimizer):
     @jit
     def construct(self, gradients):
         params = self.parameters
-        gradients = self.flatten_gradients(gradients)
         if self.use_clip:
             lr = self._get_lr()
         else: