PyPI - mindspore - Versions diffs - 2.7.0rc1__cp311-cp311-win_amd64.whl → 2.7.1__cp311-cp311-win_amd64.whl - Mend

mindspore 2.7.0rc1__cp311-cp311-win_amd64.whl → 2.7.1__cp311-cp311-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mindspore might be problematic. Click here for more details.

Files changed (370) hide show

mindspore/.commit_id +1 -1
mindspore/__init__.py +5 -2
mindspore/_c_dataengine.cp311-win_amd64.pyd +0 -0
mindspore/_c_expression.cp311-win_amd64.pyd +0 -0
mindspore/_c_mindrecord.cp311-win_amd64.pyd +0 -0
mindspore/_checkparam.py +2 -2
mindspore/_extends/builtin_operations.py +3 -3
mindspore/_extends/parallel_compile/akg_compiler/custom.py +1109 -0
mindspore/_extends/parallel_compile/akg_compiler/gen_custom_op_files.py +1 -1
mindspore/_extends/parse/__init__.py +3 -3
mindspore/_extends/parse/compile_config.py +24 -1
mindspore/_extends/parse/deprecated/deprecated_tensor_method.py +6 -3
mindspore/_extends/parse/parser.py +28 -22
mindspore/_extends/parse/resources.py +1 -1
mindspore/_extends/parse/standard_method.py +23 -2
mindspore/_extends/parse/trope.py +2 -1
mindspore/_extends/pijit/pijit_func_white_list.py +9 -27
mindspore/amp.py +0 -18
mindspore/avcodec-59.dll +0 -0
mindspore/avdevice-59.dll +0 -0
mindspore/avfilter-8.dll +0 -0
mindspore/avformat-59.dll +0 -0
mindspore/avutil-57.dll +0 -0
mindspore/boost/base.py +29 -2
mindspore/common/__init__.py +18 -12
mindspore/common/_decorator.py +3 -2
mindspore/common/_grad_function.py +3 -1
mindspore/common/_tensor_cpp_method.py +1 -1
mindspore/common/_tensor_docs.py +371 -96
mindspore/common/_utils.py +7 -43
mindspore/common/api.py +434 -135
mindspore/common/dtype.py +98 -57
mindspore/common/dump.py +7 -108
mindspore/common/dynamic_shape/__init__.py +0 -0
mindspore/common/{auto_dynamic_shape.py → dynamic_shape/auto_dynamic_shape.py} +15 -23
mindspore/common/dynamic_shape/enable_dynamic.py +197 -0
mindspore/common/file_system.py +59 -9
mindspore/common/hook_handle.py +82 -3
mindspore/common/jit_config.py +5 -1
mindspore/common/jit_trace.py +27 -12
mindspore/common/lazy_inline.py +5 -3
mindspore/common/np_dtype.py +3 -3
mindspore/common/parameter.py +17 -127
mindspore/common/recompute.py +4 -13
mindspore/common/tensor.py +50 -217
mindspore/communication/_comm_helper.py +11 -1
mindspore/communication/comm_func.py +138 -4
mindspore/communication/management.py +85 -1
mindspore/config/op_info.config +0 -15
mindspore/context.py +20 -106
mindspore/dataset/__init__.py +1 -1
mindspore/dataset/audio/transforms.py +1 -1
mindspore/dataset/core/config.py +35 -1
mindspore/dataset/engine/datasets.py +338 -319
mindspore/dataset/engine/datasets_user_defined.py +38 -22
mindspore/dataset/engine/datasets_vision.py +1 -1
mindspore/dataset/engine/validators.py +1 -15
mindspore/dataset/transforms/c_transforms.py +2 -2
mindspore/dataset/transforms/transforms.py +3 -3
mindspore/dataset/vision/__init__.py +1 -1
mindspore/dataset/vision/py_transforms.py +8 -8
mindspore/dataset/vision/transforms.py +17 -5
mindspore/dataset/vision/utils.py +632 -21
mindspore/device_context/ascend/op_tuning.py +35 -1
mindspore/dnnl.dll +0 -0
mindspore/{profiler/common/validator → graph}/__init__.py +9 -1
mindspore/graph/custom_pass.py +55 -0
mindspore/include/api/cell.h +28 -4
mindspore/include/api/cfg.h +24 -7
mindspore/include/api/context.h +1 -0
mindspore/include/api/delegate.h +0 -2
mindspore/include/api/dual_abi_helper.h +100 -19
mindspore/include/api/graph.h +14 -1
mindspore/include/api/kernel.h +16 -3
mindspore/include/api/kernel_api.h +9 -1
mindspore/include/api/metrics/accuracy.h +9 -0
mindspore/include/api/model.h +5 -1
mindspore/include/api/model_group.h +4 -0
mindspore/include/api/model_parallel_runner.h +2 -0
mindspore/include/api/status.h +48 -10
mindspore/include/api/types.h +6 -1
mindspore/include/dataset/constants.h +9 -0
mindspore/include/dataset/execute.h +2 -2
mindspore/jpeg62.dll +0 -0
mindspore/mindrecord/__init__.py +3 -3
mindspore/mindrecord/common/exceptions.py +1 -0
mindspore/mindrecord/config.py +1 -1
mindspore/{parallel/mpi → mindrecord/core}/__init__.py +4 -1
mindspore/mindrecord/{shardheader.py → core/shardheader.py} +2 -1
mindspore/mindrecord/{shardindexgenerator.py → core/shardindexgenerator.py} +1 -1
mindspore/mindrecord/{shardreader.py → core/shardreader.py} +2 -1
mindspore/mindrecord/{shardsegment.py → core/shardsegment.py} +2 -2
mindspore/mindrecord/{shardutils.py → core/shardutils.py} +1 -1
mindspore/mindrecord/{shardwriter.py → core/shardwriter.py} +1 -1
mindspore/mindrecord/filereader.py +4 -4
mindspore/mindrecord/filewriter.py +5 -5
mindspore/mindrecord/mindpage.py +2 -2
mindspore/mindrecord/tools/cifar10.py +4 -3
mindspore/mindrecord/tools/cifar100.py +1 -1
mindspore/mindrecord/tools/cifar100_to_mr.py +1 -1
mindspore/mindrecord/tools/cifar10_to_mr.py +6 -6
mindspore/mindrecord/tools/csv_to_mr.py +1 -1
mindspore/mindrecord/tools/imagenet_to_mr.py +1 -1
mindspore/mindrecord/tools/mnist_to_mr.py +1 -1
mindspore/mindrecord/tools/tfrecord_to_mr.py +1 -1
mindspore/mindspore_backend_common.dll +0 -0
mindspore/mindspore_backend_manager.dll +0 -0
mindspore/mindspore_cluster.dll +0 -0
mindspore/mindspore_common.dll +0 -0
mindspore/mindspore_core.dll +0 -0
mindspore/mindspore_cpu.dll +0 -0
mindspore/mindspore_dump.dll +0 -0
mindspore/mindspore_frontend.dll +0 -0
mindspore/mindspore_glog.dll +0 -0
mindspore/mindspore_hardware_abstract.dll +0 -0
mindspore/mindspore_memory_pool.dll +0 -0
mindspore/mindspore_ms_backend.dll +0 -0
mindspore/mindspore_ops.dll +0 -0
mindspore/{mindspore_ops_host.dll → mindspore_ops_cpu.dll} +0 -0
mindspore/mindspore_profiler.dll +0 -0
mindspore/mindspore_pyboost.dll +0 -0
mindspore/mindspore_pynative.dll +0 -0
mindspore/mindspore_runtime_pipeline.dll +0 -0
mindspore/mindspore_runtime_utils.dll +0 -0
mindspore/mindspore_tools.dll +0 -0
mindspore/mint/__init__.py +15 -10
mindspore/mint/distributed/__init__.py +4 -0
mindspore/mint/distributed/distributed.py +392 -69
mindspore/mint/nn/__init__.py +2 -16
mindspore/mint/nn/functional.py +4 -110
mindspore/mint/nn/layer/__init__.py +0 -2
mindspore/mint/nn/layer/_functions.py +1 -2
mindspore/mint/nn/layer/activation.py +0 -6
mindspore/mint/nn/layer/basic.py +0 -47
mindspore/mint/nn/layer/conv.py +10 -10
mindspore/mint/nn/layer/normalization.py +11 -16
mindspore/mint/nn/layer/pooling.py +0 -4
mindspore/nn/__init__.py +1 -3
mindspore/nn/cell.py +231 -239
mindspore/nn/layer/activation.py +4 -2
mindspore/nn/layer/basic.py +56 -14
mindspore/nn/layer/container.py +16 -0
mindspore/nn/layer/embedding.py +4 -169
mindspore/nn/layer/image.py +1 -1
mindspore/nn/layer/normalization.py +2 -1
mindspore/nn/layer/thor_layer.py +4 -85
mindspore/nn/optim/ada_grad.py +0 -1
mindspore/nn/optim/adafactor.py +0 -1
mindspore/nn/optim/adam.py +32 -127
mindspore/nn/optim/adamax.py +0 -1
mindspore/nn/optim/asgd.py +0 -1
mindspore/nn/optim/ftrl.py +8 -102
mindspore/nn/optim/lamb.py +1 -4
mindspore/nn/optim/lars.py +0 -3
mindspore/nn/optim/lazyadam.py +25 -218
mindspore/nn/optim/momentum.py +5 -43
mindspore/nn/optim/optimizer.py +6 -55
mindspore/nn/optim/proximal_ada_grad.py +0 -1
mindspore/nn/optim/rmsprop.py +0 -1
mindspore/nn/optim/rprop.py +0 -1
mindspore/nn/optim/sgd.py +0 -1
mindspore/nn/optim/tft_wrapper.py +2 -4
mindspore/nn/optim/thor.py +0 -2
mindspore/nn/probability/bijector/bijector.py +7 -8
mindspore/nn/probability/bijector/gumbel_cdf.py +2 -2
mindspore/nn/probability/bijector/power_transform.py +20 -21
mindspore/nn/probability/bijector/scalar_affine.py +5 -5
mindspore/nn/probability/bijector/softplus.py +13 -14
mindspore/nn/probability/distribution/_utils/utils.py +2 -2
mindspore/nn/wrap/cell_wrapper.py +39 -5
mindspore/nn/wrap/grad_reducer.py +4 -89
mindspore/numpy/array_creations.py +4 -4
mindspore/numpy/fft.py +9 -9
mindspore/numpy/utils_const.py +1 -1
mindspore/{nn/reinforcement → onnx}/__init__.py +5 -8
mindspore/onnx/onnx_export.py +137 -0
mindspore/opencv_core4110.dll +0 -0
mindspore/opencv_imgcodecs4110.dll +0 -0
mindspore/{opencv_imgproc452.dll → opencv_imgproc4110.dll} +0 -0
mindspore/ops/__init__.py +2 -0
mindspore/ops/_grad_experimental/grad_comm_ops.py +38 -2
mindspore/ops/_grad_experimental/grad_inner_ops.py +0 -9
mindspore/ops/_op_impl/aicpu/__init__.py +0 -10
mindspore/ops/_op_impl/cpu/__init__.py +1 -5
mindspore/ops/_op_impl/cpu/{buffer_append.py → joinedstr_op.py} +8 -8
mindspore/ops/auto_generate/cpp_create_prim_instance_helper.py +28 -24
mindspore/ops/auto_generate/gen_extend_func.py +6 -11
mindspore/ops/auto_generate/gen_ops_def.py +385 -154
mindspore/ops/auto_generate/gen_ops_prim.py +5676 -5167
mindspore/ops/communication.py +97 -0
mindspore/ops/composite/__init__.py +5 -2
mindspore/ops/composite/base.py +16 -2
mindspore/ops/composite/multitype_ops/__init__.py +3 -1
mindspore/ops/composite/multitype_ops/_compile_utils.py +150 -8
mindspore/ops/composite/multitype_ops/_constexpr_utils.py +1 -1
mindspore/ops/composite/multitype_ops/add_impl.py +7 -0
mindspore/ops/composite/multitype_ops/mod_impl.py +27 -0
mindspore/ops/function/__init__.py +2 -0
mindspore/ops/function/array_func.py +24 -18
mindspore/ops/function/comm_func.py +3883 -0
mindspore/ops/function/debug_func.py +7 -6
mindspore/ops/function/grad/grad_func.py +4 -12
mindspore/ops/function/math_func.py +89 -86
mindspore/ops/function/nn_func.py +92 -313
mindspore/ops/function/random_func.py +9 -18
mindspore/ops/functional.py +4 -1
mindspore/ops/functional_overload.py +377 -30
mindspore/ops/operations/__init__.py +2 -5
mindspore/ops/operations/_custom_ops_utils.py +7 -9
mindspore/ops/operations/_inner_ops.py +12 -50
mindspore/ops/operations/_rl_inner_ops.py +0 -933
mindspore/ops/operations/array_ops.py +5 -50
mindspore/ops/operations/comm_ops.py +95 -17
mindspore/ops/operations/custom_ops.py +237 -22
mindspore/ops/operations/debug_ops.py +33 -35
mindspore/ops/operations/manually_defined/ops_def.py +39 -318
mindspore/ops/operations/math_ops.py +5 -5
mindspore/ops/operations/nn_ops.py +3 -3
mindspore/ops/operations/sparse_ops.py +0 -83
mindspore/ops/primitive.py +4 -27
mindspore/ops/tensor_method.py +88 -10
mindspore/ops_generate/aclnn/aclnn_kernel_register_auto_cc_generator.py +5 -5
mindspore/ops_generate/aclnn/gen_aclnn_implement.py +8 -8
mindspore/ops_generate/api/functions_cc_generator.py +53 -4
mindspore/ops_generate/api/tensor_func_reg_cpp_generator.py +25 -11
mindspore/ops_generate/common/gen_constants.py +11 -10
mindspore/ops_generate/common/op_proto.py +18 -1
mindspore/ops_generate/common/template.py +102 -245
mindspore/ops_generate/common/template_utils.py +212 -0
mindspore/ops_generate/gen_custom_ops.py +69 -0
mindspore/ops_generate/op_def/ops_def_cc_generator.py +78 -7
mindspore/ops_generate/op_def_py/base_op_prim_py_generator.py +360 -0
mindspore/ops_generate/op_def_py/custom_op_prim_py_generator.py +140 -0
mindspore/ops_generate/op_def_py/op_def_py_generator.py +54 -7
mindspore/ops_generate/op_def_py/op_prim_py_generator.py +5 -312
mindspore/ops_generate/pyboost/auto_grad_impl_cc_generator.py +74 -17
mindspore/ops_generate/pyboost/auto_grad_reg_cc_generator.py +22 -5
mindspore/ops_generate/pyboost/gen_pyboost_func.py +0 -16
mindspore/ops_generate/pyboost/op_template_parser.py +3 -2
mindspore/ops_generate/pyboost/pyboost_functions_cpp_generator.py +21 -5
mindspore/ops_generate/pyboost/pyboost_functions_h_generator.py +2 -2
mindspore/ops_generate/pyboost/pyboost_functions_impl_cpp_generator.py +30 -10
mindspore/ops_generate/pyboost/pyboost_grad_function_cpp_generator.py +10 -3
mindspore/ops_generate/pyboost/pyboost_internal_kernel_info_adapter_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_native_grad_functions_generator.py +19 -9
mindspore/ops_generate/pyboost/pyboost_op_cpp_code_generator.py +71 -28
mindspore/ops_generate/pyboost/pyboost_overload_functions_cpp_generator.py +10 -9
mindspore/ops_generate/pyboost/pyboost_utils.py +27 -16
mindspore/ops_generate/resources/yaml_loader.py +13 -0
mindspore/ops_generate/tensor_py_cc_generator.py +2 -2
mindspore/parallel/_auto_parallel_context.py +5 -15
mindspore/parallel/_cell_wrapper.py +1 -1
mindspore/parallel/_parallel_serialization.py +4 -6
mindspore/parallel/_ps_context.py +2 -2
mindspore/parallel/_utils.py +34 -17
mindspore/parallel/auto_parallel.py +23 -9
mindspore/parallel/checkpoint_transform.py +20 -2
mindspore/parallel/cluster/process_entity/_api.py +28 -33
mindspore/parallel/cluster/process_entity/_utils.py +9 -5
mindspore/parallel/cluster/run.py +5 -3
mindspore/{experimental/llm_boost/ascend_native → parallel/distributed}/__init__.py +21 -22
mindspore/parallel/distributed/distributed_data_parallel.py +393 -0
mindspore/parallel/distributed/flatten_grad_buffer.py +295 -0
mindspore/parallel/function/reshard_func.py +6 -5
mindspore/parallel/nn/parallel_cell_wrapper.py +40 -3
mindspore/parallel/nn/parallel_grad_reducer.py +0 -8
mindspore/parallel/shard.py +7 -21
mindspore/parallel/strategy.py +336 -0
mindspore/parallel/transform_safetensors.py +127 -20
mindspore/profiler/analysis/viewer/ascend_kernel_details_viewer.py +13 -9
mindspore/profiler/analysis/viewer/ascend_op_memory_viewer.py +1 -1
mindspore/profiler/analysis/viewer/ms_minddata_viewer.py +1 -1
mindspore/profiler/common/constant.py +5 -0
mindspore/profiler/common/file_manager.py +9 -0
mindspore/profiler/common/msprof_cmd_tool.py +40 -4
mindspore/profiler/common/path_manager.py +65 -24
mindspore/profiler/common/profiler_context.py +27 -14
mindspore/profiler/common/profiler_info.py +3 -3
mindspore/profiler/common/profiler_meta_data.py +1 -0
mindspore/profiler/common/profiler_op_analyse.py +10 -6
mindspore/profiler/common/profiler_path_manager.py +13 -0
mindspore/profiler/common/util.py +30 -3
mindspore/profiler/dynamic_profiler.py +91 -46
mindspore/profiler/envprofiler.py +30 -5
mindspore/profiler/experimental_config.py +18 -2
mindspore/profiler/platform/cpu_profiler.py +10 -4
mindspore/profiler/platform/npu_profiler.py +34 -7
mindspore/profiler/profiler.py +193 -145
mindspore/profiler/profiler_action_controller.py +1 -1
mindspore/profiler/profiler_interface.py +2 -2
mindspore/rewrite/symbol_tree/symbol_tree.py +1 -1
mindspore/run_check/_check_version.py +108 -24
mindspore/runtime/__init__.py +9 -6
mindspore/runtime/executor.py +35 -0
mindspore/runtime/memory.py +113 -0
mindspore/runtime/thread_bind_core.py +1 -1
mindspore/swresample-4.dll +0 -0
mindspore/swscale-6.dll +0 -0
mindspore/tinyxml2.dll +0 -0
mindspore/{experimental/llm_boost → tools}/__init__.py +5 -5
mindspore/tools/data_dump.py +130 -0
mindspore/tools/sdc_detect.py +91 -0
mindspore/tools/stress_detect.py +63 -0
mindspore/train/__init__.py +6 -6
mindspore/train/_utils.py +8 -21
mindspore/train/amp.py +6 -7
mindspore/train/callback/_callback.py +2 -1
mindspore/train/callback/_checkpoint.py +1 -17
mindspore/train/callback/_flops_collector.py +10 -6
mindspore/train/callback/_train_fault_tolerance.py +72 -25
mindspore/train/data_sink.py +5 -9
mindspore/train/dataset_helper.py +5 -5
mindspore/train/model.py +41 -230
mindspore/train/serialization.py +160 -401
mindspore/train/train_thor/model_thor.py +2 -2
mindspore/turbojpeg.dll +0 -0
mindspore/utils/__init__.py +6 -3
mindspore/utils/dlpack.py +92 -0
mindspore/utils/dryrun.py +1 -1
mindspore/utils/runtime_execution_order_check.py +10 -0
mindspore/utils/sdc_detect.py +14 -12
mindspore/utils/stress_detect.py +43 -0
mindspore/utils/utils.py +152 -16
mindspore/version.py +1 -1
{mindspore-2.7.0rc1.dist-info → mindspore-2.7.1.dist-info}/METADATA +3 -2
{mindspore-2.7.0rc1.dist-info → mindspore-2.7.1.dist-info}/RECORD +330 -344
mindspore/_extends/remote/kernel_build_server_ascend.py +0 -75
mindspore/communication/_hccl_management.py +0 -297
mindspore/experimental/llm_boost/ascend_native/llama_boost_ascend_native.py +0 -207
mindspore/experimental/llm_boost/ascend_native/llm_boost.py +0 -52
mindspore/experimental/llm_boost/atb/__init__.py +0 -23
mindspore/experimental/llm_boost/atb/boost_base.py +0 -385
mindspore/experimental/llm_boost/atb/llama_boost.py +0 -137
mindspore/experimental/llm_boost/atb/qwen_boost.py +0 -124
mindspore/experimental/llm_boost/register.py +0 -130
mindspore/experimental/llm_boost/utils.py +0 -31
mindspore/include/OWNERS +0 -7
mindspore/mindspore_cpu_res_manager.dll +0 -0
mindspore/mindspore_ops_kernel_common.dll +0 -0
mindspore/mindspore_res_manager.dll +0 -0
mindspore/nn/optim/_dist_optimizer_registry.py +0 -111
mindspore/nn/reinforcement/_batch_read_write.py +0 -142
mindspore/nn/reinforcement/_tensors_queue.py +0 -152
mindspore/nn/reinforcement/tensor_array.py +0 -145
mindspore/opencv_core452.dll +0 -0
mindspore/opencv_imgcodecs452.dll +0 -0
mindspore/ops/_op_impl/aicpu/priority_replay_buffer.py +0 -113
mindspore/ops/_op_impl/aicpu/reservoir_replay_buffer.py +0 -96
mindspore/ops/_op_impl/aicpu/sparse_cross.py +0 -42
mindspore/ops/_op_impl/cpu/buffer_get.py +0 -28
mindspore/ops/_op_impl/cpu/buffer_sample.py +0 -28
mindspore/ops/_op_impl/cpu/priority_replay_buffer.py +0 -42
mindspore/ops/operations/_tensor_array.py +0 -359
mindspore/ops/operations/rl_ops.py +0 -288
mindspore/parallel/_offload_context.py +0 -275
mindspore/parallel/_recovery_context.py +0 -115
mindspore/parallel/_transformer/__init__.py +0 -35
mindspore/parallel/_transformer/layers.py +0 -765
mindspore/parallel/_transformer/loss.py +0 -251
mindspore/parallel/_transformer/moe.py +0 -693
mindspore/parallel/_transformer/op_parallel_config.py +0 -222
mindspore/parallel/_transformer/transformer.py +0 -3124
mindspore/parallel/mpi/_mpi_config.py +0 -116
mindspore/profiler/common/validator/validate_path.py +0 -84
mindspore/train/memory_profiling_pb2.py +0 -298
mindspore/utils/hooks.py +0 -81
/mindspore/common/{_auto_dynamic.py → dynamic_shape/_auto_dynamic.py} +0 -0
{mindspore-2.7.0rc1.dist-info → mindspore-2.7.1.dist-info}/WHEEL +0 -0
{mindspore-2.7.0rc1.dist-info → mindspore-2.7.1.dist-info}/entry_points.txt +0 -0
{mindspore-2.7.0rc1.dist-info → mindspore-2.7.1.dist-info}/top_level.txt +0 -0

mindspore/nn/optim/lazyadam.py CHANGED Viewed

@@ -26,34 +26,19 @@ from mindspore.common.tensor import Tensor
 from mindspore import _checkparam as validator
 from mindspore.nn.optim.optimizer import Optimizer
 from mindspore.nn.optim.optimizer import opt_init_args_register
-from mindspore.nn.optim._dist_optimizer_registry import _register_dist_optimizer
 from mindspore.common._decorator import deprecated
 _lazy_adam_opt = C.MultitypeFuncGraph("lazy_adam_opt")
-@_lazy_adam_opt.register("Function", "Function", "Function", "Function", "Bool", "Bool", "Bool", "Tensor", "Tensor",
-                         "Tensor", "Tensor", "Tensor", "Tensor", "RowTensor", "Tensor", "Tensor", "Tensor", "Bool",
-                         "Bool", "Function", "Bool", "Function", "Bool")
-def _run_opt_with_sparse_dist(opt, sparse_opt, push, pull, use_locking, use_nesterov, target, beta1_power, beta2_power,
-                              beta1, beta2, eps, lr, gradient, params, m, v, ps_parameter, cache_enable,
-                              distributed_opt, use_flag, distributed_sparse_opt, use_sparse_flag):
+@_lazy_adam_opt.register("Function", "Function", "Bool", "Bool", "Bool", "Tensor", "Tensor",
+                         "Tensor", "Tensor", "Tensor", "Tensor", "RowTensor", "Tensor", "Tensor", "Tensor")
+def _run_opt_with_sparse(opt, sparse_opt, use_locking, use_nesterov, target, beta1_power, beta2_power,
+                         beta1, beta2, eps, lr, gradient, params, m, v):
     """Apply sparse lazy adam optimizer to the weight parameter when the gradient is sparse."""
     success = True
     indices = gradient.indices
     values = gradient.values
-    if use_sparse_flag:
-        success = F.depend(success, distributed_sparse_opt(params, m, v, beta1_power, beta2_power, lr, beta1, beta2,
-                                                           eps, values, indices))
-        return success
-    if ps_parameter and not cache_enable:
-        op_shape = P.Shape()
-        shapes = (op_shape(params), op_shape(m), op_shape(v),
-                  op_shape(beta1_power), op_shape(beta2_power), op_shape(lr), op_shape(beta1),
-                  op_shape(beta2), op_shape(eps), op_shape(values), op_shape(indices))
-        success = F.depend(success, pull(push((beta1_power, beta2_power, lr, beta1, beta2,
-                                               eps, values, indices), shapes), params))
-        return success
     if not target:
         success = F.depend(success, sparse_opt(params, m, v, beta1_power, beta2_power, lr, beta1, beta2,
@@ -85,122 +70,10 @@ def _run_opt_with_sparse_dist(opt, sparse_opt, push, pull, use_locking, use_nest
     return success
-@_lazy_adam_opt.register("Function", "Function", "Function", "Function", "Bool", "Bool", "Bool", "Tensor", "Tensor",
-                         "Tensor", "Tensor", "Tensor", "Tensor", "MapTensor", "MapTensor", "MapTensor", "MapTensor",
-                         "Bool", "Bool", "Function", "Bool", "Function", "Bool")
-def _run_map_tensor_opt_with_sparse_dist(opt, sparse_opt, push, pull, use_locking, use_nesterov, target, beta1_power,
-                                         beta2_power, beta1, beta2, eps, lr, gradient, params, m, v,
-                                         ps_parameter, cache_enable, distributed_opt, use_flag, distributed_sparse_opt,
-                                         use_sparse_flag):
-    """Apply sparse lazy adam optimizer to the weight parameter when the gradient is sparse."""
-    success = True
-    indices, values = gradient.get_data()
-    if use_sparse_flag:
-        # PS Mode.
-        success = F.depend(success, distributed_sparse_opt(params, m, v, beta1_power, beta2_power, lr, beta1, beta2,
-                                                           eps, values, indices))
-    else:
-        # PS Cache mode.
-        op_sqrt = P.Sqrt()
-        m_slice = m.get(indices)
-        v_slice = v.get(indices)
-        next_m = m_slice * beta1 + values * (1 - beta1)
-        next_v = v_slice * beta2 + values * values * (1 - beta2)
-        lr_t = lr * op_sqrt(1 - beta2_power) / (1 - beta1_power)
-        if use_nesterov:
-            m_temp = beta1 * next_m + values * (1 - beta1)
-            param_update = m_temp / (op_sqrt(next_v) + eps)
-        else:
-            param_update = next_m / (op_sqrt(next_v) + eps)
-        params_need_update = params.get(indices)
-        params.put(indices, params_need_update - lr_t * param_update)
-        m.put(indices, next_m)
-        v.put(indices, next_v)
-    return success
-@_lazy_adam_opt.register("Function", "Function", "Function", "Function", "Bool", "Bool", "Bool", "Tensor", "Tensor",
-                         "Tensor", "Tensor", "Tensor", "Tensor", "Tensor", "Tensor", "Tensor", "Tensor", "Bool", "Bool",
-                         "Function", "Bool", "Function", "Bool")
-def _run_opt_with_one_number_dist(opt, sparse_opt, push, pull, use_locking, use_nesterov, target,
-                                  beta1_power, beta2_power,
-                                  beta1, beta2, eps, lr, gradient, params, moment1, moment2, ps_parameter, cache_enable,
-                                  distributed_opt, use_flag, distributed_sparse_opt, use_sparse_flag):
-    """Apply lazy adam optimizer to the weight parameter using Tensor."""
-    success = True
-    if use_flag:
-        success = F.depend(success, distributed_opt(params, moment1, moment2, beta1_power, beta2_power, lr, beta1,
-                                                    beta2, eps, gradient))
-    elif ps_parameter and not cache_enable:
-        op_shape = P.Shape()
-        success = F.depend(success, pull(push((beta1_power, beta2_power, lr, beta1, beta2, eps, gradient),
-                                              (op_shape(params), op_shape(moment1), op_shape(moment2))), params))
-    else:
-        success = F.depend(success, opt(params, moment1, moment2, beta1_power, beta2_power, lr, beta1, beta2,
-                                        eps, gradient))
-    return success
-@_lazy_adam_opt.register("Function", "Function", "Function", "Function", "Bool", "Bool", "Bool", "Tensor", "Tensor",
-                         "Tensor", "Tensor", "Tensor", "Tensor", "RowTensor", "Tensor", "Tensor", "Tensor", "Bool",
-                         "Bool")
-def _run_opt_with_sparse(opt, sparse_opt, push, pull, use_locking, use_nesterov, target, beta1_power, beta2_power,
-                         beta1, beta2, eps, lr, gradient, params, m, v, ps_parameter, cache_enable):
-    """Apply sparse lazy adam optimizer to the weight parameter when the gradient is sparse."""
-    success = True
-    indices = gradient.indices
-    values = gradient.values
-    if ps_parameter and not cache_enable:
-        op_shape = P.Shape()
-        shapes = (op_shape(params), op_shape(m), op_shape(v),
-                  op_shape(beta1_power), op_shape(beta2_power), op_shape(lr), op_shape(beta1),
-                  op_shape(beta2), op_shape(eps), op_shape(values), op_shape(indices))
-        success = F.depend(success, pull(push((beta1_power, beta2_power, lr, beta1, beta2,
-                                               eps, values, indices), shapes), params))
-        return success
-    if not target:
-        success = F.depend(success, sparse_opt(params, m, v, beta1_power, beta2_power, lr, beta1, beta2,
-                                               eps, values, indices))
-    else:
-        op_gather = P.Gather()
-        op_sqrt = P.Sqrt()
-        scatter_add = P.ScatterAdd(use_locking)
-        scatter_update = P.ScatterUpdate(use_locking)
-        m_slice = op_gather(m, indices, 0)
-        v_slice = op_gather(v, indices, 0)
-        next_m = m_slice * beta1 + values * (1 - beta1)
-        next_v = v_slice * beta2 + values * values * (1 - beta2)
-        lr_t = lr * op_sqrt(1 - beta2_power) / (1 - beta1_power)
-        if use_nesterov:
-            m_temp = beta1 * next_m + values * (1 - beta1)
-            param_update = m_temp / (op_sqrt(next_v) + eps)
-        else:
-            param_update = next_m / (op_sqrt(next_v) + eps)
-        success = F.depend(success, scatter_add(params, indices, - lr_t * param_update))
-        success = F.depend(success, scatter_update(m, indices, next_m))
-        success = F.depend(success, scatter_update(v, indices, next_v))
-    return success
-@_lazy_adam_opt.register("Function", "Function", "Function", "Function", "Bool", "Bool", "Bool", "Tensor", "Tensor",
-                         "Tensor", "Tensor", "Tensor", "Tensor", "MapTensor", "MapTensor", "MapTensor", "MapTensor",
-                         "Bool", "Bool")
-def _run_map_tensor_opt_with_sparse(opt, sparse_opt, push, pull, use_locking, use_nesterov, target, beta1_power,
-                                    beta2_power, beta1, beta2, eps, lr, gradient, params, m, v, ps_parameter,
-                                    cache_enable):
+@_lazy_adam_opt.register("Function", "Function", "Bool", "Bool", "Bool", "Tensor", "Tensor",
+                         "Tensor", "Tensor", "Tensor", "Tensor", "MapTensor", "MapTensor", "MapTensor", "MapTensor")
+def _run_map_tensor_opt_with_sparse(opt, sparse_opt, use_locking, use_nesterov, target, beta1_power,
+                                    beta2_power, beta1, beta2, eps, lr, gradient, params, m, v):
     """Apply sparse lazy adam optimizer to the weight parameter when the gradient is sparse(MapTensor)."""
     success = True
     indices, values = gradient.get_data()
@@ -229,19 +102,14 @@ def _run_map_tensor_opt_with_sparse(opt, sparse_opt, push, pull, use_locking, us
     return success
-@_lazy_adam_opt.register("Function", "Function", "Function", "Function", "Bool", "Bool", "Bool", "Tensor", "Tensor",
-                         "Tensor", "Tensor", "Tensor", "Tensor", "Tensor", "Tensor", "Tensor", "Tensor", "Bool", "Bool")
-def _run_opt_with_one_number(opt, sparse_opt, push, pull, use_locking, use_nesterov, target, beta1_power, beta2_power,
-                             beta1, beta2, eps, lr, gradient, params, moment1, moment2, ps_parameter, cache_enable):
+@_lazy_adam_opt.register("Function", "Function", "Bool", "Bool", "Bool", "Tensor", "Tensor",
+                         "Tensor", "Tensor", "Tensor", "Tensor", "Tensor", "Tensor", "Tensor", "Tensor")
+def _run_opt_with_one_number(opt, sparse_opt, use_locking, use_nesterov, target, beta1_power, beta2_power,
+                             beta1, beta2, eps, lr, gradient, params, moment1, moment2):
     """Apply lazy adam optimizer to the weight parameter using Tensor."""
     success = True
-    if ps_parameter and not cache_enable:
-        op_shape = P.Shape()
-        success = F.depend(success, pull(push((beta1_power, beta2_power, lr, beta1, beta2, eps, gradient),
-                                              (op_shape(params), op_shape(moment1), op_shape(moment2))), params))
-    else:
-        success = F.depend(success, opt(params, moment1, moment2, beta1_power, beta2_power, lr, beta1, beta2,
-                                        eps, gradient))
+    success = F.depend(success, opt(params, moment1, moment2, beta1_power, beta2_power, lr, beta1, beta2,
+                                    eps, gradient))
     return success
@@ -436,15 +304,9 @@ class LazyAdam(Optimizer):
         self.opt = P.Adam(use_locking, use_nesterov)
         self.sparse_opt = P.FusedSparseLazyAdam(use_locking, use_nesterov)
         self.sparse_opt.set_device("CPU")
-        self._ps_pull = P.Pull()
-        self._ps_push = P.Push("Adam", [0, 1, 2])
-        self._ps_push.add_prim_attr("use_nesterov", use_nesterov)
-        self._init_distributed_opts(use_locking, use_nesterov)
     @jit
     def construct(self, gradients):
-        gradients = self.flatten_gradients(gradients)
         gradients = self.decay_weight(gradients)
         gradients = self.gradients_centralization(gradients)
         gradients = self.scale_grad(gradients)
@@ -457,40 +319,18 @@ class LazyAdam(Optimizer):
         beta2_power = self.beta2_power * self.beta2
         self.beta2_power = beta2_power
-        if self.use_dist_optimizer:
-            if self.is_group_lr:
-                success = self.map_reverse(F.partial(_lazy_adam_opt, self.opt, self.sparse_opt,
-                                                     self._ps_push, self._ps_pull, self.use_locking, self.use_nesterov,
-                                                     self._is_device, beta1_power, beta2_power,
-                                                     self.beta1, self.beta2, self.eps),
-                                           lr, gradients, self._parameters, self.moment1, self.moment2,
-                                           self.ps_parameters, self.cache_enable, self.dense_lazyadam_opts,
-                                           self.use_dense_opt_flags, self.sparse_lazyadam_opts,
-                                           self.use_sparse_opt_flags)
-            else:
-                success = self.map_reverse(F.partial(_lazy_adam_opt, self.opt, self.sparse_opt,
-                                                     self._ps_push, self._ps_pull, self.use_locking, self.use_nesterov,
-                                                     self._is_device, beta1_power, beta2_power,
-                                                     self.beta1, self.beta2, self.eps, lr),
-                                           gradients, self._parameters, self.moment1, self.moment2,
-                                           self.ps_parameters, self.cache_enable, self.dense_lazyadam_opts,
-                                           self.use_dense_opt_flags, self.sparse_lazyadam_opts,
-                                           self.use_sparse_opt_flags)
+        if self.is_group_lr:
+            success = self.map_reverse(F.partial(_lazy_adam_opt, self.opt, self.sparse_opt,
+                                                 self.use_locking, self.use_nesterov,
+                                                 self._is_device, beta1_power, beta2_power,
+                                                 self.beta1, self.beta2, self.eps),
+                                       lr, gradients, self._parameters, self.moment1, self.moment2)
         else:
-            if self.is_group_lr:
-                success = self.map_reverse(F.partial(_lazy_adam_opt, self.opt, self.sparse_opt,
-                                                     self._ps_push, self._ps_pull, self.use_locking, self.use_nesterov,
-                                                     self._is_device, beta1_power, beta2_power,
-                                                     self.beta1, self.beta2, self.eps),
-                                           lr, gradients, self._parameters, self.moment1, self.moment2,
-                                           self.ps_parameters, self.cache_enable)
-            else:
-                success = self.map_reverse(F.partial(_lazy_adam_opt, self.opt, self.sparse_opt,
-                                                     self._ps_push, self._ps_pull, self.use_locking, self.use_nesterov,
-                                                     self._is_device, beta1_power, beta2_power,
-                                                     self.beta1, self.beta2, self.eps, lr),
-                                           gradients, self._parameters, self.moment1, self.moment2,
-                                           self.ps_parameters, self.cache_enable)
+            success = self.map_reverse(F.partial(_lazy_adam_opt, self.opt, self.sparse_opt,
+                                                 self.use_locking, self.use_nesterov,
+                                                 self._is_device, beta1_power, beta2_power,
+                                                 self.beta1, self.beta2, self.eps, lr),
+                                       gradients, self._parameters, self.moment1, self.moment2)
         return success
     @Optimizer.target.setter
@@ -500,36 +340,3 @@ class LazyAdam(Optimizer):
         optimizer operation.
         """
         self._set_base_target(value)
-    def _init_distributed_opts(self, use_locking, use_nesterov):
-        self.use_dist_optimizer = self._use_distibuted_optimizer()
-        self.dense_lazyadam_opts, self.use_dense_opt_flags =\
-        self._get_distributed_optimizer_list("adam", use_locking, use_nesterov)
-        self.sparse_lazyadam_opts, self.use_sparse_opt_flags =\
-        self._get_distributed_optimizer_list("fused_sparse_lazy_adam", use_locking, use_nesterov)
-def create_distributed_adam(*args, **kwargs):
-    """
-    Create the distributed Adam op.
-    """
-    adam = P.Adam(*args, **kwargs)
-    adam.add_prim_attr("gradient_type", "dense_gradient")
-    adam.add_prim_attr("parameter_input_index", 0)
-    adam.add_prim_attr("gradient_input_index", 9)
-    return adam
-def create_distributed_fused_sparse_lazy_adam(*args, **kwargs):
-    """
-    Create the distributed FusedSparseLazyAdam op.
-    """
-    sparse_lazy_adam = P.FusedSparseLazyAdam(*args, **kwargs)
-    sparse_lazy_adam.add_prim_attr("gradient_type", "sparse_gradient")
-    sparse_lazy_adam.add_prim_attr("parameter_input_index", 0)
-    sparse_lazy_adam.add_prim_attr("gradient_input_index", 9)
-    sparse_lazy_adam.add_prim_attr("indices_input_index", 10)
-    return sparse_lazy_adam
-_register_dist_optimizer("adam", create_distributed_adam)
-_register_dist_optimizer("fused_sparse_lazy_adam", create_distributed_fused_sparse_lazy_adam)

mindspore/nn/optim/momentum.py CHANGED Viewed

@@ -23,7 +23,6 @@ import mindspore.common.dtype as mstype
 from mindspore import _checkparam as Validator
 from mindspore.nn.optim.optimizer import Optimizer
 from mindspore.nn.optim.optimizer import opt_init_args_register
-from mindspore.nn.optim._dist_optimizer_registry import _register_dist_optimizer
 _momentum_opt = C.MultitypeFuncGraph("momentum_opt")
@@ -35,18 +34,6 @@ def _tensor_run_opt_ext(opt, momentum, learning_rate, gradient, weight, moment):
     success = F.depend(True, opt(weight, moment, learning_rate, gradient, momentum))
     return success
-@_momentum_opt.register("Function", "Tensor", "Tensor", "Tensor", "Tensor", "Tensor", "Function", "Bool")
-def _tensor_run_opt_ext_dist(opt, momentum, learning_rate, gradient, weight, moment,
-                             distributed_opt, use_flag):
-    """Apply momentum optimizer to the weight parameter using Tensor."""
-    if use_flag:
-        success = F.depend(True, distributed_opt(weight, moment, learning_rate, gradient, momentum))
-    else:
-        success = F.depend(True, opt(weight, moment, learning_rate, gradient, momentum))
-    return success
 class Momentum(Optimizer):
     r"""
     Implements the Momentum algorithm.
@@ -196,45 +183,20 @@ class Momentum(Optimizer):
         self.moments = self.params.clone(prefix="moments", init='zeros')
         self.opt = P.ApplyMomentum(use_nesterov=self.use_nesterov)
-        self.distributed_opts, self.use_distributed_opt_flags =\
-        self._get_distributed_optimizer_list("momentum", use_nesterov=self.use_nesterov)
-        self.use_dist_optimizer = self._use_distibuted_optimizer()
     @jit(backend="ms_backend")
     def construct(self, gradients):
         params = self.params
         moments = self.moments
-        gradients = self.flatten_gradients(gradients)
         gradients = self.decay_weight(gradients)
         gradients = self.gradients_centralization(gradients)
         gradients = self.scale_grad(gradients)
         lr = self.get_lr()
         self.assignadd(self.global_step, self.global_step_increase_tensor)
-        if self.use_dist_optimizer:
-            if self.is_group_lr:
-                success = self.hyper_map_reverse(F.partial(_momentum_opt, self.opt, self.momentum),
-                                                 lr, gradients, params, moments,
-                                                 self.distributed_opts, self.use_distributed_opt_flags)
-            else:
-                success = self.hyper_map_reverse(F.partial(_momentum_opt, self.opt, self.momentum, lr),
-                                                 gradients, params, moments,
-                                                 self.distributed_opts, self.use_distributed_opt_flags)
+        if self.is_group_lr:
+            success = self.hyper_map_reverse(F.partial(_momentum_opt, self.opt, self.momentum),
+                                             lr, gradients, params, moments)
         else:
-            if self.is_group_lr:
-                success = self.hyper_map_reverse(F.partial(_momentum_opt, self.opt, self.momentum),
-                                                 lr, gradients, params, moments)
-            else:
-                success = self.hyper_map_reverse(F.partial(_momentum_opt, self.opt, self.momentum, lr),
-                                                 gradients, params, moments)
+            success = self.hyper_map_reverse(F.partial(_momentum_opt, self.opt, self.momentum, lr),
+                                             gradients, params, moments)
         return success
-def _create_distributed_momentum(*args, **kwargs):
-    momentum = P.ApplyMomentum(*args, **kwargs)
-    momentum.add_prim_attr("gradient_type", "dense_gradient")
-    momentum.add_prim_attr("parameter_input_index", 0)
-    momentum.add_prim_attr("gradient_input_index", 3)
-    return momentum
-_register_dist_optimizer("momentum", _create_distributed_momentum)

mindspore/nn/optim/optimizer.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# Copyright 2020-2022 Huawei Technologies Co., Ltd
+# Copyright 2020-2021 Huawei Technologies Co., Ltd
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
 # you may not use this file except in compliance with the License.
@@ -32,11 +32,9 @@ import mindspore.common.dtype as mstype
 from mindspore import _checkparam as validator
 from mindspore import log as logger
 from mindspore.parallel._utils import _get_global_rank, _get_device_num, _get_parallel_mode
-from mindspore.parallel._ps_context import _is_ps_mode
 from mindspore.context import ParallelMode
 from mindspore import context
 from mindspore.nn.learning_rate_schedule import LearningRateSchedule
-from mindspore.nn.optim._dist_optimizer_registry import generate_dist_optimizer_list
 __all__ = ['Optimizer', 'opt_init_args_register']
@@ -161,7 +159,6 @@ class Optimizer(Cell):
         ...     def construct(self, gradients):
         ...         params = self.parameters
         ...         lr = self.get_lr()
-        ...         gradients = self.flatten_gradients(gradients)
         ...         gradients = self.decay_weight(gradients)
         ...         gradients = self.gradients_centralization(gradients)
         ...         gradients = self.scale_grad(gradients)
@@ -218,15 +215,12 @@ class Optimizer(Cell):
         self._unique = True
         self._target = context.get_context("device_target")
-        self._use_flattened_params = False
-        self._grad_fusion_size = 0
         self.dynamic_lr = False
         self.assignadd = P.AssignAdd()
         self.global_step = Parameter(initializer(0, [1], mindspore.int32), name='global_step')
         self.is_group = False
         self.is_group_lr = False
         self.is_group_params_ordered = False
-        self.use_parallel = False
         learning_rate = self._preprocess_single_lr(learning_rate)
         if isinstance(parameters[0], dict):
             self.is_group = True
@@ -263,11 +257,7 @@ class Optimizer(Cell):
             self.grad_centralization_flags = tuple(self.group_grad_centralization)
         else:
             self.parameters = ParameterTuple(parameters)
-            flat_params = self._get_flattened_params(parameters)
-            if self._use_flattened_params:
-                self._parameters = ParameterTuple(flat_params)
-            else:
-                self._parameters = self.parameters
+            self._parameters = self.parameters
             decay_filter = lambda x: 'beta' not in x.name and 'gamma' not in x.name
             self.decay_flags = tuple(decay_filter(x) for x in self._parameters)
             self.dynamic_decay_flags = isinstance(weight_decay, Cell)
@@ -281,10 +271,6 @@ class Optimizer(Cell):
         # set user's parameters as local parameters
         for param in self._parameters:
             self._user_parameters.append(param.name)
-        ps_filter = lambda x: x.is_param_ps
-        self.ps_parameters = tuple(ps_filter(x) for x in self._parameters)
-        cache_filter = lambda x: x.cache_enable
-        self.cache_enable = tuple(cache_filter(x) for x in self._parameters)
         self.reciprocal_scale = Tensor(1.0 / self.loss_scale, mstype.float32)
         self.need_scale = self.loss_scale != 1.0
         self.global_step_increase_tensor = Tensor([1], mstype.int32)
@@ -296,28 +282,6 @@ class Optimizer(Cell):
         self._use_parallel_optimizer()
         self.enable_tuple_broaden = True
-    def _get_flattened_params(self, parameters):
-        """Get parameters for each contiguous memory chunks used by input parameters if they are flattened."""
-        if self.is_group:
-            # We don't use flattened parameters when parameters are grouped.
-            return parameters
-        # Check whether parameters are flattened.
-        flattened = Tensor._is_flattened(parameters)  # pylint: disable=W0212
-        if not flattened:
-            # Parameters are not flattened.
-            return parameters
-        # Try to get chunk tensors from flattened parameters.
-        chunk_tensors = Tensor._get_flattened_tensors(parameters)  # pylint: disable=W0212
-        if not chunk_tensors:
-            # Failed to get chunk tensors.
-            logger.warning("Parameters are not properly flattened, fallback to not flattened parameters.")
-            return parameters
-        # Convert chunk tensors to parameters.
-        self._use_flattened_params = True
-        self._grad_fusion_size = Tensor._get_fusion_size(chunk_tensors)  # pylint: disable=W0212
-        return [Parameter._from_tensor(t, name='_chunk_param' + str(i) + '_' + str(t.dtype))  # pylint: disable=W0212
-                for i, t in enumerate(chunk_tensors)]
     def _use_parallel_optimizer(self):
         """Indicates whether to use automatic parallelism."""
         if context.get_auto_parallel_context("enable_parallel_optimizer"):
@@ -331,7 +295,10 @@ class Optimizer(Cell):
                 raise RuntimeError("For 'Optimizer', parallel optimizer is not supported in {}, you should set "
                                    "parallel mode to 'data_parallel', 'semi_auto_parallel' or 'auto_parallel'."
                                    .format(_get_parallel_mode()))
+            else:
+                self.use_parallel = False
+        else:
+            self.use_parallel = False
         if self.use_parallel:
             if not self._support_parallel_optimizer:
                 raise RuntimeError("For 'Optimizer', parallel optimizer only support optimizer 'Lamb' and "
@@ -403,13 +370,6 @@ class Optimizer(Cell):
             raise ValueError(f"For 'Optimizer', the argument {param_info} must not be empty.")
         return parameters
-    @staticmethod
-    def _use_distibuted_optimizer():
-        """
-        Whether use distributed optimizers.
-        """
-        return _is_ps_mode()
     def flatten_gradients(self, gradients):
         """
         Flatten gradients into several chunk tensors grouped by data type if network parameters are flattened.
@@ -424,9 +384,6 @@ class Optimizer(Cell):
         Returns:
             tuple[Tensor], The gradients after flattened, or the original gradients if parameters are not flattened.
         """
-        if self._use_flattened_params:
-            flatten_concat = inner.FlattenConcat(fusion_size=self._grad_fusion_size)
-            return flatten_concat(gradients)
         return gradients
     def decay_weight(self, gradients):
@@ -869,12 +826,6 @@ class Optimizer(Cell):
                 F.assign(param_group[root][i], next_params[i])
         return new_param_group
-    def _get_distributed_optimizer_list(self, optimizer_type, *args, **kwargs):
-        """
-        Get the distributed optimizers list in distributed training mode.
-        """
-        return generate_dist_optimizer_list(optimizer_type, self._parameters, *args, **kwargs)
     def construct(self, *hyper_params):
         raise NotImplementedError

mindspore/nn/optim/proximal_ada_grad.py CHANGED Viewed

@@ -205,7 +205,6 @@ class ProximalAdagrad(Optimizer):
     def construct(self, grads):
         params = self._parameters
         accum = self.accum
-        grads = self.flatten_gradients(grads)
         grads = self.decay_weight(grads)
         grads = self.gradients_centralization(grads)
         grads = self.scale_grad(grads)

mindspore/nn/optim/rmsprop.py CHANGED Viewed

@@ -238,7 +238,6 @@ class RMSProp(Optimizer):
     @jit
     def construct(self, gradients):
         params = self._parameters
-        gradients = self.flatten_gradients(gradients)
         gradients = self.decay_weight(gradients)
         gradients = self.gradients_centralization(gradients)
         gradients = self.scale_grad(gradients)

mindspore/nn/optim/rprop.py CHANGED Viewed

@@ -203,7 +203,6 @@ class Rprop(Optimizer):
     @jit(backend="ms_backend")
     def construct(self, gradients):
-        gradients = self.flatten_gradients(gradients)
         gradients = self.decay_weight(gradients)
         gradients = self.gradients_centralization(gradients)
         gradients = self.scale_grad(gradients)

mindspore/nn/optim/sgd.py CHANGED Viewed

@@ -226,7 +226,6 @@ class SGD(Optimizer):
         accum = self.accum
         stat = self.stat
         gradients = self.decay_weight(gradients)
-        gradients = self.flatten_gradients(gradients)
         gradients = self.gradients_centralization(gradients)
         gradients = self.scale_grad(gradients)
         lr = self.get_lr()

mindspore/nn/optim/tft_wrapper.py CHANGED Viewed

@@ -69,10 +69,9 @@ class OptTFTWrapper(Optimizer):
         tft_env = os.getenv("MS_ENABLE_TFT", "")
         if ("TTP:1" not in tft_env) and ("UCE:1" not in tft_env) and ("ARF:1" not in tft_env):
             raise ValueError("MindIO TFT regitster need custom switch on[MS_ENABLE_TFT='{TTP:1,UCE:1,ARF:1}']!")
-        mode = context.get_context("mode")
         device_target = context.get_context("device_target")
-        if device_target != "Ascend" or mode != context.GRAPH_MODE:
-            raise ValueError("MindIO adataper only support on Ascend device with GRAPH Mode!")
+        if device_target != "Ascend":
+            raise ValueError("MindIO adataper only support on Ascend device!")
         self.opt = opt
         self.report = TensorReport()
         self.report_end = TensorReport()
@@ -109,7 +108,6 @@ class OptTFTWrapper(Optimizer):
         self.dynamic_decay_flags = opt.dynamic_decay_flags
         self.weight_decay = opt.weight_decay
         self.exec_weight_decay = opt.exec_weight_decay
-        self.ps_parameters = opt.ps_parameters
         self.cache_enable = opt.cache_enable
         self.reciprocal_scale = opt.reciprocal_scale
         self.need_scale = opt.need_scale

mindspore/nn/optim/thor.py CHANGED Viewed

@@ -585,7 +585,6 @@ class ThorGpu(Optimizer):
     def construct(self, gradients):
         params = self.params
         moments = self.moments
-        gradients = self.flatten_gradients(gradients)
         gradients = self.scale_grad(gradients)
         damping_step = self.gather(self.damping, self.cov_step, self.axis)
         damping_step = self.cast(damping_step, mstype.float32)
@@ -1247,7 +1246,6 @@ class ThorAscend(Optimizer):
     def construct(self, gradients):
         params = self.params
         moments = self.moments
-        gradients = self.flatten_gradients(gradients)
         gradients = self.scale_grad(gradients)
         damping_step = self.gather(self.damping, self.cov_step, self.axis)
         damping_step = self.cast(damping_step, mstype.float32)

mindspore/nn/probability/bijector/bijector.py CHANGED Viewed

@@ -15,8 +15,7 @@
 """Bijector"""
 from mindspore import context
 from mindspore.nn.cell import Cell
-from mindspore.ops import operations as P
-from mindspore.ops import functional as F
+import mindspore.ops as ops
 from mindspore.ops.operations import _inner_ops as inner
 from mindspore.common import dtype as mstype
 from mindspore.common.tensor import Tensor
@@ -99,9 +98,9 @@ class Bijector(Cell):
         self.checktensor = CheckTensor()
         # ops needed for the base class
-        self.cast_base = P.Cast()
-        self.dtype_base = P.DType()
-        self.shape_base = P.Shape()
+        self.cast_base = ops.Cast()
+        self.dtype_base = ops.DType()
+        self.shape_base = ops.Shape()
         self.sametypeshape_base = inner.SameTypeShape()
         self.issubclass_base = inner.IsSubClass()
@@ -145,13 +144,13 @@ class Bijector(Cell):
             if self.issubclass_base(value_type, mstype.float_):
                 return value
             return raise_type_error('input value of bijector', value_type, mstype.float_)
-        dtype_tensor = F.fill(self.dtype, self.shape_base(value), 0.0)
+        dtype_tensor = ops.fill(self.dtype, self.shape_base(value), 0.0)
         self.sametypeshape_base(value, dtype_tensor)
         return value
     def _shape_mapping(self, shape):
-        shape_tensor = F.fill(self.parameter_type, shape, 0.0)
-        dist_shape_tensor = F.fill(
+        shape_tensor = ops.fill(self.parameter_type, shape, 0.0)
+        dist_shape_tensor = ops.fill(
             self.parameter_type, self.batch_shape, 0.0)
         return (shape_tensor + dist_shape_tensor).shape

mindspore/nn/probability/bijector/gumbel_cdf.py CHANGED Viewed

@@ -13,7 +13,7 @@
 # limitations under the License.
 # ============================================================================
 """GumbelCDF Bijector"""
-from mindspore.ops import operations as P
+import mindspore.ops as ops
 from ..distribution._utils.utils import check_greater_zero
 from ..distribution._utils.custom_ops import exp_generic, log_generic
 from .bijector import Bijector
@@ -86,7 +86,7 @@ class GumbelCDF(Bijector):
         self._scale = self._add_parameter(scale, 'scale')
         check_greater_zero(self._scale, "scale")
-        self.cast = P.Cast()
+        self.cast = ops.Cast()
         self.exp = exp_generic
         self.log = log_generic