PyPI - mindspore - Versions diffs - 2.1.0__cp37-cp37m-win_amd64.whl → 2.2.11__cp37-cp37m-win_amd64.whl - Mend

mindspore 2.1.0__cp37-cp37m-win_amd64.whl → 2.2.11__cp37-cp37m-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mindspore might be problematic. Click here for more details.

Files changed (511) hide show

mindspore/.commit_id +1 -1
mindspore/Microsoft.VisualStudio.Telemetry.dll +0 -0
mindspore/Newtonsoft.Json.dll +0 -0
mindspore/__init__.py +4 -1
mindspore/_c_dataengine.cp37-win_amd64.pyd +0 -0
mindspore/_c_expression.cp37-win_amd64.pyd +0 -0
mindspore/_c_mindrecord.cp37-win_amd64.pyd +0 -0
mindspore/_check_jit_forbidden_api.py +3 -1
mindspore/_checkparam.py +23 -29
mindspore/_extends/graph_kernel/__init__.py +0 -1
mindspore/_extends/graph_kernel/model/graph_split.py +84 -76
mindspore/_extends/graph_kernel/model/model_builder.py +9 -50
mindspore/_extends/graph_kernel/splitter.py +4 -11
mindspore/_extends/parallel_compile/akg_compiler/akg_process.py +122 -15
mindspore/_extends/parallel_compile/akg_compiler/build_tbe_kernel.py +84 -67
mindspore/_extends/parallel_compile/akg_compiler/tbe_topi.py +4 -2
mindspore/_extends/parallel_compile/akg_compiler/util.py +10 -7
mindspore/_extends/parallel_compile/tbe_compiler/tbe_adapter.py +2 -2
mindspore/_extends/parallel_compile/tbe_compiler/tbe_helper.py +6 -5
mindspore/_extends/parallel_compile/tbe_compiler/tbe_job.py +1 -1
mindspore/_extends/parallel_compile/tbe_compiler/tbe_job_manager.py +1 -1
mindspore/_extends/parse/__init__.py +13 -15
mindspore/_extends/parse/namespace.py +7 -33
mindspore/_extends/parse/parser.py +67 -72
mindspore/_extends/parse/resources.py +1 -1
mindspore/_extends/parse/standard_method.py +86 -106
mindspore/_extends/parse/trope.py +1 -1
mindspore/_extends/remote/kernel_build_server.py +25 -7
mindspore/_extends/remote/kernel_build_server_akg_v2.py +55 -0
mindspore/_install_custom.py +43 -0
mindspore/amp.py +47 -11
mindspore/atlprov.dll +0 -0
mindspore/boost/boost.py +1 -8
mindspore/boost/boost_cell_wrapper.py +3 -2
mindspore/boost/grad_accumulation.py +1 -1
mindspore/boost/group_loss_scale_manager.py +8 -7
mindspore/c1.dll +0 -0
mindspore/c1xx.dll +0 -0
mindspore/c2.dll +0 -0
mindspore/common/__init__.py +5 -3
mindspore/common/_jit_fallback_utils.py +6 -0
mindspore/common/_register_for_adapter.py +2 -0
mindspore/common/_register_for_tensor.py +2 -2
mindspore/common/_stub_tensor.py +13 -0
mindspore/common/_utils.py +29 -0
mindspore/common/api.py +174 -259
mindspore/common/auto_dynamic_shape.py +494 -0
mindspore/common/dtype.py +18 -11
mindspore/common/dump.py +6 -4
mindspore/common/initializer.py +14 -14
mindspore/common/jit_config.py +33 -15
mindspore/common/lazy_inline.py +126 -7
mindspore/common/mindir_util.py +101 -0
mindspore/common/parameter.py +51 -41
mindspore/common/seed.py +4 -4
mindspore/common/sparse_tensor.py +13 -14
mindspore/common/tensor.py +243 -165
mindspore/communication/__init__.py +7 -4
mindspore/communication/_comm_helper.py +83 -4
mindspore/communication/management.py +152 -84
mindspore/config/op_info.config +14 -3
mindspore/context.py +152 -61
mindspore/dataset/__init__.py +5 -5
mindspore/dataset/audio/__init__.py +2 -2
mindspore/dataset/audio/transforms.py +52 -52
mindspore/dataset/callback/ds_callback.py +16 -2
mindspore/dataset/core/config.py +68 -51
mindspore/dataset/engine/cache_client.py +33 -7
mindspore/dataset/engine/datasets.py +250 -112
mindspore/dataset/engine/datasets_audio.py +43 -211
mindspore/dataset/engine/datasets_standard_format.py +16 -35
mindspore/dataset/engine/datasets_text.py +43 -67
mindspore/dataset/engine/datasets_user_defined.py +86 -100
mindspore/dataset/engine/datasets_vision.py +219 -1029
mindspore/dataset/engine/iterators.py +11 -4
mindspore/dataset/engine/obs/obs_mindrecord_dataset.py +4 -0
mindspore/dataset/engine/obs/util.py +3 -0
mindspore/dataset/engine/samplers.py +1 -1
mindspore/dataset/engine/validators.py +19 -5
mindspore/dataset/text/__init__.py +3 -3
mindspore/dataset/text/transforms.py +101 -127
mindspore/dataset/text/utils.py +205 -138
mindspore/dataset/transforms/__init__.py +1 -1
mindspore/dataset/transforms/py_transforms_util.py +40 -12
mindspore/dataset/transforms/transforms.py +95 -40
mindspore/dataset/utils/browse_dataset.py +8 -2
mindspore/dataset/utils/line_reader.py +17 -19
mindspore/dataset/vision/__init__.py +3 -3
mindspore/dataset/vision/c_transforms.py +6 -3
mindspore/dataset/vision/transforms.py +409 -287
mindspore/dataset/vision/utils.py +13 -14
mindspore/dataset/vision/validators.py +11 -1
mindspore/dnnl.dll +0 -0
mindspore/dpcmi.dll +0 -0
mindspore/experimental/map_parameter.py +14 -0
mindspore/{nn/optim_ex → experimental/optim}/__init__.py +30 -29
mindspore/{nn/optim_ex → experimental/optim}/adam.py +60 -67
mindspore/{nn/optim_ex → experimental/optim}/adamw.py +181 -203
mindspore/experimental/optim/lr_scheduler.py +1427 -0
mindspore/{nn/optim_ex → experimental/optim}/optimizer.py +252 -259
mindspore/{nn/optim_ex → experimental/optim}/sgd.py +147 -152
mindspore/gen_ops.py +273 -0
mindspore/include/OWNERS +0 -1
mindspore/include/api/data_type.h +2 -1
mindspore/include/api/graph.h +0 -15
mindspore/include/api/kernel.h +2 -0
mindspore/include/api/kernel_api.h +37 -12
mindspore/include/api/model.h +17 -14
mindspore/include/api/status.h +8 -3
mindspore/include/api/types.h +37 -4
mindspore/include/c_api/ms/abstract.h +67 -0
mindspore/include/c_api/ms/attribute.h +197 -0
mindspore/include/c_api/ms/base/handle_types.h +43 -0
mindspore/include/c_api/ms/base/macros.h +32 -0
mindspore/include/c_api/ms/base/status.h +33 -0
mindspore/include/c_api/ms/base/types.h +282 -0
mindspore/include/c_api/ms/context.h +102 -0
mindspore/include/c_api/ms/graph.h +160 -0
mindspore/include/c_api/ms/node.h +606 -0
mindspore/include/c_api/ms/tensor.h +161 -0
mindspore/include/c_api/ms/value.h +84 -0
mindspore/include/dataset/constants.h +6 -5
mindspore/include/dataset/execute.h +23 -13
mindspore/include/dataset/text.h +26 -26
mindspore/include/dataset/transforms.h +13 -13
mindspore/include/dataset/vision.h +60 -60
mindspore/include/dataset/vision_ascend.h +5 -6
mindspore/include/dataset/vision_lite.h +17 -17
mindspore/jpeg62.dll +0 -0
mindspore/mindrecord/tools/imagenet_to_mr.py +1 -1
mindspore/mindrecord/tools/mnist_to_mr.py +2 -2
mindspore/mindspore_backend.dll +0 -0
mindspore/mindspore_common.dll +0 -0
mindspore/mindspore_core.dll +0 -0
mindspore/mindspore_glog.dll +0 -0
mindspore/mindspore_shared_lib.dll +0 -0
mindspore/msobj140.dll +0 -0
mindspore/mspdb140.dll +0 -0
mindspore/mspdbcore.dll +0 -0
mindspore/mspdbst.dll +0 -0
mindspore/mspft140.dll +0 -0
mindspore/msvcdis140.dll +0 -0
mindspore/msvcp140_1.dll +0 -0
mindspore/msvcp140_2.dll +0 -0
mindspore/msvcp140_atomic_wait.dll +0 -0
mindspore/msvcp140_codecvt_ids.dll +0 -0
mindspore/nn/__init__.py +0 -2
mindspore/nn/cell.py +313 -74
mindspore/nn/dynamic_lr.py +21 -21
mindspore/nn/layer/activation.py +22 -30
mindspore/nn/layer/basic.py +15 -13
mindspore/nn/layer/channel_shuffle.py +1 -1
mindspore/nn/layer/container.py +271 -9
mindspore/nn/layer/conv.py +323 -204
mindspore/nn/layer/dense.py +8 -5
mindspore/nn/layer/embedding.py +33 -27
mindspore/nn/layer/flash_attention.py +61 -95
mindspore/nn/layer/image.py +8 -6
mindspore/nn/layer/math.py +16 -25
mindspore/nn/layer/normalization.py +107 -66
mindspore/nn/layer/padding.py +1 -1
mindspore/nn/layer/pooling.py +131 -109
mindspore/nn/layer/rnn_cells.py +27 -22
mindspore/nn/layer/rnns.py +13 -16
mindspore/nn/layer/thor_layer.py +1 -1
mindspore/nn/layer/transformer.py +221 -154
mindspore/nn/learning_rate_schedule.py +9 -1
mindspore/nn/loss/loss.py +235 -174
mindspore/nn/optim/ada_grad.py +2 -1
mindspore/nn/optim/adadelta.py +1 -0
mindspore/nn/optim/adafactor.py +2 -1
mindspore/nn/optim/adam.py +7 -4
mindspore/nn/optim/adamax.py +3 -2
mindspore/nn/optim/adasum.py +2 -2
mindspore/nn/optim/asgd.py +2 -3
mindspore/nn/optim/ftrl.py +6 -5
mindspore/nn/optim/lamb.py +7 -4
mindspore/nn/optim/lars.py +1 -1
mindspore/nn/optim/lazyadam.py +5 -3
mindspore/nn/optim/momentum.py +2 -1
mindspore/nn/optim/optimizer.py +53 -4
mindspore/nn/optim/proximal_ada_grad.py +3 -4
mindspore/nn/optim/rmsprop.py +4 -3
mindspore/nn/optim/rprop.py +23 -12
mindspore/nn/optim/sgd.py +26 -11
mindspore/nn/optim/thor.py +9 -7
mindspore/nn/probability/bijector/bijector.py +5 -5
mindspore/nn/probability/bijector/power_transform.py +27 -27
mindspore/nn/probability/bijector/softplus.py +3 -3
mindspore/nn/probability/distribution/_utils/custom_ops.py +3 -3
mindspore/nn/probability/distribution/bernoulli.py +5 -5
mindspore/nn/probability/distribution/beta.py +3 -3
mindspore/nn/probability/distribution/categorical.py +7 -7
mindspore/nn/probability/distribution/cauchy.py +0 -1
mindspore/nn/probability/distribution/distribution.py +3 -3
mindspore/nn/probability/distribution/gamma.py +3 -3
mindspore/nn/probability/distribution/geometric.py +4 -4
mindspore/nn/probability/distribution/gumbel.py +4 -4
mindspore/nn/probability/distribution/log_normal.py +2 -2
mindspore/nn/probability/distribution/logistic.py +2 -2
mindspore/nn/probability/distribution/poisson.py +4 -4
mindspore/nn/probability/distribution/transformed_distribution.py +3 -3
mindspore/nn/probability/distribution/uniform.py +6 -6
mindspore/nn/wrap/__init__.py +4 -2
mindspore/nn/wrap/cell_wrapper.py +87 -34
mindspore/nn/wrap/grad_reducer.py +8 -5
mindspore/nn/wrap/loss_scale.py +105 -42
mindspore/numpy/array_creations.py +1 -2
mindspore/numpy/array_ops.py +3 -2
mindspore/numpy/utils_const.py +5 -5
mindspore/opencv_core452.dll +0 -0
mindspore/opencv_imgcodecs452.dll +0 -0
mindspore/opencv_imgproc452.dll +0 -0
mindspore/ops/_grad_experimental/__init__.py +0 -5
mindspore/ops/_grad_experimental/grad_array_ops.py +2 -3
mindspore/ops/_grad_experimental/grad_comm_ops.py +15 -2
mindspore/ops/_grad_experimental/grad_debug_ops.py +0 -37
mindspore/ops/_grad_experimental/grad_implementations.py +11 -1
mindspore/ops/_grad_experimental/grad_inner_ops.py +2 -216
mindspore/ops/_grad_experimental/grad_math_ops.py +19 -199
mindspore/ops/_grad_experimental/grad_sparse.py +15 -0
mindspore/ops/_grad_experimental/grad_sparse_ops.py +3 -3
mindspore/ops/_op_impl/_custom_op/dsd_back_impl.py +1 -1
mindspore/ops/_op_impl/aicpu/__init__.py +14 -2
mindspore/ops/_op_impl/aicpu/add.py +3 -3
mindspore/ops/_op_impl/aicpu/bias_add_grad.py +0 -1
mindspore/ops/_op_impl/aicpu/count_nonzero.py +43 -0
mindspore/ops/_op_impl/{_custom_op/flash_attention/constants.py → aicpu/eps.py} +18 -27
mindspore/ops/_op_impl/aicpu/gamma.py +2 -2
mindspore/ops/_op_impl/aicpu/linear_sum_assignment.py +21 -2
mindspore/ops/_op_impl/aicpu/log_uniform_candidate_sampler.py +6 -3
mindspore/ops/_op_impl/aicpu/lu_unpack_grad.py +0 -1
mindspore/ops/_op_impl/aicpu/multinomial.py +3 -3
mindspore/ops/_op_impl/aicpu/parameterized_truncated_normal.py +15 -7
mindspore/ops/_op_impl/aicpu/random_categorical.py +39 -19
mindspore/ops/_op_impl/aicpu/random_choice_with_mask.py +5 -2
mindspore/ops/_op_impl/aicpu/random_poisson.py +103 -52
mindspore/ops/_op_impl/aicpu/random_shuffle.py +17 -15
mindspore/ops/_op_impl/aicpu/{sparseaddmm.py → sparse_addmm.py} +2 -2
mindspore/ops/_op_impl/aicpu/{sparsesparsemaximum.py → sparse_sparse_maximum.py} +4 -4
mindspore/ops/_op_impl/aicpu/standard_laplace.py +5 -5
mindspore/ops/_op_impl/aicpu/standard_normal.py +5 -5
mindspore/ops/_op_impl/aicpu/truncated_normal.py +9 -7
mindspore/ops/_op_impl/aicpu/uniform.py +5 -3
mindspore/ops/_op_impl/aicpu/uniform_candidate_sampler.py +8 -4
mindspore/ops/_op_impl/aicpu/uniform_int.py +5 -5
mindspore/ops/_op_impl/aicpu/uniform_real.py +4 -4
mindspore/ops/_op_impl/tbe/__init__.py +4 -4
mindspore/ops/_op_impl/tbe/inplace_index_add.py +7 -3
mindspore/ops/_op_impl/tbe/trans_data_ds.py +2 -0
mindspore/ops/_primitive_cache.py +1 -1
mindspore/ops/_tracefunc.py +45 -13
mindspore/ops/_utils/utils.py +6 -1
mindspore/ops/_vmap/vmap_array_ops.py +3 -3
mindspore/ops/_vmap/vmap_base.py +3 -3
mindspore/ops/_vmap/vmap_convolution_ops.py +1 -1
mindspore/ops/_vmap/vmap_grad_math_ops.py +6 -4
mindspore/ops/_vmap/vmap_math_ops.py +5 -2
mindspore/ops/_vmap/vmap_nn_ops.py +61 -7
mindspore/ops/arg_dtype_cast.py +54 -0
mindspore/ops/composite/base.py +37 -10
mindspore/ops/composite/math_ops.py +5 -4
mindspore/ops/composite/multitype_ops/_compile_utils.py +275 -73
mindspore/ops/composite/multitype_ops/_constexpr_utils.py +16 -9
mindspore/ops/composite/multitype_ops/add_impl.py +43 -4
mindspore/ops/composite/multitype_ops/getitem_impl.py +42 -4
mindspore/ops/composite/multitype_ops/ones_like_impl.py +6 -0
mindspore/ops/composite/multitype_ops/setitem_impl.py +2 -1
mindspore/ops/composite/multitype_ops/zeros_like_impl.py +9 -0
mindspore/ops/deprecated.py +304 -0
mindspore/ops/function/__init__.py +4 -1
mindspore/ops/function/array_func.py +174 -193
mindspore/ops/function/clip_func.py +81 -13
mindspore/ops/function/debug_func.py +1 -1
mindspore/ops/function/grad/grad_func.py +18 -9
mindspore/ops/function/image_func.py +10 -4
mindspore/ops/function/linalg_func.py +5 -5
mindspore/ops/function/math_func.py +575 -386
mindspore/ops/function/nn_func.py +568 -260
mindspore/ops/function/random_func.py +88 -57
mindspore/ops/function/sparse_func.py +1 -1
mindspore/ops/function/sparse_unary_func.py +14 -12
mindspore/ops/function/vmap_func.py +6 -5
mindspore/ops/functional.py +15 -10
mindspore/ops/op_info_register.py +244 -25
mindspore/ops/operations/__init__.py +31 -19
mindspore/ops/operations/_grad_ops.py +71 -7
mindspore/ops/operations/_inner_ops.py +350 -17
mindspore/ops/operations/_quant_ops.py +4 -8
mindspore/ops/operations/_sequence_ops.py +42 -0
mindspore/ops/operations/array_ops.py +68 -282
mindspore/ops/operations/comm_ops.py +107 -59
mindspore/ops/operations/custom_ops.py +94 -70
mindspore/ops/operations/debug_ops.py +8 -4
mindspore/ops/operations/image_ops.py +18 -12
mindspore/ops/operations/inner_ops.py +26 -3
mindspore/ops/operations/math_ops.py +192 -144
mindspore/ops/operations/nn_ops.py +857 -489
mindspore/ops/operations/other_ops.py +0 -22
mindspore/ops/operations/random_ops.py +53 -111
mindspore/ops/operations/sparse_ops.py +3 -1
mindspore/ops/primitive.py +24 -18
mindspore/parallel/_auto_parallel_context.py +68 -8
mindspore/parallel/_cost_model_context.py +2 -2
mindspore/parallel/_offload_context.py +17 -3
mindspore/parallel/_parallel_serialization.py +12 -5
mindspore/parallel/_ps_context.py +12 -0
mindspore/parallel/_tensor.py +18 -13
mindspore/parallel/_transformer/layers.py +5 -3
mindspore/parallel/_transformer/loss.py +1 -0
mindspore/parallel/_transformer/moe.py +2 -2
mindspore/parallel/_transformer/op_parallel_config.py +12 -1
mindspore/parallel/_transformer/transformer.py +23 -3
mindspore/parallel/_utils.py +11 -7
mindspore/parallel/algo_parameter_config.py +85 -5
mindspore/parallel/checkpoint_transform.py +19 -12
mindspore/parallel/shard.py +21 -14
mindspore/pgodb140.dll +0 -0
mindspore/pgort140.dll +0 -0
mindspore/profiler/common/struct_type.py +3 -3
mindspore/profiler/common/util.py +4 -2
mindspore/profiler/envprofiling.py +1 -1
mindspore/profiler/parser/aicpu_data_parser.py +5 -3
mindspore/profiler/parser/ascend_flops_generator.py +2 -2
mindspore/profiler/parser/ascend_fpbp_generator.py +1 -1
mindspore/profiler/parser/ascend_hccl_generator.py +249 -12
mindspore/profiler/parser/ascend_msprof_exporter.py +150 -255
mindspore/profiler/parser/ascend_msprof_generator.py +204 -17
mindspore/profiler/parser/ascend_op_generator.py +6 -6
mindspore/profiler/parser/ascend_steptrace_generator.py +6 -4
mindspore/profiler/parser/ascend_timeline_generator.py +14 -187
mindspore/profiler/parser/base_timeline_generator.py +10 -8
mindspore/profiler/parser/cpu_gpu_timeline_generator.py +16 -12
mindspore/profiler/parser/flops_parser.py +15 -11
mindspore/profiler/parser/framework_parser.py +38 -22
mindspore/profiler/parser/hccl_parser.py +16 -12
mindspore/profiler/parser/integrator.py +22 -11
mindspore/profiler/parser/memory_usage_parser.py +2 -2
mindspore/profiler/parser/minddata_analyzer.py +12 -14
mindspore/profiler/parser/minddata_pipeline_parser.py +1 -1
mindspore/profiler/parser/msadvisor_parser.py +8 -4
mindspore/profiler/parser/op_intermediate_parser.py +5 -2
mindspore/profiler/parser/optime_parser.py +1 -1
mindspore/profiler/parser/profiler_info.py +21 -2
mindspore/profiler/parser/step_trace_parser.py +11 -14
mindspore/profiler/profiling.py +179 -89
mindspore/rewrite/api/node.py +102 -19
mindspore/rewrite/api/node_type.py +5 -1
mindspore/rewrite/api/pattern_engine.py +1 -1
mindspore/rewrite/api/scoped_value.py +9 -17
mindspore/rewrite/api/symbol_tree.py +131 -47
mindspore/rewrite/ast_helpers/__init__.py +2 -1
mindspore/rewrite/ast_helpers/ast_finder.py +129 -0
mindspore/rewrite/ast_helpers/ast_modifier.py +116 -104
mindspore/rewrite/ast_transformers/flatten_recursive_stmt.py +93 -46
mindspore/rewrite/common/rewrite_elog.py +5 -1
mindspore/rewrite/namer.py +33 -24
mindspore/rewrite/namespace.py +14 -5
mindspore/{_extends/graph_kernel/expanders/complex → rewrite/node}/__init__.py +9 -9
mindspore/rewrite/node/call_function.py +79 -0
mindspore/rewrite/node/cell_container.py +135 -0
mindspore/rewrite/node/control_flow.py +88 -0
mindspore/rewrite/{node.py → node/node.py} +273 -234
mindspore/rewrite/node/node_manager.py +254 -0
mindspore/rewrite/{topological_manager.py → node/node_topological_manager.py} +13 -46
mindspore/rewrite/parsers/arguments_parser.py +22 -21
mindspore/rewrite/parsers/assign_parser.py +216 -221
mindspore/rewrite/parsers/attribute_parser.py +9 -7
mindspore/rewrite/parsers/class_def_parser.py +174 -113
mindspore/rewrite/parsers/constant_parser.py +9 -6
mindspore/rewrite/parsers/container_parser.py +9 -7
mindspore/rewrite/parsers/for_parser.py +42 -21
mindspore/rewrite/parsers/function_def_parser.py +24 -16
mindspore/rewrite/parsers/if_parser.py +28 -24
mindspore/rewrite/parsers/module_parser.py +196 -25
mindspore/rewrite/{parser.py → parsers/parser.py} +4 -2
mindspore/rewrite/{parser_register.py → parsers/parser_register.py} +1 -1
mindspore/rewrite/parsers/return_parser.py +6 -6
mindspore/rewrite/sparsify/sparse_transformer.py +12 -3
mindspore/rewrite/sparsify/utils.py +1 -1
mindspore/rewrite/symbol_tree.py +523 -578
mindspore/rewrite/symbol_tree_builder.py +9 -193
mindspore/rewrite/symbol_tree_dumper.py +2 -2
mindspore/run_check/_check_version.py +6 -4
mindspore/{ops/bprop_mindir → safeguard}/__init__.py +4 -3
mindspore/safeguard/rewrite_obfuscation.py +541 -0
mindspore/tbbmalloc.dll +0 -0
mindspore/tinyxml2.dll +0 -0
mindspore/train/_utils.py +7 -3
mindspore/train/amp.py +323 -123
mindspore/train/anf_ir_pb2.py +14 -2
mindspore/train/callback/_backup_and_restore.py +2 -12
mindspore/train/callback/_callback.py +29 -4
mindspore/train/callback/_checkpoint.py +23 -8
mindspore/train/callback/_early_stop.py +2 -2
mindspore/train/callback/_landscape.py +4 -4
mindspore/train/callback/_loss_monitor.py +2 -2
mindspore/train/callback/_on_request_exit.py +2 -2
mindspore/train/callback/_reduce_lr_on_plateau.py +3 -4
mindspore/train/callback/_summary_collector.py +15 -8
mindspore/train/callback/_time_monitor.py +58 -5
mindspore/train/data_sink.py +5 -11
mindspore/train/dataset_helper.py +84 -57
mindspore/train/loss_scale_manager.py +2 -2
mindspore/train/metrics/__init__.py +3 -3
mindspore/train/metrics/cosine_similarity.py +1 -1
mindspore/train/metrics/hausdorff_distance.py +3 -2
mindspore/train/metrics/mean_surface_distance.py +3 -2
mindspore/train/metrics/metric.py +39 -19
mindspore/train/metrics/roc.py +2 -2
mindspore/train/metrics/root_mean_square_surface_distance.py +4 -3
mindspore/train/mind_ir_pb2.py +85 -36
mindspore/train/model.py +187 -47
mindspore/train/serialization.py +487 -161
mindspore/train/summary/_summary_adapter.py +1 -1
mindspore/train/summary/_writer_pool.py +3 -2
mindspore/train/summary/summary_record.py +37 -17
mindspore/train/train_thor/convert_utils.py +3 -3
mindspore/train/train_thor/dataset_helper.py +1 -1
mindspore/turbojpeg.dll +0 -0
mindspore/vcmeta.dll +0 -0
mindspore/vcruntime140.dll +0 -0
mindspore/vcruntime140_1.dll +0 -0
mindspore/version.py +1 -1
{mindspore-2.1.0.dist-info → mindspore-2.2.11.dist-info}/METADATA +7 -4
{mindspore-2.1.0.dist-info → mindspore-2.2.11.dist-info}/RECORD +429 -486
mindspore/_extends/graph_kernel/expander.py +0 -80
mindspore/_extends/graph_kernel/expanders/__init__.py +0 -54
mindspore/_extends/graph_kernel/expanders/_utils.py +0 -269
mindspore/_extends/graph_kernel/expanders/addn.py +0 -33
mindspore/_extends/graph_kernel/expanders/batchnorm.py +0 -152
mindspore/_extends/graph_kernel/expanders/batchnorm_grad.py +0 -105
mindspore/_extends/graph_kernel/expanders/clip_by_norm_no_div_sum.py +0 -33
mindspore/_extends/graph_kernel/expanders/complex/abs.py +0 -30
mindspore/_extends/graph_kernel/expanders/complex/add.py +0 -44
mindspore/_extends/graph_kernel/expanders/complex/div.py +0 -62
mindspore/_extends/graph_kernel/expanders/complex/mul.py +0 -52
mindspore/_extends/graph_kernel/expanders/complex/real_div.py +0 -62
mindspore/_extends/graph_kernel/expanders/complex/sub.py +0 -45
mindspore/_extends/graph_kernel/expanders/conv2d.py +0 -200
mindspore/_extends/graph_kernel/expanders/dropout_grad.py +0 -30
mindspore/_extends/graph_kernel/expanders/equal_count.py +0 -50
mindspore/_extends/graph_kernel/expanders/erfc.py +0 -35
mindspore/_extends/graph_kernel/expanders/expand_dims.py +0 -50
mindspore/_extends/graph_kernel/expanders/fused_adam.py +0 -44
mindspore/_extends/graph_kernel/expanders/fused_adam_weight_decay.py +0 -47
mindspore/_extends/graph_kernel/expanders/fused_mul_add.py +0 -28
mindspore/_extends/graph_kernel/expanders/gelu_grad.py +0 -70
mindspore/_extends/graph_kernel/expanders/gkdropout.py +0 -40
mindspore/_extends/graph_kernel/expanders/identity.py +0 -25
mindspore/_extends/graph_kernel/expanders/layernorm.py +0 -93
mindspore/_extends/graph_kernel/expanders/layernorm_grad.py +0 -113
mindspore/_extends/graph_kernel/expanders/logsoftmax.py +0 -46
mindspore/_extends/graph_kernel/expanders/logsoftmax_grad.py +0 -36
mindspore/_extends/graph_kernel/expanders/matmul.py +0 -80
mindspore/_extends/graph_kernel/expanders/maximum_grad.py +0 -59
mindspore/_extends/graph_kernel/expanders/minimum_grad.py +0 -80
mindspore/_extends/graph_kernel/expanders/oneslike.py +0 -26
mindspore/_extends/graph_kernel/expanders/reduce_mean.py +0 -43
mindspore/_extends/graph_kernel/expanders/relu_grad.py +0 -32
mindspore/_extends/graph_kernel/expanders/sigmoid_cross_entropy_with_logits.py +0 -41
mindspore/_extends/graph_kernel/expanders/sigmoid_cross_entropy_with_logits_grad.py +0 -35
mindspore/_extends/graph_kernel/expanders/sigmoid_grad.py +0 -31
mindspore/_extends/graph_kernel/expanders/slice.py +0 -35
mindspore/_extends/graph_kernel/expanders/softmax_cross_entropy_with_logits.py +0 -42
mindspore/_extends/graph_kernel/expanders/softmax_grad_ext.py +0 -41
mindspore/_extends/graph_kernel/expanders/softsign.py +0 -28
mindspore/_extends/graph_kernel/expanders/sqrt_grad.py +0 -29
mindspore/_extends/graph_kernel/expanders/square_sum_all.py +0 -44
mindspore/_extends/graph_kernel/expanders/square_sum_v1.py +0 -37
mindspore/_extends/graph_kernel/expanders/squared_difference.py +0 -43
mindspore/_extends/graph_kernel/expanders/tanh_grad.py +0 -31
mindspore/_extends/graph_kernel/model/op_infer.py +0 -506
mindspore/dataset/datapreprocess/__init__.py +0 -20
mindspore/dataset/datapreprocess/preprocess_imagenet_validate_dataset.py +0 -54
mindspore/include/api/net.h +0 -142
mindspore/nn/lr_scheduler.py +0 -262
mindspore/ops/_grad_experimental/grad_image_ops.py +0 -248
mindspore/ops/_grad_experimental/grad_linalg_ops.py +0 -181
mindspore/ops/_grad_experimental/grad_other_ops.py +0 -72
mindspore/ops/_grad_experimental/grad_scalar_ops.py +0 -112
mindspore/ops/_grad_experimental/grad_sequence_ops.py +0 -351
mindspore/ops/_op_impl/_custom_op/flash_attention/__init__.py +0 -0
mindspore/ops/_op_impl/_custom_op/flash_attention/attention.py +0 -350
mindspore/ops/_op_impl/_custom_op/flash_attention/flash_attention_bwd.py +0 -409
mindspore/ops/_op_impl/_custom_op/flash_attention/flash_attention_fwd.py +0 -578
mindspore/ops/_op_impl/_custom_op/flash_attention/flash_attention_impl.py +0 -199
mindspore/ops/_op_impl/_custom_op/flash_attention/tik_ops_utils.py +0 -446
mindspore/ops/_op_impl/_custom_op/flash_attention/tiling_strategy/__init__.py +0 -0
mindspore/ops/_op_impl/_custom_op/flash_attention/tiling_strategy/sparse_tiling.py +0 -45
mindspore/ops/_op_impl/_custom_op/flash_attention/tiling_strategy/strategy.py +0 -67
mindspore/ops/_op_impl/_custom_op/flash_attention/tiling_strategy/wukong_tiling.py +0 -62
mindspore/ops/bprop_mindir/BNTrainingReduce_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Broadcast_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Depend_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/DepthwiseConv2dNative_bprop.mindir +0 -138
mindspore/ops/bprop_mindir/EmbeddingLookup_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Load_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/ScatterNonAliasingAdd_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/SparseGatherV2_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/SparseSoftmaxCrossEntropyWithLogits_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Switch_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/TransShape_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/TupleGetItem_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Unique_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Unstack_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/generate_mindir.py +0 -114
mindspore/rewrite/node_visitor.py +0 -44
{mindspore-2.1.0.dist-info → mindspore-2.2.11.dist-info}/WHEEL +0 -0
{mindspore-2.1.0.dist-info → mindspore-2.2.11.dist-info}/entry_points.txt +0 -0
{mindspore-2.1.0.dist-info → mindspore-2.2.11.dist-info}/top_level.txt +0 -0

mindspore/nn/optim/ada_grad.py CHANGED Viewed

@@ -166,7 +166,7 @@ class Adagrad(Optimizer):
         >>> import mindspore.nn as nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.Adagrad(params=net.trainable_params())
@@ -205,6 +205,7 @@ class Adagrad(Optimizer):
         grads = self.gradients_centralization(grads)
         grads = self.scale_grad(grads)
         lr = self.get_lr()
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         if self.is_group_lr:
             success = self.map_reverse(F.partial(_ada_grad_opt, self.opt), lr, params, accum,
                                        grads)

mindspore/nn/optim/adadelta.py CHANGED Viewed

@@ -194,6 +194,7 @@ class Adadelta(Optimizer):
         grads = self.gradients_centralization(grads)
         grads = self.scale_grad(grads)
         lr = self.get_lr()
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         if self.is_group_lr:
             success = self.map_reverse(F.partial(_adadelta_opt, self.opt, self.rho, self.epsilon), lr, params,
                                        self.accum, self.accum_update, grads)

mindspore/nn/optim/adafactor.py CHANGED Viewed

@@ -264,7 +264,7 @@ class AdaFactor(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) Parameters use the default learning rate with None and weight decay with 0.
         >>> optim = nn.AdaFactor(params=net.trainable_params())
@@ -410,6 +410,7 @@ class AdaFactor(Optimizer):
     def construct(self, gradients):
         gradients = self.flatten_gradients(gradients)
         lr = self.get_lr()
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         step = F.assign_add(self.step, 1)
         if self.scale_lr and self.relative_step:
             if self.warmup_init:

mindspore/nn/optim/adam.py CHANGED Viewed

@@ -719,7 +719,7 @@ class Adam(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.Adam(params=net.trainable_params())
@@ -918,6 +918,7 @@ class Adam(Optimizer):
         gradients = self.scale_grad(gradients)
         gradients = self._grad_sparse_indices_deduplicate(gradients)
         lr = self.get_lr()
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         beta1_power = self.beta1_power * self.beta1
         self.beta1_power = beta1_power
@@ -985,7 +986,7 @@ class AdamWeightDecay(Optimizer):
         There is usually no connection between a optimizer and mixed precision. But when `FixedLossScaleManager` is used
         and `drop_overflow_update` in `FixedLossScaleManager` is set to False, optimizer needs to set the 'loss_scale'.
         As this optimizer has no argument of `loss_scale`, so `loss_scale` needs to be processed by other means, refer
-        document `LossScale <https://www.mindspore.cn/tutorials/en/r2.1/advanced/mixed_precision.html>`_ to
+        document `LossScale <https://www.mindspore.cn/tutorials/en/r2.2/advanced/mixed_precision.html>`_ to
         process `loss_scale` correctly.
         If parameters are not grouped, the `weight_decay` in optimizer will be applied on the network parameters without
@@ -1069,7 +1070,7 @@ class AdamWeightDecay(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.AdamWeightDecay(params=net.trainable_params())
@@ -1109,6 +1110,7 @@ class AdamWeightDecay(Optimizer):
         gradients = self.flatten_gradients(gradients)
         weight_decay = self.get_weight_decay()
         lr = self.get_lr()
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         if self.use_fused_opt:
             if self.is_group:
@@ -1282,7 +1284,7 @@ class AdamOffload(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.AdamOffload(params=net.trainable_params())
@@ -1330,6 +1332,7 @@ class AdamOffload(Optimizer):
         gradients = self.decay_weight(gradients)
         gradients = self.scale_grad(gradients)
         lr = self.get_lr()
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         beta1_power = self.beta1_power * self.beta1
         self.beta1_power = beta1_power

mindspore/nn/optim/adamax.py CHANGED Viewed

@@ -66,7 +66,7 @@ class AdaMax(Optimizer):
     :math:`m` represents the 1st moment vector, :math:`v` represents the 2nd moment vector,
     :math:`g` represents `gradients`, :math:`\beta_1, \beta_2` represent `beta1` and `beta2`,
     :math:`t` represents the current step, :math:`beta_1^t` represent `beta1_power`,
-    :math:`\l` represents `learning_rate`, :math:`w` represents `params`,
+    :math:`l` represents `learning_rate`, :math:`w` represents `params`,
     :math:`\epsilon` represents `eps`.
     Note:
@@ -161,7 +161,7 @@ class AdaMax(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.AdaMax(params=net.trainable_params())
@@ -204,6 +204,7 @@ class AdaMax(Optimizer):
         gradients = self.gradients_centralization(gradients)
         gradients = self.scale_grad(gradients)
         lr = self.get_lr()
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         self.beta1_power *= self.beta1

mindspore/nn/optim/adasum.py CHANGED Viewed

@@ -445,7 +445,7 @@ class AdaSumByGradWrapCell(Cell):
         >>> import mindspore as ms
         >>> from mindspore import nn
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> optim = nn.AdaSumByGradWrapCell(nn.Momentum(params=net.trainable_params(), learning_rate=0.1, momentum=0.9))
         >>> loss = nn.SoftmaxCrossEntropyWithLogits()
@@ -514,7 +514,7 @@ class AdaSumByDeltaWeightWrapCell(Cell):
         >>> import mindspore as ms
         >>> from mindspore import nn
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> optim = nn.AdaSumByDeltaWeightWrapCell(nn.Momentum(params=net.trainable_params(),
         ...                                                 learning_rate=0.1, momentum=0.9))

mindspore/nn/optim/asgd.py CHANGED Viewed

@@ -128,7 +128,7 @@ class ASGD(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.ASGD(params=net.trainable_params())
@@ -185,8 +185,7 @@ class ASGD(Optimizer):
         gradients = self.gradients_centralization(gradients)
         gradients = self.scale_grad(gradients)
         lrs = self.get_lr()
-        if not self._is_dynamic_lr_or_weight_decay():
-            self.assignadd(self.global_step, self.global_step_increase_tensor)
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         success = True
         params = self._parameters
         for index, (grad, param, mu, eta, ax) in enumerate(zip(gradients, params, self.mu, self.eta, self.ax)):

mindspore/nn/optim/ftrl.py CHANGED Viewed

@@ -296,7 +296,7 @@ class FTRL(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.FTRL(params=net.trainable_params())
@@ -359,6 +359,7 @@ class FTRL(Optimizer):
         grads = self.scale_grad(grads)
         grads = self._grad_sparse_indices_deduplicate(grads)
         lr = self.get_lr()
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         if self.use_dist_optimizer:
             success = self.map_(F.partial(_ftrl_opt, self.opt, self.sparse_opt, self._ps_push, self._ps_pull,
@@ -379,12 +380,12 @@ class FTRL(Optimizer):
         optimizer operation.
         """
         if not isinstance(value, str):
-            raise TypeError("For 'FTRL', the property 'target' must be string type, "
-                            "but got type {}.".format(type(value)))
+            raise TypeError(f"For 'FTRL', the property 'target' must be string type, "
+                            f"but got type {type(value)}.")
         if value not in ('CPU', 'Ascend', 'GPU'):
-            raise ValueError("For 'FTRL', the property 'target' must be 'CPU', 'Ascend' or 'GPU', "
-                             "but got {}".format(value))
+            raise ValueError(f"For 'FTRL', the property 'target' must be 'CPU', 'Ascend' or 'GPU', "
+                             f"but got {value}.")
         if value == 'CPU':
             self.sparse_opt = P.FusedSparseFtrl(self.lr, self.l1, self.l2, self.lr_power, self.use_locking)

mindspore/nn/optim/lamb.py CHANGED Viewed

@@ -132,7 +132,7 @@ class Lamb(Optimizer):
         There is usually no connection between a optimizer and mixed precision. But when `FixedLossScaleManager` is used
         and `drop_overflow_update` in `FixedLossScaleManager` is set to False, optimizer needs to set the 'loss_scale'.
         As this optimizer has no argument of `loss_scale`, so `loss_scale` needs to be processed by other means. Refer
-        document `LossScale <https://www.mindspore.cn/tutorials/en/r2.1/advanced/mixed_precision.html>`_ to
+        document `LossScale <https://www.mindspore.cn/tutorials/en/r2.2/advanced/mixed_precision.html>`_ to
         process `loss_scale` correctly.
         If parameters are not grouped, the `weight_decay` in optimizer will be applied on the network parameters without
@@ -140,6 +140,10 @@ class Lamb(Optimizer):
         parameters are grouped, each group can set `weight_decay`. If not, the `weight_decay` in optimizer will be
         applied.
+    .. warning::
+        The update process of the Lamb optimizer is not completely elementwise, and the sharding of weights in
+        distributed parallel may affect the update result.
     Args:
         params (Union[list[Parameter], list[dict]]): Must be list of `Parameter` or list of `dict`. When the
             `params` is a list of `dict`, the string "params", "lr", "weight_decay", "grad_centralization" and
@@ -220,7 +224,7 @@ class Lamb(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.Lamb(params=net.trainable_params(), learning_rate=0.1)
@@ -263,8 +267,7 @@ class Lamb(Optimizer):
     def construct(self, gradients):
         weight_decay = self.get_weight_decay()
         lr = self.get_lr()
-        if not self._is_dynamic_lr_or_weight_decay():
-            self.assignadd(self.global_step, self.global_step_increase_tensor)
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         lamb_opt = _lamb_opt
         gradients = self.flatten_gradients(gradients)
         gradients = self.gradients_centralization(gradients)

mindspore/nn/optim/lars.py CHANGED Viewed

@@ -109,7 +109,7 @@ class LARS(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> loss = nn.SoftmaxCrossEntropyWithLogits()
         >>> opt = nn.Momentum(net.trainable_params(), 0.1, 0.9)

mindspore/nn/optim/lazyadam.py CHANGED Viewed

@@ -321,7 +321,7 @@ class LazyAdam(Optimizer):
               If `order_params` in the keys, other keys will be ignored and the element of 'order_params' must be in
               one group of `params`.
-        learning_rate (Union[float, int, Tensor, Iterable, LearningRateSchedule]): Default: ``1e-3`` .
+        learning_rate (Union[float, int, Tensor, Iterable, :class:`~.train.LearningRateScheduler`]): Default: ``1e-3`` .
             - float: The fixed learning rate value. Must be equal to or greater than 0.
@@ -370,7 +370,8 @@ class LazyAdam(Optimizer):
         Tensor[bool], the value is ``True`` .
     Raises:
-        TypeError: If `learning_rate` is not one of int, float, Tensor, Iterable, LearningRateSchedule.
+        TypeError: If `learning_rate` is not one of int, float, Tensor, Iterable,
+            :class:`~.train.LearningRateScheduler`.
         TypeError: If element of `parameters` is neither Parameter nor dict.
         TypeError: If `beta1`, `beta2`, `eps` or `loss_scale` is not a float.
         TypeError: If `weight_decay` is neither float nor int.
@@ -387,7 +388,7 @@ class LazyAdam(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.LazyAdam(params=net.trainable_params())
@@ -445,6 +446,7 @@ class LazyAdam(Optimizer):
         gradients = self.scale_grad(gradients)
         gradients = self._grad_sparse_indices_deduplicate(gradients)
         lr = self.get_lr()
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         beta1_power = self.beta1_power * self.beta1
         self.beta1_power = beta1_power

mindspore/nn/optim/momentum.py CHANGED Viewed

@@ -173,7 +173,7 @@ class Momentum(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.Momentum(params=net.trainable_params(), learning_rate=0.1, momentum=0.9)
@@ -220,6 +220,7 @@ class Momentum(Optimizer):
         gradients = self.gradients_centralization(gradients)
         gradients = self.scale_grad(gradients)
         lr = self.get_lr()
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         if self.use_dist_optimizer:
             if self.is_group_lr:
                 success = self.hyper_map_reverse(F.partial(_momentum_opt, self.opt, self.momentum),

mindspore/nn/optim/optimizer.py CHANGED Viewed

@@ -140,6 +140,57 @@ class Optimizer(Cell):
     Supported Platforms:
         ``Ascend`` ``GPU`` ``CPU``
+    Examples:
+        >>> import mindspore as ms
+        >>> from mindspore import nn
+        >>> import numpy as np
+        >>> import mindspore
+        >>> from mindspore import nn, ops, Tensor
+        >>>
+        >>> class MyMomentum(nn.Optimizer):
+        ...     def __init__(self, params, learning_rate, momentum=0.9):
+        ...         super(MyMomentum, self).__init__(learning_rate, params)
+        ...         self.moments = self.parameters.clone(prefix="moments", init="zeros")
+        ...         self.momentum = momentum
+        ...         self.opt = ops.ApplyMomentum()
+        ...
+        ...     def construct(self, gradients):
+        ...         params = self.parameters
+        ...         lr = self.get_lr()
+        ...         gradients = self.flatten_gradients(gradients)
+        ...         gradients = self.decay_weight(gradients)
+        ...         gradients = self.gradients_centralization(gradients)
+        ...         gradients = self.scale_grad(gradients)
+        ...
+        ...         success = None
+        ...         for param, mom, grad in zip(params, self.moments, gradients):
+        ...             success = self.opt(param, mom, lr, grad, self.momentum)
+        ...         return success
+        >>>
+        >>> net = nn.Dense(2, 3)
+        >>> loss_fn = nn.MAELoss()
+        >>> opt = MyMomentum(net.trainable_params(), 0.01)
+        >>>
+        >>> device_target = opt.target
+        >>> opt_unique = opt.unique
+        >>> weight_decay_value = opt.get_weight_decay()
+        >>>
+        >>> def forward_fn(data, label):
+        ...     logits = net(data)
+        ...     loss = loss_fn(logits, label)
+        ...     return loss, logits
+        >>>
+        >>> grad_fn = mindspore.value_and_grad(forward_fn, None, opt.parameters, has_aux=True)
+        >>>
+        >>> def train_step(data, label):
+        ...     (loss, _), grads = grad_fn(data, label)
+        ...     opt(grads)
+        ...     return loss
+        >>>
+        >>> data = Tensor(np.random.rand(4, 10, 2), mindspore.dtype.float32)
+        >>> label = Tensor(np.random.rand(4, 10, 3), mindspore.dtype.float32)
+        >>> train_step(data, label)
     """
     _support_parallel_optimizer = False
@@ -233,7 +284,7 @@ class Optimizer(Cell):
         self.cache_enable = tuple(cache_filter(x) for x in self._parameters)
         self.reciprocal_scale = Tensor(1.0 / self.loss_scale, mstype.float32)
         self.need_scale = self.loss_scale != 1.0
-        self.global_step_increase_tensor = Tensor(1, mstype.int32)
+        self.global_step_increase_tensor = Tensor([1], mstype.int32)
         self.param_length = len(self._parameters)
         self.map_ = C.Map()
         self.map_reverse = C.Map(None, True)
@@ -702,8 +753,6 @@ class Optimizer(Cell):
                     lr += (current_dynamic_lr,)
             else:
                 lr = self.learning_rate(self.global_step).reshape(())
-        if self._is_dynamic_lr_or_weight_decay():
-            self.assignadd(self.global_step, self.global_step_increase_tensor)
         return lr
     def get_lr_parameter(self, param):
@@ -722,7 +771,7 @@ class Optimizer(Cell):
         Examples:
             >>> from mindspore import nn
             >>> # Define the network structure of LeNet5. Refer to
-            >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+            >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
             >>> net = LeNet5()
             >>> conv_params = list(filter(lambda x: 'conv' in x.name, net.trainable_params()))
             >>> no_conv_params = list(filter(lambda x: 'conv' not in x.name, net.trainable_params()))

mindspore/nn/optim/proximal_ada_grad.py CHANGED Viewed

@@ -55,9 +55,7 @@ def _check_param_value(accum, l1, l2, use_locking, prim_name=None):
 class ProximalAdagrad(Optimizer):
     r"""
-    Implements the ProximalAdagrad algorithm.
-    ProximalAdagrad is an online Learning and Stochastic Optimization.
+    Implements the ProximalAdagrad algorithm that is an online Learning and Stochastic Optimization.
     Refer to paper `Efficient Learning using Forward-Backward Splitting
     <http://papers.nips.cc//paper/3793-efficient-learning-using-forward-backward-splitting.pdf>`_.
@@ -165,7 +163,7 @@ class ProximalAdagrad(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.ProximalAdagrad(params=net.trainable_params())
@@ -209,6 +207,7 @@ class ProximalAdagrad(Optimizer):
         grads = self.scale_grad(grads)
         grads = self._grad_sparse_indices_deduplicate(grads)
         lr = self.get_lr()
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         if self.is_group_lr:
             success = self.map_reverse(F.partial(_proximal_ada_grad_opt, self.opt, self.sparse_opt, self.l1, self.l2),
                                        lr, grads, params, accum)

mindspore/nn/optim/rmsprop.py CHANGED Viewed

@@ -47,8 +47,8 @@ class RMSProp(Optimizer):
     Implements Root Mean Squared Propagation (RMSProp) algorithm.
     Update `params` according to the RMSProp algorithm.
-    The 29th of the original presentation slide
-    [http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf] proposes RMSProp.
+    The 29th of the original `presentation slide
+    <http://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf>`_ proposes RMSProp.
     The equation is as follows:
     .. math::
@@ -180,7 +180,7 @@ class RMSProp(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.RMSProp(params=net.trainable_params(), learning_rate=0.1)
@@ -236,6 +236,7 @@ class RMSProp(Optimizer):
         gradients = self.gradients_centralization(gradients)
         gradients = self.scale_grad(gradients)
         lr = self.get_lr()
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         if self.centered:
             if self.is_group_lr:
                 success = self.hyper_map_reverse(F.partial(_centered_rmsprop_opt, self.opt, self.decay, self.epsilon,

mindspore/nn/optim/rprop.py CHANGED Viewed

@@ -135,7 +135,7 @@ class Rprop(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.Rprop(params=net.trainable_params())
@@ -189,8 +189,8 @@ class Rprop(Optimizer):
         self.prev = self._parameters.clone(prefix="prev", init='zeros')
         self.step_size = self._parameters.clone(prefix="step_size", init='zeros')
-        self.fill = P.Fill()
         self.sign = P.Sign()
+        self.fill = P.FillV2()
         self.assign = P.Assign()
         self.assignadd = P.AssignAdd()
         self.cast = P.Cast()
@@ -204,8 +204,7 @@ class Rprop(Optimizer):
         gradients = self.gradients_centralization(gradients)
         gradients = self.scale_grad(gradients)
         lrs = self.get_lr()
-        if not self._is_dynamic_lr_or_weight_decay():
-            self.assignadd(self.global_step, self.global_step_increase_tensor)
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         success = True
         for index, (grad, param, prev, step_size) in enumerate(zip(gradients, self._parameters,
@@ -221,14 +220,26 @@ class Rprop(Optimizer):
             param_fp32 = self.cast(param, mstype.float32)
             sign = self.sign(gradient_fp32 * prev)
-            sign = self.select(sign > 0, self.fill(mstype.float32, sign.shape, self.etaplus), sign)
-            sign = self.select(sign < 0, self.fill(mstype.float32, sign.shape, self.etaminus), sign)
-            sign = self.select(sign == 0, self.fill(mstype.float32, sign.shape, 1.), sign)
-            step_size_fp32 = ops.clip_by_value(step_size_fp32 * sign, self.step_size_min, self.step_size_max)
-            gradient_update = self.select(sign == self.etaminus, self.fill(mstype.float32, sign.shape, 0.),
-                                          gradient_fp32)
+            sign = self.select(
+                sign > 0,
+                self.fill(sign.shape, self.cast(self.etaplus, mstype.float32)),
+                sign)
+            sign = self.select(
+                sign < 0,
+                self.fill(sign.shape, self.cast(self.etaminus,
+                                                mstype.float32)), sign)
+            sign = self.select(
+                sign == 0, self.fill(sign.shape,
+                                     self.cast(1., mstype.float32)), sign)
+            step_size_fp32 = ops.clip_by_value(step_size_fp32 * sign,
+                                               self.step_size_min,
+                                               self.step_size_max)
+            gradient_update = self.select(
+                sign == self.etaminus,
+                self.fill(sign.shape, self.cast(0., mstype.float32)),
+                gradient_fp32)
             next_param = param_fp32 - self.sign(gradient_update) * step_size_fp32
             self.assign(param, self.cast(next_param, param.dtype))

mindspore/nn/optim/sgd.py CHANGED Viewed

@@ -132,7 +132,7 @@ class SGD(Optimizer):
         >>> from mindspore import nn
         >>>
         >>> # Define the network structure of LeNet5. Refer to
-        >>> # https://gitee.com/mindspore/docs/blob/r2.1/docs/mindspore/code/lenet.py
+        >>> # https://gitee.com/mindspore/docs/blob/r2.2/docs/mindspore/code/lenet.py
         >>> net = LeNet5()
         >>> #1) All parameters use the same learning rate and weight decay
         >>> optim = nn.SGD(params=net.trainable_params())
@@ -163,29 +163,29 @@ class SGD(Optimizer):
         if isinstance(momentum, int):
             momentum = float(momentum)
         if not isinstance(momentum, float):
-            raise TypeError("For 'SGD', the argument 'momentum' must be float type, "
-                            "but got {}.".format(type(momentum)))
+            raise TypeError(f"For 'SGD', the argument 'momentum' must be float type, "
+                            f"but got {type(momentum)}.")
         if isinstance(momentum, float) and momentum < 0.0:
-            raise ValueError("For 'SGD', the argument 'momentum' must be at least 0.0, "
-                             "but got {}.".format(momentum))
+            raise ValueError(f"For 'SGD', the argument 'momentum' must be at least 0.0, "
+                             f"but got {momentum}.")
         if isinstance(dampening, int):
             dampening = float(dampening)
         if not isinstance(dampening, float):
-            raise TypeError("For 'SGD', the argument 'dampening' must be float type, "
-                            "but got {}.".format(type(dampening)))
+            raise TypeError(f"For 'SGD', the argument 'dampening' must be float type, "
+                            f"but got {type(dampening)}.")
         if dampening < 0.0:
-            raise ValueError("For 'SGD', the argument 'dampening' must be at least 0.0, "
-                             "but got 'dampening' {}".format(dampening))
+            raise ValueError(f"For 'SGD', the argument 'dampening' must be at least 0.0, "
+                             f"but got 'dampening' {dampening}")
         self.dampening = dampening
         validator.check_value_type("nesterov", nesterov, [bool], self.cls_name)
         if nesterov and (momentum <= 0.0 or dampening != 0.0):
-            raise ValueError("For 'SGD', if 'nesterov' is true, 'momentum' must be > 0.0 and 'dampening' must "
-                             "equal to 0.0, but got 'momentum' {}, 'dampening' {}".format(momentum, dampening))
+            raise ValueError(f"For 'SGD', if 'nesterov' is true, 'momentum' must be > 0.0 and 'dampening' must "
+                             f"equal to 0.0, but got 'momentum' {momentum}, 'dampening' {dampening}.")
         self.nesterov = nesterov
         if self.dynamic_weight_decay:
@@ -198,9 +198,23 @@ class SGD(Optimizer):
             self.opt = tuple([P.SGD(dampening, float(weight_decay), nesterov)] * len(self._parameters))
         self.momentum = Parameter(Tensor(momentum, mstype.float32), name="momentum")
+        if not momentum > 0.0:
+            enable_cache_param_list = []
+            for param in self._parameters:
+                if param.cache_enable:
+                    enable_cache_param_list.append(param)
+                    param.cache_enable = False
         self.accum = self._parameters.clone(prefix="accum", init='zeros')
         self.stat = self._parameters.clone(prefix="stat", init='ones')
+        if not momentum > 0.0:
+            for param in enable_cache_param_list:
+                param.cache_enable = True
     @jit
     def construct(self, gradients):
         params = self._parameters
@@ -210,6 +224,7 @@ class SGD(Optimizer):
         gradients = self.gradients_centralization(gradients)
         gradients = self.scale_grad(gradients)
         lr = self.get_lr()
+        self.assignadd(self.global_step, self.global_step_increase_tensor)
         if self.is_group_lr:
             success = self.hyper_map_reverse(F.partial(_sgd_opt, self.momentum),
                                              lr, gradients, params, accum, stat, self.opt)