PyPI - mindspore - Versions diffs - 1.10.0__cp37-cp37m-win_amd64.whl → 2.0.0rc1__cp37-cp37m-win_amd64.whl - Mend

mindspore 1.10.0__cp37-cp37m-win_amd64.whl → 2.0.0rc1__cp37-cp37m-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mindspore might be problematic. Click here for more details.

Files changed (966) hide show

mindspore/.commit_id +1 -1
mindspore/ConcurrencyCheck.dll +0 -0
mindspore/CppBuildInsights.dll +0 -0
mindspore/CppCoreCheck.dll +0 -0
mindspore/EnumIndex.dll +0 -0
mindspore/EspXEngine.dll +0 -0
mindspore/HResultCheck.dll +0 -0
mindspore/KernelTraceControl.dll +0 -0
mindspore/LocalESPC.dll +0 -0
mindspore/Microsoft.Diagnostics.Tracing.EventSource.dll +0 -0
mindspore/Microsoft.VisualStudio.RemoteControl.dll +0 -0
mindspore/Microsoft.VisualStudio.Telemetry.dll +0 -0
mindspore/Microsoft.VisualStudio.Utilities.Internal.dll +0 -0
mindspore/Newtonsoft.Json.dll +0 -0
mindspore/System.Runtime.CompilerServices.Unsafe.dll +0 -0
mindspore/VariantClear.dll +0 -0
mindspore/__init__.py +9 -4
mindspore/_c_dataengine.cp37-win_amd64.pyd +0 -0
mindspore/_c_expression.cp37-win_amd64.pyd +0 -0
mindspore/_c_mindrecord.cp37-win_amd64.pyd +0 -0
mindspore/_check_jit_forbidden_api.py +102 -0
mindspore/_checkparam.py +1066 -1001
mindspore/_extends/builtin_operations.py +32 -4
mindspore/_extends/graph_kernel/model/graph_split.py +66 -222
mindspore/_extends/parallel_compile/akg_compiler/akg_process.py +12 -9
mindspore/_extends/parallel_compile/akg_compiler/build_tbe_kernel.py +119 -26
mindspore/_extends/parallel_compile/akg_compiler/tbe_topi.py +50 -50
mindspore/_extends/parallel_compile/akg_compiler/util.py +9 -6
mindspore/_extends/parallel_compile/tbe_compiler/tbe_adapter.py +4 -25
mindspore/_extends/parallel_compile/tbe_compiler/tbe_helper.py +9 -4
mindspore/_extends/parallel_compile/tbe_compiler/tbe_job_manager.py +1 -27
mindspore/_extends/parse/__init__.py +5 -3
mindspore/_extends/parse/namespace.py +17 -2
mindspore/_extends/parse/parser.py +193 -34
mindspore/_extends/parse/resources.py +7 -8
mindspore/_extends/parse/standard_method.py +1780 -435
mindspore/_extends/parse/trope.py +3 -1
mindspore/amp.py +53 -58
mindspore/atlprov.dll +0 -0
mindspore/boost/adasum.py +3 -2
mindspore/boost/boost.py +2 -2
mindspore/boost/boost_cell_wrapper.py +46 -26
mindspore/boost/dim_reduce.py +6 -5
mindspore/boost/grad_accumulation.py +2 -1
mindspore/boost/group_loss_scale_manager.py +1 -1
mindspore/c1.dll +0 -0
mindspore/c1xx.dll +0 -0
mindspore/c2.dll +0 -0
mindspore/cfgpersist.dll +0 -0
mindspore/clang_rt.asan_dbg_dynamic-x86_64.dll +0 -0
mindspore/clang_rt.asan_dynamic-x86_64.dll +0 -0
mindspore/common/__init__.py +11 -10
mindspore/common/_decorator.py +2 -0
mindspore/common/_register_for_adapter.py +55 -0
mindspore/common/_stub_tensor.py +201 -0
mindspore/common/_utils.py +57 -0
mindspore/common/api.py +582 -297
mindspore/common/dtype.py +66 -18
mindspore/common/dump.py +2 -2
mindspore/common/initializer.py +38 -1
mindspore/common/jit_config.py +25 -13
mindspore/common/mutable.py +53 -24
mindspore/common/parameter.py +60 -37
mindspore/common/seed.py +8 -24
mindspore/common/sparse_tensor.py +927 -0
mindspore/common/tensor.py +1627 -3900
mindspore/communication/__init__.py +10 -5
mindspore/communication/_comm_helper.py +78 -214
mindspore/communication/_hccl_management.py +2 -1
mindspore/communication/management.py +136 -47
mindspore/config/op_info.config +501 -1008
mindspore/context.py +291 -56
mindspore/d3dcompiler_47.dll +0 -0
mindspore/dataset/__init__.py +12 -8
mindspore/dataset/audio/__init__.py +9 -9
mindspore/dataset/audio/transforms.py +1090 -228
mindspore/dataset/audio/utils.py +87 -39
mindspore/dataset/audio/validators.py +223 -1
mindspore/dataset/callback/ds_callback.py +17 -15
mindspore/dataset/core/config.py +246 -17
mindspore/dataset/core/py_util_helpers.py +4 -3
mindspore/dataset/core/validator_helpers.py +10 -10
mindspore/{parallel/nn/layers.py → dataset/debug/__init__.py} +7 -8
mindspore/dataset/debug/debug_hook.py +65 -0
mindspore/dataset/debug/pre_defined_hook.py +67 -0
mindspore/dataset/engine/__init__.py +7 -3
mindspore/dataset/engine/cache_client.py +9 -9
mindspore/dataset/engine/datasets.py +648 -477
mindspore/dataset/engine/datasets_audio.py +165 -167
mindspore/dataset/engine/datasets_standard_format.py +93 -67
mindspore/dataset/engine/datasets_text.py +492 -342
mindspore/dataset/engine/datasets_user_defined.py +85 -50
mindspore/dataset/engine/datasets_vision.py +1224 -699
mindspore/dataset/engine/graphdata.py +134 -69
mindspore/dataset/engine/iterators.py +50 -9
mindspore/dataset/engine/offload.py +52 -31
mindspore/dataset/engine/samplers.py +27 -24
mindspore/dataset/engine/serializer_deserializer.py +14 -15
mindspore/dataset/engine/validators.py +213 -52
mindspore/dataset/text/__init__.py +10 -8
mindspore/dataset/text/transforms.py +152 -57
mindspore/dataset/text/utils.py +98 -49
mindspore/dataset/text/validators.py +25 -0
mindspore/dataset/transforms/__init__.py +4 -2
mindspore/dataset/transforms/c_transforms.py +11 -13
mindspore/dataset/transforms/py_transforms.py +2 -2
mindspore/dataset/transforms/py_transforms_util.py +10 -0
mindspore/dataset/transforms/transforms.py +13 -15
mindspore/dataset/transforms/validators.py +7 -7
mindspore/dataset/utils/__init__.py +2 -1
mindspore/dataset/utils/browse_dataset.py +13 -13
mindspore/dataset/utils/line_reader.py +121 -0
mindspore/dataset/vision/__init__.py +8 -7
mindspore/dataset/vision/c_transforms.py +125 -126
mindspore/dataset/vision/py_transforms.py +37 -37
mindspore/dataset/vision/py_transforms_util.py +23 -20
mindspore/dataset/vision/transforms.py +316 -315
mindspore/dataset/vision/utils.py +313 -17
mindspore/dataset/vision/validators.py +6 -6
mindspore/default_config.py +0 -1
mindspore/dpcmi.dll +0 -0
mindspore/{compression → experimental}/__init__.py +6 -5
mindspore/experimental/map_parameter.py +275 -0
mindspore/include/OWNERS +0 -1
mindspore/include/api/callback/callback.h +9 -13
mindspore/include/api/callback/ckpt_saver.h +2 -2
mindspore/include/api/callback/loss_monitor.h +2 -2
mindspore/include/api/callback/lr_scheduler.h +5 -5
mindspore/include/api/callback/time_monitor.h +2 -2
mindspore/include/api/callback/train_accuracy.h +4 -6
mindspore/include/api/cfg.h +19 -6
mindspore/include/api/context.h +70 -9
mindspore/include/api/delegate.h +8 -1
mindspore/include/api/dual_abi_helper.h +8 -24
mindspore/include/api/metrics/accuracy.h +2 -2
mindspore/include/api/metrics/metrics.h +4 -3
mindspore/include/api/model.h +9 -4
mindspore/include/api/model_group.h +68 -0
mindspore/include/api/model_parallel_runner.h +17 -17
mindspore/include/api/net.h +12 -11
mindspore/include/api/serialization.h +20 -4
mindspore/include/api/status.h +7 -1
mindspore/include/api/types.h +25 -21
mindspore/include/api/visible.h +4 -0
mindspore/include/c_api/model_c.h +5 -0
mindspore/include/c_api/status_c.h +1 -1
mindspore/include/dataset/config.h +1 -1
mindspore/include/dataset/constants.h +14 -0
mindspore/include/dataset/text.h +59 -0
mindspore/include/dataset/vision.h +56 -117
mindspore/include/dataset/vision_lite.h +102 -0
mindspore/jpeg62.dll +0 -0
mindspore/log.py +28 -28
mindspore/mindrecord/common/exceptions.py +2 -4
mindspore/mindrecord/filereader.py +19 -1
mindspore/mindrecord/filewriter.py +250 -88
mindspore/mindrecord/mindpage.py +13 -13
mindspore/mindrecord/shardheader.py +15 -15
mindspore/mindrecord/shardreader.py +9 -0
mindspore/mindrecord/shardwriter.py +29 -29
mindspore/mindrecord/tools/cifar100_to_mr.py +9 -9
mindspore/mindrecord/tools/cifar10_to_mr.py +9 -9
mindspore/mindrecord/tools/csv_to_mr.py +4 -4
mindspore/mindrecord/tools/imagenet_to_mr.py +70 -65
mindspore/mindrecord/tools/mnist_to_mr.py +41 -41
mindspore/mindrecord/tools/tfrecord_to_mr.py +6 -6
mindspore/{libmindspore_backend.dll → mindspore_backend.dll} +0 -0
mindspore/mindspore_common.dll +0 -0
mindspore/mindspore_core.dll +0 -0
mindspore/mindspore_glog.dll +0 -0
mindspore/mindspore_shared_lib.dll +0 -0
mindspore/msobj140.dll +0 -0
mindspore/mspdb140.dll +0 -0
mindspore/mspdbcore.dll +0 -0
mindspore/mspdbst.dll +0 -0
mindspore/mspft140.dll +0 -0
mindspore/msvcdis140.dll +0 -0
mindspore/msvcp140_1.dll +0 -0
mindspore/msvcp140_2.dll +0 -0
mindspore/msvcp140_atomic_wait.dll +0 -0
mindspore/msvcp140_codecvt_ids.dll +0 -0
mindspore/nn/__init__.py +1 -5
mindspore/nn/cell.py +297 -234
mindspore/nn/dynamic_lr.py +1 -1
mindspore/nn/grad/cell_grad.py +17 -42
mindspore/nn/layer/__init__.py +7 -4
mindspore/nn/layer/activation.py +131 -88
mindspore/nn/layer/basic.py +313 -613
mindspore/nn/layer/channel_shuffle.py +103 -0
mindspore/nn/layer/combined.py +1 -1
mindspore/nn/layer/container.py +52 -6
mindspore/nn/layer/conv.py +112 -43
mindspore/nn/layer/dense.py +10 -9
mindspore/nn/layer/embedding.py +36 -34
mindspore/nn/layer/image.py +123 -27
mindspore/nn/layer/math.py +108 -107
mindspore/nn/layer/normalization.py +212 -366
mindspore/nn/layer/padding.py +370 -42
mindspore/nn/layer/pooling.py +1443 -219
mindspore/nn/layer/rnn_cells.py +11 -16
mindspore/nn/layer/rnns.py +38 -39
mindspore/nn/layer/thor_layer.py +24 -25
mindspore/nn/layer/timedistributed.py +5 -5
mindspore/nn/layer/transformer.py +701 -0
mindspore/nn/learning_rate_schedule.py +8 -8
mindspore/nn/loss/__init__.py +9 -6
mindspore/nn/loss/loss.py +678 -142
mindspore/nn/metrics.py +53 -0
mindspore/nn/optim/_dist_optimizer_registry.py +2 -2
mindspore/nn/optim/ada_grad.py +8 -8
mindspore/nn/optim/adadelta.py +2 -3
mindspore/nn/optim/adafactor.py +18 -14
mindspore/nn/optim/adam.py +429 -87
mindspore/nn/optim/adamax.py +5 -6
mindspore/nn/optim/adasum.py +10 -8
mindspore/nn/optim/asgd.py +7 -7
mindspore/nn/optim/ftrl.py +81 -11
mindspore/nn/optim/lamb.py +7 -8
mindspore/nn/optim/lars.py +4 -4
mindspore/nn/optim/lazyadam.py +82 -7
mindspore/nn/optim/momentum.py +8 -7
mindspore/nn/optim/optimizer.py +19 -10
mindspore/nn/optim/proximal_ada_grad.py +6 -5
mindspore/nn/optim/rmsprop.py +3 -3
mindspore/nn/optim/rprop.py +20 -16
mindspore/nn/optim/sgd.py +21 -15
mindspore/nn/optim/thor.py +23 -21
mindspore/nn/probability/__init__.py +0 -2
mindspore/nn/probability/bijector/bijector.py +7 -6
mindspore/nn/probability/bijector/invert.py +4 -2
mindspore/nn/probability/bijector/softplus.py +2 -2
mindspore/nn/probability/bnn_layers/dense_variational.py +1 -1
mindspore/nn/probability/bnn_layers/layer_distribution.py +2 -2
mindspore/nn/probability/distribution/__init__.py +6 -0
mindspore/nn/probability/distribution/_utils/custom_ops.py +3 -2
mindspore/nn/probability/distribution/_utils/utils.py +11 -17
mindspore/nn/probability/distribution/bernoulli.py +6 -6
mindspore/nn/probability/distribution/beta.py +1 -1
mindspore/nn/probability/distribution/categorical.py +9 -9
mindspore/nn/probability/distribution/cauchy.py +8 -8
mindspore/nn/probability/distribution/distribution.py +12 -6
mindspore/nn/probability/distribution/exponential.py +5 -5
mindspore/nn/probability/distribution/gamma.py +3 -3
mindspore/nn/probability/distribution/geometric.py +6 -5
mindspore/nn/probability/distribution/gumbel.py +5 -5
mindspore/nn/probability/distribution/half_normal.py +133 -0
mindspore/nn/probability/distribution/laplace.py +128 -0
mindspore/nn/probability/distribution/log_normal.py +0 -1
mindspore/nn/probability/distribution/logistic.py +4 -5
mindspore/nn/probability/distribution/normal.py +11 -15
mindspore/nn/probability/distribution/poisson.py +6 -2
mindspore/nn/probability/distribution/student_t.py +150 -0
mindspore/nn/probability/distribution/transformed_distribution.py +4 -4
mindspore/nn/probability/distribution/uniform.py +5 -5
mindspore/nn/reinforcement/_tensors_queue.py +3 -3
mindspore/nn/reinforcement/tensor_array.py +2 -2
mindspore/nn/sparse/sparse.py +8 -1
mindspore/nn/wrap/cell_wrapper.py +55 -27
mindspore/nn/wrap/grad_reducer.py +20 -11
mindspore/nn/wrap/loss_scale.py +47 -30
mindspore/numpy/array_creations.py +33 -22
mindspore/numpy/array_ops.py +46 -42
mindspore/numpy/logic_ops.py +6 -27
mindspore/numpy/math_ops.py +26 -19
mindspore/numpy/utils.py +1 -8
mindspore/numpy/utils_const.py +112 -62
mindspore/opencv_core452.dll +0 -0
mindspore/opencv_imgcodecs452.dll +0 -0
mindspore/opencv_imgproc452.dll +0 -0
mindspore/ops/__init__.py +6 -3
mindspore/ops/_constants.py +0 -6
mindspore/ops/_grad/__init__.py +2 -1
mindspore/ops/_grad/grad_array_ops.py +209 -152
mindspore/ops/_grad/grad_base.py +55 -17
mindspore/ops/_grad/grad_clip_ops.py +11 -3
mindspore/ops/_grad/grad_comm_ops.py +58 -47
mindspore/ops/_grad/grad_implementations.py +21 -61
mindspore/ops/_grad/grad_inner_ops.py +48 -6
mindspore/ops/_grad/grad_math_ops.py +306 -161
mindspore/ops/_grad/grad_nn_ops.py +192 -181
mindspore/ops/_grad/grad_other_ops.py +1 -1
mindspore/ops/_grad/grad_quant_ops.py +5 -5
mindspore/ops/_grad/grad_sequence_ops.py +296 -0
mindspore/ops/_grad/grad_sparse.py +15 -9
mindspore/ops/_grad_experimental/__init__.py +1 -0
mindspore/ops/_grad_experimental/grad_array_ops.py +441 -55
mindspore/ops/_grad_experimental/grad_image_ops.py +25 -7
mindspore/ops/_grad_experimental/grad_inner_ops.py +3 -44
mindspore/ops/_grad_experimental/grad_linalg_ops.py +16 -21
mindspore/ops/_grad_experimental/grad_math_ops.py +979 -49
mindspore/ops/_grad_experimental/grad_nn_ops.py +78 -8
mindspore/ops/_grad_experimental/grad_scalar_ops.py +112 -0
mindspore/ops/_grad_experimental/grad_sparse_ops.py +197 -13
mindspore/ops/_op_impl/__init__.py +3 -3
mindspore/ops/_op_impl/_custom_op/__init__.py +0 -1
mindspore/ops/_op_impl/_custom_op/_basic.py +0 -1
mindspore/ops/_op_impl/_custom_op/batch_matmul_impl.py +1 -1
mindspore/ops/_op_impl/_custom_op/batchnorm_fold.py +4 -2
mindspore/ops/_op_impl/_custom_op/batchnorm_fold2.py +2 -2
mindspore/ops/_op_impl/_custom_op/batchnorm_fold2_grad.py +2 -2
mindspore/ops/_op_impl/_custom_op/batchnorm_fold2_grad_reduce.py +5 -5
mindspore/ops/_op_impl/_custom_op/batchnorm_fold_grad.py +3 -3
mindspore/ops/_op_impl/_custom_op/cholesky_trsm_impl.py +1 -1
mindspore/ops/_op_impl/_custom_op/correction_mul.py +3 -3
mindspore/ops/_op_impl/_custom_op/correction_mul_grad.py +2 -2
mindspore/ops/_op_impl/_custom_op/dsd_back_impl.py +4 -8
mindspore/ops/_op_impl/_custom_op/dsd_impl.py +1 -1
mindspore/ops/_op_impl/_custom_op/fake_learned_scale_quant_perchannel.py +2 -2
mindspore/ops/_op_impl/_custom_op/fake_learned_scale_quant_perchannel_grad.py +2 -2
mindspore/ops/_op_impl/_custom_op/fake_learned_scale_quant_perchannel_grad_reduce.py +2 -2
mindspore/ops/_op_impl/_custom_op/fake_learned_scale_quant_perlayer.py +2 -2
mindspore/ops/_op_impl/_custom_op/fake_learned_scale_quant_perlayer_grad.py +2 -2
mindspore/ops/_op_impl/_custom_op/fake_learned_scale_quant_perlayer_grad_reduce.py +2 -2
mindspore/ops/_op_impl/_custom_op/fake_quant_perchannel.py +2 -2
mindspore/ops/_op_impl/_custom_op/fake_quant_perchannel_grad.py +2 -2
mindspore/ops/_op_impl/_custom_op/fake_quant_perlayer.py +2 -2
mindspore/ops/_op_impl/_custom_op/fake_quant_perlayer_grad.py +2 -2
mindspore/ops/_op_impl/_custom_op/fused_abs_max1_impl.py +1 -1
mindspore/ops/_op_impl/_custom_op/img2col_impl.py +1 -1
mindspore/ops/_op_impl/_custom_op/matmul_cube_dense_left_impl.py +2 -2
mindspore/ops/_op_impl/_custom_op/matmul_cube_dense_right_impl.py +1 -1
mindspore/ops/_op_impl/_custom_op/matmul_cube_fracz_left_cast_impl.py +1 -1
mindspore/ops/_op_impl/_custom_op/matmul_cube_fracz_right_mul_impl.py +1 -1
mindspore/ops/_op_impl/_custom_op/matmul_cube_impl.py +2 -2
mindspore/ops/_op_impl/_custom_op/matmul_dds_grad_impl.py +0 -1
mindspore/ops/_op_impl/_custom_op/matmul_dds_impl.py +0 -1
mindspore/ops/_op_impl/_custom_op/matrix_combine_impl.py +1 -1
mindspore/ops/_op_impl/_custom_op/minmax_update_perchannel.py +2 -2
mindspore/ops/_op_impl/_custom_op/minmax_update_perlayer.py +2 -2
mindspore/ops/_op_impl/_custom_op/transpose02314_impl.py +1 -1
mindspore/ops/_op_impl/aicpu/__init__.py +238 -3
mindspore/ops/_op_impl/aicpu/abs.py +36 -0
mindspore/ops/_op_impl/aicpu/adaptive_avg_pool_2d.py +34 -0
mindspore/ops/_op_impl/aicpu/adaptive_avg_pool_2d_grad.py +34 -0
mindspore/ops/_op_impl/aicpu/adaptive_avg_pool_3d.py +39 -0
mindspore/ops/_op_impl/aicpu/adaptive_avg_pool_3d_grad.py +39 -0
mindspore/ops/_op_impl/aicpu/adaptive_max_pool_2d_grad.py +37 -0
mindspore/ops/_op_impl/aicpu/adaptive_max_pool_3d.py +42 -0
mindspore/ops/_op_impl/aicpu/adaptive_max_pool_3d_grad.py +152 -0
mindspore/ops/_op_impl/aicpu/add.py +43 -0
mindspore/ops/_op_impl/aicpu/addcdiv.py +0 -32
mindspore/ops/_op_impl/aicpu/addcmul.py +0 -84
mindspore/ops/_op_impl/aicpu/affine_grid_grad.py +35 -0
mindspore/ops/_op_impl/aicpu/arg_max.py +75 -0
mindspore/ops/_op_impl/aicpu/arg_min.py +75 -0
mindspore/ops/_op_impl/aicpu/argmin_with_value.py +43 -0
mindspore/ops/_op_impl/aicpu/batch_matmul.py +43 -0
mindspore/ops/_op_impl/aicpu/batch_norm_grad_grad.py +49 -0
mindspore/ops/_op_impl/aicpu/bernoulli.py +48 -0
mindspore/ops/_op_impl/aicpu/bessel_i0.py +31 -0
mindspore/ops/_op_impl/aicpu/bias_add.py +44 -0
mindspore/ops/_op_impl/aicpu/bias_add_grad.py +43 -0
mindspore/ops/_op_impl/aicpu/bincount.py +33 -0
mindspore/{nn/probability/infer/variational/__init__.py → ops/_op_impl/aicpu/cauchy.py} +17 -10
mindspore/ops/_op_impl/aicpu/channel_shuffle.py +40 -0
mindspore/ops/_op_impl/aicpu/cholesky.py +1 -1
mindspore/ops/_op_impl/{cpu/bias_add.py → aicpu/choleskygrad.py} +9 -7
mindspore/ops/_op_impl/aicpu/combined_non_max_suppression.py +42 -0
mindspore/ops/_op_impl/aicpu/concat_offset.py +42 -0
mindspore/ops/_op_impl/aicpu/concat_offset_v1.py +31 -0
mindspore/ops/_op_impl/aicpu/conj.py +11 -0
mindspore/ops/_op_impl/aicpu/crop_and_resize_grad_image.py +38 -0
mindspore/ops/_op_impl/aicpu/cumulative_logsumexp.py +36 -0
mindspore/ops/_op_impl/aicpu/deformable_offsets.py +38 -0
mindspore/ops/_op_impl/aicpu/deformable_offsets_grad.py +2 -2
mindspore/ops/_op_impl/aicpu/dense_to_sparse_set_operation.py +48 -0
mindspore/ops/_op_impl/aicpu/diag.py +36 -0
mindspore/ops/_op_impl/aicpu/diag_part.py +36 -0
mindspore/ops/_op_impl/aicpu/diagonal.py +35 -0
mindspore/ops/_op_impl/{cpu/bias_add_grad.py → aicpu/digamma.py} +9 -7
mindspore/ops/_op_impl/aicpu/eig.py +35 -0
mindspore/ops/_op_impl/aicpu/fft_with_size.py +41 -0
mindspore/ops/_op_impl/aicpu/flatten.py +1 -0
mindspore/ops/_op_impl/aicpu/fmax.py +36 -0
mindspore/ops/_op_impl/aicpu/fmin.py +37 -0
mindspore/ops/_op_impl/aicpu/fractional_max_pool3d_with_fixed_ksize.py +1 -1
mindspore/ops/_op_impl/aicpu/fse_decode.py +43 -0
mindspore/ops/_op_impl/aicpu/glu.py +33 -0
mindspore/ops/_op_impl/aicpu/glu_grad.py +34 -0
mindspore/ops/_op_impl/aicpu/greater.py +41 -0
mindspore/ops/_op_impl/aicpu/greater_equal.py +41 -0
mindspore/ops/_op_impl/aicpu/index_put.py +50 -0
mindspore/ops/_op_impl/{tbe/scatter_add_ds.py → aicpu/inplace_index_add.py} +17 -21
mindspore/ops/_op_impl/aicpu/instance_norm_v2.py +41 -0
mindspore/ops/_op_impl/aicpu/instance_norm_v2_grad.py +44 -0
mindspore/ops/_op_impl/aicpu/layer_norm_grad_grad.py +47 -0
mindspore/ops/_op_impl/aicpu/less.py +41 -0
mindspore/ops/_op_impl/aicpu/less_equal.py +41 -0
mindspore/ops/_op_impl/aicpu/lgamma.py +32 -0
mindspore/ops/_op_impl/aicpu/log_normal_reverse.py +33 -0
mindspore/ops/_op_impl/aicpu/logit.py +33 -0
mindspore/ops/_op_impl/aicpu/logit_grad.py +34 -0
mindspore/ops/_op_impl/aicpu/masked_fill.py +42 -0
mindspore/ops/_op_impl/aicpu/masked_scatter.py +39 -0
mindspore/ops/_op_impl/aicpu/matmul.py +39 -0
mindspore/ops/_op_impl/aicpu/matrix_logarithm.py +31 -0
mindspore/ops/_op_impl/aicpu/matrix_power.py +32 -0
mindspore/ops/_op_impl/aicpu/matrix_solve_ls.py +36 -0
mindspore/ops/_op_impl/aicpu/matrix_triangular_solve.py +36 -0
mindspore/ops/_op_impl/aicpu/mirror_pad.py +2 -0
mindspore/ops/_op_impl/aicpu/mirror_pad_grad.py +0 -4
mindspore/ops/_op_impl/aicpu/mul.py +3 -1
mindspore/ops/_op_impl/aicpu/multinomial.py +14 -6
mindspore/ops/_op_impl/aicpu/multinomial_with_replacement.py +35 -0
mindspore/ops/_op_impl/aicpu/nan_to_num.py +34 -0
mindspore/ops/_op_impl/aicpu/nllloss.py +38 -0
mindspore/ops/_op_impl/aicpu/nllloss_grad.py +39 -0
mindspore/ops/_op_impl/aicpu/ones_like.py +0 -2
mindspore/ops/_op_impl/aicpu/polar.py +32 -0
mindspore/ops/_op_impl/aicpu/polygamma.py +34 -0
mindspore/ops/_op_impl/aicpu/qr.py +36 -0
mindspore/ops/_op_impl/aicpu/quant_dtype_cast.py +40 -0
mindspore/ops/_op_impl/aicpu/quantile.py +35 -0
mindspore/ops/_op_impl/aicpu/ragged_tensor_to_sparse.py +73 -0
mindspore/ops/_op_impl/aicpu/ragged_tensor_to_tensor.py +74 -0
mindspore/ops/_op_impl/aicpu/random_shuffle.py +3 -0
mindspore/ops/_op_impl/aicpu/randperm_v2.py +41 -0
mindspore/ops/_op_impl/aicpu/range.py +36 -0
mindspore/ops/_op_impl/aicpu/reciprocal.py +34 -0
mindspore/ops/_op_impl/aicpu/reciprocal_grad.py +35 -0
mindspore/ops/_op_impl/aicpu/reduce_sum.py +57 -0
mindspore/ops/_op_impl/aicpu/resize_bicubic.py +2 -8
mindspore/ops/_op_impl/aicpu/resize_bicubic_grad.py +1 -1
mindspore/ops/_op_impl/aicpu/resize_v2.py +68 -0
mindspore/ops/_op_impl/aicpu/resize_v2_grad.py +68 -0
mindspore/ops/_op_impl/aicpu/scatter_elements.py +4 -0
mindspore/ops/_op_impl/aicpu/scatter_nd_update.py +2 -0
mindspore/ops/_op_impl/aicpu/search_sorted.py +12 -6
mindspore/ops/_op_impl/aicpu/self_adjoint_eig.py +34 -0
mindspore/ops/_op_impl/aicpu/sequence_add.py +34 -0
mindspore/ops/_op_impl/aicpu/sequence_add_offset.py +34 -0
mindspore/ops/_op_impl/aicpu/sequence_addn.py +38 -0
mindspore/ops/_op_impl/aicpu/slice_grad.py +76 -0
mindspore/ops/_op_impl/aicpu/smooth_l1_loss.py +35 -0
mindspore/ops/_op_impl/aicpu/smooth_l1_loss_grad.py +37 -0
mindspore/ops/_op_impl/aicpu/sort.py +39 -0
mindspore/ops/_op_impl/aicpu/sparse_apply_adagrad_da.py +0 -24
mindspore/ops/_op_impl/aicpu/sparse_cross.py +42 -0
mindspore/ops/_op_impl/aicpu/sparse_fill_empty_rows.py +63 -0
mindspore/ops/_op_impl/aicpu/sparse_fill_empty_rows_grad.py +45 -0
mindspore/ops/_op_impl/aicpu/sparse_matrix_mat_mul.py +56 -0
mindspore/ops/_op_impl/{tbe/slice_ds.py → aicpu/sparse_segment_sum.py} +16 -24
mindspore/ops/_op_impl/aicpu/sparse_segment_sum_with_num_segments.py +68 -0
mindspore/ops/_op_impl/aicpu/sparse_slice.py +63 -0
mindspore/ops/_op_impl/aicpu/sparse_slice_grad.py +61 -0
mindspore/ops/_op_impl/aicpu/squared_difference.py +2 -0
mindspore/ops/_op_impl/aicpu/strided_slice_v2.py +93 -0
mindspore/ops/_op_impl/aicpu/strided_slice_v2_grad.py +66 -0
mindspore/ops/_op_impl/aicpu/tensor_scatter_update.py +59 -0
mindspore/ops/_op_impl/{tbe/gather_v2.py → aicpu/tile.py} +24 -24
mindspore/ops/_op_impl/aicpu/tridiagonal_solve.py +35 -0
mindspore/ops/_op_impl/aicpu/tril_indices.py +34 -0
mindspore/ops/_op_impl/aicpu/triu_indices.py +34 -0
mindspore/ops/_op_impl/aicpu/uniform.py +34 -0
mindspore/ops/_op_impl/aicpu/uniform_candidate_sampler.py +1 -0
mindspore/ops/_op_impl/aicpu/unique_consecutive.py +10 -2
mindspore/ops/_op_impl/cpu/__init__.py +1 -2
mindspore/ops/_op_impl/cpu/dynamic_shape.py +5 -1
mindspore/ops/_op_impl/cpu/maximum_grad.py +2 -0
mindspore/{compression/common/__init__.py → ops/_op_impl/cpu/pyexecute.py} +13 -8
mindspore/ops/_op_impl/cpu/reduce_sum.py +8 -0
mindspore/ops/_op_impl/cpu/sparse_slice.py +62 -0
mindspore/ops/_op_impl/cpu/sparse_slice_grad.py +60 -0
mindspore/ops/_op_impl/cpu/tensor_shape.py +5 -1
mindspore/ops/_op_impl/tbe/__init__.py +27 -608
mindspore/ops/_op_impl/tbe/addcdiv_ds.py +42 -0
mindspore/ops/_op_impl/tbe/addcmul_ds.py +44 -0
mindspore/ops/_op_impl/tbe/assign_add_ds.py +1 -0
mindspore/ops/_op_impl/tbe/atomic_addr_clean.py +1 -1
mindspore/ops/_op_impl/tbe/avg_pool_3d_grad.py +1 -1
mindspore/ops/_op_impl/tbe/basic_lstm_cell_c_state_grad_v2.py +0 -1
mindspore/ops/_op_impl/tbe/batch_to_space.py +1 -1
mindspore/ops/_op_impl/tbe/batch_to_space_nd.py +1 -1
mindspore/ops/_op_impl/tbe/batch_to_space_nd_v2.py +41 -0
mindspore/ops/_op_impl/tbe/bce_with_logits_loss.py +1 -0
mindspore/ops/_op_impl/tbe/bias_add_grad.py +2 -0
mindspore/ops/_op_impl/tbe/bn_infer_grad.py +4 -2
mindspore/ops/_op_impl/tbe/bn_infer_grad_ds.py +40 -0
mindspore/ops/_op_impl/tbe/bn_training_update.py +0 -1
mindspore/ops/_op_impl/tbe/bn_training_update_ds.py +0 -1
mindspore/ops/_op_impl/tbe/broadcast_to_ds.py +6 -4
mindspore/ops/_op_impl/tbe/cast.py +0 -2
mindspore/ops/_op_impl/tbe/cast_ds.py +3 -3
mindspore/ops/_op_impl/tbe/ctc_loss_v2.py +0 -2
mindspore/ops/_op_impl/tbe/ctc_loss_v2_grad.py +0 -2
mindspore/ops/_op_impl/tbe/data_format_dim_map_ds.py +1 -0
mindspore/ops/_op_impl/tbe/deformable_offsets.py +1 -0
mindspore/ops/_op_impl/tbe/depthwise_conv2d.py +1 -1
mindspore/ops/_op_impl/tbe/dynamic_atomic_addr_clean.py +1 -1
mindspore/ops/_op_impl/tbe/gather_nd.py +1 -0
mindspore/ops/_op_impl/tbe/greater.py +2 -0
mindspore/ops/_op_impl/tbe/{index_add.py → inplace_index_add.py} +3 -6
mindspore/ops/_op_impl/tbe/layer_norm_beta_gamma_backprop_v2.py +0 -1
mindspore/ops/_op_impl/tbe/npu_clear_float_status_v2.py +35 -0
mindspore/ops/_op_impl/tbe/npu_get_float_status_v2.py +35 -0
mindspore/ops/_op_impl/tbe/one_hot_ds.py +0 -6
mindspore/ops/_op_impl/tbe/{greater_ds.py → reduce_all_ds.py} +13 -16
mindspore/ops/_op_impl/tbe/reduce_any_ds.py +39 -0
mindspore/ops/_op_impl/tbe/roi_align_ds.py +44 -0
mindspore/ops/_op_impl/tbe/roi_align_grad_ds.py +44 -0
mindspore/ops/_op_impl/tbe/scatter_add.py +2 -0
mindspore/ops/_op_impl/tbe/scatter_nd_add.py +2 -2
mindspore/ops/_op_impl/tbe/slice.py +26 -15
mindspore/ops/_op_impl/tbe/space_to_batch.py +1 -1
mindspore/ops/_op_impl/tbe/space_to_batch_nd.py +1 -1
mindspore/ops/_op_impl/tbe/strided_slice_grad_d.py +1 -0
mindspore/ops/_op_impl/tbe/trans_data_ds.py +15 -5
mindspore/ops/_op_impl/tbe/unsorted_segment_sum.py +1 -1
mindspore/ops/_op_impl/tbe/unsorted_segment_sum_ds.py +2 -0
mindspore/ops/_primitive_cache.py +3 -2
mindspore/ops/_register_for_op.py +11 -0
mindspore/ops/_utils/__init__.py +1 -1
mindspore/ops/_utils/utils.py +20 -41
mindspore/ops/_vmap/__init__.py +2 -2
mindspore/ops/_vmap/vmap_array_ops.py +170 -78
mindspore/ops/_vmap/vmap_base.py +24 -10
mindspore/ops/_vmap/vmap_convolution_ops.py +7 -10
mindspore/ops/_vmap/vmap_grad_math_ops.py +4 -4
mindspore/ops/_vmap/vmap_grad_nn_ops.py +41 -9
mindspore/ops/_vmap/vmap_image_ops.py +52 -0
mindspore/ops/_vmap/vmap_math_ops.py +77 -6
mindspore/ops/_vmap/vmap_nn_ops.py +78 -29
mindspore/ops/_vmap/vmap_other_ops.py +3 -1
mindspore/ops/_vmap/vmap_random_ops.py +55 -3
mindspore/ops/_vmap/vmap_sparse_ops.py +1 -0
mindspore/ops/bprop_mindir/AdaptiveAvgPool2D_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/AdaptiveMaxPool2D_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/ApproximateEqual_bprop.mindir +18 -19
mindspore/ops/bprop_mindir/Argmax_bprop.mindir +13 -12
mindspore/ops/bprop_mindir/Argmin_bprop.mindir +14 -13
mindspore/ops/bprop_mindir/AssignSub_bprop.mindir +17 -18
mindspore/ops/bprop_mindir/Assign_bprop.mindir +16 -16
mindspore/ops/bprop_mindir/AvgPool3D_bprop.mindir +150 -0
mindspore/ops/bprop_mindir/AvgPool_bprop.mindir +66 -0
mindspore/ops/bprop_mindir/BCEWithLogitsLoss_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/BNTrainingReduce_bprop.mindir +13 -12
mindspore/ops/bprop_mindir/BatchNormGrad_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/BatchToSpaceND_bprop.mindir +28 -0
mindspore/ops/bprop_mindir/BiasAddGrad_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/BinaryCrossEntropy_bprop.mindir +33 -0
mindspore/ops/bprop_mindir/BroadcastTo_bprop.mindir +306 -0
mindspore/ops/bprop_mindir/Broadcast_bprop.mindir +12 -8
mindspore/ops/bprop_mindir/CTCLoss_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Concat_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Conv2DBackpropFilter_bprop.mindir +240 -0
mindspore/ops/bprop_mindir/Conv2DBackpropInput_bprop.mindir +247 -0
mindspore/ops/bprop_mindir/Conv2DTranspose_bprop.mindir +247 -0
mindspore/ops/bprop_mindir/Conv3DTranspose_bprop.mindir +315 -0
mindspore/ops/bprop_mindir/Conv3D_bprop.mindir +278 -0
mindspore/ops/bprop_mindir/DType_bprop.mindir +12 -12
mindspore/ops/bprop_mindir/DeformableOffsets_bprop.mindir +58 -0
mindspore/ops/bprop_mindir/Depend_bprop.mindir +12 -13
mindspore/ops/bprop_mindir/DepthToSpace_bprop.mindir +23 -0
mindspore/ops/bprop_mindir/DepthwiseConv2dNative_bprop.mindir +138 -0
mindspore/ops/bprop_mindir/DiagPart_bprop.mindir +15 -0
mindspore/ops/bprop_mindir/Dropout2D_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Dropout3D_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/DropoutDoMask_bprop.mindir +22 -24
mindspore/ops/bprop_mindir/DropoutGenMask_bprop.mindir +16 -14
mindspore/ops/bprop_mindir/DropoutGrad_bprop.mindir +27 -0
mindspore/ops/bprop_mindir/Dropout_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/DynamicGRUV2_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/DynamicRNN_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/DynamicShape_bprop.mindir +12 -12
mindspore/ops/bprop_mindir/Elu_bprop.mindir +16 -0
mindspore/ops/bprop_mindir/EmbeddingLookup_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Equal_bprop.mindir +18 -19
mindspore/ops/bprop_mindir/ExpandDims_bprop.mindir +58 -0
mindspore/ops/bprop_mindir/FastGeLU_bprop.mindir +16 -0
mindspore/ops/bprop_mindir/Flatten_bprop.mindir +54 -0
mindspore/ops/bprop_mindir/FloorDiv_bprop.mindir +18 -15
mindspore/ops/bprop_mindir/GatherD_bprop.mindir +26 -0
mindspore/ops/bprop_mindir/GatherNd_bprop.mindir +57 -0
mindspore/ops/bprop_mindir/Gather_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/GreaterEqual_bprop.mindir +17 -18
mindspore/ops/bprop_mindir/Greater_bprop.mindir +18 -19
mindspore/ops/bprop_mindir/HSigmoid_bprop.mindir +16 -0
mindspore/ops/bprop_mindir/HSwish_bprop.mindir +16 -0
mindspore/ops/bprop_mindir/IOU_bprop.mindir +18 -19
mindspore/ops/bprop_mindir/InstanceNorm_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/IsFinite_bprop.mindir +13 -12
mindspore/ops/bprop_mindir/IsInf_bprop.mindir +13 -10
mindspore/ops/bprop_mindir/IsNan_bprop.mindir +14 -11
mindspore/ops/bprop_mindir/KLDivLoss_bprop.mindir +126 -0
mindspore/ops/bprop_mindir/L2Loss_bprop.mindir +15 -0
mindspore/ops/bprop_mindir/L2Normalize_bprop.mindir +30 -0
mindspore/ops/bprop_mindir/LRN_bprop.mindir +43 -0
mindspore/ops/bprop_mindir/LayerNormGrad_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/LessEqual_bprop.mindir +18 -19
mindspore/ops/bprop_mindir/Less_bprop.mindir +17 -18
mindspore/ops/bprop_mindir/LinSpace_bprop.mindir +22 -19
mindspore/ops/bprop_mindir/Load_bprop.mindir +12 -13
mindspore/ops/bprop_mindir/LogSoftmax_bprop.mindir +23 -0
mindspore/ops/bprop_mindir/LogicalAnd_bprop.mindir +17 -18
mindspore/ops/bprop_mindir/LogicalNot_bprop.mindir +14 -13
mindspore/ops/bprop_mindir/MaskedSelect_bprop.mindir +21 -0
mindspore/ops/bprop_mindir/MaxPool3DGradGrad_bprop.mindir +74 -0
mindspore/ops/bprop_mindir/MaxPool3DGrad_bprop.mindir +74 -0
mindspore/ops/bprop_mindir/MaxPool3D_bprop.mindir +75 -0
mindspore/ops/bprop_mindir/MaxPoolGradGrad_bprop.mindir +65 -0
mindspore/ops/bprop_mindir/MaxPoolWithArgmax_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Maximum_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Minimum_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/MirrorPad_bprop.mindir +27 -0
mindspore/ops/bprop_mindir/Mish_bprop.mindir +35 -0
mindspore/ops/bprop_mindir/MulNoNan_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/NLLLoss_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/NonZero_bprop.mindir +14 -0
mindspore/ops/bprop_mindir/NotEqual_bprop.mindir +18 -19
mindspore/ops/bprop_mindir/OneHot_bprop.mindir +25 -23
mindspore/ops/bprop_mindir/OnesLike_bprop.mindir +13 -13
mindspore/ops/bprop_mindir/PReLU_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Pad_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Padding_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/RNNTLoss_bprop.mindir +29 -0
mindspore/ops/bprop_mindir/ROIAlign_bprop.mindir +82 -0
mindspore/ops/bprop_mindir/Range_bprop.mindir +21 -19
mindspore/ops/bprop_mindir/Rank_bprop.mindir +11 -11
mindspore/ops/bprop_mindir/ReLU6_bprop.mindir +16 -0
mindspore/ops/bprop_mindir/ReLUV2_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/ReduceAll_bprop.mindir +18 -17
mindspore/ops/bprop_mindir/ReduceAny_bprop.mindir +18 -17
mindspore/ops/bprop_mindir/ReluGrad_bprop.mindir +19 -23
mindspore/ops/bprop_mindir/Reshape_bprop.mindir +60 -0
mindspore/ops/bprop_mindir/ResizeBilinear_bprop.mindir +29 -0
mindspore/ops/bprop_mindir/ResizeNearestNeighbor_bprop.mindir +89 -0
mindspore/ops/bprop_mindir/ReverseSequence_bprop.mindir +52 -0
mindspore/ops/bprop_mindir/ReverseV2_bprop.mindir +22 -0
mindspore/ops/bprop_mindir/Round_bprop.mindir +14 -13
mindspore/ops/bprop_mindir/ScatterMax_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/ScatterMin_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/ScatterNdUpdate_bprop.mindir +22 -0
mindspore/ops/bprop_mindir/ScatterNd_bprop.mindir +24 -0
mindspore/ops/bprop_mindir/ScatterNonAliasingAdd_bprop.mindir +22 -0
mindspore/ops/bprop_mindir/ScatterUpdate_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/SeLU_bprop.mindir +21 -0
mindspore/ops/bprop_mindir/Select_bprop.mindir +30 -34
mindspore/ops/bprop_mindir/Shape_bprop.mindir +12 -12
mindspore/ops/bprop_mindir/SigmoidCrossEntropyWithLogits_bprop.mindir +21 -0
mindspore/ops/bprop_mindir/SigmoidGrad_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Sigmoid_bprop.mindir +16 -0
mindspore/ops/bprop_mindir/Sign_bprop.mindir +13 -12
mindspore/ops/bprop_mindir/Slice_bprop.mindir +26 -0
mindspore/ops/bprop_mindir/SmoothL1Loss_bprop.mindir +36 -0
mindspore/ops/bprop_mindir/SoftmaxCrossEntropyWithLogits_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Softplus_bprop.mindir +16 -0
mindspore/ops/bprop_mindir/Softsign_bprop.mindir +33 -0
mindspore/ops/bprop_mindir/Sort_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/SpaceToBatchND_bprop.mindir +28 -0
mindspore/ops/bprop_mindir/SpaceToDepth_bprop.mindir +23 -0
mindspore/ops/bprop_mindir/SparseGatherV2_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/SparseSoftmaxCrossEntropyWithLogits_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Split_bprop.mindir +22 -0
mindspore/ops/bprop_mindir/Squeeze_bprop.mindir +54 -0
mindspore/ops/bprop_mindir/StridedSliceGrad_bprop.mindir +95 -0
mindspore/ops/bprop_mindir/StridedSlice_bprop.mindir +98 -0
mindspore/ops/bprop_mindir/Switch_bprop.mindir +28 -32
mindspore/ops/bprop_mindir/TanhGrad_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/Tanh_bprop.mindir +66 -0
mindspore/ops/bprop_mindir/TensorScatterAdd_bprop.mindir +22 -0
mindspore/ops/bprop_mindir/TensorScatterUpdate_bprop.mindir +29 -0
mindspore/ops/bprop_mindir/TensorShape_bprop.mindir +14 -0
mindspore/ops/bprop_mindir/Tile_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/TopK_bprop.mindir +0 -0
mindspore/ops/bprop_mindir/TransShape_bprop.mindir +23 -0
mindspore/ops/bprop_mindir/TruncateDiv_bprop.mindir +18 -15
mindspore/ops/bprop_mindir/TupleGetItem_bprop.mindir +11 -13
mindspore/ops/bprop_mindir/Unique_bprop.mindir +16 -0
mindspore/ops/bprop_mindir/Unstack_bprop.mindir +22 -0
mindspore/ops/bprop_mindir/UpsampleNearest3D_bprop.mindir +32 -0
mindspore/ops/bprop_mindir/UpsampleTrilinear3D_bprop.mindir +38 -0
mindspore/ops/bprop_mindir/ZerosLike_bprop.mindir +13 -12
mindspore/ops/bprop_mindir/__init__.py +1 -4
mindspore/ops/bprop_mindir/generate_mindir.py +32 -20
mindspore/ops/composite/__init__.py +12 -13
mindspore/ops/composite/base.py +261 -254
mindspore/ops/composite/env_ops.py +41 -0
mindspore/ops/composite/math_ops.py +197 -156
mindspore/ops/composite/multitype_ops/_compile_utils.py +428 -176
mindspore/ops/composite/multitype_ops/_constexpr_utils.py +188 -87
mindspore/ops/composite/multitype_ops/add_impl.py +23 -1
mindspore/ops/composite/multitype_ops/div_impl.py +3 -3
mindspore/ops/composite/multitype_ops/equal_impl.py +1 -0
mindspore/ops/composite/multitype_ops/floordiv_impl.py +1 -1
mindspore/ops/composite/multitype_ops/getitem_impl.py +52 -5
mindspore/ops/composite/multitype_ops/greater_equal_impl.py +31 -0
mindspore/ops/composite/multitype_ops/greater_impl.py +31 -0
mindspore/ops/composite/multitype_ops/in_impl.py +15 -3
mindspore/ops/composite/multitype_ops/less_equal_impl.py +33 -2
mindspore/ops/composite/multitype_ops/less_impl.py +33 -0
mindspore/ops/composite/multitype_ops/logical_and_impl.py +2 -2
mindspore/ops/composite/multitype_ops/logical_or_impl.py +2 -1
mindspore/ops/composite/multitype_ops/mod_impl.py +1 -1
mindspore/ops/composite/multitype_ops/mul_impl.py +21 -7
mindspore/ops/composite/multitype_ops/not_in_impl.py +15 -3
mindspore/ops/composite/multitype_ops/ones_like_impl.py +2 -4
mindspore/ops/composite/multitype_ops/pow_impl.py +1 -0
mindspore/ops/composite/multitype_ops/setitem_impl.py +62 -70
mindspore/ops/composite/multitype_ops/sub_impl.py +3 -3
mindspore/ops/composite/multitype_ops/zeros_like_impl.py +41 -4
mindspore/ops/function/__init__.py +323 -8
mindspore/ops/function/array_func.py +3511 -780
mindspore/ops/function/clip_func.py +329 -0
mindspore/ops/function/debug_func.py +6 -6
mindspore/ops/function/grad/__init__.py +5 -1
mindspore/ops/function/grad/grad_func.py +736 -65
mindspore/ops/function/image_func.py +270 -0
mindspore/ops/function/linalg_func.py +268 -8
mindspore/ops/function/math_func.py +8032 -3164
mindspore/ops/function/nn_func.py +5619 -1855
mindspore/ops/function/other_func.py +115 -0
mindspore/ops/function/parameter_func.py +11 -10
mindspore/ops/function/random_func.py +939 -77
mindspore/ops/function/sparse_func.py +249 -84
mindspore/ops/function/sparse_unary_func.py +2303 -0
mindspore/ops/function/spectral_func.py +146 -0
mindspore/ops/function/vmap_func.py +114 -0
mindspore/ops/functional.py +182 -254
mindspore/ops/op_info_register.py +79 -34
mindspore/ops/operations/__init__.py +210 -118
mindspore/ops/operations/_csr_ops.py +7 -7
mindspore/ops/operations/_embedding_cache_ops.py +25 -15
mindspore/ops/operations/_grad_ops.py +447 -322
mindspore/ops/operations/_inner_ops.py +547 -176
mindspore/ops/operations/_map_tensor_ops.py +112 -0
mindspore/ops/operations/_ms_kernel.py +29 -27
mindspore/ops/operations/_ocr_ops.py +11 -11
mindspore/ops/operations/_opaque_predicate_registry.py +41 -0
mindspore/ops/operations/_quant_ops.py +186 -101
mindspore/ops/operations/_rl_inner_ops.py +122 -61
mindspore/ops/operations/_scalar_ops.py +466 -0
mindspore/ops/operations/_sequence_ops.py +1047 -0
mindspore/ops/operations/_tensor_array.py +10 -11
mindspore/ops/operations/_thor_ops.py +4 -4
mindspore/ops/operations/array_ops.py +1428 -1226
mindspore/ops/operations/comm_ops.py +180 -117
mindspore/ops/operations/control_ops.py +4 -2
mindspore/ops/operations/custom_ops.py +185 -98
mindspore/ops/operations/debug_ops.py +92 -54
mindspore/ops/operations/image_ops.py +406 -211
mindspore/ops/operations/inner_ops.py +42 -53
mindspore/ops/operations/linalg_ops.py +32 -29
mindspore/ops/operations/math_ops.py +2076 -897
mindspore/ops/operations/nn_ops.py +1282 -1252
mindspore/ops/operations/other_ops.py +124 -278
mindspore/ops/operations/random_ops.py +345 -178
mindspore/ops/operations/rl_ops.py +8 -9
mindspore/ops/operations/sparse_ops.py +502 -157
mindspore/ops/operations/spectral_ops.py +107 -0
mindspore/ops/primitive.py +192 -15
mindspore/ops/vm_impl_registry.py +23 -2
mindspore/parallel/__init__.py +6 -1
mindspore/parallel/_auto_parallel_context.py +199 -92
mindspore/parallel/_cell_wrapper.py +4 -2
mindspore/parallel/_cost_model_context.py +3 -0
mindspore/parallel/_dp_allreduce_fusion.py +2 -1
mindspore/parallel/_offload_context.py +185 -0
mindspore/parallel/_parallel_serialization.py +167 -28
mindspore/parallel/_ps_context.py +9 -5
mindspore/parallel/_recovery_context.py +1 -1
mindspore/parallel/_tensor.py +9 -1
mindspore/{nn/transformer → parallel/_transformer}/__init__.py +6 -6
mindspore/{nn/transformer → parallel/_transformer}/layers.py +59 -37
mindspore/{nn/transformer → parallel/_transformer}/loss.py +4 -7
mindspore/{nn/transformer → parallel/_transformer}/moe.py +160 -35
mindspore/{nn/transformer → parallel/_transformer}/op_parallel_config.py +3 -3
mindspore/{nn/transformer → parallel/_transformer}/transformer.py +235 -196
mindspore/parallel/_utils.py +47 -7
mindspore/parallel/algo_parameter_config.py +5 -1
mindspore/parallel/checkpoint_transform.py +329 -0
mindspore/parallel/shard.py +229 -0
mindspore/perf_msvcbuildinsights.dll +0 -0
mindspore/pgodb140.dll +0 -0
mindspore/pgort140.dll +0 -0
mindspore/profiler/__init__.py +2 -1
mindspore/profiler/common/util.py +4 -3
mindspore/profiler/common/validator/validate_path.py +2 -2
mindspore/profiler/envprofiling.py +249 -0
mindspore/profiler/parser/aicpu_data_parser.py +38 -39
mindspore/profiler/parser/ascend_timeline_generator.py +497 -0
mindspore/profiler/parser/base_timeline_generator.py +471 -0
mindspore/profiler/parser/cpu_gpu_timeline_generator.py +684 -0
mindspore/profiler/parser/framework_parser.py +42 -16
mindspore/profiler/parser/hccl_parser.py +158 -158
mindspore/profiler/parser/hwts_log_parser.py +7 -6
mindspore/profiler/parser/integrator.py +18 -1579
mindspore/profiler/parser/minddata_analyzer.py +8 -8
mindspore/profiler/parser/msadvisor_analyzer.py +14 -27
mindspore/profiler/parser/msadvisor_parser.py +2 -4
mindspore/profiler/parser/optime_parser.py +17 -18
mindspore/profiler/parser/profiler_info.py +108 -0
mindspore/profiler/parser/step_trace_parser.py +1 -1
mindspore/profiler/profiling.py +396 -194
mindspore/rewrite/__init__.py +6 -2
mindspore/rewrite/api/node.py +51 -110
mindspore/rewrite/api/node_type.py +10 -6
mindspore/rewrite/api/pattern_engine.py +51 -7
mindspore/rewrite/api/scoped_value.py +64 -53
mindspore/rewrite/api/symbol_tree.py +108 -61
mindspore/rewrite/api/tree_node_helper.py +2 -3
mindspore/{compression/quant/__init__.py → rewrite/ast_creator_register.py} +20 -11
mindspore/rewrite/ast_helpers/__init__.py +6 -3
mindspore/rewrite/ast_helpers/ast_creator.py +115 -0
mindspore/rewrite/ast_helpers/ast_finder.py +99 -1
mindspore/rewrite/ast_helpers/ast_modifier.py +17 -4
mindspore/rewrite/ast_helpers/ast_replacer.py +1 -1
mindspore/rewrite/ast_transformers/__init__.py +0 -1
mindspore/rewrite/ast_transformers/flatten_recursive_stmt.py +46 -5
mindspore/rewrite/ast_transformers/remove_return_out_of_if.py +6 -3
mindspore/rewrite/common/__init__.py +2 -0
mindspore/rewrite/common/event.py +1 -1
mindspore/rewrite/common/observable.py +1 -1
mindspore/rewrite/common/observer.py +1 -1
mindspore/rewrite/common/rewrite_elog.py +35 -0
mindspore/rewrite/namer.py +2 -2
mindspore/rewrite/namespace.py +14 -4
mindspore/rewrite/node.py +161 -13
mindspore/rewrite/parser.py +0 -1
mindspore/rewrite/parser_register.py +0 -1
mindspore/rewrite/parsers/arguments_parser.py +3 -2
mindspore/rewrite/parsers/assign_parser.py +267 -67
mindspore/rewrite/parsers/attribute_parser.py +56 -0
mindspore/rewrite/parsers/class_def_parser.py +191 -108
mindspore/rewrite/parsers/constant_parser.py +101 -0
mindspore/rewrite/parsers/container_parser.py +88 -0
mindspore/rewrite/parsers/for_parser.py +28 -15
mindspore/rewrite/parsers/function_def_parser.py +21 -5
mindspore/rewrite/parsers/if_parser.py +11 -28
mindspore/rewrite/parsers/module_parser.py +9 -6
mindspore/rewrite/parsers/return_parser.py +3 -2
mindspore/rewrite/sparsify/__init__.py +0 -0
mindspore/rewrite/sparsify/sparse_transformer.py +448 -0
mindspore/rewrite/sparsify/sparsify.py +109 -0
mindspore/rewrite/sparsify/utils.py +173 -0
mindspore/rewrite/symbol_tree.py +322 -109
mindspore/rewrite/symbol_tree_builder.py +45 -8
mindspore/rewrite/symbol_tree_dumper.py +0 -1
mindspore/rewrite/topological_manager.py +1 -2
mindspore/run_check/_check_version.py +209 -112
mindspore/run_check/run_check.py +2 -1
mindspore/tbbmalloc.dll +0 -0
mindspore/tinyxml2.dll +0 -0
mindspore/train/__init__.py +6 -4
mindspore/train/_utils.py +28 -5
mindspore/train/amp.py +321 -50
mindspore/train/callback/__init__.py +3 -1
mindspore/train/callback/_backup_and_restore.py +120 -0
mindspore/train/callback/_callback.py +8 -8
mindspore/train/callback/_checkpoint.py +12 -9
mindspore/train/callback/_early_stop.py +13 -7
mindspore/train/callback/_history.py +8 -8
mindspore/train/callback/_lambda_callback.py +6 -6
mindspore/train/callback/_landscape.py +36 -38
mindspore/train/callback/_loss_monitor.py +12 -6
mindspore/train/callback/_lr_scheduler_callback.py +2 -4
mindspore/train/callback/_on_request_exit.py +212 -0
mindspore/train/callback/_reduce_lr_on_plateau.py +13 -7
mindspore/train/callback/_summary_collector.py +27 -19
mindspore/train/callback/_time_monitor.py +13 -7
mindspore/train/checkpoint_pb2.py +68 -8
mindspore/train/data_sink.py +122 -33
mindspore/train/dataset_helper.py +28 -87
mindspore/train/loss_scale_manager.py +4 -7
mindspore/{nn → train}/metrics/__init__.py +20 -20
mindspore/{nn → train}/metrics/accuracy.py +12 -10
mindspore/{nn → train}/metrics/auc.py +4 -4
mindspore/{nn → train}/metrics/bleu_score.py +4 -4
mindspore/{nn → train}/metrics/confusion_matrix.py +10 -8
mindspore/{nn → train}/metrics/cosine_similarity.py +4 -4
mindspore/{nn → train}/metrics/dice.py +6 -5
mindspore/{nn → train}/metrics/error.py +7 -5
mindspore/{nn → train}/metrics/fbeta.py +9 -7
mindspore/{nn → train}/metrics/hausdorff_distance.py +8 -6
mindspore/{nn → train}/metrics/loss.py +4 -3
mindspore/{nn → train}/metrics/mean_surface_distance.py +6 -5
mindspore/{nn → train}/metrics/metric.py +6 -5
mindspore/{nn → train}/metrics/occlusion_sensitivity.py +4 -3
mindspore/{nn → train}/metrics/perplexity.py +5 -4
mindspore/{nn → train}/metrics/precision.py +5 -4
mindspore/{nn → train}/metrics/recall.py +5 -4
mindspore/{nn → train}/metrics/roc.py +7 -6
mindspore/{nn → train}/metrics/root_mean_square_surface_distance.py +6 -5
mindspore/{nn → train}/metrics/topk.py +7 -5
mindspore/train/mind_ir_pb2.py +339 -32
mindspore/train/model.py +113 -84
mindspore/train/serialization.py +547 -167
mindspore/train/summary/_summary_adapter.py +1 -1
mindspore/train/summary/summary_record.py +43 -12
mindspore/train/train_thor/convert_utils.py +7 -1
mindspore/train/train_thor/dataset_helper.py +3 -3
mindspore/train/train_thor/model_thor.py +0 -4
mindspore/turbojpeg.dll +0 -0
mindspore/vcmeta.dll +0 -0
mindspore/vcruntime140.dll +0 -0
mindspore/vcruntime140_1.dll +0 -0
mindspore/version.py +1 -1
{mindspore-1.10.0.dist-info → mindspore-2.0.0rc1.dist-info}/METADATA +4 -3
{mindspore-1.10.0.dist-info → mindspore-2.0.0rc1.dist-info}/RECORD +901 -660
mindspore/compression/common/constant.py +0 -124
mindspore/compression/export/__init__.py +0 -19
mindspore/compression/export/quant_export.py +0 -514
mindspore/compression/quant/qat.py +0 -636
mindspore/compression/quant/quant_utils.py +0 -462
mindspore/compression/quant/quantizer.py +0 -68
mindspore/libatomic-1.dll +0 -0
mindspore/libgcc_s_seh-1.dll +0 -0
mindspore/libgfortran-4.dll +0 -0
mindspore/libgomp-1.dll +0 -0
mindspore/libjpeg-62.dll +0 -0
mindspore/libmindspore.dll +0 -0
mindspore/libmindspore_common.dll +0 -0
mindspore/libmindspore_core.dll +0 -0
mindspore/libmindspore_glog.dll +0 -0
mindspore/libnnacl.dll +0 -0
mindspore/libopencv_core452.dll +0 -0
mindspore/libopencv_imgcodecs452.dll +0 -0
mindspore/libopencv_imgproc452.dll +0 -0
mindspore/libquadmath-0.dll +0 -0
mindspore/libsqlite3.dll +0 -0
mindspore/libssp-0.dll +0 -0
mindspore/libstdc++-6.dll +0 -0
mindspore/libtinyxml2.dll +0 -0
mindspore/libturbojpeg.dll +0 -0
mindspore/libwinpthread-1.dll +0 -0
mindspore/nn/layer/quant.py +0 -1868
mindspore/nn/layer/rnn_utils.py +0 -90
mindspore/nn/probability/dpn/__init__.py +0 -22
mindspore/nn/probability/dpn/vae/__init__.py +0 -25
mindspore/nn/probability/dpn/vae/cvae.py +0 -138
mindspore/nn/probability/dpn/vae/vae.py +0 -122
mindspore/nn/probability/infer/__init__.py +0 -22
mindspore/nn/probability/infer/variational/elbo.py +0 -70
mindspore/nn/probability/infer/variational/svi.py +0 -84
mindspore/nn/probability/toolbox/__init__.py +0 -22
mindspore/nn/probability/toolbox/anomaly_detection.py +0 -99
mindspore/nn/probability/toolbox/uncertainty_evaluation.py +0 -363
mindspore/nn/probability/transforms/__init__.py +0 -22
mindspore/nn/probability/transforms/transform_bnn.py +0 -262
mindspore/nn/probability/zhusuan/__init__.py +0 -18
mindspore/nn/probability/zhusuan/framework/__init__.py +0 -18
mindspore/nn/probability/zhusuan/framework/bn.py +0 -95
mindspore/nn/probability/zhusuan/variational/__init__.py +0 -18
mindspore/nn/probability/zhusuan/variational/elbo.py +0 -46
mindspore/ops/_op_impl/tbe/bias_add_grad_ds.py +0 -52
mindspore/ops/_op_impl/tbe/scatter_nd_add_ds.py +0 -43
mindspore/ops/bprop_mindir/AssignAdd_bprop.mindir +0 -20
mindspore/ops/bprop_mindir/Identity_bprop.mindir +0 -9
mindspore/ops/bprop_mindir/LogicalOr_bprop.mindir +0 -20
mindspore/ops/bprop_mindir/ReLU_bprop.mindir +0 -16
mindspore/ops/bprop_mindir/UpdateState_bprop.mindir +0 -17
mindspore/ops/bprop_mindir/stop_gradient_bprop.mindir +0 -12
mindspore/ops/composite/array_ops.py +0 -210
mindspore/ops/composite/clip_ops.py +0 -238
mindspore/ops/composite/random_ops.py +0 -426
mindspore/ops/composite/vmap_ops.py +0 -38
mindspore/ops/operations/sponge_ops.py +0 -3531
mindspore/ops/operations/sponge_update_ops.py +0 -2546
mindspore/parallel/nn/__init__.py +0 -42
mindspore/parallel/nn/loss.py +0 -22
mindspore/parallel/nn/moe.py +0 -21
mindspore/parallel/nn/op_parallel_config.py +0 -22
mindspore/parallel/nn/transformer.py +0 -31
mindspore/run_check/_check_deps_version.py +0 -84
{mindspore-1.10.0.dist-info → mindspore-2.0.0rc1.dist-info}/WHEEL +0 -0
{mindspore-1.10.0.dist-info → mindspore-2.0.0rc1.dist-info}/entry_points.txt +0 -0
{mindspore-1.10.0.dist-info → mindspore-2.0.0rc1.dist-info}/top_level.txt +0 -0

mindspore/nn/layer/transformer.py ADDED Viewed

@@ -0,0 +1,701 @@
+# Copyright 2022 Huawei Technologies Co., Ltd
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+# http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+# ============================================================================
+"""
+Transformer Cells module, include TransformerEncoderLayer, TransformerDecoderLayer,
+TransformerEncoder, TransformerDecoder, Transformer.
+"""
+import copy
+import math
+from typing import Union, Optional
+import mindspore
+import mindspore.ops as ops
+from mindspore.common.tensor import Tensor
+from mindspore.common.parameter import Parameter
+from mindspore.common.initializer import initializer, XavierNormal, XavierUniform, \
+    HeUniform, Uniform, _calculate_fan_in_and_fan_out
+from mindspore.ops.function.nn_func import multi_head_attention_forward
+from mindspore.nn.cell import Cell
+from .basic import Dense, Dropout
+from .activation import ReLU, GELU
+from .normalization import LayerNorm
+from .container import CellList
+__all__ = ['MultiheadAttention', 'TransformerEncoderLayer', 'TransformerDecoderLayer',
+           'TransformerEncoder', 'TransformerDecoder', 'Transformer']
+class _Linear(Dense):
+    def __init__(self, in_channels, out_channels, has_bias=True):
+        fan_in, _ = _calculate_fan_in_and_fan_out((out_channels, in_channels))
+        bound = 1 / math.sqrt(fan_in)
+        super().__init__(in_channels, out_channels, weight_init=HeUniform(math.sqrt(5)),
+                         bias_init=Uniform(bound), has_bias=has_bias, activation=None)
+class MultiheadAttention(Cell):
+    r"""
+    This is an implementation of multihead attention in the paper `Attention is all you need
+    <https://arxiv.org/pdf/1706.03762v5.pdf>`_. Given the query vector with source length, and the
+    key and value vector with target length, the attention will be performed as the following
+    .. math::
+        MultiHeadAttention(query, key, vector) = Concat(head_1, \dots, head_h)W^O
+    where :math:`head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)`. The default is with a bias.
+    if query, key and value tensor is same, then it will be self attention.
+    Args:
+        embed_dim (int): Total dimension of MultiheadAttention.
+        num_heads (int): Number of attention heads. Note that `embed_dim` will be split
+            across `num_heads` (i.e. each head will have dimension `embed_dim // num_heads`).
+        dropout (float): Dropout probability of `attn_output_weights`. Default: ``0.0``.
+        has_bias (bool): Whether adds bias to input / output projection layers. Default: ``True``.
+        add_bias_kv (bool): Whether adds bias to the key and value sequences at axis=0. Default: ``False``.
+        add_zero_attn (bool): Whether adds a new batch of zeros to the key and value sequences at axis=1.
+            Default: ``False``.
+        kdim (int): Total number of features for keys. Default: ``None`` (`kdim=embed_dim`).
+        vdim (int): Total number of features for values. Default: ``None`` (`vdim=embed_dim`).
+        batch_first (bool): If ``True``, then the input and output shape are :math:`(batch, seq, feature)` ,
+            else :math:`(seq, batch, feature)` . Default: ``False``.
+    Inputs:
+        - **query** (Tensor): The query embeddings. If `query` is unbatched, the shape is :math:`(L, E_q)`,
+          otherwise the shape is :math:`(L, N, E_q)` when `batch_first=False` or :math:`(N, L, E_q)` when
+          `batch_first=True`, where :math:`L`is the target sequence length, :math:`N` is the batch size,
+          and :math:`E_q` is the query embedding dimension `embed_dim`. Queries are compared against
+          key-value pairs to produce the output. See "Attention Is All You Need" for more details.
+        - **key** (Tensor): The key embeddings. If `key` is unbatched, the shape is :math:`(S, E_k)`, otherwise
+          the shape is :math:`(S, N, E_k)` when `batch_first=False` or :math:`(N, S, E_k)` when
+          `batch_first=True`, where :math:`S` is the source sequence length, :math:`N` is the batch size,
+          and :math:`E_k` is the key embedding dimension `kdim`. See "Attention Is All You Need" for more details.
+        - **value** (Tensor): The value embeddings. If `value` is unbatched, the shape is :math:`(S, E_v)`,
+          otherwise the shape is :math:`(S, N, E_v)` when `batch_first=False` or :math:`(N, S, E_v)` when
+          `batch_first=True`, where :math:`S` is the source sequence length, :math:`N` is the batch size,
+          and :math:`E_v` is the value embedding dimension `vdim`. See "Attention Is All You Need" for more details.
+        - **key_padding_mask** (Tensor, optional): If specified, a mask of shape :math:`(N, S)` indicating which
+          elements within `key` to ignore for the purpose of attention (i.e. treat as "padding").
+          For unbatched `query`, shape should be :math:`(S)`. Binary and byte masks are supported.
+          For a binary mask, a ``True`` value indicates that the corresponding `key` value will be ignored for
+          the purpose of attention. For a float mask, it will be directly added to the corresponding `key` value.
+        - **need_weights** (bool): Whether returns `attn_output_weights` in addition to `attn_outputs`.
+          Default: ``True``.
+        - **attn_mask** (Tensor, optional): If specified, a 2D or 3D mask preventing attention to certain positions.
+          Must be of shape :math:`(L, S)` or :math:`(N\cdot\text{num\_heads}, L, S)`, where :math:`N` is the
+          batch size, :math:`L` is the target sequence length, and :math:`S` is the source sequence length.
+          A 2D mask will be broadcasted across the batch while a 3D mask allows for a different mask for each entry
+          in the batch. Binary, byte, and float masks are supported. For a binary mask, a ``True`` value indicates
+          that the corresponding position is not allowed to attend. For a byte mask, a non-zero value indicates that
+          the corresponding position is not allowed to attend. For a float mask, the mask values will be added to
+          the attention weight.
+        - **average_attn_weights** (bool): If true, indicates that the returned `attn_weights` should be averaged
+          across heads. Otherwise, `attn_weights` are provided separately per head. Note that this flag only
+          has an effect when `need_weights=True`. Default: ``True`` (i.e. average weights across heads)
+    Outputs:
+        Tuple, a tuple contains(`attn_output`, `attn_output_weights`)
+        - **attn_output** - Attention outputs. If input is unbatched, the output shape is :math:`(L, E)`, otherwise
+          the output shape is :math:`(L, N, E)` when `batch_first=False` or :math:`(N, L, E)` when
+          `batch_first=True`, where :math:`L` is the target sequence length, :math:`N` is the batch size,
+          and :math:`E` is the embedding dimension `embed_dim`.
+        - **attn_output_weights** - Only returned when `need_weights=True`. If `average_attn_weights=True`,
+          returns attention weights averaged across heads with shape :math:`(L, S)` when input is unbatched or
+          :math:`(N, L, S)` when input is batched, where :math:`N` is the batch size, :math:`L` is
+          the target sequence length, and :math:`S` is the source sequence length.
+          If `average_attn_weights=False`, returns attention weights per
+          head of shape :math:`(\text{num\_heads}, L, S)` when input is unbatched or
+          :math:`(N, \text{num\_heads}, L, S)` when input is batched.
+    Supported Platforms:
+        ``Ascend`` ``GPU`` ``CPU``
+    Examples:
+        >>> embed_dim, num_heads = 128, 8
+        >>> seq_length, batch_size = 10, 8
+        >>> query = Tensor(np.random.randn(seq_length, batch_size, embed_dim), mindspore.float32)
+        >>> key = Tensor(np.random.randn(seq_length, batch_size, embed_dim), mindspore.float32)
+        >>> value = Tensor(np.random.randn(seq_length, batch_size, embed_dim), mindspore.float32)
+        >>> multihead_attn = nn.MultiheadAttention(embed_dim, num_heads)
+        >>> attn_output, attn_output_weights = multihead_attn(query, key, value)
+        >>> print(attn_output.shape)
+        (10, 8, 128)
+    """
+    def __init__(self, embed_dim, num_heads, dropout=0., has_bias=True, add_bias_kv=False,
+                 add_zero_attn=False, kdim=None, vdim=None, batch_first=False):
+        super().__init__()
+        self.embed_dim = embed_dim
+        self.kdim = kdim if kdim is not None else embed_dim
+        self.vdim = vdim if vdim is not None else embed_dim
+        self._qkv_same_embed_dim = self.kdim == embed_dim and self.vdim == embed_dim
+        self.num_heads = num_heads
+        self.dropout = dropout
+        self.batch_first = batch_first
+        self.head_dim = embed_dim // num_heads
+        if self.head_dim * num_heads != self.embed_dim:
+            raise ValueError("The init argument 'embed_dim' must be divisible by 'num_heads'.")
+        if not self._qkv_same_embed_dim:
+            self.q_proj_weight = Parameter(initializer(XavierUniform(), (embed_dim, embed_dim)), 'q_proj_weight')
+            self.k_proj_weight = Parameter(initializer(XavierUniform(), (embed_dim, self.kdim)), 'k_proj_weight')
+            self.v_proj_weight = Parameter(initializer(XavierUniform(), (embed_dim, self.vdim)), 'v_proj_weight')
+            self.in_proj_weight = None
+        else:
+            self.in_proj_weight = Parameter(initializer(XavierUniform(), (3 * embed_dim, embed_dim)), 'in_proj_weight')
+            self.q_proj_weight = None
+            self.k_proj_weight = None
+            self.v_proj_weight = None
+        if has_bias:
+            self.in_proj_bias = Parameter(initializer('zeros', (3 * embed_dim)), 'in_proj_bias')
+        else:
+            self.in_proj_bias = None
+        self.out_proj = _Linear(embed_dim, embed_dim, has_bias=has_bias)
+        if add_bias_kv:
+            self.bias_k = Parameter(initializer(XavierNormal(), (1, 1, embed_dim)), 'bias_k')
+            self.bias_v = Parameter(initializer(XavierNormal(), (1, 1, embed_dim)), 'bias_v')
+        else:
+            self.bias_k = self.bias_v = None
+        self.add_zero_attn = add_zero_attn
+        self.k_is_v = False
+        self.q_is_k = False
+    def __call__(self, *args, **kwargs):
+        query = kwargs.get('query', args[0])
+        key = kwargs.get('key', args[1])
+        value = kwargs.get('value', args[2])
+        self.k_is_v = key is value
+        self.q_is_k = query is key
+        return super().__call__(*args, **kwargs)
+    def construct(self, query: Tensor, key: Tensor, value: Tensor, key_padding_mask: Optional[Tensor] = None,
+                  need_weights: bool = True, attn_mask: Optional[Tensor] = None, average_attn_weights: bool = True):
+        is_batched = query.ndim == 3
+        if key_padding_mask is not None:
+            _kpm_dtype = key_padding_mask.dtype
+            if _kpm_dtype != mindspore.bool_ and not ops.is_floating_point(key_padding_mask):
+                raise ValueError(
+                    "only bool and floating types of key_padding_mask are supported")
+        if self.batch_first and is_batched:
+            # k_is_v and q_is_k preprocess in __call__ since Graph mode do not support `is`
+            if self.k_is_v:
+                if self.q_is_k:
+                    query = key = value = query.swapaxes(1, 0)
+                else:
+                    query, key = [x.swapaxes(1, 0) for x in (query, key)]
+                    value = key
+            else:
+                query, key, value = [x.swapaxes(1, 0) for x in (query, key, value)]
+        if not self._qkv_same_embed_dim:
+            attn_output, attn_output_weights = multi_head_attention_forward(
+                query, key, value, self.embed_dim, self.num_heads,
+                self.in_proj_weight, self.in_proj_bias,
+                self.bias_k, self.bias_v, self.add_zero_attn,
+                self.dropout, self.out_proj.weight, self.out_proj.bias,
+                training=self.training,
+                key_padding_mask=key_padding_mask,
+                attn_mask=attn_mask, use_separate_proj_weight=True,
+                q_proj_weight=self.q_proj_weight, k_proj_weight=self.k_proj_weight,
+                v_proj_weight=self.v_proj_weight, average_attn_weights=average_attn_weights,
+                k_is_v=self.k_is_v, q_is_k=self.q_is_k)
+        else:
+            attn_output, attn_output_weights = multi_head_attention_forward(
+                query, key, value, self.embed_dim, self.num_heads,
+                self.in_proj_weight, self.in_proj_bias,
+                self.bias_k, self.bias_v, self.add_zero_attn,
+                self.dropout, self.out_proj.weight, self.out_proj.bias,
+                training=self.training,
+                key_padding_mask=key_padding_mask,
+                attn_mask=attn_mask, average_attn_weights=average_attn_weights,
+                k_is_v=self.k_is_v, q_is_k=self.q_is_k)
+        if self.batch_first and is_batched:
+            attn_output = attn_output.swapaxes(1, 0)
+        if need_weights:
+            return attn_output, attn_output_weights
+        return (attn_output,)
+class TransformerEncoderLayer(Cell):
+    r"""
+    Transformer Encoder Layer. This is an implementation of the single layer of the transformer
+    encoder layer, including multihead attention and feedward layer.
+    Args:
+        d_model (int): The number of features in the input tensor.
+        nhead (int): The number of heads in the MultiheadAttention modules.
+        dim_feedforward (int): The dimension of the feedforward layer. Default: ``2048``.
+        dropout (float): The dropout value. Default: ``0.1``.
+        activation (Union[str, callable, Cell]): The activation function of the intermediate layer,
+            can be a string (`"relu"` or `"gelu"`), Cell instance (`nn.ReLU()` or `nn.GELU()`) or
+            a callable (`ops.relu` or `ops.gelu`). Default: ``"relu"``.
+        layer_norm_eps (float): The epsilon value in LayerNorm modules. Default: ``1e-5``.
+        batch_first (bool): If `batch_first = True`, then the shape of input and output tensors is
+             :math:`(batch, seq, feature)` , otherwise the shape is :math:`(seq, batch, feature)` .
+            Default: ``False``.
+        norm_first (bool): If `norm_first = True`, layer norm is done prior to attention and feedforward
+            operations, respectively. Default: ``False``.
+    Inputs:
+        - **src** (Tensor): the sequence to the encoder layer.
+        - **src_mask** (Tensor, optional): the mask for the src sequence. Default: ``None``.
+        - **src_key_padding_mask** (Tensor, optional): the mask for the src keys per batch.
+          Default: ``None``.
+    Outputs:
+        Tensor.
+    Supported Platforms:
+        ``Ascend`` ``GPU`` ``CPU``
+    Examples:
+        >>> encoder_layer = nn.TransformerEncoderLayer(d_model=512, nhead=8)
+        >>> src = Tensor(np.random.rand(10, 32, 512), mindspore.float32)
+        >>> out = encoder_layer(src)
+        >>> # Alternatively, when batch_first=True:
+        >>> encoder_layer = nn.TransformerEncoderLayer(d_model=512, nhead=8, batch_first=True)
+        >>> src = Tensor(np.random.rand(32, 10, 512), mindspore.float32)
+        >>> out = encoder_layer(src)
+        >>> print(out.shape)
+        (32, 10, 512)
+    """
+    __constants__ = ['batch_first', 'norm_first']
+    def __init__(self, d_model: int, nhead: int, dim_feedforward: int = 2048, dropout: float = 0.1,
+                 activation: Union[str, Cell, callable] = 'relu', layer_norm_eps: float = 1e-5,
+                 batch_first: bool = False, norm_first: bool = False):
+        super().__init__()
+        self.self_attn = MultiheadAttention(d_model, nhead, dropout=dropout, batch_first=batch_first)
+        # feedforward layer
+        self.linear1 = _Linear(d_model, dim_feedforward)
+        self.dropout = Dropout(p=dropout)
+        self.linear2 = _Linear(dim_feedforward, d_model)
+        self.norm_first = norm_first
+        self.norm1 = LayerNorm((d_model,), epsilon=layer_norm_eps)
+        self.norm2 = LayerNorm((d_model,), epsilon=layer_norm_eps)
+        self.dropout1 = Dropout(p=dropout)
+        self.dropout2 = Dropout(p=dropout)
+        if not isinstance(activation, str) and not isinstance(activation, Cell) \
+            and not callable(activation):
+            raise ValueError(f"The argument 'activation' must be str, callable or Cell instance,"
+                             f" but get {activation}.")
+        if isinstance(activation, Cell) and (not isinstance(activation, ReLU) or \
+                                             not isinstance(activation, GELU)):
+            raise ValueError(f"The argument 'activation' must be nn.ReLU or nn.GELU instance,"
+                             f" but get {activation}.")
+        if callable(activation) and (activation is not ops.relu or \
+                                     activation is not ops.gelu):
+            raise ValueError(f"The argument 'activation' must be ops.relu or ops.gelu instance,"
+                             f" but get {activation}.")
+        # string inputs of activation
+        if isinstance(activation, str):
+            activation = _get_activation_fn(activation)
+        self.activation = activation
+    def construct(self, src: Tensor, src_mask: Optional[Tensor] = None,
+                  src_key_padding_mask: Optional[Tensor] = None):
+        if src_key_padding_mask is not None:
+            _skpm_dtype = src_key_padding_mask.dtype
+            if _skpm_dtype != mindspore.bool_ and not ops.is_floating_point(src_key_padding_mask):
+                raise AssertionError(
+                    "only bool and floating types of key_padding_mask are supported")
+        x = src
+        if self.norm_first:
+            x = x + self._sa_block(self.norm1(x), src_mask, src_key_padding_mask)
+            x = x + self._ff_block(self.norm2(x))
+        else:
+            x = self.norm1(x + self._sa_block(x, src_mask, src_key_padding_mask))
+            x = self.norm2(x + self._ff_block(x))
+        return x
+    def _sa_block(self, x, attn_mask, key_padding_mask):
+        x = self.self_attn(x, x, x,
+                           attn_mask=attn_mask,
+                           key_padding_mask=key_padding_mask,
+                           need_weights=False)[0]
+        return self.dropout1(x)
+    def _ff_block(self, x):
+        x = self.linear2(self.dropout(self.activation(self.linear1(x))))
+        return self.dropout2(x)
+class TransformerDecoderLayer(Cell):
+    r"""
+    Transformer Decoder Layer. This is an implementation of the single layer of the transformer
+    decoder layer, including self-attention, cross attention and feedward layer.
+    Args:
+        d_model (int): The number of expected features in the input tensor.
+        nhead (int): The number of heads in the MultiheadAttention modules.
+        dim_feedforward (int): The dimension of the feedforward layer. Default: ``2048``.
+        dropout (float): The dropout value. Default: ``0.1``.
+        activation (Union[str, callable, Cell]): The activation function of the intermediate layer,
+            can be a string (`"relu"` or `"gelu"`), Cell instance (`nn.ReLU()` or `nn.GELU()`) or
+            a callable (`ops.relu` or `ops.gelu`). Default: ``"relu"``
+        layer_norm_eps (float): The epsilon value in LayerNorm modules. Default: ``1e-5``.
+        batch_first (bool): If `batch_first = True`, then the shape of input and output tensors is
+            :math:`(batch, seq, feature)` , otherwise the shape is :math:`(seq, batch, feature)`.
+            Default: ``False``.
+        norm_first (bool): If `norm_first = True`, layer norm is done prior to attention and feedforward
+            operations, respectively. Default: ``False``.
+    Inputs:
+        - **tgt** (Tensor): The sequence to the decoder layer.
+        - **memory** (Tensor): The sequence from the last layer of the encoder.
+        - **tgt_mask** (Tensor, optional): The mask of the tgt sequence. Default: ``None``.
+        - **memory_mask** (Tensor, optional): The mask of the memory sequence. Default: ``None``.
+        - **tgt_key_padding_mask** (Tensor, optional): The mask of the tgt keys per batch.
+          Default: ``None``.
+        - **memory_key_padding_mask** (Tensor, optional): The mask of the memory keys per batch.
+          Default: ``None``.
+    Outputs:
+        Tensor.
+    Supported Platforms:
+        ``Ascend`` ``GPU`` ``CPU``
+    Examples:
+        >>> decoder_layer = nn.TransformerDecoderLayer(d_model=512, nhead=8)
+        >>> memory = Tensor(np.random.rand(10, 32, 512), mindspore.float32)
+        >>> tgt = Tensor(np.random.rand(20, 32, 512), mindspore.float32)
+        >>> out = decoder_layer(tgt, memory)
+        >>> # Alternatively, when `batch_first` is ``True``:
+        >>> decoder_layer = nn.TransformerDecoderLayer(d_model=512, nhead=8, batch_first=True)
+        >>> memory = Tensor(np.random.rand(32, 10, 512), mindspore.float32)
+        >>> tgt = Tensor(np.random.rand(32, 20, 512), mindspore.float32)
+        >>> out = decoder_layer(tgt, memory)
+        >>> print(out.shape)
+        (32, 20, 512)
+    """
+    __constants__ = ['batch_first', 'norm_first']
+    def __init__(self, d_model: int, nhead: int, dim_feedforward: int = 2048, dropout: float = 0.1,
+                 activation: Union[str, Cell, callable] = 'relu', layer_norm_eps: float = 1e-5,
+                 batch_first: bool = False, norm_first: bool = False):
+        super().__init__()
+        self.self_attn = MultiheadAttention(d_model, nhead, dropout=dropout, batch_first=batch_first)
+        self.multihead_attn = MultiheadAttention(d_model, nhead, dropout=dropout, batch_first=batch_first)
+        # feedforward layer
+        self.linear1 = _Linear(d_model, dim_feedforward)
+        self.dropout = Dropout(p=dropout)
+        self.linear2 = _Linear(dim_feedforward, d_model)
+        self.norm_first = norm_first
+        self.norm1 = LayerNorm((d_model,), epsilon=layer_norm_eps)
+        self.norm2 = LayerNorm((d_model,), epsilon=layer_norm_eps)
+        self.norm3 = LayerNorm((d_model,), epsilon=layer_norm_eps)
+        self.dropout1 = Dropout(p=dropout)
+        self.dropout2 = Dropout(p=dropout)
+        self.dropout3 = Dropout(p=dropout)
+        if not isinstance(activation, str) and not isinstance(activation, Cell) \
+            and not callable(activation):
+            raise ValueError(f"The argument 'activation' must be str, callable or Cell instance,"
+                             f" but get {activation}.")
+        if isinstance(activation, Cell) and (not isinstance(activation, ReLU) or \
+                                             not isinstance(activation, GELU)):
+            raise ValueError(f"The argument 'activation' must be nn.ReLU or nn.GELU instance,"
+                             f" but get {activation}.")
+        if callable(activation) and (activation is not ops.relu or \
+                                     activation is not ops.gelu):
+            raise ValueError(f"The argument 'activation' must be ops.relu or ops.gelu instance,"
+                             f" but get {activation}.")
+        # string inputs of activation
+        if isinstance(activation, str):
+            activation = _get_activation_fn(activation)
+        self.activation = activation
+    def construct(self, tgt: Tensor, memory: Tensor, tgt_mask: Optional[Tensor] = None,
+                  memory_mask: Optional[Tensor] = None, tgt_key_padding_mask: Optional[Tensor] = None,
+                  memory_key_padding_mask: Optional[Tensor] = None):
+        x = tgt
+        if self.norm_first:
+            x = x + self._sa_block(self.norm1(x), tgt_mask, tgt_key_padding_mask)
+            x = x + self._mha_block(self.norm2(x), memory, memory_mask, memory_key_padding_mask)
+            x = x + self._ff_block(self.norm3(x))
+        else:
+            x = self.norm1(x + self._sa_block(x, tgt_mask, tgt_key_padding_mask))
+            x = self.norm2(x + self._mha_block(x, memory, memory_mask, memory_key_padding_mask))
+            x = self.norm3(x + self._ff_block(x))
+        return x
+    def _sa_block(self, x, attn_mask, key_padding_mask):
+        x = self.self_attn(x, x, x,
+                           attn_mask=attn_mask,
+                           key_padding_mask=key_padding_mask,
+                           need_weights=False)[0]
+        return self.dropout1(x)
+    def _mha_block(self, x, mem, attn_mask, key_padding_mask):
+        x = self.multihead_attn(x, mem, mem,
+                                attn_mask=attn_mask,
+                                key_padding_mask=key_padding_mask,
+                                need_weights=False)[0]
+        return self.dropout2(x)
+    def _ff_block(self, x):
+        x = self.linear2(self.dropout(self.activation(self.linear1(x))))
+        return self.dropout3(x)
+class TransformerEncoder(Cell):
+    r"""
+    Transformer Encoder module with multi-layer stacked of `TransformerEncoderLayer`, including multihead self
+    attention and feedforward layer. Users can build the
+    BERT(https://arxiv.org/abs/1810.04805) model with corresponding parameters.
+    Args:
+        encoder_layer (Cell): An instance of the TransformerEncoderLayer() class.
+        num_layers (int): The number of encoder-layers in the encoder.
+        norm (Cell, optional): The layer normalization module.
+    Inputs:
+        - **src** (Tensor): The sequence to the encoder.
+        - **src_mask** (Tensor, optional): The mask of the src sequence. Default: ``None``.
+        - **src_key_padding_mask** (Tensor, optional): the mask of the src keys per batch .
+          Default: ``None``.
+    Outputs:
+        Tensor.
+    Supported Platforms:
+        ``Ascend`` ``GPU`` ``CPU``
+    Examples:
+        >>> encoder_layer = nn.TransformerEncoderLayer(d_model=512, nhead=8)
+        >>> transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=6)
+        >>> src = Tensor(np.random.rand(10, 32, 512), mindspore.float32)
+        >>> out = transformer_encoder(src)
+        >>> print(out.shape)
+        (10, 32, 512)
+    """
+    __constants__ = ['norm']
+    def __init__(self, encoder_layer, num_layers, norm=None):
+        super(TransformerEncoder, self).__init__()
+        self.layers = _get_clones(encoder_layer, num_layers)
+        self.num_layers = num_layers
+        self.norm = norm
+    def construct(self, src: Tensor, src_mask: Optional[Tensor] = None, src_key_padding_mask: Optional[Tensor] = None):
+        if src_key_padding_mask is not None:
+            _skpm_dtype = src_key_padding_mask.dtype
+            if _skpm_dtype != mindspore.bool_ and not ops.is_floating_point(src_key_padding_mask):
+                raise AssertionError(
+                    "only bool and floating types of key_padding_mask are supported")
+        output = src
+        src_key_padding_mask_for_layers = src_key_padding_mask
+        for mod in self.layers:
+            output = mod(output, src_mask=src_mask, src_key_padding_mask=src_key_padding_mask_for_layers)
+        if self.norm is not None:
+            output = self.norm(output)
+        return output
+class TransformerDecoder(Cell):
+    r"""
+    Transformer Decoder module with multi-layer stacked of `TransformerDecoderLayer`, including multihead self
+    attention, cross attention and feedforward layer.
+    Args:
+        decoder_layer (Cell): An instance of the :class:`mindspore.nn.TransformerDecoderLayer` class.
+        num_layers (int): The number of decoder-layers in the decoder.
+        norm (Cell, optional): The layer normalization module.
+    Inputs:
+        - **tgt** (Tensor): The sequence to the decoder.
+        - **memory** (Tensor): The sequence from the last layer of the encoder.
+        - **tgt_mask** (Tensor, optional): the mask of the tgt sequence. Default: ``None``.
+        - **memory_mask** (Tensor, optional): the mask of the memory sequence. Default: ``None``.
+        - **tgt_key_padding_mask** (Tensor, optional): the mask of the tgt keys per batch.
+          Default: ``None``.
+        - **memory_key_padding_mask** (Tensor, optional): the mask of the memory keys per batch.
+          Default: ``None``.
+    Outputs:
+        Tensor.
+    Supported Platforms:
+        ``Ascend`` ``GPU`` ``CPU``
+    Examples:
+        >>> decoder_layer = nn.TransformerDecoderLayer(d_model=512, nhead=8)
+        >>> transformer_decoder = nn.TransformerDecoder(decoder_layer, num_layers=6)
+        >>> memory = Tensor(np.random.rand(10, 32, 512), mindspore.float32)
+        >>> tgt = Tensor(np.random.rand(20, 32, 512), mindspore.float32)
+        >>> out = transformer_decoder(tgt, memory)
+        >>> print(out.shape)
+        (20, 32, 512)
+    """
+    __constants__ = ['norm']
+    def __init__(self, decoder_layer, num_layers, norm=None):
+        super(TransformerDecoder, self).__init__()
+        self.layers = _get_clones(decoder_layer, num_layers)
+        self.num_layers = num_layers
+        self.norm = norm
+    def construct(self, tgt: Tensor, memory: Tensor, tgt_mask: Optional[Tensor] = None,
+                  memory_mask: Optional[Tensor] = None, tgt_key_padding_mask: Optional[Tensor] = None,
+                  memory_key_padding_mask: Optional[Tensor] = None):
+        output = tgt
+        for mod in self.layers:
+            output = mod(output, memory, tgt_mask=tgt_mask,
+                         memory_mask=memory_mask,
+                         tgt_key_padding_mask=tgt_key_padding_mask,
+                         memory_key_padding_mask=memory_key_padding_mask)
+        if self.norm is not None:
+            output = self.norm(output)
+        return output
+class Transformer(Cell):
+    r"""
+    Transformer module including encoder and decoder. The difference with the original implements is the module use
+    the residual addition before the layer normalization. And the default hidden act is `gelu`.
+    The details can be found in `Attention is all you need <https://arxiv.org/pdf/1706.03762v5.pdf>`_.
+    Args:
+        d_model (int): The number of expected features in the inputs tensor. Default: ``512``.
+        nhead (int): The number of heads in the MultiheadAttention modules. Default: ``8``.
+        num_encoder_layers (int): The number of encoder-layers in the encoder. Default: ``6``.
+        num_decoder_layers (int): The number of decoder-layers in the decoder. Default: ``6``.
+        dim_feedforward (int): The dimension of the feedforward layer. Default: ``2048``.
+        dropout (float): The dropout value. Default: ``0.1``.
+        activation (Union[str, callable, Cell]): The activation function of the intermediate layer,
+            can be a string (`"relu"` or `"gelu"`), Cell instance (`nn.ReLU()` or `nn.GELU()`) or
+            a callable (`ops.relu` or `ops.gelu`). Default: ``"relu"``
+        custom_encoder (Cell): Custom encoder. Default: ``None``.
+        custom_decoder (Cell): Custom decoder. Default: ``None``.
+        layer_norm_eps (float): the epsilion value in layer normalization module. Default: ``1e-5``.
+        batch_first (bool): If `batch_first = True`, then the shape of input and output tensors is
+            :math:`(batch, seq, feature)` , otherwise the shape is :math:`(seq, batch, feature)` .
+            Default: ``False``.
+        norm_first (bool): If `norm_first = True`, layer norm is done prior to attention and feedforward
+            operations, respectively. Default: ``False``.
+    Inputs:
+        - **src** (Tensor): The source sequence to the encoder.
+        - **tgt** (Tensor): The target sequence to the decoder.
+        - **src_mask** (Tensor, optional): The mask of the src sequence. Default: ``None``.
+        - **tgt_mask** (Tensor, optional): The mask of the tgt sequence. Default: ``None``.
+        - **memory_mask** (Tensor, optional): The additive mask of the encoder output.
+          Default: ``None``.
+        - **src_key_padding_mask** (Tensor, optional): The mask of src keys per batch.
+          Default: ``None``.
+        - **tgt_key_padding_mask** (Tensor, optional): The mask of tgt keys per batch.
+          Default: ``None``.
+        - **memory_key_padding_mask** (Tensor, optional): The mask of memory keys per batch.
+          Default: ``None``.
+    Outputs:
+        Tensor.
+    Supported Platforms:
+        ``Ascend`` ``GPU`` ``CPU``
+    Examples:
+        >>> transformer_model = nn.Transformer(nhead=16, num_encoder_layers=12)
+        >>> src = Tensor(np.random.rand(10, 32, 512), mindspore.float32)
+        >>> tgt = Tensor(np.random.rand(20, 32, 512), mindspore.float32)
+        >>> out = transformer_model(src, tgt)
+        >>> print(out.shape)
+        (20, 32, 512)
+    """
+    def __init__(self, d_model: int = 512, nhead: int = 8, num_encoder_layers: int = 6,
+                 num_decoder_layers: int = 6, dim_feedforward: int = 2048, dropout: float = 0.1,
+                 activation: Union[str, Cell, callable] = 'relu', custom_encoder: Optional[Cell] = None,
+                 custom_decoder: Optional[Cell] = None, layer_norm_eps: float = 1e-5,
+                 batch_first: bool = False, norm_first: bool = False):
+        super(Transformer, self).__init__()
+        if custom_encoder is not None:
+            self.encoder = custom_encoder
+        else:
+            encoder_layer = TransformerEncoderLayer(d_model, nhead, dim_feedforward, dropout,
+                                                    activation, layer_norm_eps, batch_first, norm_first)
+            encoder_norm = LayerNorm((d_model,), epsilon=layer_norm_eps)
+            self.encoder = TransformerEncoder(encoder_layer, num_encoder_layers, encoder_norm)
+        if custom_decoder is not None:
+            self.decoder = custom_decoder
+        else:
+            decoder_layer = TransformerDecoderLayer(d_model, nhead, dim_feedforward, dropout,
+                                                    activation, layer_norm_eps, batch_first, norm_first)
+            decoder_norm = LayerNorm((d_model,), epsilon=layer_norm_eps)
+            self.decoder = TransformerDecoder(decoder_layer, num_decoder_layers, decoder_norm)
+        for _, p in self.parameters_and_names():
+            if p.ndim > 1:
+                p.set_data(initializer('xavier_uniform', p.shape, p.dtype))
+        self.d_model = d_model
+        self.nhead = nhead
+        self.batch_first = batch_first
+    def construct(self, src: Tensor, tgt: Tensor, src_mask: Optional[Tensor] = None, tgt_mask: Optional[Tensor] = None,
+                  memory_mask: Optional[Tensor] = None, src_key_padding_mask: Optional[Tensor] = None,
+                  tgt_key_padding_mask: Optional[Tensor] = None, memory_key_padding_mask: Optional[Tensor] = None):
+        is_batched = src.ndim == 3
+        if self.batch_first:
+            src_batch_size = src.shape[0]
+            tgt_batch_size = src.shape[0]
+        else:
+            src_batch_size = src.shape[1]
+            tgt_batch_size = src.shape[1]
+        if src_batch_size != tgt_batch_size and is_batched:
+            raise ValueError("The number of batch size for 'src' and 'tgt' must be equal.")
+        if src.shape[-1] != self.d_model or tgt.shape[-1] != self.d_model:
+            raise ValueError("The number of features for 'src' and 'tgt' must be equal to `d_model`.")
+        memory = self.encoder(src, src_mask=src_mask, src_key_padding_mask=src_key_padding_mask)
+        output = self.decoder(tgt, memory, tgt_mask=tgt_mask, memory_mask=memory_mask,
+                              tgt_key_padding_mask=tgt_key_padding_mask,
+                              memory_key_padding_mask=memory_key_padding_mask)
+        return output
+def _get_activation_fn(activation: str):
+    if activation == "relu":
+        return ops.relu
+    if activation == "gelu":
+        return ops.gelu
+    raise ValueError(f"The activation must be relu/gelu, but get {activation}")
+def _get_clones(module, N):
+    return CellList([copy.deepcopy(module) for i in range(N)])