PyPI - mindspore - Versions diffs - 2.6.0__cp39-cp39-win_amd64.whl → 2.7.0rc1__cp39-cp39-win_amd64.whl - Mend

mindspore 2.6.0__cp39-cp39-win_amd64.whl → 2.7.0rc1__cp39-cp39-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mindspore might be problematic. Click here for more details.

Files changed (380) hide show

mindspore/.commit_id +1 -1
mindspore/__init__.py +1 -1
mindspore/_c_dataengine.cp39-win_amd64.pyd +0 -0
mindspore/_c_expression.cp39-win_amd64.pyd +0 -0
mindspore/_c_mindrecord.cp39-win_amd64.pyd +0 -0
mindspore/_checkparam.py +40 -9
mindspore/{_deprecated → _extends/optimize}/__init__.py +9 -3
mindspore/_extends/optimize/cell_utils.py +96 -0
mindspore/_extends/parse/__init__.py +2 -2
mindspore/_extends/parse/compile_config.py +44 -22
mindspore/_extends/parse/deprecated/deprecated_tensor_method.py +1 -1
mindspore/_extends/parse/parser.py +36 -61
mindspore/_extends/parse/resources.py +39 -0
mindspore/_extends/parse/standard_method.py +32 -13
mindspore/_extends/parse/trope.py +8 -1
mindspore/_extends/pijit/__init__.py +1 -2
mindspore/amp.py +4 -4
mindspore/avcodec-59.dll +0 -0
mindspore/avdevice-59.dll +0 -0
mindspore/avfilter-8.dll +0 -0
mindspore/avformat-59.dll +0 -0
mindspore/avutil-57.dll +0 -0
mindspore/boost/adasum.py +1 -1
mindspore/boost/boost_cell_wrapper.py +4 -4
mindspore/common/__init__.py +27 -2
mindspore/common/_grad_function.py +2 -1
mindspore/common/_pijit_context.py +28 -7
mindspore/common/_stub_tensor.py +1 -209
mindspore/common/_tensor_cpp_method.py +1 -1
mindspore/common/_tensor_docs.py +76 -15
mindspore/common/api.py +193 -112
mindspore/common/dtype.py +21 -11
mindspore/common/dump.py +10 -15
mindspore/common/generator.py +2 -3
mindspore/common/hook_handle.py +11 -2
mindspore/common/jit_config.py +1 -1
mindspore/common/jit_trace.py +84 -105
mindspore/common/parameter.py +26 -12
mindspore/common/recompute.py +3 -3
mindspore/common/sparse_tensor.py +0 -3
mindspore/common/symbol.py +0 -1
mindspore/common/tensor.py +48 -83
mindspore/communication/_comm_helper.py +46 -4
mindspore/communication/management.py +79 -7
mindspore/context.py +38 -23
mindspore/dataset/core/config.py +3 -3
mindspore/dataset/engine/datasets.py +20 -7
mindspore/dataset/engine/datasets_user_defined.py +32 -2
mindspore/dataset/engine/iterators.py +2 -2
mindspore/dataset/engine/obs/config_loader.py +2 -2
mindspore/dataset/engine/obs/obs_mindrecord_dataset.py +8 -0
mindspore/dataset/transforms/py_transforms.py +7 -3
mindspore/dataset/transforms/transforms.py +7 -3
mindspore/dataset/vision/validators.py +1 -0
mindspore/device_context/ascend/device.py +1 -1
mindspore/device_context/gpu/__init__.py +2 -2
mindspore/device_context/gpu/device.py +1 -1
mindspore/device_context/gpu/op_precision.py +4 -2
mindspore/device_context/gpu/op_tuning.py +6 -3
mindspore/device_manager.py +16 -9
mindspore/dnnl.dll +0 -0
mindspore/experimental/llm_boost/ascend_native/llama_boost_ascend_native.py +3 -5
mindspore/experimental/llm_boost/atb/boost_base.py +2 -3
mindspore/experimental/optim/adadelta.py +13 -20
mindspore/experimental/optim/adagrad.py +15 -22
mindspore/experimental/optim/adam.py +17 -24
mindspore/experimental/optim/adamax.py +14 -22
mindspore/experimental/optim/adamw.py +28 -34
mindspore/experimental/optim/asgd.py +15 -25
mindspore/experimental/optim/lr_scheduler.py +27 -45
mindspore/experimental/optim/nadam.py +14 -24
mindspore/experimental/optim/optimizer.py +13 -23
mindspore/experimental/optim/radam.py +18 -24
mindspore/experimental/optim/rmsprop.py +14 -25
mindspore/experimental/optim/rprop.py +15 -26
mindspore/experimental/optim/sgd.py +9 -19
mindspore/hal/__init__.py +4 -4
mindspore/hal/contiguous_tensors_handle.py +2 -2
mindspore/hal/memory.py +1 -0
mindspore/include/api/cell.h +37 -1
mindspore/include/api/delegate.h +10 -0
mindspore/include/api/model.h +3 -0
mindspore/include/api/types.h +2 -2
mindspore/include/c_api/model_c.h +0 -58
mindspore/include/c_api/tensor_c.h +0 -26
mindspore/include/dataset/vision_ascend.h +1 -1
mindspore/jpeg62.dll +0 -0
mindspore/mindrecord/tools/cifar10.py +60 -11
mindspore/mindrecord/tools/cifar10_to_mr.py +5 -0
mindspore/mindspore_backend_common.dll +0 -0
mindspore/mindspore_backend_manager.dll +0 -0
mindspore/mindspore_common.dll +0 -0
mindspore/mindspore_core.dll +0 -0
mindspore/mindspore_cpu_res_manager.dll +0 -0
mindspore/mindspore_dump.dll +0 -0
mindspore/mindspore_frontend.dll +0 -0
mindspore/mindspore_glog.dll +0 -0
mindspore/mindspore_memory_pool.dll +0 -0
mindspore/mindspore_ms_backend.dll +0 -0
mindspore/mindspore_ops.dll +0 -0
mindspore/mindspore_ops_host.dll +0 -0
mindspore/mindspore_ops_kernel_common.dll +0 -0
mindspore/mindspore_profiler.dll +0 -0
mindspore/mindspore_pyboost.dll +0 -0
mindspore/mindspore_pynative.dll +0 -0
mindspore/mindspore_res_manager.dll +0 -0
mindspore/mindspore_runtime_pipeline.dll +0 -0
mindspore/mint/__init__.py +4 -44
mindspore/mint/distributed/__init__.py +1 -0
mindspore/mint/distributed/distributed.py +208 -5
mindspore/mint/nn/__init__.py +1 -1
mindspore/mint/nn/functional.py +53 -6
mindspore/mint/nn/layer/_functions.py +164 -294
mindspore/mint/nn/layer/activation.py +8 -6
mindspore/mint/nn/layer/conv.py +122 -98
mindspore/mint/nn/layer/normalization.py +8 -22
mindspore/mint/optim/adam.py +19 -18
mindspore/mint/optim/adamw.py +14 -8
mindspore/mint/optim/sgd.py +5 -5
mindspore/nn/cell.py +325 -499
mindspore/nn/grad/cell_grad.py +11 -12
mindspore/nn/layer/activation.py +32 -34
mindspore/nn/layer/basic.py +67 -64
mindspore/nn/layer/channel_shuffle.py +4 -4
mindspore/nn/layer/combined.py +4 -2
mindspore/nn/layer/conv.py +86 -85
mindspore/nn/layer/dense.py +9 -7
mindspore/nn/layer/embedding.py +50 -52
mindspore/nn/layer/image.py +37 -39
mindspore/nn/layer/math.py +111 -112
mindspore/nn/layer/normalization.py +56 -44
mindspore/nn/layer/pooling.py +58 -63
mindspore/nn/layer/rnn_cells.py +33 -33
mindspore/nn/layer/rnns.py +56 -56
mindspore/nn/layer/thor_layer.py +74 -73
mindspore/nn/layer/transformer.py +11 -1
mindspore/nn/learning_rate_schedule.py +20 -20
mindspore/nn/loss/loss.py +79 -81
mindspore/nn/optim/adam.py +1 -1
mindspore/nn/optim/adasum.py +2 -2
mindspore/nn/optim/optimizer.py +1 -1
mindspore/nn/optim/thor.py +2 -2
mindspore/nn/probability/distribution/exponential.py +2 -1
mindspore/nn/probability/distribution/poisson.py +2 -1
mindspore/nn/sparse/sparse.py +3 -3
mindspore/nn/wrap/cell_wrapper.py +34 -37
mindspore/nn/wrap/grad_reducer.py +37 -37
mindspore/nn/wrap/loss_scale.py +72 -74
mindspore/numpy/array_creations.py +5 -5
mindspore/numpy/fft.py +1 -1
mindspore/numpy/math_ops.py +1 -1
mindspore/opencv_core452.dll +0 -0
mindspore/opencv_imgcodecs452.dll +0 -0
mindspore/opencv_imgproc452.dll +0 -0
mindspore/ops/_grad_experimental/grad_comm_ops.py +51 -13
mindspore/ops/_grad_experimental/grad_debug_ops.py +14 -0
mindspore/ops/_vmap/vmap_array_ops.py +6 -13
mindspore/ops/_vmap/vmap_nn_ops.py +8 -16
mindspore/ops/auto_generate/cpp_create_prim_instance_helper.py +17 -8
mindspore/ops/auto_generate/gen_extend_func.py +1 -51
mindspore/ops/auto_generate/gen_ops_def.py +463 -257
mindspore/ops/auto_generate/gen_ops_prim.py +1127 -885
mindspore/ops/auto_generate/pyboost_inner_prim.py +31 -1
mindspore/ops/composite/__init__.py +10 -0
mindspore/ops/composite/base.py +8 -4
mindspore/ops/composite/multitype_ops/__init__.py +12 -1
mindspore/ops/composite/multitype_ops/_compile_utils.py +132 -108
mindspore/ops/composite/multitype_ops/add_impl.py +70 -2
mindspore/ops/composite/multitype_ops/div_impl.py +49 -0
mindspore/ops/composite/multitype_ops/floordiv_impl.py +29 -0
mindspore/ops/composite/multitype_ops/getitem_impl.py +11 -0
mindspore/ops/composite/multitype_ops/mod_impl.py +5 -3
mindspore/ops/composite/multitype_ops/mul_impl.py +49 -0
mindspore/ops/composite/multitype_ops/setitem_impl.py +57 -0
mindspore/ops/composite/multitype_ops/sub_impl.py +34 -0
mindspore/ops/composite/multitype_ops/zeros_like_impl.py +14 -0
mindspore/ops/function/__init__.py +3 -1
mindspore/ops/function/_add_attr_func.py +11 -6
mindspore/ops/function/array_func.py +7 -94
mindspore/ops/function/debug_func.py +4 -3
mindspore/ops/function/grad/grad_func.py +1 -1
mindspore/ops/function/math_func.py +21 -367
mindspore/ops/function/nn_func.py +26 -41
mindspore/ops/function/other_func.py +4 -1
mindspore/ops/function/random_func.py +31 -4
mindspore/ops/functional.py +0 -2
mindspore/ops/functional_overload.py +463 -6
mindspore/ops/op_info_register.py +21 -0
mindspore/ops/operations/__init__.py +5 -2
mindspore/ops/operations/_custom_ops_utils.py +675 -8
mindspore/ops/operations/_inner_ops.py +3 -6
mindspore/ops/operations/_sequence_ops.py +1 -1
mindspore/ops/operations/comm_ops.py +185 -26
mindspore/ops/operations/custom_ops.py +235 -172
mindspore/ops/operations/debug_ops.py +55 -4
mindspore/ops/operations/image_ops.py +13 -13
mindspore/ops/operations/manually_defined/ops_def.py +15 -16
mindspore/ops/operations/math_ops.py +3 -4
mindspore/ops/operations/nn_ops.py +5 -6
mindspore/ops/primitive.py +6 -10
mindspore/ops/tensor_method.py +36 -4
mindspore/ops_generate/api/cpp_create_prim_instance_helper_generator.py +1 -1
mindspore/ops_generate/api/functional_map_cpp_generator.py +10 -9
mindspore/ops_generate/api/functions_cc_generator.py +58 -10
mindspore/ops_generate/api/tensor_func_reg_cpp_generator.py +1 -1
mindspore/ops_generate/common/base_generator.py +14 -0
mindspore/ops_generate/common/gen_constants.py +7 -2
mindspore/ops_generate/common/gen_utils.py +0 -19
mindspore/ops_generate/common/op_proto.py +11 -4
mindspore/ops_generate/common/template.py +88 -11
mindspore/ops_generate/gen_ops.py +1 -1
mindspore/ops_generate/op_def/lite_ops_cpp_generator.py +4 -4
mindspore/ops_generate/op_def/ops_name_h_generator.py +0 -3
mindspore/ops_generate/op_def/ops_primitive_h_generator.py +0 -4
mindspore/ops_generate/op_def_py/op_prim_py_generator.py +5 -2
mindspore/ops_generate/pyboost/auto_grad_impl_cc_generator.py +49 -8
mindspore/ops_generate/pyboost/auto_grad_reg_cc_generator.py +2 -2
mindspore/ops_generate/pyboost/gen_pyboost_func.py +31 -0
mindspore/ops_generate/pyboost/op_template_parser.py +98 -72
mindspore/ops_generate/pyboost/pyboost_functions_cpp_generator.py +70 -273
mindspore/ops_generate/pyboost/pyboost_functions_h_generator.py +14 -6
mindspore/ops_generate/pyboost/pyboost_functions_impl_cpp_generator.py +316 -0
mindspore/ops_generate/pyboost/pyboost_functions_py_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_grad_function_cpp_generator.py +5 -3
mindspore/ops_generate/pyboost/pyboost_inner_prim_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_internal_functions_cpp_generator.py +76 -0
mindspore/ops_generate/pyboost/pyboost_internal_functions_h_generator.py +76 -0
mindspore/ops_generate/pyboost/pyboost_internal_kernel_info_adapter_generator.py +125 -0
mindspore/ops_generate/pyboost/pyboost_native_grad_functions_generator.py +4 -3
mindspore/ops_generate/pyboost/pyboost_op_cpp_code_generator.py +348 -61
mindspore/ops_generate/pyboost/pyboost_overload_functions_cpp_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_utils.py +118 -9
mindspore/ops_generate/tensor_py_cc_generator.py +1 -24
mindspore/parallel/_auto_parallel_context.py +4 -2
mindspore/parallel/_cell_wrapper.py +106 -40
mindspore/parallel/_parallel_serialization.py +1 -1
mindspore/parallel/_ps_context.py +4 -6
mindspore/parallel/_tensor.py +167 -12
mindspore/parallel/_transformer/moe.py +1 -1
mindspore/parallel/_transformer/transformer.py +13 -8
mindspore/parallel/auto_parallel.py +12 -5
mindspore/parallel/checkpoint_convert.py +3 -3
mindspore/parallel/checkpoint_transform.py +3 -1
mindspore/parallel/cluster/process_entity/_api.py +84 -48
mindspore/parallel/cluster/process_entity/_utils.py +95 -7
mindspore/parallel/cluster/run.py +43 -4
mindspore/parallel/function/__init__.py +8 -1
mindspore/parallel/function/reshard_func.py +1 -1
mindspore/parallel/nn/__init__.py +15 -2
mindspore/parallel/nn/parallel_cell_wrapper.py +9 -10
mindspore/parallel/nn/parallel_grad_reducer.py +7 -6
mindspore/parallel/shard.py +2 -2
mindspore/parallel/transform_safetensors.py +462 -174
mindspore/profiler/__init__.py +2 -1
mindspore/profiler/analysis/parser/timeline_assembly_factory/ascend_timeline_assembler.py +7 -7
mindspore/profiler/analysis/parser/timeline_assembly_factory/base_timeline_assembler.py +3 -0
mindspore/profiler/analysis/parser/timeline_assembly_factory/trace_view_container.py +3 -0
mindspore/profiler/analysis/parser/timeline_creator/cpu_op_timeline_creator.py +3 -3
mindspore/profiler/analysis/parser/timeline_creator/fwk_timeline_creator.py +3 -3
mindspore/profiler/analysis/parser/timeline_creator/msprof_timeline_creator.py +4 -4
mindspore/profiler/analysis/parser/timeline_creator/scope_layer_timeline_creator.py +3 -3
mindspore/profiler/analysis/parser/timeline_event/fwk_event.py +4 -1
mindspore/profiler/analysis/parser/timeline_event/timeline_event_pool.py +2 -1
mindspore/profiler/analysis/task_manager.py +1 -1
mindspore/profiler/analysis/viewer/ascend_communication_viewer.py +5 -1
mindspore/profiler/analysis/viewer/ascend_integrate_viewer.py +2 -1
mindspore/profiler/analysis/viewer/ascend_op_memory_viewer.py +42 -22
mindspore/profiler/analysis/viewer/ascend_step_trace_time_viewer.py +3 -2
mindspore/profiler/analysis/viewer/ms_minddata_viewer.py +9 -5
mindspore/profiler/analysis/viewer/ms_operator_details_viewer.py +132 -0
mindspore/profiler/common/constant.py +16 -0
mindspore/profiler/common/profiler_context.py +25 -27
mindspore/profiler/common/profiler_info.py +0 -16
mindspore/profiler/common/profiler_op_analyse.py +235 -0
mindspore/profiler/common/profiler_output_path.py +23 -8
mindspore/profiler/common/profiler_parameters.py +128 -35
mindspore/profiler/dynamic_profile/__init__.py +0 -0
mindspore/profiler/dynamic_profile/dynamic_monitor_proxy.py +39 -0
mindspore/profiler/dynamic_profile/dynamic_profiler_config_context.py +666 -0
mindspore/profiler/dynamic_profile/dynamic_profiler_utils.py +62 -0
mindspore/profiler/dynamic_profiler.py +305 -314
mindspore/profiler/envprofiler.py +12 -7
mindspore/profiler/experimental_config.py +96 -6
mindspore/profiler/mstx.py +33 -12
mindspore/profiler/platform/__init__.py +2 -3
mindspore/profiler/platform/npu_profiler.py +29 -19
mindspore/profiler/profiler.py +35 -19
mindspore/profiler/profiler_action_controller.py +64 -76
mindspore/profiler/schedule.py +10 -4
mindspore/rewrite/common/config.py +1 -0
mindspore/rewrite/common/namer.py +1 -0
mindspore/rewrite/common/namespace.py +1 -0
mindspore/rewrite/node/node.py +31 -11
mindspore/rewrite/parsers/assign_parser.py +1 -1
mindspore/rewrite/symbol_tree/symbol_tree.py +1 -1
mindspore/run_check/_check_version.py +7 -10
mindspore/runtime/__init__.py +5 -5
mindspore/runtime/event.py +10 -4
mindspore/runtime/executor.py +60 -45
mindspore/runtime/memory.py +21 -30
mindspore/runtime/thread_bind_core.py +298 -164
mindspore/safeguard/rewrite_obfuscation.py +12 -13
mindspore/swresample-4.dll +0 -0
mindspore/swscale-6.dll +0 -0
mindspore/tinyxml2.dll +0 -0
mindspore/train/_utils.py +6 -2
mindspore/train/amp.py +43 -20
mindspore/train/callback/__init__.py +5 -5
mindspore/train/callback/_checkpoint.py +3 -6
mindspore/train/callback/_flops_collector.py +1 -1
mindspore/train/callback/_landscape.py +0 -1
mindspore/train/callback/_train_fault_tolerance.py +71 -13
mindspore/train/data_sink.py +11 -2
mindspore/train/dataset_helper.py +9 -0
mindspore/train/model.py +51 -33
mindspore/train/serialization.py +133 -111
mindspore/train/summary/summary_record.py +13 -2
mindspore/turbojpeg.dll +0 -0
mindspore/utils/__init__.py +3 -2
mindspore/utils/dryrun.py +0 -6
mindspore/utils/runtime_execution_order_check.py +162 -78
mindspore/utils/sdc_detect.py +68 -0
mindspore/utils/utils.py +6 -9
mindspore/version.py +1 -1
{mindspore-2.6.0.dist-info → mindspore-2.7.0rc1.dist-info}/METADATA +5 -4
{mindspore-2.6.0.dist-info → mindspore-2.7.0rc1.dist-info}/RECORD +329 -367
mindspore/_deprecated/jit.py +0 -198
mindspore/experimental/es/__init__.py +0 -22
mindspore/experimental/es/embedding_service.py +0 -891
mindspore/experimental/es/embedding_service_layer.py +0 -581
mindspore/profiler/parser/__init__.py +0 -14
mindspore/profiler/parser/aicpu_data_parser.py +0 -272
mindspore/profiler/parser/ascend_analysis/__init__.py +0 -14
mindspore/profiler/parser/ascend_analysis/constant.py +0 -71
mindspore/profiler/parser/ascend_analysis/file_manager.py +0 -180
mindspore/profiler/parser/ascend_analysis/function_event.py +0 -185
mindspore/profiler/parser/ascend_analysis/fwk_cann_parser.py +0 -136
mindspore/profiler/parser/ascend_analysis/fwk_file_parser.py +0 -131
mindspore/profiler/parser/ascend_analysis/msprof_timeline_parser.py +0 -104
mindspore/profiler/parser/ascend_analysis/path_manager.py +0 -313
mindspore/profiler/parser/ascend_analysis/profiler_info_parser.py +0 -123
mindspore/profiler/parser/ascend_analysis/tlv_decoder.py +0 -86
mindspore/profiler/parser/ascend_analysis/trace_event_manager.py +0 -75
mindspore/profiler/parser/ascend_cluster_generator.py +0 -116
mindspore/profiler/parser/ascend_communicate_generator.py +0 -314
mindspore/profiler/parser/ascend_flops_generator.py +0 -116
mindspore/profiler/parser/ascend_fpbp_generator.py +0 -82
mindspore/profiler/parser/ascend_hccl_generator.py +0 -271
mindspore/profiler/parser/ascend_integrate_generator.py +0 -42
mindspore/profiler/parser/ascend_memory_generator.py +0 -185
mindspore/profiler/parser/ascend_msprof_exporter.py +0 -282
mindspore/profiler/parser/ascend_msprof_generator.py +0 -187
mindspore/profiler/parser/ascend_op_generator.py +0 -334
mindspore/profiler/parser/ascend_steptrace_generator.py +0 -94
mindspore/profiler/parser/ascend_timeline_generator.py +0 -545
mindspore/profiler/parser/base_timeline_generator.py +0 -483
mindspore/profiler/parser/container.py +0 -229
mindspore/profiler/parser/cpu_gpu_timeline_generator.py +0 -697
mindspore/profiler/parser/flops_parser.py +0 -531
mindspore/profiler/parser/framework_enum.py +0 -111
mindspore/profiler/parser/framework_parser.py +0 -464
mindspore/profiler/parser/framework_struct.py +0 -61
mindspore/profiler/parser/gpu_analysis/__init__.py +0 -14
mindspore/profiler/parser/gpu_analysis/function_event.py +0 -44
mindspore/profiler/parser/gpu_analysis/fwk_file_parser.py +0 -89
mindspore/profiler/parser/gpu_analysis/profiler_info_parser.py +0 -72
mindspore/profiler/parser/hccl_parser.py +0 -573
mindspore/profiler/parser/hwts_log_parser.py +0 -122
mindspore/profiler/parser/integrator.py +0 -526
mindspore/profiler/parser/memory_usage_parser.py +0 -277
mindspore/profiler/parser/minddata_analyzer.py +0 -800
mindspore/profiler/parser/minddata_parser.py +0 -186
mindspore/profiler/parser/minddata_pipeline_parser.py +0 -299
mindspore/profiler/parser/op_intermediate_parser.py +0 -149
mindspore/profiler/parser/optime_parser.py +0 -250
mindspore/profiler/parser/profiler_info.py +0 -213
mindspore/profiler/parser/step_trace_parser.py +0 -666
{mindspore-2.6.0.dist-info → mindspore-2.7.0rc1.dist-info}/WHEEL +0 -0
{mindspore-2.6.0.dist-info → mindspore-2.7.0rc1.dist-info}/entry_points.txt +0 -0
{mindspore-2.6.0.dist-info → mindspore-2.7.0rc1.dist-info}/top_level.txt +0 -0

mindspore/nn/layer/rnns.py CHANGED Viewed

@@ -19,10 +19,9 @@ import math
 import numpy as np
 import mindspore.nn as nn
-import mindspore.ops as P
+import mindspore.ops as ops
 import mindspore.context as context
 import mindspore.common.dtype as mstype
-from mindspore.ops import functional as F
 from mindspore.ops.primitive import constexpr, _primexpr
 from mindspore.common.tensor import Tensor
 from mindspore.common.parameter import ParameterTuple, Parameter
@@ -36,8 +35,8 @@ __all__ = ['LSTM', 'GRU', 'RNN']
 def _init_state(shape, dtype, is_lstm):
-    hx = P.zeros(shape, dtype)
-    cx = P.zeros(shape, dtype)
+    hx = ops.zeros(shape, dtype)
+    cx = ops.zeros(shape, dtype)
     if is_lstm:
         return (hx, cx)
     return hx
@@ -57,17 +56,17 @@ def _check_input_dtype_same_and_valid(args_name, args_value, valid_values, cls_n
 @constexpr(check=False)
 def _check_is_tensor(param_name, input_data, cls_name):
     """Internal function, used to check whether the input data is Tensor."""
-    if input_data is not None and not isinstance(P.typeof(input_data), mstype.TensorType):
+    if input_data is not None and not isinstance(ops.typeof(input_data), mstype.TensorType):
         raise TypeError(f"For '{cls_name}', the '{param_name}' must be '{mstype.TensorType}', "
-                        f"but got '{P.typeof(input_data)}'")
+                        f"but got '{ops.typeof(input_data)}'")
 @constexpr
 def _check_is_tuple(param_name, input_data, cls_name):
     """Internal function, used to check whether the input data is Tensor."""
-    if input_data is not None and not isinstance(P.typeof(input_data), mstype.Tuple):
+    if input_data is not None and not isinstance(ops.typeof(input_data), mstype.Tuple):
         raise TypeError(f"For '{cls_name}', the '{param_name}' must be '{mstype.Tuple}', "
-                        f"but got '{P.typeof(input_data)}'")
+                        f"but got '{ops.typeof(input_data)}'")
 @constexpr
@@ -87,7 +86,7 @@ def _check_seq_length_size(batch_size_x, seq_length_size, cls_name):
 def sequence_mask(lengths, maxlen):
     """generate mask matrix by seq_length"""
-    range_vector = P.arange(start=0, end=maxlen, step=1, dtype=lengths.dtype)
+    range_vector = ops.arange(start=0, end=maxlen, step=1, dtype=lengths.dtype)
     result = range_vector < lengths.view(lengths.shape + (1,))
     return result.astype(mstype.int32)
@@ -100,9 +99,9 @@ def select_by_mask(inputs, mask):
 def get_hidden(output, seq_length):
     """get hidden state by seq_length"""
-    batch_index = P.arange(start=0, end=seq_length.shape[0], step=1, dtype=seq_length.dtype)
-    indices = P.Concat(1)((seq_length.view(-1, 1) - 1, batch_index.view(-1, 1)))
-    return P.GatherNd()(output, indices)
+    batch_index = ops.arange(start=0, end=seq_length.shape[0], step=1, dtype=seq_length.dtype)
+    indices = ops.Concat(1)((seq_length.view(-1, 1) - 1, batch_index.view(-1, 1)))
+    return ops.GatherNd()(output, indices)
 class _DynamicRNNBase(Cell):
@@ -131,14 +130,14 @@ class _DynamicRNNBase(Cell):
         h = h_0
         while t < time_step:
             x_t = x[t:t + 1:1]
-            x_t = P.Squeeze(0)(x_t)
+            x_t = ops.Squeeze(0)(x_t)
             h = self.cell(x_t, h, w_ih, w_hh, b_ih, b_hh)
             if self.is_lstm:
                 outputs.append(h[0])
             else:
                 outputs.append(h)
             t += 1
-        outputs = P.Stack()(outputs)
+        outputs = ops.Stack()(outputs)
         return outputs, h
     def variable_recurrent(self, x, h, seq_length, w_ih, w_hh, b_ih, b_hh):
@@ -147,34 +146,34 @@ class _DynamicRNNBase(Cell):
         h_t = h
         if self.is_lstm:
             hidden_size = h[0].shape[-1]
-            zero_output = P.ZerosLike()(h_t[0])
+            zero_output = ops.ZerosLike()(h_t[0])
         else:
             hidden_size = h.shape[-1]
-            zero_output = P.ZerosLike()(h_t)
-        seq_length = P.Cast()(seq_length, mstype.float32)
-        seq_length = F.broadcast_to(seq_length, (hidden_size, -1))
-        seq_length = P.Cast()(seq_length, mstype.int32)
-        seq_length = P.Transpose()(seq_length, (1, 0))
+            zero_output = ops.ZerosLike()(h_t)
+        seq_length = ops.Cast()(seq_length, mstype.float32)
+        seq_length = ops.broadcast_to(seq_length, (hidden_size, -1))
+        seq_length = ops.Cast()(seq_length, mstype.int32)
+        seq_length = ops.Transpose()(seq_length, (1, 0))
         outputs = []
         state_t = h_t
         t = 0
         while t < time_step:
             x_t = x[t:t + 1:1]
-            x_t = P.Squeeze(0)(x_t)
+            x_t = ops.Squeeze(0)(x_t)
             h_t = self.cell(x_t, state_t, w_ih, w_hh, b_ih, b_hh)
             seq_cond = seq_length > t
             if self.is_lstm:
-                state_t_0 = P.Select()(seq_cond, h_t[0], state_t[0])
-                state_t_1 = P.Select()(seq_cond, h_t[1], state_t[1])
-                output = P.Select()(seq_cond, h_t[0], zero_output)
+                state_t_0 = ops.Select()(seq_cond, h_t[0], state_t[0])
+                state_t_1 = ops.Select()(seq_cond, h_t[1], state_t[1])
+                output = ops.Select()(seq_cond, h_t[0], zero_output)
                 state_t = (state_t_0, state_t_1)
             else:
-                state_t = P.Select()(seq_cond, h_t, state_t)
-                output = P.Select()(seq_cond, h_t, zero_output)
+                state_t = ops.Select()(seq_cond, h_t, state_t)
+                output = ops.Select()(seq_cond, h_t, zero_output)
             outputs.append(output)
             t += 1
-        outputs = P.Stack()(outputs)
+        outputs = ops.Stack()(outputs)
         return outputs, state_t
     def construct(self, x, h, seq_length, w_ih, w_hh, b_ih, b_hh):
@@ -210,7 +209,7 @@ class _DynamicGRUCPUGPU(Cell):
     def __init__(self):
         super().__init__()
-        self.concat = P.Concat()
+        self.concat = ops.Concat()
         self.is_gpu = context.get_context("device_target") == "GPU"
     def construct(self, x, h_0, seq_length, w_ih, w_hh, b_ih, b_hh):
@@ -253,15 +252,16 @@ class _DynamicGRUAscend(Cell):
     def __init__(self):
         super().__init__()
-        self.gru = P.DynamicGRUV2(gate_order='rzh')
-        self.transpose = P.Transpose()
+        self.gru = ops.DynamicGRUV2(gate_order='rzh')
+        self.transpose = ops.Transpose()
         self.dtype = mstype.float16
+        self.cast = ops.Cast()
     def construct(self, x, h_0, seq_length, w_ih, w_hh, b_ih, b_hh):
         '''Dynamic GRU module on Ascend'''
         if b_ih is None:
-            b_ih = P.zeros(w_ih.shape[0], w_ih.dtype)
-            b_hh = P.zeros(w_ih.shape[0], w_ih.dtype)
+            b_ih = ops.zeros(w_ih.shape[0], w_ih.dtype)
+            b_hh = ops.zeros(w_ih.shape[0], w_ih.dtype)
         outputs, _, _, _, _, _ = self.gru(self.cast(x, self.dtype), \
                                           self.cast(self.transpose(w_ih, (1, 0)), self.dtype), \
                                           self.cast(self.transpose(w_hh, (1, 0)), self.dtype), \
@@ -282,7 +282,7 @@ class _DynamicLSTMCPUGPU(Cell):
     def __init__(self):
         super().__init__()
-        self.concat = P.Concat()
+        self.concat = ops.Concat()
         self.is_gpu = context.get_context("device_target") == "GPU"
     def construct(self, x, h_0, seq_length, w_ih, w_hh, b_ih, b_hh):
@@ -314,10 +314,10 @@ class _DynamicLSTMCPUGPU(Cell):
                         w_hh.view(-1, 1, 1),
                         bias.view(-1, 1, 1)
                     ))
-            output, h_n, c_n, _, _ = P.LSTM(input_size, hidden_size, 1, has_bias, False, 0.0)(
+            output, h_n, c_n, _, _ = ops.LSTM(input_size, hidden_size, 1, has_bias, False, 0.0)(
                 x,
-                P.ExpandDims()(h_0[0], 0),
-                P.ExpandDims()(h_0[1], 0),
+                ops.ExpandDims()(h_0[0], 0),
+                ops.ExpandDims()(h_0[1], 0),
                 weights.astype(x.dtype)
             )
         return output, (h_n, c_n)
@@ -328,12 +328,12 @@ class _DynamicLSTMAscend(Cell):
     def __init__(self):
         super().__init__()
-        self.lstm = P.DynamicRNN()
-        self.concat_dim1 = P.Concat(axis=1)
-        self.concat_dim0 = P.Concat(axis=0)
-        self.transpose = P.Transpose()
-        self.cast = P.Cast()
-        self.split = P.Split(axis=0, output_num=4)
+        self.lstm = ops.DynamicRNN()
+        self.concat_dim1 = ops.Concat(axis=1)
+        self.concat_dim0 = ops.Concat(axis=0)
+        self.transpose = ops.Transpose()
+        self.cast = ops.Cast()
+        self.split = ops.Split(axis=0, output_num=4)
         self.dtype = mstype.float16
     def construct(self, x, h_0, seq_length, w_ih, w_hh, b_ih, b_hh):
@@ -344,7 +344,7 @@ class _DynamicLSTMAscend(Cell):
         w_hh = self.concat_dim0((w_hh_i, w_hh_g, w_hh_f, w_hh_o))
         weight = self.concat_dim1((w_ih, w_hh))
         if b_ih is None:
-            bias = P.zeros(w_ih.shape[0], w_ih.dtype)
+            bias = ops.zeros(w_ih.shape[0], w_ih.dtype)
         else:
             b_ih_i, b_ih_f, b_ih_g, b_ih_o = self.split(b_ih)
             b_hh_i, b_hh_f, b_hh_g, b_hh_o = self.split(b_hh)
@@ -356,8 +356,8 @@ class _DynamicLSTMAscend(Cell):
         outputs, h, c, _, _, _, _, _ = self.lstm(self.cast(x, self.dtype), \
                                                  self.cast(self.transpose(weight, (1, 0)), self.dtype), \
                                                  self.cast(bias, self.dtype), None, \
-                                                 self.cast(P.ExpandDims()(h_0[0], 0), self.dtype), \
-                                                 self.cast(P.ExpandDims()(h_0[1], 0), self.dtype))
+                                                 self.cast(ops.ExpandDims()(h_0[0], 0), self.dtype), \
+                                                 self.cast(ops.ExpandDims()(h_0[1], 0), self.dtype))
         if seq_length is not None:
             h = get_hidden(h, seq_length)
             c = get_hidden(c, seq_length)
@@ -413,8 +413,8 @@ class _RNNBase(Cell):
             raise ValueError(f"For '{self.cls_name}', the 'mode' must be in ['RNN_RELU', 'RNN_TANH', 'LSTM', 'GRU'], "
                              f"but got {mode}.")
-        self.reverse = P.ReverseV2([0])
-        self.reverse_sequence = P.ReverseSequence(0, 1)
+        self.reverse = ops.ReverseV2([0])
+        self.reverse_sequence = ops.ReverseSequence(0, 1)
         self.hidden_size = hidden_size
         self.batch_first = batch_first
         self.num_layers = num_layers
@@ -488,7 +488,7 @@ class _RNNBase(Cell):
                 output_b = self.reverse(output_b)
             else:
                 output_b = self.reverse_sequence(output_b, seq_length)
-            output = P.Concat(2)((output_f, output_b))
+            output = ops.Concat(2)((output_f, output_b))
             pre_layer = self.dropout_op(output) if (self.dropout != 0 and i < self.num_layers - 1) else output
             if self.is_lstm:
                 h_n += (h_t_f[0], h_t_b[0],)
@@ -496,14 +496,14 @@ class _RNNBase(Cell):
             else:
                 h_n += (h_t_f, h_t_b,)
         if self.is_lstm:
-            h_n = P.Concat(0)(h_n)
-            c_n = P.Concat(0)(c_n)
+            h_n = ops.Concat(0)(h_n)
+            c_n = ops.Concat(0)(c_n)
             h0_shape = h[0].shape
             h1_shape = h[1].shape
             h_n = h_n.view(h0_shape)
             c_n = c_n.view(h1_shape)
             return output, (h_n.view(h0_shape), c_n.view(h1_shape))
-        h_n = P.Concat(0)(h_n)
+        h_n = ops.Concat(0)(h_n)
         return output, h_n.view(h.shape)
     def _stacked_dynamic_rnn(self, x, h, seq_length):
@@ -530,14 +530,14 @@ class _RNNBase(Cell):
             else:
                 h_n += (h_t,)
         if self.is_lstm:
-            h_n = P.Concat(0)(h_n)
-            c_n = P.Concat(0)(c_n)
+            h_n = ops.Concat(0)(h_n)
+            c_n = ops.Concat(0)(c_n)
             h0_shape = h[0].shape
             h1_shape = h[1].shape
             h_n = h_n.view(h0_shape)
             c_n = c_n.view(h1_shape)
             return output, (h_n.view(h0_shape), c_n.view(h1_shape))
-        h_n = P.Concat(0)(h_n)
+        h_n = ops.Concat(0)(h_n)
         return output, h_n.view(h.shape)
     def construct(self, x, hx=None, seq_length=None):
@@ -565,13 +565,13 @@ class _RNNBase(Cell):
             _check_input_dtype(seq_length.dtype, "seq_length", [mstype.int32, mstype.int64], self.cls_name)
             _check_seq_length_size(max_batch_size, seq_length.shape[0], self.cls_name)
         if self.batch_first:
-            x = P.Transpose()(x, (1, 0, 2))
+            x = ops.Transpose()(x, (1, 0, 2))
         if self.bidirectional:
             x_n, hx_n = self._stacked_bi_dynamic_rnn(x, hx, seq_length)
         else:
             x_n, hx_n = self._stacked_dynamic_rnn(x, hx, seq_length)
         if self.batch_first:
-            x_n = P.Transpose()(x_n, (1, 0, 2))
+            x_n = ops.Transpose()(x_n, (1, 0, 2))
         if not self.is_lstm:
             return x_n.astype(x_dtype), hx_n.astype(x_dtype)
         return x_n.astype(x_dtype), (hx_n[0].astype(x_dtype), hx_n[1].astype(x_dtype))

mindspore/nn/layer/thor_layer.py CHANGED Viewed

@@ -17,12 +17,12 @@ from __future__ import absolute_import
 import numpy as np
+import mindspore.ops as ops
 import mindspore.common.dtype as mstype
 import mindspore.log as logger
 from mindspore.common.tensor import Tensor
 from mindspore.common.initializer import initializer, Initializer
 from mindspore.communication.management import get_group_size, get_rank
-from mindspore.ops import operations as P
 from mindspore.ops.operations._thor_ops import ThorIm2Col
 from mindspore.common.parameter import Parameter
 from mindspore import _checkparam as Validator
@@ -34,7 +34,6 @@ from mindspore.parallel._ps_context import _is_role_worker, _get_ps_context, \
     _set_rank_id, _insert_hash_table_size, _set_cache_enable
 from mindspore.parallel._utils import _get_parallel_mode, _get_full_batch
 from mindspore.context import ParallelMode
-from mindspore.ops import functional as F
 from mindspore.nn.layer.basic import ClipByNorm
 from mindspore.ops.primitive import constexpr
@@ -61,9 +60,11 @@ class DenseThor(Cell):
         in_channels (int): The number of the input channels.
         out_channels (int): The number of the output channels.
         weight_init (Union[Tensor, str, Initializer, numbers.Number]): The trainable weight_init parameter. The dtype
-            is same as `x`. The values of str refer to the function `initializer`. Default: ``'normal'`` .
+            is same as `x`. The values of str refer to the function :func:`mindspore.common.initializer.initializer`.
+            Default: ``'normal'`` .
         bias_init (Union[Tensor, str, Initializer, numbers.Number]): The trainable bias_init parameter. The dtype is
-            same as `x`. The values of str refer to the function `initializer`. Default: ``'zeros'`` .
+            same as `x`. The values of str refer to the function :func:`mindspore.common.initializer.initializer`.
+            Default: ``'zeros'`` .
         has_bias (bool): Specifies whether the layer uses a bias vector. Default: ``True`` .
         activation (str): activate function applied to the output of the fully connected layer, eg. 'ReLU'.
             Default: ``None`` .
@@ -120,9 +121,9 @@ class DenseThor(Cell):
                                      f"be equal to 1, and the first dim must be equal to 'out_channels'. But got "
                                      f"'bias_init': {bias_init}, 'out_channels': {out_channels}.")
             self.bias = Parameter(initializer(bias_init, [out_channels]), name="bias")
-            self.bias_add = P.BiasAdd()
+            self.bias_add = ops.BiasAdd()
-        self.matmul = P.MatMul(transpose_b=True)
+        self.matmul = ops.MatMul(transpose_b=True)
         self.activation = get_activation(activation)
         self.activation_flag = self.activation is not None
@@ -130,25 +131,25 @@ class DenseThor(Cell):
                                   name='matrix_a', requires_grad=False)
         self.matrix_g = Parameter(Tensor(np.eye(out_channels).astype(np.float32)),
                                   name="matrix_g", requires_grad=False)
-        self.shape = P.Shape()
-        self.reshape = P.Reshape()
-        self.transpose = P.Transpose()
-        self.mul = P.Mul()
+        self.shape = ops.Shape()
+        self.reshape = ops.Reshape()
+        self.transpose = ops.Transpose()
+        self.mul = ops.Mul()
         self.is_ascend = True
         self.split_dim = 128
         if context.get_context("device_target") == "Ascend":
             self._process_ascend_dense_thor(out_channels, in_channels)
         else:
             self.is_ascend = False
-            self.cube_matmul = P.MatMul(transpose_a=True)
-        self.getG = P.InsertGradientOf(self.save_gradient)
+            self.cube_matmul = ops.MatMul(transpose_a=True)
+        self.getG = ops.InsertGradientOf(self.save_gradient)
     def _process_ascend_dense_thor(self, out_channels, in_channels):
         """process ascend dense thor"""
-        self.matmul = P.MatMul(transpose_b=True)
-        self.cube_matmul = P.CusMatMulCube(transpose_a=True)
-        self.cast = P.Cast()
-        self.is_nsp_layer = (out_channels == 2)
+        self.matmul = ops.MatMul(transpose_b=True)
+        self.cube_matmul = ops.CusMatMulCube(transpose_a=True)
+        self.cast = ops.Cast()
+        self.is_nsp_layer = out_channels == 2
     def save_gradient(self, dout):
         """
@@ -195,7 +196,7 @@ class DenseThor(Cell):
             x = self.activation(x)
         # We use Depend to make 'self.matrix_g' as primal graph's weight parameter,
         # for it's used in 'save_gradient' gradient procedure.
-        return F.depend(x, self.matrix_g)
+        return ops.depend(x, self.matrix_g)
     def extend_repr(self):
         s = 'input_channels={}, output_channels={}'.format(self.in_channels, self.out_channels)
@@ -388,19 +389,19 @@ class Conv2dThor(_ConvThor):
         dilation = twice(dilation)
         super(Conv2dThor, self).__init__(in_channels, out_channels, kernel_size,
                                          stride, pad_mode, padding, dilation, group, has_bias, weight_init, bias_init)
-        self.conv2d = P.Conv2D(out_channel=self.out_channels, kernel_size=self.kernel_size,
-                               mode=1, pad_mode=self.pad_mode, pad=self.padding,
-                               stride=self.stride, dilation=self.dilation, group=self.group)
+        self.conv2d = ops.Conv2D(out_channel=self.out_channels, kernel_size=self.kernel_size,
+                                 mode=1, pad_mode=self.pad_mode, pad=self.padding,
+                                 stride=self.stride, dilation=self.dilation, group=self.group)
         self._init_depthwise_conv2d(weight_init)
-        self.bias_add = P.BiasAdd()
+        self.bias_add = ops.BiasAdd()
         self.thor = True
         self.hw = kernel_size[0] * kernel_size[1]
         self.matrix_a_dim = self.in_channels * self.kernel_size[0] * self.kernel_size[1]
         self.matrix_g_dim = self.out_channels
-        self.shape = P.Shape()
-        self.reshape = P.Reshape()
-        self.mul = P.Mul()
-        self.cast = P.Cast()
+        self.shape = ops.Shape()
+        self.reshape = ops.Reshape()
+        self.mul = ops.Mul()
+        self.cast = ops.Cast()
         self.a_normalizer = Parameter(initializer(1, [1], mstype.float32), name="a_normalizer", requires_grad=False)
         self.g_normalizer = Parameter(initializer(1, [1], mstype.float32), name="g_normalizer", requires_grad=False)
         self.is_ascend = True
@@ -409,30 +410,30 @@ class Conv2dThor(_ConvThor):
         else:
             self.is_ascend = False
             self.img2col = ThorIm2Col(kernel_size=kernel_size, stride=stride, pad_mode="same")
-            self.matmul = P.MatMul(transpose_b=True)
-            self.reduce_mean = P.ReduceMean(keep_dims=False)
+            self.matmul = ops.MatMul(transpose_b=True)
+            self.reduce_mean = ops.ReduceMean(keep_dims=False)
             self.matrix_a_cov = Parameter(Tensor(np.zeros([self.matrix_a_dim, self.matrix_a_dim]).astype(np.float32)),
                                           name='matrix_a', requires_grad=False)
             self.matrix_g_cov = Parameter(Tensor(np.zeros([self.matrix_g_dim, self.matrix_g_dim]).astype(np.float32)),
                                           name='matrix_g', requires_grad=False)
-        self.getG = P.InsertGradientOf(self.save_gradient)
+        self.getG = ops.InsertGradientOf(self.save_gradient)
     def _process_ascend_conv2d_thor(self, kernel_size, stride):
         """process ascend conv2d thor"""
         ksizes = (1, kernel_size[0], kernel_size[1], 1)
         strides = (1, stride[0], stride[1], 1)
         ksizes_tbe = (kernel_size[0], kernel_size[1])
-        self.img2col = P.CusImg2Col(ksizes=ksizes, strides=strides)
-        self.transpose = P.Transpose()
-        self.reshape = P.Reshape()
-        self.cube_matmul = P.CusMatMulCube(transpose_a=True)
+        self.img2col = ops.CusImg2Col(ksizes=ksizes, strides=strides)
+        self.transpose = ops.Transpose()
+        self.reshape = ops.Reshape()
+        self.cube_matmul = ops.CusMatMulCube(transpose_a=True)
         self.diag_block_dim = 128
         self.matrix_a_cov = Parameter(Tensor(np.eye(self.matrix_a_dim).astype(np.float32)),
                                       name='matrix_a', requires_grad=False)
         self.matrix_g_cov = Parameter(Tensor(np.eye(self.matrix_g_dim).astype(np.float32)),
                                       name='matrix_g', requires_grad=False)
-        self.slice = P.Slice()
-        self.im2col = P.NewIm2Col(ksizes=ksizes_tbe, strides=stride[0], padding_mode="SAME")
+        self.slice = ops.Slice()
+        self.im2col = ops.NewIm2Col(ksizes=ksizes_tbe, strides=stride[0], padding_mode="SAME")
     def _init_depthwise_conv2d(self, weight_init):
         """Initialize depthwise conv2d op"""
@@ -440,12 +441,12 @@ class Conv2dThor(_ConvThor):
             self.dilation = self._dilation
             Validator.check_int('group', self.group, self.in_channels, Validator.EQ, self.cls_name)
             Validator.check_int('group', self.group, self.out_channels, Validator.EQ, self.cls_name)
-            self.conv2d = P.DepthwiseConv2dNative(channel_multiplier=1,
-                                                  kernel_size=self.kernel_size,
-                                                  pad_mode=self.pad_mode,
-                                                  pad=self.padding,
-                                                  stride=self.stride,
-                                                  dilation=self.dilation)
+            self.conv2d = ops.DepthwiseConv2dNative(channel_multiplier=1,
+                                                    kernel_size=self.kernel_size,
+                                                    pad_mode=self.pad_mode,
+                                                    pad=self.padding,
+                                                    stride=self.stride,
+                                                    dilation=self.dilation)
             weight_shape = [1, self.in_channels, *self.kernel_size]
             self.weight_init = weight_init
             if isinstance(weight_init, Tensor):
@@ -598,29 +599,29 @@ class EmbeddingThor(Cell):
                                                          "padding_idx", self.cls_name)
             self.init_tensor[self.padding_idx] = 0
         self.embedding_table = Parameter(self.init_tensor, name='embedding_table')
-        self.expand = P.ExpandDims()
-        self.reshape_flat = P.Reshape()
+        self.expand = ops.ExpandDims()
+        self.reshape_flat = ops.Reshape()
         self.shp_flat = (-1,)
-        self.gather = P.Gather()
-        self.one_hot = P.OneHot()
+        self.gather = ops.Gather()
+        self.one_hot = ops.OneHot()
         self.on_value = Tensor(1.0, self.dtype)
         self.off_value = Tensor(0.0, self.dtype)
-        self.array_mul = P.MatMul()
-        self.reshape = P.Reshape()
-        self.get_shp = P.Shape()
+        self.array_mul = ops.MatMul()
+        self.reshape = ops.Reshape()
+        self.get_shp = ops.Shape()
         self.thor = True
         self.matrix_a = Parameter(Tensor(np.zeros([vocab_size]).astype(np.float32)),
                                   name='matrix_a', requires_grad=False)
         self.matrix_g = Parameter(Tensor(np.zeros([embedding_size, embedding_size]).astype(np.float32)),
                                   name="matrix_g", requires_grad=False)
-        self.reduce_sum = P.ReduceSum(keep_dims=False)
-        self.getG = P.InsertGradientOf(self.save_gradient)
-        self.cast = P.Cast()
+        self.reduce_sum = ops.ReduceSum(keep_dims=False)
+        self.getG = ops.InsertGradientOf(self.save_gradient)
+        self.cast = ops.Cast()
         if context.get_context("device_target") == "Ascend":
-            self.cube_matmul = P.CusMatMulCube(transpose_a=True)
+            self.cube_matmul = ops.CusMatMulCube(transpose_a=True)
         else:
-            self.cube_matmul = P.MatMul(transpose_a=True)
-        self.mul = P.Mul()
+            self.cube_matmul = ops.MatMul(transpose_a=True)
+        self.mul = ops.Mul()
     def save_gradient(self, dout):
         """
@@ -656,7 +657,7 @@ class EmbeddingThor(Cell):
         output = self.reshape(output_for_reshape, out_shape)
         # We use Depend to make 'self.matrix_g' as primal graph's weight parameter,
         # for it's used in 'save_gradient' gradient procedure.
-        return F.depend(output, self.matrix_g)
+        return ops.depend(output, self.matrix_g)
     def extend_repr(self):
         s = 'vocab_size={}, embedding_size={}, use_one_hot={}, embedding_table={}, dtype={}, padding_idx={}'.format(
@@ -752,10 +753,10 @@ class EmbeddingLookupThor(Cell):
             raise ValueError(f"For '{self.cls_name}', embedding_lookup must be sparse when 'target' is CPU, but got "
                              f"'sparse': {sparse}, 'target': {target}.")
         if sparse:
-            self.gatherv2 = P.SparseGatherV2()
+            self.gatherv2 = ops.SparseGatherV2()
         else:
-            self.gatherv2 = P.Gather()
-        self.embeddinglookup = P.EmbeddingLookup().set_device('CPU')
+            self.gatherv2 = ops.Gather()
+        self.embeddinglookup = ops.EmbeddingLookup().set_device('CPU')
         enable_ps = _get_ps_context("enable_ps")
         if enable_ps:
             self._process_vocab_cache(slice_mode)
@@ -764,13 +765,13 @@ class EmbeddingLookupThor(Cell):
                                                      mstype.float16), name='embedding_table')
         parallel_mode = _get_parallel_mode()
         is_auto_parallel = parallel_mode in (ParallelMode.SEMI_AUTO_PARALLEL, ParallelMode.AUTO_PARALLEL)
-        self.gather_revert = P.Gather()
-        self.reshape_first = P.Reshape()
-        self.reshape = P.Reshape()
-        self.unique = P.Unique()
-        self.shape = P.Shape()
+        self.gather_revert = ops.Gather()
+        self.reshape_first = ops.Reshape()
+        self.reshape = ops.Reshape()
+        self.unique = ops.Unique()
+        self.shape = ops.Shape()
         if is_auto_parallel:
-            self.unique = P.Unique().shard(((1,),))
+            self.unique = ops.Unique().shard(((1,),))
         if self.cache_enable and enable_ps:
             self._set_voacb_cache_enable_for_ps(vocab_cache_size, embedding_size, vocab_size)
             if is_auto_parallel:
@@ -833,14 +834,14 @@ class EmbeddingLookupThor(Cell):
                                   name='matrix_a', requires_grad=False)
         self.matrix_g = Parameter(Tensor(np.zeros([embedding_size, embedding_size]).astype(np.float32)),
                                   name="matrix_g", requires_grad=False)
-        self.reduce_sum = P.ReduceSum(keep_dims=False)
-        self.getG = P.InsertGradientOf(self.save_gradient)
-        self.cast = P.Cast()
-        self.cube_matmul = P.MatMul(transpose_a=True)
-        self.mul = P.Mul()
+        self.reduce_sum = ops.ReduceSum(keep_dims=False)
+        self.getG = ops.InsertGradientOf(self.save_gradient)
+        self.cast = ops.Cast()
+        self.cube_matmul = ops.MatMul(transpose_a=True)
+        self.mul = ops.Mul()
         self.on_value = Tensor(1.0, self.dtype)
         self.off_value = Tensor(0.0, self.dtype)
-        self.one_hot = P.OneHot()
+        self.one_hot = ops.OneHot()
     def save_gradient(self, dout):
@@ -872,11 +873,11 @@ class EmbeddingLookupThor(Cell):
         logger.info("EmbeddingLookup cache enable takes effect.")
         self.forward_unique = True
-        self.unique = P.Unique().set_device('CPU')
+        self.unique = ops.Unique().set_device('CPU')
         self.unique.add_prim_attr('cache_enable', True)
         self.embedding_table.cache_enable = self.cache_enable
         self.embedding_table.cache_shape = (self.vocab_cache_size, self.embedding_size)
-        self.reshape_first = P.Reshape().set_device('CPU')
+        self.reshape_first = ops.Reshape().set_device('CPU')
     def _process_vocab_cache(self, slice_mode):
         """PS embeddingLookup cache check and process."""
@@ -955,9 +956,9 @@ class EmbeddingLookupThor(Cell):
                 else:
                     out = self.gatherv2(self.embedding_table, indices, 0)
         if self.max_norm is not None:
-            axis = _make_axis_range(F.rank(indices), F.rank(out))
+            axis = _make_axis_range(ops.rank(indices), ops.rank(out))
             clip_by_norm = ClipByNorm(axis)
             out = clip_by_norm(out, self.max_norm)
         # We use Depend to make 'self.matrix_g' as primal graph's weight parameter,
         # for it's used in 'save_gradient' gradient procedure.
-        return F.depend(out, self.matrix_g)
+        return ops.depend(out, self.matrix_g)

mindspore/nn/layer/transformer.py CHANGED Viewed

@@ -12,6 +12,11 @@
 # See the License for the specific language governing permissions and
 # limitations under the License.
 # ============================================================================
+# The implementation of the classes `MultiheadAttention`, `TransformerEncoderLayer`, `TransformerDecoderLayer`,
+# `TransformerEncoder`, `TransformerDecoder` and `Transformer` is referenced from the PyTorch project.
+# - https://github.com/pytorch/pytorch/blob/release/2.0/torch/nn/modules/transformer.py
+# - https://github.com/pytorch/pytorch/blob/release/2.0/torch/nn/modules/activation.py
+# Additional modifications are made by Huawei Technologies Co., Ltd in 2022.
 """
 Transformer Cells module, include TransformerEncoderLayer, TransformerDecoderLayer,
 TransformerEncoder, TransformerDecoder, Transformer.
@@ -245,7 +250,12 @@ class MultiheadAttention(Cell):
 class TransformerEncoderLayer(Cell):
     r"""
     Transformer Encoder Layer. This is an implementation of the single layer of the transformer
-    encoder layer, including multihead attention and feedward layer.
+    encoder layer, mainly including Multi-Head Attention, Feed Forward, Add and LayerNorm layer.
+    The TransformerEncoderLayer structure is shown in the following figure:
+    .. image:: ../images/TransformerEncoderLayer.png
+        :align: center
     Args:
         d_model (int): The number of features in the input tensor.