PyPI - mindspore - Versions diffs - 2.6.0__cp311-cp311-win_amd64.whl → 2.7.0__cp311-cp311-win_amd64.whl - Mend

mindspore 2.6.0__cp311-cp311-win_amd64.whl → 2.7.0__cp311-cp311-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of mindspore might be problematic. Click here for more details.

Files changed (455) hide show

mindspore/.commit_id +1 -1
mindspore/Microsoft.VisualStudio.Telemetry.dll +0 -0
mindspore/Newtonsoft.Json.dll +0 -0
mindspore/__init__.py +2 -2
mindspore/_c_dataengine.cp311-win_amd64.pyd +0 -0
mindspore/_c_expression.cp311-win_amd64.pyd +0 -0
mindspore/_c_mindrecord.cp311-win_amd64.pyd +0 -0
mindspore/_checkparam.py +42 -11
mindspore/_extends/builtin_operations.py +3 -3
mindspore/{_deprecated → _extends/optimize}/__init__.py +9 -3
mindspore/_extends/optimize/cell_utils.py +96 -0
mindspore/_extends/parallel_compile/akg_compiler/custom.py +1109 -0
mindspore/_extends/parallel_compile/akg_compiler/gen_custom_op_files.py +1 -1
mindspore/_extends/parse/__init__.py +3 -3
mindspore/_extends/parse/compile_config.py +44 -22
mindspore/_extends/parse/deprecated/deprecated_tensor_method.py +1 -2
mindspore/_extends/parse/parser.py +64 -83
mindspore/_extends/parse/resources.py +39 -0
mindspore/_extends/parse/standard_method.py +47 -14
mindspore/_extends/parse/trope.py +8 -1
mindspore/_extends/pijit/__init__.py +1 -2
mindspore/_extends/pijit/pijit_func_white_list.py +2 -5
mindspore/amp.py +4 -22
mindspore/atlprov.dll +0 -0
mindspore/avcodec-59.dll +0 -0
mindspore/avdevice-59.dll +0 -0
mindspore/avfilter-8.dll +0 -0
mindspore/avformat-59.dll +0 -0
mindspore/avutil-57.dll +0 -0
mindspore/boost/adasum.py +1 -1
mindspore/boost/boost_cell_wrapper.py +4 -4
mindspore/c1.dll +0 -0
mindspore/c1xx.dll +0 -0
mindspore/c2.dll +0 -0
mindspore/common/__init__.py +43 -12
mindspore/common/_grad_function.py +2 -1
mindspore/common/_pijit_context.py +28 -7
mindspore/common/_stub_tensor.py +1 -209
mindspore/common/_tensor_cpp_method.py +1 -1
mindspore/common/_tensor_docs.py +177 -52
mindspore/common/_utils.py +9 -1
mindspore/common/api.py +338 -208
mindspore/common/dtype.py +108 -57
mindspore/common/dump.py +11 -16
mindspore/common/dynamic_shape/__init__.py +0 -0
mindspore/common/{auto_dynamic_shape.py → dynamic_shape/auto_dynamic_shape.py} +17 -23
mindspore/common/dynamic_shape/enable_dynamic.py +197 -0
mindspore/common/file_system.py +59 -9
mindspore/common/generator.py +2 -3
mindspore/common/hook_handle.py +33 -5
mindspore/common/jit_config.py +1 -1
mindspore/common/jit_trace.py +84 -105
mindspore/common/np_dtype.py +3 -3
mindspore/common/parameter.py +27 -29
mindspore/common/recompute.py +5 -7
mindspore/common/sparse_tensor.py +0 -3
mindspore/common/symbol.py +0 -1
mindspore/common/tensor.py +84 -133
mindspore/communication/_comm_helper.py +46 -4
mindspore/communication/management.py +79 -7
mindspore/context.py +47 -38
mindspore/dataset/__init__.py +1 -1
mindspore/dataset/audio/transforms.py +1 -1
mindspore/dataset/core/config.py +38 -4
mindspore/dataset/engine/datasets.py +350 -322
mindspore/dataset/engine/datasets_user_defined.py +69 -23
mindspore/dataset/engine/iterators.py +2 -2
mindspore/dataset/engine/obs/config_loader.py +2 -2
mindspore/dataset/engine/obs/obs_mindrecord_dataset.py +8 -0
mindspore/dataset/transforms/c_transforms.py +2 -2
mindspore/dataset/transforms/py_transforms.py +7 -3
mindspore/dataset/transforms/transforms.py +10 -6
mindspore/dataset/vision/__init__.py +1 -1
mindspore/dataset/vision/py_transforms.py +8 -8
mindspore/dataset/vision/transforms.py +17 -5
mindspore/dataset/vision/utils.py +632 -21
mindspore/dataset/vision/validators.py +1 -0
mindspore/device_context/ascend/device.py +1 -1
mindspore/device_context/ascend/op_tuning.py +35 -1
mindspore/device_context/gpu/__init__.py +2 -2
mindspore/device_context/gpu/device.py +1 -1
mindspore/device_context/gpu/op_precision.py +4 -2
mindspore/device_context/gpu/op_tuning.py +6 -3
mindspore/device_manager.py +16 -9
mindspore/dnnl.dll +0 -0
mindspore/dpcmi.dll +0 -0
mindspore/experimental/llm_boost/ascend_native/llama_boost_ascend_native.py +5 -4
mindspore/experimental/llm_boost/atb/boost_base.py +2 -3
mindspore/experimental/optim/adadelta.py +13 -20
mindspore/experimental/optim/adagrad.py +15 -22
mindspore/experimental/optim/adam.py +17 -24
mindspore/experimental/optim/adamax.py +14 -22
mindspore/experimental/optim/adamw.py +28 -34
mindspore/experimental/optim/asgd.py +15 -25
mindspore/experimental/optim/lr_scheduler.py +27 -45
mindspore/experimental/optim/nadam.py +14 -24
mindspore/experimental/optim/optimizer.py +13 -23
mindspore/experimental/optim/radam.py +18 -24
mindspore/experimental/optim/rmsprop.py +14 -25
mindspore/experimental/optim/rprop.py +15 -26
mindspore/experimental/optim/sgd.py +9 -19
mindspore/hal/__init__.py +4 -4
mindspore/hal/contiguous_tensors_handle.py +2 -2
mindspore/hal/memory.py +1 -0
mindspore/include/api/cell.h +65 -5
mindspore/include/api/cfg.h +24 -7
mindspore/include/api/context.h +1 -0
mindspore/include/api/delegate.h +10 -2
mindspore/include/api/dual_abi_helper.h +100 -19
mindspore/include/api/graph.h +14 -1
mindspore/include/api/kernel.h +16 -3
mindspore/include/api/kernel_api.h +9 -1
mindspore/include/api/metrics/accuracy.h +9 -0
mindspore/include/api/model.h +8 -1
mindspore/include/api/model_group.h +4 -0
mindspore/include/api/model_parallel_runner.h +2 -0
mindspore/include/api/status.h +48 -10
mindspore/include/api/types.h +8 -3
mindspore/include/c_api/model_c.h +0 -58
mindspore/include/c_api/tensor_c.h +0 -26
mindspore/include/dataset/constants.h +9 -0
mindspore/include/dataset/vision_ascend.h +1 -1
mindspore/jpeg62.dll +0 -0
mindspore/mindrecord/tools/cifar10.py +61 -11
mindspore/mindrecord/tools/cifar10_to_mr.py +5 -0
mindspore/mindspore_backend_common.dll +0 -0
mindspore/mindspore_backend_manager.dll +0 -0
mindspore/mindspore_common.dll +0 -0
mindspore/mindspore_core.dll +0 -0
mindspore/mindspore_cpu_res_manager.dll +0 -0
mindspore/mindspore_dump.dll +0 -0
mindspore/mindspore_frontend.dll +0 -0
mindspore/mindspore_glog.dll +0 -0
mindspore/mindspore_memory_pool.dll +0 -0
mindspore/mindspore_ms_backend.dll +0 -0
mindspore/mindspore_ops.dll +0 -0
mindspore/mindspore_ops_host.dll +0 -0
mindspore/mindspore_ops_kernel_common.dll +0 -0
mindspore/mindspore_profiler.dll +0 -0
mindspore/mindspore_pyboost.dll +0 -0
mindspore/mindspore_pynative.dll +0 -0
mindspore/mindspore_res_manager.dll +0 -0
mindspore/mindspore_runtime_pipeline.dll +0 -0
mindspore/mint/__init__.py +4 -44
mindspore/mint/distributed/__init__.py +5 -0
mindspore/mint/distributed/distributed.py +425 -19
mindspore/mint/nn/__init__.py +1 -1
mindspore/mint/nn/functional.py +53 -6
mindspore/mint/nn/layer/_functions.py +163 -294
mindspore/mint/nn/layer/activation.py +8 -6
mindspore/mint/nn/layer/conv.py +125 -101
mindspore/mint/nn/layer/normalization.py +11 -25
mindspore/mint/optim/adam.py +19 -18
mindspore/mint/optim/adamw.py +14 -8
mindspore/mint/optim/sgd.py +5 -5
mindspore/msobj140.dll +0 -0
mindspore/mspdb140.dll +0 -0
mindspore/mspdbcore.dll +0 -0
mindspore/mspdbst.dll +0 -0
mindspore/mspft140.dll +0 -0
mindspore/msvcdis140.dll +0 -0
mindspore/msvcp140_1.dll +0 -0
mindspore/msvcp140_2.dll +0 -0
mindspore/msvcp140_atomic_wait.dll +0 -0
mindspore/msvcp140_codecvt_ids.dll +0 -0
mindspore/nn/cell.py +488 -620
mindspore/nn/grad/cell_grad.py +11 -12
mindspore/nn/layer/activation.py +36 -36
mindspore/nn/layer/basic.py +74 -77
mindspore/nn/layer/channel_shuffle.py +4 -4
mindspore/nn/layer/combined.py +4 -2
mindspore/nn/layer/conv.py +86 -85
mindspore/nn/layer/dense.py +9 -7
mindspore/nn/layer/embedding.py +50 -52
mindspore/nn/layer/image.py +38 -40
mindspore/nn/layer/math.py +111 -112
mindspore/nn/layer/normalization.py +56 -44
mindspore/nn/layer/pooling.py +58 -63
mindspore/nn/layer/rnn_cells.py +33 -33
mindspore/nn/layer/rnns.py +56 -56
mindspore/nn/layer/thor_layer.py +74 -73
mindspore/nn/layer/transformer.py +11 -1
mindspore/nn/learning_rate_schedule.py +20 -20
mindspore/nn/loss/loss.py +79 -81
mindspore/nn/optim/adam.py +2 -4
mindspore/nn/optim/adasum.py +2 -2
mindspore/nn/optim/lamb.py +1 -3
mindspore/nn/optim/optimizer.py +1 -1
mindspore/nn/optim/tft_wrapper.py +2 -3
mindspore/nn/optim/thor.py +2 -2
mindspore/nn/probability/distribution/_utils/utils.py +2 -2
mindspore/nn/probability/distribution/exponential.py +2 -1
mindspore/nn/probability/distribution/poisson.py +2 -1
mindspore/nn/sparse/sparse.py +3 -3
mindspore/nn/wrap/cell_wrapper.py +73 -42
mindspore/nn/wrap/grad_reducer.py +37 -52
mindspore/nn/wrap/loss_scale.py +72 -74
mindspore/numpy/array_creations.py +7 -7
mindspore/numpy/fft.py +1 -1
mindspore/numpy/math_ops.py +1 -1
mindspore/numpy/utils_const.py +1 -1
mindspore/opencv_core452.dll +0 -0
mindspore/opencv_imgcodecs452.dll +0 -0
mindspore/opencv_imgproc452.dll +0 -0
mindspore/ops/_grad_experimental/grad_comm_ops.py +51 -13
mindspore/ops/_grad_experimental/grad_debug_ops.py +14 -0
mindspore/ops/_grad_experimental/grad_inner_ops.py +0 -9
mindspore/ops/_op_impl/cpu/__init__.py +1 -0
mindspore/{experimental/es/__init__.py → ops/_op_impl/cpu/joinedstr_op.py} +12 -6
mindspore/ops/_vmap/vmap_array_ops.py +6 -13
mindspore/ops/_vmap/vmap_nn_ops.py +8 -16
mindspore/ops/auto_generate/cpp_create_prim_instance_helper.py +29 -10
mindspore/ops/auto_generate/gen_extend_func.py +5 -55
mindspore/ops/auto_generate/gen_ops_def.py +753 -273
mindspore/ops/auto_generate/gen_ops_prim.py +1687 -958
mindspore/ops/auto_generate/pyboost_inner_prim.py +31 -1
mindspore/ops/composite/__init__.py +10 -0
mindspore/ops/composite/base.py +9 -5
mindspore/ops/composite/multitype_ops/__init__.py +12 -1
mindspore/ops/composite/multitype_ops/_compile_utils.py +132 -108
mindspore/ops/composite/multitype_ops/_constexpr_utils.py +1 -1
mindspore/ops/composite/multitype_ops/add_impl.py +70 -2
mindspore/ops/composite/multitype_ops/div_impl.py +49 -0
mindspore/ops/composite/multitype_ops/floordiv_impl.py +29 -0
mindspore/ops/composite/multitype_ops/getitem_impl.py +11 -0
mindspore/ops/composite/multitype_ops/mod_impl.py +5 -3
mindspore/ops/composite/multitype_ops/mul_impl.py +49 -0
mindspore/ops/composite/multitype_ops/setitem_impl.py +57 -0
mindspore/ops/composite/multitype_ops/sub_impl.py +34 -0
mindspore/ops/composite/multitype_ops/zeros_like_impl.py +14 -0
mindspore/ops/function/__init__.py +4 -1
mindspore/ops/function/_add_attr_func.py +11 -6
mindspore/ops/function/array_func.py +17 -100
mindspore/ops/function/debug_func.py +8 -5
mindspore/ops/function/grad/grad_func.py +5 -13
mindspore/ops/function/math_func.py +65 -399
mindspore/ops/function/nn_func.py +44 -61
mindspore/ops/function/other_func.py +4 -1
mindspore/ops/function/random_func.py +31 -4
mindspore/ops/functional.py +2 -3
mindspore/ops/functional_overload.py +486 -18
mindspore/ops/op_info_register.py +21 -0
mindspore/ops/operations/__init__.py +5 -2
mindspore/ops/operations/_custom_ops_utils.py +675 -8
mindspore/ops/operations/_inner_ops.py +14 -18
mindspore/ops/operations/_sequence_ops.py +1 -1
mindspore/ops/operations/array_ops.py +4 -50
mindspore/ops/operations/comm_ops.py +186 -41
mindspore/ops/operations/custom_ops.py +244 -175
mindspore/ops/operations/debug_ops.py +55 -4
mindspore/ops/operations/image_ops.py +13 -13
mindspore/ops/operations/manually_defined/ops_def.py +27 -28
mindspore/ops/operations/math_ops.py +8 -9
mindspore/ops/operations/nn_ops.py +6 -7
mindspore/ops/primitive.py +9 -20
mindspore/ops/tensor_method.py +52 -11
mindspore/ops_generate/api/cpp_create_prim_instance_helper_generator.py +1 -1
mindspore/ops_generate/api/functional_map_cpp_generator.py +10 -9
mindspore/ops_generate/api/functions_cc_generator.py +58 -10
mindspore/ops_generate/api/tensor_func_reg_cpp_generator.py +1 -1
mindspore/ops_generate/common/base_generator.py +14 -0
mindspore/ops_generate/common/gen_constants.py +7 -2
mindspore/ops_generate/common/gen_utils.py +0 -19
mindspore/ops_generate/common/op_proto.py +11 -4
mindspore/ops_generate/common/template.py +88 -11
mindspore/ops_generate/gen_ops.py +1 -1
mindspore/ops_generate/op_def/lite_ops_cpp_generator.py +4 -4
mindspore/ops_generate/op_def/ops_name_h_generator.py +0 -3
mindspore/ops_generate/op_def/ops_primitive_h_generator.py +0 -4
mindspore/ops_generate/op_def_py/op_prim_py_generator.py +5 -2
mindspore/ops_generate/pyboost/auto_grad_impl_cc_generator.py +49 -8
mindspore/ops_generate/pyboost/auto_grad_reg_cc_generator.py +2 -2
mindspore/ops_generate/pyboost/gen_pyboost_func.py +31 -16
mindspore/ops_generate/pyboost/op_template_parser.py +98 -72
mindspore/ops_generate/pyboost/pyboost_functions_cpp_generator.py +70 -273
mindspore/ops_generate/pyboost/pyboost_functions_h_generator.py +14 -6
mindspore/ops_generate/pyboost/pyboost_functions_impl_cpp_generator.py +316 -0
mindspore/ops_generate/pyboost/pyboost_functions_py_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_grad_function_cpp_generator.py +5 -3
mindspore/ops_generate/pyboost/pyboost_inner_prim_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_internal_functions_cpp_generator.py +76 -0
mindspore/ops_generate/pyboost/pyboost_internal_functions_h_generator.py +76 -0
mindspore/ops_generate/pyboost/pyboost_internal_kernel_info_adapter_generator.py +125 -0
mindspore/ops_generate/pyboost/pyboost_native_grad_functions_generator.py +4 -3
mindspore/ops_generate/pyboost/pyboost_op_cpp_code_generator.py +348 -61
mindspore/ops_generate/pyboost/pyboost_overload_functions_cpp_generator.py +1 -1
mindspore/ops_generate/pyboost/pyboost_utils.py +118 -9
mindspore/ops_generate/tensor_py_cc_generator.py +1 -24
mindspore/parallel/_auto_parallel_context.py +9 -17
mindspore/parallel/_cell_wrapper.py +106 -40
mindspore/parallel/_parallel_serialization.py +4 -3
mindspore/parallel/_ps_context.py +4 -6
mindspore/parallel/_tensor.py +167 -12
mindspore/parallel/_transformer/moe.py +1 -1
mindspore/parallel/_transformer/transformer.py +17 -12
mindspore/parallel/_utils.py +5 -11
mindspore/parallel/auto_parallel.py +33 -12
mindspore/parallel/checkpoint_convert.py +3 -3
mindspore/parallel/checkpoint_transform.py +5 -1
mindspore/parallel/cluster/process_entity/_api.py +88 -49
mindspore/parallel/cluster/process_entity/_utils.py +95 -7
mindspore/parallel/cluster/run.py +48 -7
mindspore/parallel/function/__init__.py +8 -1
mindspore/parallel/function/reshard_func.py +7 -6
mindspore/parallel/nn/__init__.py +15 -2
mindspore/parallel/nn/parallel_cell_wrapper.py +50 -14
mindspore/parallel/nn/parallel_grad_reducer.py +7 -14
mindspore/parallel/shard.py +9 -23
mindspore/parallel/transform_safetensors.py +468 -174
mindspore/pgodb140.dll +0 -0
mindspore/pgort140.dll +0 -0
mindspore/profiler/__init__.py +2 -1
mindspore/profiler/analysis/parser/timeline_assembly_factory/ascend_timeline_assembler.py +7 -7
mindspore/profiler/analysis/parser/timeline_assembly_factory/base_timeline_assembler.py +3 -0
mindspore/profiler/analysis/parser/timeline_assembly_factory/trace_view_container.py +3 -0
mindspore/profiler/analysis/parser/timeline_creator/cpu_op_timeline_creator.py +3 -3
mindspore/profiler/analysis/parser/timeline_creator/fwk_timeline_creator.py +3 -3
mindspore/profiler/analysis/parser/timeline_creator/msprof_timeline_creator.py +4 -4
mindspore/profiler/analysis/parser/timeline_creator/scope_layer_timeline_creator.py +3 -3
mindspore/profiler/analysis/parser/timeline_event/fwk_event.py +4 -1
mindspore/profiler/analysis/parser/timeline_event/timeline_event_pool.py +2 -1
mindspore/profiler/analysis/task_manager.py +1 -1
mindspore/profiler/analysis/viewer/ascend_communication_viewer.py +5 -1
mindspore/profiler/analysis/viewer/ascend_integrate_viewer.py +2 -1
mindspore/profiler/analysis/viewer/ascend_kernel_details_viewer.py +10 -9
mindspore/profiler/analysis/viewer/ascend_op_memory_viewer.py +43 -23
mindspore/profiler/analysis/viewer/ascend_step_trace_time_viewer.py +3 -2
mindspore/profiler/analysis/viewer/ms_minddata_viewer.py +9 -5
mindspore/profiler/analysis/viewer/ms_operator_details_viewer.py +132 -0
mindspore/profiler/common/constant.py +16 -0
mindspore/profiler/common/msprof_cmd_tool.py +2 -2
mindspore/profiler/common/path_manager.py +9 -0
mindspore/profiler/common/profiler_context.py +50 -29
mindspore/profiler/common/profiler_info.py +0 -16
mindspore/profiler/common/profiler_meta_data.py +1 -0
mindspore/profiler/common/profiler_op_analyse.py +239 -0
mindspore/profiler/common/profiler_output_path.py +23 -8
mindspore/profiler/common/profiler_parameters.py +128 -35
mindspore/profiler/dynamic_profile/__init__.py +0 -0
mindspore/profiler/dynamic_profile/dynamic_monitor_proxy.py +39 -0
mindspore/profiler/dynamic_profile/dynamic_profiler_config_context.py +666 -0
mindspore/profiler/dynamic_profile/dynamic_profiler_utils.py +62 -0
mindspore/profiler/dynamic_profiler.py +374 -338
mindspore/profiler/envprofiler.py +42 -12
mindspore/profiler/experimental_config.py +112 -7
mindspore/profiler/mstx.py +33 -12
mindspore/profiler/platform/__init__.py +2 -3
mindspore/profiler/platform/cpu_profiler.py +10 -4
mindspore/profiler/platform/npu_profiler.py +30 -20
mindspore/profiler/profiler.py +218 -154
mindspore/profiler/profiler_action_controller.py +65 -77
mindspore/profiler/profiler_interface.py +2 -2
mindspore/profiler/schedule.py +10 -4
mindspore/rewrite/common/config.py +1 -0
mindspore/rewrite/common/namer.py +1 -0
mindspore/rewrite/common/namespace.py +1 -0
mindspore/rewrite/node/node.py +31 -11
mindspore/rewrite/parsers/assign_parser.py +1 -1
mindspore/rewrite/symbol_tree/symbol_tree.py +2 -2
mindspore/run_check/_check_version.py +7 -10
mindspore/runtime/__init__.py +8 -6
mindspore/runtime/event.py +10 -4
mindspore/runtime/executor.py +87 -45
mindspore/runtime/memory.py +22 -30
mindspore/runtime/thread_bind_core.py +299 -165
mindspore/safeguard/rewrite_obfuscation.py +12 -13
mindspore/swresample-4.dll +0 -0
mindspore/swscale-6.dll +0 -0
mindspore/tbbmalloc.dll +0 -0
mindspore/tinyxml2.dll +0 -0
mindspore/train/_utils.py +9 -5
mindspore/train/amp.py +43 -23
mindspore/train/callback/__init__.py +5 -5
mindspore/train/callback/_callback.py +2 -1
mindspore/train/callback/_checkpoint.py +4 -14
mindspore/train/callback/_flops_collector.py +11 -7
mindspore/train/callback/_landscape.py +0 -1
mindspore/train/callback/_train_fault_tolerance.py +72 -18
mindspore/train/data_sink.py +15 -6
mindspore/train/dataset_helper.py +14 -5
mindspore/train/model.py +49 -47
mindspore/train/serialization.py +168 -126
mindspore/train/summary/summary_record.py +13 -2
mindspore/train/train_thor/model_thor.py +2 -2
mindspore/turbojpeg.dll +0 -0
mindspore/utils/__init__.py +3 -2
mindspore/utils/dryrun.py +0 -6
mindspore/utils/runtime_execution_order_check.py +162 -78
mindspore/utils/sdc_detect.py +68 -0
mindspore/utils/utils.py +14 -17
mindspore/vcmeta.dll +0 -0
mindspore/vcruntime140.dll +0 -0
mindspore/vcruntime140_1.dll +0 -0
mindspore/version.py +1 -1
{mindspore-2.6.0.dist-info → mindspore-2.7.0.dist-info}/METADATA +5 -4
{mindspore-2.6.0.dist-info → mindspore-2.7.0.dist-info}/RECORD +400 -439
mindspore/_deprecated/jit.py +0 -198
mindspore/_extends/remote/kernel_build_server_ascend.py +0 -75
mindspore/communication/_hccl_management.py +0 -297
mindspore/experimental/es/embedding_service.py +0 -891
mindspore/experimental/es/embedding_service_layer.py +0 -581
mindspore/profiler/common/validator/__init__.py +0 -14
mindspore/profiler/common/validator/validate_path.py +0 -84
mindspore/profiler/parser/__init__.py +0 -14
mindspore/profiler/parser/aicpu_data_parser.py +0 -272
mindspore/profiler/parser/ascend_analysis/__init__.py +0 -14
mindspore/profiler/parser/ascend_analysis/constant.py +0 -71
mindspore/profiler/parser/ascend_analysis/file_manager.py +0 -180
mindspore/profiler/parser/ascend_analysis/function_event.py +0 -185
mindspore/profiler/parser/ascend_analysis/fwk_cann_parser.py +0 -136
mindspore/profiler/parser/ascend_analysis/fwk_file_parser.py +0 -131
mindspore/profiler/parser/ascend_analysis/msprof_timeline_parser.py +0 -104
mindspore/profiler/parser/ascend_analysis/path_manager.py +0 -313
mindspore/profiler/parser/ascend_analysis/profiler_info_parser.py +0 -123
mindspore/profiler/parser/ascend_analysis/tlv_decoder.py +0 -86
mindspore/profiler/parser/ascend_analysis/trace_event_manager.py +0 -75
mindspore/profiler/parser/ascend_cluster_generator.py +0 -116
mindspore/profiler/parser/ascend_communicate_generator.py +0 -314
mindspore/profiler/parser/ascend_flops_generator.py +0 -116
mindspore/profiler/parser/ascend_fpbp_generator.py +0 -82
mindspore/profiler/parser/ascend_hccl_generator.py +0 -271
mindspore/profiler/parser/ascend_integrate_generator.py +0 -42
mindspore/profiler/parser/ascend_memory_generator.py +0 -185
mindspore/profiler/parser/ascend_msprof_exporter.py +0 -282
mindspore/profiler/parser/ascend_msprof_generator.py +0 -187
mindspore/profiler/parser/ascend_op_generator.py +0 -334
mindspore/profiler/parser/ascend_steptrace_generator.py +0 -94
mindspore/profiler/parser/ascend_timeline_generator.py +0 -545
mindspore/profiler/parser/base_timeline_generator.py +0 -483
mindspore/profiler/parser/container.py +0 -229
mindspore/profiler/parser/cpu_gpu_timeline_generator.py +0 -697
mindspore/profiler/parser/flops_parser.py +0 -531
mindspore/profiler/parser/framework_enum.py +0 -111
mindspore/profiler/parser/framework_parser.py +0 -464
mindspore/profiler/parser/framework_struct.py +0 -61
mindspore/profiler/parser/gpu_analysis/__init__.py +0 -14
mindspore/profiler/parser/gpu_analysis/function_event.py +0 -44
mindspore/profiler/parser/gpu_analysis/fwk_file_parser.py +0 -89
mindspore/profiler/parser/gpu_analysis/profiler_info_parser.py +0 -72
mindspore/profiler/parser/hccl_parser.py +0 -573
mindspore/profiler/parser/hwts_log_parser.py +0 -122
mindspore/profiler/parser/integrator.py +0 -526
mindspore/profiler/parser/memory_usage_parser.py +0 -277
mindspore/profiler/parser/minddata_analyzer.py +0 -800
mindspore/profiler/parser/minddata_parser.py +0 -186
mindspore/profiler/parser/minddata_pipeline_parser.py +0 -299
mindspore/profiler/parser/op_intermediate_parser.py +0 -149
mindspore/profiler/parser/optime_parser.py +0 -250
mindspore/profiler/parser/profiler_info.py +0 -213
mindspore/profiler/parser/step_trace_parser.py +0 -666
mindspore/utils/hooks.py +0 -81
/mindspore/common/{_auto_dynamic.py → dynamic_shape/_auto_dynamic.py} +0 -0
{mindspore-2.6.0.dist-info → mindspore-2.7.0.dist-info}/WHEEL +0 -0
{mindspore-2.6.0.dist-info → mindspore-2.7.0.dist-info}/entry_points.txt +0 -0
{mindspore-2.6.0.dist-info → mindspore-2.7.0.dist-info}/top_level.txt +0 -0

mindspore/train/callback/_train_fault_tolerance.py CHANGED Viewed

@@ -25,8 +25,9 @@ from mindspore.communication import get_rank, get_group_size
 from mindspore import log as logger
 from mindspore.train.serialization import _get_cur_rank_dp
 from mindspore._c_expression import _repair_device, _stop_device, _tft_sem_post, _tft_sem_enable
-from mindspore._c_expression import _rebuild_world_group, _rebuild_sub_group, _finalize_comm
+from mindspore._c_expression import _rebuild_world_group, _rebuild_sub_group, _finalize_comm, _clean_rootinfo
 from mindspore._c_expression import clean_tdt_channel
+from mindspore._c_expression import _pre_launch_send_recv
 from mindspore._c_expression import send_recv, reset_params
 from mindspore._c_expression import CollectiveManager
 from mindspore._c_expression import _get_uce_process_strategy, _get_uce_mem_info
@@ -35,6 +36,7 @@ from mindspore.ops.operations.manually_defined._inner import TensorReport
 import mindspore
 import mindspore.common.dtype as mstype
 from mindspore.parallel._recovery_context import _set_recovery_context
+from mindspore import runtime
 def _get_ckpt_dir(step, ckpt_save_path, is_tmp_file):
@@ -80,7 +82,7 @@ def _save_checkpoint_on_failure(step, save_info, args, cb_ctx):
         append_dict["loss_scale"] = outputs[2]
     ckpt_file = f"ttp_rank_{str(cur_rank)}-{str(cur_epoch_num)}_{str(step_num_in_epoch)}.ckpt"
-    cur_ckpt_dir = _get_ckpt_dir(step, ckpt_save_path, True) + "/rank_" + str(cur_rank)
+    cur_ckpt_dir = os.path.join(_get_ckpt_dir(step, ckpt_save_path, True), "rank_" + str(cur_rank))
     os.makedirs(cur_ckpt_dir, exist_ok=True)
     cur_file = os.path.join(cur_ckpt_dir, ckpt_file)
     save_checkpoint(cb_params.train_network, cur_file,
@@ -110,7 +112,7 @@ def _tft_exit_cb(ctx):
 def _tft_repair_callback(step, need_rebuild, error_ranks, repair_info, args, cb_ctx):
     """ Callback used for TFT repair function."""
-    logger.warning("Enter _tft_repair_callback repair type: {}".format(repair_info["repair_type"]))
+    logger.warning(f"Enter _tft_repair_callback repair type: {repair_info['repair_type']}")
     if (repair_info["repair_type"] in (cb_ctx.tft.RepairType.RT_UCE_HIGHLEVEL.value,
                                        cb_ctx.tft.RepairType.RT_UCE_LOWLEVEL.value)):
         logger.warning("Enter _tft_repair_callback uce REPARI_DEVICE device_id : {}".format(cb_ctx.device_id))
@@ -138,7 +140,7 @@ def _tft_repair_callback(step, need_rebuild, error_ranks, repair_info, args, cb_
 def _tft_clean_callback(is_uce_error, args, ctx):
     """ Callback used for TFT clean function."""
-    logger.warning("Enter _tft_clean_callback")
+    logger.warning(f"Enter _tft_clean_callback, device id:{ctx.device_id}")
     ret = 0
     if is_uce_error:
         _get_uce_mem_info(ctx.device_id)
@@ -154,12 +156,16 @@ def _tft_clean_callback(is_uce_error, args, ctx):
     logger.warning("Enter _tft_clean_callback resume_hccl_comm")
     CollectiveManager.get_instance().resume_hccl_comm()
     logger.warning("Finish _tft_clean_callback, ret: {}".format(ret))
+    if ctx.tft.tft_get_repair_type() == "recover":
+        logger.warning(f"Destroy hcom")
+        _finalize_comm()
+        logger.warning(f"Destroy hcom end")
     return ret
 def _tft_stop_callback(args, cb_ctx):
     """ Callback used for TFT stop function."""
-    logger.warning("Enter _tft_stop_callback device_id: {}".format(cb_ctx.device_id))
+    logger.warning(f"Enter _tft_stop_callback device_id: {cb_ctx.device_id}")
     _stop_device(cb_ctx.device_id)
     if (not cb_ctx.is_uce_rank) and (not cb_ctx._is_params_consistent()):  # pylint: disable=W0212
         raise RuntimeError("Can't stop device, because training parameters are left in inconsistent state!")
@@ -167,23 +173,25 @@ def _tft_stop_callback(args, cb_ctx):
     if cb_ctx.tft.tft_get_repair_type() == "recover":
         logger.warning(f"Reset limit step")
         cb_ctx.tft.tft_reset_limit_step()
-    logger.info("Finish _tft_stop_callback")
+    logger.warning("Finish _tft_stop_callback")
 def _tft_rebuild_sub_groups(fault_ranks, args, ctx):
     """Callback used for TFT Rebuild Group function."""
-    logger.warning(f"Enter _tft_rebuild_sub_groups, device id: ".format(ctx.device_id))
-    _finalize_comm()
+    logger.warning(f"Enter _tft_rebuild_sub_groups, device id: {ctx.device_id}")
     _rebuild_world_group()
     _rebuild_sub_group()
     _set_recovery_context(is_arf=True)
+    logger.warning(f"try to pre launch send recv before real launch")
+    _pre_launch_send_recv(context.get_context('device_id'))
+    logger.warning(f"Pre launch send recv before real launch end")
     logger.warning("Enter _tft_rebuild_sub_groups ok ")
 class TrainFaultTolerance(Callback):
     """
     This callback is used to enable the TFT feature
-    `MindIO TFT <https://www.hiascend.com/document/detail/zh/mindx-dl/60rc2/mindio/mindiottp/mindiottp001.html>`_
+    `MindIO TFT <https://www.hiascend.com/document/detail/zh/mindx-dl/600/clusterscheduling/ref/mindiottp/mindiotft001.html>`_
     and will execute TFT operations during training process, such as TFT init, report and exception handle.
     Note:
@@ -299,6 +307,12 @@ class TrainFaultTolerance(Callback):
     def __init__(self, ckpt_save_path=None, **kwargs):
         super(TrainFaultTolerance, self).__init__()
+        logger.info(f"MS_ENABLE_TFT: {os.getenv('MS_ENABLE_TFT', '')}")
+        if self._only_enable_tsp():
+            self.tft = _tft_handler.get_tft()
+            self._check_init()
+            self.tft.tft_register_stream_sync_handler(runtime.synchronize, self)
+            return
         self.save_cb = kwargs.get("ckpt_save_fn", None)
         self.ckpt_save_path = ckpt_save_path
         if self.save_cb is None and self.ckpt_save_path is None:
@@ -308,15 +322,19 @@ class TrainFaultTolerance(Callback):
         self.device_id = context.get_context("device_id")
         self.cur_step_num = 0
         self.cur_epoch_num = 0
+        self.clean_unique_id = False
         # For TREError(Training Result Error) scene, parameter `ckpt_load_fn` must be provided to load checkpoint
         # from file for resuming training, the `ckpt_load_fn` is a function, prototype of which is:
         # `def load_checkpoint() -> tuple(dict, bool)`, the return value is a tuple containing 2 values,
         # i.e. (param_dict, remove_redundancy)
         self.ckpt_load_func = kwargs.get("ckpt_load_fn", None)
-        self.tft = _tft_handler.get_tft()
         if self._only_enable_tre():
             return
+        self.tft = _tft_handler.get_tft()
         self._check_init()
+        if self._only_enable_tre_and_tsp():
+            self.tft.tft_register_stream_sync_handler(runtime.synchronize, self)
+            return
         self.global_step = None
         self.learning_rate = None
         self.has_init_replica = False
@@ -336,6 +354,22 @@ class TrainFaultTolerance(Callback):
             return False
         return "TRE:1" in env_enable
+    def _only_enable_tsp(self):
+        """Check if only configured MS_ENABLE_TFT='{TSP:1}'"""
+        env_enable = os.getenv("MS_ENABLE_TFT", "")
+        non_tsp_flags = ["TTP:1", "UCE:1", "ARF:1", "TRE:1"]
+        if any(flag in env_enable for flag in non_tsp_flags):
+            return False
+        return "TSP:1" in env_enable
+    def _only_enable_tre_and_tsp(self):
+        """Check if only configured MS_ENABLE_TFT='{TRE:1, TSP:1}'"""
+        env_enable = os.getenv("MS_ENABLE_TFT", "")
+        other_flags = ["TTP:1", "UCE:1", "ARF:1"]
+        if any(flag in env_enable for flag in other_flags):
+            return False
+        return "TRE:1" in env_enable and "TSP:1" in env_enable
     def _check_init(self):
         """Check if the mindio-ttp had inited"""
         if self.tft is None:
@@ -346,11 +380,9 @@ class TrainFaultTolerance(Callback):
             _tft_handler.init(config=None)
             self.tft = _tft_handler.get_tft()
             logger.warning(f"TFT handle init ok.")
-        mode = context.get_context("mode")
         device_target = context.get_context("device_target")
-        if device_target != "Ascend" or mode != context.GRAPH_MODE:
-            raise ValueError(f"MindIO adataper only support on Ascend device with GRAPH Mode!"
-                             f"device:{device_target}, run mode: {mode}")
+        if device_target != "Ascend":
+            raise ValueError(f"MindIO adataper only support on Ascend device but got device {device_target}!")
     def _is_params_consistent(self):
         for key, param in self.cb_params.train_network.parameters_and_names():
@@ -427,6 +459,8 @@ class TrainFaultTolerance(Callback):
         self.tft.tft_register_clean_handler(_tft_clean_callback, self)
         self.tft.tft_register_repair_handler(_tft_repair_callback, self)
         self.tft.tft_register_rebuild_group_handler(_tft_rebuild_sub_groups, self)
+        if "TSP:1" in os.getenv("MS_ENABLE_TFT", ""):
+            self.tft.tft_register_stream_sync_handler(runtime.synchronize, self)
     def _reset_acc_grads(self):
         accu_grad_params = map(lambda e: e[1],
@@ -436,6 +470,12 @@ class TrainFaultTolerance(Callback):
         if reset_params(accu_grad_list) != 0:
             raise ValueError("Call reset_params failed.")
+    def _clear_unique_id(self):
+        """Clean unique id on first train step end"""
+        if not self.clean_unique_id and ("ARF:1" in os.getenv("MS_ENABLE_TFT", "")):
+            _clean_rootinfo()
+            self.clean_unique_id = True
     def on_train_step_end(self, run_context):
         """
         Report status to MindIO TFT after every step finished.
@@ -446,13 +486,19 @@ class TrainFaultTolerance(Callback):
         """
         if self._only_enable_tre():
             return
-        if self.has_init_replica is False:
-            self.has_init_replica = True
-            self._set_tft_optimizer_replica(run_context)
         cb_params = run_context.original_args()
         logger.info("START Set optimizer finish step status to TFT. step: {}".format(cb_params.cur_step_num))
         self.cur_step_num = cb_params.cur_step_num
         self.cur_epoch_num = cb_params.cur_epoch_num
+        if self._only_enable_tsp() or self._only_enable_tre_and_tsp():
+            logger.info("Go into tft_pause_train.")
+            self.tft.tft_pause_train(self.cur_step_num)
+            return
+        if self.has_init_replica is False:
+            self.has_init_replica = True
+            self._set_tft_optimizer_replica(run_context)
         if cb_params.optimizer is not None:
             self.global_step = cb_params.optimizer.global_step.clone()
             self.assign(cb_params.optimizer.tft_g_one_flag, self.g_one)
@@ -462,7 +508,13 @@ class TrainFaultTolerance(Callback):
         else:
             raise ValueError("TFT feature need optimizer or network's optimizer!")
         self.tft.tft_end_updating_os(cb_params.cur_step_num + self.initial_step)
+        if cb_params.is_arf:
+            self.clean_unique_id = False
+        self._clear_unique_id()
         logger.info("END Set optimizer finish step status to TFT.")
+        if "TSP:1" in os.getenv("MS_ENABLE_TFT", ""):
+            logger.info("Go into tft_pause_train.")
+            self.tft.tft_pause_train(self.cur_step_num)
     def on_train_begin(self, run_context):
         """
@@ -472,6 +524,8 @@ class TrainFaultTolerance(Callback):
             run_context (RunContext): Context of the train running. Refer to
                                       :class:`mindspore.train.RunContext` for detail.
         """
+        if self._only_enable_tsp():
+            return
         cb_params = run_context.original_args()
         if self._only_enable_tre():
             self.cb_params = cb_params
@@ -491,6 +545,6 @@ class TrainFaultTolerance(Callback):
             run_context (RunContext): Context of the train running. Refer to
                                       :class:`mindspore.train.RunContext` for detail.
         """
-        if self._only_enable_tre():
+        if self._only_enable_tre() or self._only_enable_tsp() or self._only_enable_tre_and_tsp():
             return
         _tft_handler.unregister_tft()

mindspore/train/data_sink.py CHANGED Viewed

@@ -16,9 +16,9 @@
 from functools import wraps
 import mindspore.ops as ops
 from mindspore import context
-from mindspore.common.dtype import pytype_to_dtype
+from mindspore.common.dtype import _pytype_to_dtype
 from mindspore.common.api import jit
-from mindspore.train._utils import _exec_datagraph, _get_types_and_shapes
+from mindspore.train._utils import _exec_datagraph, _get_types_and_shapes, enable_data_broadcast
 from mindspore.train.dataset_helper import _has_dynamic_shape, _check_inputs
 import mindspore.dataset as ds
 from mindspore._c_expression import _set_dataset_mode_config
@@ -41,6 +41,15 @@ def _init_sink_dataset(dataset, sink_size, input_signature, create_info):
     is_info_queue = (create_info and sink_size == 1 and dataset_size != 1 and
                      input_signature is None and not dynamic_shape and
                      context.get_context('device_target') == 'Ascend')
+    # Don't enable dynamic shape(multi-subgraph) feature in pp/data_broadcast mode,
+    # otherwise get_data_info will stuck since some rank do not consume data.
+    use_pipeline_parallel = (context.get_auto_parallel_context("pipeline_stages") > 1)
+    data_broadcast = enable_data_broadcast()
+    if use_pipeline_parallel or data_broadcast:
+        is_info_queue = False
     transfer_dataset = _exec_datagraph(dataset, sink_size, create_data_info_queue=is_info_queue)
     dataset.__transfer_dataset__ = transfer_dataset
@@ -52,7 +61,7 @@ def _init_sink_dataset(dataset, sink_size, input_signature, create_info):
         _check_inputs(input_signature, dataset_shapes, dataset_types)
     queue_name = transfer_dataset.queue_name
-    if _need_to_full() and context.get_context('mode') == context.GRAPH_MODE:
+    if _need_to_full():
         device_num = _get_device_num() // _get_pipeline_stages()
         dataset_shapes = _to_full_shapes(dataset_shapes, device_num)
     next_op = ops.GetNext(dataset_types, dataset_shapes, len(dataset_types), queue_name)
@@ -85,12 +94,12 @@ def _get_next_op(dataset, ori_next_op, is_info_queue):
     queue_name = dataset.__transfer_dataset__.queue_name
     dataset_types, dataset_shapes = dataset.__transfer_dataset__.get_data_info()
-    dataset_types = [pytype_to_dtype(x) for x in dataset_types]
+    dataset_types = [_pytype_to_dtype(x) for x in dataset_types]  # pylint:disable=protected-access
     key = str(dataset_types) + str(dataset_shapes)
     if key in dataset.__sink_aux__.next_ops:
         next_op = dataset.__sink_aux__.next_ops[key]
     else:
-        if _need_to_full() and context.get_context('mode') == context.GRAPH_MODE:
+        if _need_to_full():
             device_num = _get_device_num() // _get_pipeline_stages()
             dataset_shapes = _to_full_shapes(dataset_shapes, device_num)
         next_op = ops.GetNext(dataset_types, dataset_shapes, len(dataset_types), queue_name)
@@ -214,7 +223,7 @@ def data_sink(fn, dataset, sink_size=1, jit_config=None, input_signature=None):
     loop = sink_size
     create_info = True
     if jit_config is None:
-        create_info = (loop == 1)
+        create_info = loop == 1
         loop = 1
     ori_next_op, is_info_queue = _init_sink_dataset(dataset, loop, input_signature, create_info)

mindspore/train/dataset_helper.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# Copyright 2020 Huawei Technologies Co., Ltd
+# Copyright 2020-2025 Huawei Technologies Co., Ltd
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
 # you may not use this file except in compliance with the License.
@@ -20,8 +20,8 @@ import copy
 from mindspore import _checkparam as Validator
 from mindspore import log as logger
-from mindspore.common._auto_dynamic import is_auto_dynamic, convert_new_shapes
-from mindspore.common.dtype import pytype_to_dtype
+from mindspore.common.dynamic_shape._auto_dynamic import is_auto_dynamic, convert_new_shapes
+from mindspore.common.dtype import _pytype_to_dtype
 from mindspore.common.api import _cell_graph_executor, _is_args_fullmode, ARG_SPECIFIED
 from mindspore.common._utils import is_shape_unknown
 from mindspore.dataset.core import config as dataset_config
@@ -34,7 +34,7 @@ from mindspore.parallel._utils import _get_device_num, _get_global_rank, _need_t
     _origin_shapes, _dynamic_shape_for_dataset
 from mindspore.parallel._ps_context import _is_role_sched
 from mindspore.ops import operations as P
-from mindspore.common.auto_dynamic_shape import _auto_dynamic_shape
+from mindspore.common.dynamic_shape.auto_dynamic_shape import _auto_dynamic_shape
 def _send_data(dataset, epoch_num):
@@ -275,7 +275,7 @@ def connect_network_with_dataset(network, dataset_helper):
         # Need to do full_batch for shapes which also do in the _DatasetIterMSLoopSink
         if _need_to_full():
             dataset_shapes = _to_full_shapes(dataset_shapes, _get_device_num() // _get_pipeline_stages())
-        dataset_types = [pytype_to_dtype(x) for x in dataset_types]
+        dataset_types = [_pytype_to_dtype(x) for x in dataset_types]  # pylint:disable=protected-access
         if not is_dynamic:
             dataset_shapes = _auto_dynamic_shape.auto_dynamic_generate_compile_args(dataset_shapes, True)
         key = str(dataset_types) + str(dataset_shapes)
@@ -564,6 +564,15 @@ class _DatasetIter:
                 self.sink_size = dataset.__loop_size__
             create_data_info_queue = (
                 sink_size == 1 and self.sink_count == 1 and dataset.get_dataset_size() != 1)
+            # Don't enable dynamic shape(multi-subgraph) feature in pp/data_broadcast mode,
+            # otherwise get_data_info will stuck since some rank do not consume data.
+            use_pipeline_parallel = (context.get_auto_parallel_context("pipeline_stages") > 1)
+            data_broadcast = enable_data_broadcast()
+            if use_pipeline_parallel or data_broadcast:
+                create_data_info_queue = False
             dataset.__transfer_dataset__ = _exec_datagraph(dataset, self.sink_size,
                                                            create_data_info_queue=create_data_info_queue)

mindspore/train/model.py CHANGED Viewed

@@ -57,7 +57,7 @@ from mindspore.dataset.engine.datasets import _set_training_dataset, _reset_trai
 from mindspore.train import amp
 from mindspore._c_expression import _framework_profiler_step_start, _framework_profiler_step_end
 from mindspore._c_expression import _get_optimzer_timestamps
-from mindspore._c_expression import clean_tdt_channel
+from mindspore._c_expression import clean_tdt_channel, _clean_rootinfo
 from mindspore.parallel._utils import _init_auto_parallel_context, _clear_auto_parallel_context
 from .serialization import load_param_into_net
@@ -154,6 +154,9 @@ def _handle_exception_info(obj, uce_env, tft, e):
                 tft.tft_report_error(tft.ReportState.RS_UNKNOWN.value)
                 raise e
         tft.tft_report_error(tft.ReportState.RS_UCE.value)
+    elif "HCCEError" in e_str:
+        logger.warning("uce wrapper caught HCCEError")
+        tft.tft_report_error(tft.ReportState.RS_HCCL_FAILED.value)
     elif "ForceStopError" in e_str:
         logger.warning("uce wrapper caught RuntimeError ForceStopError")
         force_stop_err = tft.ReportState.RS_NORMAL.value
@@ -246,9 +249,8 @@ def _handle_tft(func):
                 if isinstance(item, TrainFaultTolerance):
                     obj = item
         if obj:
-            tft = obj.tft
             tft_env = os.getenv("MS_ENABLE_TFT", "")
-            uce_env = "UCE:1" in tft_env or "ARF:1" in tft_env
+            uce_env = "UCE:1" in tft_env or "ARF:1" in tft_env or "HCCE:1" in tft_env
             tre_env = "TRE:1" in tft_env
             while True:
                 try:
@@ -260,11 +262,11 @@ def _handle_tft(func):
                         _update_ckpt_callback_info(repair_step, **kwargs)
                         logger.warning(f'Resume training after TREError from step {repair_step}.')
                     else:
-                        _handle_exception_info(obj, uce_env, tft, e)
-                        ret = tft.tft_wait_next_action()
-                        if ret == tft.Action.EXIT.value:
+                        _handle_exception_info(obj, uce_env, obj.tft, e)
+                        ret = obj.tft.tft_wait_next_action()
+                        if ret == obj.tft.Action.EXIT.value:
                             raise e
-                        repair_step = tft.tft_get_repair_step()
+                        repair_step = obj.tft.tft_get_repair_step()
                         logger.warning(
                             "uce wrapper caught repair finish REPAIR STEP: {} batch_num:{}".format(repair_step,
                                                                                                    self.batch_num))
@@ -274,6 +276,7 @@ def _handle_tft(func):
                     cb_initial_step = _calc_cb_initial_step(initial_epoch, initial_step, *args, **kwargs)
                     if not self.enable_tre:
                         kwargs["initial_step"] = cb_initial_step
+                        self._initial_step = 0
                     # reset all accu grads to zero
                     obj._reset_acc_grads()
                     logger.warning(
@@ -281,9 +284,9 @@ def _handle_tft(func):
                                                                                                      cb_initial_step))
                     continue
                 except BaseException as e:
-                    if tft:
+                    if obj.tft:
                         logger.error("uce wrapper caught BaseException error, enter MindIO TTP process.", exc_info=True)
-                        tft.tft_report_error(tft.ReportState.RS_UNKNOWN.value)
+                        obj.tft.tft_report_error(obj.tft.ReportState.RS_UNKNOWN.value)
                     raise e
         else:
             return func(self, *args, **kwargs)
@@ -300,9 +303,6 @@ def _check_tft():
         ascend_target = MSContext.get_instance().get_ascend_soc_version()
         if ascend_target == 'ascend910':
             raise ValueError("TFT is not supported when using ascend910")
-        ms_mode = context.get_context("mode")
-        if ms_mode != mindspore.GRAPH_MODE:
-            raise ValueError("TFT is only supported in GRAPH_MODE")
         jit_level = context.get_context("jit_level")
         if jit_level == "O2" and ("UCE:1" in tft_env or "ARF:1" in tft_env):
             raise ValueError("TFT is not supported when using jit_level == O2")
@@ -443,6 +443,11 @@ def _set_with_processed_inputs(network, inputs):
             "Reset inputs from a process inputs, should be a list/tuple or a dict, but got %s!" % str(inputs))
+def _check_tft_reset_dataset():
+    env_tft = os.getenv("MS_ENABLE_TFT", "")
+    return any([v in env_tft for v in ["TRE:1", "UCE:1", "HCCE:1", "ARF:1"]])
 class Model:
     """
     High-Level API for training or inference.
@@ -561,7 +566,9 @@ class Model:
         self._mindspore_lite_model_group_id = id(self) & 0xFFFF
         self.batch_num = -1
         self.enable_tre = "TRE:1" in os.getenv("MS_ENABLE_TFT", "")
+        self.enable_hcce = "HCCE:1" in os.getenv("MS_ENABLE_TFT", "")
         self._initial_step = None
+        self._need_reset_data = _check_tft_reset_dataset()
         _clear_auto_parallel_context(self._network)
     def _check_for_graph_cell(self, kwargs):
@@ -761,7 +768,7 @@ class Model:
             logger.info("Begin to connect network with dataset.")
             network = connect_network_with_dataset(network, dataset_helper)
-        if (_get_recovery_context("enable_recovery") or self.enable_tre) and is_train:
+        if (_get_recovery_context("enable_recovery") or self._need_reset_data) and is_train:
             _set_training_dataset(dataset_helper)
         network.set_train(is_train)
@@ -805,7 +812,7 @@ class Model:
         """
         if os.environ.get("MS_ENABLE_CKPT_D2H_ASYNC") != "1":
             return
-        if (context.get_context("mode") == context.GRAPH_MODE) and (context.get_context("device_target") == "Ascend"):
+        if context.get_context("device_target") == "Ascend":
             cb_params.need_ckpt, cb_params.save_checkpoint_steps, \
             cb_params.last_triggered_step = self._check_need_ckpt(cb_params.list_callback)
             logger.info(f"need_ckpt:{cb_params.need_ckpt},"
@@ -873,8 +880,8 @@ class Model:
             sink_size (int): Control the amount of data in each sink. Default: -1.
             epoch (int): Total number of iterations on the data. Default: 1.
         """
-        if context.get_context("mode") != context.GRAPH_MODE or context.get_context("device_target") != "Ascend":
-            raise RuntimeError('Pre-init process only supports GRAPH MODE and Ascend target currently.')
+        if context.get_context("device_target") != "Ascend":
+            raise RuntimeError('Pre-init process only supports Ascend target currently.')
         if not train_dataset and not valid_dataset:
             raise ValueError("The argument 'train_dataset' and 'valid_dataset' can not both be None or empty.")
@@ -1057,7 +1064,7 @@ class Model:
             initial_epoch (int): Epoch at which to start train, it used for resuming a previous training run.
                                  Default: 0.
         """
-        is_graph = (context.get_context("mode") == context.GRAPH_MODE)
+        is_graph = context.get_context("mode") == context.GRAPH_MODE
         dataset_size = train_dataset.get_dataset_size()
         if dataset_size % sink_size != 0:
             logger.info("In dataset_sink mode (dataset_size % sink_size) should equal to 0, "
@@ -1126,6 +1133,7 @@ class Model:
                 if cb_params.is_arf:
                     cb_params.is_arf = False
                     _set_recovery_context(is_arf=False)
+                _clean_rootinfo()
                 # Embedding cache server only run one step.
                 if is_embedding_cache_server:
@@ -1204,8 +1212,6 @@ class Model:
         if not enable_recovery:
             self.enable_recovery = False
         else:
-            if context.get_context("mode") != context.GRAPH_MODE:
-                raise RuntimeError("Recovery for training only support graph mode currently.")
             self.enable_recovery = enable_recovery and _is_role_worker()
     def _check_need_load_ckpt(self, cb_params, dataset_size, sink_size=-1):
@@ -1340,6 +1346,7 @@ class Model:
                 if cb_params.is_arf:
                     cb_params.is_arf = False
                     _set_recovery_context(is_arf=False)
+                _clean_rootinfo()
                 # Embedding cache server only run one step.
                 if is_embedding_cache_server:
                     break
@@ -2182,9 +2189,6 @@ class Model:
             dataset_sink_mode (bool): Determines whether to pass the data through dataset channel.
             sink_size (int): Control the amount of data in each sink.
         """
-        if context.get_context("mode") != context.GRAPH_MODE:
-            raise RuntimeError("Pre-compile process that generate parameter layout for the train network "
-                               "only supports GRAPH MODE and Ascend target currently.")
         if _get_parallel_mode() not in (ParallelMode.SEMI_AUTO_PARALLEL, ParallelMode.AUTO_PARALLEL):
             raise RuntimeError("'infer_train_layout' only supports 'semi_auto_parallel' and 'auto_parallel' "
                                "mode, but got {}.".format(_get_parallel_mode()))
@@ -2303,6 +2307,7 @@ class Model:
         Examples:
             >>> import numpy as np
+            >>> import mindspore as ms
             >>> import mindspore.nn as nn
             >>> from mindspore import Tensor
             >>> from mindspore.train import Model
@@ -2312,28 +2317,28 @@ class Model:
             >>> from mindspore.parallel.auto_parallel import AutoParallel
             >>>
             >>> class Net(nn.Cell):
-            >>>     def __init__(self):
-            >>>         super(Net, self).__init__()
-            >>>         self.fc1 = nn.Dense(128, 768, activation='relu')
-            >>>         self.fc2 = nn.Dense(128, 768, activation='relu')
-            >>>         self.fc3 = nn.Dense(128, 768, activation='relu')
-            >>>         self.fc4 = nn.Dense(768, 768, activation='relu')
-            >>>         self.relu4 = nn.ReLU()
-            >>>         self.relu5 = nn.ReLU()
-            >>>         self.transpose = P.Transpose()
-            >>>         self.matmul1 = P.MatMul()
-            >>>         self.matmul2 = P.MatMul()
-            >>>
-            >>>     def construct(self, x):
-            >>>         q = self.fc1(x)
-            >>>         k = self.fc2(x)
-            >>>         v = self.fc3(x)
-            >>>         k = self.transpose(k, (1, 0))
-            >>>         c = self.relu4(self.matmul1(q, k))
-            >>>         s = self.relu5(self.matmul2(c, v))
-            >>>         s = self.fc4(s)
-            >>>         return s
-            >>>
+            ...     def __init__(self):
+            ...         super(Net, self).__init__()
+            ...         self.fc1 = nn.Dense(128, 768, activation='relu')
+            ...         self.fc2 = nn.Dense(128, 768, activation='relu')
+            ...         self.fc3 = nn.Dense(128, 768, activation='relu')
+            ...         self.fc4 = nn.Dense(768, 768, activation='relu')
+            ...         self.relu4 = nn.ReLU()
+            ...         self.relu5 = nn.ReLU()
+            ...         self.transpose = P.Transpose()
+            ...         self.matmul1 = P.MatMul()
+            ...         self.matmul2 = P.MatMul()
+            ...
+            ...     def construct(self, x):
+            ...         q = self.fc1(x)
+            ...         k = self.fc2(x)
+            ...         v = self.fc3(x)
+            ...         k = self.transpose(k, (1, 0))
+            ...         c = self.relu4(self.matmul1(q, k))
+            ...         s = self.relu5(self.matmul2(c, v))
+            ...         s = self.fc4(s)
+            ...         return s
+            ...
             >>> ms.set_context(mode=ms.GRAPH_MODE)
             >>> init()
             >>> inputs = Tensor(np.ones([32, 128]).astype(np.float32))
@@ -2343,9 +2348,6 @@ class Model:
             >>> predict_map = model.infer_predict_layout(inputs)
         """
         _init_auto_parallel_context(self._network)
-        if context.get_context("mode") != context.GRAPH_MODE:
-            raise RuntimeError("Pre-compile process that generate parameter layout for the predict network "
-                               "only supports GRAPH MODE and Ascend target currently.")
         if _get_parallel_mode() not in (ParallelMode.SEMI_AUTO_PARALLEL, ParallelMode.AUTO_PARALLEL):
             raise RuntimeError('Infer predict layout only supports semi auto parallel and auto parallel mode.')
         _parallel_predict_check()