PyPI - onnxruntime-directml - Versions diffs - 1.20.0__cp313-cp313-win_amd64.whl - Mend

onnxruntime-directml 1.20.0__cp313-cp313-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (305) hide show

onnxruntime/LICENSE +21 -0
onnxruntime/Privacy.md +21 -0
onnxruntime/ThirdPartyNotices.txt +6508 -0
onnxruntime/__init__.py +78 -0
onnxruntime/backend/__init__.py +6 -0
onnxruntime/backend/backend.py +174 -0
onnxruntime/backend/backend_rep.py +53 -0
onnxruntime/capi/DirectML.dll +0 -0
onnxruntime/capi/__init__.py +4 -0
onnxruntime/capi/_ld_preload.py +7 -0
onnxruntime/capi/_pybind_state.py +33 -0
onnxruntime/capi/convert_npz_to_onnx_adapter.py +48 -0
onnxruntime/capi/onnxruntime.dll +0 -0
onnxruntime/capi/onnxruntime_collect_build_info.py +47 -0
onnxruntime/capi/onnxruntime_inference_collection.py +1108 -0
onnxruntime/capi/onnxruntime_providers_shared.dll +0 -0
onnxruntime/capi/onnxruntime_pybind11_state.pyd +0 -0
onnxruntime/capi/onnxruntime_validation.py +150 -0
onnxruntime/capi/version_info.py +2 -0
onnxruntime/datasets/__init__.py +17 -0
onnxruntime/datasets/logreg_iris.onnx +0 -0
onnxruntime/datasets/mul_1.onnx +0 -0
onnxruntime/datasets/sigmoid.onnx +13 -0
onnxruntime/quantization/CalTableFlatBuffers/KeyValue.py +78 -0
onnxruntime/quantization/CalTableFlatBuffers/TrtTable.py +90 -0
onnxruntime/quantization/CalTableFlatBuffers/__init__.py +0 -0
onnxruntime/quantization/__init__.py +16 -0
onnxruntime/quantization/base_quantizer.py +532 -0
onnxruntime/quantization/calibrate.py +1245 -0
onnxruntime/quantization/execution_providers/qnn/__init__.py +2 -0
onnxruntime/quantization/execution_providers/qnn/fusion_lpnorm.py +132 -0
onnxruntime/quantization/execution_providers/qnn/mixed_precision_overrides_utils.py +413 -0
onnxruntime/quantization/execution_providers/qnn/preprocess.py +307 -0
onnxruntime/quantization/execution_providers/qnn/quant_config.py +387 -0
onnxruntime/quantization/fusions/__init__.py +3 -0
onnxruntime/quantization/fusions/fusion.py +311 -0
onnxruntime/quantization/fusions/fusion_gelu.py +272 -0
onnxruntime/quantization/fusions/fusion_layernorm.py +135 -0
onnxruntime/quantization/matmul_4bits_quantizer.py +1480 -0
onnxruntime/quantization/matmul_bnb4_quantizer.py +240 -0
onnxruntime/quantization/onnx_model.py +580 -0
onnxruntime/quantization/onnx_quantizer.py +1008 -0
onnxruntime/quantization/operators/__init__.py +2 -0
onnxruntime/quantization/operators/activation.py +119 -0
onnxruntime/quantization/operators/argmax.py +18 -0
onnxruntime/quantization/operators/attention.py +73 -0
onnxruntime/quantization/operators/base_operator.py +26 -0
onnxruntime/quantization/operators/binary_op.py +72 -0
onnxruntime/quantization/operators/concat.py +62 -0
onnxruntime/quantization/operators/conv.py +258 -0
onnxruntime/quantization/operators/direct_q8.py +78 -0
onnxruntime/quantization/operators/embed_layernorm.py +121 -0
onnxruntime/quantization/operators/gather.py +64 -0
onnxruntime/quantization/operators/gavgpool.py +62 -0
onnxruntime/quantization/operators/gemm.py +166 -0
onnxruntime/quantization/operators/lstm.py +117 -0
onnxruntime/quantization/operators/matmul.py +231 -0
onnxruntime/quantization/operators/maxpool.py +34 -0
onnxruntime/quantization/operators/norm.py +40 -0
onnxruntime/quantization/operators/pad.py +100 -0
onnxruntime/quantization/operators/pooling.py +67 -0
onnxruntime/quantization/operators/qdq_base_operator.py +22 -0
onnxruntime/quantization/operators/resize.py +34 -0
onnxruntime/quantization/operators/softmax.py +74 -0
onnxruntime/quantization/operators/split.py +63 -0
onnxruntime/quantization/operators/where.py +87 -0
onnxruntime/quantization/preprocess.py +141 -0
onnxruntime/quantization/qdq_loss_debug.py +389 -0
onnxruntime/quantization/qdq_quantizer.py +1187 -0
onnxruntime/quantization/quant_utils.py +891 -0
onnxruntime/quantization/quantize.py +748 -0
onnxruntime/quantization/registry.py +106 -0
onnxruntime/quantization/shape_inference.py +187 -0
onnxruntime/quantization/tensor_quant_overrides.py +516 -0
onnxruntime/tools/__init__.py +10 -0
onnxruntime/tools/check_onnx_model_mobile_usability.py +47 -0
onnxruntime/tools/convert_onnx_models_to_ort.py +377 -0
onnxruntime/tools/file_utils.py +46 -0
onnxruntime/tools/logger.py +11 -0
onnxruntime/tools/make_dynamic_shape_fixed.py +72 -0
onnxruntime/tools/mobile_helpers/__init__.py +0 -0
onnxruntime/tools/mobile_helpers/coreml_supported_mlprogram_ops.md +33 -0
onnxruntime/tools/mobile_helpers/coreml_supported_neuralnetwork_ops.md +43 -0
onnxruntime/tools/mobile_helpers/nnapi_supported_ops.md +58 -0
onnxruntime/tools/mobile_helpers/usability_checker.py +739 -0
onnxruntime/tools/offline_tuning.py +169 -0
onnxruntime/tools/onnx_model_utils.py +413 -0
onnxruntime/tools/onnx_randomizer.py +85 -0
onnxruntime/tools/onnxruntime_test.py +164 -0
onnxruntime/tools/optimize_onnx_model.py +55 -0
onnxruntime/tools/ort_format_model/__init__.py +25 -0
onnxruntime/tools/ort_format_model/operator_type_usage_processors.py +663 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/__init__.py +0 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/ArgType.py +7 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/ArgTypeAndIndex.py +67 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/Attribute.py +337 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/AttributeType.py +18 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/Checkpoint.py +125 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/DeprecatedKernelCreateInfos.py +120 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/DeprecatedNodeIndexAndKernelDefHash.py +68 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/DeprecatedSessionState.py +96 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/DeprecatedSubGraphSessionState.py +72 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/Dimension.py +71 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/DimensionValue.py +80 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/DimensionValueType.py +8 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/EdgeEnd.py +32 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/FloatProperty.py +67 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/Graph.py +320 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/InferenceSession.py +88 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/IntProperty.py +67 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/KernelTypeStrArgsEntry.py +91 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/KernelTypeStrResolver.py +78 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/MapType.py +71 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/Model.py +223 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/ModuleState.py +141 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/Node.py +317 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/NodeEdge.py +126 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/NodeType.py +7 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/NodesToOptimizeIndices.py +160 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/OpIdKernelTypeStrArgsEntry.py +91 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/OperatorSetId.py +67 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/OptimizerGroup.py +117 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/ParameterOptimizerState.py +91 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/PropertyBag.py +152 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/RuntimeOptimizationRecord.py +105 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/RuntimeOptimizationRecordContainerEntry.py +91 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/RuntimeOptimizations.py +79 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/SequenceType.py +58 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/Shape.py +78 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/SparseTensor.py +114 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/StringProperty.py +67 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/StringStringEntry.py +67 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/Tensor.py +203 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/TensorDataType.py +26 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/TensorTypeAndShape.py +71 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/TypeInfo.py +83 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/TypeInfoValue.py +9 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/ValueInfo.py +84 -0
onnxruntime/tools/ort_format_model/ort_flatbuffers_py/fbs/__init__.py +6 -0
onnxruntime/tools/ort_format_model/ort_model_processor.py +86 -0
onnxruntime/tools/ort_format_model/types.py +84 -0
onnxruntime/tools/ort_format_model/utils.py +62 -0
onnxruntime/tools/pytorch_export_contrib_ops.py +108 -0
onnxruntime/tools/pytorch_export_helpers.py +131 -0
onnxruntime/tools/qdq_helpers/__init__.py +0 -0
onnxruntime/tools/qdq_helpers/optimize_qdq_model.py +37 -0
onnxruntime/tools/reduced_build_config_parser.py +202 -0
onnxruntime/tools/symbolic_shape_infer.py +3016 -0
onnxruntime/tools/update_onnx_opset.py +31 -0
onnxruntime/transformers/__init__.py +8 -0
onnxruntime/transformers/affinity_helper.py +40 -0
onnxruntime/transformers/benchmark.py +944 -0
onnxruntime/transformers/benchmark_helper.py +646 -0
onnxruntime/transformers/bert_perf_test.py +634 -0
onnxruntime/transformers/bert_test_data.py +642 -0
onnxruntime/transformers/compare_bert_results.py +246 -0
onnxruntime/transformers/constants.py +47 -0
onnxruntime/transformers/convert_generation.py +3124 -0
onnxruntime/transformers/convert_tf_models_to_pytorch.py +205 -0
onnxruntime/transformers/convert_to_packing_mode.py +387 -0
onnxruntime/transformers/dynamo_onnx_helper.py +104 -0
onnxruntime/transformers/float16.py +501 -0
onnxruntime/transformers/fusion_attention.py +1235 -0
onnxruntime/transformers/fusion_attention_clip.py +257 -0
onnxruntime/transformers/fusion_attention_sam2.py +534 -0
onnxruntime/transformers/fusion_attention_unet.py +1304 -0
onnxruntime/transformers/fusion_attention_vae.py +301 -0
onnxruntime/transformers/fusion_bart_attention.py +640 -0
onnxruntime/transformers/fusion_base.py +137 -0
onnxruntime/transformers/fusion_bias_add.py +58 -0
onnxruntime/transformers/fusion_biasgelu.py +66 -0
onnxruntime/transformers/fusion_biassplitgelu.py +111 -0
onnxruntime/transformers/fusion_conformer_attention.py +143 -0
onnxruntime/transformers/fusion_embedlayer.py +811 -0
onnxruntime/transformers/fusion_fastgelu.py +360 -0
onnxruntime/transformers/fusion_gelu.py +259 -0
onnxruntime/transformers/fusion_gelu_approximation.py +25 -0
onnxruntime/transformers/fusion_gemmfastgelu.py +122 -0
onnxruntime/transformers/fusion_gpt_attention.py +546 -0
onnxruntime/transformers/fusion_gpt_attention_megatron.py +355 -0
onnxruntime/transformers/fusion_gpt_attention_no_past.py +260 -0
onnxruntime/transformers/fusion_group_norm.py +179 -0
onnxruntime/transformers/fusion_layernorm.py +465 -0
onnxruntime/transformers/fusion_nhwc_conv.py +100 -0
onnxruntime/transformers/fusion_options.py +340 -0
onnxruntime/transformers/fusion_qordered_attention.py +421 -0
onnxruntime/transformers/fusion_qordered_gelu.py +119 -0
onnxruntime/transformers/fusion_qordered_layernorm.py +123 -0
onnxruntime/transformers/fusion_qordered_matmul.py +217 -0
onnxruntime/transformers/fusion_quickgelu.py +74 -0
onnxruntime/transformers/fusion_reshape.py +173 -0
onnxruntime/transformers/fusion_rotary_attention.py +1592 -0
onnxruntime/transformers/fusion_shape.py +110 -0
onnxruntime/transformers/fusion_simplified_layernorm.py +159 -0
onnxruntime/transformers/fusion_skip_group_norm.py +255 -0
onnxruntime/transformers/fusion_skiplayernorm.py +209 -0
onnxruntime/transformers/fusion_transpose.py +168 -0
onnxruntime/transformers/fusion_utils.py +307 -0
onnxruntime/transformers/huggingface_models.py +167 -0
onnxruntime/transformers/import_utils.py +20 -0
onnxruntime/transformers/io_binding_helper.py +442 -0
onnxruntime/transformers/large_model_exporter.py +395 -0
onnxruntime/transformers/machine_info.py +221 -0
onnxruntime/transformers/metrics.py +164 -0
onnxruntime/transformers/models/bart/__init__.py +12 -0
onnxruntime/transformers/models/bart/export.py +98 -0
onnxruntime/transformers/models/bert/__init__.py +12 -0
onnxruntime/transformers/models/bert/eval_squad.py +329 -0
onnxruntime/transformers/models/gpt2/__init__.py +12 -0
onnxruntime/transformers/models/gpt2/benchmark_gpt2.py +413 -0
onnxruntime/transformers/models/gpt2/convert_to_onnx.py +561 -0
onnxruntime/transformers/models/gpt2/gpt2_helper.py +1032 -0
onnxruntime/transformers/models/gpt2/gpt2_parity.py +513 -0
onnxruntime/transformers/models/gpt2/gpt2_tester.py +501 -0
onnxruntime/transformers/models/gpt2/parity_check_helper.py +146 -0
onnxruntime/transformers/models/llama/__init__.py +12 -0
onnxruntime/transformers/models/llama/benchmark.py +703 -0
onnxruntime/transformers/models/llama/benchmark_all.py +488 -0
onnxruntime/transformers/models/llama/benchmark_e2e.py +606 -0
onnxruntime/transformers/models/llama/convert_to_onnx.py +1027 -0
onnxruntime/transformers/models/llama/dist_settings.py +57 -0
onnxruntime/transformers/models/llama/llama_inputs.py +503 -0
onnxruntime/transformers/models/llama/llama_parity.py +309 -0
onnxruntime/transformers/models/llama/llama_torch.py +47 -0
onnxruntime/transformers/models/llama/quant_kv_dataloader.py +108 -0
onnxruntime/transformers/models/longformer/__init__.py +12 -0
onnxruntime/transformers/models/longformer/benchmark_longformer.py +821 -0
onnxruntime/transformers/models/longformer/convert_to_onnx.py +413 -0
onnxruntime/transformers/models/longformer/generate_test_data.py +347 -0
onnxruntime/transformers/models/longformer/longformer_helper.py +77 -0
onnxruntime/transformers/models/phi2/__init__.py +12 -0
onnxruntime/transformers/models/phi2/convert_to_onnx.py +576 -0
onnxruntime/transformers/models/phi2/inference_example.py +414 -0
onnxruntime/transformers/models/sam2/__init__.py +12 -0
onnxruntime/transformers/models/sam2/benchmark_sam2.py +625 -0
onnxruntime/transformers/models/sam2/convert_to_onnx.py +260 -0
onnxruntime/transformers/models/sam2/image_decoder.py +273 -0
onnxruntime/transformers/models/sam2/image_encoder.py +186 -0
onnxruntime/transformers/models/sam2/mask_decoder.py +208 -0
onnxruntime/transformers/models/sam2/nvtx_helper.py +33 -0
onnxruntime/transformers/models/sam2/prompt_encoder.py +189 -0
onnxruntime/transformers/models/sam2/sam2_demo.py +322 -0
onnxruntime/transformers/models/sam2/sam2_image_onnx_predictor.py +280 -0
onnxruntime/transformers/models/sam2/sam2_utils.py +147 -0
onnxruntime/transformers/models/stable_diffusion/__init__.py +12 -0
onnxruntime/transformers/models/stable_diffusion/benchmark.py +1429 -0
onnxruntime/transformers/models/stable_diffusion/benchmark_controlnet.py +426 -0
onnxruntime/transformers/models/stable_diffusion/demo_txt2img.py +102 -0
onnxruntime/transformers/models/stable_diffusion/demo_txt2img_xl.py +268 -0
onnxruntime/transformers/models/stable_diffusion/demo_utils.py +778 -0
onnxruntime/transformers/models/stable_diffusion/diffusion_models.py +1319 -0
onnxruntime/transformers/models/stable_diffusion/diffusion_schedulers.py +1181 -0
onnxruntime/transformers/models/stable_diffusion/engine_builder.py +296 -0
onnxruntime/transformers/models/stable_diffusion/engine_builder_ort_cuda.py +388 -0
onnxruntime/transformers/models/stable_diffusion/engine_builder_ort_trt.py +288 -0
onnxruntime/transformers/models/stable_diffusion/engine_builder_tensorrt.py +395 -0
onnxruntime/transformers/models/stable_diffusion/engine_builder_torch.py +108 -0
onnxruntime/transformers/models/stable_diffusion/optimize_pipeline.py +350 -0
onnxruntime/transformers/models/stable_diffusion/ort_optimizer.py +136 -0
onnxruntime/transformers/models/stable_diffusion/pipeline_stable_diffusion.py +831 -0
onnxruntime/transformers/models/stable_diffusion/trt_utilities.py +12 -0
onnxruntime/transformers/models/t5/__init__.py +12 -0
onnxruntime/transformers/models/t5/convert_to_onnx.py +278 -0
onnxruntime/transformers/models/t5/past_helper.py +150 -0
onnxruntime/transformers/models/t5/t5_decoder.py +438 -0
onnxruntime/transformers/models/t5/t5_encoder.py +171 -0
onnxruntime/transformers/models/t5/t5_encoder_decoder_init.py +299 -0
onnxruntime/transformers/models/t5/t5_helper.py +272 -0
onnxruntime/transformers/models/whisper/__init__.py +12 -0
onnxruntime/transformers/models/whisper/benchmark.py +610 -0
onnxruntime/transformers/models/whisper/benchmark_all.py +528 -0
onnxruntime/transformers/models/whisper/convert_to_onnx.py +536 -0
onnxruntime/transformers/models/whisper/whisper_chain.py +329 -0
onnxruntime/transformers/models/whisper/whisper_decoder.py +402 -0
onnxruntime/transformers/models/whisper/whisper_encoder.py +164 -0
onnxruntime/transformers/models/whisper/whisper_encoder_decoder_init.py +306 -0
onnxruntime/transformers/models/whisper/whisper_helper.py +524 -0
onnxruntime/transformers/models/whisper/whisper_openai_helper.py +84 -0
onnxruntime/transformers/onnx_exporter.py +717 -0
onnxruntime/transformers/onnx_model.py +1569 -0
onnxruntime/transformers/onnx_model_bart.py +142 -0
onnxruntime/transformers/onnx_model_bert.py +481 -0
onnxruntime/transformers/onnx_model_bert_keras.py +475 -0
onnxruntime/transformers/onnx_model_bert_tf.py +589 -0
onnxruntime/transformers/onnx_model_clip.py +40 -0
onnxruntime/transformers/onnx_model_conformer.py +33 -0
onnxruntime/transformers/onnx_model_gpt2.py +101 -0
onnxruntime/transformers/onnx_model_phi.py +930 -0
onnxruntime/transformers/onnx_model_sam2.py +138 -0
onnxruntime/transformers/onnx_model_t5.py +791 -0
onnxruntime/transformers/onnx_model_tnlr.py +227 -0
onnxruntime/transformers/onnx_model_unet.py +259 -0
onnxruntime/transformers/onnx_model_vae.py +43 -0
onnxruntime/transformers/onnx_utils.py +55 -0
onnxruntime/transformers/optimizer.py +612 -0
onnxruntime/transformers/profiler.py +725 -0
onnxruntime/transformers/quantize_helper.py +76 -0
onnxruntime/transformers/shape_infer_helper.py +122 -0
onnxruntime/transformers/shape_optimizer.py +401 -0
onnxruntime/transformers/torch_onnx_export_helper.py +74 -0
onnxruntime_directml-1.20.0.dist-info/METADATA +187 -0
onnxruntime_directml-1.20.0.dist-info/RECORD +305 -0
onnxruntime_directml-1.20.0.dist-info/WHEEL +5 -0
onnxruntime_directml-1.20.0.dist-info/entry_points.txt +2 -0
onnxruntime_directml-1.20.0.dist-info/top_level.txt +1 -0

onnxruntime/quantization/operators/matmul.py ADDED Viewed

@@ -0,0 +1,231 @@
+import itertools
+import logging
+import onnx
+from onnx import onnx_pb as onnx_proto
+from ..quant_utils import TENSOR_NAME_QUANT_SUFFIX, QuantizedValue, QuantizedValueType, find_by_name, get_mul_node
+from .base_operator import QuantOperatorBase
+from .qdq_base_operator import QDQOperatorBase
+class QOpMatMul(QuantOperatorBase):
+    def __init__(self, onnx_quantizer, onnx_node):
+        super().__init__(onnx_quantizer, onnx_node)
+    def should_quantize(self):
+        if not self.quantizer.should_quantize_node(self.node):
+            logging.debug(f"Ignore MatMul {self.node.name}]")
+            return False
+        if (not self.quantizer.is_float_tensor(self.node.input[1])) and (
+            not self.quantizer.is_float_tensor(self.node.input[0])
+        ):
+            logging.info(f"Ignore MatMul due to non float inputs {self.node.name}]")
+            return False
+        # do not quantize non-constant B matrices for matmul
+        if self.quantizer.q_matmul_const_b_only:
+            if not self.quantizer.find_initializer_in_path(self.node.input[1]):
+                logging.info(f"Ignore MatMul due to non constant B: {self.quantizer.graph_scope}[{self.node.name}]")
+                return False
+        return True
+"""
+    Used when quantize mode is QuantizationMode.IntegerOps.
+"""
+class MatMulInteger(QOpMatMul):
+    def __init__(self, onnx_quantizer, onnx_node):
+        super().__init__(onnx_quantizer, onnx_node)
+    def quantize(self):
+        node = self.node
+        assert node.op_type == "MatMul"
+        #  Get Quantized from both activation(input[0]) and weight(input[1])
+        (
+            quantized_input_names,
+            zero_point_names,
+            scale_names,
+            nodes,
+        ) = self.quantizer.quantize_activation(node, [0])
+        (
+            quantized_input_names_weight,
+            zero_point_names_weight,
+            scale_names_weight,
+            nodes_weight,
+        ) = self.quantizer.quantize_weight(node, [1], reduce_range=True, op_level_per_channel=True)
+        quantized_input_names.extend(quantized_input_names_weight)
+        zero_point_names.extend(zero_point_names_weight)
+        scale_names.extend(scale_names_weight)
+        nodes.extend(nodes_weight)
+        matmul_integer_output = node.output[0] + "_output_quantized"
+        matmul_integer_name = node.name + "_quant" if node.name else ""
+        matmul_integer_node = onnx.helper.make_node(
+            "MatMulInteger",
+            quantized_input_names + zero_point_names,
+            [matmul_integer_output],
+            matmul_integer_name,
+        )
+        nodes.append(matmul_integer_node)
+        # Add cast operation to cast matmulInteger output to float.
+        cast_op_output = matmul_integer_output + "_cast_output"
+        otype = self.quantizer.get_tensor_type(node.output[0], mandatory=True)
+        cast_node = onnx.helper.make_node(
+            "Cast",
+            [matmul_integer_output],
+            [cast_op_output],
+            matmul_integer_output + "_cast",
+            to=otype,
+        )
+        nodes.append(cast_node)
+        # Add mul operation to multiply scales of two inputs.
+        assert len(scale_names) == 2
+        scales_mul_op = (
+            matmul_integer_name + "_scales_mul"
+            if matmul_integer_name
+            else scale_names[0] + "_" + scale_names[1] + "_mul"
+        )
+        scales_mul_node = find_by_name(scales_mul_op, self.quantizer.new_nodes)
+        if scales_mul_node is None:
+            scales_mul_node = get_mul_node(scale_names, scales_mul_op + ":0", scales_mul_op)
+            nodes.append(scales_mul_node)
+        scales_mul_op_output = scales_mul_node.output[0]
+        # Add mul operation to multiply mul_scales_op result with output of MatMulInteger
+        # and make the output of this node the same as output of original matmul node.
+        output_scale_mul_op = ""
+        if matmul_integer_name:
+            output_scale_mul_op = matmul_integer_name + "_output_scale_mul"
+        nodes.append(
+            get_mul_node(
+                [cast_op_output, scales_mul_op_output],
+                node.output[0],
+                output_scale_mul_op,
+            )
+        )
+        self.quantizer.new_nodes += nodes
+"""
+    Used when quantize mode is QuantizationMode.QLinearOps
+"""
+class QLinearMatMul(QOpMatMul):
+    def __init__(self, onnx_quantizer, onnx_node):
+        super().__init__(onnx_quantizer, onnx_node)
+    def quantize(self):
+        node = self.node
+        assert node.op_type == "MatMul"
+        #  Get Quantized from both activation(input[0]) and weight(input[1])
+        (
+            quantized_input_names,
+            zero_point_names,
+            scale_names,
+            nodes,
+        ) = self.quantizer.quantize_activation(node, [0])
+        (
+            quantized_input_names_weight,
+            zero_point_names_weight,
+            scale_names_weight,
+            nodes_weight,
+        ) = self.quantizer.quantize_weight(node, [1], reduce_range=True, op_level_per_channel=True)
+        quantized_input_names.extend(quantized_input_names_weight)
+        zero_point_names.extend(zero_point_names_weight)
+        scale_names.extend(scale_names_weight)
+        nodes.extend(nodes_weight)
+        (
+            data_found,
+            output_scale_name,
+            output_zp_name,
+            _,
+            _,
+        ) = self.quantizer._get_quantization_params(node.output[0])
+        if not data_found or quantized_input_names is None:
+            return super().quantize()
+        qlinear_matmul_output = node.output[0] + TENSOR_NAME_QUANT_SUFFIX
+        qlinear_matmul_name = node.name + "_quant" if node.name else ""
+        qlinear_matmul_inputs = []
+        # Input 0
+        qlinear_matmul_inputs.append(quantized_input_names[0])
+        qlinear_matmul_inputs.append(scale_names[0])
+        qlinear_matmul_inputs.append(zero_point_names[0])
+        # Input 1
+        qlinear_matmul_inputs.append(quantized_input_names[1])
+        qlinear_matmul_inputs.append(scale_names[1])
+        qlinear_matmul_inputs.append(zero_point_names[1])
+        # Output quantization parameter
+        qlinear_matmul_inputs.append(output_scale_name)
+        qlinear_matmul_inputs.append(output_zp_name)
+        domain = (
+            "com.microsoft"
+            if self.quantizer.weight_qType
+            in {
+                onnx_proto.TensorProto.FLOAT8E4M3FN,
+                onnx_proto.TensorProto.FLOAT8E4M3FNUZ,
+                onnx_proto.TensorProto.FLOAT8E5M2,
+                onnx_proto.TensorProto.FLOAT8E5M2FNUZ,
+            }
+            else ""
+        )
+        qlinear_matmul_node = onnx.helper.make_node(
+            "QLinearMatMul",
+            qlinear_matmul_inputs,
+            [qlinear_matmul_output],
+            qlinear_matmul_name,
+            domain=domain,
+        )
+        nodes.append(qlinear_matmul_node)
+        # Create an entry for this quantized value
+        q_output = QuantizedValue(
+            node.output[0],
+            qlinear_matmul_output,
+            output_scale_name,
+            output_zp_name,
+            QuantizedValueType.Input,
+        )
+        self.quantizer.quantized_value_map[node.output[0]] = q_output
+        self.quantizer.new_nodes += nodes
+class QDQMatMul(QDQOperatorBase):
+    def __init__(self, onnx_quantizer, onnx_node):
+        super().__init__(onnx_quantizer, onnx_node)
+    def quantize(self):
+        node = self.node
+        assert node.op_type == "MatMul"
+        if self.disable_qdq_for_node_output:
+            nodes_to_iterate = node.input
+        else:
+            nodes_to_iterate = itertools.chain(node.input, node.output)
+        for tensor_name in nodes_to_iterate:
+            if find_by_name(tensor_name, self.quantizer.model.initializer()):
+                is_per_channel, channel_axis = self.quantizer.is_tensor_per_channel(
+                    tensor_name, default_axis=1, op_type=node.op_type
+                )
+                if is_per_channel:
+                    self.quantizer.quantize_weight_tensor_per_channel(tensor_name, channel_axis)
+                else:
+                    self.quantizer.quantize_weight_tensor(tensor_name)
+            else:
+                self.quantizer.quantize_activation_tensor(tensor_name)

onnxruntime/quantization/operators/maxpool.py ADDED Viewed

@@ -0,0 +1,34 @@
+from .direct_q8 import Direct8BitOp, QDQDirect8BitOp
+class QMaxPool(Direct8BitOp):
+    def __init__(self, onnx_quantizer, onnx_node):
+        super().__init__(onnx_quantizer, onnx_node)
+    def quantize(self):
+        node = self.node
+        assert node.op_type == "MaxPool"
+        # if version is less than 12, go to normal quantize.
+        if self.quantizer.opset_version < 12:
+            super(Direct8BitOp, self).quantize()
+            return
+        # Direct 8bits op
+        return super().quantize()
+class QDQMaxPool(QDQDirect8BitOp):
+    def __init__(self, onnx_quantizer, onnx_node):
+        super().__init__(onnx_quantizer, onnx_node)
+    def quantize(self):
+        node = self.node
+        assert node.op_type == "MaxPool"
+        # if version is less than 12, just no change
+        if self.quantizer.opset_version < 12:
+            return
+        # Direct 8bits op
+        return super().quantize()

onnxruntime/quantization/operators/norm.py ADDED Viewed

@@ -0,0 +1,40 @@
+# -------------------------------------------------------------------------
+# Copyright (c) Microsoft Corporation. All rights reserved.
+# Licensed under the MIT License.
+# --------------------------------------------------------------------------
+from .qdq_base_operator import QDQOperatorBase
+class QDQNormalization(QDQOperatorBase):
+    def __init__(self, onnx_quantizer, onnx_node):
+        super().__init__(onnx_quantizer, onnx_node)
+    def quantize(self):
+        node = self.node
+        assert node.op_type in {"InstanceNormalization", "LayerNormalization", "BatchNormalization"}
+        # Input
+        self.quantizer.quantize_activation_tensor(node.input[0])
+        # Scale
+        scale_is_initializer = self.quantizer.is_input_a_initializer(node.input[1])
+        scale_is_per_channel, scale_channel_axis = self.quantizer.is_tensor_per_channel(
+            node.input[1], default_axis=1, op_type=node.op_type
+        )
+        if scale_is_per_channel:
+            self.quantizer.quantize_weight_tensor_per_channel(node.input[1], axis=scale_channel_axis)
+        elif scale_is_initializer:
+            self.quantizer.quantize_weight_tensor(node.input[1])
+        else:
+            self.quantizer.quantize_activation_tensor(node.input[1])
+        # Bias
+        if len(node.input) > 2 and node.input[2]:
+            self.quantizer.quantize_bias_tensor(node.name, node.input[2], node.input[0], node.input[1])
+        # Output
+        if not self.disable_qdq_for_node_output:
+            for output_name in node.output:
+                self.quantizer.quantize_activation_tensor(output_name)

onnxruntime/quantization/operators/pad.py ADDED Viewed

@@ -0,0 +1,100 @@
+import onnx
+from ..quant_utils import (
+    TENSOR_NAME_QUANT_SUFFIX,
+    QuantizedValue,
+    QuantizedValueType,
+    attribute_to_kwarg,
+    quantize_nparray,
+)
+from .base_operator import QuantOperatorBase
+class QPad(QuantOperatorBase):
+    def __init__(self, onnx_quantizer, onnx_node):
+        super().__init__(onnx_quantizer, onnx_node)
+    def quantize(self):
+        node = self.node
+        assert node.op_type == "Pad"
+        # Only after version 11, it has the optional constant_value
+        # If input[0] is not quantized, do not quanitize this node
+        if (self.quantizer.opset_version < 11) or (node.input[0] not in self.quantizer.quantized_value_map):
+            super().quantize()
+            return
+        quantized_input_value = self.quantizer.quantized_value_map[node.input[0]]
+        kwargs = {}
+        for attribute in node.attribute:
+            kv = attribute_to_kwarg(attribute)
+            kwargs.update(kv)
+        if "mode" not in kwargs or kwargs["mode"] == b"constant":
+            if len(node.input) > 2 and node.input[2] != "":  # There is 3rd input 'constant_value'
+                zp_tensor = self.quantizer.model.get_initializer(quantized_input_value.zp_name)
+                scale_tensor = self.quantizer.model.get_initializer(quantized_input_value.scale_name)
+                if zp_tensor is None or scale_tensor is None:
+                    super().quantize()
+                    return
+                padding_constant_initializer = self.quantizer.model.get_initializer(node.input[2])
+                if padding_constant_initializer is not None:
+                    zp_array = onnx.numpy_helper.to_array(zp_tensor)
+                    zp_value = zp_array.item() if zp_array.ndim == 0 else zp_array[0]
+                    scale_array = onnx.numpy_helper.to_array(scale_tensor)
+                    scale_value = scale_array.item() if scale_array.ndim == 0 else scale_array[0]
+                    padding_constant_array = onnx.numpy_helper.to_array(padding_constant_initializer)
+                    quantized_padding_constant_array = quantize_nparray(
+                        self.quantizer.activation_qType,
+                        padding_constant_array,
+                        scale_value,
+                        zp_value,
+                    )
+                    quantized_padding_constant_name = node.input[2] + TENSOR_NAME_QUANT_SUFFIX
+                    quantized_padding_constant_initializer = onnx.numpy_helper.from_array(
+                        quantized_padding_constant_array,
+                        quantized_padding_constant_name,
+                    )
+                    # Suppose this padding constant initializer only used by the node
+                    self.quantizer.model.remove_initializer(padding_constant_initializer)
+                    self.quantizer.model.add_initializer(quantized_padding_constant_initializer)
+                    node.input[2] = quantized_padding_constant_name
+                else:
+                    # TODO: check quantize_inputs after sub graph is supported
+                    pad_value_qnodes = self.quantizer._get_quantize_input_nodes(
+                        node,
+                        2,
+                        self.quantizer.activation_qType,
+                        quantized_input_value.scale_name,
+                        quantized_input_value.zp_name,
+                        initial_type=scale_tensor.data_type,
+                    )
+                    self.quantizer.new_nodes.extend(pad_value_qnodes)
+                    node.input[2] = pad_value_qnodes[0].output[0]
+            else:
+                # In quantized format, the `zero` before quantization is mapped
+                # to quantized_input_value.zp_name. Thus, padding 0 to
+                # original tensor should become padding zero point to quantized
+                # tensor.
+                if len(node.input) == 2:
+                    # Feed quantization's zero point to padding node.
+                    node.input.append(quantized_input_value.zp_name)
+                else:
+                    # Assign quantization's zero point to padding node.
+                    assert node.input[2] == ""
+                    node.input[2] = quantized_input_value.zp_name
+        # Create an entry for output quantized value
+        quantized_output_value = QuantizedValue(
+            node.output[0],
+            node.output[0] + TENSOR_NAME_QUANT_SUFFIX,
+            quantized_input_value.scale_name,
+            quantized_input_value.zp_name,
+            QuantizedValueType.Input,
+        )
+        self.quantizer.quantized_value_map[node.output[0]] = quantized_output_value
+        node.input[0] = quantized_input_value.q_name
+        node.output[0] = quantized_output_value.q_name
+        self.quantizer.new_nodes += [node]

onnxruntime/quantization/operators/pooling.py ADDED Viewed

@@ -0,0 +1,67 @@
+import onnx
+from ..quant_utils import TENSOR_NAME_QUANT_SUFFIX, QuantizedValue, QuantizedValueType, attribute_to_kwarg, ms_domain
+from .base_operator import QuantOperatorBase
+class QLinearPool(QuantOperatorBase):
+    def __init__(self, onnx_quantizer, onnx_node):
+        super().__init__(onnx_quantizer, onnx_node)
+    def quantize(self):
+        node = self.node
+        # only try to quantize when given quantization parameters for it
+        (
+            data_found,
+            output_scale_name,
+            output_zp_name,
+            _,
+            _,
+        ) = self.quantizer._get_quantization_params(node.output[0])
+        # get quantized input tensor names, quantize input if needed
+        (
+            quantized_input_names,
+            input_zero_point_names,
+            input_scale_names,
+            nodes,
+        ) = self.quantizer.quantize_activation(node, [0])
+        if not data_found or quantized_input_names is None:
+            return super().quantize()
+        # Create an entry for output quantized value.
+        qlinear_output_name = node.output[0] + TENSOR_NAME_QUANT_SUFFIX
+        quantized_output_value = QuantizedValue(
+            node.output[0],
+            qlinear_output_name,
+            output_scale_name,
+            output_zp_name,
+            QuantizedValueType.Input,
+        )
+        self.quantizer.quantized_value_map[node.output[0]] = quantized_output_value
+        # Create qlinear pool node for given type (AveragePool, etc)
+        kwargs = {}
+        for attribute in node.attribute:
+            kwargs.update(attribute_to_kwarg(attribute))
+        kwargs["domain"] = ms_domain
+        qlinear_node_name = node.name + "_quant" if node.name else ""
+        qnode = onnx.helper.make_node(
+            "QLinear" + node.op_type,
+            [
+                quantized_input_names[0],
+                input_scale_names[0],
+                input_zero_point_names[0],
+                output_scale_name,
+                output_zp_name,
+            ],
+            [qlinear_output_name],
+            qlinear_node_name,
+            **kwargs,
+        )
+        # add all newly created nodes
+        nodes.append(qnode)
+        self.quantizer.new_nodes += nodes

onnxruntime/quantization/operators/qdq_base_operator.py ADDED Viewed

@@ -0,0 +1,22 @@
+import itertools
+from ..quant_utils import QuantizedValue, QuantizedValueType, attribute_to_kwarg, quantize_nparray  # noqa: F401
+from .base_operator import QuantOperatorBase  # noqa: F401
+class QDQOperatorBase:
+    def __init__(self, onnx_quantizer, onnx_node):
+        self.quantizer = onnx_quantizer
+        self.node = onnx_node
+        self.disable_qdq_for_node_output = onnx_node.op_type in onnx_quantizer.op_types_to_exclude_output_quantization
+    def quantize(self):
+        node = self.node
+        if self.disable_qdq_for_node_output:
+            tensors_to_quantize = node.input
+        else:
+            tensors_to_quantize = itertools.chain(node.input, node.output)
+        for tensor_name in tensors_to_quantize:
+            self.quantizer.quantize_activation_tensor(tensor_name)

onnxruntime/quantization/operators/resize.py ADDED Viewed

@@ -0,0 +1,34 @@
+from .direct_q8 import Direct8BitOp, QDQDirect8BitOp
+class QResize(Direct8BitOp):
+    def __init__(self, onnx_quantizer, onnx_node):
+        super().__init__(onnx_quantizer, onnx_node)
+    def quantize(self):
+        node = self.node
+        assert node.op_type == "Resize"
+        # if version is less than 11, go to normal quantize.
+        if self.quantizer.opset_version < 11:
+            super(Direct8BitOp, self).quantize()
+            return
+        # Direct 8bits op
+        return super().quantize()
+class QDQResize(QDQDirect8BitOp):
+    def __init__(self, onnx_quantizer, onnx_node):
+        super().__init__(onnx_quantizer, onnx_node)
+    def quantize(self):
+        node = self.node
+        assert node.op_type == "Resize"
+        # if version is less than 11, just keep this node
+        if self.quantizer.opset_version < 11:
+            return
+        # Direct 8bits op
+        return super().quantize()

onnxruntime/quantization/operators/softmax.py ADDED Viewed

@@ -0,0 +1,74 @@
+import onnx
+import onnx.helper
+from ..quant_utils import TENSOR_NAME_QUANT_SUFFIX, QuantizedValue, QuantizedValueType, attribute_to_kwarg, ms_domain
+from .base_operator import QuantOperatorBase
+class QLinearSoftmax(QuantOperatorBase):
+    def quantize(self):
+        node = self.node
+        # set limitations for softmax output scale and zp, because the output of softmax is always 0-1
+        if self.quantizer.activation_qType == onnx.onnx_pb.TensorProto.UINT8:
+            out_scale = 1 / 256.0
+            out_zero_point = 0
+        else:
+            out_scale = 1 / 256.0
+            out_zero_point = -128
+        # only try to quantize when given quantization parameters for it
+        (
+            data_found,
+            output_scale_name,
+            output_zp_name,
+            _,
+            _,
+        ) = self.quantizer._get_quantization_params(node.output[0], out_scale, out_zero_point)
+        # get quantized input tensor names, quantize input if needed
+        (
+            quantized_input_names,
+            input_zero_point_names,
+            input_scale_names,
+            nodes,
+        ) = self.quantizer.quantize_activation(node, [0])
+        if not data_found or quantized_input_names is None:
+            return super().quantize()
+        # Create an entry for output quantized value.
+        qlinear_output_name = node.output[0] + TENSOR_NAME_QUANT_SUFFIX
+        quantized_output_value = QuantizedValue(
+            node.output[0],
+            qlinear_output_name,
+            output_scale_name,
+            output_zp_name,
+            QuantizedValueType.Input,
+        )
+        self.quantizer.quantized_value_map[node.output[0]] = quantized_output_value
+        # Create qlinear softmax node for given type
+        kwargs = {}
+        for attribute in node.attribute:
+            kwargs.update(attribute_to_kwarg(attribute))
+        kwargs["domain"] = ms_domain
+        # make qlinearsoft has the real opset_version, its default SinceVersion would be 1
+        kwargs["opset"] = self.quantizer.opset_version
+        qlinear_node_name = node.name + "_quant" if node.name else ""
+        qnode = onnx.helper.make_node(
+            "QLinear" + node.op_type,
+            [
+                quantized_input_names[0],
+                input_scale_names[0],
+                input_zero_point_names[0],
+                output_scale_name,
+                output_zp_name,
+            ],
+            [qlinear_output_name],
+            qlinear_node_name,
+            **kwargs,
+        )
+        # add all newly created nodes
+        nodes.append(qnode)
+        self.quantizer.new_nodes += nodes
+        return None

onnxruntime/quantization/operators/split.py ADDED Viewed

@@ -0,0 +1,63 @@
+import onnx
+from ..quant_utils import QuantizedValue, QuantizedValueType, attribute_to_kwarg
+from .base_operator import QuantOperatorBase
+from .qdq_base_operator import QDQOperatorBase
+class QSplit(QuantOperatorBase):
+    def __init__(self, onnx_quantizer, onnx_node):
+        super().__init__(onnx_quantizer, onnx_node)
+    def quantize(self):
+        node = self.node
+        (
+            quantized_input_names,
+            zero_point_names,
+            scale_names,
+            nodes,
+        ) = self.quantizer.quantize_activation(node, [0])
+        if quantized_input_names is None:
+            return super().quantize()
+        quantized_node_name = ""
+        if node.name:
+            quantized_node_name = node.name + "_quant"
+        kwargs = {}
+        for attribute in node.attribute:
+            kwargs.update(attribute_to_kwarg(attribute))
+        # Output just derive the scale/zero from input
+        quantized_output_names = []
+        for output_name in node.output:
+            quantized_output_name = output_name + "quantized"
+            quantized_output_names.append(quantized_output_name)
+            q_output = QuantizedValue(
+                output_name,
+                quantized_output_name,
+                scale_names[0],
+                zero_point_names[0],
+                QuantizedValueType.Input,
+            )
+            self.quantizer.quantized_value_map[output_name] = q_output
+        if len(node.input) > 1:
+            quantized_input_names.extend(node.input[1:])
+        quantized_node = onnx.helper.make_node(
+            node.op_type, quantized_input_names, quantized_output_names, quantized_node_name, **kwargs
+        )
+        nodes.append(quantized_node)
+        self.quantizer.new_nodes += nodes
+class QDQSplit(QDQOperatorBase):
+    def quantize(self):
+        node = self.node
+        assert node.op_type == "Split"
+        if not self.quantizer.is_tensor_quantized(node.input[0]):
+            self.quantizer.quantize_activation_tensor(node.input[0])
+        if not self.disable_qdq_for_node_output:
+            for output in node.output:
+                self.quantizer.quantize_output_same_as_input(output, node.input[0], node.name)