RubyGems - faiss - Versions diffs - 0.6.0 → 0.6.1 - Mend

faiss 0.6.0 → 0.6.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (361) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +4 -0
data/ext/faiss/extconf.rb +2 -1
data/ext/faiss/{index_rb.cpp → index.cpp} +1 -1
data/ext/faiss/index_binary.cpp +1 -1
data/ext/faiss/kmeans.cpp +1 -1
data/ext/faiss/pca_matrix.cpp +1 -1
data/ext/faiss/product_quantizer.cpp +1 -1
data/ext/faiss/{utils_rb.cpp → utils.cpp} +1 -1
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +93 -80
data/vendor/faiss/faiss/Clustering.cpp +39 -240
data/vendor/faiss/faiss/Clustering.h +6 -0
data/vendor/faiss/faiss/IVFlib.cpp +41 -21
data/vendor/faiss/faiss/Index.cpp +6 -5
data/vendor/faiss/faiss/Index.h +5 -5
data/vendor/faiss/faiss/Index2Layer.cpp +37 -53
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +49 -37
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.cpp +36 -34
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.h +4 -1
data/vendor/faiss/faiss/IndexBinary.cpp +5 -3
data/vendor/faiss/faiss/IndexBinary.h +4 -4
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +1 -1
data/vendor/faiss/faiss/IndexBinaryFlat.h +1 -1
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +4 -4
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +84 -92
data/vendor/faiss/faiss/IndexBinaryHNSW.h +9 -3
data/vendor/faiss/faiss/IndexBinaryHash.cpp +45 -236
data/vendor/faiss/faiss/IndexBinaryHash.h +6 -6
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +87 -415
data/vendor/faiss/faiss/IndexFastScan.cpp +72 -109
data/vendor/faiss/faiss/IndexFastScan.h +25 -23
data/vendor/faiss/faiss/IndexFlat.cpp +27 -20
data/vendor/faiss/faiss/IndexFlat.h +21 -18
data/vendor/faiss/faiss/IndexFlatCodes.cpp +42 -19
data/vendor/faiss/faiss/IndexHNSW.cpp +283 -145
data/vendor/faiss/faiss/IndexHNSW.h +16 -2
data/vendor/faiss/faiss/IndexIDMap.cpp +25 -21
data/vendor/faiss/faiss/IndexIDMap.h +9 -7
data/vendor/faiss/faiss/IndexIVF.cpp +465 -362
data/vendor/faiss/faiss/IndexIVF.h +33 -12
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +77 -74
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.cpp +96 -93
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.h +4 -1
data/vendor/faiss/faiss/IndexIVFFastScan.cpp +357 -238
data/vendor/faiss/faiss/IndexIVFFastScan.h +42 -41
data/vendor/faiss/faiss/IndexIVFFlat.cpp +36 -68
data/vendor/faiss/faiss/IndexIVFFlat.h +32 -0
data/vendor/faiss/faiss/IndexIVFFlatPanorama.cpp +53 -30
data/vendor/faiss/faiss/IndexIVFFlatPanorama.h +3 -1
data/vendor/faiss/faiss/IndexIVFIndependentQuantizer.cpp +18 -15
data/vendor/faiss/faiss/IndexIVFPQ.cpp +71 -843
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +151 -121
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexIVFPQR.cpp +21 -17
data/vendor/faiss/faiss/IndexIVFRaBitQ.cpp +26 -39
data/vendor/faiss/faiss/IndexIVFRaBitQ.h +2 -1
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.cpp +475 -476
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.h +248 -93
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +41 -127
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +1 -1
data/vendor/faiss/faiss/IndexLSH.cpp +36 -19
data/vendor/faiss/faiss/IndexLattice.cpp +13 -13
data/vendor/faiss/faiss/IndexNNDescent.cpp +36 -21
data/vendor/faiss/faiss/IndexNNDescent.h +2 -2
data/vendor/faiss/faiss/IndexNSG.cpp +39 -23
data/vendor/faiss/faiss/IndexNeuralNetCodec.cpp +31 -11
data/vendor/faiss/faiss/IndexPQ.cpp +128 -221
data/vendor/faiss/faiss/IndexPQ.h +3 -2
data/vendor/faiss/faiss/IndexPQFastScan.cpp +20 -14
data/vendor/faiss/faiss/IndexPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexPreTransform.cpp +25 -18
data/vendor/faiss/faiss/IndexPreTransform.h +1 -1
data/vendor/faiss/faiss/IndexRaBitQ.cpp +11 -36
data/vendor/faiss/faiss/IndexRaBitQ.h +2 -1
data/vendor/faiss/faiss/IndexRaBitQFastScan.cpp +41 -277
data/vendor/faiss/faiss/IndexRaBitQFastScan.h +183 -27
data/vendor/faiss/faiss/IndexRefine.cpp +30 -25
data/vendor/faiss/faiss/IndexRefine.h +4 -4
data/vendor/faiss/faiss/IndexReplicas.cpp +6 -6
data/vendor/faiss/faiss/IndexRowwiseMinMax.cpp +15 -14
data/vendor/faiss/faiss/IndexRowwiseMinMax.h +1 -1
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +82 -14
data/vendor/faiss/faiss/IndexShards.cpp +10 -9
data/vendor/faiss/faiss/IndexShardsIVF.cpp +21 -15
data/vendor/faiss/faiss/MatrixStats.cpp +5 -4
data/vendor/faiss/faiss/MetaIndexes.cpp +19 -17
data/vendor/faiss/faiss/MetaIndexes.h +1 -1
data/vendor/faiss/faiss/MetricType.h +14 -7
data/vendor/faiss/faiss/SuperKMeans.cpp +656 -0
data/vendor/faiss/faiss/SuperKMeans.h +97 -0
data/vendor/faiss/faiss/VectorTransform.cpp +237 -149
data/vendor/faiss/faiss/VectorTransform.h +16 -16
data/vendor/faiss/faiss/build.cpp +23 -0
data/vendor/faiss/faiss/build.h +15 -0
data/vendor/faiss/faiss/clone_index.cpp +48 -47
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-avx2-inl.h +47 -47
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-inl.h +11 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-avx2-inl.h +38 -38
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-inl.h +11 -0
data/vendor/faiss/faiss/factory_tools.cpp +5 -0
data/vendor/faiss/faiss/gpu/GpuIndexCagra.h +6 -5
data/vendor/faiss/faiss/gpu/GpuResources.h +1 -1
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +9 -9
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +4 -3
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +46 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +56 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +78 -1
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +72 -0
data/vendor/faiss/faiss/gpu/test/TestUtils.h +23 -0
data/vendor/faiss/faiss/gpu/utils/CuvsFilterConvert.h +1 -1
data/vendor/faiss/faiss/gpu/utils/CuvsUtils.h +21 -10
data/vendor/faiss/faiss/gpu_metal/GpuIndexFlat.h +22 -0
data/vendor/faiss/faiss/gpu_metal/MetalCloner.h +35 -0
data/vendor/faiss/faiss/gpu_metal/MetalFlatKernels.h +40 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndex.h +51 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndexFlat.h +65 -0
data/vendor/faiss/faiss/gpu_metal/MetalKernels.h +66 -0
data/vendor/faiss/faiss/gpu_metal/MetalResources.h +79 -0
data/vendor/faiss/faiss/gpu_metal/StandardMetalResources.h +35 -0
data/vendor/faiss/faiss/impl/AdSampling.cpp +103 -0
data/vendor/faiss/faiss/impl/AdSampling.h +35 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +29 -25
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +1 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +10 -9
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +3 -0
data/vendor/faiss/faiss/impl/ClusteringHelpers.cpp +244 -0
data/vendor/faiss/faiss/impl/ClusteringHelpers.h +94 -0
data/vendor/faiss/faiss/impl/ClusteringInitialization.cpp +16 -16
data/vendor/faiss/faiss/impl/CodePacker.cpp +3 -3
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.cpp +1 -1
data/vendor/faiss/faiss/impl/DistanceComputer.h +8 -8
data/vendor/faiss/faiss/impl/FaissAssert.h +6 -3
data/vendor/faiss/faiss/impl/FaissException.h +50 -3
data/vendor/faiss/faiss/impl/HNSW.cpp +92 -317
data/vendor/faiss/faiss/impl/HNSW.h +13 -34
data/vendor/faiss/faiss/impl/IDSelector.cpp +15 -11
data/vendor/faiss/faiss/impl/IDSelector.h +8 -8
data/vendor/faiss/faiss/impl/InvertedListScannerStats.h +26 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +82 -77
data/vendor/faiss/faiss/impl/NNDescent.cpp +62 -25
data/vendor/faiss/faiss/impl/NNDescent.h +6 -2
data/vendor/faiss/faiss/impl/NSG.cpp +38 -21
data/vendor/faiss/faiss/impl/NSG.h +4 -4
data/vendor/faiss/faiss/impl/Panorama.cpp +23 -6
data/vendor/faiss/faiss/impl/Panorama.h +258 -87
data/vendor/faiss/faiss/impl/PdxLayout.cpp +93 -0
data/vendor/faiss/faiss/impl/PdxLayout.h +41 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +46 -32
data/vendor/faiss/faiss/impl/PolysemousTraining.h +3 -3
data/vendor/faiss/faiss/impl/ProductAdditiveQuantizer.cpp +35 -35
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +21 -16
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +30 -23
data/vendor/faiss/faiss/impl/Quantizer.h +2 -2
data/vendor/faiss/faiss/impl/RaBitQUtils.cpp +55 -49
data/vendor/faiss/faiss/impl/RaBitQUtils.h +65 -0
data/vendor/faiss/faiss/impl/RaBitQuantizer.cpp +296 -283
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +26 -23
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +1 -1
data/vendor/faiss/faiss/impl/ResultHandler.h +99 -75
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +52 -4
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +27 -1
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +14 -11
data/vendor/faiss/faiss/impl/VisitedTable.h +7 -0
data/vendor/faiss/faiss/impl/approx_topk/approx_topk.h +276 -0
data/vendor/faiss/faiss/impl/approx_topk/avx2.cpp +68 -0
data/vendor/faiss/faiss/{utils → impl}/approx_topk/generic.h +15 -8
data/vendor/faiss/faiss/impl/approx_topk/neon.cpp +68 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab-inl.h +169 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab.h +117 -0
data/vendor/faiss/faiss/impl/approx_topk/simdlib256-inl.h +146 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHNSW_impl.h +73 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHash_impl.h +270 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryIVF_impl.h +460 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexIVFSpectralHash_impl.h +159 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexPQ_impl.h +92 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx2.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx512.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/dispatch.h +143 -0
data/vendor/faiss/faiss/impl/binary_hamming/neon.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/rvv.cpp +26 -0
data/vendor/faiss/faiss/impl/expanded_scanners.h +8 -3
data/vendor/faiss/faiss/impl/{FastScanDistancePostProcessing.h → fast_scan/FastScanDistancePostProcessing.h} +13 -6
data/vendor/faiss/faiss/impl/{LookupTableScaler.h → fast_scan/LookupTableScaler.h} +16 -5
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops.h +237 -0
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops_512.h +185 -0
data/vendor/faiss/faiss/impl/fast_scan/decompose_qbs.h +229 -0
data/vendor/faiss/faiss/impl/fast_scan/dispatching.h +268 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan.cpp → fast_scan/fast_scan.cpp} +169 -2
data/vendor/faiss/faiss/impl/fast_scan/fast_scan.h +341 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx2.cpp +36 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx512.cpp +40 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-neon.cpp +120 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-riscv.cpp +104 -0
data/vendor/faiss/faiss/impl/fast_scan/kernels_simd256.h +213 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan_search_qbs.cpp → fast_scan/kernels_simd512.h} +26 -356
data/vendor/faiss/faiss/impl/fast_scan/rabitq_dispatching.h +90 -0
data/vendor/faiss/faiss/impl/fast_scan/rabitq_result_handler.h +108 -0
data/vendor/faiss/faiss/impl/{simd_result_handlers.h → fast_scan/simd_result_handlers.h} +282 -134
data/vendor/faiss/faiss/impl/hnsw/LockVector.cpp +54 -0
data/vendor/faiss/faiss/impl/hnsw/LockVector.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.cpp +91 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/avx2.cpp +104 -0
data/vendor/faiss/faiss/impl/hnsw/avx512.cpp +111 -0
data/vendor/faiss/faiss/impl/index_read.cpp +1132 -45
data/vendor/faiss/faiss/impl/index_read_utils.h +1 -1
data/vendor/faiss/faiss/impl/index_write.cpp +95 -13
data/vendor/faiss/faiss/impl/io.cpp +6 -6
data/vendor/faiss/faiss/impl/io_macros.h +33 -16
data/vendor/faiss/faiss/impl/kmeans1d.cpp +10 -10
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +37 -23
data/vendor/faiss/faiss/impl/lattice_Zn.h +6 -6
data/vendor/faiss/faiss/impl/mapped_io.cpp +6 -6
data/vendor/faiss/faiss/impl/platform_macros.h +11 -4
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQScanner_impl.h +549 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.cpp +245 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.h +105 -0
data/vendor/faiss/faiss/impl/pq_code_distance/PQDistanceComputer_impl.h +106 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx2.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx512.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/neon.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/{pq_code_distance-avx2.cpp → pq_code_distance-avx2.h} +9 -13
data/vendor/faiss/faiss/impl/pq_code_distance/{pq_code_distance-avx512.cpp → pq_code_distance-avx512.h} +9 -57
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.cpp +29 -111
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.h +96 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-inl.h +238 -5
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-sve.cpp +5 -7
data/vendor/faiss/faiss/impl/pq_code_distance/rvv.cpp +68 -0
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.cpp +311 -477
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.h +1 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/codecs.h +1 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/distance_computers.h +3 -2
data/vendor/faiss/faiss/impl/scalar_quantizer/quantizers.h +102 -11
data/vendor/faiss/faiss/impl/scalar_quantizer/scanners.h +27 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/similarities.h +3 -3
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx2.cpp +148 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx512.cpp +167 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-dispatch.h +59 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-neon.cpp +163 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-rvv.cpp +311 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.cpp +192 -8
data/vendor/faiss/faiss/impl/scalar_quantizer/training.h +12 -0
data/vendor/faiss/faiss/impl/simd_dispatch.h +100 -66
data/vendor/faiss/faiss/impl/simdlib/simdlib.h +57 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_avx2.h +264 -172
data/vendor/faiss/faiss/impl/simdlib/simdlib_avx512.h +414 -0
data/vendor/faiss/faiss/impl/simdlib/simdlib_dispatch.h +44 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_emulated.h +231 -166
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_neon.h +270 -218
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_ppc64.h +201 -160
data/vendor/faiss/faiss/impl/svs_io.cpp +12 -3
data/vendor/faiss/faiss/impl/svs_io.h +8 -2
data/vendor/faiss/faiss/index_factory.cpp +86 -18
data/vendor/faiss/faiss/index_io.h +24 -0
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +66 -16
data/vendor/faiss/faiss/invlists/DirectMap.cpp +24 -14
data/vendor/faiss/faiss/invlists/DirectMap.h +4 -3
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +157 -73
data/vendor/faiss/faiss/invlists/InvertedLists.h +86 -23
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +4 -4
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +13 -13
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSFaissUtils.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSFlat.cpp +2 -2
data/vendor/faiss/faiss/svs/IndexSVSIVF.cpp +350 -0
data/vendor/faiss/faiss/svs/IndexSVSIVF.h +128 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.cpp +40 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.h +43 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.cpp +225 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.h +71 -0
data/vendor/faiss/faiss/svs/IndexSVSVamana.cpp +25 -1
data/vendor/faiss/faiss/svs/IndexSVSVamana.h +18 -2
data/vendor/faiss/faiss/svs/IndexSVSVamanaLVQ.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.cpp +12 -3
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.h +7 -2
data/vendor/faiss/faiss/utils/Heap.cpp +10 -10
data/vendor/faiss/faiss/utils/NeuralNet.cpp +47 -36
data/vendor/faiss/faiss/utils/NeuralNet.h +1 -1
data/vendor/faiss/faiss/utils/approx_topk_hamming/approx_topk_hamming.h +10 -4
data/vendor/faiss/faiss/utils/distances.cpp +390 -560
data/vendor/faiss/faiss/utils/distances.h +20 -1
data/vendor/faiss/faiss/utils/distances_dispatch.h +117 -37
data/vendor/faiss/faiss/utils/distances_fused/avx512.cpp +8 -7
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.cpp +33 -14
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.h +12 -1
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based.cpp +16 -293
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based_neon.cpp +57 -0
data/vendor/faiss/faiss/utils/distances_fused/simdlib_kernel-inl.h +290 -0
data/vendor/faiss/faiss/utils/distances_simd.cpp +5 -177
data/vendor/faiss/faiss/utils/extra_distances.cpp +9 -8
data/vendor/faiss/faiss/utils/extra_distances.h +32 -6
data/vendor/faiss/faiss/utils/hamming-inl.h +13 -11
data/vendor/faiss/faiss/utils/hamming.cpp +66 -517
data/vendor/faiss/faiss/utils/hamming.h +92 -2
data/vendor/faiss/faiss/utils/hamming_distance/common.h +287 -10
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx2.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx512.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx2.h +142 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx512.h +234 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-generic.h +368 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-neon.h +322 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-rvv.h +39 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer.h +146 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_neon.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_rvv.cpp +15 -0
data/vendor/faiss/faiss/utils/partitioning.cpp +66 -987
data/vendor/faiss/faiss/utils/partitioning.h +31 -0
data/vendor/faiss/faiss/utils/popcount.h +29 -0
data/vendor/faiss/faiss/utils/pq_code_distance.h +2 -2
data/vendor/faiss/faiss/utils/prefetch.h +2 -2
data/vendor/faiss/faiss/utils/quantize_lut.cpp +30 -30
data/vendor/faiss/faiss/utils/quantize_lut.h +1 -1
data/vendor/faiss/faiss/utils/rabitq_simd.h +57 -536
data/vendor/faiss/faiss/utils/random.cpp +6 -6
data/vendor/faiss/faiss/utils/simd_impl/IVFFlatScanner-inl.h +51 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_aarch64.cpp +5 -1
data/vendor/faiss/faiss/utils/simd_impl/distances_arm_sve.cpp +213 -4
data/vendor/faiss/faiss/utils/simd_impl/distances_autovec-inl.h +163 -10
data/vendor/faiss/faiss/utils/simd_impl/distances_avx2.cpp +250 -4
data/vendor/faiss/faiss/utils/simd_impl/distances_avx512.cpp +7 -4
data/vendor/faiss/faiss/utils/simd_impl/distances_rvv.cpp +189 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_simdlib256.h +195 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_sse-inl.h +2 -1
data/vendor/faiss/faiss/utils/{distances_fused/simdlib_based.h → simd_impl/exhaustive_L2sqr_blas_cmax.h} +5 -10
data/vendor/faiss/faiss/utils/simd_impl/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_avx2.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_neon.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_simdlib256.h +1085 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx2.cpp +355 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx512.cpp +477 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_neon.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_rvv.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_dispatch.h +32 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels.h +43 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx2.cpp +57 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx512.cpp +45 -0
data/vendor/faiss/faiss/utils/simd_levels.cpp +17 -5
data/vendor/faiss/faiss/utils/simd_levels.h +93 -1
data/vendor/faiss/faiss/utils/sorting.cpp +48 -36
data/vendor/faiss/faiss/utils/utils.cpp +5 -5
data/vendor/faiss/faiss/utils/utils.h +3 -3
metadata +119 -34
data/vendor/faiss/faiss/impl/RaBitQStats.cpp +0 -29
data/vendor/faiss/faiss/impl/RaBitQStats.h +0 -56
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +0 -224
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +0 -230
data/vendor/faiss/faiss/utils/approx_topk/approx_topk.h +0 -84
data/vendor/faiss/faiss/utils/approx_topk/avx2-inl.h +0 -196
data/vendor/faiss/faiss/utils/approx_topk/mode.h +0 -34
data/vendor/faiss/faiss/utils/distances_fused/avx512.h +0 -36
data/vendor/faiss/faiss/utils/extra_distances-inl.h +0 -235
data/vendor/faiss/faiss/utils/hamming_distance/avx2-inl.h +0 -462
data/vendor/faiss/faiss/utils/hamming_distance/avx512-inl.h +0 -490
data/vendor/faiss/faiss/utils/hamming_distance/generic-inl.h +0 -449
data/vendor/faiss/faiss/utils/hamming_distance/hamdis-inl.h +0 -87
data/vendor/faiss/faiss/utils/hamming_distance/neon-inl.h +0 -524
data/vendor/faiss/faiss/utils/simdlib.h +0 -42
data/vendor/faiss/faiss/utils/simdlib_avx512.h +0 -365
/data/ext/faiss/{utils_rb.h → utils.h} +0 -0

data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_neon.h RENAMED Viewed

@@ -19,6 +19,7 @@
 #include <arm_neon.h>
 #include <faiss/impl/FaissAssert.h>
+#include <faiss/impl/simdlib/simdlib.h>
 namespace faiss {
@@ -269,18 +270,20 @@ static inline uint16x8_t vshrq(uint16x8_t vec) {
 } // namespace detail
 /// vector of 16 elements in uint16
-struct simd16uint16 {
+template <>
+struct simd16uint16_tpl<SIMDLevel::ARM_NEON> {
     uint16x8x2_t data;
-    simd16uint16() = default;
+    simd16uint16_tpl() = default;
-    explicit simd16uint16(int x) : data{vdupq_n_u16(x), vdupq_n_u16(x)} {}
+    explicit simd16uint16_tpl(int x) : data{vdupq_n_u16(x), vdupq_n_u16(x)} {}
-    explicit simd16uint16(uint16_t x) : data{vdupq_n_u16(x), vdupq_n_u16(x)} {}
+    explicit simd16uint16_tpl(uint16_t x)
+            : data{vdupq_n_u16(x), vdupq_n_u16(x)} {}
-    explicit simd16uint16(const uint16x8x2_t& v) : data{v} {}
+    explicit simd16uint16_tpl(const uint16x8x2_t& v) : data{v} {}
-    explicit simd16uint16(
+    explicit simd16uint16_tpl(
             uint16_t u0,
             uint16_t u1,
             uint16_t u2,
@@ -323,10 +326,10 @@ struct simd16uint16 {
             typename std::enable_if<
                     detail::simdlib::is_simd256bit<T>::value,
                     std::nullptr_t>::type = nullptr>
-    explicit simd16uint16(const T& x)
+    explicit simd16uint16_tpl(const T& x)
             : data{detail::simdlib::reinterpret_u16(x.data)} {}
-    explicit simd16uint16(const uint16_t* x)
+    explicit simd16uint16_tpl(const uint16_t* x)
             : data{vld1q_u16(x), vld1q_u16(x + 8)} {}
     void clear() {
@@ -372,65 +375,74 @@ struct simd16uint16 {
         detail::simdlib::set1(data, x).call<&detail::simdlib::vdupq_n_u16>();
     }
-    simd16uint16 operator*(const simd16uint16& other) const {
-        return simd16uint16{detail::simdlib::binary_func(data, other.data)
-                                    .call<&vmulq_u16>()};
+    simd16uint16_tpl operator*(const simd16uint16_tpl& other) const {
+        return simd16uint16_tpl{detail::simdlib::binary_func(data, other.data)
+                                        .call<&vmulq_u16>()};
     }
     // shift must be known at compile time
-    simd16uint16 operator>>(const int shift) const {
+    simd16uint16_tpl operator>>(const int shift) const {
         switch (shift) {
             case 0:
                 return *this;
             case 1:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshrq<1>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshrq<1>>()};
             case 2:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshrq<2>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshrq<2>>()};
             case 3:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshrq<3>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshrq<3>>()};
             case 4:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshrq<4>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshrq<4>>()};
             case 5:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshrq<5>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshrq<5>>()};
             case 6:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshrq<6>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshrq<6>>()};
             case 7:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshrq<7>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshrq<7>>()};
             case 8:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshrq<8>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshrq<8>>()};
             case 9:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshrq<9>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshrq<9>>()};
             case 10:
-                return simd16uint16{
+                return simd16uint16_tpl{
                         detail::simdlib::unary_func(data)
                                 .call<detail::simdlib::vshrq<10>>()};
             case 11:
-                return simd16uint16{
+                return simd16uint16_tpl{
                         detail::simdlib::unary_func(data)
                                 .call<detail::simdlib::vshrq<11>>()};
             case 12:
-                return simd16uint16{
+                return simd16uint16_tpl{
                         detail::simdlib::unary_func(data)
                                 .call<detail::simdlib::vshrq<12>>()};
             case 13:
-                return simd16uint16{
+                return simd16uint16_tpl{
                         detail::simdlib::unary_func(data)
                                 .call<detail::simdlib::vshrq<13>>()};
             case 14:
-                return simd16uint16{
+                return simd16uint16_tpl{
                         detail::simdlib::unary_func(data)
                                 .call<detail::simdlib::vshrq<14>>()};
             case 15:
-                return simd16uint16{
+                return simd16uint16_tpl{
                         detail::simdlib::unary_func(data)
                                 .call<detail::simdlib::vshrq<15>>()};
             default:
@@ -439,59 +451,68 @@ struct simd16uint16 {
     }
     // shift must be known at compile time
-    simd16uint16 operator<<(const int shift) const {
+    simd16uint16_tpl operator<<(const int shift) const {
         switch (shift) {
             case 0:
                 return *this;
             case 1:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshlq<1>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshlq<1>>()};
             case 2:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshlq<2>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshlq<2>>()};
             case 3:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshlq<3>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshlq<3>>()};
             case 4:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshlq<4>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshlq<4>>()};
             case 5:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshlq<5>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshlq<5>>()};
             case 6:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshlq<6>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshlq<6>>()};
             case 7:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshlq<7>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshlq<7>>()};
             case 8:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshlq<8>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshlq<8>>()};
             case 9:
-                return simd16uint16{detail::simdlib::unary_func(data)
-                                            .call<detail::simdlib::vshlq<9>>()};
+                return simd16uint16_tpl{
+                        detail::simdlib::unary_func(data)
+                                .call<detail::simdlib::vshlq<9>>()};
             case 10:
-                return simd16uint16{
+                return simd16uint16_tpl{
                         detail::simdlib::unary_func(data)
                                 .call<detail::simdlib::vshlq<10>>()};
             case 11:
-                return simd16uint16{
+                return simd16uint16_tpl{
                         detail::simdlib::unary_func(data)
                                 .call<detail::simdlib::vshlq<11>>()};
             case 12:
-                return simd16uint16{
+                return simd16uint16_tpl{
                         detail::simdlib::unary_func(data)
                                 .call<detail::simdlib::vshlq<12>>()};
             case 13:
-                return simd16uint16{
+                return simd16uint16_tpl{
                         detail::simdlib::unary_func(data)
                                 .call<detail::simdlib::vshlq<13>>()};
             case 14:
-                return simd16uint16{
+                return simd16uint16_tpl{
                         detail::simdlib::unary_func(data)
                                 .call<detail::simdlib::vshlq<14>>()};
             case 15:
-                return simd16uint16{
+                return simd16uint16_tpl{
                         detail::simdlib::unary_func(data)
                                 .call<detail::simdlib::vshlq<15>>()};
             default:
@@ -499,24 +520,24 @@ struct simd16uint16 {
         }
     }
-    simd16uint16 operator+=(const simd16uint16& other) {
+    simd16uint16_tpl& operator+=(const simd16uint16_tpl& other) {
         *this = *this + other;
         return *this;
     }
-    simd16uint16 operator-=(const simd16uint16& other) {
+    simd16uint16_tpl& operator-=(const simd16uint16_tpl& other) {
         *this = *this - other;
         return *this;
     }
-    simd16uint16 operator+(const simd16uint16& other) const {
-        return simd16uint16{detail::simdlib::binary_func(data, other.data)
-                                    .call<&vaddq_u16>()};
+    simd16uint16_tpl operator+(const simd16uint16_tpl& other) const {
+        return simd16uint16_tpl{detail::simdlib::binary_func(data, other.data)
+                                        .call<&vaddq_u16>()};
     }
-    simd16uint16 operator-(const simd16uint16& other) const {
-        return simd16uint16{detail::simdlib::binary_func(data, other.data)
-                                    .call<&vsubq_u16>()};
+    simd16uint16_tpl operator-(const simd16uint16_tpl& other) const {
+        return simd16uint16_tpl{detail::simdlib::binary_func(data, other.data)
+                                        .call<&vsubq_u16>()};
     }
     template <
@@ -524,8 +545,8 @@ struct simd16uint16 {
             typename std::enable_if<
                     detail::simdlib::is_simd256bit<T>::value,
                     std::nullptr_t>::type = nullptr>
-    simd16uint16 operator&(const T& other) const {
-        return simd16uint16{
+    simd16uint16_tpl operator&(const T& other) const {
+        return simd16uint16_tpl{
                 detail::simdlib::binary_func(
                         data, detail::simdlib::reinterpret_u16(other.data))
                         .template call<&vandq_u16>()};
@@ -536,8 +557,8 @@ struct simd16uint16 {
             typename std::enable_if<
                     detail::simdlib::is_simd256bit<T>::value,
                     std::nullptr_t>::type = nullptr>
-    simd16uint16 operator|(const T& other) const {
-        return simd16uint16{
+    simd16uint16_tpl operator|(const T& other) const {
+        return simd16uint16_tpl{
                 detail::simdlib::binary_func(
                         data, detail::simdlib::reinterpret_u16(other.data))
                         .template call<&vorrq_u16>()};
@@ -548,17 +569,17 @@ struct simd16uint16 {
             typename std::enable_if<
                     detail::simdlib::is_simd256bit<T>::value,
                     std::nullptr_t>::type = nullptr>
-    simd16uint16 operator^(const T& other) const {
-        return simd16uint16{
+    simd16uint16_tpl operator^(const T& other) const {
+        return simd16uint16_tpl{
                 detail::simdlib::binary_func(
                         data, detail::simdlib::reinterpret_u16(other.data))
                         .template call<&veorq_u16>()};
     }
     // returns binary masks
-    simd16uint16 operator==(const simd16uint16& other) const {
-        return simd16uint16{detail::simdlib::binary_func(data, other.data)
-                                    .call<&vceqq_u16>()};
+    simd16uint16_tpl operator==(const simd16uint16_tpl& other) const {
+        return simd16uint16_tpl{detail::simdlib::binary_func(data, other.data)
+                                        .call<&vceqq_u16>()};
     }
     // Checks whether the other holds exactly the same bytes.
@@ -571,8 +592,8 @@ struct simd16uint16 {
         return vminvq_u16(equal) == 0xffffu;
     }
-    simd16uint16 operator~() const {
-        return simd16uint16{
+    simd16uint16_tpl operator~() const {
+        return simd16uint16_tpl{
                 detail::simdlib::unary_func(data).call<&vmvnq_u16>()};
     }
@@ -583,7 +604,7 @@ struct simd16uint16 {
     // mask of elements where this >= thresh
     // 2 bit per component: 16 * 2 = 32 bit
-    uint32_t ge_mask(const simd16uint16& thresh) const {
+    uint32_t ge_mask(const simd16uint16_tpl& thresh) const {
         const auto input = detail::simdlib::binary_func(data, thresh.data)
                                    .call<&vcgeq_u16>();
         const auto vmovmask_u16 = [](uint16x8_t v) -> uint16_t {
@@ -597,15 +618,15 @@ struct simd16uint16 {
                 vmovmask_u16(input.val[0]);
     }
-    uint32_t le_mask(const simd16uint16& thresh) const {
+    uint32_t le_mask(const simd16uint16_tpl& thresh) const {
         return thresh.ge_mask(*this);
     }
-    uint32_t gt_mask(const simd16uint16& thresh) const {
+    uint32_t gt_mask(const simd16uint16_tpl& thresh) const {
         return ~le_mask(thresh);
     }
-    bool all_gt(const simd16uint16& thresh) const {
+    bool all_gt(const simd16uint16_tpl& thresh) const {
         return le_mask(thresh) == 0;
     }
@@ -617,33 +638,39 @@ struct simd16uint16 {
         return tab[i - high * 8];
     }
-    void accu_min(const simd16uint16& incoming) {
+    void accu_min(const simd16uint16_tpl& incoming) {
         data = detail::simdlib::binary_func(incoming.data, data)
                        .call<&vminq_u16>();
     }
-    void accu_max(const simd16uint16& incoming) {
+    void accu_max(const simd16uint16_tpl& incoming) {
         data = detail::simdlib::binary_func(incoming.data, data)
                        .call<&vmaxq_u16>();
     }
 };
 // not really a std::min because it returns an elementwise min
-inline simd16uint16 min(const simd16uint16& av, const simd16uint16& bv) {
-    return simd16uint16{
+inline simd16uint16_tpl<SIMDLevel::ARM_NEON> min(
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& av,
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& bv) {
+    return simd16uint16_tpl<SIMDLevel::ARM_NEON>{
             detail::simdlib::binary_func(av.data, bv.data).call<&vminq_u16>()};
 }
-inline simd16uint16 max(const simd16uint16& av, const simd16uint16& bv) {
-    return simd16uint16{
+inline simd16uint16_tpl<SIMDLevel::ARM_NEON> max(
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& av,
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& bv) {
+    return simd16uint16_tpl<SIMDLevel::ARM_NEON>{
             detail::simdlib::binary_func(av.data, bv.data).call<&vmaxq_u16>()};
 }
 // decompose in 128-lanes: a = (a0, a1), b = (b0, b1)
 // return (a0 + a1, b0 + b1)
 // TODO find a better name
-inline simd16uint16 combine2x2(const simd16uint16& a, const simd16uint16& b) {
-    return simd16uint16{uint16x8x2_t{
+inline simd16uint16_tpl<SIMDLevel::ARM_NEON> combine2x2(
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& a,
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& b) {
+    return simd16uint16_tpl<SIMDLevel::ARM_NEON>{uint16x8x2_t{
             vaddq_u16(a.data.val[0], a.data.val[1]),
             vaddq_u16(b.data.val[0], b.data.val[1])}};
 }
@@ -651,22 +678,24 @@ inline simd16uint16 combine2x2(const simd16uint16& a, const simd16uint16& b) {
 // compare d0 and d1 to thr, return 32 bits corresponding to the concatenation
 // of d0 and d1 with thr
 inline uint32_t cmp_ge32(
-        const simd16uint16& d0,
-        const simd16uint16& d1,
-        const simd16uint16& thr) {
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& d0,
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& d1,
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& thr) {
     return detail::simdlib::cmp_xe32<&vcgeq_u16>(d0.data, d1.data, thr.data);
 }
 inline uint32_t cmp_le32(
-        const simd16uint16& d0,
-        const simd16uint16& d1,
-        const simd16uint16& thr) {
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& d0,
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& d1,
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& thr) {
     return detail::simdlib::cmp_xe32<&vcleq_u16>(d0.data, d1.data, thr.data);
 }
 // hadd does not cross lanes
-inline simd16uint16 hadd(const simd16uint16& a, const simd16uint16& b) {
-    return simd16uint16{
+inline simd16uint16_tpl<SIMDLevel::ARM_NEON> hadd(
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& a,
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& b) {
+    return simd16uint16_tpl<SIMDLevel::ARM_NEON>{
             detail::simdlib::binary_func(a.data, b.data).call<&vpaddq_u16>()};
 }
@@ -682,14 +711,14 @@ inline simd16uint16 hadd(const simd16uint16& a, const simd16uint16& b) {
 // the last equal value is saved instead of the first one), but this behavior
 // saves instructions.
 inline void cmplt_min_max_fast(
-        const simd16uint16 candidateValues,
-        const simd16uint16 candidateIndices,
-        const simd16uint16 currentValues,
-        const simd16uint16 currentIndices,
-        simd16uint16& minValues,
-        simd16uint16& minIndices,
-        simd16uint16& maxValues,
-        simd16uint16& maxIndices) {
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON> candidateValues,
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON> candidateIndices,
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON> currentValues,
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON> currentIndices,
+        simd16uint16_tpl<SIMDLevel::ARM_NEON>& minValues,
+        simd16uint16_tpl<SIMDLevel::ARM_NEON>& minIndices,
+        simd16uint16_tpl<SIMDLevel::ARM_NEON>& maxValues,
+        simd16uint16_tpl<SIMDLevel::ARM_NEON>& maxIndices) {
     const uint16x8x2_t comparison =
             detail::simdlib::binary_func(
                     candidateValues.data, currentValues.data)
@@ -719,16 +748,17 @@ inline void cmplt_min_max_fast(
 }
 // vector of 32 unsigned 8-bit integers
-struct simd32uint8 {
+template <>
+struct simd32uint8_tpl<SIMDLevel::ARM_NEON> {
     uint8x16x2_t data;
-    simd32uint8() = default;
+    simd32uint8_tpl() = default;
-    explicit simd32uint8(int x) : data{vdupq_n_u8(x), vdupq_n_u8(x)} {}
+    explicit simd32uint8_tpl(int x) : data{vdupq_n_u8(x), vdupq_n_u8(x)} {}
-    explicit simd32uint8(uint8_t x) : data{vdupq_n_u8(x), vdupq_n_u8(x)} {}
+    explicit simd32uint8_tpl(uint8_t x) : data{vdupq_n_u8(x), vdupq_n_u8(x)} {}
-    explicit simd32uint8(const uint8x16x2_t& v) : data{v} {}
+    explicit simd32uint8_tpl(const uint8x16x2_t& v) : data{v} {}
     template <
             uint8_t _0,
@@ -763,12 +793,12 @@ struct simd32uint8 {
             uint8_t _29,
             uint8_t _30,
             uint8_t _31>
-    static simd32uint8 create() {
+    static simd32uint8_tpl create() {
         constexpr uint8_t ds[32] = {_0,  _1,  _2,  _3,  _4,  _5,  _6,  _7,
                                     _8,  _9,  _10, _11, _12, _13, _14, _15,
                                     _16, _17, _18, _19, _20, _21, _22, _23,
                                     _24, _25, _26, _27, _28, _29, _30, _31};
-        return simd32uint8{ds};
+        return simd32uint8_tpl{ds};
     }
     template <
@@ -776,10 +806,10 @@ struct simd32uint8 {
             typename std::enable_if<
                     detail::simdlib::is_simd256bit<T>::value,
                     std::nullptr_t>::type = nullptr>
-    explicit simd32uint8(const T& x)
+    explicit simd32uint8_tpl(const T& x)
             : data{detail::simdlib::reinterpret_u8(x.data)} {}
-    explicit simd32uint8(const uint8_t* x)
+    explicit simd32uint8_tpl(const uint8_t* x)
             : data{vld1q_u8(x), vld1q_u8(x + 16)} {}
     void clear() {
@@ -835,25 +865,25 @@ struct simd32uint8 {
             typename std::enable_if<
                     detail::simdlib::is_simd256bit<T>::value,
                     std::nullptr_t>::type = nullptr>
-    simd32uint8 operator&(const T& other) const {
-        return simd32uint8{
+    simd32uint8_tpl operator&(const T& other) const {
+        return simd32uint8_tpl{
                 detail::simdlib::binary_func(
                         data, detail::simdlib::reinterpret_u8(other.data))
                         .template call<&vandq_u8>()};
     }
-    simd32uint8 operator+(const simd32uint8& other) const {
-        return simd32uint8{detail::simdlib::binary_func(data, other.data)
-                                   .call<&vaddq_u8>()};
+    simd32uint8_tpl operator+(const simd32uint8_tpl& other) const {
+        return simd32uint8_tpl{detail::simdlib::binary_func(data, other.data)
+                                       .call<&vaddq_u8>()};
     }
     // The very important operation that everything relies on
-    simd32uint8 lookup_2_lanes(const simd32uint8& idx) const {
-        return simd32uint8{detail::simdlib::binary_func(data, idx.data)
-                                   .call<&vqtbl1q_u8>()};
+    simd32uint8_tpl lookup_2_lanes(const simd32uint8_tpl& idx) const {
+        return simd32uint8_tpl{detail::simdlib::binary_func(data, idx.data)
+                                       .call<&vqtbl1q_u8>()};
     }
-    simd32uint8 operator+=(const simd32uint8& other) {
+    simd32uint8_tpl& operator+=(const simd32uint8_tpl& other) {
         *this = *this + other;
         return *this;
     }
@@ -879,56 +909,59 @@ struct simd32uint8 {
 // convert with saturation
 // careful: this does not cross lanes, so the order is weird
-inline simd32uint8 uint16_to_uint8_saturate(
-        const simd16uint16& a,
-        const simd16uint16& b) {
-    return simd32uint8{uint8x16x2_t{
+inline simd32uint8_tpl<SIMDLevel::ARM_NEON> uint16_to_uint8_saturate(
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& a,
+        const simd16uint16_tpl<SIMDLevel::ARM_NEON>& b) {
+    return simd32uint8_tpl<SIMDLevel::ARM_NEON>{uint8x16x2_t{
             vqmovn_high_u16(vqmovn_u16(a.data.val[0]), b.data.val[0]),
             vqmovn_high_u16(vqmovn_u16(a.data.val[1]), b.data.val[1])}};
 }
 /// get most significant bit of each byte
-inline uint32_t get_MSBs(const simd32uint8& a) {
+inline uint32_t get_MSBs(const simd32uint8_tpl<SIMDLevel::ARM_NEON>& a) {
     using detail::simdlib::vmovmask_u8;
     return vmovmask_u8(a.data.val[0]) |
             static_cast<uint32_t>(vmovmask_u8(a.data.val[1])) << 16u;
 }
 /// use MSB of each byte of mask to select a byte between a and b
-inline simd32uint8 blendv(
-        const simd32uint8& a,
-        const simd32uint8& b,
-        const simd32uint8& mask) {
+inline simd32uint8_tpl<SIMDLevel::ARM_NEON> blendv(
+        const simd32uint8_tpl<SIMDLevel::ARM_NEON>& a,
+        const simd32uint8_tpl<SIMDLevel::ARM_NEON>& b,
+        const simd32uint8_tpl<SIMDLevel::ARM_NEON>& mask) {
     const auto msb = vdupq_n_u8(0x80);
     const uint8x16x2_t msb_mask = {
             vtstq_u8(mask.data.val[0], msb), vtstq_u8(mask.data.val[1], msb)};
     const uint8x16x2_t selected = {
             vbslq_u8(msb_mask.val[0], b.data.val[0], a.data.val[0]),
             vbslq_u8(msb_mask.val[1], b.data.val[1], a.data.val[1])};
-    return simd32uint8{selected};
+    return simd32uint8_tpl<SIMDLevel::ARM_NEON>{selected};
 }
 /// vector of 8 unsigned 32-bit integers
-struct simd8uint32 {
+template <>
+struct simd8uint32_tpl<SIMDLevel::ARM_NEON> {
     uint32x4x2_t data;
-    simd8uint32() = default;
+    simd8uint32_tpl() = default;
-    explicit simd8uint32(uint32_t x) : data{vdupq_n_u32(x), vdupq_n_u32(x)} {}
+    explicit simd8uint32_tpl(uint32_t x)
+            : data{vdupq_n_u32(x), vdupq_n_u32(x)} {}
-    explicit simd8uint32(const uint32x4x2_t& v) : data{v} {}
+    explicit simd8uint32_tpl(const uint32x4x2_t& v) : data{v} {}
     template <
             typename T,
             typename std::enable_if<
                     detail::simdlib::is_simd256bit<T>::value,
                     std::nullptr_t>::type = nullptr>
-    explicit simd8uint32(const T& x)
+    explicit simd8uint32_tpl(const T& x)
             : data{detail::simdlib::reinterpret_u32(x.data)} {}
-    explicit simd8uint32(const uint8_t* x) : simd8uint32(simd32uint8(x)) {}
+    explicit simd8uint32_tpl(const uint8_t* x)
+            : simd8uint32_tpl(simd32uint8_tpl<SIMDLevel::ARM_NEON>(x)) {}
-    explicit simd8uint32(
+    explicit simd8uint32_tpl(
             uint32_t u0,
             uint32_t u1,
             uint32_t u2,
@@ -942,33 +975,33 @@ struct simd8uint32 {
         data.val[1] = vld1q_u32(temp + 4);
     }
-    simd8uint32 operator+(simd8uint32 other) const {
-        return simd8uint32{detail::simdlib::binary_func(data, other.data)
-                                   .call<&vaddq_u32>()};
+    simd8uint32_tpl operator+(simd8uint32_tpl other) const {
+        return simd8uint32_tpl{detail::simdlib::binary_func(data, other.data)
+                                       .call<&vaddq_u32>()};
     }
-    simd8uint32 operator-(simd8uint32 other) const {
-        return simd8uint32{detail::simdlib::binary_func(data, other.data)
-                                   .call<&vsubq_u32>()};
+    simd8uint32_tpl operator-(simd8uint32_tpl other) const {
+        return simd8uint32_tpl{detail::simdlib::binary_func(data, other.data)
+                                       .call<&vsubq_u32>()};
     }
-    simd8uint32& operator+=(const simd8uint32& other) {
+    simd8uint32_tpl& operator+=(const simd8uint32_tpl& other) {
         data.val[0] = vaddq_u32(data.val[0], other.data.val[0]);
         data.val[1] = vaddq_u32(data.val[1], other.data.val[1]);
         return *this;
     }
-    simd8uint32 operator==(simd8uint32 other) const {
-        return simd8uint32{detail::simdlib::binary_func(data, other.data)
-                                   .call<&vceqq_u32>()};
+    simd8uint32_tpl operator==(simd8uint32_tpl other) const {
+        return simd8uint32_tpl{detail::simdlib::binary_func(data, other.data)
+                                       .call<&vceqq_u32>()};
     }
-    simd8uint32 operator~() const {
-        return simd8uint32{
+    simd8uint32_tpl operator~() const {
+        return simd8uint32_tpl{
                 detail::simdlib::unary_func(data).call<&vmvnq_u32>()};
     }
-    simd8uint32 operator!=(simd8uint32 other) const {
+    simd8uint32_tpl operator!=(simd8uint32_tpl other) const {
         return ~(*this == other);
     }
@@ -1025,8 +1058,8 @@ struct simd8uint32 {
         detail::simdlib::set1(data, x).call<&vdupq_n_u32>();
     }
-    simd8uint32 unzip() const {
-        return simd8uint32{uint32x4x2_t{
+    simd8uint32_tpl unzip() const {
+        return simd8uint32_tpl{uint32x4x2_t{
                 vuzp1q_u32(data.val[0], data.val[1]),
                 vuzp2q_u32(data.val[0], data.val[1])}};
     }
@@ -1044,14 +1077,14 @@ struct simd8uint32 {
 // the last equal value is saved instead of the first one), but this behavior
 // saves instructions.
 inline void cmplt_min_max_fast(
-        const simd8uint32 candidateValues,
-        const simd8uint32 candidateIndices,
-        const simd8uint32 currentValues,
-        const simd8uint32 currentIndices,
-        simd8uint32& minValues,
-        simd8uint32& minIndices,
-        simd8uint32& maxValues,
-        simd8uint32& maxIndices) {
+        const simd8uint32_tpl<SIMDLevel::ARM_NEON> candidateValues,
+        const simd8uint32_tpl<SIMDLevel::ARM_NEON> candidateIndices,
+        const simd8uint32_tpl<SIMDLevel::ARM_NEON> currentValues,
+        const simd8uint32_tpl<SIMDLevel::ARM_NEON> currentIndices,
+        simd8uint32_tpl<SIMDLevel::ARM_NEON>& minValues,
+        simd8uint32_tpl<SIMDLevel::ARM_NEON>& minIndices,
+        simd8uint32_tpl<SIMDLevel::ARM_NEON>& maxValues,
+        simd8uint32_tpl<SIMDLevel::ARM_NEON>& maxIndices) {
     const uint32x4x2_t comparison =
             detail::simdlib::binary_func(
                     candidateValues.data, currentValues.data)
@@ -1084,27 +1117,28 @@ inline void cmplt_min_max_fast(
                     candidateIndices.data.val[1])};
 }
-struct simd8float32 {
+template <>
+struct simd8float32_tpl<SIMDLevel::ARM_NEON> {
     float32x4x2_t data;
-    simd8float32() = default;
+    simd8float32_tpl() = default;
-    explicit simd8float32(float x) : data{vdupq_n_f32(x), vdupq_n_f32(x)} {}
+    explicit simd8float32_tpl(float x) : data{vdupq_n_f32(x), vdupq_n_f32(x)} {}
-    explicit simd8float32(const float32x4x2_t& v) : data{v} {}
+    explicit simd8float32_tpl(const float32x4x2_t& v) : data{v} {}
     template <
             typename T,
             typename std::enable_if<
                     detail::simdlib::is_simd256bit<T>::value,
                     std::nullptr_t>::type = nullptr>
-    explicit simd8float32(const T& x)
+    explicit simd8float32_tpl(const T& x)
             : data{detail::simdlib::reinterpret_f32(x.data)} {}
-    explicit simd8float32(const float* x)
+    explicit simd8float32_tpl(const float* x)
             : data{vld1q_f32(x), vld1q_f32(x + 4)} {}
-    explicit simd8float32(
+    explicit simd8float32_tpl(
             float f0,
             float f1,
             float f2,
@@ -1144,22 +1178,22 @@ struct simd8float32 {
         return detail::simdlib::bin(*this);
     }
-    simd8float32 operator*(const simd8float32& other) const {
-        return simd8float32{detail::simdlib::binary_func(data, other.data)
-                                    .call<&vmulq_f32>()};
+    simd8float32_tpl operator*(const simd8float32_tpl& other) const {
+        return simd8float32_tpl{detail::simdlib::binary_func(data, other.data)
+                                        .call<&vmulq_f32>()};
     }
-    simd8float32 operator+(const simd8float32& other) const {
-        return simd8float32{detail::simdlib::binary_func(data, other.data)
-                                    .call<&vaddq_f32>()};
+    simd8float32_tpl operator+(const simd8float32_tpl& other) const {
+        return simd8float32_tpl{detail::simdlib::binary_func(data, other.data)
+                                        .call<&vaddq_f32>()};
     }
-    simd8float32 operator-(const simd8float32& other) const {
-        return simd8float32{detail::simdlib::binary_func(data, other.data)
-                                    .call<&vsubq_f32>()};
+    simd8float32_tpl operator-(const simd8float32_tpl& other) const {
+        return simd8float32_tpl{detail::simdlib::binary_func(data, other.data)
+                                        .call<&vsubq_f32>()};
     }
-    simd8float32& operator+=(const simd8float32& other) {
+    simd8float32_tpl& operator+=(const simd8float32_tpl& other) {
         // In this context, it is more compiler friendly to write intrinsics
         // directly instead of using binary_func
         data.val[0] = vaddq_f32(data.val[0], other.data.val[0]);
@@ -1167,13 +1201,15 @@ struct simd8float32 {
         return *this;
     }
-    simd8uint32 operator==(simd8float32 other) const {
-        return simd8uint32{
+    simd8uint32_tpl<SIMDLevel::ARM_NEON> operator==(
+            simd8float32_tpl other) const {
+        return simd8uint32_tpl<SIMDLevel::ARM_NEON>{
                 detail::simdlib::binary_func<::uint32x4x2_t>(data, other.data)
                         .call<&vceqq_f32>()};
     }
-    simd8uint32 operator!=(simd8float32 other) const {
+    simd8uint32_tpl<SIMDLevel::ARM_NEON> operator!=(
+            simd8float32_tpl other) const {
         return ~(*this == other);
     }
@@ -1194,27 +1230,33 @@ struct simd8float32 {
 };
 // hadd does not cross lanes
-inline simd8float32 hadd(const simd8float32& a, const simd8float32& b) {
-    return simd8float32{
+inline simd8float32_tpl<SIMDLevel::ARM_NEON> hadd(
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& a,
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& b) {
+    return simd8float32_tpl<SIMDLevel::ARM_NEON>{
             detail::simdlib::binary_func(a.data, b.data).call<&vpaddq_f32>()};
 }
-inline simd8float32 unpacklo(const simd8float32& a, const simd8float32& b) {
-    return simd8float32{
+inline simd8float32_tpl<SIMDLevel::ARM_NEON> unpacklo(
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& a,
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& b) {
+    return simd8float32_tpl<SIMDLevel::ARM_NEON>{
             detail::simdlib::binary_func(a.data, b.data).call<&vzip1q_f32>()};
 }
-inline simd8float32 unpackhi(const simd8float32& a, const simd8float32& b) {
-    return simd8float32{
+inline simd8float32_tpl<SIMDLevel::ARM_NEON> unpackhi(
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& a,
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& b) {
+    return simd8float32_tpl<SIMDLevel::ARM_NEON>{
             detail::simdlib::binary_func(a.data, b.data).call<&vzip2q_f32>()};
 }
 // compute a * b + c
-inline simd8float32 fmadd(
-        const simd8float32& a,
-        const simd8float32& b,
-        const simd8float32& c) {
-    return simd8float32{float32x4x2_t{
+inline simd8float32_tpl<SIMDLevel::ARM_NEON> fmadd(
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& a,
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& b,
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& c) {
+    return simd8float32_tpl<SIMDLevel::ARM_NEON>{float32x4x2_t{
             vfmaq_f32(c.data.val[0], a.data.val[0], b.data.val[0]),
             vfmaq_f32(c.data.val[1], a.data.val[1], b.data.val[1])}};
 }
@@ -1251,10 +1293,10 @@ inline simd8float32 fmadd(
 // confusion for ppl who write in low-level SIMD instructions. Additionally,
 // these two ops (cmp and blend) are very often used together.
 inline void cmplt_and_blend_inplace(
-        const simd8float32 candidateValues,
-        const simd8uint32 candidateIndices,
-        simd8float32& lowestValues,
-        simd8uint32& lowestIndices) {
+        const simd8float32_tpl<SIMDLevel::ARM_NEON> candidateValues,
+        const simd8uint32_tpl<SIMDLevel::ARM_NEON> candidateIndices,
+        simd8float32_tpl<SIMDLevel::ARM_NEON>& lowestValues,
+        simd8uint32_tpl<SIMDLevel::ARM_NEON>& lowestIndices) {
     const auto comparison = detail::simdlib::binary_func<::uint32x4x2_t>(
                                     candidateValues.data, lowestValues.data)
                                     .call<&vcltq_f32>();
@@ -1291,14 +1333,14 @@ inline void cmplt_and_blend_inplace(
 // the last equal value is saved instead of the first one), but this behavior
 // saves instructions.
 inline void cmplt_min_max_fast(
-        const simd8float32 candidateValues,
-        const simd8uint32 candidateIndices,
-        const simd8float32 currentValues,
-        const simd8uint32 currentIndices,
-        simd8float32& minValues,
-        simd8uint32& minIndices,
-        simd8float32& maxValues,
-        simd8uint32& maxIndices) {
+        const simd8float32_tpl<SIMDLevel::ARM_NEON> candidateValues,
+        const simd8uint32_tpl<SIMDLevel::ARM_NEON> candidateIndices,
+        const simd8float32_tpl<SIMDLevel::ARM_NEON> currentValues,
+        const simd8uint32_tpl<SIMDLevel::ARM_NEON> currentIndices,
+        simd8float32_tpl<SIMDLevel::ARM_NEON>& minValues,
+        simd8uint32_tpl<SIMDLevel::ARM_NEON>& minIndices,
+        simd8float32_tpl<SIMDLevel::ARM_NEON>& maxValues,
+        simd8uint32_tpl<SIMDLevel::ARM_NEON>& maxIndices) {
     const uint32x4x2_t comparison =
             detail::simdlib::binary_func<::uint32x4x2_t>(
                     candidateValues.data, currentValues.data)
@@ -1334,29 +1376,39 @@ inline void cmplt_min_max_fast(
 namespace {
 // get even float32's of a and b, interleaved
-simd8float32 geteven(const simd8float32& a, const simd8float32& b) {
-    return simd8float32{
+simd8float32_tpl<SIMDLevel::ARM_NEON> geteven(
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& a,
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& b) {
+    return simd8float32_tpl<SIMDLevel::ARM_NEON>{
             detail::simdlib::binary_func(a.data, b.data).call<&vuzp1q_f32>()};
 }
 // get odd float32's of a and b, interleaved
-simd8float32 getodd(const simd8float32& a, const simd8float32& b) {
-    return simd8float32{
+simd8float32_tpl<SIMDLevel::ARM_NEON> getodd(
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& a,
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& b) {
+    return simd8float32_tpl<SIMDLevel::ARM_NEON>{
             detail::simdlib::binary_func(a.data, b.data).call<&vuzp2q_f32>()};
 }
 // 3 cycles
 // if the lanes are a = [a0 a1] and b = [b0 b1], return [a0 b0]
-simd8float32 getlow128(const simd8float32& a, const simd8float32& b) {
-    return simd8float32{float32x4x2_t{a.data.val[0], b.data.val[0]}};
+simd8float32_tpl<SIMDLevel::ARM_NEON> getlow128(
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& a,
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& b) {
+    return simd8float32_tpl<SIMDLevel::ARM_NEON>{
+            float32x4x2_t{a.data.val[0], b.data.val[0]}};
 }
-simd8float32 gethigh128(const simd8float32& a, const simd8float32& b) {
-    return simd8float32{float32x4x2_t{a.data.val[1], b.data.val[1]}};
+simd8float32_tpl<SIMDLevel::ARM_NEON> gethigh128(
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& a,
+        const simd8float32_tpl<SIMDLevel::ARM_NEON>& b) {
+    return simd8float32_tpl<SIMDLevel::ARM_NEON>{
+            float32x4x2_t{a.data.val[1], b.data.val[1]}};
 }
 // horizontal add: sum all 8 floats in the register
-inline float horizontal_add(const simd8float32& a) {
+inline float horizontal_add(const simd8float32_tpl<SIMDLevel::ARM_NEON>& a) {
     float32x4_t sum = vaddq_f32(a.data.val[0], a.data.val[1]);
     return vaddvq_f32(sum);
 }