RubyGems - faiss - Versions diffs - 0.6.0 → 0.6.1 - Mend

faiss 0.6.0 → 0.6.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (361) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +4 -0
data/ext/faiss/extconf.rb +2 -1
data/ext/faiss/{index_rb.cpp → index.cpp} +1 -1
data/ext/faiss/index_binary.cpp +1 -1
data/ext/faiss/kmeans.cpp +1 -1
data/ext/faiss/pca_matrix.cpp +1 -1
data/ext/faiss/product_quantizer.cpp +1 -1
data/ext/faiss/{utils_rb.cpp → utils.cpp} +1 -1
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +93 -80
data/vendor/faiss/faiss/Clustering.cpp +39 -240
data/vendor/faiss/faiss/Clustering.h +6 -0
data/vendor/faiss/faiss/IVFlib.cpp +41 -21
data/vendor/faiss/faiss/Index.cpp +6 -5
data/vendor/faiss/faiss/Index.h +5 -5
data/vendor/faiss/faiss/Index2Layer.cpp +37 -53
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +49 -37
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.cpp +36 -34
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.h +4 -1
data/vendor/faiss/faiss/IndexBinary.cpp +5 -3
data/vendor/faiss/faiss/IndexBinary.h +4 -4
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +1 -1
data/vendor/faiss/faiss/IndexBinaryFlat.h +1 -1
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +4 -4
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +84 -92
data/vendor/faiss/faiss/IndexBinaryHNSW.h +9 -3
data/vendor/faiss/faiss/IndexBinaryHash.cpp +45 -236
data/vendor/faiss/faiss/IndexBinaryHash.h +6 -6
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +87 -415
data/vendor/faiss/faiss/IndexFastScan.cpp +72 -109
data/vendor/faiss/faiss/IndexFastScan.h +25 -23
data/vendor/faiss/faiss/IndexFlat.cpp +27 -20
data/vendor/faiss/faiss/IndexFlat.h +21 -18
data/vendor/faiss/faiss/IndexFlatCodes.cpp +42 -19
data/vendor/faiss/faiss/IndexHNSW.cpp +283 -145
data/vendor/faiss/faiss/IndexHNSW.h +16 -2
data/vendor/faiss/faiss/IndexIDMap.cpp +25 -21
data/vendor/faiss/faiss/IndexIDMap.h +9 -7
data/vendor/faiss/faiss/IndexIVF.cpp +465 -362
data/vendor/faiss/faiss/IndexIVF.h +33 -12
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +77 -74
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.cpp +96 -93
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.h +4 -1
data/vendor/faiss/faiss/IndexIVFFastScan.cpp +357 -238
data/vendor/faiss/faiss/IndexIVFFastScan.h +42 -41
data/vendor/faiss/faiss/IndexIVFFlat.cpp +36 -68
data/vendor/faiss/faiss/IndexIVFFlat.h +32 -0
data/vendor/faiss/faiss/IndexIVFFlatPanorama.cpp +53 -30
data/vendor/faiss/faiss/IndexIVFFlatPanorama.h +3 -1
data/vendor/faiss/faiss/IndexIVFIndependentQuantizer.cpp +18 -15
data/vendor/faiss/faiss/IndexIVFPQ.cpp +71 -843
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +151 -121
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexIVFPQR.cpp +21 -17
data/vendor/faiss/faiss/IndexIVFRaBitQ.cpp +26 -39
data/vendor/faiss/faiss/IndexIVFRaBitQ.h +2 -1
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.cpp +475 -476
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.h +248 -93
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +41 -127
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +1 -1
data/vendor/faiss/faiss/IndexLSH.cpp +36 -19
data/vendor/faiss/faiss/IndexLattice.cpp +13 -13
data/vendor/faiss/faiss/IndexNNDescent.cpp +36 -21
data/vendor/faiss/faiss/IndexNNDescent.h +2 -2
data/vendor/faiss/faiss/IndexNSG.cpp +39 -23
data/vendor/faiss/faiss/IndexNeuralNetCodec.cpp +31 -11
data/vendor/faiss/faiss/IndexPQ.cpp +128 -221
data/vendor/faiss/faiss/IndexPQ.h +3 -2
data/vendor/faiss/faiss/IndexPQFastScan.cpp +20 -14
data/vendor/faiss/faiss/IndexPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexPreTransform.cpp +25 -18
data/vendor/faiss/faiss/IndexPreTransform.h +1 -1
data/vendor/faiss/faiss/IndexRaBitQ.cpp +11 -36
data/vendor/faiss/faiss/IndexRaBitQ.h +2 -1
data/vendor/faiss/faiss/IndexRaBitQFastScan.cpp +41 -277
data/vendor/faiss/faiss/IndexRaBitQFastScan.h +183 -27
data/vendor/faiss/faiss/IndexRefine.cpp +30 -25
data/vendor/faiss/faiss/IndexRefine.h +4 -4
data/vendor/faiss/faiss/IndexReplicas.cpp +6 -6
data/vendor/faiss/faiss/IndexRowwiseMinMax.cpp +15 -14
data/vendor/faiss/faiss/IndexRowwiseMinMax.h +1 -1
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +82 -14
data/vendor/faiss/faiss/IndexShards.cpp +10 -9
data/vendor/faiss/faiss/IndexShardsIVF.cpp +21 -15
data/vendor/faiss/faiss/MatrixStats.cpp +5 -4
data/vendor/faiss/faiss/MetaIndexes.cpp +19 -17
data/vendor/faiss/faiss/MetaIndexes.h +1 -1
data/vendor/faiss/faiss/MetricType.h +14 -7
data/vendor/faiss/faiss/SuperKMeans.cpp +656 -0
data/vendor/faiss/faiss/SuperKMeans.h +97 -0
data/vendor/faiss/faiss/VectorTransform.cpp +237 -149
data/vendor/faiss/faiss/VectorTransform.h +16 -16
data/vendor/faiss/faiss/build.cpp +23 -0
data/vendor/faiss/faiss/build.h +15 -0
data/vendor/faiss/faiss/clone_index.cpp +48 -47
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-avx2-inl.h +47 -47
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-inl.h +11 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-avx2-inl.h +38 -38
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-inl.h +11 -0
data/vendor/faiss/faiss/factory_tools.cpp +5 -0
data/vendor/faiss/faiss/gpu/GpuIndexCagra.h +6 -5
data/vendor/faiss/faiss/gpu/GpuResources.h +1 -1
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +9 -9
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +4 -3
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +46 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +56 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +78 -1
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +72 -0
data/vendor/faiss/faiss/gpu/test/TestUtils.h +23 -0
data/vendor/faiss/faiss/gpu/utils/CuvsFilterConvert.h +1 -1
data/vendor/faiss/faiss/gpu/utils/CuvsUtils.h +21 -10
data/vendor/faiss/faiss/gpu_metal/GpuIndexFlat.h +22 -0
data/vendor/faiss/faiss/gpu_metal/MetalCloner.h +35 -0
data/vendor/faiss/faiss/gpu_metal/MetalFlatKernels.h +40 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndex.h +51 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndexFlat.h +65 -0
data/vendor/faiss/faiss/gpu_metal/MetalKernels.h +66 -0
data/vendor/faiss/faiss/gpu_metal/MetalResources.h +79 -0
data/vendor/faiss/faiss/gpu_metal/StandardMetalResources.h +35 -0
data/vendor/faiss/faiss/impl/AdSampling.cpp +103 -0
data/vendor/faiss/faiss/impl/AdSampling.h +35 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +29 -25
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +1 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +10 -9
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +3 -0
data/vendor/faiss/faiss/impl/ClusteringHelpers.cpp +244 -0
data/vendor/faiss/faiss/impl/ClusteringHelpers.h +94 -0
data/vendor/faiss/faiss/impl/ClusteringInitialization.cpp +16 -16
data/vendor/faiss/faiss/impl/CodePacker.cpp +3 -3
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.cpp +1 -1
data/vendor/faiss/faiss/impl/DistanceComputer.h +8 -8
data/vendor/faiss/faiss/impl/FaissAssert.h +6 -3
data/vendor/faiss/faiss/impl/FaissException.h +50 -3
data/vendor/faiss/faiss/impl/HNSW.cpp +92 -317
data/vendor/faiss/faiss/impl/HNSW.h +13 -34
data/vendor/faiss/faiss/impl/IDSelector.cpp +15 -11
data/vendor/faiss/faiss/impl/IDSelector.h +8 -8
data/vendor/faiss/faiss/impl/InvertedListScannerStats.h +26 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +82 -77
data/vendor/faiss/faiss/impl/NNDescent.cpp +62 -25
data/vendor/faiss/faiss/impl/NNDescent.h +6 -2
data/vendor/faiss/faiss/impl/NSG.cpp +38 -21
data/vendor/faiss/faiss/impl/NSG.h +4 -4
data/vendor/faiss/faiss/impl/Panorama.cpp +23 -6
data/vendor/faiss/faiss/impl/Panorama.h +258 -87
data/vendor/faiss/faiss/impl/PdxLayout.cpp +93 -0
data/vendor/faiss/faiss/impl/PdxLayout.h +41 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +46 -32
data/vendor/faiss/faiss/impl/PolysemousTraining.h +3 -3
data/vendor/faiss/faiss/impl/ProductAdditiveQuantizer.cpp +35 -35
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +21 -16
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +30 -23
data/vendor/faiss/faiss/impl/Quantizer.h +2 -2
data/vendor/faiss/faiss/impl/RaBitQUtils.cpp +55 -49
data/vendor/faiss/faiss/impl/RaBitQUtils.h +65 -0
data/vendor/faiss/faiss/impl/RaBitQuantizer.cpp +296 -283
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +26 -23
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +1 -1
data/vendor/faiss/faiss/impl/ResultHandler.h +99 -75
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +52 -4
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +27 -1
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +14 -11
data/vendor/faiss/faiss/impl/VisitedTable.h +7 -0
data/vendor/faiss/faiss/impl/approx_topk/approx_topk.h +276 -0
data/vendor/faiss/faiss/impl/approx_topk/avx2.cpp +68 -0
data/vendor/faiss/faiss/{utils → impl}/approx_topk/generic.h +15 -8
data/vendor/faiss/faiss/impl/approx_topk/neon.cpp +68 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab-inl.h +169 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab.h +117 -0
data/vendor/faiss/faiss/impl/approx_topk/simdlib256-inl.h +146 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHNSW_impl.h +73 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHash_impl.h +270 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryIVF_impl.h +460 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexIVFSpectralHash_impl.h +159 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexPQ_impl.h +92 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx2.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx512.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/dispatch.h +143 -0
data/vendor/faiss/faiss/impl/binary_hamming/neon.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/rvv.cpp +26 -0
data/vendor/faiss/faiss/impl/expanded_scanners.h +8 -3
data/vendor/faiss/faiss/impl/{FastScanDistancePostProcessing.h → fast_scan/FastScanDistancePostProcessing.h} +13 -6
data/vendor/faiss/faiss/impl/{LookupTableScaler.h → fast_scan/LookupTableScaler.h} +16 -5
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops.h +237 -0
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops_512.h +185 -0
data/vendor/faiss/faiss/impl/fast_scan/decompose_qbs.h +229 -0
data/vendor/faiss/faiss/impl/fast_scan/dispatching.h +268 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan.cpp → fast_scan/fast_scan.cpp} +169 -2
data/vendor/faiss/faiss/impl/fast_scan/fast_scan.h +341 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx2.cpp +36 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx512.cpp +40 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-neon.cpp +120 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-riscv.cpp +104 -0
data/vendor/faiss/faiss/impl/fast_scan/kernels_simd256.h +213 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan_search_qbs.cpp → fast_scan/kernels_simd512.h} +26 -356
data/vendor/faiss/faiss/impl/fast_scan/rabitq_dispatching.h +90 -0
data/vendor/faiss/faiss/impl/fast_scan/rabitq_result_handler.h +108 -0
data/vendor/faiss/faiss/impl/{simd_result_handlers.h → fast_scan/simd_result_handlers.h} +282 -134
data/vendor/faiss/faiss/impl/hnsw/LockVector.cpp +54 -0
data/vendor/faiss/faiss/impl/hnsw/LockVector.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.cpp +91 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/avx2.cpp +104 -0
data/vendor/faiss/faiss/impl/hnsw/avx512.cpp +111 -0
data/vendor/faiss/faiss/impl/index_read.cpp +1132 -45
data/vendor/faiss/faiss/impl/index_read_utils.h +1 -1
data/vendor/faiss/faiss/impl/index_write.cpp +95 -13
data/vendor/faiss/faiss/impl/io.cpp +6 -6
data/vendor/faiss/faiss/impl/io_macros.h +33 -16
data/vendor/faiss/faiss/impl/kmeans1d.cpp +10 -10
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +37 -23
data/vendor/faiss/faiss/impl/lattice_Zn.h +6 -6
data/vendor/faiss/faiss/impl/mapped_io.cpp +6 -6
data/vendor/faiss/faiss/impl/platform_macros.h +11 -4
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQScanner_impl.h +549 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.cpp +245 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.h +105 -0
data/vendor/faiss/faiss/impl/pq_code_distance/PQDistanceComputer_impl.h +106 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx2.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx512.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/neon.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/{pq_code_distance-avx2.cpp → pq_code_distance-avx2.h} +9 -13
data/vendor/faiss/faiss/impl/pq_code_distance/{pq_code_distance-avx512.cpp → pq_code_distance-avx512.h} +9 -57
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.cpp +29 -111
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.h +96 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-inl.h +238 -5
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-sve.cpp +5 -7
data/vendor/faiss/faiss/impl/pq_code_distance/rvv.cpp +68 -0
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.cpp +311 -477
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.h +1 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/codecs.h +1 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/distance_computers.h +3 -2
data/vendor/faiss/faiss/impl/scalar_quantizer/quantizers.h +102 -11
data/vendor/faiss/faiss/impl/scalar_quantizer/scanners.h +27 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/similarities.h +3 -3
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx2.cpp +148 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx512.cpp +167 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-dispatch.h +59 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-neon.cpp +163 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-rvv.cpp +311 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.cpp +192 -8
data/vendor/faiss/faiss/impl/scalar_quantizer/training.h +12 -0
data/vendor/faiss/faiss/impl/simd_dispatch.h +100 -66
data/vendor/faiss/faiss/impl/simdlib/simdlib.h +57 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_avx2.h +264 -172
data/vendor/faiss/faiss/impl/simdlib/simdlib_avx512.h +414 -0
data/vendor/faiss/faiss/impl/simdlib/simdlib_dispatch.h +44 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_emulated.h +231 -166
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_neon.h +270 -218
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_ppc64.h +201 -160
data/vendor/faiss/faiss/impl/svs_io.cpp +12 -3
data/vendor/faiss/faiss/impl/svs_io.h +8 -2
data/vendor/faiss/faiss/index_factory.cpp +86 -18
data/vendor/faiss/faiss/index_io.h +24 -0
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +66 -16
data/vendor/faiss/faiss/invlists/DirectMap.cpp +24 -14
data/vendor/faiss/faiss/invlists/DirectMap.h +4 -3
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +157 -73
data/vendor/faiss/faiss/invlists/InvertedLists.h +86 -23
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +4 -4
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +13 -13
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSFaissUtils.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSFlat.cpp +2 -2
data/vendor/faiss/faiss/svs/IndexSVSIVF.cpp +350 -0
data/vendor/faiss/faiss/svs/IndexSVSIVF.h +128 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.cpp +40 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.h +43 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.cpp +225 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.h +71 -0
data/vendor/faiss/faiss/svs/IndexSVSVamana.cpp +25 -1
data/vendor/faiss/faiss/svs/IndexSVSVamana.h +18 -2
data/vendor/faiss/faiss/svs/IndexSVSVamanaLVQ.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.cpp +12 -3
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.h +7 -2
data/vendor/faiss/faiss/utils/Heap.cpp +10 -10
data/vendor/faiss/faiss/utils/NeuralNet.cpp +47 -36
data/vendor/faiss/faiss/utils/NeuralNet.h +1 -1
data/vendor/faiss/faiss/utils/approx_topk_hamming/approx_topk_hamming.h +10 -4
data/vendor/faiss/faiss/utils/distances.cpp +390 -560
data/vendor/faiss/faiss/utils/distances.h +20 -1
data/vendor/faiss/faiss/utils/distances_dispatch.h +117 -37
data/vendor/faiss/faiss/utils/distances_fused/avx512.cpp +8 -7
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.cpp +33 -14
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.h +12 -1
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based.cpp +16 -293
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based_neon.cpp +57 -0
data/vendor/faiss/faiss/utils/distances_fused/simdlib_kernel-inl.h +290 -0
data/vendor/faiss/faiss/utils/distances_simd.cpp +5 -177
data/vendor/faiss/faiss/utils/extra_distances.cpp +9 -8
data/vendor/faiss/faiss/utils/extra_distances.h +32 -6
data/vendor/faiss/faiss/utils/hamming-inl.h +13 -11
data/vendor/faiss/faiss/utils/hamming.cpp +66 -517
data/vendor/faiss/faiss/utils/hamming.h +92 -2
data/vendor/faiss/faiss/utils/hamming_distance/common.h +287 -10
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx2.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx512.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx2.h +142 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx512.h +234 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-generic.h +368 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-neon.h +322 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-rvv.h +39 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer.h +146 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_neon.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_rvv.cpp +15 -0
data/vendor/faiss/faiss/utils/partitioning.cpp +66 -987
data/vendor/faiss/faiss/utils/partitioning.h +31 -0
data/vendor/faiss/faiss/utils/popcount.h +29 -0
data/vendor/faiss/faiss/utils/pq_code_distance.h +2 -2
data/vendor/faiss/faiss/utils/prefetch.h +2 -2
data/vendor/faiss/faiss/utils/quantize_lut.cpp +30 -30
data/vendor/faiss/faiss/utils/quantize_lut.h +1 -1
data/vendor/faiss/faiss/utils/rabitq_simd.h +57 -536
data/vendor/faiss/faiss/utils/random.cpp +6 -6
data/vendor/faiss/faiss/utils/simd_impl/IVFFlatScanner-inl.h +51 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_aarch64.cpp +5 -1
data/vendor/faiss/faiss/utils/simd_impl/distances_arm_sve.cpp +213 -4
data/vendor/faiss/faiss/utils/simd_impl/distances_autovec-inl.h +163 -10
data/vendor/faiss/faiss/utils/simd_impl/distances_avx2.cpp +250 -4
data/vendor/faiss/faiss/utils/simd_impl/distances_avx512.cpp +7 -4
data/vendor/faiss/faiss/utils/simd_impl/distances_rvv.cpp +189 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_simdlib256.h +195 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_sse-inl.h +2 -1
data/vendor/faiss/faiss/utils/{distances_fused/simdlib_based.h → simd_impl/exhaustive_L2sqr_blas_cmax.h} +5 -10
data/vendor/faiss/faiss/utils/simd_impl/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_avx2.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_neon.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_simdlib256.h +1085 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx2.cpp +355 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx512.cpp +477 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_neon.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_rvv.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_dispatch.h +32 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels.h +43 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx2.cpp +57 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx512.cpp +45 -0
data/vendor/faiss/faiss/utils/simd_levels.cpp +17 -5
data/vendor/faiss/faiss/utils/simd_levels.h +93 -1
data/vendor/faiss/faiss/utils/sorting.cpp +48 -36
data/vendor/faiss/faiss/utils/utils.cpp +5 -5
data/vendor/faiss/faiss/utils/utils.h +3 -3
metadata +119 -34
data/vendor/faiss/faiss/impl/RaBitQStats.cpp +0 -29
data/vendor/faiss/faiss/impl/RaBitQStats.h +0 -56
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +0 -224
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +0 -230
data/vendor/faiss/faiss/utils/approx_topk/approx_topk.h +0 -84
data/vendor/faiss/faiss/utils/approx_topk/avx2-inl.h +0 -196
data/vendor/faiss/faiss/utils/approx_topk/mode.h +0 -34
data/vendor/faiss/faiss/utils/distances_fused/avx512.h +0 -36
data/vendor/faiss/faiss/utils/extra_distances-inl.h +0 -235
data/vendor/faiss/faiss/utils/hamming_distance/avx2-inl.h +0 -462
data/vendor/faiss/faiss/utils/hamming_distance/avx512-inl.h +0 -490
data/vendor/faiss/faiss/utils/hamming_distance/generic-inl.h +0 -449
data/vendor/faiss/faiss/utils/hamming_distance/hamdis-inl.h +0 -87
data/vendor/faiss/faiss/utils/hamming_distance/neon-inl.h +0 -524
data/vendor/faiss/faiss/utils/simdlib.h +0 -42
data/vendor/faiss/faiss/utils/simdlib_avx512.h +0 -365
/data/ext/faiss/{utils_rb.h → utils.h} +0 -0

data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_emulated.h RENAMED Viewed

@@ -12,9 +12,12 @@
 #include <cstring>
 #include <string>
+#include <faiss/impl/simdlib/simdlib.h>
 namespace faiss {
-struct simd256bit {
+template <>
+struct simd256bit_tpl<SIMDLevel::NONE> {
     union {
         uint8_t u8[32];
         uint16_t u16[16];
@@ -22,9 +25,9 @@ struct simd256bit {
         float f32[8];
     };
-    simd256bit() {}
+    simd256bit_tpl() {}
-    explicit simd256bit(const void* x) {
+    explicit simd256bit_tpl(const void* x) {
         memcpy(u8, x, 32);
     }
@@ -59,7 +62,7 @@ struct simd256bit {
     }
     // Checks whether the other holds exactly the same bytes.
-    bool is_same_as(simd256bit other) const {
+    bool is_same_as(simd256bit_tpl other) const {
         for (size_t i = 0; i < 8; i++) {
             if (u32[i] != other.u32[i]) {
                 return false;
@@ -71,22 +74,25 @@ struct simd256bit {
 };
 /// vector of 16 elements in uint16
-struct simd16uint16 : simd256bit {
-    simd16uint16() {}
+template <>
+struct simd16uint16_tpl<SIMDLevel::NONE> : simd256bit_tpl<SIMDLevel::NONE> {
+    simd16uint16_tpl() {}
-    explicit simd16uint16(int x) {
+    explicit simd16uint16_tpl(int x) {
         set1(x);
     }
-    explicit simd16uint16(uint16_t x) {
+    explicit simd16uint16_tpl(uint16_t x) {
         set1(x);
     }
-    explicit simd16uint16(const simd256bit& x) : simd256bit(x) {}
+    explicit simd16uint16_tpl(const simd256bit_tpl<SIMDLevel::NONE>& x)
+            : simd256bit_tpl<SIMDLevel::NONE>(x) {}
-    explicit simd16uint16(const uint16_t* x) : simd256bit((const void*)x) {}
+    explicit simd16uint16_tpl(const uint16_t* x)
+            : simd256bit_tpl<SIMDLevel::NONE>((const void*)x) {}
-    explicit simd16uint16(
+    explicit simd16uint16_tpl(
             uint16_t u0,
             uint16_t u1,
             uint16_t u2,
@@ -95,7 +101,7 @@ struct simd16uint16 : simd256bit {
             uint16_t u5,
             uint16_t u6,
             uint16_t u7,
-            uint16_t u8,
+            uint16_t v8,
             uint16_t u9,
             uint16_t u10,
             uint16_t u11,
@@ -111,7 +117,7 @@ struct simd16uint16 : simd256bit {
         this->u16[5] = u5;
         this->u16[6] = u6;
         this->u16[7] = u7;
-        this->u16[8] = u8;
+        this->u16[8] = v8;
         this->u16[9] = u9;
         this->u16[10] = u10;
         this->u16[11] = u11;
@@ -123,9 +129,17 @@ struct simd16uint16 : simd256bit {
     std::string elements_to_string(const char* fmt) const {
         char res[1000], *ptr = res;
+#if defined(__GNUC__) || defined(__clang__)
+#pragma GCC diagnostic push
+#pragma GCC diagnostic ignored "-Wformat-nonliteral"
+#endif
         for (int i = 0; i < 16; i++) {
-            ptr += sprintf(ptr, fmt, u16[i]);
+            ptr += snprintf(
+                    ptr, (size_t)(res + sizeof(res) - ptr), fmt, u16[i]);
         }
+#if defined(__GNUC__) || defined(__clang__)
+#pragma GCC diagnostic pop
+#endif
         // strip last ,
         ptr[-1] = 0;
         return std::string(res);
@@ -140,8 +154,8 @@ struct simd16uint16 : simd256bit {
     }
     template <typename F>
-    static simd16uint16 unary_func(const simd16uint16& a, F&& f) {
-        simd16uint16 c;
+    static simd16uint16_tpl unary_func(const simd16uint16_tpl& a, F&& f) {
+        simd16uint16_tpl c;
         for (int j = 0; j < 16; j++) {
             c.u16[j] = f(a.u16[j]);
         }
@@ -149,11 +163,11 @@ struct simd16uint16 : simd256bit {
     }
     template <typename F>
-    static simd16uint16 binary_func(
-            const simd16uint16& a,
-            const simd16uint16& b,
+    static simd16uint16_tpl binary_func(
+            const simd16uint16_tpl& a,
+            const simd16uint16_tpl& b,
             F&& f) {
-        simd16uint16 c;
+        simd16uint16_tpl c;
         for (int j = 0; j < 16; j++) {
             c.u16[j] = f(a.u16[j], b.u16[j]);
         }
@@ -166,70 +180,73 @@ struct simd16uint16 : simd256bit {
         }
     }
-    simd16uint16 operator*(const simd16uint16& other) const {
+    simd16uint16_tpl operator*(const simd16uint16_tpl& other) const {
         return binary_func(
                 *this, other, [](uint16_t a, uint16_t b) { return a * b; });
     }
     // shift must be known at compile time
-    simd16uint16 operator>>(const int shift) const {
+    simd16uint16_tpl operator>>(const int shift) const {
         return unary_func(*this, [shift](uint16_t a) { return a >> shift; });
     }
     // shift must be known at compile time
-    simd16uint16 operator<<(const int shift) const {
+    simd16uint16_tpl operator<<(const int shift) const {
         return unary_func(*this, [shift](uint16_t a) { return a << shift; });
     }
-    simd16uint16 operator+=(const simd16uint16& other) {
+    simd16uint16_tpl& operator+=(const simd16uint16_tpl& other) {
         *this = *this + other;
         return *this;
     }
-    simd16uint16 operator-=(const simd16uint16& other) {
+    simd16uint16_tpl& operator-=(const simd16uint16_tpl& other) {
         *this = *this - other;
         return *this;
     }
-    simd16uint16 operator+(const simd16uint16& other) const {
+    simd16uint16_tpl operator+(const simd16uint16_tpl& other) const {
         return binary_func(
                 *this, other, [](uint16_t a, uint16_t b) { return a + b; });
     }
-    simd16uint16 operator-(const simd16uint16& other) const {
+    simd16uint16_tpl operator-(const simd16uint16_tpl& other) const {
         return binary_func(
                 *this, other, [](uint16_t a, uint16_t b) { return a - b; });
     }
-    simd16uint16 operator&(const simd256bit& other) const {
+    simd16uint16_tpl operator&(
+            const simd256bit_tpl<SIMDLevel::NONE>& other) const {
         return binary_func(
-                *this, simd16uint16(other), [](uint16_t a, uint16_t b) {
+                *this, simd16uint16_tpl(other), [](uint16_t a, uint16_t b) {
                     return a & b;
                 });
     }
-    simd16uint16 operator|(const simd256bit& other) const {
+    simd16uint16_tpl operator|(
+            const simd256bit_tpl<SIMDLevel::NONE>& other) const {
         return binary_func(
-                *this, simd16uint16(other), [](uint16_t a, uint16_t b) {
+                *this, simd16uint16_tpl(other), [](uint16_t a, uint16_t b) {
                     return a | b;
                 });
     }
-    simd16uint16 operator^(const simd256bit& other) const {
+    simd16uint16_tpl operator^(
+            const simd256bit_tpl<SIMDLevel::NONE>& other) const {
         return binary_func(
-                *this, simd16uint16(other), [](uint16_t a, uint16_t b) {
+                *this, simd16uint16_tpl(other), [](uint16_t a, uint16_t b) {
                     return a ^ b;
                 });
     }
     // returns binary masks
-    simd16uint16 operator==(const simd16uint16& other) const {
+    simd16uint16_tpl operator==(const simd16uint16_tpl& other) const {
         return binary_func(*this, other, [](uint16_t a, uint16_t b) {
             return a == b ? 0xffff : 0;
         });
     }
-    simd16uint16 operator~() const {
+    simd16uint16_tpl operator~() const {
         return unary_func(*this, [](uint16_t a) { return ~a; });
     }
@@ -240,7 +257,7 @@ struct simd16uint16 : simd256bit {
     // mask of elements where this >= thresh
     // 2 bit per component: 16 * 2 = 32 bit
-    uint32_t ge_mask(const simd16uint16& thresh) const {
+    uint32_t ge_mask(const simd16uint16_tpl& thresh) const {
         uint32_t gem = 0;
         for (int j = 0; j < 16; j++) {
             if (u16[j] >= thresh.u16[j]) {
@@ -250,15 +267,15 @@ struct simd16uint16 : simd256bit {
         return gem;
     }
-    uint32_t le_mask(const simd16uint16& thresh) const {
+    uint32_t le_mask(const simd16uint16_tpl& thresh) const {
         return thresh.ge_mask(*this);
     }
-    uint32_t gt_mask(const simd16uint16& thresh) const {
+    uint32_t gt_mask(const simd16uint16_tpl& thresh) const {
         return ~le_mask(thresh);
     }
-    bool all_gt(const simd16uint16& thresh) const {
+    bool all_gt(const simd16uint16_tpl& thresh) const {
         return le_mask(thresh) == 0;
     }
@@ -267,7 +284,7 @@ struct simd16uint16 : simd256bit {
         return u16[i];
     }
-    void accu_min(const simd16uint16& incoming) {
+    void accu_min(const simd16uint16_tpl& incoming) {
         for (int j = 0; j < 16; j++) {
             if (incoming.u16[j] < u16[j]) {
                 u16[j] = incoming.u16[j];
@@ -275,7 +292,7 @@ struct simd16uint16 : simd256bit {
         }
     }
-    void accu_max(const simd16uint16& incoming) {
+    void accu_max(const simd16uint16_tpl& incoming) {
         for (int j = 0; j < 16; j++) {
             if (incoming.u16[j] > u16[j]) {
                 u16[j] = incoming.u16[j];
@@ -285,21 +302,27 @@ struct simd16uint16 : simd256bit {
 };
 // not really a std::min because it returns an elementwise min
-inline simd16uint16 min(const simd16uint16& av, const simd16uint16& bv) {
-    return simd16uint16::binary_func(
+inline simd16uint16_tpl<SIMDLevel::NONE> min(
+        const simd16uint16_tpl<SIMDLevel::NONE>& av,
+        const simd16uint16_tpl<SIMDLevel::NONE>& bv) {
+    return simd16uint16_tpl<SIMDLevel::NONE>::binary_func(
             av, bv, [](uint16_t a, uint16_t b) { return std::min(a, b); });
 }
-inline simd16uint16 max(const simd16uint16& av, const simd16uint16& bv) {
-    return simd16uint16::binary_func(
+inline simd16uint16_tpl<SIMDLevel::NONE> max(
+        const simd16uint16_tpl<SIMDLevel::NONE>& av,
+        const simd16uint16_tpl<SIMDLevel::NONE>& bv) {
+    return simd16uint16_tpl<SIMDLevel::NONE>::binary_func(
             av, bv, [](uint16_t a, uint16_t b) { return std::max(a, b); });
 }
 // decompose in 128-lanes: a = (a0, a1), b = (b0, b1)
 // return (a0 + a1, b0 + b1)
 // TODO find a better name
-inline simd16uint16 combine2x2(const simd16uint16& a, const simd16uint16& b) {
-    simd16uint16 c;
+inline simd16uint16_tpl<SIMDLevel::NONE> combine2x2(
+        const simd16uint16_tpl<SIMDLevel::NONE>& a,
+        const simd16uint16_tpl<SIMDLevel::NONE>& b) {
+    simd16uint16_tpl<SIMDLevel::NONE> c;
     for (int j = 0; j < 8; j++) {
         c.u16[j] = a.u16[j] + a.u16[j + 8];
         c.u16[j + 8] = b.u16[j] + b.u16[j + 8];
@@ -310,9 +333,9 @@ inline simd16uint16 combine2x2(const simd16uint16& a, const simd16uint16& b) {
 // compare d0 and d1 to thr, return 32 bits corresponding to the concatenation
 // of d0 and d1 with thr
 inline uint32_t cmp_ge32(
-        const simd16uint16& d0,
-        const simd16uint16& d1,
-        const simd16uint16& thr) {
+        const simd16uint16_tpl<SIMDLevel::NONE>& d0,
+        const simd16uint16_tpl<SIMDLevel::NONE>& d1,
+        const simd16uint16_tpl<SIMDLevel::NONE>& thr) {
     uint32_t gem = 0;
     for (int j = 0; j < 16; j++) {
         if (d0.u16[j] >= thr.u16[j]) {
@@ -326,9 +349,9 @@ inline uint32_t cmp_ge32(
 }
 inline uint32_t cmp_le32(
-        const simd16uint16& d0,
-        const simd16uint16& d1,
-        const simd16uint16& thr) {
+        const simd16uint16_tpl<SIMDLevel::NONE>& d0,
+        const simd16uint16_tpl<SIMDLevel::NONE>& d1,
+        const simd16uint16_tpl<SIMDLevel::NONE>& thr) {
     uint32_t gem = 0;
     for (int j = 0; j < 16; j++) {
         if (d0.u16[j] <= thr.u16[j]) {
@@ -342,8 +365,10 @@ inline uint32_t cmp_le32(
 }
 // hadd does not cross lanes
-inline simd16uint16 hadd(const simd16uint16& a, const simd16uint16& b) {
-    simd16uint16 c;
+inline simd16uint16_tpl<SIMDLevel::NONE> hadd(
+        const simd16uint16_tpl<SIMDLevel::NONE>& a,
+        const simd16uint16_tpl<SIMDLevel::NONE>& b) {
+    simd16uint16_tpl<SIMDLevel::NONE> c;
     c.u16[0] = a.u16[0] + a.u16[1];
     c.u16[1] = a.u16[2] + a.u16[3];
     c.u16[2] = a.u16[4] + a.u16[5];
@@ -377,14 +402,14 @@ inline simd16uint16 hadd(const simd16uint16& a, const simd16uint16& b) {
 // the last equal value is saved instead of the first one), but this behavior
 // saves instructions.
 inline void cmplt_min_max_fast(
-        const simd16uint16 candidateValues,
-        const simd16uint16 candidateIndices,
-        const simd16uint16 currentValues,
-        const simd16uint16 currentIndices,
-        simd16uint16& minValues,
-        simd16uint16& minIndices,
-        simd16uint16& maxValues,
-        simd16uint16& maxIndices) {
+        const simd16uint16_tpl<SIMDLevel::NONE> candidateValues,
+        const simd16uint16_tpl<SIMDLevel::NONE> candidateIndices,
+        const simd16uint16_tpl<SIMDLevel::NONE> currentValues,
+        const simd16uint16_tpl<SIMDLevel::NONE> currentIndices,
+        simd16uint16_tpl<SIMDLevel::NONE>& minValues,
+        simd16uint16_tpl<SIMDLevel::NONE>& minIndices,
+        simd16uint16_tpl<SIMDLevel::NONE>& maxValues,
+        simd16uint16_tpl<SIMDLevel::NONE>& maxIndices) {
     for (size_t i = 0; i < 16; i++) {
         bool flag = (candidateValues.u16[i] < currentValues.u16[i]);
         minValues.u16[i] = flag ? candidateValues.u16[i] : currentValues.u16[i];
@@ -398,14 +423,15 @@ inline void cmplt_min_max_fast(
 }
 // vector of 32 unsigned 8-bit integers
-struct simd32uint8 : simd256bit {
-    simd32uint8() {}
+template <>
+struct simd32uint8_tpl<SIMDLevel::NONE> : simd256bit_tpl<SIMDLevel::NONE> {
+    simd32uint8_tpl() {}
-    explicit simd32uint8(int x) {
+    explicit simd32uint8_tpl(int x) {
         set1(x);
     }
-    explicit simd32uint8(uint8_t x) {
+    explicit simd32uint8_tpl(uint8_t x) {
         set1(x);
     }
     template <
@@ -441,8 +467,8 @@ struct simd32uint8 : simd256bit {
             uint8_t _29,
             uint8_t _30,
             uint8_t _31>
-    static simd32uint8 create() {
-        simd32uint8 ret;
+    static simd32uint8_tpl create() {
+        simd32uint8_tpl ret;
         ret.u8[0] = _0;
         ret.u8[1] = _1;
         ret.u8[2] = _2;
@@ -478,15 +504,24 @@ struct simd32uint8 : simd256bit {
         return ret;
     }
-    explicit simd32uint8(const simd256bit& x) : simd256bit(x) {}
+    explicit simd32uint8_tpl(const simd256bit_tpl<SIMDLevel::NONE>& x)
+            : simd256bit_tpl<SIMDLevel::NONE>(x) {}
-    explicit simd32uint8(const uint8_t* x) : simd256bit((const void*)x) {}
+    explicit simd32uint8_tpl(const uint8_t* x)
+            : simd256bit_tpl<SIMDLevel::NONE>((const void*)x) {}
     std::string elements_to_string(const char* fmt) const {
         char res[1000], *ptr = res;
+#if defined(__GNUC__) || defined(__clang__)
+#pragma GCC diagnostic push
+#pragma GCC diagnostic ignored "-Wformat-nonliteral"
+#endif
         for (int i = 0; i < 32; i++) {
-            ptr += sprintf(ptr, fmt, u8[i]);
+            ptr += snprintf(ptr, (size_t)(res + sizeof(res) - ptr), fmt, u8[i]);
         }
+#if defined(__GNUC__) || defined(__clang__)
+#pragma GCC diagnostic pop
+#endif
         // strip last ,
         ptr[-1] = 0;
         return std::string(res);
@@ -507,31 +542,33 @@ struct simd32uint8 : simd256bit {
     }
     template <typename F>
-    static simd32uint8 binary_func(
-            const simd32uint8& a,
-            const simd32uint8& b,
+    static simd32uint8_tpl binary_func(
+            const simd32uint8_tpl& a,
+            const simd32uint8_tpl& b,
             F&& f) {
-        simd32uint8 c;
+        simd32uint8_tpl c;
         for (int j = 0; j < 32; j++) {
             c.u8[j] = f(a.u8[j], b.u8[j]);
         }
         return c;
     }
-    simd32uint8 operator&(const simd256bit& other) const {
-        return binary_func(*this, simd32uint8(other), [](uint8_t a, uint8_t b) {
-            return a & b;
-        });
+    simd32uint8_tpl operator&(
+            const simd256bit_tpl<SIMDLevel::NONE>& other) const {
+        return binary_func(
+                *this, simd32uint8_tpl(other), [](uint8_t a, uint8_t b) {
+                    return a & b;
+                });
     }
-    simd32uint8 operator+(const simd32uint8& other) const {
+    simd32uint8_tpl operator+(const simd32uint8_tpl& other) const {
         return binary_func(
                 *this, other, [](uint8_t a, uint8_t b) { return a + b; });
     }
     // The very important operation that everything relies on
-    simd32uint8 lookup_2_lanes(const simd32uint8& idx) const {
-        simd32uint8 c;
+    simd32uint8_tpl lookup_2_lanes(const simd32uint8_tpl& idx) const {
+        simd32uint8_tpl c;
         for (int j = 0; j < 32; j++) {
             if (idx.u8[j] & 0x80) {
                 c.u8[j] = 0;
@@ -550,7 +587,7 @@ struct simd32uint8 : simd256bit {
     // extract + 0-extend lane
     // this operation is slow (3 cycles)
-    simd32uint8 operator+=(const simd32uint8& other) {
+    simd32uint8_tpl& operator+=(const simd32uint8_tpl& other) {
         *this = *this + other;
         return *this;
     }
@@ -563,10 +600,10 @@ struct simd32uint8 : simd256bit {
 // convert with saturation
 // careful: this does not cross lanes, so the order is weird
-inline simd32uint8 uint16_to_uint8_saturate(
-        const simd16uint16& a,
-        const simd16uint16& b) {
-    simd32uint8 c;
+inline simd32uint8_tpl<SIMDLevel::NONE> uint16_to_uint8_saturate(
+        const simd16uint16_tpl<SIMDLevel::NONE>& a,
+        const simd16uint16_tpl<SIMDLevel::NONE>& b) {
+    simd32uint8_tpl<SIMDLevel::NONE> c;
     auto saturate_16_to_8 = [](uint16_t x) { return x >= 256 ? 0xff : x; };
@@ -580,7 +617,7 @@ inline simd32uint8 uint16_to_uint8_saturate(
 }
 /// get most significant bit of each byte
-inline uint32_t get_MSBs(const simd32uint8& a) {
+inline uint32_t get_MSBs(const simd32uint8_tpl<SIMDLevel::NONE>& a) {
     uint32_t res = 0;
     for (int i = 0; i < 32; i++) {
         if (a.u8[i] & 0x80) {
@@ -591,11 +628,11 @@ inline uint32_t get_MSBs(const simd32uint8& a) {
 }
 /// use MSB of each byte of mask to select a byte between a and b
-inline simd32uint8 blendv(
-        const simd32uint8& a,
-        const simd32uint8& b,
-        const simd32uint8& mask) {
-    simd32uint8 c;
+inline simd32uint8_tpl<SIMDLevel::NONE> blendv(
+        const simd32uint8_tpl<SIMDLevel::NONE>& a,
+        const simd32uint8_tpl<SIMDLevel::NONE>& b,
+        const simd32uint8_tpl<SIMDLevel::NONE>& mask) {
+    simd32uint8_tpl<SIMDLevel::NONE> c;
     for (int i = 0; i < 32; i++) {
         if (mask.u8[i] & 0x80) {
             c.u8[i] = b.u8[i];
@@ -607,18 +644,21 @@ inline simd32uint8 blendv(
 }
 /// vector of 8 unsigned 32-bit integers
-struct simd8uint32 : simd256bit {
-    simd8uint32() {}
+template <>
+struct simd8uint32_tpl<SIMDLevel::NONE> : simd256bit_tpl<SIMDLevel::NONE> {
+    simd8uint32_tpl() {}
-    explicit simd8uint32(uint32_t x) {
+    explicit simd8uint32_tpl(uint32_t x) {
         set1(x);
     }
-    explicit simd8uint32(const simd256bit& x) : simd256bit(x) {}
+    explicit simd8uint32_tpl(const simd256bit_tpl<SIMDLevel::NONE>& x)
+            : simd256bit_tpl<SIMDLevel::NONE>(x) {}
-    explicit simd8uint32(const uint32_t* x) : simd256bit((const void*)x) {}
+    explicit simd8uint32_tpl(const uint32_t* x)
+            : simd256bit_tpl<SIMDLevel::NONE>((const void*)x) {}
-    explicit simd8uint32(
+    explicit simd8uint32_tpl(
             uint32_t u0,
             uint32_t u1,
             uint32_t u2,
@@ -637,30 +677,30 @@ struct simd8uint32 : simd256bit {
         u32[7] = u7;
     }
-    simd8uint32 operator+(simd8uint32 other) const {
-        simd8uint32 result;
+    simd8uint32_tpl operator+(simd8uint32_tpl other) const {
+        simd8uint32_tpl result;
         for (int i = 0; i < 8; i++) {
             result.u32[i] = u32[i] + other.u32[i];
         }
         return result;
     }
-    simd8uint32 operator-(simd8uint32 other) const {
-        simd8uint32 result;
+    simd8uint32_tpl operator-(simd8uint32_tpl other) const {
+        simd8uint32_tpl result;
         for (int i = 0; i < 8; i++) {
             result.u32[i] = u32[i] - other.u32[i];
         }
         return result;
     }
-    simd8uint32& operator+=(const simd8uint32& other) {
+    simd8uint32_tpl& operator+=(const simd8uint32_tpl& other) {
         for (int i = 0; i < 8; i++) {
             u32[i] += other.u32[i];
         }
         return *this;
     }
-    bool operator==(simd8uint32 other) const {
+    bool operator==(simd8uint32_tpl other) const {
         for (size_t i = 0; i < 8; i++) {
             if (u32[i] != other.u32[i]) {
                 return false;
@@ -670,15 +710,23 @@ struct simd8uint32 : simd256bit {
         return true;
     }
-    bool operator!=(simd8uint32 other) const {
+    bool operator!=(simd8uint32_tpl other) const {
         return !(*this == other);
     }
     std::string elements_to_string(const char* fmt) const {
         char res[1000], *ptr = res;
+#if defined(__GNUC__) || defined(__clang__)
+#pragma GCC diagnostic push
+#pragma GCC diagnostic ignored "-Wformat-nonliteral"
+#endif
         for (int i = 0; i < 8; i++) {
-            ptr += sprintf(ptr, fmt, u32[i]);
+            ptr += snprintf(
+                    ptr, (size_t)(res + sizeof(res) - ptr), fmt, u32[i]);
         }
+#if defined(__GNUC__) || defined(__clang__)
+#pragma GCC diagnostic pop
+#endif
         // strip last ,
         ptr[-1] = 0;
         return std::string(res);
@@ -698,10 +746,10 @@ struct simd8uint32 : simd256bit {
         }
     }
-    simd8uint32 unzip() const {
+    simd8uint32_tpl unzip() const {
         const uint32_t ret[] = {
                 u32[0], u32[2], u32[4], u32[6], u32[1], u32[3], u32[5], u32[7]};
-        return simd8uint32{ret};
+        return simd8uint32_tpl{ret};
     }
 };
@@ -717,14 +765,14 @@ struct simd8uint32 : simd256bit {
 // the last equal value is saved instead of the first one), but this behavior
 // saves instructions.
 inline void cmplt_min_max_fast(
-        const simd8uint32 candidateValues,
-        const simd8uint32 candidateIndices,
-        const simd8uint32 currentValues,
-        const simd8uint32 currentIndices,
-        simd8uint32& minValues,
-        simd8uint32& minIndices,
-        simd8uint32& maxValues,
-        simd8uint32& maxIndices) {
+        const simd8uint32_tpl<SIMDLevel::NONE> candidateValues,
+        const simd8uint32_tpl<SIMDLevel::NONE> candidateIndices,
+        const simd8uint32_tpl<SIMDLevel::NONE> currentValues,
+        const simd8uint32_tpl<SIMDLevel::NONE> currentIndices,
+        simd8uint32_tpl<SIMDLevel::NONE>& minValues,
+        simd8uint32_tpl<SIMDLevel::NONE>& minIndices,
+        simd8uint32_tpl<SIMDLevel::NONE>& maxValues,
+        simd8uint32_tpl<SIMDLevel::NONE>& maxIndices) {
     for (size_t i = 0; i < 8; i++) {
         bool flag = (candidateValues.u32[i] < currentValues.u32[i]);
         minValues.u32[i] = flag ? candidateValues.u32[i] : currentValues.u32[i];
@@ -737,16 +785,18 @@ inline void cmplt_min_max_fast(
     }
 }
-struct simd8float32 : simd256bit {
-    simd8float32() {}
+template <>
+struct simd8float32_tpl<SIMDLevel::NONE> : simd256bit_tpl<SIMDLevel::NONE> {
+    simd8float32_tpl() {}
-    explicit simd8float32(const simd256bit& x) : simd256bit(x) {}
+    explicit simd8float32_tpl(const simd256bit_tpl<SIMDLevel::NONE>& x)
+            : simd256bit_tpl<SIMDLevel::NONE>(x) {}
-    explicit simd8float32(float x) {
+    explicit simd8float32_tpl(float x) {
         set1(x);
     }
-    explicit simd8float32(const float* x) {
+    explicit simd8float32_tpl(const float* x) {
         loadu((void*)x);
     }
@@ -756,7 +806,7 @@ struct simd8float32 : simd256bit {
         }
     }
-    explicit simd8float32(
+    explicit simd8float32_tpl(
             float f0,
             float f1,
             float f2,
@@ -776,33 +826,33 @@ struct simd8float32 : simd256bit {
     }
     template <typename F>
-    static simd8float32 binary_func(
-            const simd8float32& a,
-            const simd8float32& b,
+    static simd8float32_tpl binary_func(
+            const simd8float32_tpl& a,
+            const simd8float32_tpl& b,
             F&& f) {
-        simd8float32 c;
+        simd8float32_tpl c;
         for (int j = 0; j < 8; j++) {
             c.f32[j] = f(a.f32[j], b.f32[j]);
         }
         return c;
     }
-    simd8float32 operator*(const simd8float32& other) const {
+    simd8float32_tpl operator*(const simd8float32_tpl& other) const {
         return binary_func(
                 *this, other, [](float a, float b) { return a * b; });
     }
-    simd8float32 operator+(const simd8float32& other) const {
+    simd8float32_tpl operator+(const simd8float32_tpl& other) const {
         return binary_func(
                 *this, other, [](float a, float b) { return a + b; });
     }
-    simd8float32 operator-(const simd8float32& other) const {
+    simd8float32_tpl operator-(const simd8float32_tpl& other) const {
         return binary_func(
                 *this, other, [](float a, float b) { return a - b; });
     }
-    simd8float32& operator+=(const simd8float32& other) {
+    simd8float32_tpl& operator+=(const simd8float32_tpl& other) {
         for (size_t i = 0; i < 8; i++) {
             f32[i] += other.f32[i];
         }
@@ -810,7 +860,7 @@ struct simd8float32 : simd256bit {
         return *this;
     }
-    bool operator==(simd8float32 other) const {
+    bool operator==(simd8float32_tpl other) const {
         for (size_t i = 0; i < 8; i++) {
             if (f32[i] != other.f32[i]) {
                 return false;
@@ -820,14 +870,15 @@ struct simd8float32 : simd256bit {
         return true;
     }
-    bool operator!=(simd8float32 other) const {
+    bool operator!=(simd8float32_tpl other) const {
         return !(*this == other);
     }
     std::string tostring() const {
         char res[1000], *ptr = res;
         for (int i = 0; i < 8; i++) {
-            ptr += sprintf(ptr, "%g,", f32[i]);
+            ptr += snprintf(
+                    ptr, (size_t)(res + sizeof(res) - ptr), "%g,", f32[i]);
         }
         // strip last ,
         ptr[-1] = 0;
@@ -836,8 +887,10 @@ struct simd8float32 : simd256bit {
 };
 // hadd does not cross lanes
-inline simd8float32 hadd(const simd8float32& a, const simd8float32& b) {
-    simd8float32 c;
+inline simd8float32_tpl<SIMDLevel::NONE> hadd(
+        const simd8float32_tpl<SIMDLevel::NONE>& a,
+        const simd8float32_tpl<SIMDLevel::NONE>& b) {
+    simd8float32_tpl<SIMDLevel::NONE> c;
     c.f32[0] = a.f32[0] + a.f32[1];
     c.f32[1] = a.f32[2] + a.f32[3];
     c.f32[2] = b.f32[0] + b.f32[1];
@@ -851,8 +904,10 @@ inline simd8float32 hadd(const simd8float32& a, const simd8float32& b) {
     return c;
 }
-inline simd8float32 unpacklo(const simd8float32& a, const simd8float32& b) {
-    simd8float32 c;
+inline simd8float32_tpl<SIMDLevel::NONE> unpacklo(
+        const simd8float32_tpl<SIMDLevel::NONE>& a,
+        const simd8float32_tpl<SIMDLevel::NONE>& b) {
+    simd8float32_tpl<SIMDLevel::NONE> c;
     c.f32[0] = a.f32[0];
     c.f32[1] = b.f32[0];
     c.f32[2] = a.f32[1];
@@ -866,8 +921,10 @@ inline simd8float32 unpacklo(const simd8float32& a, const simd8float32& b) {
     return c;
 }
-inline simd8float32 unpackhi(const simd8float32& a, const simd8float32& b) {
-    simd8float32 c;
+inline simd8float32_tpl<SIMDLevel::NONE> unpackhi(
+        const simd8float32_tpl<SIMDLevel::NONE>& a,
+        const simd8float32_tpl<SIMDLevel::NONE>& b) {
+    simd8float32_tpl<SIMDLevel::NONE> c;
     c.f32[0] = a.f32[2];
     c.f32[1] = b.f32[2];
     c.f32[2] = a.f32[3];
@@ -882,11 +939,11 @@ inline simd8float32 unpackhi(const simd8float32& a, const simd8float32& b) {
 }
 // compute a * b + c
-inline simd8float32 fmadd(
-        const simd8float32& a,
-        const simd8float32& b,
-        const simd8float32& c) {
-    simd8float32 res;
+inline simd8float32_tpl<SIMDLevel::NONE> fmadd(
+        const simd8float32_tpl<SIMDLevel::NONE>& a,
+        const simd8float32_tpl<SIMDLevel::NONE>& b,
+        const simd8float32_tpl<SIMDLevel::NONE>& c) {
+    simd8float32_tpl<SIMDLevel::NONE> res;
     for (int i = 0; i < 8; i++) {
         res.f32[i] = a.f32[i] * b.f32[i] + c.f32[i];
     }
@@ -896,8 +953,10 @@ inline simd8float32 fmadd(
 namespace {
 // get even float32's of a and b, interleaved
-simd8float32 geteven(const simd8float32& a, const simd8float32& b) {
-    simd8float32 c;
+[[maybe_unused]] simd8float32_tpl<SIMDLevel::NONE> geteven(
+        const simd8float32_tpl<SIMDLevel::NONE>& a,
+        const simd8float32_tpl<SIMDLevel::NONE>& b) {
+    simd8float32_tpl<SIMDLevel::NONE> c;
     c.f32[0] = a.f32[0];
     c.f32[1] = a.f32[2];
@@ -913,8 +972,10 @@ simd8float32 geteven(const simd8float32& a, const simd8float32& b) {
 }
 // get odd float32's of a and b, interleaved
-simd8float32 getodd(const simd8float32& a, const simd8float32& b) {
-    simd8float32 c;
+[[maybe_unused]] simd8float32_tpl<SIMDLevel::NONE> getodd(
+        const simd8float32_tpl<SIMDLevel::NONE>& a,
+        const simd8float32_tpl<SIMDLevel::NONE>& b) {
+    simd8float32_tpl<SIMDLevel::NONE> c;
     c.f32[0] = a.f32[1];
     c.f32[1] = a.f32[3];
@@ -931,8 +992,10 @@ simd8float32 getodd(const simd8float32& a, const simd8float32& b) {
 // 3 cycles
 // if the lanes are a = [a0 a1] and b = [b0 b1], return [a0 b0]
-simd8float32 getlow128(const simd8float32& a, const simd8float32& b) {
-    simd8float32 c;
+[[maybe_unused]] simd8float32_tpl<SIMDLevel::NONE> getlow128(
+        const simd8float32_tpl<SIMDLevel::NONE>& a,
+        const simd8float32_tpl<SIMDLevel::NONE>& b) {
+    simd8float32_tpl<SIMDLevel::NONE> c;
     c.f32[0] = a.f32[0];
     c.f32[1] = a.f32[1];
@@ -947,8 +1010,10 @@ simd8float32 getlow128(const simd8float32& a, const simd8float32& b) {
     return c;
 }
-simd8float32 gethigh128(const simd8float32& a, const simd8float32& b) {
-    simd8float32 c;
+[[maybe_unused]] simd8float32_tpl<SIMDLevel::NONE> gethigh128(
+        const simd8float32_tpl<SIMDLevel::NONE>& a,
+        const simd8float32_tpl<SIMDLevel::NONE>& b) {
+    simd8float32_tpl<SIMDLevel::NONE> c;
     c.f32[0] = a.f32[4];
     c.f32[1] = a.f32[5];
@@ -995,10 +1060,10 @@ simd8float32 gethigh128(const simd8float32& a, const simd8float32& b) {
 // confusion for ppl who write in low-level SIMD instructions. Additionally,
 // these two ops (cmp and blend) are very often used together.
 inline void cmplt_and_blend_inplace(
-        const simd8float32 candidateValues,
-        const simd8uint32 candidateIndices,
-        simd8float32& lowestValues,
-        simd8uint32& lowestIndices) {
+        const simd8float32_tpl<SIMDLevel::NONE> candidateValues,
+        const simd8uint32_tpl<SIMDLevel::NONE> candidateIndices,
+        simd8float32_tpl<SIMDLevel::NONE>& lowestValues,
+        simd8uint32_tpl<SIMDLevel::NONE>& lowestIndices) {
     for (size_t j = 0; j < 8; j++) {
         bool comparison = (candidateValues.f32[j] < lowestValues.f32[j]);
         if (comparison) {
@@ -1020,14 +1085,14 @@ inline void cmplt_and_blend_inplace(
 // the last equal value is saved instead of the first one), but this behavior
 // saves instructions.
 inline void cmplt_min_max_fast(
-        const simd8float32 candidateValues,
-        const simd8uint32 candidateIndices,
-        const simd8float32 currentValues,
-        const simd8uint32 currentIndices,
-        simd8float32& minValues,
-        simd8uint32& minIndices,
-        simd8float32& maxValues,
-        simd8uint32& maxIndices) {
+        const simd8float32_tpl<SIMDLevel::NONE> candidateValues,
+        const simd8uint32_tpl<SIMDLevel::NONE> candidateIndices,
+        const simd8float32_tpl<SIMDLevel::NONE> currentValues,
+        const simd8uint32_tpl<SIMDLevel::NONE> currentIndices,
+        simd8float32_tpl<SIMDLevel::NONE>& minValues,
+        simd8uint32_tpl<SIMDLevel::NONE>& minIndices,
+        simd8float32_tpl<SIMDLevel::NONE>& maxValues,
+        simd8uint32_tpl<SIMDLevel::NONE>& maxIndices) {
     for (size_t i = 0; i < 8; i++) {
         bool flag = (candidateValues.f32[i] < currentValues.f32[i]);
         minValues.f32[i] = flag ? candidateValues.f32[i] : currentValues.f32[i];