RubyGems - faiss - Versions diffs - 0.6.0 → 0.6.1 - Mend

faiss 0.6.0 → 0.6.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (361) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +4 -0
data/ext/faiss/extconf.rb +2 -1
data/ext/faiss/{index_rb.cpp → index.cpp} +1 -1
data/ext/faiss/index_binary.cpp +1 -1
data/ext/faiss/kmeans.cpp +1 -1
data/ext/faiss/pca_matrix.cpp +1 -1
data/ext/faiss/product_quantizer.cpp +1 -1
data/ext/faiss/{utils_rb.cpp → utils.cpp} +1 -1
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +93 -80
data/vendor/faiss/faiss/Clustering.cpp +39 -240
data/vendor/faiss/faiss/Clustering.h +6 -0
data/vendor/faiss/faiss/IVFlib.cpp +41 -21
data/vendor/faiss/faiss/Index.cpp +6 -5
data/vendor/faiss/faiss/Index.h +5 -5
data/vendor/faiss/faiss/Index2Layer.cpp +37 -53
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +49 -37
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.cpp +36 -34
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.h +4 -1
data/vendor/faiss/faiss/IndexBinary.cpp +5 -3
data/vendor/faiss/faiss/IndexBinary.h +4 -4
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +1 -1
data/vendor/faiss/faiss/IndexBinaryFlat.h +1 -1
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +4 -4
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +84 -92
data/vendor/faiss/faiss/IndexBinaryHNSW.h +9 -3
data/vendor/faiss/faiss/IndexBinaryHash.cpp +45 -236
data/vendor/faiss/faiss/IndexBinaryHash.h +6 -6
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +87 -415
data/vendor/faiss/faiss/IndexFastScan.cpp +72 -109
data/vendor/faiss/faiss/IndexFastScan.h +25 -23
data/vendor/faiss/faiss/IndexFlat.cpp +27 -20
data/vendor/faiss/faiss/IndexFlat.h +21 -18
data/vendor/faiss/faiss/IndexFlatCodes.cpp +42 -19
data/vendor/faiss/faiss/IndexHNSW.cpp +283 -145
data/vendor/faiss/faiss/IndexHNSW.h +16 -2
data/vendor/faiss/faiss/IndexIDMap.cpp +25 -21
data/vendor/faiss/faiss/IndexIDMap.h +9 -7
data/vendor/faiss/faiss/IndexIVF.cpp +465 -362
data/vendor/faiss/faiss/IndexIVF.h +33 -12
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +77 -74
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.cpp +96 -93
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.h +4 -1
data/vendor/faiss/faiss/IndexIVFFastScan.cpp +357 -238
data/vendor/faiss/faiss/IndexIVFFastScan.h +42 -41
data/vendor/faiss/faiss/IndexIVFFlat.cpp +36 -68
data/vendor/faiss/faiss/IndexIVFFlat.h +32 -0
data/vendor/faiss/faiss/IndexIVFFlatPanorama.cpp +53 -30
data/vendor/faiss/faiss/IndexIVFFlatPanorama.h +3 -1
data/vendor/faiss/faiss/IndexIVFIndependentQuantizer.cpp +18 -15
data/vendor/faiss/faiss/IndexIVFPQ.cpp +71 -843
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +151 -121
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexIVFPQR.cpp +21 -17
data/vendor/faiss/faiss/IndexIVFRaBitQ.cpp +26 -39
data/vendor/faiss/faiss/IndexIVFRaBitQ.h +2 -1
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.cpp +475 -476
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.h +248 -93
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +41 -127
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +1 -1
data/vendor/faiss/faiss/IndexLSH.cpp +36 -19
data/vendor/faiss/faiss/IndexLattice.cpp +13 -13
data/vendor/faiss/faiss/IndexNNDescent.cpp +36 -21
data/vendor/faiss/faiss/IndexNNDescent.h +2 -2
data/vendor/faiss/faiss/IndexNSG.cpp +39 -23
data/vendor/faiss/faiss/IndexNeuralNetCodec.cpp +31 -11
data/vendor/faiss/faiss/IndexPQ.cpp +128 -221
data/vendor/faiss/faiss/IndexPQ.h +3 -2
data/vendor/faiss/faiss/IndexPQFastScan.cpp +20 -14
data/vendor/faiss/faiss/IndexPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexPreTransform.cpp +25 -18
data/vendor/faiss/faiss/IndexPreTransform.h +1 -1
data/vendor/faiss/faiss/IndexRaBitQ.cpp +11 -36
data/vendor/faiss/faiss/IndexRaBitQ.h +2 -1
data/vendor/faiss/faiss/IndexRaBitQFastScan.cpp +41 -277
data/vendor/faiss/faiss/IndexRaBitQFastScan.h +183 -27
data/vendor/faiss/faiss/IndexRefine.cpp +30 -25
data/vendor/faiss/faiss/IndexRefine.h +4 -4
data/vendor/faiss/faiss/IndexReplicas.cpp +6 -6
data/vendor/faiss/faiss/IndexRowwiseMinMax.cpp +15 -14
data/vendor/faiss/faiss/IndexRowwiseMinMax.h +1 -1
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +82 -14
data/vendor/faiss/faiss/IndexShards.cpp +10 -9
data/vendor/faiss/faiss/IndexShardsIVF.cpp +21 -15
data/vendor/faiss/faiss/MatrixStats.cpp +5 -4
data/vendor/faiss/faiss/MetaIndexes.cpp +19 -17
data/vendor/faiss/faiss/MetaIndexes.h +1 -1
data/vendor/faiss/faiss/MetricType.h +14 -7
data/vendor/faiss/faiss/SuperKMeans.cpp +656 -0
data/vendor/faiss/faiss/SuperKMeans.h +97 -0
data/vendor/faiss/faiss/VectorTransform.cpp +237 -149
data/vendor/faiss/faiss/VectorTransform.h +16 -16
data/vendor/faiss/faiss/build.cpp +23 -0
data/vendor/faiss/faiss/build.h +15 -0
data/vendor/faiss/faiss/clone_index.cpp +48 -47
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-avx2-inl.h +47 -47
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-inl.h +11 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-avx2-inl.h +38 -38
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-inl.h +11 -0
data/vendor/faiss/faiss/factory_tools.cpp +5 -0
data/vendor/faiss/faiss/gpu/GpuIndexCagra.h +6 -5
data/vendor/faiss/faiss/gpu/GpuResources.h +1 -1
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +9 -9
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +4 -3
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +46 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +56 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +78 -1
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +72 -0
data/vendor/faiss/faiss/gpu/test/TestUtils.h +23 -0
data/vendor/faiss/faiss/gpu/utils/CuvsFilterConvert.h +1 -1
data/vendor/faiss/faiss/gpu/utils/CuvsUtils.h +21 -10
data/vendor/faiss/faiss/gpu_metal/GpuIndexFlat.h +22 -0
data/vendor/faiss/faiss/gpu_metal/MetalCloner.h +35 -0
data/vendor/faiss/faiss/gpu_metal/MetalFlatKernels.h +40 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndex.h +51 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndexFlat.h +65 -0
data/vendor/faiss/faiss/gpu_metal/MetalKernels.h +66 -0
data/vendor/faiss/faiss/gpu_metal/MetalResources.h +79 -0
data/vendor/faiss/faiss/gpu_metal/StandardMetalResources.h +35 -0
data/vendor/faiss/faiss/impl/AdSampling.cpp +103 -0
data/vendor/faiss/faiss/impl/AdSampling.h +35 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +29 -25
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +1 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +10 -9
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +3 -0
data/vendor/faiss/faiss/impl/ClusteringHelpers.cpp +244 -0
data/vendor/faiss/faiss/impl/ClusteringHelpers.h +94 -0
data/vendor/faiss/faiss/impl/ClusteringInitialization.cpp +16 -16
data/vendor/faiss/faiss/impl/CodePacker.cpp +3 -3
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.cpp +1 -1
data/vendor/faiss/faiss/impl/DistanceComputer.h +8 -8
data/vendor/faiss/faiss/impl/FaissAssert.h +6 -3
data/vendor/faiss/faiss/impl/FaissException.h +50 -3
data/vendor/faiss/faiss/impl/HNSW.cpp +92 -317
data/vendor/faiss/faiss/impl/HNSW.h +13 -34
data/vendor/faiss/faiss/impl/IDSelector.cpp +15 -11
data/vendor/faiss/faiss/impl/IDSelector.h +8 -8
data/vendor/faiss/faiss/impl/InvertedListScannerStats.h +26 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +82 -77
data/vendor/faiss/faiss/impl/NNDescent.cpp +62 -25
data/vendor/faiss/faiss/impl/NNDescent.h +6 -2
data/vendor/faiss/faiss/impl/NSG.cpp +38 -21
data/vendor/faiss/faiss/impl/NSG.h +4 -4
data/vendor/faiss/faiss/impl/Panorama.cpp +23 -6
data/vendor/faiss/faiss/impl/Panorama.h +258 -87
data/vendor/faiss/faiss/impl/PdxLayout.cpp +93 -0
data/vendor/faiss/faiss/impl/PdxLayout.h +41 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +46 -32
data/vendor/faiss/faiss/impl/PolysemousTraining.h +3 -3
data/vendor/faiss/faiss/impl/ProductAdditiveQuantizer.cpp +35 -35
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +21 -16
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +30 -23
data/vendor/faiss/faiss/impl/Quantizer.h +2 -2
data/vendor/faiss/faiss/impl/RaBitQUtils.cpp +55 -49
data/vendor/faiss/faiss/impl/RaBitQUtils.h +65 -0
data/vendor/faiss/faiss/impl/RaBitQuantizer.cpp +296 -283
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +26 -23
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +1 -1
data/vendor/faiss/faiss/impl/ResultHandler.h +99 -75
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +52 -4
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +27 -1
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +14 -11
data/vendor/faiss/faiss/impl/VisitedTable.h +7 -0
data/vendor/faiss/faiss/impl/approx_topk/approx_topk.h +276 -0
data/vendor/faiss/faiss/impl/approx_topk/avx2.cpp +68 -0
data/vendor/faiss/faiss/{utils → impl}/approx_topk/generic.h +15 -8
data/vendor/faiss/faiss/impl/approx_topk/neon.cpp +68 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab-inl.h +169 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab.h +117 -0
data/vendor/faiss/faiss/impl/approx_topk/simdlib256-inl.h +146 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHNSW_impl.h +73 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHash_impl.h +270 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryIVF_impl.h +460 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexIVFSpectralHash_impl.h +159 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexPQ_impl.h +92 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx2.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx512.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/dispatch.h +143 -0
data/vendor/faiss/faiss/impl/binary_hamming/neon.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/rvv.cpp +26 -0
data/vendor/faiss/faiss/impl/expanded_scanners.h +8 -3
data/vendor/faiss/faiss/impl/{FastScanDistancePostProcessing.h → fast_scan/FastScanDistancePostProcessing.h} +13 -6
data/vendor/faiss/faiss/impl/{LookupTableScaler.h → fast_scan/LookupTableScaler.h} +16 -5
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops.h +237 -0
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops_512.h +185 -0
data/vendor/faiss/faiss/impl/fast_scan/decompose_qbs.h +229 -0
data/vendor/faiss/faiss/impl/fast_scan/dispatching.h +268 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan.cpp → fast_scan/fast_scan.cpp} +169 -2
data/vendor/faiss/faiss/impl/fast_scan/fast_scan.h +341 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx2.cpp +36 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx512.cpp +40 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-neon.cpp +120 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-riscv.cpp +104 -0
data/vendor/faiss/faiss/impl/fast_scan/kernels_simd256.h +213 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan_search_qbs.cpp → fast_scan/kernels_simd512.h} +26 -356
data/vendor/faiss/faiss/impl/fast_scan/rabitq_dispatching.h +90 -0
data/vendor/faiss/faiss/impl/fast_scan/rabitq_result_handler.h +108 -0
data/vendor/faiss/faiss/impl/{simd_result_handlers.h → fast_scan/simd_result_handlers.h} +282 -134
data/vendor/faiss/faiss/impl/hnsw/LockVector.cpp +54 -0
data/vendor/faiss/faiss/impl/hnsw/LockVector.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.cpp +91 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/avx2.cpp +104 -0
data/vendor/faiss/faiss/impl/hnsw/avx512.cpp +111 -0
data/vendor/faiss/faiss/impl/index_read.cpp +1132 -45
data/vendor/faiss/faiss/impl/index_read_utils.h +1 -1
data/vendor/faiss/faiss/impl/index_write.cpp +95 -13
data/vendor/faiss/faiss/impl/io.cpp +6 -6
data/vendor/faiss/faiss/impl/io_macros.h +33 -16
data/vendor/faiss/faiss/impl/kmeans1d.cpp +10 -10
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +37 -23
data/vendor/faiss/faiss/impl/lattice_Zn.h +6 -6
data/vendor/faiss/faiss/impl/mapped_io.cpp +6 -6
data/vendor/faiss/faiss/impl/platform_macros.h +11 -4
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQScanner_impl.h +549 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.cpp +245 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.h +105 -0
data/vendor/faiss/faiss/impl/pq_code_distance/PQDistanceComputer_impl.h +106 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx2.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx512.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/neon.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/{pq_code_distance-avx2.cpp → pq_code_distance-avx2.h} +9 -13
data/vendor/faiss/faiss/impl/pq_code_distance/{pq_code_distance-avx512.cpp → pq_code_distance-avx512.h} +9 -57
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.cpp +29 -111
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.h +96 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-inl.h +238 -5
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-sve.cpp +5 -7
data/vendor/faiss/faiss/impl/pq_code_distance/rvv.cpp +68 -0
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.cpp +311 -477
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.h +1 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/codecs.h +1 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/distance_computers.h +3 -2
data/vendor/faiss/faiss/impl/scalar_quantizer/quantizers.h +102 -11
data/vendor/faiss/faiss/impl/scalar_quantizer/scanners.h +27 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/similarities.h +3 -3
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx2.cpp +148 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx512.cpp +167 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-dispatch.h +59 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-neon.cpp +163 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-rvv.cpp +311 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.cpp +192 -8
data/vendor/faiss/faiss/impl/scalar_quantizer/training.h +12 -0
data/vendor/faiss/faiss/impl/simd_dispatch.h +100 -66
data/vendor/faiss/faiss/impl/simdlib/simdlib.h +57 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_avx2.h +264 -172
data/vendor/faiss/faiss/impl/simdlib/simdlib_avx512.h +414 -0
data/vendor/faiss/faiss/impl/simdlib/simdlib_dispatch.h +44 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_emulated.h +231 -166
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_neon.h +270 -218
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_ppc64.h +201 -160
data/vendor/faiss/faiss/impl/svs_io.cpp +12 -3
data/vendor/faiss/faiss/impl/svs_io.h +8 -2
data/vendor/faiss/faiss/index_factory.cpp +86 -18
data/vendor/faiss/faiss/index_io.h +24 -0
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +66 -16
data/vendor/faiss/faiss/invlists/DirectMap.cpp +24 -14
data/vendor/faiss/faiss/invlists/DirectMap.h +4 -3
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +157 -73
data/vendor/faiss/faiss/invlists/InvertedLists.h +86 -23
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +4 -4
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +13 -13
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSFaissUtils.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSFlat.cpp +2 -2
data/vendor/faiss/faiss/svs/IndexSVSIVF.cpp +350 -0
data/vendor/faiss/faiss/svs/IndexSVSIVF.h +128 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.cpp +40 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.h +43 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.cpp +225 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.h +71 -0
data/vendor/faiss/faiss/svs/IndexSVSVamana.cpp +25 -1
data/vendor/faiss/faiss/svs/IndexSVSVamana.h +18 -2
data/vendor/faiss/faiss/svs/IndexSVSVamanaLVQ.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.cpp +12 -3
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.h +7 -2
data/vendor/faiss/faiss/utils/Heap.cpp +10 -10
data/vendor/faiss/faiss/utils/NeuralNet.cpp +47 -36
data/vendor/faiss/faiss/utils/NeuralNet.h +1 -1
data/vendor/faiss/faiss/utils/approx_topk_hamming/approx_topk_hamming.h +10 -4
data/vendor/faiss/faiss/utils/distances.cpp +390 -560
data/vendor/faiss/faiss/utils/distances.h +20 -1
data/vendor/faiss/faiss/utils/distances_dispatch.h +117 -37
data/vendor/faiss/faiss/utils/distances_fused/avx512.cpp +8 -7
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.cpp +33 -14
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.h +12 -1
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based.cpp +16 -293
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based_neon.cpp +57 -0
data/vendor/faiss/faiss/utils/distances_fused/simdlib_kernel-inl.h +290 -0
data/vendor/faiss/faiss/utils/distances_simd.cpp +5 -177
data/vendor/faiss/faiss/utils/extra_distances.cpp +9 -8
data/vendor/faiss/faiss/utils/extra_distances.h +32 -6
data/vendor/faiss/faiss/utils/hamming-inl.h +13 -11
data/vendor/faiss/faiss/utils/hamming.cpp +66 -517
data/vendor/faiss/faiss/utils/hamming.h +92 -2
data/vendor/faiss/faiss/utils/hamming_distance/common.h +287 -10
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx2.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx512.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx2.h +142 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx512.h +234 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-generic.h +368 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-neon.h +322 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-rvv.h +39 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer.h +146 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_neon.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_rvv.cpp +15 -0
data/vendor/faiss/faiss/utils/partitioning.cpp +66 -987
data/vendor/faiss/faiss/utils/partitioning.h +31 -0
data/vendor/faiss/faiss/utils/popcount.h +29 -0
data/vendor/faiss/faiss/utils/pq_code_distance.h +2 -2
data/vendor/faiss/faiss/utils/prefetch.h +2 -2
data/vendor/faiss/faiss/utils/quantize_lut.cpp +30 -30
data/vendor/faiss/faiss/utils/quantize_lut.h +1 -1
data/vendor/faiss/faiss/utils/rabitq_simd.h +57 -536
data/vendor/faiss/faiss/utils/random.cpp +6 -6
data/vendor/faiss/faiss/utils/simd_impl/IVFFlatScanner-inl.h +51 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_aarch64.cpp +5 -1
data/vendor/faiss/faiss/utils/simd_impl/distances_arm_sve.cpp +213 -4
data/vendor/faiss/faiss/utils/simd_impl/distances_autovec-inl.h +163 -10
data/vendor/faiss/faiss/utils/simd_impl/distances_avx2.cpp +250 -4
data/vendor/faiss/faiss/utils/simd_impl/distances_avx512.cpp +7 -4
data/vendor/faiss/faiss/utils/simd_impl/distances_rvv.cpp +189 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_simdlib256.h +195 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_sse-inl.h +2 -1
data/vendor/faiss/faiss/utils/{distances_fused/simdlib_based.h → simd_impl/exhaustive_L2sqr_blas_cmax.h} +5 -10
data/vendor/faiss/faiss/utils/simd_impl/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_avx2.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_neon.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_simdlib256.h +1085 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx2.cpp +355 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx512.cpp +477 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_neon.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_rvv.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_dispatch.h +32 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels.h +43 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx2.cpp +57 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx512.cpp +45 -0
data/vendor/faiss/faiss/utils/simd_levels.cpp +17 -5
data/vendor/faiss/faiss/utils/simd_levels.h +93 -1
data/vendor/faiss/faiss/utils/sorting.cpp +48 -36
data/vendor/faiss/faiss/utils/utils.cpp +5 -5
data/vendor/faiss/faiss/utils/utils.h +3 -3
metadata +119 -34
data/vendor/faiss/faiss/impl/RaBitQStats.cpp +0 -29
data/vendor/faiss/faiss/impl/RaBitQStats.h +0 -56
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +0 -224
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +0 -230
data/vendor/faiss/faiss/utils/approx_topk/approx_topk.h +0 -84
data/vendor/faiss/faiss/utils/approx_topk/avx2-inl.h +0 -196
data/vendor/faiss/faiss/utils/approx_topk/mode.h +0 -34
data/vendor/faiss/faiss/utils/distances_fused/avx512.h +0 -36
data/vendor/faiss/faiss/utils/extra_distances-inl.h +0 -235
data/vendor/faiss/faiss/utils/hamming_distance/avx2-inl.h +0 -462
data/vendor/faiss/faiss/utils/hamming_distance/avx512-inl.h +0 -490
data/vendor/faiss/faiss/utils/hamming_distance/generic-inl.h +0 -449
data/vendor/faiss/faiss/utils/hamming_distance/hamdis-inl.h +0 -87
data/vendor/faiss/faiss/utils/hamming_distance/neon-inl.h +0 -524
data/vendor/faiss/faiss/utils/simdlib.h +0 -42
data/vendor/faiss/faiss/utils/simdlib_avx512.h +0 -365
/data/ext/faiss/{utils_rb.h → utils.h} +0 -0

data/vendor/faiss/faiss/utils/rabitq_simd.h CHANGED Viewed

@@ -11,414 +11,116 @@
 #include <cstdint>
 #include <cstring>
-// Only include x86 SIMD intrinsics on x86/x86_64 architectures
-#if defined(__x86_64__) || defined(_M_X64) || defined(__i386__) || \
-        defined(_M_IX86)
-#include <immintrin.h>
-#endif // defined(__x86_64__) || defined(_M_X64) || defined(__i386__) ||
+#include <faiss/utils/popcount.h>
+#include <faiss/utils/simd_levels.h>
 namespace faiss::rabitq {
-#if defined(__x86_64__) || defined(_M_X64) || defined(__i386__) || \
-        defined(_M_IX86)
 /**
- * Returns the lookup table for AVX512 popcount operations.
- * This table is used for lookup-based popcount implementation.
+ * Compute dot product between query and binary data using popcount on AND.
  *
- * Source: https://github.com/WojciechMula/sse-popcount.
- *
- * @return Lookup table as __m512i register
- */
-#if defined(__AVX512F__)
-inline __m512i get_lookup_512() {
-    return _mm512_set_epi8(
-            /* f */ 4,
-            /* e */ 3,
-            /* d */ 3,
-            /* c */ 2,
-            /* b */ 3,
-            /* a */ 2,
-            /* 9 */ 2,
-            /* 8 */ 1,
-            /* 7 */ 3,
-            /* 6 */ 2,
-            /* 5 */ 2,
-            /* 4 */ 1,
-            /* 3 */ 2,
-            /* 2 */ 1,
-            /* 1 */ 1,
-            /* 0 */ 0,
-            /* f */ 4,
-            /* e */ 3,
-            /* d */ 3,
-            /* c */ 2,
-            /* b */ 3,
-            /* a */ 2,
-            /* 9 */ 2,
-            /* 8 */ 1,
-            /* 7 */ 3,
-            /* 6 */ 2,
-            /* 5 */ 2,
-            /* 4 */ 1,
-            /* 3 */ 2,
-            /* 2 */ 1,
-            /* 1 */ 1,
-            /* 0 */ 0,
-            /* f */ 4,
-            /* e */ 3,
-            /* d */ 3,
-            /* c */ 2,
-            /* b */ 3,
-            /* a */ 2,
-            /* 9 */ 2,
-            /* 8 */ 1,
-            /* 7 */ 3,
-            /* 6 */ 2,
-            /* 5 */ 2,
-            /* 4 */ 1,
-            /* 3 */ 2,
-            /* 2 */ 1,
-            /* 1 */ 1,
-            /* 0 */ 0,
-            /* f */ 4,
-            /* e */ 3,
-            /* d */ 3,
-            /* c */ 2,
-            /* b */ 3,
-            /* a */ 2,
-            /* 9 */ 2,
-            /* 8 */ 1,
-            /* 7 */ 3,
-            /* 6 */ 2,
-            /* 5 */ 2,
-            /* 4 */ 1,
-            /* 3 */ 2,
-            /* 2 */ 1,
-            /* 1 */ 1,
-            /* 0 */ 0);
-}
-#endif // defined(__AVX512F__)
-#if defined(__AVX2__)
-/**
- * Returns the lookup table for AVX2 popcount operations.
- * This table is used for lookup-based popcount implementation.
- *
- * @return Lookup table as __m256i register
+ * @param query   Pointer to rearranged rotated query data
+ * @param data    Pointer to binary data
+ * @param size    Size in bytes
+ * @param qb      Number of quantization bits
+ * @return        Unsigned integer dot product
  */
-inline __m256i get_lookup_256() {
-    return _mm256_setr_epi8(
-            /* 0 */ 0,
-            /* 1 */ 1,
-            /* 2 */ 1,
-            /* 3 */ 2,
-            /* 4 */ 1,
-            /* 5 */ 2,
-            /* 6 */ 2,
-            /* 7 */ 3,
-            /* 8 */ 1,
-            /* 9 */ 2,
-            /* a */ 2,
-            /* b */ 3,
-            /* c */ 2,
-            /* d */ 3,
-            /* e */ 3,
-            /* f */ 4,
-            /* 0 */ 0,
-            /* 1 */ 1,
-            /* 2 */ 1,
-            /* 3 */ 2,
-            /* 4 */ 1,
-            /* 5 */ 2,
-            /* 6 */ 2,
-            /* 7 */ 3,
-            /* 8 */ 1,
-            /* 9 */ 2,
-            /* a */ 2,
-            /* b */ 3,
-            /* c */ 2,
-            /* d */ 3,
-            /* e */ 3,
-            /* f */ 4);
-}
-#endif // defined(__AVX2__)
+template <SIMDLevel SL = SINGLE_SIMD_LEVEL>
+uint64_t bitwise_and_dot_product(
+        const uint8_t* query,
+        const uint8_t* data,
+        size_t size,
+        size_t qb);
-#if defined(__AVX512F__)
 /**
- * Popcount for a 512-bit register, using lookup tables if necessary.
+ * Compute dot product between query and binary data using popcount on XOR.
  *
- * @param v Input vector to count bits in
- * @return Vector int32_t[16] with popcount results.
+ * @param query   Pointer to rearranged rotated query data
+ * @param data    Pointer to binary data
+ * @param size    Size in bytes
+ * @param qb      Number of quantization bits
+ * @return        Unsigned integer dot product
  */
-inline __m512i popcount_512(__m512i v) {
-#if defined(__AVX512VPOPCNTDQ__)
-    return _mm512_popcnt_epi64(v);
-#else
-    const __m512i lookup = get_lookup_512();
-    const __m512i low_mask = _mm512_set1_epi8(0x0f);
-    const __m512i lo = _mm512_and_si512(v, low_mask);
-    const __m512i hi = _mm512_and_si512(_mm512_srli_epi16(v, 4), low_mask);
-    const __m512i popcnt_lo = _mm512_shuffle_epi8(lookup, lo);
-    const __m512i popcnt_hi = _mm512_shuffle_epi8(lookup, hi);
-    const __m512i popcnt = _mm512_add_epi8(popcnt_lo, popcnt_hi);
-    return _mm512_sad_epu8(_mm512_setzero_si512(), popcnt);
-#endif // defined(__AVX512VPOPCNTDQ__)
-}
-#endif // defined(__AVX512F__)
+template <SIMDLevel SL = SINGLE_SIMD_LEVEL>
+uint64_t bitwise_xor_dot_product(
+        const uint8_t* query,
+        const uint8_t* data,
+        size_t size,
+        size_t qb);
-#if defined(__AVX2__)
 /**
- * Popcount for a 256-bit register, using lookup tables if necessary.
+ * Count total set bits in data.
  *
- * @param v Input vector to count bits in
- * @return uint64_t[4] of popcounts for each portion of the input vector.
+ * @param data    Pointer to binary data
+ * @param size    Size in bytes
+ * @return        Total popcount
  */
-inline __m256i popcount_256(__m256i v) {
-    const __m256i lookup = get_lookup_256();
-    const __m256i low_mask = _mm256_set1_epi8(0x0f);
-    const __m256i lo = _mm256_and_si256(v, low_mask);
-    const __m256i hi = _mm256_and_si256(_mm256_srli_epi16(v, 4), low_mask);
-    const __m256i popcnt_lo = _mm256_shuffle_epi8(lookup, lo);
-    const __m256i popcnt_hi = _mm256_shuffle_epi8(lookup, hi);
-    const __m256i popcnt = _mm256_add_epi8(popcnt_lo, popcnt_hi);
-    // Reduce uint8_t[32] into uint64_t[4] by addition.
-    return _mm256_sad_epu8(_mm256_setzero_si256(), popcnt);
-}
-inline uint64_t reduce_add_256(__m256i v) {
-    alignas(32) uint64_t lanes[4];
-    _mm256_store_si256((__m256i*)lanes, v);
-    return lanes[0] + lanes[1] + lanes[2] + lanes[3];
-}
-#endif // defined(__AVX2__)
-#if defined(__SSE4_1__)
-inline __m128i popcount_128(__m128i v) {
-    // Scalar popcount for each 64-bit lane
-    uint64_t lane0 = _mm_extract_epi64(v, 0);
-    uint64_t lane1 = _mm_extract_epi64(v, 1);
-    uint64_t pop0 = __builtin_popcountll(lane0);
-    uint64_t pop1 = __builtin_popcountll(lane1);
-    return _mm_set_epi64x(pop1, pop0);
-}
+template <SIMDLevel SL = SINGLE_SIMD_LEVEL>
+uint64_t popcount(const uint8_t* data, size_t size);
-inline uint64_t reduce_add_128(__m128i v) {
-    alignas(16) uint64_t lanes[2];
-    _mm_store_si128((__m128i*)lanes, v);
-    return lanes[0] + lanes[1];
-}
-#endif // defined(__SSE4_1__)
-#endif // defined(__x86_64__) || defined(_M_X64) || defined(__i386__) ||
+// NONE specializations — scalar fallbacks
-/**
- * Compute dot product between query and binary data using popcount operations.
- *
- * @param query          Pointer to rearranged rotated query data
- * @param data    Pointer to binary data
- * @param d              Dimension
- * @param qb             Number of quantization bits
- * @return               Unsigned integer dot product
- */
-inline uint64_t bitwise_and_dot_product(
+template <>
+inline uint64_t bitwise_and_dot_product<SIMDLevel::NONE>(
         const uint8_t* query,
         const uint8_t* data,
         size_t size,
         size_t qb) {
     uint64_t sum = 0;
     size_t offset = 0;
-#if defined(__AVX512F__)
-    // Handle 512-bit chunks.
-    if (size_t step = 512 / 8; offset + step <= size) {
-        __m512i sum_512 = _mm512_setzero_si512();
-        for (; offset + step <= size; offset += step) {
-            __m512i v_x = _mm512_loadu_si512((const __m512i*)(data + offset));
-            for (int j = 0; j < qb; j++) {
-                __m512i v_q = _mm512_loadu_si512(
-                        (const __m512i*)(query + j * size + offset));
-                __m512i v_and = _mm512_and_si512(v_q, v_x);
-                __m512i v_popcnt = popcount_512(v_and);
-                __m512i v_shifted = _mm512_slli_epi64(v_popcnt, j);
-                sum_512 = _mm512_add_epi64(sum_512, v_shifted);
-            }
-        }
-        sum += _mm512_reduce_add_epi64(sum_512);
-    }
-#endif // defined(__AVX512F__)
-#if defined(__AVX2__)
-    if (size_t step = 256 / 8; offset + step <= size) {
-        __m256i sum_256 = _mm256_setzero_si256();
-        for (; offset + step <= size; offset += step) {
-            __m256i v_x = _mm256_loadu_si256((const __m256i*)(data + offset));
-            for (int j = 0; j < qb; j++) {
-                __m256i v_q = _mm256_loadu_si256(
-                        (const __m256i*)(query + j * size + offset));
-                __m256i v_and = _mm256_and_si256(v_q, v_x);
-                __m256i v_popcnt = popcount_256(v_and);
-                __m256i v_shifted = _mm256_slli_epi64(v_popcnt, j);
-                sum_256 = _mm256_add_epi64(sum_256, v_shifted);
-            }
-        }
-        sum += reduce_add_256(sum_256);
-    }
-#endif // defined(__AVX2__)
-#if defined(__SSE4_1__)
-    __m128i sum_128 = _mm_setzero_si128();
-    for (size_t step = 128 / 8; offset + step <= size; offset += step) {
-        __m128i v_x = _mm_loadu_si128((const __m128i*)(data + offset));
-        for (int j = 0; j < qb; j++) {
-            __m128i v_q = _mm_loadu_si128(
-                    (const __m128i*)(query + j * size + offset));
-            __m128i v_and = _mm_and_si128(v_q, v_x);
-            __m128i v_popcnt = popcount_128(v_and);
-            __m128i v_shifted = _mm_slli_epi64(v_popcnt, j);
-            sum_128 = _mm_add_epi64(sum_128, v_shifted);
-        }
-    }
-    sum += reduce_add_128(sum_128);
-#endif // defined(__SSE4_1__)
     for (size_t step = 64 / 8; offset + step <= size; offset += step) {
         const auto yv = *(const uint64_t*)(data + offset);
         for (int j = 0; j < qb; j++) {
             const auto qv = *(const uint64_t*)(query + j * size + offset);
-            sum += __builtin_popcountll(qv & yv) << j;
+            sum += popcount64(qv & yv) << j;
         }
     }
     for (; offset < size; ++offset) {
         const auto yv = *(data + offset);
         for (int j = 0; j < qb; j++) {
             const auto qv = *(query + j * size + offset);
-            sum += __builtin_popcount(qv & yv) << j;
+            sum += popcount32(qv & yv) << j;
         }
     }
     return sum;
 }
-/**
- * Compute dot product between query and binary data using popcount operations.
- *
- * @param query          Pointer to rearranged rotated query data
- * @param data    Pointer to binary data
- * @param d              Dimension
- * @param qb             Number of quantization bits
- * @return               Unsigned integer dot product
- */
-inline uint64_t bitwise_xor_dot_product(
+template <>
+inline uint64_t bitwise_xor_dot_product<SIMDLevel::NONE>(
         const uint8_t* query,
         const uint8_t* data,
         size_t size,
         size_t qb) {
     uint64_t sum = 0;
     size_t offset = 0;
-#if defined(__AVX512F__)
-    // Handle 512-bit chunks.
-    if (size_t step = 512 / 8; offset + step <= size) {
-        __m512i sum_512 = _mm512_setzero_si512();
-        for (; offset + step <= size; offset += step) {
-            __m512i v_x = _mm512_loadu_si512((const __m512i*)(data + offset));
-            for (int j = 0; j < qb; j++) {
-                __m512i v_q = _mm512_loadu_si512(
-                        (const __m512i*)(query + j * size + offset));
-                __m512i v_xor = _mm512_xor_si512(v_q, v_x);
-                __m512i v_popcnt = popcount_512(v_xor);
-                __m512i v_shifted = _mm512_slli_epi64(v_popcnt, j);
-                sum_512 = _mm512_add_epi64(sum_512, v_shifted);
-            }
-        }
-        sum += _mm512_reduce_add_epi64(sum_512);
-    }
-#endif
-#if defined(__AVX2__)
-    if (size_t step = 256 / 8; offset + step <= size) {
-        __m256i sum_256 = _mm256_setzero_si256();
-        for (; offset + step <= size; offset += step) {
-            __m256i v_x = _mm256_loadu_si256((const __m256i*)(data + offset));
-            for (int j = 0; j < qb; j++) {
-                __m256i v_q = _mm256_loadu_si256(
-                        (const __m256i*)(query + j * size + offset));
-                __m256i v_xor = _mm256_xor_si256(v_q, v_x);
-                __m256i v_popcnt = popcount_256(v_xor);
-                __m256i v_shifted = _mm256_slli_epi64(v_popcnt, j);
-                sum_256 = _mm256_add_epi64(sum_256, v_shifted);
-            }
-        }
-        sum += reduce_add_256(sum_256);
-    }
-#endif
-#if defined(__SSE4_1__)
-    __m128i sum_128 = _mm_setzero_si128();
-    for (size_t step = 128 / 8; offset + step <= size; offset += step) {
-        __m128i v_x = _mm_loadu_si128((const __m128i*)(data + offset));
-        for (int j = 0; j < qb; j++) {
-            __m128i v_q = _mm_loadu_si128(
-                    (const __m128i*)(query + j * size + offset));
-            __m128i v_xor = _mm_xor_si128(v_q, v_x);
-            __m128i v_popcnt = popcount_128(v_xor);
-            __m128i v_shifted = _mm_slli_epi64(v_popcnt, j);
-            sum_128 = _mm_add_epi64(sum_128, v_shifted);
-        }
-    }
-    sum += reduce_add_128(sum_128);
-#endif
     for (size_t step = 64 / 8; offset + step <= size; offset += step) {
         const auto yv = *(const uint64_t*)(data + offset);
         for (int j = 0; j < qb; j++) {
             const auto qv = *(const uint64_t*)(query + j * size + offset);
-            sum += __builtin_popcountll(qv ^ yv) << j;
+            sum += popcount64(qv ^ yv) << j;
         }
     }
     for (; offset < size; ++offset) {
         const auto yv = *(data + offset);
         for (int j = 0; j < qb; j++) {
             const auto qv = *(query + j * size + offset);
-            sum += __builtin_popcount(qv ^ yv) << j;
+            sum += popcount32(qv ^ yv) << j;
         }
     }
     return sum;
 }
-inline uint64_t popcount(const uint8_t* data, size_t size) {
+template <>
+inline uint64_t popcount<SIMDLevel::NONE>(const uint8_t* data, size_t size) {
     uint64_t sum = 0;
     size_t offset = 0;
-#if defined(__AVX512F__)
-    // Handle 512-bit chunks.
-    if (offset + 512 / 8 <= size) {
-        __m512i sum_512 = _mm512_setzero_si512();
-        for (size_t end; (end = offset + 512 / 8) <= size; offset = end) {
-            __m512i v_x = _mm512_loadu_si512((const __m512i*)(data + offset));
-            __m512i v_popcnt = popcount_512(v_x);
-            sum_512 = _mm512_add_epi64(sum_512, v_popcnt);
-        }
-        sum += _mm512_reduce_add_epi64(sum_512);
-    }
-#endif // defined(__AVX512F__)
-#if defined(__AVX2__)
-    if (offset + 256 / 8 <= size) {
-        __m256i sum_256 = _mm256_setzero_si256();
-        for (size_t end; (end = offset + 256 / 8) <= size; offset = end) {
-            __m256i v_x = _mm256_loadu_si256((const __m256i*)(data + offset));
-            __m256i v_popcnt = popcount_256(v_x);
-            sum_256 = _mm256_add_epi64(sum_256, v_popcnt);
-        }
-        sum += reduce_add_256(sum_256);
-    }
-#endif // defined(__AVX2__)
-#if defined(__SSE4_1__)
-    __m128i sum_128 = _mm_setzero_si128();
-    for (size_t step = 128 / 8; offset + step <= size; offset += step) {
-        __m128i v_x = _mm_loadu_si128((const __m128i*)(data + offset));
-        sum_128 = _mm_add_epi64(sum_128, popcount_128(v_x));
-    }
-    sum += reduce_add_128(sum_128);
-#endif // defined(__SSE4_1__)
     for (size_t step = 64 / 8; offset + step <= size; offset += step) {
         const auto yv = *(const uint64_t*)(data + offset);
-        sum += __builtin_popcountll(yv);
+        sum += popcount64(yv);
     }
     for (; offset < size; ++offset) {
         const auto yv = *(data + offset);
-        sum += __builtin_popcount(yv);
+        sum += popcount32(yv);
     }
     return sum;
 }
@@ -469,186 +171,9 @@ inline float ip_scalar(
     return result;
 }
-#if defined(__x86_64__) || defined(_M_X64)
-#if defined(__AVX2__)
-/// Horizontal sum of 8 floats in a __m256 register.
-inline float hsum_avx2(__m256 v) {
-    __m128 hi = _mm256_extractf128_ps(v, 1);
-    __m128 lo = _mm256_castps256_ps128(v);
-    lo = _mm_add_ps(lo, hi);
-    __m128 shuf = _mm_movehdup_ps(lo);
-    lo = _mm_add_ps(lo, shuf);
-    shuf = _mm_movehl_ps(shuf, lo);
-    return _mm_cvtss_f32(_mm_add_ss(lo, shuf));
-}
-#endif // __AVX2__
-/*********************************************************
- * Specialized 1-bit kernels (ex_bits == 1).
- *
- * For 1 extra bit, both sign_bits and ex_code are 1-bit-per-dim packed,
- * so we convert bits to floats directly — no extraction loops needed.
- *********************************************************/
-#if defined(__AVX512F__)
-/// AVX-512: 16 dims/iter, ex_bits == 1.
-inline float ip_1exbit_avx512(
-        const uint8_t* __restrict sign_bits,
-        const uint8_t* __restrict ex_code,
-        const float* __restrict rotated_q,
-        size_t d,
-        float cb) {
-    __m512 acc = _mm512_setzero_ps();
-    const __m512 v_cb = _mm512_set1_ps(cb);
-    const __m512 v_two = _mm512_set1_ps(2.0f);
-    const __m512 v_one = _mm512_set1_ps(1.0f);
-    size_t i = 0;
-    for (; i + 16 <= d; i += 16) {
-        uint16_t sb16;
-        memcpy(&sb16, sign_bits + i / 8, sizeof(uint16_t));
-        uint16_t eb16;
-        memcpy(&eb16, ex_code + i / 8, sizeof(uint16_t));
-        __m512 sb_f = _mm512_maskz_mov_ps(_cvtu32_mask16(sb16), v_one);
-        __m512 eb_f = _mm512_maskz_mov_ps(_cvtu32_mask16(eb16), v_one);
-        __m512 recon = _mm512_add_ps(_mm512_fmadd_ps(sb_f, v_two, eb_f), v_cb);
-        __m512 rq = _mm512_loadu_ps(rotated_q + i);
-        acc = _mm512_fmadd_ps(rq, recon, acc);
-    }
-    float result = _mm512_reduce_add_ps(acc);
-    result += ip_scalar(sign_bits, ex_code, rotated_q, i, d, 1, cb);
-    return result;
-}
-#endif // __AVX512F__
-#if defined(__AVX2__)
-/// AVX2: 8 dims/iter, ex_bits == 1.
-inline float ip_1exbit_avx2(
-        const uint8_t* __restrict sign_bits,
-        const uint8_t* __restrict ex_code,
-        const float* __restrict rotated_q,
-        size_t d,
-        float cb) {
-    __m256 acc = _mm256_setzero_ps();
-    const __m256 v_cb = _mm256_set1_ps(cb);
-    const __m256 v_two = _mm256_set1_ps(2.0f);
-    const __m256 v_one = _mm256_set1_ps(1.0f);
-    const __m256i bit_pos = _mm256_setr_epi32(1, 2, 4, 8, 16, 32, 64, 128);
-    const __m256i zero = _mm256_setzero_si256();
-    size_t i = 0;
-    for (; i + 8 <= d; i += 8) {
-        uint8_t sb = sign_bits[i / 8];
-        uint8_t eb = ex_code[i / 8];
-        __m256i sb_cmp = _mm256_cmpgt_epi32(
-                _mm256_and_si256(_mm256_set1_epi32(sb), bit_pos), zero);
-        __m256 sb_f = _mm256_and_ps(_mm256_castsi256_ps(sb_cmp), v_one);
-        __m256i eb_cmp = _mm256_cmpgt_epi32(
-                _mm256_and_si256(_mm256_set1_epi32(eb), bit_pos), zero);
-        __m256 eb_f = _mm256_and_ps(_mm256_castsi256_ps(eb_cmp), v_one);
-        __m256 recon = _mm256_add_ps(_mm256_fmadd_ps(sb_f, v_two, eb_f), v_cb);
-        __m256 rq = _mm256_loadu_ps(rotated_q + i);
-        acc = _mm256_fmadd_ps(rq, recon, acc);
-    }
-    float result = hsum_avx2(acc);
-    result += ip_scalar(sign_bits, ex_code, rotated_q, i, d, 1, cb);
-    return result;
-}
-#endif // __AVX2__
-/*********************************************************
- * Bit-plane decomposition kernels (ex_bits >= 2, BMI2 required).
- *
- * Decomposes the inner product as:
- *   ex_ip = (1 << ex_bits) * sign_dot
- *         + Σ_{b=0}^{ex_bits-1} (1 << b) * plane_dot_b
- *         + cb * total_q
- *
- * Each plane_dot_b is a float × bit-vector dot product, computed using
- * the same bit→mask→float conversion as the 1-bit kernel. PEXT
- * extracts each bit plane from the packed ex_code in one instruction
- * per 8 dimensions.
- *********************************************************/
-#if defined(__AVX2__) && defined(__BMI2__)
-/// AVX2 + BMI2 bit-plane decomposition: 8 dims/iter, ex_bits in [2, 7].
-/// Caller must ensure ex_bits <= 7 (pext_masks[7] / v_weights[8]).
-inline float ip_bitplane_avx2(
-        const uint8_t* __restrict sign_bits,
-        const uint8_t* __restrict ex_code,
-        const float* __restrict rotated_q,
-        size_t d,
-        size_t ex_bits,
-        float cb) {
-    __m256 acc = _mm256_setzero_ps();
-    const __m256 v_one = _mm256_set1_ps(1.0f);
-    const __m256i bit_pos = _mm256_setr_epi32(1, 2, 4, 8, 16, 32, 64, 128);
-    const __m256i zero = _mm256_setzero_si256();
-    const __m256 v_cb = _mm256_set1_ps(cb);
-    // Precompute PEXT masks and plane weights
-    uint64_t pext_masks[7];
-    __m256 v_weights[8];
-    for (size_t b = 0; b < ex_bits; b++) {
-        uint64_t m = 0;
-        for (int j = 0; j < 8; j++) {
-            m |= (1ULL << (b + j * ex_bits));
-        }
-        pext_masks[b] = m;
-        v_weights[b] = _mm256_set1_ps(static_cast<float>(1u << b));
-    }
-    v_weights[ex_bits] = _mm256_set1_ps(static_cast<float>(1u << ex_bits));
-    size_t i = 0;
-    for (; i + 8 <= d; i += 8) {
-        // Sign bit → float via bit mask comparison
-        __m256i sb_cmp = _mm256_cmpgt_epi32(
-                _mm256_and_si256(_mm256_set1_epi32(sign_bits[i / 8]), bit_pos),
-                zero);
-        __m256 recon = _mm256_mul_ps(
-                _mm256_and_ps(_mm256_castsi256_ps(sb_cmp), v_one),
-                v_weights[ex_bits]);
-        // Load packed ex_code for 8 dims (8 × ex_bits bits = ex_bits bytes)
-        uint64_t ex64 = 0;
-        memcpy(&ex64, ex_code + (i / 8) * ex_bits, sizeof(uint64_t));
-        // Extract each bit plane via PEXT → bit mask → float
-        for (size_t b = 0; b < ex_bits; b++) {
-            auto plane = static_cast<uint8_t>(_pext_u64(ex64, pext_masks[b]));
-            __m256i p_cmp = _mm256_cmpgt_epi32(
-                    _mm256_and_si256(_mm256_set1_epi32(plane), bit_pos), zero);
-            __m256 p_f = _mm256_and_ps(_mm256_castsi256_ps(p_cmp), v_one);
-            recon = _mm256_fmadd_ps(p_f, v_weights[b], recon);
-        }
-        __m256 rq = _mm256_loadu_ps(rotated_q + i);
-        acc = _mm256_fmadd_ps(rq, _mm256_add_ps(recon, v_cb), acc);
-    }
-    float result = hsum_avx2(acc);
-    result += ip_scalar(sign_bits, ex_code, rotated_q, i, d, ex_bits, cb);
-    return result;
-}
-#endif // __AVX2__ && __BMI2__
-#endif // x86_64
 /**
  * Dispatch to the best available kernel for the given ex_bits.
  *
- * Routing (compile-time):
- *   ex_bits == 1:  specialized 1-bit kernel (AVX-512 > AVX2 > scalar)
- *   ex_bits >= 2:  bit-plane decomposition (AVX2+BMI2 > scalar)
- *
  * @param sign_bits  packed sign bits (1 bit/dim, standard byte packing)
  * @param ex_code    packed extra-bit codes (ex_bits bits/dim)
  * @param rotated_q  rotated query vector (float[d])
@@ -657,28 +182,24 @@ inline float ip_bitplane_avx2(
  * @param cb         constant bias: -(2^ex_bits - 0.5)
  * @return           inner product value
  */
-inline float compute_inner_product(
+template <SIMDLevel SL = SINGLE_SIMD_LEVEL>
+float compute_inner_product(
         const uint8_t* __restrict sign_bits,
         const uint8_t* __restrict ex_code,
         const float* __restrict rotated_q,
         size_t d,
         size_t ex_bits,
-        float cb) {
-    if (ex_bits == 1) {
-#if defined(__AVX512F__)
-        return ip_1exbit_avx512(sign_bits, ex_code, rotated_q, d, cb);
-#elif defined(__AVX2__)
-        return ip_1exbit_avx2(sign_bits, ex_code, rotated_q, d, cb);
-#else
-        return ip_scalar(sign_bits, ex_code, rotated_q, 0, d, 1, cb);
-#endif
-    }
+        float cb);
-#if defined(__AVX2__) && defined(__BMI2__)
-    if (ex_bits <= 7) {
-        return ip_bitplane_avx2(sign_bits, ex_code, rotated_q, d, ex_bits, cb);
-    }
-#endif
+// NONE specialization — pure scalar
+template <>
+inline float compute_inner_product<SIMDLevel::NONE>(
+        const uint8_t* __restrict sign_bits,
+        const uint8_t* __restrict ex_code,
+        const float* __restrict rotated_q,
+        size_t d,
+        size_t ex_bits,
+        float cb) {
     return ip_scalar(sign_bits, ex_code, rotated_q, 0, d, ex_bits, cb);
 }