RubyGems - faiss - Versions diffs - 0.5.3 → 0.6.1 - Mend

faiss 0.5.3 → 0.6.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (379) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +12 -0
data/ext/faiss/ext.cpp +1 -1
data/ext/faiss/extconf.rb +4 -4
data/ext/faiss/index.cpp +63 -45
data/ext/faiss/index_binary.cpp +37 -27
data/ext/faiss/kmeans.cpp +9 -8
data/ext/faiss/pca_matrix.cpp +9 -7
data/ext/faiss/product_quantizer.cpp +13 -11
data/ext/faiss/utils.cpp +4 -2
data/ext/faiss/utils.h +4 -0
data/lib/faiss/version.rb +1 -1
data/lib/faiss.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +214 -82
data/vendor/faiss/faiss/AutoTune.h +14 -1
data/vendor/faiss/faiss/Clustering.cpp +97 -249
data/vendor/faiss/faiss/Clustering.h +18 -0
data/vendor/faiss/faiss/IVFlib.cpp +67 -44
data/vendor/faiss/faiss/Index.cpp +25 -12
data/vendor/faiss/faiss/Index.h +26 -4
data/vendor/faiss/faiss/Index2Layer.cpp +37 -53
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +68 -61
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.cpp +36 -34
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.h +4 -1
data/vendor/faiss/faiss/IndexBinary.cpp +6 -3
data/vendor/faiss/faiss/IndexBinary.h +4 -4
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +1 -1
data/vendor/faiss/faiss/IndexBinaryFlat.h +1 -1
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +4 -4
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +92 -95
data/vendor/faiss/faiss/IndexBinaryHNSW.h +9 -3
data/vendor/faiss/faiss/IndexBinaryHash.cpp +45 -236
data/vendor/faiss/faiss/IndexBinaryHash.h +6 -6
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +120 -414
data/vendor/faiss/faiss/IndexFastScan.cpp +105 -129
data/vendor/faiss/faiss/IndexFastScan.h +35 -24
data/vendor/faiss/faiss/IndexFlat.cpp +216 -152
data/vendor/faiss/faiss/IndexFlat.h +32 -14
data/vendor/faiss/faiss/IndexFlatCodes.cpp +88 -41
data/vendor/faiss/faiss/IndexFlatCodes.h +7 -1
data/vendor/faiss/faiss/IndexHNSW.cpp +299 -187
data/vendor/faiss/faiss/IndexHNSW.h +30 -14
data/vendor/faiss/faiss/IndexIDMap.cpp +26 -22
data/vendor/faiss/faiss/IndexIDMap.h +9 -7
data/vendor/faiss/faiss/IndexIVF.cpp +535 -405
data/vendor/faiss/faiss/IndexIVF.h +47 -16
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +77 -74
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.cpp +105 -99
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.h +6 -3
data/vendor/faiss/faiss/IndexIVFFastScan.cpp +379 -249
data/vendor/faiss/faiss/IndexIVFFastScan.h +65 -60
data/vendor/faiss/faiss/IndexIVFFlat.cpp +41 -124
data/vendor/faiss/faiss/IndexIVFFlat.h +32 -0
data/vendor/faiss/faiss/IndexIVFFlatPanorama.cpp +89 -138
data/vendor/faiss/faiss/IndexIVFFlatPanorama.h +3 -1
data/vendor/faiss/faiss/IndexIVFIndependentQuantizer.cpp +18 -15
data/vendor/faiss/faiss/IndexIVFPQ.cpp +77 -907
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +184 -122
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexIVFPQR.cpp +23 -18
data/vendor/faiss/faiss/IndexIVFRaBitQ.cpp +59 -60
data/vendor/faiss/faiss/IndexIVFRaBitQ.h +4 -3
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.cpp +564 -416
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.h +269 -111
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +41 -127
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +1 -1
data/vendor/faiss/faiss/IndexLSH.cpp +44 -25
data/vendor/faiss/faiss/IndexLattice.cpp +41 -36
data/vendor/faiss/faiss/IndexNNDescent.cpp +37 -21
data/vendor/faiss/faiss/IndexNNDescent.h +2 -2
data/vendor/faiss/faiss/IndexNSG.cpp +40 -23
data/vendor/faiss/faiss/IndexNSG.h +0 -2
data/vendor/faiss/faiss/IndexNeuralNetCodec.cpp +32 -12
data/vendor/faiss/faiss/IndexPQ.cpp +129 -213
data/vendor/faiss/faiss/IndexPQ.h +3 -2
data/vendor/faiss/faiss/IndexPQFastScan.cpp +20 -14
data/vendor/faiss/faiss/IndexPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexPreTransform.cpp +25 -18
data/vendor/faiss/faiss/IndexPreTransform.h +1 -1
data/vendor/faiss/faiss/IndexRaBitQ.cpp +31 -43
data/vendor/faiss/faiss/IndexRaBitQ.h +4 -3
data/vendor/faiss/faiss/IndexRaBitQFastScan.cpp +135 -317
data/vendor/faiss/faiss/IndexRaBitQFastScan.h +192 -34
data/vendor/faiss/faiss/IndexRefine.cpp +30 -55
data/vendor/faiss/faiss/IndexRefine.h +4 -4
data/vendor/faiss/faiss/IndexReplicas.cpp +6 -6
data/vendor/faiss/faiss/IndexRowwiseMinMax.cpp +15 -14
data/vendor/faiss/faiss/IndexRowwiseMinMax.h +1 -1
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +82 -14
data/vendor/faiss/faiss/IndexShards.cpp +13 -13
data/vendor/faiss/faiss/IndexShardsIVF.cpp +21 -15
data/vendor/faiss/faiss/MatrixStats.cpp +5 -4
data/vendor/faiss/faiss/MetaIndexes.cpp +19 -17
data/vendor/faiss/faiss/MetaIndexes.h +1 -1
data/vendor/faiss/faiss/MetricType.h +29 -6
data/vendor/faiss/faiss/SuperKMeans.cpp +656 -0
data/vendor/faiss/faiss/SuperKMeans.h +97 -0
data/vendor/faiss/faiss/VectorTransform.cpp +349 -141
data/vendor/faiss/faiss/VectorTransform.h +39 -16
data/vendor/faiss/faiss/build.cpp +23 -0
data/vendor/faiss/faiss/build.h +15 -0
data/vendor/faiss/faiss/clone_index.cpp +55 -51
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-avx2-inl.h +47 -47
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-inl.h +11 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-avx2-inl.h +38 -38
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-inl.h +11 -0
data/vendor/faiss/faiss/{cppcontrib/factory_tools.cpp → factory_tools.cpp} +6 -1
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +1 -1
data/vendor/faiss/faiss/gpu/GpuIndexCagra.h +6 -5
data/vendor/faiss/faiss/gpu/GpuResources.h +1 -1
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +9 -9
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +4 -3
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +46 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +56 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +78 -1
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +72 -0
data/vendor/faiss/faiss/gpu/test/TestUtils.h +23 -0
data/vendor/faiss/faiss/gpu/utils/CuvsFilterConvert.h +1 -1
data/vendor/faiss/faiss/gpu/utils/CuvsUtils.h +21 -10
data/vendor/faiss/faiss/gpu_metal/GpuIndexFlat.h +22 -0
data/vendor/faiss/faiss/gpu_metal/MetalCloner.h +35 -0
data/vendor/faiss/faiss/gpu_metal/MetalFlatKernels.h +40 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndex.h +51 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndexFlat.h +65 -0
data/vendor/faiss/faiss/gpu_metal/MetalKernels.h +66 -0
data/vendor/faiss/faiss/gpu_metal/MetalResources.h +79 -0
data/vendor/faiss/faiss/gpu_metal/StandardMetalResources.h +35 -0
data/vendor/faiss/faiss/impl/AdSampling.cpp +103 -0
data/vendor/faiss/faiss/impl/AdSampling.h +35 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +64 -34
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +1 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +10 -9
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +3 -28
data/vendor/faiss/faiss/impl/ClusteringHelpers.cpp +244 -0
data/vendor/faiss/faiss/impl/ClusteringHelpers.h +94 -0
data/vendor/faiss/faiss/impl/ClusteringInitialization.cpp +367 -0
data/vendor/faiss/faiss/impl/ClusteringInitialization.h +107 -0
data/vendor/faiss/faiss/impl/CodePacker.cpp +7 -3
data/vendor/faiss/faiss/impl/CodePacker.h +11 -3
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.cpp +83 -0
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.h +47 -0
data/vendor/faiss/faiss/impl/DistanceComputer.h +8 -8
data/vendor/faiss/faiss/impl/FaissAssert.h +64 -3
data/vendor/faiss/faiss/impl/FaissException.h +50 -3
data/vendor/faiss/faiss/impl/HNSW.cpp +117 -351
data/vendor/faiss/faiss/impl/HNSW.h +21 -40
data/vendor/faiss/faiss/impl/IDSelector.cpp +15 -11
data/vendor/faiss/faiss/impl/IDSelector.h +8 -8
data/vendor/faiss/faiss/impl/InvertedListScannerStats.h +26 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +114 -102
data/vendor/faiss/faiss/impl/NNDescent.cpp +63 -26
data/vendor/faiss/faiss/impl/NNDescent.h +6 -2
data/vendor/faiss/faiss/impl/NSG.cpp +44 -26
data/vendor/faiss/faiss/impl/NSG.h +20 -10
data/vendor/faiss/faiss/impl/Panorama.cpp +76 -52
data/vendor/faiss/faiss/impl/Panorama.h +265 -78
data/vendor/faiss/faiss/impl/PdxLayout.cpp +93 -0
data/vendor/faiss/faiss/impl/PdxLayout.h +41 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +62 -37
data/vendor/faiss/faiss/impl/PolysemousTraining.h +3 -3
data/vendor/faiss/faiss/impl/ProductAdditiveQuantizer.cpp +35 -35
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +21 -16
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +99 -80
data/vendor/faiss/faiss/impl/Quantizer.h +2 -2
data/vendor/faiss/faiss/impl/RaBitQUtils.cpp +135 -37
data/vendor/faiss/faiss/impl/RaBitQUtils.h +148 -21
data/vendor/faiss/faiss/impl/RaBitQuantizer.cpp +298 -301
data/vendor/faiss/faiss/impl/RaBitQuantizer.h +3 -10
data/vendor/faiss/faiss/impl/RaBitQuantizerMultiBit.cpp +15 -41
data/vendor/faiss/faiss/impl/RaBitQuantizerMultiBit.h +0 -4
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +40 -32
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +1 -1
data/vendor/faiss/faiss/impl/ResultHandler.h +218 -113
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +119 -2362
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +27 -3
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +14 -11
data/vendor/faiss/faiss/impl/VisitedTable.cpp +42 -0
data/vendor/faiss/faiss/impl/VisitedTable.h +76 -0
data/vendor/faiss/faiss/impl/approx_topk/approx_topk.h +276 -0
data/vendor/faiss/faiss/impl/approx_topk/avx2.cpp +68 -0
data/vendor/faiss/faiss/{utils → impl}/approx_topk/generic.h +15 -8
data/vendor/faiss/faiss/impl/approx_topk/neon.cpp +68 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab-inl.h +169 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab.h +117 -0
data/vendor/faiss/faiss/impl/approx_topk/simdlib256-inl.h +146 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHNSW_impl.h +73 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHash_impl.h +270 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryIVF_impl.h +460 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexIVFSpectralHash_impl.h +159 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexPQ_impl.h +92 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx2.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx512.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/dispatch.h +143 -0
data/vendor/faiss/faiss/impl/binary_hamming/neon.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/rvv.cpp +26 -0
data/vendor/faiss/faiss/impl/expanded_scanners.h +163 -0
data/vendor/faiss/faiss/impl/{FastScanDistancePostProcessing.h → fast_scan/FastScanDistancePostProcessing.h} +13 -6
data/vendor/faiss/faiss/impl/{LookupTableScaler.h → fast_scan/LookupTableScaler.h} +16 -5
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops.h +237 -0
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops_512.h +185 -0
data/vendor/faiss/faiss/impl/fast_scan/decompose_qbs.h +229 -0
data/vendor/faiss/faiss/impl/fast_scan/dispatching.h +268 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan.cpp → fast_scan/fast_scan.cpp} +176 -4
data/vendor/faiss/faiss/impl/fast_scan/fast_scan.h +341 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx2.cpp +36 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx512.cpp +40 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-neon.cpp +120 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-riscv.cpp +104 -0
data/vendor/faiss/faiss/impl/fast_scan/kernels_simd256.h +213 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan_search_qbs.cpp → fast_scan/kernels_simd512.h} +26 -348
data/vendor/faiss/faiss/impl/fast_scan/rabitq_dispatching.h +90 -0
data/vendor/faiss/faiss/impl/fast_scan/rabitq_result_handler.h +108 -0
data/vendor/faiss/faiss/impl/{simd_result_handlers.h → fast_scan/simd_result_handlers.h} +290 -142
data/vendor/faiss/faiss/impl/hnsw/LockVector.cpp +54 -0
data/vendor/faiss/faiss/impl/hnsw/LockVector.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.cpp +91 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/avx2.cpp +104 -0
data/vendor/faiss/faiss/impl/hnsw/avx512.cpp +111 -0
data/vendor/faiss/faiss/impl/index_read.cpp +1950 -505
data/vendor/faiss/faiss/impl/index_read_utils.h +1 -2
data/vendor/faiss/faiss/impl/index_write.cpp +112 -21
data/vendor/faiss/faiss/impl/io.cpp +6 -6
data/vendor/faiss/faiss/impl/io_macros.h +33 -16
data/vendor/faiss/faiss/impl/kmeans1d.cpp +10 -10
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +81 -40
data/vendor/faiss/faiss/impl/lattice_Zn.h +6 -6
data/vendor/faiss/faiss/impl/mapped_io.cpp +15 -8
data/vendor/faiss/faiss/impl/platform_macros.h +11 -4
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQScanner_impl.h +549 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.cpp +245 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.h +105 -0
data/vendor/faiss/faiss/impl/pq_code_distance/PQDistanceComputer_impl.h +106 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx2.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx512.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/neon.cpp +21 -0
data/vendor/faiss/faiss/impl/{code_distance/code_distance-avx2.h → pq_code_distance/pq_code_distance-avx2.h} +43 -220
data/vendor/faiss/faiss/impl/{code_distance/code_distance-avx512.h → pq_code_distance/pq_code_distance-avx512.h} +25 -112
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.cpp +59 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.h +96 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-inl.h +256 -0
data/vendor/faiss/faiss/impl/{code_distance/code_distance-sve.h → pq_code_distance/pq_code_distance-sve.cpp} +57 -146
data/vendor/faiss/faiss/impl/pq_code_distance/rvv.cpp +68 -0
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.cpp +320 -483
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.h +1 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/codecs.h +121 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/distance_computers.h +137 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/quantizers.h +371 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/scanners.h +190 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/similarities.h +94 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx2.cpp +603 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx512.cpp +597 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-dispatch.h +388 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-neon.cpp +630 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-rvv.cpp +311 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.cpp +387 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.h +54 -0
data/vendor/faiss/faiss/impl/simd_dispatch.h +173 -0
data/vendor/faiss/faiss/impl/simdlib/simdlib.h +57 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_avx2.h +274 -171
data/vendor/faiss/faiss/impl/simdlib/simdlib_avx512.h +414 -0
data/vendor/faiss/faiss/impl/simdlib/simdlib_dispatch.h +44 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_emulated.h +231 -166
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_neon.h +275 -217
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_ppc64.h +201 -160
data/vendor/faiss/faiss/impl/svs_io.cpp +12 -3
data/vendor/faiss/faiss/impl/svs_io.h +8 -2
data/vendor/faiss/faiss/index_factory.cpp +115 -28
data/vendor/faiss/faiss/index_io.h +53 -3
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +73 -20
data/vendor/faiss/faiss/invlists/DirectMap.cpp +24 -14
data/vendor/faiss/faiss/invlists/DirectMap.h +4 -3
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +157 -73
data/vendor/faiss/faiss/invlists/InvertedLists.h +86 -23
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +4 -4
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +14 -14
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSFaissUtils.h +9 -19
data/vendor/faiss/faiss/svs/IndexSVSFlat.cpp +2 -2
data/vendor/faiss/faiss/svs/IndexSVSFlat.h +2 -0
data/vendor/faiss/faiss/svs/IndexSVSIVF.cpp +350 -0
data/vendor/faiss/faiss/svs/IndexSVSIVF.h +128 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.cpp +40 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.h +43 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.cpp +225 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.h +71 -0
data/vendor/faiss/faiss/svs/IndexSVSVamana.cpp +25 -1
data/vendor/faiss/faiss/svs/IndexSVSVamana.h +19 -2
data/vendor/faiss/faiss/svs/IndexSVSVamanaLVQ.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.cpp +19 -2
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.h +14 -0
data/vendor/faiss/faiss/utils/Heap.cpp +56 -10
data/vendor/faiss/faiss/utils/Heap.h +21 -0
data/vendor/faiss/faiss/utils/NeuralNet.cpp +54 -40
data/vendor/faiss/faiss/utils/NeuralNet.h +1 -1
data/vendor/faiss/faiss/utils/approx_topk_hamming/approx_topk_hamming.h +10 -4
data/vendor/faiss/faiss/utils/distances.cpp +507 -559
data/vendor/faiss/faiss/utils/distances.h +118 -1
data/vendor/faiss/faiss/utils/distances_dispatch.h +250 -0
data/vendor/faiss/faiss/utils/distances_fused/avx512.cpp +8 -7
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.cpp +33 -14
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.h +12 -1
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based.cpp +16 -293
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based_neon.cpp +57 -0
data/vendor/faiss/faiss/utils/distances_fused/simdlib_kernel-inl.h +290 -0
data/vendor/faiss/faiss/utils/distances_simd.cpp +72 -3681
data/vendor/faiss/faiss/utils/extra_distances.cpp +60 -102
data/vendor/faiss/faiss/utils/extra_distances.h +79 -7
data/vendor/faiss/faiss/utils/hamming-inl.h +13 -11
data/vendor/faiss/faiss/utils/hamming.cpp +66 -517
data/vendor/faiss/faiss/utils/hamming.h +92 -2
data/vendor/faiss/faiss/utils/hamming_distance/common.h +287 -10
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx2.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx512.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx2.h +142 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx512.h +234 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-generic.h +368 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-neon.h +322 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-rvv.h +39 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer.h +146 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_neon.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_rvv.cpp +15 -0
data/vendor/faiss/faiss/utils/partitioning.cpp +66 -987
data/vendor/faiss/faiss/utils/partitioning.h +31 -0
data/vendor/faiss/faiss/utils/popcount.h +29 -0
data/vendor/faiss/faiss/utils/pq_code_distance.h +251 -0
data/vendor/faiss/faiss/utils/prefetch.h +2 -2
data/vendor/faiss/faiss/utils/quantize_lut.cpp +30 -30
data/vendor/faiss/faiss/utils/quantize_lut.h +1 -1
data/vendor/faiss/faiss/utils/rabitq_simd.h +124 -343
data/vendor/faiss/faiss/utils/random.cpp +6 -6
data/vendor/faiss/faiss/utils/simd_impl/IVFFlatScanner-inl.h +51 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_aarch64.cpp +154 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_arm_sve.cpp +777 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_autovec-inl.h +306 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_avx2.cpp +1431 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_avx512.cpp +1095 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_rvv.cpp +189 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_simdlib256.h +195 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_sse-inl.h +392 -0
data/vendor/faiss/faiss/utils/{distances_fused/simdlib_based.h → simd_impl/exhaustive_L2sqr_blas_cmax.h} +5 -10
data/vendor/faiss/faiss/utils/simd_impl/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_avx2.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_neon.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_simdlib256.h +1085 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx2.cpp +355 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx512.cpp +477 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_neon.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_rvv.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_dispatch.h +32 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels.h +43 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx2.cpp +57 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx512.cpp +45 -0
data/vendor/faiss/faiss/utils/simd_levels.cpp +334 -0
data/vendor/faiss/faiss/utils/simd_levels.h +183 -0
data/vendor/faiss/faiss/utils/sorting.cpp +48 -36
data/vendor/faiss/faiss/utils/utils.cpp +21 -14
data/vendor/faiss/faiss/utils/utils.h +3 -3
metadata +156 -42
data/vendor/faiss/faiss/impl/RaBitQStats.cpp +0 -29
data/vendor/faiss/faiss/impl/RaBitQStats.h +0 -56
data/vendor/faiss/faiss/impl/code_distance/code_distance-generic.h +0 -81
data/vendor/faiss/faiss/impl/code_distance/code_distance.h +0 -186
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +0 -216
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +0 -224
data/vendor/faiss/faiss/utils/approx_topk/approx_topk.h +0 -84
data/vendor/faiss/faiss/utils/approx_topk/avx2-inl.h +0 -196
data/vendor/faiss/faiss/utils/approx_topk/mode.h +0 -34
data/vendor/faiss/faiss/utils/distances_fused/avx512.h +0 -36
data/vendor/faiss/faiss/utils/extra_distances-inl.h +0 -228
data/vendor/faiss/faiss/utils/hamming_distance/avx2-inl.h +0 -462
data/vendor/faiss/faiss/utils/hamming_distance/avx512-inl.h +0 -490
data/vendor/faiss/faiss/utils/hamming_distance/generic-inl.h +0 -450
data/vendor/faiss/faiss/utils/hamming_distance/hamdis-inl.h +0 -87
data/vendor/faiss/faiss/utils/hamming_distance/neon-inl.h +0 -524
data/vendor/faiss/faiss/utils/simdlib.h +0 -42
data/vendor/faiss/faiss/utils/simdlib_avx512.h +0 -296
/data/vendor/faiss/faiss/{cppcontrib/factory_tools.h → factory_tools.h} +0 -0

data/vendor/faiss/faiss/impl/RaBitQuantizer.cpp CHANGED Viewed

@@ -10,8 +10,10 @@
 #include <faiss/impl/FaissAssert.h>
 #include <faiss/impl/RaBitQUtils.h>
 #include <faiss/impl/RaBitQuantizerMultiBit.h>
+#include <faiss/impl/simd_dispatch.h>
 #include <faiss/utils/distances.h>
 #include <faiss/utils/rabitq_simd.h>
 #include <algorithm>
 #include <cmath>
 #include <cstring>
@@ -26,10 +28,13 @@ using rabitq_utils::QueryFactorsData;
 using rabitq_utils::SignBitFactors;
 using rabitq_utils::SignBitFactorsWithError;
-RaBitQuantizer::RaBitQuantizer(size_t d, MetricType metric, size_t nb_bits)
-        : Quantizer(d, 0), // code_size will be set below
+RaBitQuantizer::RaBitQuantizer(
+        size_t d_in,
+        MetricType metric,
+        size_t nb_bits_in)
+        : Quantizer(d_in, 0), // code_size will be set below
           metric_type{metric},
-          nb_bits{nb_bits} {
+          nb_bits{nb_bits_in} {
     // Validate nb_bits range
     FAISS_THROW_IF_NOT(nb_bits >= 1 && nb_bits <= 9);
@@ -37,7 +42,7 @@ RaBitQuantizer::RaBitQuantizer(size_t d, MetricType metric, size_t nb_bits)
     code_size = compute_code_size(d, nb_bits);
 }
-size_t RaBitQuantizer::compute_code_size(size_t d, size_t num_bits) const {
+size_t RaBitQuantizer::compute_code_size(size_t d_in, size_t num_bits) const {
     // Validate inputs
     FAISS_THROW_IF_NOT(num_bits >= 1 && num_bits <= 9);
@@ -49,7 +54,7 @@ size_t RaBitQuantizer::compute_code_size(size_t d, size_t num_bits) const {
     // Layout for multi-bit: [binary_code: (d+7)/8
     // bytes][SignBitFactorsWithError: 12 bytes]
     //   factors = or_minus_c_l2sqr (4) + dp_multiplier (4) + f_error (4)
-    size_t base_size = (d + 7) / 8 +
+    size_t base_size = (d_in + 7) / 8 +
             (ex_bits == 0 ? sizeof(SignBitFactors)
                           : sizeof(SignBitFactorsWithError));
@@ -57,13 +62,13 @@ size_t RaBitQuantizer::compute_code_size(size_t d, size_t num_bits) const {
     // Layout: [ex_code: (d*ex_bits+7)/8 bytes][ex_factors: 8 bytes]
     size_t ex_size = 0;
     if (ex_bits > 0) {
-        ex_size = (d * ex_bits + 7) / 8 + sizeof(ExtraBitsFactors);
+        ex_size = (d_in * ex_bits + 7) / 8 + sizeof(ExtraBitsFactors);
     }
     return base_size + ex_size;
 }
-void RaBitQuantizer::train(size_t n, const float* x) {
+void RaBitQuantizer::train(size_t /*n*/, const float* /*x*/) {
     // does nothing
 }
@@ -91,7 +96,7 @@ void RaBitQuantizer::compute_codes_core(
     // Compute codes
 #pragma omp parallel for if (n > 1000)
-    for (int64_t i = 0; i < n; i++) {
+    for (int64_t i = 0; i < static_cast<int64_t>(n); i++) {
         // Pointer to this vector's code
         uint8_t* code = codes + i * code_size;
@@ -185,7 +190,7 @@ void RaBitQuantizer::decode_core(
     const size_t ex_bits = nb_bits - 1;
 #pragma omp parallel for if (n > 1000)
-    for (int64_t i = 0; i < n; i++) {
+    for (int64_t i = 0; i < static_cast<int64_t>(n); i++) {
         const uint8_t* code = codes + i * code_size;
         // split the code into parts
@@ -215,183 +220,161 @@ void RaBitQuantizer::decode_core(
     }
 }
-// Implementation of RaBitQDistanceComputer (declared in header)
-float RaBitQDistanceComputer::lower_bound_distance(const uint8_t* code) {
-    FAISS_ASSERT(code != nullptr);
-    // Compute estimated distance using 1-bit codes
-    float est_distance = distance_to_code_1bit(code);
-    // Extract f_error from the code
-    size_t size = (d + 7) / 8;
-    const SignBitFactorsWithError* base_fac =
-            reinterpret_cast<const SignBitFactorsWithError*>(code + size);
-    float f_error = base_fac->f_error;
-    // Compute proper lower bound using RaBitQ error formula:
-    // lower_bound = est_distance - f_error * g_error
-    // This guarantees: lower_bound ≤ true_distance
-    float lower_bound = est_distance - (f_error * g_error);
-    // Distance cannot be negative
-    return std::max(0.0f, lower_bound);
-}
 namespace {
+// Distance computers templatized on SIMDLevel to avoid per-call dynamic
+// dispatch. The SIMDLevel is baked in at construction time via
+// get_distance_computer, so virtual calls through the base class go
+// directly to the SIMD-specialized code.
+template <SIMDLevel SL>
 struct RaBitQDistanceComputerNotQ : RaBitQDistanceComputer {
     // the rotated query (qr - c)
     std::vector<float> rotated_q;
     // some additional numbers for the query
     QueryFactorsData query_fac;
-    RaBitQDistanceComputerNotQ();
+    RaBitQDistanceComputerNotQ() = default;
     // Compute distance using only 1-bit codes (fast)
-    float distance_to_code_1bit(const uint8_t* code) override;
+    float distance_to_code_1bit(const uint8_t* code) override {
+        FAISS_ASSERT(code != nullptr);
+        FAISS_ASSERT(
+                (metric_type == MetricType::METRIC_L2 ||
+                 metric_type == MetricType::METRIC_INNER_PRODUCT));
+        FAISS_ASSERT(rotated_q.size() == d);
-    // Compute full distance using 1-bit + ex-bits (accurate)
-    float distance_to_code_full(const uint8_t* code) override;
+        // split the code into parts
+        const uint8_t* binary_data = code;
-    void set_query(const float* x) override;
-};
+        // Cast to appropriate type based on nb_bits
+        // For 1-bit: use SignBitFactors (8 bytes)
+        // For multi-bit: use SignBitFactorsWithError (12 bytes) which includes
+        // f_error
+        size_t ex_bits = nb_bits - 1;
+        const SignBitFactors* base_fac = (ex_bits == 0)
+                ? reinterpret_cast<const SignBitFactors*>(code + (d + 7) / 8)
+                : reinterpret_cast<const SignBitFactorsWithError*>(
+                          code + (d + 7) / 8);
-RaBitQDistanceComputerNotQ::RaBitQDistanceComputerNotQ() = default;
+        // this is the baseline code
+        //
+        // compute <q,o> using floats
+        float dot_qo = 0;
+        // It was a willful decision (after the discussion) to not to pre-cache
+        //   the sum of all bits, just in order to reduce the overhead per
+        //   vector.
+        uint64_t sum_q = 0;
+        for (size_t i = 0; i < d; i++) {
+            // Extract i-th bit
+            bool bit = rabitq_utils::extract_bit_standard(binary_data, i);
+            // accumulate dp
+            dot_qo += bit ? rotated_q[i] : 0;
+            // accumulate sum-of-bits
+            sum_q += bit ? 1 : 0;
+        }
-float RaBitQDistanceComputerNotQ::distance_to_code_1bit(const uint8_t* code) {
-    FAISS_ASSERT(code != nullptr);
-    FAISS_ASSERT(
-            (metric_type == MetricType::METRIC_L2 ||
-             metric_type == MetricType::METRIC_INNER_PRODUCT));
-    FAISS_ASSERT(rotated_q.size() == d);
-    // split the code into parts
-    const uint8_t* binary_data = code;
-    // Cast to appropriate type based on nb_bits
-    // For 1-bit: use SignBitFactors (8 bytes)
-    // For multi-bit: use SignBitFactorsWithError (12 bytes) which includes
-    // f_error
-    size_t ex_bits = nb_bits - 1;
-    const SignBitFactors* base_fac = (ex_bits == 0)
-            ? reinterpret_cast<const SignBitFactors*>(code + (d + 7) / 8)
-            : reinterpret_cast<const SignBitFactorsWithError*>(
-                      code + (d + 7) / 8);
-    // this is the baseline code
-    //
-    // compute <q,o> using floats
-    float dot_qo = 0;
-    // It was a willful decision (after the discussion) to not to pre-cache
-    //   the sum of all bits, just in order to reduce the overhead per vector.
-    uint64_t sum_q = 0;
-    for (size_t i = 0; i < d; i++) {
-        // Extract i-th bit
-        bool bit = rabitq_utils::extract_bit_standard(binary_data, i);
-        // accumulate dp
-        dot_qo += bit ? rotated_q[i] : 0;
-        // accumulate sum-of-bits
-        sum_q += bit ? 1 : 0;
-    }
+        // Apply query factors
+        float final_dot =
+                query_fac.c1 * dot_qo + query_fac.c2 * sum_q - query_fac.c34;
-    // Apply query factors
-    float final_dot =
-            query_fac.c1 * dot_qo + query_fac.c2 * sum_q - query_fac.c34;
-    // pre_dist = ||or - c||^2 + ||qr - c||^2 -
-    //     2 * ||or - c|| * ||qr - c|| * <q,o> - (IP ? ||or||^2 : 0)
-    float pre_dist = base_fac->or_minus_c_l2sqr + query_fac.qr_to_c_L2sqr -
-            2 * base_fac->dp_multiplier * final_dot;
-    if (metric_type == MetricType::METRIC_L2) {
-        // ||or - q||^ 2
-        return pre_dist;
-    } else {
-        // metric == MetricType::METRIC_INNER_PRODUCT
-        return -0.5f * (pre_dist - query_fac.qr_norm_L2sqr);
+        // pre_dist = ||or - c||^2 + ||qr - c||^2 -
+        //     2 * ||or - c|| * ||qr - c|| * <q,o> - (IP ? ||or||^2 : 0)
+        float pre_dist = base_fac->or_minus_c_l2sqr + query_fac.qr_to_c_L2sqr -
+                2 * base_fac->dp_multiplier * final_dot;
+        if (metric_type == MetricType::METRIC_L2) {
+            // ||or - q||^ 2
+            return pre_dist;
+        } else {
+            // metric == MetricType::METRIC_INNER_PRODUCT
+            // 2 * (or, q) = (||or - q||^2 - ||q||^2 - ||or||^2)
+            return -0.5f * (pre_dist - query_fac.qr_norm_L2sqr);
+        }
     }
-}
-float RaBitQDistanceComputerNotQ::distance_to_code_full(const uint8_t* code) {
-    FAISS_ASSERT(code != nullptr);
-    FAISS_ASSERT(
-            (metric_type == MetricType::METRIC_L2 ||
-             metric_type == MetricType::METRIC_INNER_PRODUCT));
-    FAISS_ASSERT(rotated_q.size() == d);
+    // Compute full distance using 1-bit + ex-bits (accurate)
+    float distance_to_code_full(const uint8_t* code) override {
+        FAISS_ASSERT(code != nullptr);
+        FAISS_ASSERT(
+                (metric_type == MetricType::METRIC_L2 ||
+                 metric_type == MetricType::METRIC_INNER_PRODUCT));
+        FAISS_ASSERT(rotated_q.size() == d);
-    size_t ex_bits = nb_bits - 1;
+        size_t ex_bits = nb_bits - 1;
-    if (ex_bits == 0) {
-        // No ex-bits, just return 1-bit distance
-        return distance_to_code_1bit(code);
-    }
+        if (ex_bits == 0) {
+            // No ex-bits, just return 1-bit distance
+            return distance_to_code_1bit(code);
+        }
-    // Extract pointers to code sections
-    const uint8_t* binary_data = code;
-    size_t offset = (d + 7) / 8 + sizeof(SignBitFactorsWithError);
-    const uint8_t* ex_code = code + offset;
-    const ExtraBitsFactors* ex_fac = reinterpret_cast<const ExtraBitsFactors*>(
-            ex_code + (d * ex_bits + 7) / 8);
-    // Call shared utility directly with rotated_q pointer
-    return rabitq_utils::compute_full_multibit_distance(
-            binary_data,
-            ex_code,
-            *ex_fac,
-            rotated_q.data(),
-            query_fac.qr_to_c_L2sqr,
-            query_fac.qr_norm_L2sqr,
-            d,
-            ex_bits,
-            metric_type);
-}
+        // Extract pointers to code sections
+        const uint8_t* binary_data = code;
+        size_t offset = (d + 7) / 8 + sizeof(SignBitFactorsWithError);
+        const uint8_t* ex_code = code + offset;
+        const ExtraBitsFactors* ex_fac =
+                reinterpret_cast<const ExtraBitsFactors*>(
+                        ex_code + (d * ex_bits + 7) / 8);
+        float qr_base = (metric_type == MetricType::METRIC_INNER_PRODUCT)
+                ? query_fac.q_dot_c
+                : query_fac.qr_to_c_L2sqr;
+        return rabitq_utils::compute_full_multibit_distance<SL>(
+                binary_data,
+                ex_code,
+                *ex_fac,
+                rotated_q.data(),
+                qr_base,
+                d,
+                ex_bits,
+                metric_type);
+    }
-void RaBitQDistanceComputerNotQ::set_query(const float* x) {
-    q = x;
-    FAISS_ASSERT(x != nullptr);
-    FAISS_ASSERT(
-            (metric_type == MetricType::METRIC_L2 ||
-             metric_type == MetricType::METRIC_INNER_PRODUCT));
+    void set_query(const float* x) override {
+        q = x;
+        FAISS_ASSERT(x != nullptr);
+        FAISS_ASSERT(
+                (metric_type == MetricType::METRIC_L2 ||
+                 metric_type == MetricType::METRIC_INNER_PRODUCT));
-    // compute the distance from the query to the centroid
-    if (centroid != nullptr) {
-        query_fac.qr_to_c_L2sqr = fvec_L2sqr(x, centroid, d);
-    } else {
-        query_fac.qr_to_c_L2sqr = fvec_norm_L2sqr(x, d);
-    }
+        // compute the distance from the query to the centroid
+        if (centroid != nullptr) {
+            query_fac.qr_to_c_L2sqr = fvec_L2sqr(x, centroid, d);
+        } else {
+            query_fac.qr_to_c_L2sqr = fvec_norm_L2sqr(x, d);
+        }
-    // subtract c, obtain P^(-1)(qr - c)
-    rotated_q.resize(d);
-    for (size_t i = 0; i < d; i++) {
-        rotated_q[i] = x[i] - ((centroid == nullptr) ? 0 : centroid[i]);
-    }
+        // subtract c, obtain P^(-1)(qr - c)
+        rotated_q.resize(d);
+        for (size_t i = 0; i < d; i++) {
+            rotated_q[i] = x[i] - ((centroid == nullptr) ? 0 : centroid[i]);
+        }
-    // Compute g_error (query norm for lower bound computation)
-    // g_error = ||qr - c|| (L2 norm of rotated query)
-    g_error = std::sqrt(query_fac.qr_to_c_L2sqr);
+        // Compute g_error = ||qr - c|| (L2 norm of rotated query)
+        g_error = std::sqrt(query_fac.qr_to_c_L2sqr);
-    // compute some numbers
-    const float inv_d = (d == 0) ? 1.0f : (1.0f / std::sqrt((float)d));
+        // compute some numbers — do not quantize the query
+        const float inv_d = (d == 0) ? 1.0f : (1.0f / std::sqrt((float)d));
-    // do not quantize the query
-    float sum_q = 0;
-    for (size_t i = 0; i < d; i++) {
-        sum_q += rotated_q[i];
-    }
+        float sum_q = 0;
+        for (size_t i = 0; i < d; i++) {
+            sum_q += rotated_q[i];
+        }
-    query_fac.c1 = 2 * inv_d;
-    query_fac.c2 = 0;
-    query_fac.c34 = sum_q * inv_d;
+        query_fac.c1 = 2 * inv_d;
+        query_fac.c2 = 0;
+        query_fac.c34 = sum_q * inv_d;
-    if (metric_type == MetricType::METRIC_INNER_PRODUCT) {
-        // precompute if needed
-        query_fac.qr_norm_L2sqr = fvec_norm_L2sqr(x, d);
+        if (metric_type == MetricType::METRIC_INNER_PRODUCT) {
+            query_fac.qr_norm_L2sqr = fvec_norm_L2sqr(x, d);
+            query_fac.q_dot_c =
+                    centroid ? fvec_inner_product(x, centroid, d) : 0.0f;
+        }
     }
-}
+};
-//
+template <SIMDLevel SL>
 struct RaBitQDistanceComputerQ : RaBitQDistanceComputer {
     // the rotated and quantized query (qr - c)
     std::vector<float> rotated_q;
@@ -409,174 +392,188 @@ struct RaBitQDistanceComputerQ : RaBitQDistanceComputer {
     // the smallest value divisible by 8 that is not smaller than dim
     size_t popcount_aligned_dim = 0;
-    RaBitQDistanceComputerQ();
+    RaBitQDistanceComputerQ() = default;
     // Compute distance using only 1-bit codes (fast)
-    float distance_to_code_1bit(const uint8_t* code) override;
-    // Compute full distance using 1-bit + ex-bits (accurate)
-    float distance_to_code_full(const uint8_t* code) override;
+    float distance_to_code_1bit(const uint8_t* code) override {
+        FAISS_ASSERT(code != nullptr);
+        FAISS_ASSERT(
+                (metric_type == MetricType::METRIC_L2 ||
+                 metric_type == MetricType::METRIC_INNER_PRODUCT));
-    void set_query(const float* x) override;
-};
+        // split the code into parts
+        size_t size = (d + 7) / 8;
+        const uint8_t* binary_data = code;
-RaBitQDistanceComputerQ::RaBitQDistanceComputerQ() = default;
+        // Cast to appropriate type based on nb_bits
+        // For 1-bit: use SignBitFactors (8 bytes)
+        // For multi-bit: use SignBitFactorsWithError (12 bytes) which
+        // includes f_error
+        size_t ex_bits = nb_bits - 1;
+        const SignBitFactors* base_fac = (ex_bits == 0)
+                ? reinterpret_cast<const SignBitFactors*>(code + size)
+                : reinterpret_cast<const SignBitFactorsWithError*>(code + size);
+        // this is ||or - c||^2 - (IP ? ||or||^2 : 0)
+        float final_dot = 0;
+        if (centered) {
+            int64_t int_dot = ((1 << qb) - 1) * d;
+            // See RaBitDistanceComputerNotQ::distance_to_code() for
+            // baseline code.
+            int_dot -= 2 *
+                    rabitq::bitwise_xor_dot_product<SL>(
+                               rearranged_rotated_qq.data(),
+                               binary_data,
+                               size,
+                               qb);
+            final_dot += int_dot * query_fac.int_dot_scale;
+        } else {
+            auto dot_qo = rabitq::bitwise_and_dot_product<SL>(
+                    rearranged_rotated_qq.data(), binary_data, size, qb);
+            // It was a willful decision (after the discussion) to not to
+            // pre-cache the sum of all bits, just in order to reduce the
+            // overhead per vector.
+            // process 64-bit popcounts
+            auto sum_q = rabitq::popcount<SL>(binary_data, size);
+            // dot-product itself
+            final_dot += query_fac.c1 * dot_qo;
+            // normalizer coefficients
+            final_dot += query_fac.c2 * sum_q;
+            // normalizer coefficients
+            final_dot -= query_fac.c34;
+        }
-float RaBitQDistanceComputerQ::distance_to_code_1bit(const uint8_t* code) {
-    FAISS_ASSERT(code != nullptr);
-    FAISS_ASSERT(
-            (metric_type == MetricType::METRIC_L2 ||
-             metric_type == MetricType::METRIC_INNER_PRODUCT));
+        const float pre_dist = base_fac->or_minus_c_l2sqr +
+                query_fac.qr_to_c_L2sqr -
+                2 * base_fac->dp_multiplier * final_dot;
-    // split the code into parts
-    size_t size = (d + 7) / 8;
-    const uint8_t* binary_data = code;
-    // Cast to appropriate type based on nb_bits
-    // For 1-bit: use SignBitFactors (8 bytes)
-    // For multi-bit: use SignBitFactorsWithError (12 bytes) which includes
-    // f_error
-    size_t ex_bits = nb_bits - 1;
-    const SignBitFactors* base_fac = (ex_bits == 0)
-            ? reinterpret_cast<const SignBitFactors*>(code + size)
-            : reinterpret_cast<const SignBitFactorsWithError*>(code + size);
-    // this is ||or - c||^2 - (IP ? ||or||^2 : 0)
-    float final_dot = 0;
-    if (centered) {
-        int64_t int_dot = ((1 << qb) - 1) * d;
-        // See RaBitDistanceComputerNotQ::distance_to_code() for baseline code.
-        int_dot -= 2 *
-                rabitq::bitwise_xor_dot_product(
-                           rearranged_rotated_qq.data(), binary_data, size, qb);
-        final_dot += int_dot * query_fac.int_dot_scale;
-    } else {
-        auto dot_qo = rabitq::bitwise_and_dot_product(
-                rearranged_rotated_qq.data(), binary_data, size, qb);
-        // It was a willful decision (after the discussion) to not to pre-cache
-        // the sum of all bits, just in order to reduce the overhead per vector.
-        // process 64-bit popcounts
-        auto sum_q = rabitq::popcount(binary_data, size);
-        // dot-product itself
-        final_dot += query_fac.c1 * dot_qo;
-        // normalizer coefficients
-        final_dot += query_fac.c2 * sum_q;
-        // normalizer coefficients
-        final_dot -= query_fac.c34;
+        if (metric_type == MetricType::METRIC_L2) {
+            // ||or - q||^ 2
+            return pre_dist;
+        } else {
+            // metric == MetricType::METRIC_INNER_PRODUCT
+            // 2 * (or, q) = (||or - q||^2 - ||q||^2 - ||or||^2)
+            return -0.5f * (pre_dist - query_fac.qr_norm_L2sqr);
+        }
     }
-    // pre_dist = ||or - c||^2 + ||qr - c||^2 -
-    //     2 * ||or - c|| * ||qr - c|| * <q,o> - (IP ? ||or||^2 : 0)
-    const float pre_dist = base_fac->or_minus_c_l2sqr +
-            query_fac.qr_to_c_L2sqr - 2 * base_fac->dp_multiplier * final_dot;
-    if (metric_type == MetricType::METRIC_L2) {
-        // ||or - q||^ 2
-        return pre_dist;
-    } else {
-        // metric == MetricType::METRIC_INNER_PRODUCT
-        // 2 * (or, q) = (||or - q||^2 - ||q||^2 - ||or||^2)
-        return -0.5f * (pre_dist - query_fac.qr_norm_L2sqr);
-    }
-}
+    // Compute full distance using 1-bit + ex-bits (accurate)
+    float distance_to_code_full(const uint8_t* code) override {
+        FAISS_ASSERT(code != nullptr);
+        FAISS_ASSERT(
+                (metric_type == MetricType::METRIC_L2 ||
+                 metric_type == MetricType::METRIC_INNER_PRODUCT));
+        FAISS_ASSERT(rotated_q.size() == d);
-float RaBitQDistanceComputerQ::distance_to_code_full(const uint8_t* code) {
-    FAISS_ASSERT(code != nullptr);
-    FAISS_ASSERT(
-            (metric_type == MetricType::METRIC_L2 ||
-             metric_type == MetricType::METRIC_INNER_PRODUCT));
-    FAISS_ASSERT(rotated_q.size() == d);
+        size_t ex_bits = nb_bits - 1;
-    size_t ex_bits = nb_bits - 1;
+        if (ex_bits == 0) {
+            // No ex-bits, just return 1-bit distance
+            return distance_to_code_1bit(code);
+        }
-    if (ex_bits == 0) {
-        // No ex-bits, just return 1-bit distance
-        return distance_to_code_1bit(code);
+        // Extract pointers to code sections
+        const uint8_t* binary_data = code;
+        size_t offset = (d + 7) / 8 + sizeof(SignBitFactorsWithError);
+        const uint8_t* ex_code = code + offset;
+        const ExtraBitsFactors* ex_fac =
+                reinterpret_cast<const ExtraBitsFactors*>(
+                        ex_code + (d * ex_bits + 7) / 8);
+        float qr_base = (metric_type == MetricType::METRIC_INNER_PRODUCT)
+                ? query_fac.q_dot_c
+                : query_fac.qr_to_c_L2sqr;
+        return rabitq_utils::compute_full_multibit_distance<SL>(
+                binary_data,
+                ex_code,
+                *ex_fac,
+                rotated_q.data(),
+                qr_base,
+                d,
+                ex_bits,
+                metric_type);
     }
-    // Extract pointers to code sections
-    const uint8_t* binary_data = code;
-    size_t offset = (d + 7) / 8 + sizeof(SignBitFactorsWithError);
-    const uint8_t* ex_code = code + offset;
-    const ExtraBitsFactors* ex_fac = reinterpret_cast<const ExtraBitsFactors*>(
-            ex_code + (d * ex_bits + 7) / 8);
-    // Call shared utility directly with rotated_q pointer
-    return rabitq_utils::compute_full_multibit_distance(
-            binary_data,
-            ex_code,
-            *ex_fac,
-            rotated_q.data(),
-            query_fac.qr_to_c_L2sqr,
-            query_fac.qr_norm_L2sqr,
-            d,
-            ex_bits,
-            metric_type);
-}
+    void set_query(const float* x) override {
+        q = x;
+        FAISS_ASSERT(x != nullptr);
+        FAISS_ASSERT(
+                (metric_type == MetricType::METRIC_L2 ||
+                 metric_type == MetricType::METRIC_INNER_PRODUCT));
+        FAISS_THROW_IF_NOT(qb <= 8);
+        FAISS_THROW_IF_NOT(qb > 0);
+        // Use shared utilities for core query factor computation
+        // rotated_q is populated directly by compute_query_factors as an
+        // output parameter
+        query_fac = rabitq_utils::compute_query_factors(
+                x,
+                d,
+                centroid,
+                qb,
+                centered,
+                metric_type,
+                rotated_q,
+                rotated_qq);
+        // Compute g_error (query norm for lower bound computation)
+        // g_error = ||qr - c|| (L2 norm of rotated query)
+        g_error = std::sqrt(query_fac.qr_to_c_L2sqr);
+        // Rearrange the query vector for SIMD operations
+        // (RaBitQuantizer-specific)
+        popcount_aligned_dim = ((d + 7) / 8) * 8;
+        size_t offset = (d + 7) / 8;
+        rearranged_rotated_qq.resize(offset * qb);
+        std::fill(
+                rearranged_rotated_qq.begin(), rearranged_rotated_qq.end(), 0);
+        for (size_t idim = 0; idim < d; idim++) {
+            for (size_t iv = 0; iv < qb; iv++) {
+                const bool bit = ((rotated_qq[idim] & (1 << iv)) != 0);
+                rearranged_rotated_qq[iv * offset + idim / 8] |=
+                        bit ? (1 << (idim % 8)) : 0;
+            }
+        }
+    }
+};
 // Use shared constant from RaBitQUtils
 using rabitq_utils::Z_MAX_BY_QB;
-void RaBitQDistanceComputerQ::set_query(const float* x) {
-    q = x;
-    FAISS_ASSERT(x != nullptr);
-    FAISS_ASSERT(
-            (metric_type == MetricType::METRIC_L2 ||
-             metric_type == MetricType::METRIC_INNER_PRODUCT));
-    FAISS_THROW_IF_NOT(qb <= 8);
-    FAISS_THROW_IF_NOT(qb > 0);
-    // Use shared utilities for core query factor computation
-    // rotated_q is populated directly by compute_query_factors as an output
-    // parameter
-    query_fac = rabitq_utils::compute_query_factors(
-            x, d, centroid, qb, centered, metric_type, rotated_q, rotated_qq);
-    // Compute g_error (query norm for lower bound computation)
-    // g_error = ||qr - c|| (L2 norm of rotated query)
-    g_error = std::sqrt(query_fac.qr_to_c_L2sqr);
-    // Rearrange the query vector for SIMD operations (RaBitQuantizer-specific)
-    popcount_aligned_dim = ((d + 7) / 8) * 8;
-    size_t offset = (d + 7) / 8;
-    rearranged_rotated_qq.resize(offset * qb);
-    std::fill(rearranged_rotated_qq.begin(), rearranged_rotated_qq.end(), 0);
-    for (size_t idim = 0; idim < d; idim++) {
-        for (size_t iv = 0; iv < qb; iv++) {
-            const bool bit = ((rotated_qq[idim] & (1 << iv)) != 0);
-            rearranged_rotated_qq[iv * offset + idim / 8] |=
-                    bit ? (1 << (idim % 8)) : 0;
-        }
-    }
-}
 } // anonymous namespace
 FlatCodesDistanceComputer* RaBitQuantizer::get_distance_computer(
         uint8_t qb,
         const float* centroid_in,
         bool centered) const {
-    if (qb == 0) {
-        auto dc = std::make_unique<RaBitQDistanceComputerNotQ>();
-        dc->metric_type = metric_type;
-        dc->d = d;
-        dc->centroid = centroid_in;
-        dc->nb_bits = nb_bits;
-        return dc.release();
-    } else {
-        auto dc = std::make_unique<RaBitQDistanceComputerQ>();
-        dc->metric_type = metric_type;
-        dc->d = d;
-        dc->centroid = centroid_in;
-        dc->qb = qb;
-        dc->centered = centered;
-        dc->nb_bits = nb_bits;
-        return dc.release();
-    }
+    // Dispatch on SIMDLevel once here so the distance computer methods
+    // call the SIMD-specialized rabitq functions directly (no per-call
+    // with_simd_level overhead).
+    return with_selected_simd_levels<AVAILABLE_SIMD_LEVELS_A0>(
+            [&]<SIMDLevel SL>() -> FlatCodesDistanceComputer* {
+                if (qb == 0) {
+                    auto dc =
+                            std::make_unique<RaBitQDistanceComputerNotQ<SL>>();
+                    dc->metric_type = metric_type;
+                    dc->d = d;
+                    dc->centroid = centroid_in;
+                    dc->nb_bits = nb_bits;
+                    return dc.release();
+                } else {
+                    auto dc = std::make_unique<RaBitQDistanceComputerQ<SL>>();
+                    dc->metric_type = metric_type;
+                    dc->d = d;
+                    dc->centroid = centroid_in;
+                    dc->qb = qb;
+                    dc->centered = centered;
+                    dc->nb_bits = nb_bits;
+                    return dc.release();
+                }
+            });
 }
 } // namespace faiss