RubyGems - faiss - Versions diffs - 0.5.3 → 0.6.1 - Mend

faiss 0.5.3 → 0.6.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (379) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +12 -0
data/ext/faiss/ext.cpp +1 -1
data/ext/faiss/extconf.rb +4 -4
data/ext/faiss/index.cpp +63 -45
data/ext/faiss/index_binary.cpp +37 -27
data/ext/faiss/kmeans.cpp +9 -8
data/ext/faiss/pca_matrix.cpp +9 -7
data/ext/faiss/product_quantizer.cpp +13 -11
data/ext/faiss/utils.cpp +4 -2
data/ext/faiss/utils.h +4 -0
data/lib/faiss/version.rb +1 -1
data/lib/faiss.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +214 -82
data/vendor/faiss/faiss/AutoTune.h +14 -1
data/vendor/faiss/faiss/Clustering.cpp +97 -249
data/vendor/faiss/faiss/Clustering.h +18 -0
data/vendor/faiss/faiss/IVFlib.cpp +67 -44
data/vendor/faiss/faiss/Index.cpp +25 -12
data/vendor/faiss/faiss/Index.h +26 -4
data/vendor/faiss/faiss/Index2Layer.cpp +37 -53
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +68 -61
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.cpp +36 -34
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.h +4 -1
data/vendor/faiss/faiss/IndexBinary.cpp +6 -3
data/vendor/faiss/faiss/IndexBinary.h +4 -4
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +1 -1
data/vendor/faiss/faiss/IndexBinaryFlat.h +1 -1
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +4 -4
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +92 -95
data/vendor/faiss/faiss/IndexBinaryHNSW.h +9 -3
data/vendor/faiss/faiss/IndexBinaryHash.cpp +45 -236
data/vendor/faiss/faiss/IndexBinaryHash.h +6 -6
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +120 -414
data/vendor/faiss/faiss/IndexFastScan.cpp +105 -129
data/vendor/faiss/faiss/IndexFastScan.h +35 -24
data/vendor/faiss/faiss/IndexFlat.cpp +216 -152
data/vendor/faiss/faiss/IndexFlat.h +32 -14
data/vendor/faiss/faiss/IndexFlatCodes.cpp +88 -41
data/vendor/faiss/faiss/IndexFlatCodes.h +7 -1
data/vendor/faiss/faiss/IndexHNSW.cpp +299 -187
data/vendor/faiss/faiss/IndexHNSW.h +30 -14
data/vendor/faiss/faiss/IndexIDMap.cpp +26 -22
data/vendor/faiss/faiss/IndexIDMap.h +9 -7
data/vendor/faiss/faiss/IndexIVF.cpp +535 -405
data/vendor/faiss/faiss/IndexIVF.h +47 -16
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +77 -74
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.cpp +105 -99
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.h +6 -3
data/vendor/faiss/faiss/IndexIVFFastScan.cpp +379 -249
data/vendor/faiss/faiss/IndexIVFFastScan.h +65 -60
data/vendor/faiss/faiss/IndexIVFFlat.cpp +41 -124
data/vendor/faiss/faiss/IndexIVFFlat.h +32 -0
data/vendor/faiss/faiss/IndexIVFFlatPanorama.cpp +89 -138
data/vendor/faiss/faiss/IndexIVFFlatPanorama.h +3 -1
data/vendor/faiss/faiss/IndexIVFIndependentQuantizer.cpp +18 -15
data/vendor/faiss/faiss/IndexIVFPQ.cpp +77 -907
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +184 -122
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexIVFPQR.cpp +23 -18
data/vendor/faiss/faiss/IndexIVFRaBitQ.cpp +59 -60
data/vendor/faiss/faiss/IndexIVFRaBitQ.h +4 -3
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.cpp +564 -416
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.h +269 -111
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +41 -127
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +1 -1
data/vendor/faiss/faiss/IndexLSH.cpp +44 -25
data/vendor/faiss/faiss/IndexLattice.cpp +41 -36
data/vendor/faiss/faiss/IndexNNDescent.cpp +37 -21
data/vendor/faiss/faiss/IndexNNDescent.h +2 -2
data/vendor/faiss/faiss/IndexNSG.cpp +40 -23
data/vendor/faiss/faiss/IndexNSG.h +0 -2
data/vendor/faiss/faiss/IndexNeuralNetCodec.cpp +32 -12
data/vendor/faiss/faiss/IndexPQ.cpp +129 -213
data/vendor/faiss/faiss/IndexPQ.h +3 -2
data/vendor/faiss/faiss/IndexPQFastScan.cpp +20 -14
data/vendor/faiss/faiss/IndexPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexPreTransform.cpp +25 -18
data/vendor/faiss/faiss/IndexPreTransform.h +1 -1
data/vendor/faiss/faiss/IndexRaBitQ.cpp +31 -43
data/vendor/faiss/faiss/IndexRaBitQ.h +4 -3
data/vendor/faiss/faiss/IndexRaBitQFastScan.cpp +135 -317
data/vendor/faiss/faiss/IndexRaBitQFastScan.h +192 -34
data/vendor/faiss/faiss/IndexRefine.cpp +30 -55
data/vendor/faiss/faiss/IndexRefine.h +4 -4
data/vendor/faiss/faiss/IndexReplicas.cpp +6 -6
data/vendor/faiss/faiss/IndexRowwiseMinMax.cpp +15 -14
data/vendor/faiss/faiss/IndexRowwiseMinMax.h +1 -1
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +82 -14
data/vendor/faiss/faiss/IndexShards.cpp +13 -13
data/vendor/faiss/faiss/IndexShardsIVF.cpp +21 -15
data/vendor/faiss/faiss/MatrixStats.cpp +5 -4
data/vendor/faiss/faiss/MetaIndexes.cpp +19 -17
data/vendor/faiss/faiss/MetaIndexes.h +1 -1
data/vendor/faiss/faiss/MetricType.h +29 -6
data/vendor/faiss/faiss/SuperKMeans.cpp +656 -0
data/vendor/faiss/faiss/SuperKMeans.h +97 -0
data/vendor/faiss/faiss/VectorTransform.cpp +349 -141
data/vendor/faiss/faiss/VectorTransform.h +39 -16
data/vendor/faiss/faiss/build.cpp +23 -0
data/vendor/faiss/faiss/build.h +15 -0
data/vendor/faiss/faiss/clone_index.cpp +55 -51
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-avx2-inl.h +47 -47
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-inl.h +11 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-avx2-inl.h +38 -38
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-inl.h +11 -0
data/vendor/faiss/faiss/{cppcontrib/factory_tools.cpp → factory_tools.cpp} +6 -1
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +1 -1
data/vendor/faiss/faiss/gpu/GpuIndexCagra.h +6 -5
data/vendor/faiss/faiss/gpu/GpuResources.h +1 -1
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +9 -9
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +4 -3
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +46 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +56 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +78 -1
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +72 -0
data/vendor/faiss/faiss/gpu/test/TestUtils.h +23 -0
data/vendor/faiss/faiss/gpu/utils/CuvsFilterConvert.h +1 -1
data/vendor/faiss/faiss/gpu/utils/CuvsUtils.h +21 -10
data/vendor/faiss/faiss/gpu_metal/GpuIndexFlat.h +22 -0
data/vendor/faiss/faiss/gpu_metal/MetalCloner.h +35 -0
data/vendor/faiss/faiss/gpu_metal/MetalFlatKernels.h +40 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndex.h +51 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndexFlat.h +65 -0
data/vendor/faiss/faiss/gpu_metal/MetalKernels.h +66 -0
data/vendor/faiss/faiss/gpu_metal/MetalResources.h +79 -0
data/vendor/faiss/faiss/gpu_metal/StandardMetalResources.h +35 -0
data/vendor/faiss/faiss/impl/AdSampling.cpp +103 -0
data/vendor/faiss/faiss/impl/AdSampling.h +35 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +64 -34
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +1 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +10 -9
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +3 -28
data/vendor/faiss/faiss/impl/ClusteringHelpers.cpp +244 -0
data/vendor/faiss/faiss/impl/ClusteringHelpers.h +94 -0
data/vendor/faiss/faiss/impl/ClusteringInitialization.cpp +367 -0
data/vendor/faiss/faiss/impl/ClusteringInitialization.h +107 -0
data/vendor/faiss/faiss/impl/CodePacker.cpp +7 -3
data/vendor/faiss/faiss/impl/CodePacker.h +11 -3
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.cpp +83 -0
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.h +47 -0
data/vendor/faiss/faiss/impl/DistanceComputer.h +8 -8
data/vendor/faiss/faiss/impl/FaissAssert.h +64 -3
data/vendor/faiss/faiss/impl/FaissException.h +50 -3
data/vendor/faiss/faiss/impl/HNSW.cpp +117 -351
data/vendor/faiss/faiss/impl/HNSW.h +21 -40
data/vendor/faiss/faiss/impl/IDSelector.cpp +15 -11
data/vendor/faiss/faiss/impl/IDSelector.h +8 -8
data/vendor/faiss/faiss/impl/InvertedListScannerStats.h +26 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +114 -102
data/vendor/faiss/faiss/impl/NNDescent.cpp +63 -26
data/vendor/faiss/faiss/impl/NNDescent.h +6 -2
data/vendor/faiss/faiss/impl/NSG.cpp +44 -26
data/vendor/faiss/faiss/impl/NSG.h +20 -10
data/vendor/faiss/faiss/impl/Panorama.cpp +76 -52
data/vendor/faiss/faiss/impl/Panorama.h +265 -78
data/vendor/faiss/faiss/impl/PdxLayout.cpp +93 -0
data/vendor/faiss/faiss/impl/PdxLayout.h +41 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +62 -37
data/vendor/faiss/faiss/impl/PolysemousTraining.h +3 -3
data/vendor/faiss/faiss/impl/ProductAdditiveQuantizer.cpp +35 -35
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +21 -16
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +99 -80
data/vendor/faiss/faiss/impl/Quantizer.h +2 -2
data/vendor/faiss/faiss/impl/RaBitQUtils.cpp +135 -37
data/vendor/faiss/faiss/impl/RaBitQUtils.h +148 -21
data/vendor/faiss/faiss/impl/RaBitQuantizer.cpp +298 -301
data/vendor/faiss/faiss/impl/RaBitQuantizer.h +3 -10
data/vendor/faiss/faiss/impl/RaBitQuantizerMultiBit.cpp +15 -41
data/vendor/faiss/faiss/impl/RaBitQuantizerMultiBit.h +0 -4
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +40 -32
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +1 -1
data/vendor/faiss/faiss/impl/ResultHandler.h +218 -113
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +119 -2362
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +27 -3
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +14 -11
data/vendor/faiss/faiss/impl/VisitedTable.cpp +42 -0
data/vendor/faiss/faiss/impl/VisitedTable.h +76 -0
data/vendor/faiss/faiss/impl/approx_topk/approx_topk.h +276 -0
data/vendor/faiss/faiss/impl/approx_topk/avx2.cpp +68 -0
data/vendor/faiss/faiss/{utils → impl}/approx_topk/generic.h +15 -8
data/vendor/faiss/faiss/impl/approx_topk/neon.cpp +68 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab-inl.h +169 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab.h +117 -0
data/vendor/faiss/faiss/impl/approx_topk/simdlib256-inl.h +146 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHNSW_impl.h +73 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHash_impl.h +270 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryIVF_impl.h +460 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexIVFSpectralHash_impl.h +159 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexPQ_impl.h +92 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx2.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx512.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/dispatch.h +143 -0
data/vendor/faiss/faiss/impl/binary_hamming/neon.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/rvv.cpp +26 -0
data/vendor/faiss/faiss/impl/expanded_scanners.h +163 -0
data/vendor/faiss/faiss/impl/{FastScanDistancePostProcessing.h → fast_scan/FastScanDistancePostProcessing.h} +13 -6
data/vendor/faiss/faiss/impl/{LookupTableScaler.h → fast_scan/LookupTableScaler.h} +16 -5
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops.h +237 -0
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops_512.h +185 -0
data/vendor/faiss/faiss/impl/fast_scan/decompose_qbs.h +229 -0
data/vendor/faiss/faiss/impl/fast_scan/dispatching.h +268 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan.cpp → fast_scan/fast_scan.cpp} +176 -4
data/vendor/faiss/faiss/impl/fast_scan/fast_scan.h +341 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx2.cpp +36 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx512.cpp +40 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-neon.cpp +120 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-riscv.cpp +104 -0
data/vendor/faiss/faiss/impl/fast_scan/kernels_simd256.h +213 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan_search_qbs.cpp → fast_scan/kernels_simd512.h} +26 -348
data/vendor/faiss/faiss/impl/fast_scan/rabitq_dispatching.h +90 -0
data/vendor/faiss/faiss/impl/fast_scan/rabitq_result_handler.h +108 -0
data/vendor/faiss/faiss/impl/{simd_result_handlers.h → fast_scan/simd_result_handlers.h} +290 -142
data/vendor/faiss/faiss/impl/hnsw/LockVector.cpp +54 -0
data/vendor/faiss/faiss/impl/hnsw/LockVector.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.cpp +91 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/avx2.cpp +104 -0
data/vendor/faiss/faiss/impl/hnsw/avx512.cpp +111 -0
data/vendor/faiss/faiss/impl/index_read.cpp +1950 -505
data/vendor/faiss/faiss/impl/index_read_utils.h +1 -2
data/vendor/faiss/faiss/impl/index_write.cpp +112 -21
data/vendor/faiss/faiss/impl/io.cpp +6 -6
data/vendor/faiss/faiss/impl/io_macros.h +33 -16
data/vendor/faiss/faiss/impl/kmeans1d.cpp +10 -10
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +81 -40
data/vendor/faiss/faiss/impl/lattice_Zn.h +6 -6
data/vendor/faiss/faiss/impl/mapped_io.cpp +15 -8
data/vendor/faiss/faiss/impl/platform_macros.h +11 -4
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQScanner_impl.h +549 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.cpp +245 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.h +105 -0
data/vendor/faiss/faiss/impl/pq_code_distance/PQDistanceComputer_impl.h +106 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx2.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx512.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/neon.cpp +21 -0
data/vendor/faiss/faiss/impl/{code_distance/code_distance-avx2.h → pq_code_distance/pq_code_distance-avx2.h} +43 -220
data/vendor/faiss/faiss/impl/{code_distance/code_distance-avx512.h → pq_code_distance/pq_code_distance-avx512.h} +25 -112
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.cpp +59 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.h +96 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-inl.h +256 -0
data/vendor/faiss/faiss/impl/{code_distance/code_distance-sve.h → pq_code_distance/pq_code_distance-sve.cpp} +57 -146
data/vendor/faiss/faiss/impl/pq_code_distance/rvv.cpp +68 -0
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.cpp +320 -483
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.h +1 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/codecs.h +121 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/distance_computers.h +137 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/quantizers.h +371 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/scanners.h +190 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/similarities.h +94 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx2.cpp +603 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx512.cpp +597 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-dispatch.h +388 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-neon.cpp +630 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-rvv.cpp +311 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.cpp +387 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.h +54 -0
data/vendor/faiss/faiss/impl/simd_dispatch.h +173 -0
data/vendor/faiss/faiss/impl/simdlib/simdlib.h +57 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_avx2.h +274 -171
data/vendor/faiss/faiss/impl/simdlib/simdlib_avx512.h +414 -0
data/vendor/faiss/faiss/impl/simdlib/simdlib_dispatch.h +44 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_emulated.h +231 -166
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_neon.h +275 -217
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_ppc64.h +201 -160
data/vendor/faiss/faiss/impl/svs_io.cpp +12 -3
data/vendor/faiss/faiss/impl/svs_io.h +8 -2
data/vendor/faiss/faiss/index_factory.cpp +115 -28
data/vendor/faiss/faiss/index_io.h +53 -3
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +73 -20
data/vendor/faiss/faiss/invlists/DirectMap.cpp +24 -14
data/vendor/faiss/faiss/invlists/DirectMap.h +4 -3
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +157 -73
data/vendor/faiss/faiss/invlists/InvertedLists.h +86 -23
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +4 -4
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +14 -14
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSFaissUtils.h +9 -19
data/vendor/faiss/faiss/svs/IndexSVSFlat.cpp +2 -2
data/vendor/faiss/faiss/svs/IndexSVSFlat.h +2 -0
data/vendor/faiss/faiss/svs/IndexSVSIVF.cpp +350 -0
data/vendor/faiss/faiss/svs/IndexSVSIVF.h +128 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.cpp +40 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.h +43 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.cpp +225 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.h +71 -0
data/vendor/faiss/faiss/svs/IndexSVSVamana.cpp +25 -1
data/vendor/faiss/faiss/svs/IndexSVSVamana.h +19 -2
data/vendor/faiss/faiss/svs/IndexSVSVamanaLVQ.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.cpp +19 -2
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.h +14 -0
data/vendor/faiss/faiss/utils/Heap.cpp +56 -10
data/vendor/faiss/faiss/utils/Heap.h +21 -0
data/vendor/faiss/faiss/utils/NeuralNet.cpp +54 -40
data/vendor/faiss/faiss/utils/NeuralNet.h +1 -1
data/vendor/faiss/faiss/utils/approx_topk_hamming/approx_topk_hamming.h +10 -4
data/vendor/faiss/faiss/utils/distances.cpp +507 -559
data/vendor/faiss/faiss/utils/distances.h +118 -1
data/vendor/faiss/faiss/utils/distances_dispatch.h +250 -0
data/vendor/faiss/faiss/utils/distances_fused/avx512.cpp +8 -7
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.cpp +33 -14
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.h +12 -1
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based.cpp +16 -293
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based_neon.cpp +57 -0
data/vendor/faiss/faiss/utils/distances_fused/simdlib_kernel-inl.h +290 -0
data/vendor/faiss/faiss/utils/distances_simd.cpp +72 -3681
data/vendor/faiss/faiss/utils/extra_distances.cpp +60 -102
data/vendor/faiss/faiss/utils/extra_distances.h +79 -7
data/vendor/faiss/faiss/utils/hamming-inl.h +13 -11
data/vendor/faiss/faiss/utils/hamming.cpp +66 -517
data/vendor/faiss/faiss/utils/hamming.h +92 -2
data/vendor/faiss/faiss/utils/hamming_distance/common.h +287 -10
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx2.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx512.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx2.h +142 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx512.h +234 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-generic.h +368 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-neon.h +322 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-rvv.h +39 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer.h +146 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_neon.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_rvv.cpp +15 -0
data/vendor/faiss/faiss/utils/partitioning.cpp +66 -987
data/vendor/faiss/faiss/utils/partitioning.h +31 -0
data/vendor/faiss/faiss/utils/popcount.h +29 -0
data/vendor/faiss/faiss/utils/pq_code_distance.h +251 -0
data/vendor/faiss/faiss/utils/prefetch.h +2 -2
data/vendor/faiss/faiss/utils/quantize_lut.cpp +30 -30
data/vendor/faiss/faiss/utils/quantize_lut.h +1 -1
data/vendor/faiss/faiss/utils/rabitq_simd.h +124 -343
data/vendor/faiss/faiss/utils/random.cpp +6 -6
data/vendor/faiss/faiss/utils/simd_impl/IVFFlatScanner-inl.h +51 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_aarch64.cpp +154 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_arm_sve.cpp +777 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_autovec-inl.h +306 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_avx2.cpp +1431 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_avx512.cpp +1095 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_rvv.cpp +189 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_simdlib256.h +195 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_sse-inl.h +392 -0
data/vendor/faiss/faiss/utils/{distances_fused/simdlib_based.h → simd_impl/exhaustive_L2sqr_blas_cmax.h} +5 -10
data/vendor/faiss/faiss/utils/simd_impl/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_avx2.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_neon.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_simdlib256.h +1085 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx2.cpp +355 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx512.cpp +477 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_neon.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_rvv.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_dispatch.h +32 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels.h +43 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx2.cpp +57 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx512.cpp +45 -0
data/vendor/faiss/faiss/utils/simd_levels.cpp +334 -0
data/vendor/faiss/faiss/utils/simd_levels.h +183 -0
data/vendor/faiss/faiss/utils/sorting.cpp +48 -36
data/vendor/faiss/faiss/utils/utils.cpp +21 -14
data/vendor/faiss/faiss/utils/utils.h +3 -3
metadata +156 -42
data/vendor/faiss/faiss/impl/RaBitQStats.cpp +0 -29
data/vendor/faiss/faiss/impl/RaBitQStats.h +0 -56
data/vendor/faiss/faiss/impl/code_distance/code_distance-generic.h +0 -81
data/vendor/faiss/faiss/impl/code_distance/code_distance.h +0 -186
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +0 -216
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +0 -224
data/vendor/faiss/faiss/utils/approx_topk/approx_topk.h +0 -84
data/vendor/faiss/faiss/utils/approx_topk/avx2-inl.h +0 -196
data/vendor/faiss/faiss/utils/approx_topk/mode.h +0 -34
data/vendor/faiss/faiss/utils/distances_fused/avx512.h +0 -36
data/vendor/faiss/faiss/utils/extra_distances-inl.h +0 -228
data/vendor/faiss/faiss/utils/hamming_distance/avx2-inl.h +0 -462
data/vendor/faiss/faiss/utils/hamming_distance/avx512-inl.h +0 -490
data/vendor/faiss/faiss/utils/hamming_distance/generic-inl.h +0 -450
data/vendor/faiss/faiss/utils/hamming_distance/hamdis-inl.h +0 -87
data/vendor/faiss/faiss/utils/hamming_distance/neon-inl.h +0 -524
data/vendor/faiss/faiss/utils/simdlib.h +0 -42
data/vendor/faiss/faiss/utils/simdlib_avx512.h +0 -296
/data/vendor/faiss/faiss/{cppcontrib/factory_tools.h → factory_tools.h} +0 -0

data/vendor/faiss/faiss/impl/ProductQuantizer.cpp CHANGED Viewed

@@ -19,6 +19,7 @@
 #include <faiss/IndexFlat.h>
 #include <faiss/VectorTransform.h>
 #include <faiss/impl/FaissAssert.h>
+#include <faiss/impl/simd_dispatch.h>
 #include <faiss/utils/distances.h>
 extern "C" {
@@ -47,8 +48,8 @@ namespace faiss {
  * PQ implementation
  *********************************************/
-ProductQuantizer::ProductQuantizer(size_t d, size_t M, size_t nbits)
-        : Quantizer(d, 0), M(M), nbits(nbits), assign_index(nullptr) {
+ProductQuantizer::ProductQuantizer(size_t d_in, size_t M_in, size_t nbits_in)
+        : Quantizer(d_in, 0), M(M_in), nbits(nbits_in), assign_index(nullptr) {
     set_derived_values();
 }
@@ -56,14 +57,15 @@ ProductQuantizer::ProductQuantizer() : ProductQuantizer(0, 1, 0) {}
 void ProductQuantizer::set_derived_values() {
     // quite a few derived values
+    FAISS_THROW_IF_NOT_MSG(M > 0, "M must be > 0");
     FAISS_THROW_IF_NOT_MSG(
             d % M == 0,
             "The dimension of the vector (d) should be a multiple of the number of subquantizers (M)");
     dsub = d / M;
-    code_size = (nbits * M + 7) / 8;
     FAISS_THROW_IF_MSG(nbits > 24, "nbits larger than 24 is not practical.");
+    code_size = (nbits * M + 7) / 8;
     ksub = 1 << nbits;
-    centroids.resize(d * ksub);
+    centroids.resize(mul_no_overflow(d, (size_t)ksub, "PQ centroids"));
     verbose = false;
     train_type = Train_default;
 }
@@ -137,8 +139,8 @@ void ProductQuantizer::train(size_t n, const float* x) {
         }
         std::unique_ptr<float[]> xslice(new float[n * dsub]);
-        for (int m = 0; m < M; m++) {
-            for (int j = 0; j < n; j++)
+        for (size_t m = 0; m < M; m++) {
+            for (size_t j = 0; j < n; j++)
                 memcpy(xslice.get() + j * dsub,
                        x + j * d + m * dsub,
                        dsub * sizeof(float));
@@ -177,7 +179,7 @@ void ProductQuantizer::train(size_t n, const float* x) {
             if (verbose) {
                 clus.verbose = true;
-                printf("Training PQ slice %d/%zd\n", m, M);
+                printf("Training PQ slice %zd/%zd\n", m, M);
             }
             IndexFlatL2 index(dsub);
             clus.train(n, xslice.get(), assign_index ? *assign_index : index);
@@ -195,14 +197,16 @@ void ProductQuantizer::train(size_t n, const float* x) {
         IndexFlatL2 index(dsub);
         clus.train(n * M, x, assign_index ? *assign_index : index);
-        for (int m = 0; m < M; m++) {
+        for (size_t m = 0; m < M; m++) {
             set_params(clus.centroids.data(), m);
         }
     }
 }
-template <class PQEncoder>
-void compute_code(const ProductQuantizer& pq, const float* x, uint8_t* code) {
+namespace {
+template <class PQEncoder, SIMDLevel SL>
+void compute_1_code(const ProductQuantizer& pq, const float* x, uint8_t* code) {
     std::vector<float> distances(pq.ksub);
     // It seems to be meaningless to allocate std::vector<float> distances.
@@ -248,7 +252,7 @@ void compute_code(const ProductQuantizer& pq, const float* x, uint8_t* code) {
         uint64_t idxm = 0;
         if (pq.transposed_centroids.empty()) {
             // the regular version
-            idxm = fvec_L2sqr_ny_nearest(
+            idxm = fvec_L2sqr_ny_nearest<SL>(
                     distances.data(),
                     xsub,
                     pq.get_centroids(m, 0),
@@ -256,7 +260,7 @@ void compute_code(const ProductQuantizer& pq, const float* x, uint8_t* code) {
                     pq.ksub);
         } else {
             // transposed centroids are available, use'em
-            idxm = fvec_L2sqr_ny_nearest_y_transposed(
+            idxm = fvec_L2sqr_ny_nearest_y_transposed<SL>(
                     distances.data(),
                     xsub,
                     pq.transposed_centroids.data() + m * pq.ksub,
@@ -270,20 +274,24 @@ void compute_code(const ProductQuantizer& pq, const float* x, uint8_t* code) {
     }
 }
+} // namespace
 void ProductQuantizer::compute_code(const float* x, uint8_t* code) const {
-    switch (nbits) {
-        case 8:
-            faiss::compute_code<PQEncoder8>(*this, x, code);
-            break;
+    with_simd_level([&]<SIMDLevel SL>() {
+        switch (nbits) {
+            case 8:
+                compute_1_code<PQEncoder8, SL>(*this, x, code);
+                break;
-        case 16:
-            faiss::compute_code<PQEncoder16>(*this, x, code);
-            break;
+            case 16:
+                compute_1_code<PQEncoder16, SL>(*this, x, code);
+                break;
-        default:
-            faiss::compute_code<PQEncoderGeneric>(*this, x, code);
-            break;
-    }
+            default:
+                compute_1_code<PQEncoderGeneric, SL>(*this, x, code);
+                break;
+        }
+    }); // with_simd_level
 }
 template <class PQDecoder>
@@ -314,8 +322,9 @@ void ProductQuantizer::decode(const uint8_t* code, float* x) const {
 }
 void ProductQuantizer::decode(const uint8_t* code, float* x, size_t n) const {
+    int64_t n_signed = n;
 #pragma omp parallel for if (n > 100)
-    for (int64_t i = 0; i < n; i++) {
+    for (int64_t i = 0; i < n_signed; i++) {
         this->decode(code + code_size * i, x + d * i);
     }
 }
@@ -345,7 +354,8 @@ void ProductQuantizer::compute_codes_with_assign_index(
         const float* x,
         uint8_t* codes,
         size_t n) {
-    FAISS_THROW_IF_NOT(assign_index && assign_index->d == dsub);
+    FAISS_THROW_IF_NOT(
+            assign_index && static_cast<size_t>(assign_index->d) == dsub);
     for (size_t m = 0; m < M; m++) {
         assign_index->reset();
@@ -407,10 +417,11 @@ void ProductQuantizer::compute_codes(const float* x, uint8_t* codes, size_t n)
         return;
     }
+    int64_t n_signed = n;
     if (dsub < 16) { // simple direct computation
 #pragma omp parallel for
-        for (int64_t i = 0; i < n; i++)
+        for (int64_t i = 0; i < n_signed; i++)
             compute_code(x + i * d, codes + i * code_size);
     } else { // worthwhile to use BLAS
@@ -418,7 +429,7 @@ void ProductQuantizer::compute_codes(const float* x, uint8_t* codes, size_t n)
         compute_distance_tables(n, x, dis_tables.get());
 #pragma omp parallel for
-        for (int64_t i = 0; i < n; i++) {
+        for (int64_t i = 0; i < n_signed; i++) {
             uint8_t* code = codes + i * code_size;
             const float* tab = dis_tables.get() + i * ksub * M;
             compute_code_from_distance_table(tab, code);
@@ -428,51 +439,54 @@ void ProductQuantizer::compute_codes(const float* x, uint8_t* codes, size_t n)
 void ProductQuantizer::compute_distance_table(const float* x, float* dis_table)
         const {
-    if (transposed_centroids.empty()) {
-        // use regular version
-        for (size_t m = 0; m < M; m++) {
-            fvec_L2sqr_ny(
-                    dis_table + m * ksub,
-                    x + m * dsub,
-                    get_centroids(m, 0),
-                    dsub,
-                    ksub);
+    with_simd_level([&]<SIMDLevel SL>() {
+        if (transposed_centroids.empty()) {
+            // use regular version
+            for (size_t m = 0; m < M; m++) {
+                fvec_L2sqr_ny<SL>(
+                        dis_table + m * ksub,
+                        x + m * dsub,
+                        get_centroids(m, 0),
+                        dsub,
+                        ksub);
+            }
+        } else {
+            // transposed centroids are available, use'em
+            for (size_t m = 0; m < M; m++) {
+                fvec_L2sqr_ny_transposed<SL>(
+                        dis_table + m * ksub,
+                        x + m * dsub,
+                        transposed_centroids.data() + m * ksub,
+                        centroids_sq_lengths.data() + m * ksub,
+                        dsub,
+                        M * ksub,
+                        ksub);
+            }
         }
-    } else {
-        // transposed centroids are available, use'em
+    });
+}
+void ProductQuantizer::compute_inner_prod_table(
+        const float* x,
+        float* dis_table) const {
+    with_simd_level([&]<SIMDLevel SL>() {
         for (size_t m = 0; m < M; m++) {
-            fvec_L2sqr_ny_transposed(
+            fvec_inner_products_ny<SL>(
                     dis_table + m * ksub,
                     x + m * dsub,
-                    transposed_centroids.data() + m * ksub,
-                    centroids_sq_lengths.data() + m * ksub,
+                    get_centroids(m, 0),
                     dsub,
-                    M * ksub,
                     ksub);
         }
-    }
-}
-void ProductQuantizer::compute_inner_prod_table(
-        const float* x,
-        float* dis_table) const {
-    size_t m;
-    for (m = 0; m < M; m++) {
-        fvec_inner_products_ny(
-                dis_table + m * ksub,
-                x + m * dsub,
-                get_centroids(m, 0),
-                dsub,
-                ksub);
-    }
+    });
 }
 void ProductQuantizer::compute_distance_tables(
         size_t nx,
         const float* x,
         float* dis_tables) const {
-#if defined(__AVX2__) || defined(__aarch64__)
+    int64_t nx_signed = nx;
+#if defined(COMPILE_SIMD_AVX2) || defined(COMPILE_SIMD_ARM_NEON)
     if (dsub == 2 && nbits < 8) { // interesting for a narrow range of settings
         compute_PQ_dis_tables_dsub2(
                 d, ksub, centroids.data(), nx, x, false, dis_tables);
@@ -481,13 +495,13 @@ void ProductQuantizer::compute_distance_tables(
             if (dsub < 16) {
 #pragma omp parallel for if (nx > 1)
-        for (int64_t i = 0; i < nx; i++) {
+        for (int64_t i = 0; i < nx_signed; i++) {
             compute_distance_table(x + i * d, dis_tables + i * ksub * M);
         }
     } else { // use BLAS
-        for (int m = 0; m < M; m++) {
+        for (size_t m = 0; m < M; m++) {
             pairwise_L2sqr(
                     dsub,
                     nx,
@@ -506,7 +520,8 @@ void ProductQuantizer::compute_inner_prod_tables(
         size_t nx,
         const float* x,
         float* dis_tables) const {
-#if defined(__AVX2__) || defined(__aarch64__)
+    int64_t nx_signed = nx;
+#if defined(COMPILE_SIMD_AVX2) || defined(COMPILE_SIMD_ARM_NEON)
     if (dsub == 2 && nbits < 8) {
         compute_PQ_dis_tables_dsub2(
                 d, ksub, centroids.data(), nx, x, true, dis_tables);
@@ -515,14 +530,14 @@ void ProductQuantizer::compute_inner_prod_tables(
             if (dsub < 16) {
 #pragma omp parallel for if (nx > 1)
-        for (int64_t i = 0; i < nx; i++) {
+        for (int64_t i = 0; i < nx_signed; i++) {
             compute_inner_prod_table(x + i * d, dis_tables + i * ksub * M);
         }
     } else { // use BLAS
         // compute distance tables
-        for (int m = 0; m < M; m++) {
+        for (size_t m = 0; m < M; m++) {
             FINTEGER ldc = ksub * M, nxi = nx, ksubi = ksub, dsubi = dsub,
                      di = d;
             float one = 1.0, zero = 0;
@@ -566,7 +581,7 @@ void pq_estimators_from_tables_Mmul4(
         float dis = 0;
         const float* dt = dis_table;
-        for (size_t m = 0; m < M; m += 4) {
+        for (int m = 0; m < M; m += 4) {
             float dism = 0;
             dism = dt[*codes++];
             dt += ksub;
@@ -638,7 +653,7 @@ void pq_estimators_from_tables(
     for (size_t j = 0; j < ncodes; j++) {
         float dis = 0;
         const float* __restrict dt = dis_table;
-        for (int m = 0; m < M; m++) {
+        for (size_t m = 0; m < M; m++) {
             dis += dt[*codes++];
             dt += ksub;
         }
@@ -686,10 +701,11 @@ void pq_knn_search_with_tables(
         HeapArray<C>* res,
         bool init_finalize_heap) {
     size_t k = res->k, nx = res->nh;
+    int64_t nx_signed = nx;
     size_t ksub = pq.ksub, M = pq.M;
 #pragma omp parallel for if (nx > 1)
-    for (int64_t i = 0; i < nx; i++) {
+    for (int64_t i = 0; i < nx_signed; i++) {
         /* query preparation for asymmetric search: compute look-up tables */
         const float* dis_table = dis_tables + i * ksub * M;
@@ -785,22 +801,24 @@ void ProductQuantizer::compute_sdc_table() {
     sdc_table.resize(M * ksub * ksub);
     if (dsub < 4) {
+        with_simd_level([&]<SIMDLevel SL>() {
 #pragma omp parallel for
-        for (int mk = 0; mk < M * ksub; mk++) {
-            // allow omp to schedule in a more fine-grained way
-            // `collapse` is not supported in OpenMP 2.x
-            int m = mk / ksub;
-            int k = mk % ksub;
-            const float* cents = centroids.data() + m * ksub * dsub;
-            const float* centi = cents + k * dsub;
-            float* dis_tab = sdc_table.data() + m * ksub * ksub;
-            fvec_L2sqr_ny(dis_tab + k * ksub, centi, cents, dsub, ksub);
-        }
+            for (int64_t mk = 0; mk < static_cast<int64_t>(M * ksub); mk++) {
+                // allow omp to schedule in a more fine-grained way
+                // `collapse` is not supported in OpenMP 2.x
+                int m = mk / ksub;
+                int k = mk % ksub;
+                const float* cents = centroids.data() + m * ksub * dsub;
+                const float* centi = cents + k * dsub;
+                float* dis_tab = sdc_table.data() + m * ksub * ksub;
+                fvec_L2sqr_ny<SL>(dis_tab + k * ksub, centi, cents, dsub, ksub);
+            }
+        });
     } else {
         // NOTE: it would disable the omp loop in pairwise_L2sqr
         // but still accelerate especially when M >= 4
 #pragma omp parallel for
-        for (int m = 0; m < M; m++) {
+        for (int64_t m = 0; m < static_cast<int64_t>(M); m++) {
             const float* cents = centroids.data() + m * ksub * dsub;
             float* dis_tab = sdc_table.data() + m * ksub * ksub;
             pairwise_L2sqr(
@@ -819,9 +837,10 @@ void ProductQuantizer::search_sdc(
     FAISS_THROW_IF_NOT(sdc_table.size() == M * ksub * ksub);
     FAISS_THROW_IF_NOT(nbits == 8);
     size_t k = res->k;
+    int64_t nq_signed = nq;
 #pragma omp parallel for
-    for (int64_t i = 0; i < nq; i++) {
+    for (int64_t i = 0; i < nq_signed; i++) {
         /* Compute distances and keep smallest values */
         idx_t* heap_ids = res->ids + i * k;
         float* heap_dis = res->val + i * k;
@@ -834,7 +853,7 @@ void ProductQuantizer::search_sdc(
         for (size_t j = 0; j < nb; j++) {
             float dis = 0;
             const float* tab = sdc_table.data();
-            for (int m = 0; m < M; m++) {
+            for (size_t m = 0; m < M; m++) {
                 dis += tab[bcode[m] + qcode[m] * ksub];
                 tab += ksub * ksub;
             }

data/vendor/faiss/faiss/impl/Quantizer.h CHANGED Viewed

@@ -16,8 +16,8 @@ struct Quantizer {
     size_t d;         ///< size of the input vectors
     size_t code_size; ///< bytes per indexed vector
-    explicit Quantizer(size_t d = 0, size_t code_size = 0)
-            : d(d), code_size(code_size) {}
+    explicit Quantizer(size_t d_in = 0, size_t code_size_in = 0)
+            : d(d_in), code_size(code_size_in) {}
     /** Train the quantizer
      *

data/vendor/faiss/faiss/impl/RaBitQUtils.cpp CHANGED Viewed

@@ -8,9 +8,12 @@
 #include <faiss/impl/RaBitQUtils.h>
 #include <faiss/impl/FaissAssert.h>
+#include <faiss/impl/simd_dispatch.h>
 #include <faiss/utils/distances.h>
+#include <faiss/utils/rabitq_simd.h>
 #include <algorithm>
 #include <cmath>
+#include <cstring>
 #include <limits>
 namespace faiss {
@@ -151,6 +154,7 @@ QueryFactorsData compute_query_factors(
         std::vector<uint8_t>& rotated_qq) {
     FAISS_THROW_IF_NOT(qb <= 8);
     FAISS_THROW_IF_NOT(qb > 0);
+    FAISS_THROW_IF_NOT(d > 0);
     QueryFactorsData query_factors;
@@ -163,38 +167,42 @@ QueryFactorsData compute_query_factors(
     query_factors.g_error = std::sqrt(query_factors.qr_to_c_L2sqr);
     // Rotate the query (subtract centroid)
+    // Save aliasing state before resize(), which may reallocate the buffer.
+    const bool query_aliased = (query == rotated_q.data());
+    FAISS_THROW_IF_NOT_MSG(
+            !query_aliased || centroid == nullptr,
+            "query aliasing is only supported in the IVF residual path "
+            "(centroid == nullptr)");
     rotated_q.resize(d);
-    for (size_t i = 0; i < d; i++) {
-        if (i < rotated_q.size()) {
-            rotated_q[i] =
-                    query[i] - ((centroid == nullptr) ? 0.0f : centroid[i]);
+    if (centroid == nullptr) {
+        // Caller may pass query == rotated_q.data() (IVF residual path);
+        // memcpy with overlapping src/dst is UB, so skip the copy in that case.
+        if (!query_aliased) {
+            memcpy(rotated_q.data(), query, d * sizeof(float));
+        }
+    } else {
+        for (size_t i = 0; i < d; i++) {
+            rotated_q[i] = query[i] - centroid[i];
         }
     }
-    const float inv_d_sqrt =
-            (d == 0) ? 1.0f : (1.0f / std::sqrt(static_cast<float>(d)));
+    const float inv_d_sqrt = 1.0f / std::sqrt(static_cast<float>(d));
     // Compute quantization range
     float v_min = std::numeric_limits<float>::max();
     float v_max = std::numeric_limits<float>::lowest();
+    const float* rq = rotated_q.data();
     if (centered) {
         float z_max = Z_MAX_BY_QB[qb - 1];
         float v_radius = z_max * std::sqrt(query_factors.qr_to_c_L2sqr / d);
         v_min = -v_radius;
         v_max = v_radius;
     } else {
-        // Only compute min/max if we have dimensions to process
-        if (d > 0 && !rotated_q.empty()) {
-            for (size_t i = 0; i < d; i++) {
-                const float v_q = rotated_q[i];
-                v_min = std::min(v_min, v_q);
-                v_max = std::max(v_max, v_q);
-            }
-        } else {
-            // For empty dimensions, use default range
-            v_min = 0.0f;
-            v_max = 1.0f;
+        for (size_t i = 0; i < d; i++) {
+            const float v_q = rq[i];
+            v_min = std::min(v_min, v_q);
+            v_max = std::max(v_max, v_q);
         }
     }
@@ -207,25 +215,18 @@ QueryFactorsData compute_query_factors(
     size_t sum_qq = 0;
     int64_t sum2_signed_odd_int = 0;
-    // Process arrays - throw error if they are unexpectedly empty
-    if (d > 0 && !rotated_q.empty() && !rotated_qq.empty()) {
-        for (size_t i = 0; i < d; i++) {
-            const float v_q = rotated_q[i];
-            // Non-randomized scalar quantization
-            const uint8_t v_qq = std::clamp<float>(
-                    std::round((v_q - v_min) * inv_delta), 0, max_code);
-            rotated_qq[i] = v_qq;
-            sum_qq += v_qq;
-            if (centered) {
-                int64_t signed_odd_int = int64_t(v_qq) * 2 - max_code;
-                sum2_signed_odd_int += signed_odd_int * signed_odd_int;
-            }
+    uint8_t* rqq = rotated_qq.data();
+    for (size_t i = 0; i < d; i++) {
+        const float v_q = rq[i];
+        const uint8_t v_qq = std::clamp<float>(
+                std::round((v_q - v_min) * inv_delta), 0, max_code);
+        rqq[i] = v_qq;
+        sum_qq += v_qq;
+        if (centered) {
+            int64_t signed_odd_int = int64_t(v_qq) * 2 - max_code;
+            sum2_signed_odd_int += signed_odd_int * signed_odd_int;
         }
-    } else {
-        FAISS_THROW_MSG(
-                "Arrays unexpectedly empty when d=" + std::to_string(d) +
-                "or d is incorrectly set");
     }
     // Compute query factors
@@ -240,10 +241,18 @@ QueryFactorsData compute_query_factors(
         query_factors.int_dot_scale = 1.0f;
     }
-    // Compute query norm for inner product metric
+    // Compute query norm for inner product metric.
+    // When centroid is nullptr (IVF residual path), qr_to_c_L2sqr already
+    // holds fvec_norm_L2sqr(query, d) from line 164, so reuse it.
     query_factors.qr_norm_L2sqr = 0.0f;
+    query_factors.q_dot_c = 0.0f;
     if (metric_type == MetricType::METRIC_INNER_PRODUCT) {
-        query_factors.qr_norm_L2sqr = fvec_norm_L2sqr(query, d);
+        query_factors.qr_norm_L2sqr = (centroid == nullptr)
+                ? query_factors.qr_to_c_L2sqr
+                : fvec_norm_L2sqr(query, d);
+        if (centroid != nullptr) {
+            query_factors.q_dot_c = fvec_inner_product(query, centroid, d);
+        }
     }
     return query_factors;
@@ -290,5 +299,94 @@ void set_bit_fastscan(uint8_t* code, size_t bit_index) {
     }
 }
+size_t compute_per_vector_storage_size(size_t nb_bits, size_t d) {
+    const size_t ex_bits = nb_bits - 1;
+    if (ex_bits == 0) {
+        return sizeof(SignBitFactors);
+    } else {
+        return sizeof(SignBitFactorsWithError) + sizeof(ExtraBitsFactors) +
+                (d * ex_bits + 7) / 8;
+    }
+}
+// Non-template wrapper with dynamic dispatch (one dispatch per call).
+// The hot path in RaBitQuantizer dispatches once at distance computer
+// construction, so per-vector dispatch only affects this utility path.
+float compute_full_multibit_distance(
+        const uint8_t* sign_bits,
+        const uint8_t* ex_code,
+        const ExtraBitsFactors& ex_fac,
+        const float* rotated_q,
+        float qr_base,
+        size_t d,
+        size_t ex_bits,
+        MetricType metric_type) {
+    return with_selected_simd_levels<AVAILABLE_SIMD_LEVELS_A0>(
+            [&]<SIMDLevel SL>() {
+                return compute_full_multibit_distance<SL>(
+                        sign_bits,
+                        ex_code,
+                        ex_fac,
+                        rotated_q,
+                        qr_base,
+                        d,
+                        ex_bits,
+                        metric_type);
+            });
+}
+void populate_block_aux_from_flat_storage(
+        const std::vector<uint8_t>& flat_storage,
+        AlignedTable<uint8_t>& codes,
+        size_t num_vectors,
+        size_t bbs,
+        size_t M2,
+        size_t old_block_stride,
+        size_t new_block_stride,
+        size_t storage_size,
+        const int64_t* id_map) {
+    if (flat_storage.empty() || num_vectors == 0) {
+        return;
+    }
+    const size_t packed_block_size = ((M2 + 1) / 2) * bbs;
+    const size_t n_blocks = (num_vectors + bbs - 1) / bbs;
+    if (old_block_stride < new_block_stride) {
+        AlignedTable<uint8_t> old_data;
+        old_data.resize(codes.size());
+        memcpy(old_data.data(), codes.data(), codes.size());
+        codes.resize(n_blocks * new_block_stride);
+        memset(codes.data(), 0, n_blocks * new_block_stride);
+        for (size_t b = 0; b < n_blocks; b++) {
+            memcpy(codes.data() + b * new_block_stride,
+                   old_data.data() + b * old_block_stride,
+                   packed_block_size);
+        }
+    }
+    for (size_t offset = 0; offset < num_vectors; offset++) {
+        const int64_t global_id =
+                id_map ? id_map[offset] : static_cast<int64_t>(offset);
+        FAISS_THROW_IF_NOT_MSG(
+                global_id >= 0 &&
+                        static_cast<size_t>(global_id) * storage_size +
+                                        storage_size <=
+                                flat_storage.size(),
+                "global_id out of bounds for flat_storage during migration");
+        const uint8_t* src = flat_storage.data() + global_id * storage_size;
+        uint8_t* dst = get_block_aux_ptr(
+                codes.data(),
+                offset,
+                bbs,
+                packed_block_size,
+                new_block_stride,
+                storage_size);
+        memcpy(dst, src, storage_size);
+    }
+}
 } // namespace rabitq_utils
 } // namespace faiss