RubyGems - faiss - Versions diffs - 0.5.3 → 0.6.1 - Mend

faiss 0.5.3 → 0.6.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (379) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +12 -0
data/ext/faiss/ext.cpp +1 -1
data/ext/faiss/extconf.rb +4 -4
data/ext/faiss/index.cpp +63 -45
data/ext/faiss/index_binary.cpp +37 -27
data/ext/faiss/kmeans.cpp +9 -8
data/ext/faiss/pca_matrix.cpp +9 -7
data/ext/faiss/product_quantizer.cpp +13 -11
data/ext/faiss/utils.cpp +4 -2
data/ext/faiss/utils.h +4 -0
data/lib/faiss/version.rb +1 -1
data/lib/faiss.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +214 -82
data/vendor/faiss/faiss/AutoTune.h +14 -1
data/vendor/faiss/faiss/Clustering.cpp +97 -249
data/vendor/faiss/faiss/Clustering.h +18 -0
data/vendor/faiss/faiss/IVFlib.cpp +67 -44
data/vendor/faiss/faiss/Index.cpp +25 -12
data/vendor/faiss/faiss/Index.h +26 -4
data/vendor/faiss/faiss/Index2Layer.cpp +37 -53
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +68 -61
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.cpp +36 -34
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.h +4 -1
data/vendor/faiss/faiss/IndexBinary.cpp +6 -3
data/vendor/faiss/faiss/IndexBinary.h +4 -4
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +1 -1
data/vendor/faiss/faiss/IndexBinaryFlat.h +1 -1
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +4 -4
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +92 -95
data/vendor/faiss/faiss/IndexBinaryHNSW.h +9 -3
data/vendor/faiss/faiss/IndexBinaryHash.cpp +45 -236
data/vendor/faiss/faiss/IndexBinaryHash.h +6 -6
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +120 -414
data/vendor/faiss/faiss/IndexFastScan.cpp +105 -129
data/vendor/faiss/faiss/IndexFastScan.h +35 -24
data/vendor/faiss/faiss/IndexFlat.cpp +216 -152
data/vendor/faiss/faiss/IndexFlat.h +32 -14
data/vendor/faiss/faiss/IndexFlatCodes.cpp +88 -41
data/vendor/faiss/faiss/IndexFlatCodes.h +7 -1
data/vendor/faiss/faiss/IndexHNSW.cpp +299 -187
data/vendor/faiss/faiss/IndexHNSW.h +30 -14
data/vendor/faiss/faiss/IndexIDMap.cpp +26 -22
data/vendor/faiss/faiss/IndexIDMap.h +9 -7
data/vendor/faiss/faiss/IndexIVF.cpp +535 -405
data/vendor/faiss/faiss/IndexIVF.h +47 -16
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +77 -74
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.cpp +105 -99
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.h +6 -3
data/vendor/faiss/faiss/IndexIVFFastScan.cpp +379 -249
data/vendor/faiss/faiss/IndexIVFFastScan.h +65 -60
data/vendor/faiss/faiss/IndexIVFFlat.cpp +41 -124
data/vendor/faiss/faiss/IndexIVFFlat.h +32 -0
data/vendor/faiss/faiss/IndexIVFFlatPanorama.cpp +89 -138
data/vendor/faiss/faiss/IndexIVFFlatPanorama.h +3 -1
data/vendor/faiss/faiss/IndexIVFIndependentQuantizer.cpp +18 -15
data/vendor/faiss/faiss/IndexIVFPQ.cpp +77 -907
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +184 -122
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexIVFPQR.cpp +23 -18
data/vendor/faiss/faiss/IndexIVFRaBitQ.cpp +59 -60
data/vendor/faiss/faiss/IndexIVFRaBitQ.h +4 -3
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.cpp +564 -416
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.h +269 -111
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +41 -127
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +1 -1
data/vendor/faiss/faiss/IndexLSH.cpp +44 -25
data/vendor/faiss/faiss/IndexLattice.cpp +41 -36
data/vendor/faiss/faiss/IndexNNDescent.cpp +37 -21
data/vendor/faiss/faiss/IndexNNDescent.h +2 -2
data/vendor/faiss/faiss/IndexNSG.cpp +40 -23
data/vendor/faiss/faiss/IndexNSG.h +0 -2
data/vendor/faiss/faiss/IndexNeuralNetCodec.cpp +32 -12
data/vendor/faiss/faiss/IndexPQ.cpp +129 -213
data/vendor/faiss/faiss/IndexPQ.h +3 -2
data/vendor/faiss/faiss/IndexPQFastScan.cpp +20 -14
data/vendor/faiss/faiss/IndexPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexPreTransform.cpp +25 -18
data/vendor/faiss/faiss/IndexPreTransform.h +1 -1
data/vendor/faiss/faiss/IndexRaBitQ.cpp +31 -43
data/vendor/faiss/faiss/IndexRaBitQ.h +4 -3
data/vendor/faiss/faiss/IndexRaBitQFastScan.cpp +135 -317
data/vendor/faiss/faiss/IndexRaBitQFastScan.h +192 -34
data/vendor/faiss/faiss/IndexRefine.cpp +30 -55
data/vendor/faiss/faiss/IndexRefine.h +4 -4
data/vendor/faiss/faiss/IndexReplicas.cpp +6 -6
data/vendor/faiss/faiss/IndexRowwiseMinMax.cpp +15 -14
data/vendor/faiss/faiss/IndexRowwiseMinMax.h +1 -1
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +82 -14
data/vendor/faiss/faiss/IndexShards.cpp +13 -13
data/vendor/faiss/faiss/IndexShardsIVF.cpp +21 -15
data/vendor/faiss/faiss/MatrixStats.cpp +5 -4
data/vendor/faiss/faiss/MetaIndexes.cpp +19 -17
data/vendor/faiss/faiss/MetaIndexes.h +1 -1
data/vendor/faiss/faiss/MetricType.h +29 -6
data/vendor/faiss/faiss/SuperKMeans.cpp +656 -0
data/vendor/faiss/faiss/SuperKMeans.h +97 -0
data/vendor/faiss/faiss/VectorTransform.cpp +349 -141
data/vendor/faiss/faiss/VectorTransform.h +39 -16
data/vendor/faiss/faiss/build.cpp +23 -0
data/vendor/faiss/faiss/build.h +15 -0
data/vendor/faiss/faiss/clone_index.cpp +55 -51
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-avx2-inl.h +47 -47
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-inl.h +11 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-avx2-inl.h +38 -38
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-inl.h +11 -0
data/vendor/faiss/faiss/{cppcontrib/factory_tools.cpp → factory_tools.cpp} +6 -1
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +1 -1
data/vendor/faiss/faiss/gpu/GpuIndexCagra.h +6 -5
data/vendor/faiss/faiss/gpu/GpuResources.h +1 -1
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +9 -9
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +4 -3
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +46 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +56 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +78 -1
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +72 -0
data/vendor/faiss/faiss/gpu/test/TestUtils.h +23 -0
data/vendor/faiss/faiss/gpu/utils/CuvsFilterConvert.h +1 -1
data/vendor/faiss/faiss/gpu/utils/CuvsUtils.h +21 -10
data/vendor/faiss/faiss/gpu_metal/GpuIndexFlat.h +22 -0
data/vendor/faiss/faiss/gpu_metal/MetalCloner.h +35 -0
data/vendor/faiss/faiss/gpu_metal/MetalFlatKernels.h +40 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndex.h +51 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndexFlat.h +65 -0
data/vendor/faiss/faiss/gpu_metal/MetalKernels.h +66 -0
data/vendor/faiss/faiss/gpu_metal/MetalResources.h +79 -0
data/vendor/faiss/faiss/gpu_metal/StandardMetalResources.h +35 -0
data/vendor/faiss/faiss/impl/AdSampling.cpp +103 -0
data/vendor/faiss/faiss/impl/AdSampling.h +35 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +64 -34
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +1 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +10 -9
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +3 -28
data/vendor/faiss/faiss/impl/ClusteringHelpers.cpp +244 -0
data/vendor/faiss/faiss/impl/ClusteringHelpers.h +94 -0
data/vendor/faiss/faiss/impl/ClusteringInitialization.cpp +367 -0
data/vendor/faiss/faiss/impl/ClusteringInitialization.h +107 -0
data/vendor/faiss/faiss/impl/CodePacker.cpp +7 -3
data/vendor/faiss/faiss/impl/CodePacker.h +11 -3
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.cpp +83 -0
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.h +47 -0
data/vendor/faiss/faiss/impl/DistanceComputer.h +8 -8
data/vendor/faiss/faiss/impl/FaissAssert.h +64 -3
data/vendor/faiss/faiss/impl/FaissException.h +50 -3
data/vendor/faiss/faiss/impl/HNSW.cpp +117 -351
data/vendor/faiss/faiss/impl/HNSW.h +21 -40
data/vendor/faiss/faiss/impl/IDSelector.cpp +15 -11
data/vendor/faiss/faiss/impl/IDSelector.h +8 -8
data/vendor/faiss/faiss/impl/InvertedListScannerStats.h +26 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +114 -102
data/vendor/faiss/faiss/impl/NNDescent.cpp +63 -26
data/vendor/faiss/faiss/impl/NNDescent.h +6 -2
data/vendor/faiss/faiss/impl/NSG.cpp +44 -26
data/vendor/faiss/faiss/impl/NSG.h +20 -10
data/vendor/faiss/faiss/impl/Panorama.cpp +76 -52
data/vendor/faiss/faiss/impl/Panorama.h +265 -78
data/vendor/faiss/faiss/impl/PdxLayout.cpp +93 -0
data/vendor/faiss/faiss/impl/PdxLayout.h +41 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +62 -37
data/vendor/faiss/faiss/impl/PolysemousTraining.h +3 -3
data/vendor/faiss/faiss/impl/ProductAdditiveQuantizer.cpp +35 -35
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +21 -16
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +99 -80
data/vendor/faiss/faiss/impl/Quantizer.h +2 -2
data/vendor/faiss/faiss/impl/RaBitQUtils.cpp +135 -37
data/vendor/faiss/faiss/impl/RaBitQUtils.h +148 -21
data/vendor/faiss/faiss/impl/RaBitQuantizer.cpp +298 -301
data/vendor/faiss/faiss/impl/RaBitQuantizer.h +3 -10
data/vendor/faiss/faiss/impl/RaBitQuantizerMultiBit.cpp +15 -41
data/vendor/faiss/faiss/impl/RaBitQuantizerMultiBit.h +0 -4
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +40 -32
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +1 -1
data/vendor/faiss/faiss/impl/ResultHandler.h +218 -113
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +119 -2362
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +27 -3
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +14 -11
data/vendor/faiss/faiss/impl/VisitedTable.cpp +42 -0
data/vendor/faiss/faiss/impl/VisitedTable.h +76 -0
data/vendor/faiss/faiss/impl/approx_topk/approx_topk.h +276 -0
data/vendor/faiss/faiss/impl/approx_topk/avx2.cpp +68 -0
data/vendor/faiss/faiss/{utils → impl}/approx_topk/generic.h +15 -8
data/vendor/faiss/faiss/impl/approx_topk/neon.cpp +68 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab-inl.h +169 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab.h +117 -0
data/vendor/faiss/faiss/impl/approx_topk/simdlib256-inl.h +146 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHNSW_impl.h +73 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHash_impl.h +270 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryIVF_impl.h +460 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexIVFSpectralHash_impl.h +159 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexPQ_impl.h +92 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx2.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx512.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/dispatch.h +143 -0
data/vendor/faiss/faiss/impl/binary_hamming/neon.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/rvv.cpp +26 -0
data/vendor/faiss/faiss/impl/expanded_scanners.h +163 -0
data/vendor/faiss/faiss/impl/{FastScanDistancePostProcessing.h → fast_scan/FastScanDistancePostProcessing.h} +13 -6
data/vendor/faiss/faiss/impl/{LookupTableScaler.h → fast_scan/LookupTableScaler.h} +16 -5
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops.h +237 -0
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops_512.h +185 -0
data/vendor/faiss/faiss/impl/fast_scan/decompose_qbs.h +229 -0
data/vendor/faiss/faiss/impl/fast_scan/dispatching.h +268 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan.cpp → fast_scan/fast_scan.cpp} +176 -4
data/vendor/faiss/faiss/impl/fast_scan/fast_scan.h +341 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx2.cpp +36 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx512.cpp +40 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-neon.cpp +120 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-riscv.cpp +104 -0
data/vendor/faiss/faiss/impl/fast_scan/kernels_simd256.h +213 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan_search_qbs.cpp → fast_scan/kernels_simd512.h} +26 -348
data/vendor/faiss/faiss/impl/fast_scan/rabitq_dispatching.h +90 -0
data/vendor/faiss/faiss/impl/fast_scan/rabitq_result_handler.h +108 -0
data/vendor/faiss/faiss/impl/{simd_result_handlers.h → fast_scan/simd_result_handlers.h} +290 -142
data/vendor/faiss/faiss/impl/hnsw/LockVector.cpp +54 -0
data/vendor/faiss/faiss/impl/hnsw/LockVector.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.cpp +91 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/avx2.cpp +104 -0
data/vendor/faiss/faiss/impl/hnsw/avx512.cpp +111 -0
data/vendor/faiss/faiss/impl/index_read.cpp +1950 -505
data/vendor/faiss/faiss/impl/index_read_utils.h +1 -2
data/vendor/faiss/faiss/impl/index_write.cpp +112 -21
data/vendor/faiss/faiss/impl/io.cpp +6 -6
data/vendor/faiss/faiss/impl/io_macros.h +33 -16
data/vendor/faiss/faiss/impl/kmeans1d.cpp +10 -10
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +81 -40
data/vendor/faiss/faiss/impl/lattice_Zn.h +6 -6
data/vendor/faiss/faiss/impl/mapped_io.cpp +15 -8
data/vendor/faiss/faiss/impl/platform_macros.h +11 -4
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQScanner_impl.h +549 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.cpp +245 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.h +105 -0
data/vendor/faiss/faiss/impl/pq_code_distance/PQDistanceComputer_impl.h +106 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx2.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx512.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/neon.cpp +21 -0
data/vendor/faiss/faiss/impl/{code_distance/code_distance-avx2.h → pq_code_distance/pq_code_distance-avx2.h} +43 -220
data/vendor/faiss/faiss/impl/{code_distance/code_distance-avx512.h → pq_code_distance/pq_code_distance-avx512.h} +25 -112
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.cpp +59 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.h +96 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-inl.h +256 -0
data/vendor/faiss/faiss/impl/{code_distance/code_distance-sve.h → pq_code_distance/pq_code_distance-sve.cpp} +57 -146
data/vendor/faiss/faiss/impl/pq_code_distance/rvv.cpp +68 -0
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.cpp +320 -483
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.h +1 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/codecs.h +121 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/distance_computers.h +137 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/quantizers.h +371 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/scanners.h +190 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/similarities.h +94 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx2.cpp +603 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx512.cpp +597 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-dispatch.h +388 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-neon.cpp +630 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-rvv.cpp +311 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.cpp +387 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.h +54 -0
data/vendor/faiss/faiss/impl/simd_dispatch.h +173 -0
data/vendor/faiss/faiss/impl/simdlib/simdlib.h +57 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_avx2.h +274 -171
data/vendor/faiss/faiss/impl/simdlib/simdlib_avx512.h +414 -0
data/vendor/faiss/faiss/impl/simdlib/simdlib_dispatch.h +44 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_emulated.h +231 -166
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_neon.h +275 -217
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_ppc64.h +201 -160
data/vendor/faiss/faiss/impl/svs_io.cpp +12 -3
data/vendor/faiss/faiss/impl/svs_io.h +8 -2
data/vendor/faiss/faiss/index_factory.cpp +115 -28
data/vendor/faiss/faiss/index_io.h +53 -3
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +73 -20
data/vendor/faiss/faiss/invlists/DirectMap.cpp +24 -14
data/vendor/faiss/faiss/invlists/DirectMap.h +4 -3
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +157 -73
data/vendor/faiss/faiss/invlists/InvertedLists.h +86 -23
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +4 -4
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +14 -14
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSFaissUtils.h +9 -19
data/vendor/faiss/faiss/svs/IndexSVSFlat.cpp +2 -2
data/vendor/faiss/faiss/svs/IndexSVSFlat.h +2 -0
data/vendor/faiss/faiss/svs/IndexSVSIVF.cpp +350 -0
data/vendor/faiss/faiss/svs/IndexSVSIVF.h +128 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.cpp +40 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.h +43 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.cpp +225 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.h +71 -0
data/vendor/faiss/faiss/svs/IndexSVSVamana.cpp +25 -1
data/vendor/faiss/faiss/svs/IndexSVSVamana.h +19 -2
data/vendor/faiss/faiss/svs/IndexSVSVamanaLVQ.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.cpp +19 -2
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.h +14 -0
data/vendor/faiss/faiss/utils/Heap.cpp +56 -10
data/vendor/faiss/faiss/utils/Heap.h +21 -0
data/vendor/faiss/faiss/utils/NeuralNet.cpp +54 -40
data/vendor/faiss/faiss/utils/NeuralNet.h +1 -1
data/vendor/faiss/faiss/utils/approx_topk_hamming/approx_topk_hamming.h +10 -4
data/vendor/faiss/faiss/utils/distances.cpp +507 -559
data/vendor/faiss/faiss/utils/distances.h +118 -1
data/vendor/faiss/faiss/utils/distances_dispatch.h +250 -0
data/vendor/faiss/faiss/utils/distances_fused/avx512.cpp +8 -7
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.cpp +33 -14
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.h +12 -1
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based.cpp +16 -293
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based_neon.cpp +57 -0
data/vendor/faiss/faiss/utils/distances_fused/simdlib_kernel-inl.h +290 -0
data/vendor/faiss/faiss/utils/distances_simd.cpp +72 -3681
data/vendor/faiss/faiss/utils/extra_distances.cpp +60 -102
data/vendor/faiss/faiss/utils/extra_distances.h +79 -7
data/vendor/faiss/faiss/utils/hamming-inl.h +13 -11
data/vendor/faiss/faiss/utils/hamming.cpp +66 -517
data/vendor/faiss/faiss/utils/hamming.h +92 -2
data/vendor/faiss/faiss/utils/hamming_distance/common.h +287 -10
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx2.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx512.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx2.h +142 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx512.h +234 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-generic.h +368 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-neon.h +322 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-rvv.h +39 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer.h +146 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_neon.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_rvv.cpp +15 -0
data/vendor/faiss/faiss/utils/partitioning.cpp +66 -987
data/vendor/faiss/faiss/utils/partitioning.h +31 -0
data/vendor/faiss/faiss/utils/popcount.h +29 -0
data/vendor/faiss/faiss/utils/pq_code_distance.h +251 -0
data/vendor/faiss/faiss/utils/prefetch.h +2 -2
data/vendor/faiss/faiss/utils/quantize_lut.cpp +30 -30
data/vendor/faiss/faiss/utils/quantize_lut.h +1 -1
data/vendor/faiss/faiss/utils/rabitq_simd.h +124 -343
data/vendor/faiss/faiss/utils/random.cpp +6 -6
data/vendor/faiss/faiss/utils/simd_impl/IVFFlatScanner-inl.h +51 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_aarch64.cpp +154 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_arm_sve.cpp +777 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_autovec-inl.h +306 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_avx2.cpp +1431 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_avx512.cpp +1095 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_rvv.cpp +189 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_simdlib256.h +195 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_sse-inl.h +392 -0
data/vendor/faiss/faiss/utils/{distances_fused/simdlib_based.h → simd_impl/exhaustive_L2sqr_blas_cmax.h} +5 -10
data/vendor/faiss/faiss/utils/simd_impl/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_avx2.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_neon.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_simdlib256.h +1085 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx2.cpp +355 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx512.cpp +477 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_neon.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_rvv.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_dispatch.h +32 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels.h +43 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx2.cpp +57 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx512.cpp +45 -0
data/vendor/faiss/faiss/utils/simd_levels.cpp +334 -0
data/vendor/faiss/faiss/utils/simd_levels.h +183 -0
data/vendor/faiss/faiss/utils/sorting.cpp +48 -36
data/vendor/faiss/faiss/utils/utils.cpp +21 -14
data/vendor/faiss/faiss/utils/utils.h +3 -3
metadata +156 -42
data/vendor/faiss/faiss/impl/RaBitQStats.cpp +0 -29
data/vendor/faiss/faiss/impl/RaBitQStats.h +0 -56
data/vendor/faiss/faiss/impl/code_distance/code_distance-generic.h +0 -81
data/vendor/faiss/faiss/impl/code_distance/code_distance.h +0 -186
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +0 -216
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +0 -224
data/vendor/faiss/faiss/utils/approx_topk/approx_topk.h +0 -84
data/vendor/faiss/faiss/utils/approx_topk/avx2-inl.h +0 -196
data/vendor/faiss/faiss/utils/approx_topk/mode.h +0 -34
data/vendor/faiss/faiss/utils/distances_fused/avx512.h +0 -36
data/vendor/faiss/faiss/utils/extra_distances-inl.h +0 -228
data/vendor/faiss/faiss/utils/hamming_distance/avx2-inl.h +0 -462
data/vendor/faiss/faiss/utils/hamming_distance/avx512-inl.h +0 -490
data/vendor/faiss/faiss/utils/hamming_distance/generic-inl.h +0 -450
data/vendor/faiss/faiss/utils/hamming_distance/hamdis-inl.h +0 -87
data/vendor/faiss/faiss/utils/hamming_distance/neon-inl.h +0 -524
data/vendor/faiss/faiss/utils/simdlib.h +0 -42
data/vendor/faiss/faiss/utils/simdlib_avx512.h +0 -296
/data/vendor/faiss/faiss/{cppcontrib/factory_tools.h → factory_tools.h} +0 -0

data/vendor/faiss/faiss/utils/rabitq_simd.h CHANGED Viewed

@@ -9,417 +9,198 @@
 #include <cstddef>
 #include <cstdint>
+#include <cstring>
-// Only include x86 SIMD intrinsics on x86/x86_64 architectures
-#if defined(__x86_64__) || defined(_M_X64) || defined(__i386__) || \
-        defined(_M_IX86)
-#include <immintrin.h>
-#endif // defined(__x86_64__) || defined(_M_X64) || defined(__i386__) ||
+#include <faiss/utils/popcount.h>
+#include <faiss/utils/simd_levels.h>
 namespace faiss::rabitq {
-#if defined(__x86_64__) || defined(_M_X64) || defined(__i386__) || \
-        defined(_M_IX86)
 /**
- * Returns the lookup table for AVX512 popcount operations.
- * This table is used for lookup-based popcount implementation.
+ * Compute dot product between query and binary data using popcount on AND.
  *
- * Source: https://github.com/WojciechMula/sse-popcount.
- *
- * @return Lookup table as __m512i register
- */
-#if defined(__AVX512F__)
-inline __m512i get_lookup_512() {
-    return _mm512_set_epi8(
-            /* f */ 4,
-            /* e */ 3,
-            /* d */ 3,
-            /* c */ 2,
-            /* b */ 3,
-            /* a */ 2,
-            /* 9 */ 2,
-            /* 8 */ 1,
-            /* 7 */ 3,
-            /* 6 */ 2,
-            /* 5 */ 2,
-            /* 4 */ 1,
-            /* 3 */ 2,
-            /* 2 */ 1,
-            /* 1 */ 1,
-            /* 0 */ 0,
-            /* f */ 4,
-            /* e */ 3,
-            /* d */ 3,
-            /* c */ 2,
-            /* b */ 3,
-            /* a */ 2,
-            /* 9 */ 2,
-            /* 8 */ 1,
-            /* 7 */ 3,
-            /* 6 */ 2,
-            /* 5 */ 2,
-            /* 4 */ 1,
-            /* 3 */ 2,
-            /* 2 */ 1,
-            /* 1 */ 1,
-            /* 0 */ 0,
-            /* f */ 4,
-            /* e */ 3,
-            /* d */ 3,
-            /* c */ 2,
-            /* b */ 3,
-            /* a */ 2,
-            /* 9 */ 2,
-            /* 8 */ 1,
-            /* 7 */ 3,
-            /* 6 */ 2,
-            /* 5 */ 2,
-            /* 4 */ 1,
-            /* 3 */ 2,
-            /* 2 */ 1,
-            /* 1 */ 1,
-            /* 0 */ 0,
-            /* f */ 4,
-            /* e */ 3,
-            /* d */ 3,
-            /* c */ 2,
-            /* b */ 3,
-            /* a */ 2,
-            /* 9 */ 2,
-            /* 8 */ 1,
-            /* 7 */ 3,
-            /* 6 */ 2,
-            /* 5 */ 2,
-            /* 4 */ 1,
-            /* 3 */ 2,
-            /* 2 */ 1,
-            /* 1 */ 1,
-            /* 0 */ 0);
-}
-#endif // defined(__AVX512F__)
-#if defined(__AVX2__)
-/**
- * Returns the lookup table for AVX2 popcount operations.
- * This table is used for lookup-based popcount implementation.
- *
- * @return Lookup table as __m256i register
+ * @param query   Pointer to rearranged rotated query data
+ * @param data    Pointer to binary data
+ * @param size    Size in bytes
+ * @param qb      Number of quantization bits
+ * @return        Unsigned integer dot product
  */
-inline __m256i get_lookup_256() {
-    return _mm256_setr_epi8(
-            /* 0 */ 0,
-            /* 1 */ 1,
-            /* 2 */ 1,
-            /* 3 */ 2,
-            /* 4 */ 1,
-            /* 5 */ 2,
-            /* 6 */ 2,
-            /* 7 */ 3,
-            /* 8 */ 1,
-            /* 9 */ 2,
-            /* a */ 2,
-            /* b */ 3,
-            /* c */ 2,
-            /* d */ 3,
-            /* e */ 3,
-            /* f */ 4,
-            /* 0 */ 0,
-            /* 1 */ 1,
-            /* 2 */ 1,
-            /* 3 */ 2,
-            /* 4 */ 1,
-            /* 5 */ 2,
-            /* 6 */ 2,
-            /* 7 */ 3,
-            /* 8 */ 1,
-            /* 9 */ 2,
-            /* a */ 2,
-            /* b */ 3,
-            /* c */ 2,
-            /* d */ 3,
-            /* e */ 3,
-            /* f */ 4);
-}
-#endif // defined(__AVX2__)
+template <SIMDLevel SL = SINGLE_SIMD_LEVEL>
+uint64_t bitwise_and_dot_product(
+        const uint8_t* query,
+        const uint8_t* data,
+        size_t size,
+        size_t qb);
-#if defined(__AVX512F__)
 /**
- * Popcount for a 512-bit register, using lookup tables if necessary.
+ * Compute dot product between query and binary data using popcount on XOR.
  *
- * @param v Input vector to count bits in
- * @return Vector int32_t[16] with popcount results.
+ * @param query   Pointer to rearranged rotated query data
+ * @param data    Pointer to binary data
+ * @param size    Size in bytes
+ * @param qb      Number of quantization bits
+ * @return        Unsigned integer dot product
  */
-inline __m512i popcount_512(__m512i v) {
-#if defined(__AVX512VPOPCNTDQ__)
-    return _mm512_popcnt_epi64(v);
-#else
-    const __m512i lookup = get_lookup_512();
-    const __m512i low_mask = _mm512_set1_epi8(0x0f);
-    const __m512i lo = _mm512_and_si512(v, low_mask);
-    const __m512i hi = _mm512_and_si512(_mm512_srli_epi16(v, 4), low_mask);
-    const __m512i popcnt_lo = _mm512_shuffle_epi8(lookup, lo);
-    const __m512i popcnt_hi = _mm512_shuffle_epi8(lookup, hi);
-    const __m512i popcnt = _mm512_add_epi8(popcnt_lo, popcnt_hi);
-    return _mm512_sad_epu8(_mm512_setzero_si512(), popcnt);
-#endif // defined(__AVX512VPOPCNTDQ__)
-}
-#endif // defined(__AVX512F__)
+template <SIMDLevel SL = SINGLE_SIMD_LEVEL>
+uint64_t bitwise_xor_dot_product(
+        const uint8_t* query,
+        const uint8_t* data,
+        size_t size,
+        size_t qb);
-#if defined(__AVX2__)
 /**
- * Popcount for a 256-bit register, using lookup tables if necessary.
+ * Count total set bits in data.
  *
- * @param v Input vector to count bits in
- * @return uint64_t[4] of popcounts for each portion of the input vector.
+ * @param data    Pointer to binary data
+ * @param size    Size in bytes
+ * @return        Total popcount
  */
-inline __m256i popcount_256(__m256i v) {
-    const __m256i lookup = get_lookup_256();
-    const __m256i low_mask = _mm256_set1_epi8(0x0f);
-    const __m256i lo = _mm256_and_si256(v, low_mask);
-    const __m256i hi = _mm256_and_si256(_mm256_srli_epi16(v, 4), low_mask);
-    const __m256i popcnt_lo = _mm256_shuffle_epi8(lookup, lo);
-    const __m256i popcnt_hi = _mm256_shuffle_epi8(lookup, hi);
-    const __m256i popcnt = _mm256_add_epi8(popcnt_lo, popcnt_hi);
-    // Reduce uint8_t[32] into uint64_t[4] by addition.
-    return _mm256_sad_epu8(_mm256_setzero_si256(), popcnt);
-}
-inline uint64_t reduce_add_256(__m256i v) {
-    alignas(32) uint64_t lanes[4];
-    _mm256_store_si256((__m256i*)lanes, v);
-    return lanes[0] + lanes[1] + lanes[2] + lanes[3];
-}
-#endif // defined(__AVX2__)
-#if defined(__SSE4_1__)
-inline __m128i popcount_128(__m128i v) {
-    // Scalar popcount for each 64-bit lane
-    uint64_t lane0 = _mm_extract_epi64(v, 0);
-    uint64_t lane1 = _mm_extract_epi64(v, 1);
-    uint64_t pop0 = __builtin_popcountll(lane0);
-    uint64_t pop1 = __builtin_popcountll(lane1);
-    return _mm_set_epi64x(pop1, pop0);
-}
+template <SIMDLevel SL = SINGLE_SIMD_LEVEL>
+uint64_t popcount(const uint8_t* data, size_t size);
-inline uint64_t reduce_add_128(__m128i v) {
-    alignas(16) uint64_t lanes[2];
-    _mm_store_si128((__m128i*)lanes, v);
-    return lanes[0] + lanes[1];
-}
-#endif // defined(__SSE4_1__)
-#endif // defined(__x86_64__) || defined(_M_X64) || defined(__i386__) ||
+// NONE specializations — scalar fallbacks
-/**
- * Compute dot product between query and binary data using popcount operations.
- *
- * @param query          Pointer to rearranged rotated query data
- * @param data    Pointer to binary data
- * @param d              Dimension
- * @param qb             Number of quantization bits
- * @return               Unsigned integer dot product
- */
-inline uint64_t bitwise_and_dot_product(
+template <>
+inline uint64_t bitwise_and_dot_product<SIMDLevel::NONE>(
         const uint8_t* query,
         const uint8_t* data,
         size_t size,
         size_t qb) {
     uint64_t sum = 0;
     size_t offset = 0;
-#if defined(__AVX512F__)
-    // Handle 512-bit chunks.
-    if (size_t step = 512 / 8; offset + step <= size) {
-        __m512i sum_512 = _mm512_setzero_si512();
-        for (; offset + step <= size; offset += step) {
-            __m512i v_x = _mm512_loadu_si512((const __m512i*)(data + offset));
-            for (int j = 0; j < qb; j++) {
-                __m512i v_q = _mm512_loadu_si512(
-                        (const __m512i*)(query + j * size + offset));
-                __m512i v_and = _mm512_and_si512(v_q, v_x);
-                __m512i v_popcnt = popcount_512(v_and);
-                __m512i v_shifted = _mm512_slli_epi64(v_popcnt, j);
-                sum_512 = _mm512_add_epi64(sum_512, v_shifted);
-            }
-        }
-        sum += _mm512_reduce_add_epi64(sum_512);
-    }
-#endif // defined(__AVX512F__)
-#if defined(__AVX2__)
-    if (size_t step = 256 / 8; offset + step <= size) {
-        __m256i sum_256 = _mm256_setzero_si256();
-        for (; offset + step <= size; offset += step) {
-            __m256i v_x = _mm256_loadu_si256((const __m256i*)(data + offset));
-            for (int j = 0; j < qb; j++) {
-                __m256i v_q = _mm256_loadu_si256(
-                        (const __m256i*)(query + j * size + offset));
-                __m256i v_and = _mm256_and_si256(v_q, v_x);
-                __m256i v_popcnt = popcount_256(v_and);
-                __m256i v_shifted = _mm256_slli_epi64(v_popcnt, j);
-                sum_256 = _mm256_add_epi64(sum_256, v_shifted);
-            }
-        }
-        sum += reduce_add_256(sum_256);
-    }
-#endif // defined(__AVX2__)
-#if defined(__SSE4_1__)
-    __m128i sum_128 = _mm_setzero_si128();
-    for (size_t step = 128 / 8; offset + step <= size; offset += step) {
-        __m128i v_x = _mm_loadu_si128((const __m128i*)(data + offset));
-        for (int j = 0; j < qb; j++) {
-            __m128i v_q = _mm_loadu_si128(
-                    (const __m128i*)(query + j * size + offset));
-            __m128i v_and = _mm_and_si128(v_q, v_x);
-            __m128i v_popcnt = popcount_128(v_and);
-            __m128i v_shifted = _mm_slli_epi64(v_popcnt, j);
-            sum_128 = _mm_add_epi64(sum_128, v_shifted);
-        }
-    }
-    sum += reduce_add_128(sum_128);
-#endif // defined(__SSE4_1__)
     for (size_t step = 64 / 8; offset + step <= size; offset += step) {
         const auto yv = *(const uint64_t*)(data + offset);
         for (int j = 0; j < qb; j++) {
             const auto qv = *(const uint64_t*)(query + j * size + offset);
-            sum += __builtin_popcountll(qv & yv) << j;
+            sum += popcount64(qv & yv) << j;
         }
     }
     for (; offset < size; ++offset) {
         const auto yv = *(data + offset);
         for (int j = 0; j < qb; j++) {
             const auto qv = *(query + j * size + offset);
-            sum += __builtin_popcount(qv & yv) << j;
+            sum += popcount32(qv & yv) << j;
         }
     }
     return sum;
 }
-/**
- * Compute dot product between query and binary data using popcount operations.
- *
- * @param query          Pointer to rearranged rotated query data
- * @param data    Pointer to binary data
- * @param d              Dimension
- * @param qb             Number of quantization bits
- * @return               Unsigned integer dot product
- */
-inline uint64_t bitwise_xor_dot_product(
+template <>
+inline uint64_t bitwise_xor_dot_product<SIMDLevel::NONE>(
         const uint8_t* query,
         const uint8_t* data,
         size_t size,
         size_t qb) {
     uint64_t sum = 0;
     size_t offset = 0;
-#if defined(__AVX512F__)
-    // Handle 512-bit chunks.
-    if (size_t step = 512 / 8; offset + step <= size) {
-        __m512i sum_512 = _mm512_setzero_si512();
-        for (; offset + step <= size; offset += step) {
-            __m512i v_x = _mm512_loadu_si512((const __m512i*)(data + offset));
-            for (int j = 0; j < qb; j++) {
-                __m512i v_q = _mm512_loadu_si512(
-                        (const __m512i*)(query + j * size + offset));
-                __m512i v_xor = _mm512_xor_si512(v_q, v_x);
-                __m512i v_popcnt = popcount_512(v_xor);
-                __m512i v_shifted = _mm512_slli_epi64(v_popcnt, j);
-                sum_512 = _mm512_add_epi64(sum_512, v_shifted);
-            }
-        }
-        sum += _mm512_reduce_add_epi64(sum_512);
-    }
-#endif
-#if defined(__AVX2__)
-    if (size_t step = 256 / 8; offset + step <= size) {
-        __m256i sum_256 = _mm256_setzero_si256();
-        for (; offset + step <= size; offset += step) {
-            __m256i v_x = _mm256_loadu_si256((const __m256i*)(data + offset));
-            for (int j = 0; j < qb; j++) {
-                __m256i v_q = _mm256_loadu_si256(
-                        (const __m256i*)(query + j * size + offset));
-                __m256i v_xor = _mm256_xor_si256(v_q, v_x);
-                __m256i v_popcnt = popcount_256(v_xor);
-                __m256i v_shifted = _mm256_slli_epi64(v_popcnt, j);
-                sum_256 = _mm256_add_epi64(sum_256, v_shifted);
-            }
-        }
-        sum += reduce_add_256(sum_256);
-    }
-#endif
-#if defined(__SSE4_1__)
-    __m128i sum_128 = _mm_setzero_si128();
-    for (size_t step = 128 / 8; offset + step <= size; offset += step) {
-        __m128i v_x = _mm_loadu_si128((const __m128i*)(data + offset));
-        for (int j = 0; j < qb; j++) {
-            __m128i v_q = _mm_loadu_si128(
-                    (const __m128i*)(query + j * size + offset));
-            __m128i v_xor = _mm_xor_si128(v_q, v_x);
-            __m128i v_popcnt = popcount_128(v_xor);
-            __m128i v_shifted = _mm_slli_epi64(v_popcnt, j);
-            sum_128 = _mm_add_epi64(sum_128, v_shifted);
-        }
-    }
-    sum += reduce_add_128(sum_128);
-#endif
     for (size_t step = 64 / 8; offset + step <= size; offset += step) {
         const auto yv = *(const uint64_t*)(data + offset);
         for (int j = 0; j < qb; j++) {
             const auto qv = *(const uint64_t*)(query + j * size + offset);
-            sum += __builtin_popcountll(qv ^ yv) << j;
+            sum += popcount64(qv ^ yv) << j;
         }
     }
     for (; offset < size; ++offset) {
         const auto yv = *(data + offset);
         for (int j = 0; j < qb; j++) {
             const auto qv = *(query + j * size + offset);
-            sum += __builtin_popcount(qv ^ yv) << j;
+            sum += popcount32(qv ^ yv) << j;
         }
     }
     return sum;
 }
-inline uint64_t popcount(const uint8_t* data, size_t size) {
+template <>
+inline uint64_t popcount<SIMDLevel::NONE>(const uint8_t* data, size_t size) {
     uint64_t sum = 0;
     size_t offset = 0;
-#if defined(__AVX512F__)
-    // Handle 512-bit chunks.
-    if (offset + 512 / 8 <= size) {
-        __m512i sum_512 = _mm512_setzero_si512();
-        for (size_t end; (end = offset + 512 / 8) <= size; offset = end) {
-            __m512i v_x = _mm512_loadu_si512((const __m512i*)(data + offset));
-            __m512i v_popcnt = popcount_512(v_x);
-            sum_512 = _mm512_add_epi64(sum_512, v_popcnt);
-        }
-        sum += _mm512_reduce_add_epi64(sum_512);
-    }
-#endif // defined(__AVX512F__)
-#if defined(__AVX2__)
-    if (offset + 256 / 8 <= size) {
-        __m256i sum_256 = _mm256_setzero_si256();
-        for (size_t end; (end = offset + 256 / 8) <= size; offset = end) {
-            __m256i v_x = _mm256_loadu_si256((const __m256i*)(data + offset));
-            __m256i v_popcnt = popcount_256(v_x);
-            sum_256 = _mm256_add_epi64(sum_256, v_popcnt);
-        }
-        sum += reduce_add_256(sum_256);
-    }
-#endif // defined(__AVX2__)
-#if defined(__SSE4_1__)
-    __m128i sum_128 = _mm_setzero_si128();
-    for (size_t step = 128 / 8; offset + step <= size; offset += step) {
-        __m128i v_x = _mm_loadu_si128((const __m128i*)(data + offset));
-        sum_128 = _mm_add_epi64(sum_128, popcount_128(v_x));
-    }
-    sum += reduce_add_128(sum_128);
-#endif // defined(__SSE4_1__)
     for (size_t step = 64 / 8; offset + step <= size; offset += step) {
         const auto yv = *(const uint64_t*)(data + offset);
-        sum += __builtin_popcountll(yv);
+        sum += popcount64(yv);
     }
     for (; offset < size; ++offset) {
         const auto yv = *(data + offset);
-        sum += __builtin_popcount(yv);
+        sum += popcount32(yv);
     }
     return sum;
 }
 } // namespace faiss::rabitq
+/*********************************************************
+ * Multi-bit RaBitQ inner product kernels.
+ *
+ * Compute: sum_i rotated_q[i] * ((sign_bit_i << ex_bits) + ex_code_val_i + cb)
+ *
+ * Strategy:
+ *   ex_bits == 1: Specialized kernel — both sign_bits and ex_code are
+ *                 1-bit-per-dim packed, enabling direct bit→mask→float
+ *                 conversion with zero per-element extraction.
+ *   ex_bits >= 2: Bit-plane decomposition (BMI2 required) — PEXT extracts
+ *                 each bit plane in one instruction, then the same
+ *                 bit→mask→float kernel computes each plane's dot product.
+ *   Fallback:     Scalar extraction via 64-bit window read + shift + mask.
+ *********************************************************/
+namespace faiss::rabitq::multibit {
+/// Scalar inner product for multi-bit RaBitQ.
+/// Extracts each code value in O(1) via 64-bit window read + shift + mask.
+/// Also serves as the tail handler for SIMD kernels via the @p start parameter.
+inline float ip_scalar(
+        const uint8_t* __restrict sign_bits,
+        const uint8_t* __restrict ex_code,
+        const float* __restrict rotated_q,
+        size_t start,
+        size_t d,
+        size_t ex_bits,
+        float cb) {
+    float result = 0.0f;
+    const int sign_shift = static_cast<int>(ex_bits);
+    const uint64_t code_mask = (1ULL << ex_bits) - 1;
+    for (size_t i = start; i < d; i++) {
+        int sb = (sign_bits[i / 8] >> (i % 8)) & 1;
+        size_t bit_pos = i * ex_bits;
+        size_t byte_idx = bit_pos / 8;
+        size_t bit_offset = bit_pos % 8;
+        uint64_t raw = 0;
+        memcpy(&raw, ex_code + byte_idx, sizeof(uint64_t));
+        int ex_val = static_cast<int>((raw >> bit_offset) & code_mask);
+        result += rotated_q[i] *
+                (static_cast<float>((sb << sign_shift) + ex_val) + cb);
+    }
+    return result;
+}
+/**
+ * Dispatch to the best available kernel for the given ex_bits.
+ *
+ * @param sign_bits  packed sign bits (1 bit/dim, standard byte packing)
+ * @param ex_code    packed extra-bit codes (ex_bits bits/dim)
+ * @param rotated_q  rotated query vector (float[d])
+ * @param d          dimensionality
+ * @param ex_bits    number of extra bits per dimension (nb_bits - 1)
+ * @param cb         constant bias: -(2^ex_bits - 0.5)
+ * @return           inner product value
+ */
+template <SIMDLevel SL = SINGLE_SIMD_LEVEL>
+float compute_inner_product(
+        const uint8_t* __restrict sign_bits,
+        const uint8_t* __restrict ex_code,
+        const float* __restrict rotated_q,
+        size_t d,
+        size_t ex_bits,
+        float cb);
+// NONE specialization — pure scalar
+template <>
+inline float compute_inner_product<SIMDLevel::NONE>(
+        const uint8_t* __restrict sign_bits,
+        const uint8_t* __restrict ex_code,
+        const float* __restrict rotated_q,
+        size_t d,
+        size_t ex_bits,
+        float cb) {
+    return ip_scalar(sign_bits, ex_code, rotated_q, 0, d, ex_bits, cb);
+}
+} // namespace faiss::rabitq::multibit

data/vendor/faiss/faiss/utils/random.cpp CHANGED Viewed

@@ -100,7 +100,7 @@ void float_rand(float* x, size_t n, int64_t seed) {
     int a0 = rng0.rand_int(), b0 = rng0.rand_int();
 #pragma omp parallel for
-    for (int64_t j = 0; j < nblock; j++) {
+    for (int64_t j = 0; j < static_cast<int64_t>(nblock); j++) {
         RandomGenerator rng(a0 + j * b0);
         const size_t istart = j * n / nblock;
@@ -120,7 +120,7 @@ void float_randn(float* x, size_t n, int64_t seed) {
     int a0 = rng0.rand_int(), b0 = rng0.rand_int();
 #pragma omp parallel for
-    for (int64_t j = 0; j < nblock; j++) {
+    for (int64_t j = 0; j < static_cast<int64_t>(nblock); j++) {
         RandomGenerator rng(a0 + j * b0);
         double a = 0, b = 0, s = 0;
@@ -155,7 +155,7 @@ void int64_rand(int64_t* x, size_t n, int64_t seed) {
     int a0 = rng0.rand_int(), b0 = rng0.rand_int();
 #pragma omp parallel for
-    for (int64_t j = 0; j < nblock; j++) {
+    for (int64_t j = 0; j < static_cast<int64_t>(nblock); j++) {
         RandomGenerator rng(a0 + j * b0);
         const size_t istart = j * n / nblock;
@@ -174,7 +174,7 @@ void int64_rand_max(int64_t* x, size_t n, uint64_t max, int64_t seed) {
     int a0 = rng0.rand_int(), b0 = rng0.rand_int();
 #pragma omp parallel for
-    for (int64_t j = 0; j < nblock; j++) {
+    for (int64_t j = 0; j < static_cast<int64_t>(nblock); j++) {
         RandomGenerator rng(a0 + j * b0);
         const size_t istart = j * n / nblock;
@@ -219,7 +219,7 @@ void byte_rand(uint8_t* x, size_t n, int64_t seed) {
     int a0 = rng0.rand_int(), b0 = rng0.rand_int();
 #pragma omp parallel for
-    for (int64_t j = 0; j < nblock; j++) {
+    for (int64_t j = 0; j < static_cast<int64_t>(nblock); j++) {
         RandomGenerator rng(a0 + j * b0);
         const size_t istart = j * n / nblock;
@@ -261,7 +261,7 @@ void rand_smooth_vectors(size_t n, size_t d, float* x, int64_t seed) {
     float_rand(scales.data(), d, seed + 2);
 #pragma omp parallel for if (n * d > 10000)
-    for (int64_t i = 0; i < n; i++) {
+    for (int64_t i = 0; i < static_cast<int64_t>(n); i++) {
         for (size_t j = 0; j < d; j++) {
             x[i * d + j] = sinf(x[i * d + j] * (scales[j] * 4 + 0.1));
         }

data/vendor/faiss/faiss/utils/simd_impl/IVFFlatScanner-inl.h ADDED Viewed

@@ -0,0 +1,51 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ *
+ * This source code is licensed under the MIT license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+#include <faiss/IndexIVFFlat.h>
+#include <faiss/impl/expanded_scanners.h>
+#ifndef THE_SIMD_LEVEL
+#error "THE_SIMD_LEVEL not defined"
+#endif
+namespace faiss {
+constexpr faiss::SIMDLevel THE_SL = THE_SIMD_LEVEL;
+#define DEFINE_IVFFLAT_SCANNER_METHODS(mt)                                     \
+    template <>                                                                \
+    float IVFFlatScanner<VectorDistance<mt, THE_SL>>::distance_to_code(        \
+            const uint8_t* code) const {                                       \
+        const float* yj = (float*)code;                                        \
+        return vd(xi, yj);                                                     \
+    }                                                                          \
+    template <>                                                                \
+    size_t IVFFlatScanner<VectorDistance<mt, THE_SL>>::scan_codes(             \
+            size_t list_size,                                                  \
+            const uint8_t* codes,                                              \
+            const idx_t* ids,                                                  \
+            ResultHandler& handler) const {                                    \
+        return run_scan_codes_fix_C<C>(*this, list_size, codes, ids, handler); \
+    }
+DEFINE_IVFFLAT_SCANNER_METHODS(METRIC_L2)
+DEFINE_IVFFLAT_SCANNER_METHODS(METRIC_INNER_PRODUCT)
+DEFINE_IVFFLAT_SCANNER_METHODS(METRIC_L1)
+DEFINE_IVFFLAT_SCANNER_METHODS(METRIC_Linf)
+DEFINE_IVFFLAT_SCANNER_METHODS(METRIC_Lp)
+DEFINE_IVFFLAT_SCANNER_METHODS(METRIC_Canberra)
+DEFINE_IVFFLAT_SCANNER_METHODS(METRIC_BrayCurtis)
+DEFINE_IVFFLAT_SCANNER_METHODS(METRIC_JensenShannon)
+DEFINE_IVFFLAT_SCANNER_METHODS(METRIC_Jaccard)
+DEFINE_IVFFLAT_SCANNER_METHODS(METRIC_NaNEuclidean)
+DEFINE_IVFFLAT_SCANNER_METHODS(METRIC_GOWER)
+#undef DEFINE_IVFFLAT_SCANNER_METHODS
+} // namespace faiss