RubyGems - faiss - Versions diffs - 0.6.0 → 0.6.1 - Mend

faiss 0.6.0 → 0.6.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (361) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +4 -0
data/ext/faiss/extconf.rb +2 -1
data/ext/faiss/{index_rb.cpp → index.cpp} +1 -1
data/ext/faiss/index_binary.cpp +1 -1
data/ext/faiss/kmeans.cpp +1 -1
data/ext/faiss/pca_matrix.cpp +1 -1
data/ext/faiss/product_quantizer.cpp +1 -1
data/ext/faiss/{utils_rb.cpp → utils.cpp} +1 -1
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +93 -80
data/vendor/faiss/faiss/Clustering.cpp +39 -240
data/vendor/faiss/faiss/Clustering.h +6 -0
data/vendor/faiss/faiss/IVFlib.cpp +41 -21
data/vendor/faiss/faiss/Index.cpp +6 -5
data/vendor/faiss/faiss/Index.h +5 -5
data/vendor/faiss/faiss/Index2Layer.cpp +37 -53
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +49 -37
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.cpp +36 -34
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.h +4 -1
data/vendor/faiss/faiss/IndexBinary.cpp +5 -3
data/vendor/faiss/faiss/IndexBinary.h +4 -4
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +1 -1
data/vendor/faiss/faiss/IndexBinaryFlat.h +1 -1
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +4 -4
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +84 -92
data/vendor/faiss/faiss/IndexBinaryHNSW.h +9 -3
data/vendor/faiss/faiss/IndexBinaryHash.cpp +45 -236
data/vendor/faiss/faiss/IndexBinaryHash.h +6 -6
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +87 -415
data/vendor/faiss/faiss/IndexFastScan.cpp +72 -109
data/vendor/faiss/faiss/IndexFastScan.h +25 -23
data/vendor/faiss/faiss/IndexFlat.cpp +27 -20
data/vendor/faiss/faiss/IndexFlat.h +21 -18
data/vendor/faiss/faiss/IndexFlatCodes.cpp +42 -19
data/vendor/faiss/faiss/IndexHNSW.cpp +283 -145
data/vendor/faiss/faiss/IndexHNSW.h +16 -2
data/vendor/faiss/faiss/IndexIDMap.cpp +25 -21
data/vendor/faiss/faiss/IndexIDMap.h +9 -7
data/vendor/faiss/faiss/IndexIVF.cpp +465 -362
data/vendor/faiss/faiss/IndexIVF.h +33 -12
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +77 -74
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.cpp +96 -93
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.h +4 -1
data/vendor/faiss/faiss/IndexIVFFastScan.cpp +357 -238
data/vendor/faiss/faiss/IndexIVFFastScan.h +42 -41
data/vendor/faiss/faiss/IndexIVFFlat.cpp +36 -68
data/vendor/faiss/faiss/IndexIVFFlat.h +32 -0
data/vendor/faiss/faiss/IndexIVFFlatPanorama.cpp +53 -30
data/vendor/faiss/faiss/IndexIVFFlatPanorama.h +3 -1
data/vendor/faiss/faiss/IndexIVFIndependentQuantizer.cpp +18 -15
data/vendor/faiss/faiss/IndexIVFPQ.cpp +71 -843
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +151 -121
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexIVFPQR.cpp +21 -17
data/vendor/faiss/faiss/IndexIVFRaBitQ.cpp +26 -39
data/vendor/faiss/faiss/IndexIVFRaBitQ.h +2 -1
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.cpp +475 -476
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.h +248 -93
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +41 -127
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +1 -1
data/vendor/faiss/faiss/IndexLSH.cpp +36 -19
data/vendor/faiss/faiss/IndexLattice.cpp +13 -13
data/vendor/faiss/faiss/IndexNNDescent.cpp +36 -21
data/vendor/faiss/faiss/IndexNNDescent.h +2 -2
data/vendor/faiss/faiss/IndexNSG.cpp +39 -23
data/vendor/faiss/faiss/IndexNeuralNetCodec.cpp +31 -11
data/vendor/faiss/faiss/IndexPQ.cpp +128 -221
data/vendor/faiss/faiss/IndexPQ.h +3 -2
data/vendor/faiss/faiss/IndexPQFastScan.cpp +20 -14
data/vendor/faiss/faiss/IndexPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexPreTransform.cpp +25 -18
data/vendor/faiss/faiss/IndexPreTransform.h +1 -1
data/vendor/faiss/faiss/IndexRaBitQ.cpp +11 -36
data/vendor/faiss/faiss/IndexRaBitQ.h +2 -1
data/vendor/faiss/faiss/IndexRaBitQFastScan.cpp +41 -277
data/vendor/faiss/faiss/IndexRaBitQFastScan.h +183 -27
data/vendor/faiss/faiss/IndexRefine.cpp +30 -25
data/vendor/faiss/faiss/IndexRefine.h +4 -4
data/vendor/faiss/faiss/IndexReplicas.cpp +6 -6
data/vendor/faiss/faiss/IndexRowwiseMinMax.cpp +15 -14
data/vendor/faiss/faiss/IndexRowwiseMinMax.h +1 -1
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +82 -14
data/vendor/faiss/faiss/IndexShards.cpp +10 -9
data/vendor/faiss/faiss/IndexShardsIVF.cpp +21 -15
data/vendor/faiss/faiss/MatrixStats.cpp +5 -4
data/vendor/faiss/faiss/MetaIndexes.cpp +19 -17
data/vendor/faiss/faiss/MetaIndexes.h +1 -1
data/vendor/faiss/faiss/MetricType.h +14 -7
data/vendor/faiss/faiss/SuperKMeans.cpp +656 -0
data/vendor/faiss/faiss/SuperKMeans.h +97 -0
data/vendor/faiss/faiss/VectorTransform.cpp +237 -149
data/vendor/faiss/faiss/VectorTransform.h +16 -16
data/vendor/faiss/faiss/build.cpp +23 -0
data/vendor/faiss/faiss/build.h +15 -0
data/vendor/faiss/faiss/clone_index.cpp +48 -47
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-avx2-inl.h +47 -47
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-inl.h +11 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-avx2-inl.h +38 -38
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-inl.h +11 -0
data/vendor/faiss/faiss/factory_tools.cpp +5 -0
data/vendor/faiss/faiss/gpu/GpuIndexCagra.h +6 -5
data/vendor/faiss/faiss/gpu/GpuResources.h +1 -1
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +9 -9
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +4 -3
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +46 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +56 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +78 -1
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +72 -0
data/vendor/faiss/faiss/gpu/test/TestUtils.h +23 -0
data/vendor/faiss/faiss/gpu/utils/CuvsFilterConvert.h +1 -1
data/vendor/faiss/faiss/gpu/utils/CuvsUtils.h +21 -10
data/vendor/faiss/faiss/gpu_metal/GpuIndexFlat.h +22 -0
data/vendor/faiss/faiss/gpu_metal/MetalCloner.h +35 -0
data/vendor/faiss/faiss/gpu_metal/MetalFlatKernels.h +40 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndex.h +51 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndexFlat.h +65 -0
data/vendor/faiss/faiss/gpu_metal/MetalKernels.h +66 -0
data/vendor/faiss/faiss/gpu_metal/MetalResources.h +79 -0
data/vendor/faiss/faiss/gpu_metal/StandardMetalResources.h +35 -0
data/vendor/faiss/faiss/impl/AdSampling.cpp +103 -0
data/vendor/faiss/faiss/impl/AdSampling.h +35 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +29 -25
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +1 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +10 -9
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +3 -0
data/vendor/faiss/faiss/impl/ClusteringHelpers.cpp +244 -0
data/vendor/faiss/faiss/impl/ClusteringHelpers.h +94 -0
data/vendor/faiss/faiss/impl/ClusteringInitialization.cpp +16 -16
data/vendor/faiss/faiss/impl/CodePacker.cpp +3 -3
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.cpp +1 -1
data/vendor/faiss/faiss/impl/DistanceComputer.h +8 -8
data/vendor/faiss/faiss/impl/FaissAssert.h +6 -3
data/vendor/faiss/faiss/impl/FaissException.h +50 -3
data/vendor/faiss/faiss/impl/HNSW.cpp +92 -317
data/vendor/faiss/faiss/impl/HNSW.h +13 -34
data/vendor/faiss/faiss/impl/IDSelector.cpp +15 -11
data/vendor/faiss/faiss/impl/IDSelector.h +8 -8
data/vendor/faiss/faiss/impl/InvertedListScannerStats.h +26 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +82 -77
data/vendor/faiss/faiss/impl/NNDescent.cpp +62 -25
data/vendor/faiss/faiss/impl/NNDescent.h +6 -2
data/vendor/faiss/faiss/impl/NSG.cpp +38 -21
data/vendor/faiss/faiss/impl/NSG.h +4 -4
data/vendor/faiss/faiss/impl/Panorama.cpp +23 -6
data/vendor/faiss/faiss/impl/Panorama.h +258 -87
data/vendor/faiss/faiss/impl/PdxLayout.cpp +93 -0
data/vendor/faiss/faiss/impl/PdxLayout.h +41 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +46 -32
data/vendor/faiss/faiss/impl/PolysemousTraining.h +3 -3
data/vendor/faiss/faiss/impl/ProductAdditiveQuantizer.cpp +35 -35
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +21 -16
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +30 -23
data/vendor/faiss/faiss/impl/Quantizer.h +2 -2
data/vendor/faiss/faiss/impl/RaBitQUtils.cpp +55 -49
data/vendor/faiss/faiss/impl/RaBitQUtils.h +65 -0
data/vendor/faiss/faiss/impl/RaBitQuantizer.cpp +296 -283
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +26 -23
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +1 -1
data/vendor/faiss/faiss/impl/ResultHandler.h +99 -75
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +52 -4
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +27 -1
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +14 -11
data/vendor/faiss/faiss/impl/VisitedTable.h +7 -0
data/vendor/faiss/faiss/impl/approx_topk/approx_topk.h +276 -0
data/vendor/faiss/faiss/impl/approx_topk/avx2.cpp +68 -0
data/vendor/faiss/faiss/{utils → impl}/approx_topk/generic.h +15 -8
data/vendor/faiss/faiss/impl/approx_topk/neon.cpp +68 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab-inl.h +169 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab.h +117 -0
data/vendor/faiss/faiss/impl/approx_topk/simdlib256-inl.h +146 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHNSW_impl.h +73 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHash_impl.h +270 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryIVF_impl.h +460 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexIVFSpectralHash_impl.h +159 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexPQ_impl.h +92 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx2.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx512.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/dispatch.h +143 -0
data/vendor/faiss/faiss/impl/binary_hamming/neon.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/rvv.cpp +26 -0
data/vendor/faiss/faiss/impl/expanded_scanners.h +8 -3
data/vendor/faiss/faiss/impl/{FastScanDistancePostProcessing.h → fast_scan/FastScanDistancePostProcessing.h} +13 -6
data/vendor/faiss/faiss/impl/{LookupTableScaler.h → fast_scan/LookupTableScaler.h} +16 -5
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops.h +237 -0
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops_512.h +185 -0
data/vendor/faiss/faiss/impl/fast_scan/decompose_qbs.h +229 -0
data/vendor/faiss/faiss/impl/fast_scan/dispatching.h +268 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan.cpp → fast_scan/fast_scan.cpp} +169 -2
data/vendor/faiss/faiss/impl/fast_scan/fast_scan.h +341 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx2.cpp +36 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx512.cpp +40 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-neon.cpp +120 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-riscv.cpp +104 -0
data/vendor/faiss/faiss/impl/fast_scan/kernels_simd256.h +213 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan_search_qbs.cpp → fast_scan/kernels_simd512.h} +26 -356
data/vendor/faiss/faiss/impl/fast_scan/rabitq_dispatching.h +90 -0
data/vendor/faiss/faiss/impl/fast_scan/rabitq_result_handler.h +108 -0
data/vendor/faiss/faiss/impl/{simd_result_handlers.h → fast_scan/simd_result_handlers.h} +282 -134
data/vendor/faiss/faiss/impl/hnsw/LockVector.cpp +54 -0
data/vendor/faiss/faiss/impl/hnsw/LockVector.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.cpp +91 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/avx2.cpp +104 -0
data/vendor/faiss/faiss/impl/hnsw/avx512.cpp +111 -0
data/vendor/faiss/faiss/impl/index_read.cpp +1132 -45
data/vendor/faiss/faiss/impl/index_read_utils.h +1 -1
data/vendor/faiss/faiss/impl/index_write.cpp +95 -13
data/vendor/faiss/faiss/impl/io.cpp +6 -6
data/vendor/faiss/faiss/impl/io_macros.h +33 -16
data/vendor/faiss/faiss/impl/kmeans1d.cpp +10 -10
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +37 -23
data/vendor/faiss/faiss/impl/lattice_Zn.h +6 -6
data/vendor/faiss/faiss/impl/mapped_io.cpp +6 -6
data/vendor/faiss/faiss/impl/platform_macros.h +11 -4
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQScanner_impl.h +549 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.cpp +245 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.h +105 -0
data/vendor/faiss/faiss/impl/pq_code_distance/PQDistanceComputer_impl.h +106 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx2.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx512.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/neon.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/{pq_code_distance-avx2.cpp → pq_code_distance-avx2.h} +9 -13
data/vendor/faiss/faiss/impl/pq_code_distance/{pq_code_distance-avx512.cpp → pq_code_distance-avx512.h} +9 -57
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.cpp +29 -111
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.h +96 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-inl.h +238 -5
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-sve.cpp +5 -7
data/vendor/faiss/faiss/impl/pq_code_distance/rvv.cpp +68 -0
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.cpp +311 -477
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.h +1 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/codecs.h +1 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/distance_computers.h +3 -2
data/vendor/faiss/faiss/impl/scalar_quantizer/quantizers.h +102 -11
data/vendor/faiss/faiss/impl/scalar_quantizer/scanners.h +27 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/similarities.h +3 -3
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx2.cpp +148 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx512.cpp +167 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-dispatch.h +59 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-neon.cpp +163 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-rvv.cpp +311 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.cpp +192 -8
data/vendor/faiss/faiss/impl/scalar_quantizer/training.h +12 -0
data/vendor/faiss/faiss/impl/simd_dispatch.h +100 -66
data/vendor/faiss/faiss/impl/simdlib/simdlib.h +57 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_avx2.h +264 -172
data/vendor/faiss/faiss/impl/simdlib/simdlib_avx512.h +414 -0
data/vendor/faiss/faiss/impl/simdlib/simdlib_dispatch.h +44 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_emulated.h +231 -166
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_neon.h +270 -218
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_ppc64.h +201 -160
data/vendor/faiss/faiss/impl/svs_io.cpp +12 -3
data/vendor/faiss/faiss/impl/svs_io.h +8 -2
data/vendor/faiss/faiss/index_factory.cpp +86 -18
data/vendor/faiss/faiss/index_io.h +24 -0
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +66 -16
data/vendor/faiss/faiss/invlists/DirectMap.cpp +24 -14
data/vendor/faiss/faiss/invlists/DirectMap.h +4 -3
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +157 -73
data/vendor/faiss/faiss/invlists/InvertedLists.h +86 -23
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +4 -4
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +13 -13
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSFaissUtils.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSFlat.cpp +2 -2
data/vendor/faiss/faiss/svs/IndexSVSIVF.cpp +350 -0
data/vendor/faiss/faiss/svs/IndexSVSIVF.h +128 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.cpp +40 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.h +43 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.cpp +225 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.h +71 -0
data/vendor/faiss/faiss/svs/IndexSVSVamana.cpp +25 -1
data/vendor/faiss/faiss/svs/IndexSVSVamana.h +18 -2
data/vendor/faiss/faiss/svs/IndexSVSVamanaLVQ.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.cpp +12 -3
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.h +7 -2
data/vendor/faiss/faiss/utils/Heap.cpp +10 -10
data/vendor/faiss/faiss/utils/NeuralNet.cpp +47 -36
data/vendor/faiss/faiss/utils/NeuralNet.h +1 -1
data/vendor/faiss/faiss/utils/approx_topk_hamming/approx_topk_hamming.h +10 -4
data/vendor/faiss/faiss/utils/distances.cpp +390 -560
data/vendor/faiss/faiss/utils/distances.h +20 -1
data/vendor/faiss/faiss/utils/distances_dispatch.h +117 -37
data/vendor/faiss/faiss/utils/distances_fused/avx512.cpp +8 -7
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.cpp +33 -14
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.h +12 -1
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based.cpp +16 -293
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based_neon.cpp +57 -0
data/vendor/faiss/faiss/utils/distances_fused/simdlib_kernel-inl.h +290 -0
data/vendor/faiss/faiss/utils/distances_simd.cpp +5 -177
data/vendor/faiss/faiss/utils/extra_distances.cpp +9 -8
data/vendor/faiss/faiss/utils/extra_distances.h +32 -6
data/vendor/faiss/faiss/utils/hamming-inl.h +13 -11
data/vendor/faiss/faiss/utils/hamming.cpp +66 -517
data/vendor/faiss/faiss/utils/hamming.h +92 -2
data/vendor/faiss/faiss/utils/hamming_distance/common.h +287 -10
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx2.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx512.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx2.h +142 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx512.h +234 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-generic.h +368 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-neon.h +322 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-rvv.h +39 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer.h +146 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_neon.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_rvv.cpp +15 -0
data/vendor/faiss/faiss/utils/partitioning.cpp +66 -987
data/vendor/faiss/faiss/utils/partitioning.h +31 -0
data/vendor/faiss/faiss/utils/popcount.h +29 -0
data/vendor/faiss/faiss/utils/pq_code_distance.h +2 -2
data/vendor/faiss/faiss/utils/prefetch.h +2 -2
data/vendor/faiss/faiss/utils/quantize_lut.cpp +30 -30
data/vendor/faiss/faiss/utils/quantize_lut.h +1 -1
data/vendor/faiss/faiss/utils/rabitq_simd.h +57 -536
data/vendor/faiss/faiss/utils/random.cpp +6 -6
data/vendor/faiss/faiss/utils/simd_impl/IVFFlatScanner-inl.h +51 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_aarch64.cpp +5 -1
data/vendor/faiss/faiss/utils/simd_impl/distances_arm_sve.cpp +213 -4
data/vendor/faiss/faiss/utils/simd_impl/distances_autovec-inl.h +163 -10
data/vendor/faiss/faiss/utils/simd_impl/distances_avx2.cpp +250 -4
data/vendor/faiss/faiss/utils/simd_impl/distances_avx512.cpp +7 -4
data/vendor/faiss/faiss/utils/simd_impl/distances_rvv.cpp +189 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_simdlib256.h +195 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_sse-inl.h +2 -1
data/vendor/faiss/faiss/utils/{distances_fused/simdlib_based.h → simd_impl/exhaustive_L2sqr_blas_cmax.h} +5 -10
data/vendor/faiss/faiss/utils/simd_impl/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_avx2.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_neon.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_simdlib256.h +1085 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx2.cpp +355 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx512.cpp +477 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_neon.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_rvv.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_dispatch.h +32 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels.h +43 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx2.cpp +57 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx512.cpp +45 -0
data/vendor/faiss/faiss/utils/simd_levels.cpp +17 -5
data/vendor/faiss/faiss/utils/simd_levels.h +93 -1
data/vendor/faiss/faiss/utils/sorting.cpp +48 -36
data/vendor/faiss/faiss/utils/utils.cpp +5 -5
data/vendor/faiss/faiss/utils/utils.h +3 -3
metadata +119 -34
data/vendor/faiss/faiss/impl/RaBitQStats.cpp +0 -29
data/vendor/faiss/faiss/impl/RaBitQStats.h +0 -56
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +0 -224
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +0 -230
data/vendor/faiss/faiss/utils/approx_topk/approx_topk.h +0 -84
data/vendor/faiss/faiss/utils/approx_topk/avx2-inl.h +0 -196
data/vendor/faiss/faiss/utils/approx_topk/mode.h +0 -34
data/vendor/faiss/faiss/utils/distances_fused/avx512.h +0 -36
data/vendor/faiss/faiss/utils/extra_distances-inl.h +0 -235
data/vendor/faiss/faiss/utils/hamming_distance/avx2-inl.h +0 -462
data/vendor/faiss/faiss/utils/hamming_distance/avx512-inl.h +0 -490
data/vendor/faiss/faiss/utils/hamming_distance/generic-inl.h +0 -449
data/vendor/faiss/faiss/utils/hamming_distance/hamdis-inl.h +0 -87
data/vendor/faiss/faiss/utils/hamming_distance/neon-inl.h +0 -524
data/vendor/faiss/faiss/utils/simdlib.h +0 -42
data/vendor/faiss/faiss/utils/simdlib_avx512.h +0 -365
/data/ext/faiss/{utils_rb.h → utils.h} +0 -0

data/vendor/faiss/faiss/impl/scalar_quantizer/sq-dispatch.h CHANGED Viewed

@@ -85,6 +85,19 @@ ScalarQuantizer::SQuantizer* sq_select_quantizer<THE_LEVEL_TO_DISPATCH>(
             return new Quantizer8bitDirect<SL>(d, trained);
         case ScalarQuantizer::QT_8bit_direct_signed:
             return new Quantizer8bitDirectSigned<SL>(d, trained);
+        case ScalarQuantizer::QT_0bit:
+            FAISS_THROW_MSG(
+                    "QT_0bit does not support standalone quantization, use IndexIVFScalarQuantizer");
+        case ScalarQuantizer::QT_1bit_tqmse:
+            return new QuantizerTurboQuantMSE<1, SL>(d, trained);
+        case ScalarQuantizer::QT_2bit_tqmse:
+            return new QuantizerTurboQuantMSE<2, SL>(d, trained);
+        case ScalarQuantizer::QT_3bit_tqmse:
+            return new QuantizerTurboQuantMSE<3, SL>(d, trained);
+        case ScalarQuantizer::QT_4bit_tqmse:
+            return new QuantizerTurboQuantMSE<4, SL>(d, trained);
+        case ScalarQuantizer::QT_8bit_tqmse:
+            return new QuantizerTurboQuantMSE<8, SL>(d, trained);
         default:
             FAISS_THROW_MSG("unknown qtype");
     }
@@ -175,6 +188,24 @@ SQDistanceComputer* select_distance_computer_body(
         case ScalarQuantizer::QT_8bit_direct_signed:
             return new DCTemplate<Quantizer8bitDirectSigned<SL2>, Sim, SL2>(
                     d, trained);
+        case ScalarQuantizer::QT_0bit:
+            FAISS_THROW_MSG(
+                    "QT_0bit does not support standalone distance computation, use IndexIVFScalarQuantizer");
+        case ScalarQuantizer::QT_1bit_tqmse:
+            return new DCTemplate<QuantizerTurboQuantMSE<1, SL2>, Sim, SL2>(
+                    d, trained);
+        case ScalarQuantizer::QT_2bit_tqmse:
+            return new DCTemplate<QuantizerTurboQuantMSE<2, SL2>, Sim, SL2>(
+                    d, trained);
+        case ScalarQuantizer::QT_3bit_tqmse:
+            return new DCTemplate<QuantizerTurboQuantMSE<3, SL2>, Sim, SL2>(
+                    d, trained);
+        case ScalarQuantizer::QT_4bit_tqmse:
+            return new DCTemplate<QuantizerTurboQuantMSE<4, SL2>, Sim, SL2>(
+                    d, trained);
+        case ScalarQuantizer::QT_8bit_tqmse:
+            return new DCTemplate<QuantizerTurboQuantMSE<8, SL2>, Sim, SL2>(
+                    d, trained);
         default:
             FAISS_THROW_MSG("unknown qtype");
     }
@@ -309,6 +340,34 @@ InvertedListScanner* sq_select_InvertedListScanner<THE_LEVEL_TO_DISPATCH>(
                         Quantizer8bitDirectSigned<SL2>,
                         Similarity,
                         SL2>>();
+            case ScalarQuantizer::QT_0bit:
+                return new IVFCoarseDistanceScanner(
+                        Similarity::metric_type != METRIC_L2, store_pairs, sel);
+            case ScalarQuantizer::QT_1bit_tqmse:
+                return scan.template operator()<DCTemplate<
+                        QuantizerTurboQuantMSE<1, SL2>,
+                        Similarity,
+                        SL2>>();
+            case ScalarQuantizer::QT_2bit_tqmse:
+                return scan.template operator()<DCTemplate<
+                        QuantizerTurboQuantMSE<2, SL2>,
+                        Similarity,
+                        SL2>>();
+            case ScalarQuantizer::QT_3bit_tqmse:
+                return scan.template operator()<DCTemplate<
+                        QuantizerTurboQuantMSE<3, SL2>,
+                        Similarity,
+                        SL2>>();
+            case ScalarQuantizer::QT_4bit_tqmse:
+                return scan.template operator()<DCTemplate<
+                        QuantizerTurboQuantMSE<4, SL2>,
+                        Similarity,
+                        SL2>>();
+            case ScalarQuantizer::QT_8bit_tqmse:
+                return scan.template operator()<DCTemplate<
+                        QuantizerTurboQuantMSE<8, SL2>,
+                        Similarity,
+                        SL2>>();
             default:
                 FAISS_THROW_MSG("unknown qtype");
         }

data/vendor/faiss/faiss/impl/scalar_quantizer/sq-neon.cpp CHANGED Viewed

@@ -7,6 +7,10 @@
 #ifdef COMPILE_SIMD_ARM_NEON
+#include <faiss/impl/simdlib/simdlib_neon.h>
+#include <cstring>
 #include <faiss/impl/scalar_quantizer/codecs.h>
 #include <faiss/impl/scalar_quantizer/distance_computers.h>
 #include <faiss/impl/scalar_quantizer/quantizers.h>
@@ -17,6 +21,81 @@ namespace faiss {
 namespace scalar_quantizer {
+using simd8float32 = faiss::simd8float32_tpl<SIMDLevel::ARM_NEON>;
+namespace {
+FAISS_ALWAYS_INLINE uint16_t load_u16(const uint8_t* ptr) {
+    uint16_t value;
+    std::memcpy(&value, ptr, sizeof(value));
+    return value;
+}
+FAISS_ALWAYS_INLINE uint32_t load_u32(const uint8_t* ptr) {
+    uint32_t value;
+    std::memcpy(&value, ptr, sizeof(value));
+    return value;
+}
+FAISS_ALWAYS_INLINE uint32_t load_u24(const uint8_t* ptr) {
+    return static_cast<uint32_t>(ptr[0]) |
+            (static_cast<uint32_t>(ptr[1]) << 8) |
+            (static_cast<uint32_t>(ptr[2]) << 16);
+}
+FAISS_ALWAYS_INLINE void unpack_8x1bit_to_u8(
+        const uint8_t* code,
+        int i,
+        uint8_t out[8]) {
+    const uint8_t packed = code[static_cast<size_t>(i) >> 3];
+    for (size_t j = 0; j < 8; ++j) {
+        out[j] = (packed >> j) & 0x1;
+    }
+}
+FAISS_ALWAYS_INLINE void unpack_8x2bit_to_u8(
+        const uint8_t* code,
+        int i,
+        uint8_t out[8]) {
+    const uint16_t packed = load_u16(code + (static_cast<size_t>(i) >> 2));
+    for (size_t j = 0; j < 8; ++j) {
+        out[j] = (packed >> (2 * j)) & 0x3;
+    }
+}
+FAISS_ALWAYS_INLINE void unpack_8x3bit_to_u8(
+        const uint8_t* code,
+        int i,
+        uint8_t out[8]) {
+    const uint32_t packed =
+            load_u24(code + ((static_cast<size_t>(i) >> 3) * 3));
+    for (size_t j = 0; j < 8; ++j) {
+        out[j] = (packed >> (3 * j)) & 0x7;
+    }
+}
+FAISS_ALWAYS_INLINE void unpack_8x4bit_to_u8(
+        const uint8_t* code,
+        int i,
+        uint8_t out[8]) {
+    const uint32_t packed = load_u32(code + (static_cast<size_t>(i) >> 1));
+    for (size_t j = 0; j < 8; ++j) {
+        out[j] = (packed >> (4 * j)) & 0xf;
+    }
+}
+FAISS_ALWAYS_INLINE simd8float32
+gather_8_components(const float* codebook, const uint8_t indices[8]) {
+    float result[8];
+    for (size_t j = 0; j < 8; ++j) {
+        result[j] = codebook[indices[j]];
+    }
+    return simd8float32(
+            float32x4x2_t{vld1q_f32(result), vld1q_f32(result + 4)});
+}
+} // namespace
 /**********************************************************
  * Codecs
  **********************************************************/
@@ -136,6 +215,54 @@ struct QuantizerTemplate<
     }
 };
+/**********************************************************
+ * TurboQuant MSE quantizer
+ **********************************************************/
+#define DEFINE_TQMSE_NEON_SPECIALIZATION(NBITS, UNPACK_FN)                  \
+    template <>                                                             \
+    struct QuantizerTurboQuantMSE<NBITS, SIMDLevel::ARM_NEON>               \
+            : QuantizerTurboQuantMSE<NBITS, SIMDLevel::NONE> {              \
+        using Base = QuantizerTurboQuantMSE<NBITS, SIMDLevel::NONE>;        \
+                                                                            \
+        QuantizerTurboQuantMSE(size_t d, const std::vector<float>& trained) \
+                : Base(d, trained) {                                        \
+            assert(d % 8 == 0);                                             \
+        }                                                                   \
+                                                                            \
+        FAISS_ALWAYS_INLINE simd8float32                                    \
+        reconstruct_8_components(const uint8_t* code, int i) const {        \
+            uint8_t indices[8];                                             \
+            UNPACK_FN(code, i, indices);                                    \
+            return gather_8_components(this->centroids, indices);           \
+        }                                                                   \
+    }
+DEFINE_TQMSE_NEON_SPECIALIZATION(1, unpack_8x1bit_to_u8);
+DEFINE_TQMSE_NEON_SPECIALIZATION(2, unpack_8x2bit_to_u8);
+DEFINE_TQMSE_NEON_SPECIALIZATION(3, unpack_8x3bit_to_u8);
+DEFINE_TQMSE_NEON_SPECIALIZATION(4, unpack_8x4bit_to_u8);
+#undef DEFINE_TQMSE_NEON_SPECIALIZATION
+template <>
+struct QuantizerTurboQuantMSE<8, SIMDLevel::ARM_NEON>
+        : QuantizerTurboQuantMSE<8, SIMDLevel::NONE> {
+    using Base = QuantizerTurboQuantMSE<8, SIMDLevel::NONE>;
+    QuantizerTurboQuantMSE(size_t d, const std::vector<float>& trained)
+            : Base(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        uint8_t indices[8];
+        std::memcpy(indices, code + static_cast<size_t>(i), sizeof(indices));
+        return gather_8_components(this->centroids, indices);
+    }
+};
 /**********************************************************
  * FP16 Quantizer
  **********************************************************/
@@ -354,6 +481,42 @@ struct DCTemplate<Quantizer, Similarity, SIMDLevel::ARM_NEON>
     float query_to_code(const uint8_t* code) const final {
         return compute_distance(q, code);
     }
+    void query_to_codes_batch_4(
+            const uint8_t* code_0,
+            const uint8_t* code_1,
+            const uint8_t* code_2,
+            const uint8_t* code_3,
+            float& dis0,
+            float& dis1,
+            float& dis2,
+            float& dis3) const final {
+        Similarity sim0(q);
+        Similarity sim1(q);
+        Similarity sim2(q);
+        Similarity sim3(q);
+        sim0.begin_8();
+        sim1.begin_8();
+        sim2.begin_8();
+        sim3.begin_8();
+        for (size_t i = 0; i < quant.d; i += 8) {
+            simd8float32 xi0 = quant.reconstruct_8_components(code_0, i);
+            simd8float32 xi1 = quant.reconstruct_8_components(code_1, i);
+            simd8float32 xi2 = quant.reconstruct_8_components(code_2, i);
+            simd8float32 xi3 = quant.reconstruct_8_components(code_3, i);
+            sim0.add_8_components(xi0);
+            sim1.add_8_components(xi1);
+            sim2.add_8_components(xi2);
+            sim3.add_8_components(xi3);
+        }
+        dis0 = sim0.result_8();
+        dis1 = sim1.result_8();
+        dis2 = sim2.result_8();
+        dis3 = sim3.result_8();
+    }
 };
 template <class Similarity>

data/vendor/faiss/faiss/impl/scalar_quantizer/sq-rvv.cpp ADDED Viewed

@@ -0,0 +1,311 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ *
+ * This source code is licensed under the MIT license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#ifdef COMPILE_SIMD_RISCV_RVV
+#include <faiss/impl/scalar_quantizer/codecs.h>
+#include <faiss/impl/scalar_quantizer/distance_computers.h>
+#include <faiss/impl/scalar_quantizer/quantizers.h>
+#include <faiss/impl/scalar_quantizer/scanners.h>
+#include <faiss/impl/scalar_quantizer/similarities.h>
+#include <riscv_vector.h>
+#include <cmath>
+namespace faiss {
+namespace scalar_quantizer {
+/*************************************************************************
+ * Marker specializations.
+ *
+ * Unlike x86/NEON sq-*.cpp files that expose a fixed 8-wide / 16-wide codec
+ * interface (reconstruct_8_components / reconstruct_16_components), RVV is
+ * variable-width: the native vector length is implementation-defined and
+ * queried at runtime via __riscv_vsetvl. Forcing RVV into a fixed-width
+ * codec would leave performance on the table on wider hardware.
+ *
+ * So the strategy here is: Codec / Quantizer / Similarity classes for
+ * RISCV_RVV act as opaque TAG TYPES — they only need to be complete types
+ * so that baseline's sq-dispatch.h can form template arguments like
+ * `DCTemplate<QuantizerTemplate<Codec4bit<RISCV_RVV>, UNIFORM, RISCV_RVV>,
+ *             SimilarityL2<RISCV_RVV>, RISCV_RVV>`.
+ *
+ * The real SIMD work lives in full DCTemplate specializations below.
+ * Unspecialized combinations fall through to scalar via the fallback
+ * `DCTemplate<Q, Sim, RISCV_RVV> : DCTemplate<Q, Sim, NONE>`.
+ ************************************************************************/
+template <>
+struct Codec8bit<SIMDLevel::RISCV_RVV> : Codec8bit<SIMDLevel::NONE> {};
+template <>
+struct Codec4bit<SIMDLevel::RISCV_RVV> : Codec4bit<SIMDLevel::NONE> {};
+template <>
+struct Codec6bit<SIMDLevel::RISCV_RVV> : Codec6bit<SIMDLevel::NONE> {};
+template <class Codec>
+struct QuantizerTemplate<
+        Codec,
+        QuantizerTemplateScaling::UNIFORM,
+        SIMDLevel::RISCV_RVV>
+        : QuantizerTemplate<
+                  Codec,
+                  QuantizerTemplateScaling::UNIFORM,
+                  SIMDLevel::NONE> {
+    QuantizerTemplate(size_t d, const std::vector<float>& trained)
+            : QuantizerTemplate<
+                      Codec,
+                      QuantizerTemplateScaling::UNIFORM,
+                      SIMDLevel::NONE>(d, trained) {}
+};
+template <class Codec>
+struct QuantizerTemplate<
+        Codec,
+        QuantizerTemplateScaling::NON_UNIFORM,
+        SIMDLevel::RISCV_RVV>
+        : QuantizerTemplate<
+                  Codec,
+                  QuantizerTemplateScaling::NON_UNIFORM,
+                  SIMDLevel::NONE> {
+    QuantizerTemplate(size_t d, const std::vector<float>& trained)
+            : QuantizerTemplate<
+                      Codec,
+                      QuantizerTemplateScaling::NON_UNIFORM,
+                      SIMDLevel::NONE>(d, trained) {}
+};
+template <>
+struct QuantizerFP16<SIMDLevel::RISCV_RVV> : QuantizerFP16<SIMDLevel::NONE> {
+    QuantizerFP16(size_t d, const std::vector<float>& trained)
+            : QuantizerFP16<SIMDLevel::NONE>(d, trained) {}
+};
+template <>
+struct QuantizerBF16<SIMDLevel::RISCV_RVV> : QuantizerBF16<SIMDLevel::NONE> {
+    QuantizerBF16(size_t d, const std::vector<float>& trained)
+            : QuantizerBF16<SIMDLevel::NONE>(d, trained) {}
+};
+template <>
+struct Quantizer8bitDirect<SIMDLevel::RISCV_RVV>
+        : Quantizer8bitDirect<SIMDLevel::NONE> {
+    Quantizer8bitDirect(size_t d, const std::vector<float>& trained)
+            : Quantizer8bitDirect<SIMDLevel::NONE>(d, trained) {}
+};
+template <>
+struct Quantizer8bitDirectSigned<SIMDLevel::RISCV_RVV>
+        : Quantizer8bitDirectSigned<SIMDLevel::NONE> {
+    Quantizer8bitDirectSigned(size_t d, const std::vector<float>& trained)
+            : Quantizer8bitDirectSigned<SIMDLevel::NONE>(d, trained) {}
+};
+template <>
+struct SimilarityL2<SIMDLevel::RISCV_RVV> : SimilarityL2<SIMDLevel::NONE> {
+    using SimilarityL2<SIMDLevel::NONE>::SimilarityL2;
+};
+template <>
+struct SimilarityIP<SIMDLevel::RISCV_RVV> : SimilarityIP<SIMDLevel::NONE> {
+    using SimilarityIP<SIMDLevel::NONE>::SimilarityIP;
+};
+/*************************************************************************
+ * Fallback DCTemplate / DistanceComputerByte for RISCV_RVV.
+ *
+ * Inheriting from the NONE specialization means every (Quantizer, Similarity)
+ * combination that does NOT have a hand-tuned RVV full specialization below
+ * falls through to scalar code. Callers and the dispatcher don't know or care.
+ ************************************************************************/
+template <class Quantizer, class Similarity>
+struct DCTemplate<Quantizer, Similarity, SIMDLevel::RISCV_RVV>
+        : DCTemplate<Quantizer, Similarity, SIMDLevel::NONE> {
+    using Base = DCTemplate<Quantizer, Similarity, SIMDLevel::NONE>;
+    using Base::Base;
+};
+template <class Similarity>
+struct DistanceComputerByte<Similarity, SIMDLevel::RISCV_RVV>
+        : DistanceComputerByte<Similarity, SIMDLevel::NONE> {
+    using Base = DistanceComputerByte<Similarity, SIMDLevel::NONE>;
+    using Base::Base;
+};
+/*************************************************************************
+ * Fast path — QT_4bit_uniform + L2
+ *
+ * 4-bit UNIFORM scaling: every component reconstructs as an affine function
+ * of the 4-bit code,
+ *     recon(c) = vmin + vdiff * (c + 0.5) / 15 = final_scale * c + bias
+ * where final_scale = vdiff / 15. L2 distance between two reconstructions
+ * therefore reduces to final_scale^2 * (q_c - c_c)^2 over integer codes,
+ * so we can stay in the int domain and pay one float multiply at the end.
+ *
+ * The RVV path pre-nibbles the query into q_lo / q_hi (even / odd lanes)
+ * once at set_query time and then processes native-VL-sized chunks of code
+ * without ever decoding to float.
+ ************************************************************************/
+template <>
+struct DCTemplate<
+        QuantizerTemplate<
+                Codec4bit<SIMDLevel::RISCV_RVV>,
+                QuantizerTemplateScaling::UNIFORM,
+                SIMDLevel::RISCV_RVV>,
+        SimilarityL2<SIMDLevel::RISCV_RVV>,
+        SIMDLevel::RISCV_RVV> : SQDistanceComputer {
+    using Sim = SimilarityL2<SIMDLevel::RISCV_RVV>;
+    size_t d;
+    float vmin;
+    float vdiff;
+    float final_scale_sq;
+    std::vector<uint8_t> q_lo;
+    std::vector<uint8_t> q_hi;
+    DCTemplate(size_t d_in, const std::vector<float>& trained)
+            : d(d_in),
+              vmin(trained[0]),
+              vdiff(trained[1]),
+              q_lo((d_in + 1) / 2, 0),
+              q_hi((d_in + 1) / 2, 0) {
+        const float final_scale = vdiff / 15.0f;
+        final_scale_sq = final_scale * final_scale;
+    }
+    void set_query(const float* x) final {
+        this->q = x;
+        const float inv_scale = (vdiff == 0.0f) ? 0.0f : 15.0f / vdiff;
+        for (size_t i = 0; i < d; i++) {
+            float val = (x[i] - vmin) * inv_scale;
+            int code = static_cast<int>(val);
+            if (code < 0) {
+                code = 0;
+            }
+            if (code > 15) {
+                code = 15;
+            }
+            if (i % 2 == 0) {
+                q_lo[i / 2] = static_cast<uint8_t>(code);
+            } else {
+                q_hi[i / 2] = static_cast<uint8_t>(code);
+            }
+        }
+    }
+    /// Squared integer-domain L2 between pre-nibbled q and packed 4-bit code.
+    /// Uses RVV's native VL; no fixed width assumptions. Returns the raw
+    /// integer sum — caller multiplies by final_scale_sq.
+    int64_t accumulate_int_l2(const uint8_t* code) const {
+        int64_t acc = 0;
+        size_t i = 0;
+        while (i < d) {
+            // Process up to vl codes per iteration. Each code byte packs two
+            // 4-bit codes, so we load (vl + 1) / 2 bytes; keep vl even to
+            // keep the nibble split aligned with the i % 2 split we used at
+            // set_query time.
+            size_t remaining = d - i;
+            size_t vl = __riscv_vsetvl_e8m1(remaining);
+            if (vl & 1) {
+                vl -= 1; // keep even; tail handled on next iter or scalar
+            }
+            if (vl == 0) {
+                break;
+            }
+            const size_t byte_vl = vl / 2;
+            vuint8m1_t packed = __riscv_vle8_v_u8m1(code + i / 2, byte_vl);
+            vuint8m1_t ql = __riscv_vle8_v_u8m1(q_lo.data() + i / 2, byte_vl);
+            vuint8m1_t qh = __riscv_vle8_v_u8m1(q_hi.data() + i / 2, byte_vl);
+            vuint8m1_t lo_nib = __riscv_vand_vx_u8m1(packed, 0x0F, byte_vl);
+            vuint8m1_t hi_nib = __riscv_vsrl_vx_u8m1(packed, 4, byte_vl);
+            // |ql - lo| and |qh - hi| fit in u8 (values are in [0, 15]).
+            vuint8m1_t d_lo = __riscv_vsub_vv_u8m1(
+                    __riscv_vmaxu_vv_u8m1(ql, lo_nib, byte_vl),
+                    __riscv_vminu_vv_u8m1(ql, lo_nib, byte_vl),
+                    byte_vl);
+            vuint8m1_t d_hi = __riscv_vsub_vv_u8m1(
+                    __riscv_vmaxu_vv_u8m1(qh, hi_nib, byte_vl),
+                    __riscv_vminu_vv_u8m1(qh, hi_nib, byte_vl),
+                    byte_vl);
+            // Square via widening multiply (each byte squared fits in u16,
+            // since max byte value is 15 -> 225).
+            vuint16m2_t sq_lo = __riscv_vwmulu_vv_u16m2(d_lo, d_lo, byte_vl);
+            vuint16m2_t sq_hi = __riscv_vwmulu_vv_u16m2(d_hi, d_hi, byte_vl);
+            vuint16m2_t sq_sum = __riscv_vadd_vv_u16m2(sq_lo, sq_hi, byte_vl);
+            // Reduce to a scalar u32 (safe: byte_vl * 450 fits in u32 for
+            // any realistic d).
+            vuint32m1_t zero = __riscv_vmv_v_x_u32m1(0, 1);
+            vuint32m1_t red =
+                    __riscv_vwredsumu_vs_u16m2_u32m1(sq_sum, zero, byte_vl);
+            acc += __riscv_vmv_x_s_u32m1_u32(red);
+            i += vl;
+        }
+        // Scalar tail: cover any leftover odd lane (at most one).
+        for (; i < d; i++) {
+            uint8_t c_code =
+                    (i % 2 == 0) ? (code[i / 2] & 0x0F) : (code[i / 2] >> 4);
+            uint8_t q_code = (i % 2 == 0) ? q_lo[i / 2] : q_hi[i / 2];
+            int diff = int(q_code) - int(c_code);
+            acc += diff * diff;
+        }
+        return acc;
+    }
+    float query_to_code(const uint8_t* code) const final {
+        return static_cast<float>(accumulate_int_l2(code)) * final_scale_sq;
+    }
+    float symmetric_dis(idx_t i, idx_t j) override {
+        // Not on the critical path for most workloads; reconstruct both
+        // codes into nibbles scalar-style and compute squared distance.
+        const uint8_t* c1 = codes + i * code_size;
+        const uint8_t* c2 = codes + j * code_size;
+        int64_t acc = 0;
+        for (size_t k = 0; k < d; k++) {
+            uint8_t a = (k % 2 == 0) ? (c1[k / 2] & 0x0F) : (c1[k / 2] >> 4);
+            uint8_t b = (k % 2 == 0) ? (c2[k / 2] & 0x0F) : (c2[k / 2] >> 4);
+            int diff = int(a) - int(b);
+            acc += diff * diff;
+        }
+        return static_cast<float>(acc) * final_scale_sq;
+    }
+    void query_to_codes_batch_4(
+            const uint8_t* code_0,
+            const uint8_t* code_1,
+            const uint8_t* code_2,
+            const uint8_t* code_3,
+            float& dis0,
+            float& dis1,
+            float& dis2,
+            float& dis3) const final {
+        // Simple 4x unroll of the single-code path; good enough as a first
+        // cut — gives ILP across the four independent accumulate loops.
+        dis0 = static_cast<float>(accumulate_int_l2(code_0)) * final_scale_sq;
+        dis1 = static_cast<float>(accumulate_int_l2(code_1)) * final_scale_sq;
+        dis2 = static_cast<float>(accumulate_int_l2(code_2)) * final_scale_sq;
+        dis3 = static_cast<float>(accumulate_int_l2(code_3)) * final_scale_sq;
+    }
+};
+} // namespace scalar_quantizer
+} // namespace faiss
+#define THE_LEVEL_TO_DISPATCH SIMDLevel::RISCV_RVV
+#include <faiss/impl/scalar_quantizer/sq-dispatch.h>
+#endif // COMPILE_SIMD_RISCV_RVV