RubyGems - faiss - Versions diffs - 0.5.3 → 0.6.1 - Mend

faiss 0.5.3 → 0.6.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (379) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +12 -0
data/ext/faiss/ext.cpp +1 -1
data/ext/faiss/extconf.rb +4 -4
data/ext/faiss/index.cpp +63 -45
data/ext/faiss/index_binary.cpp +37 -27
data/ext/faiss/kmeans.cpp +9 -8
data/ext/faiss/pca_matrix.cpp +9 -7
data/ext/faiss/product_quantizer.cpp +13 -11
data/ext/faiss/utils.cpp +4 -2
data/ext/faiss/utils.h +4 -0
data/lib/faiss/version.rb +1 -1
data/lib/faiss.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +214 -82
data/vendor/faiss/faiss/AutoTune.h +14 -1
data/vendor/faiss/faiss/Clustering.cpp +97 -249
data/vendor/faiss/faiss/Clustering.h +18 -0
data/vendor/faiss/faiss/IVFlib.cpp +67 -44
data/vendor/faiss/faiss/Index.cpp +25 -12
data/vendor/faiss/faiss/Index.h +26 -4
data/vendor/faiss/faiss/Index2Layer.cpp +37 -53
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +68 -61
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.cpp +36 -34
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.h +4 -1
data/vendor/faiss/faiss/IndexBinary.cpp +6 -3
data/vendor/faiss/faiss/IndexBinary.h +4 -4
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +1 -1
data/vendor/faiss/faiss/IndexBinaryFlat.h +1 -1
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +4 -4
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +92 -95
data/vendor/faiss/faiss/IndexBinaryHNSW.h +9 -3
data/vendor/faiss/faiss/IndexBinaryHash.cpp +45 -236
data/vendor/faiss/faiss/IndexBinaryHash.h +6 -6
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +120 -414
data/vendor/faiss/faiss/IndexFastScan.cpp +105 -129
data/vendor/faiss/faiss/IndexFastScan.h +35 -24
data/vendor/faiss/faiss/IndexFlat.cpp +216 -152
data/vendor/faiss/faiss/IndexFlat.h +32 -14
data/vendor/faiss/faiss/IndexFlatCodes.cpp +88 -41
data/vendor/faiss/faiss/IndexFlatCodes.h +7 -1
data/vendor/faiss/faiss/IndexHNSW.cpp +299 -187
data/vendor/faiss/faiss/IndexHNSW.h +30 -14
data/vendor/faiss/faiss/IndexIDMap.cpp +26 -22
data/vendor/faiss/faiss/IndexIDMap.h +9 -7
data/vendor/faiss/faiss/IndexIVF.cpp +535 -405
data/vendor/faiss/faiss/IndexIVF.h +47 -16
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +77 -74
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.cpp +105 -99
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.h +6 -3
data/vendor/faiss/faiss/IndexIVFFastScan.cpp +379 -249
data/vendor/faiss/faiss/IndexIVFFastScan.h +65 -60
data/vendor/faiss/faiss/IndexIVFFlat.cpp +41 -124
data/vendor/faiss/faiss/IndexIVFFlat.h +32 -0
data/vendor/faiss/faiss/IndexIVFFlatPanorama.cpp +89 -138
data/vendor/faiss/faiss/IndexIVFFlatPanorama.h +3 -1
data/vendor/faiss/faiss/IndexIVFIndependentQuantizer.cpp +18 -15
data/vendor/faiss/faiss/IndexIVFPQ.cpp +77 -907
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +184 -122
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexIVFPQR.cpp +23 -18
data/vendor/faiss/faiss/IndexIVFRaBitQ.cpp +59 -60
data/vendor/faiss/faiss/IndexIVFRaBitQ.h +4 -3
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.cpp +564 -416
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.h +269 -111
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +41 -127
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +1 -1
data/vendor/faiss/faiss/IndexLSH.cpp +44 -25
data/vendor/faiss/faiss/IndexLattice.cpp +41 -36
data/vendor/faiss/faiss/IndexNNDescent.cpp +37 -21
data/vendor/faiss/faiss/IndexNNDescent.h +2 -2
data/vendor/faiss/faiss/IndexNSG.cpp +40 -23
data/vendor/faiss/faiss/IndexNSG.h +0 -2
data/vendor/faiss/faiss/IndexNeuralNetCodec.cpp +32 -12
data/vendor/faiss/faiss/IndexPQ.cpp +129 -213
data/vendor/faiss/faiss/IndexPQ.h +3 -2
data/vendor/faiss/faiss/IndexPQFastScan.cpp +20 -14
data/vendor/faiss/faiss/IndexPQFastScan.h +3 -0
data/vendor/faiss/faiss/IndexPreTransform.cpp +25 -18
data/vendor/faiss/faiss/IndexPreTransform.h +1 -1
data/vendor/faiss/faiss/IndexRaBitQ.cpp +31 -43
data/vendor/faiss/faiss/IndexRaBitQ.h +4 -3
data/vendor/faiss/faiss/IndexRaBitQFastScan.cpp +135 -317
data/vendor/faiss/faiss/IndexRaBitQFastScan.h +192 -34
data/vendor/faiss/faiss/IndexRefine.cpp +30 -55
data/vendor/faiss/faiss/IndexRefine.h +4 -4
data/vendor/faiss/faiss/IndexReplicas.cpp +6 -6
data/vendor/faiss/faiss/IndexRowwiseMinMax.cpp +15 -14
data/vendor/faiss/faiss/IndexRowwiseMinMax.h +1 -1
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +82 -14
data/vendor/faiss/faiss/IndexShards.cpp +13 -13
data/vendor/faiss/faiss/IndexShardsIVF.cpp +21 -15
data/vendor/faiss/faiss/MatrixStats.cpp +5 -4
data/vendor/faiss/faiss/MetaIndexes.cpp +19 -17
data/vendor/faiss/faiss/MetaIndexes.h +1 -1
data/vendor/faiss/faiss/MetricType.h +29 -6
data/vendor/faiss/faiss/SuperKMeans.cpp +656 -0
data/vendor/faiss/faiss/SuperKMeans.h +97 -0
data/vendor/faiss/faiss/VectorTransform.cpp +349 -141
data/vendor/faiss/faiss/VectorTransform.h +39 -16
data/vendor/faiss/faiss/build.cpp +23 -0
data/vendor/faiss/faiss/build.h +15 -0
data/vendor/faiss/faiss/clone_index.cpp +55 -51
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-avx2-inl.h +47 -47
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-inl.h +11 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-avx2-inl.h +38 -38
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-inl.h +11 -0
data/vendor/faiss/faiss/{cppcontrib/factory_tools.cpp → factory_tools.cpp} +6 -1
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +1 -1
data/vendor/faiss/faiss/gpu/GpuIndexCagra.h +6 -5
data/vendor/faiss/faiss/gpu/GpuResources.h +1 -1
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +9 -9
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +4 -3
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +46 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +56 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +78 -1
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +72 -0
data/vendor/faiss/faiss/gpu/test/TestUtils.h +23 -0
data/vendor/faiss/faiss/gpu/utils/CuvsFilterConvert.h +1 -1
data/vendor/faiss/faiss/gpu/utils/CuvsUtils.h +21 -10
data/vendor/faiss/faiss/gpu_metal/GpuIndexFlat.h +22 -0
data/vendor/faiss/faiss/gpu_metal/MetalCloner.h +35 -0
data/vendor/faiss/faiss/gpu_metal/MetalFlatKernels.h +40 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndex.h +51 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndexFlat.h +65 -0
data/vendor/faiss/faiss/gpu_metal/MetalKernels.h +66 -0
data/vendor/faiss/faiss/gpu_metal/MetalResources.h +79 -0
data/vendor/faiss/faiss/gpu_metal/StandardMetalResources.h +35 -0
data/vendor/faiss/faiss/impl/AdSampling.cpp +103 -0
data/vendor/faiss/faiss/impl/AdSampling.h +35 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +64 -34
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +1 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +10 -9
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +3 -28
data/vendor/faiss/faiss/impl/ClusteringHelpers.cpp +244 -0
data/vendor/faiss/faiss/impl/ClusteringHelpers.h +94 -0
data/vendor/faiss/faiss/impl/ClusteringInitialization.cpp +367 -0
data/vendor/faiss/faiss/impl/ClusteringInitialization.h +107 -0
data/vendor/faiss/faiss/impl/CodePacker.cpp +7 -3
data/vendor/faiss/faiss/impl/CodePacker.h +11 -3
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.cpp +83 -0
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.h +47 -0
data/vendor/faiss/faiss/impl/DistanceComputer.h +8 -8
data/vendor/faiss/faiss/impl/FaissAssert.h +64 -3
data/vendor/faiss/faiss/impl/FaissException.h +50 -3
data/vendor/faiss/faiss/impl/HNSW.cpp +117 -351
data/vendor/faiss/faiss/impl/HNSW.h +21 -40
data/vendor/faiss/faiss/impl/IDSelector.cpp +15 -11
data/vendor/faiss/faiss/impl/IDSelector.h +8 -8
data/vendor/faiss/faiss/impl/InvertedListScannerStats.h +26 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +114 -102
data/vendor/faiss/faiss/impl/NNDescent.cpp +63 -26
data/vendor/faiss/faiss/impl/NNDescent.h +6 -2
data/vendor/faiss/faiss/impl/NSG.cpp +44 -26
data/vendor/faiss/faiss/impl/NSG.h +20 -10
data/vendor/faiss/faiss/impl/Panorama.cpp +76 -52
data/vendor/faiss/faiss/impl/Panorama.h +265 -78
data/vendor/faiss/faiss/impl/PdxLayout.cpp +93 -0
data/vendor/faiss/faiss/impl/PdxLayout.h +41 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +62 -37
data/vendor/faiss/faiss/impl/PolysemousTraining.h +3 -3
data/vendor/faiss/faiss/impl/ProductAdditiveQuantizer.cpp +35 -35
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +21 -16
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +99 -80
data/vendor/faiss/faiss/impl/Quantizer.h +2 -2
data/vendor/faiss/faiss/impl/RaBitQUtils.cpp +135 -37
data/vendor/faiss/faiss/impl/RaBitQUtils.h +148 -21
data/vendor/faiss/faiss/impl/RaBitQuantizer.cpp +298 -301
data/vendor/faiss/faiss/impl/RaBitQuantizer.h +3 -10
data/vendor/faiss/faiss/impl/RaBitQuantizerMultiBit.cpp +15 -41
data/vendor/faiss/faiss/impl/RaBitQuantizerMultiBit.h +0 -4
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +40 -32
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +1 -1
data/vendor/faiss/faiss/impl/ResultHandler.h +218 -113
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +119 -2362
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +27 -3
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +14 -11
data/vendor/faiss/faiss/impl/VisitedTable.cpp +42 -0
data/vendor/faiss/faiss/impl/VisitedTable.h +76 -0
data/vendor/faiss/faiss/impl/approx_topk/approx_topk.h +276 -0
data/vendor/faiss/faiss/impl/approx_topk/avx2.cpp +68 -0
data/vendor/faiss/faiss/{utils → impl}/approx_topk/generic.h +15 -8
data/vendor/faiss/faiss/impl/approx_topk/neon.cpp +68 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab-inl.h +169 -0
data/vendor/faiss/faiss/impl/approx_topk/rq_beam_search_tab.h +117 -0
data/vendor/faiss/faiss/impl/approx_topk/simdlib256-inl.h +146 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHNSW_impl.h +73 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryHash_impl.h +270 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexBinaryIVF_impl.h +460 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexIVFSpectralHash_impl.h +159 -0
data/vendor/faiss/faiss/impl/binary_hamming/IndexPQ_impl.h +92 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx2.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/avx512.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/dispatch.h +143 -0
data/vendor/faiss/faiss/impl/binary_hamming/neon.cpp +26 -0
data/vendor/faiss/faiss/impl/binary_hamming/rvv.cpp +26 -0
data/vendor/faiss/faiss/impl/expanded_scanners.h +163 -0
data/vendor/faiss/faiss/impl/{FastScanDistancePostProcessing.h → fast_scan/FastScanDistancePostProcessing.h} +13 -6
data/vendor/faiss/faiss/impl/{LookupTableScaler.h → fast_scan/LookupTableScaler.h} +16 -5
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops.h +237 -0
data/vendor/faiss/faiss/impl/fast_scan/accumulate_loops_512.h +185 -0
data/vendor/faiss/faiss/impl/fast_scan/decompose_qbs.h +229 -0
data/vendor/faiss/faiss/impl/fast_scan/dispatching.h +268 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan.cpp → fast_scan/fast_scan.cpp} +176 -4
data/vendor/faiss/faiss/impl/fast_scan/fast_scan.h +341 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx2.cpp +36 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-avx512.cpp +40 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-neon.cpp +120 -0
data/vendor/faiss/faiss/impl/fast_scan/impl-riscv.cpp +104 -0
data/vendor/faiss/faiss/impl/fast_scan/kernels_simd256.h +213 -0
data/vendor/faiss/faiss/impl/{pq4_fast_scan_search_qbs.cpp → fast_scan/kernels_simd512.h} +26 -348
data/vendor/faiss/faiss/impl/fast_scan/rabitq_dispatching.h +90 -0
data/vendor/faiss/faiss/impl/fast_scan/rabitq_result_handler.h +108 -0
data/vendor/faiss/faiss/impl/{simd_result_handlers.h → fast_scan/simd_result_handlers.h} +290 -142
data/vendor/faiss/faiss/impl/hnsw/LockVector.cpp +54 -0
data/vendor/faiss/faiss/impl/hnsw/LockVector.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.cpp +91 -0
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.h +64 -0
data/vendor/faiss/faiss/impl/hnsw/avx2.cpp +104 -0
data/vendor/faiss/faiss/impl/hnsw/avx512.cpp +111 -0
data/vendor/faiss/faiss/impl/index_read.cpp +1950 -505
data/vendor/faiss/faiss/impl/index_read_utils.h +1 -2
data/vendor/faiss/faiss/impl/index_write.cpp +112 -21
data/vendor/faiss/faiss/impl/io.cpp +6 -6
data/vendor/faiss/faiss/impl/io_macros.h +33 -16
data/vendor/faiss/faiss/impl/kmeans1d.cpp +10 -10
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +81 -40
data/vendor/faiss/faiss/impl/lattice_Zn.h +6 -6
data/vendor/faiss/faiss/impl/mapped_io.cpp +15 -8
data/vendor/faiss/faiss/impl/platform_macros.h +11 -4
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQScanner_impl.h +549 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.cpp +245 -0
data/vendor/faiss/faiss/impl/pq_code_distance/IVFPQ_QueryTables.h +105 -0
data/vendor/faiss/faiss/impl/pq_code_distance/PQDistanceComputer_impl.h +106 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx2.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx512.cpp +21 -0
data/vendor/faiss/faiss/impl/pq_code_distance/neon.cpp +21 -0
data/vendor/faiss/faiss/impl/{code_distance/code_distance-avx2.h → pq_code_distance/pq_code_distance-avx2.h} +43 -220
data/vendor/faiss/faiss/impl/{code_distance/code_distance-avx512.h → pq_code_distance/pq_code_distance-avx512.h} +25 -112
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.cpp +59 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.h +96 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-inl.h +256 -0
data/vendor/faiss/faiss/impl/{code_distance/code_distance-sve.h → pq_code_distance/pq_code_distance-sve.cpp} +57 -146
data/vendor/faiss/faiss/impl/pq_code_distance/rvv.cpp +68 -0
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.cpp +320 -483
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.h +1 -1
data/vendor/faiss/faiss/impl/scalar_quantizer/codecs.h +121 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/distance_computers.h +137 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/quantizers.h +371 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/scanners.h +190 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/similarities.h +94 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx2.cpp +603 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx512.cpp +597 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-dispatch.h +388 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-neon.cpp +630 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-rvv.cpp +311 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.cpp +387 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.h +54 -0
data/vendor/faiss/faiss/impl/simd_dispatch.h +173 -0
data/vendor/faiss/faiss/impl/simdlib/simdlib.h +57 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_avx2.h +274 -171
data/vendor/faiss/faiss/impl/simdlib/simdlib_avx512.h +414 -0
data/vendor/faiss/faiss/impl/simdlib/simdlib_dispatch.h +44 -0
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_emulated.h +231 -166
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_neon.h +275 -217
data/vendor/faiss/faiss/{utils → impl/simdlib}/simdlib_ppc64.h +201 -160
data/vendor/faiss/faiss/impl/svs_io.cpp +12 -3
data/vendor/faiss/faiss/impl/svs_io.h +8 -2
data/vendor/faiss/faiss/index_factory.cpp +115 -28
data/vendor/faiss/faiss/index_io.h +53 -3
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +73 -20
data/vendor/faiss/faiss/invlists/DirectMap.cpp +24 -14
data/vendor/faiss/faiss/invlists/DirectMap.h +4 -3
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +157 -73
data/vendor/faiss/faiss/invlists/InvertedLists.h +86 -23
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +4 -4
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +14 -14
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSFaissUtils.h +9 -19
data/vendor/faiss/faiss/svs/IndexSVSFlat.cpp +2 -2
data/vendor/faiss/faiss/svs/IndexSVSFlat.h +2 -0
data/vendor/faiss/faiss/svs/IndexSVSIVF.cpp +350 -0
data/vendor/faiss/faiss/svs/IndexSVSIVF.h +128 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.cpp +40 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLVQ.h +43 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.cpp +225 -0
data/vendor/faiss/faiss/svs/IndexSVSIVFLeanVec.h +71 -0
data/vendor/faiss/faiss/svs/IndexSVSVamana.cpp +25 -1
data/vendor/faiss/faiss/svs/IndexSVSVamana.h +19 -2
data/vendor/faiss/faiss/svs/IndexSVSVamanaLVQ.h +1 -1
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.cpp +19 -2
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.h +14 -0
data/vendor/faiss/faiss/utils/Heap.cpp +56 -10
data/vendor/faiss/faiss/utils/Heap.h +21 -0
data/vendor/faiss/faiss/utils/NeuralNet.cpp +54 -40
data/vendor/faiss/faiss/utils/NeuralNet.h +1 -1
data/vendor/faiss/faiss/utils/approx_topk_hamming/approx_topk_hamming.h +10 -4
data/vendor/faiss/faiss/utils/distances.cpp +507 -559
data/vendor/faiss/faiss/utils/distances.h +118 -1
data/vendor/faiss/faiss/utils/distances_dispatch.h +250 -0
data/vendor/faiss/faiss/utils/distances_fused/avx512.cpp +8 -7
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.cpp +33 -14
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.h +12 -1
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based.cpp +16 -293
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based_neon.cpp +57 -0
data/vendor/faiss/faiss/utils/distances_fused/simdlib_kernel-inl.h +290 -0
data/vendor/faiss/faiss/utils/distances_simd.cpp +72 -3681
data/vendor/faiss/faiss/utils/extra_distances.cpp +60 -102
data/vendor/faiss/faiss/utils/extra_distances.h +79 -7
data/vendor/faiss/faiss/utils/hamming-inl.h +13 -11
data/vendor/faiss/faiss/utils/hamming.cpp +66 -517
data/vendor/faiss/faiss/utils/hamming.h +92 -2
data/vendor/faiss/faiss/utils/hamming_distance/common.h +287 -10
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx2.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx512.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx2.h +142 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx512.h +234 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-generic.h +368 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-neon.h +322 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-rvv.h +39 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer.h +146 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_neon.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_rvv.cpp +15 -0
data/vendor/faiss/faiss/utils/partitioning.cpp +66 -987
data/vendor/faiss/faiss/utils/partitioning.h +31 -0
data/vendor/faiss/faiss/utils/popcount.h +29 -0
data/vendor/faiss/faiss/utils/pq_code_distance.h +251 -0
data/vendor/faiss/faiss/utils/prefetch.h +2 -2
data/vendor/faiss/faiss/utils/quantize_lut.cpp +30 -30
data/vendor/faiss/faiss/utils/quantize_lut.h +1 -1
data/vendor/faiss/faiss/utils/rabitq_simd.h +124 -343
data/vendor/faiss/faiss/utils/random.cpp +6 -6
data/vendor/faiss/faiss/utils/simd_impl/IVFFlatScanner-inl.h +51 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_aarch64.cpp +154 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_arm_sve.cpp +777 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_autovec-inl.h +306 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_avx2.cpp +1431 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_avx512.cpp +1095 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_rvv.cpp +189 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_simdlib256.h +195 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_sse-inl.h +392 -0
data/vendor/faiss/faiss/utils/{distances_fused/simdlib_based.h → simd_impl/exhaustive_L2sqr_blas_cmax.h} +5 -10
data/vendor/faiss/faiss/utils/simd_impl/hamming_impl.h +481 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_avx2.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_neon.cpp +14 -0
data/vendor/faiss/faiss/utils/simd_impl/partitioning_simdlib256.h +1085 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx2.cpp +355 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx512.cpp +477 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_neon.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/rabitq_rvv.cpp +55 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_dispatch.h +32 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels.h +43 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx2.cpp +57 -0
data/vendor/faiss/faiss/utils/simd_impl/super_kmeans_kernels_avx512.cpp +45 -0
data/vendor/faiss/faiss/utils/simd_levels.cpp +334 -0
data/vendor/faiss/faiss/utils/simd_levels.h +183 -0
data/vendor/faiss/faiss/utils/sorting.cpp +48 -36
data/vendor/faiss/faiss/utils/utils.cpp +21 -14
data/vendor/faiss/faiss/utils/utils.h +3 -3
metadata +156 -42
data/vendor/faiss/faiss/impl/RaBitQStats.cpp +0 -29
data/vendor/faiss/faiss/impl/RaBitQStats.h +0 -56
data/vendor/faiss/faiss/impl/code_distance/code_distance-generic.h +0 -81
data/vendor/faiss/faiss/impl/code_distance/code_distance.h +0 -186
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +0 -216
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +0 -224
data/vendor/faiss/faiss/utils/approx_topk/approx_topk.h +0 -84
data/vendor/faiss/faiss/utils/approx_topk/avx2-inl.h +0 -196
data/vendor/faiss/faiss/utils/approx_topk/mode.h +0 -34
data/vendor/faiss/faiss/utils/distances_fused/avx512.h +0 -36
data/vendor/faiss/faiss/utils/extra_distances-inl.h +0 -228
data/vendor/faiss/faiss/utils/hamming_distance/avx2-inl.h +0 -462
data/vendor/faiss/faiss/utils/hamming_distance/avx512-inl.h +0 -490
data/vendor/faiss/faiss/utils/hamming_distance/generic-inl.h +0 -450
data/vendor/faiss/faiss/utils/hamming_distance/hamdis-inl.h +0 -87
data/vendor/faiss/faiss/utils/hamming_distance/neon-inl.h +0 -524
data/vendor/faiss/faiss/utils/simdlib.h +0 -42
data/vendor/faiss/faiss/utils/simdlib_avx512.h +0 -296
/data/vendor/faiss/faiss/{cppcontrib/factory_tools.h → factory_tools.h} +0 -0

data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx2.cpp ADDED Viewed

@@ -0,0 +1,603 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ *
+ * This source code is licensed under the MIT license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#ifdef COMPILE_SIMD_AVX2
+#include <faiss/impl/simdlib/simdlib_avx2.h>
+#include <cstring>
+#include <faiss/impl/scalar_quantizer/codecs.h>
+#include <faiss/impl/scalar_quantizer/distance_computers.h>
+#include <faiss/impl/scalar_quantizer/quantizers.h>
+#include <faiss/impl/scalar_quantizer/scanners.h>
+#include <faiss/impl/scalar_quantizer/similarities.h>
+namespace faiss {
+namespace scalar_quantizer {
+using simd8float32 = faiss::simd8float32_tpl<SIMDLevel::AVX2>;
+namespace {
+FAISS_ALWAYS_INLINE uint16_t load_u16(const uint8_t* ptr) {
+    uint16_t value;
+    std::memcpy(&value, ptr, sizeof(value));
+    return value;
+}
+FAISS_ALWAYS_INLINE uint32_t load_u32(const uint8_t* ptr) {
+    uint32_t value;
+    std::memcpy(&value, ptr, sizeof(value));
+    return value;
+}
+FAISS_ALWAYS_INLINE uint32_t load_u24(const uint8_t* ptr) {
+    return static_cast<uint32_t>(ptr[0]) |
+            (static_cast<uint32_t>(ptr[1]) << 8) |
+            (static_cast<uint32_t>(ptr[2]) << 16);
+}
+FAISS_ALWAYS_INLINE __m256i unpack_8x1bit_to_u32(const uint8_t* code, int i) {
+    const uint32_t packed = code[static_cast<size_t>(i) >> 3];
+    const __m256i shifts = _mm256_setr_epi32(0, 1, 2, 3, 4, 5, 6, 7);
+    const __m256i indices =
+            _mm256_srlv_epi32(_mm256_set1_epi32(packed), shifts);
+    return _mm256_and_si256(indices, _mm256_set1_epi32(0x1));
+}
+FAISS_ALWAYS_INLINE __m256i unpack_8x2bit_to_u32(const uint8_t* code, int i) {
+    const uint32_t packed = load_u16(code + (static_cast<size_t>(i) >> 2));
+    const __m256i shifts = _mm256_setr_epi32(0, 2, 4, 6, 8, 10, 12, 14);
+    const __m256i indices =
+            _mm256_srlv_epi32(_mm256_set1_epi32(packed), shifts);
+    return _mm256_and_si256(indices, _mm256_set1_epi32(0x3));
+}
+FAISS_ALWAYS_INLINE __m256i unpack_8x3bit_to_u32(const uint8_t* code, int i) {
+    const uint32_t packed =
+            load_u24(code + ((static_cast<size_t>(i) >> 3) * 3));
+    const __m256i shifts = _mm256_setr_epi32(0, 3, 6, 9, 12, 15, 18, 21);
+    const __m256i indices =
+            _mm256_srlv_epi32(_mm256_set1_epi32(packed), shifts);
+    return _mm256_and_si256(indices, _mm256_set1_epi32(0x7));
+}
+FAISS_ALWAYS_INLINE __m256i unpack_8x4bit_to_u32(const uint8_t* code, int i) {
+    const uint32_t packed = load_u32(code + (static_cast<size_t>(i) >> 1));
+    const __m256i shifts = _mm256_setr_epi32(0, 4, 8, 12, 16, 20, 24, 28);
+    const __m256i indices =
+            _mm256_srlv_epi32(_mm256_set1_epi32(packed), shifts);
+    return _mm256_and_si256(indices, _mm256_set1_epi32(0xf));
+}
+} // namespace
+/**********************************************************
+ * Codecs
+ **********************************************************/
+template <>
+struct Codec8bit<SIMDLevel::AVX2> : Codec8bit<SIMDLevel::NONE> {
+    static FAISS_ALWAYS_INLINE simd8float32
+    decode_8_components(const uint8_t* code, size_t i) {
+        const uint64_t c8 = *(uint64_t*)(code + i);
+        const __m128i i8 = _mm_set1_epi64x(c8);
+        const __m256i i32 = _mm256_cvtepu8_epi32(i8);
+        const __m256 f8 = _mm256_cvtepi32_ps(i32);
+        const __m256 half_one_255 = _mm256_set1_ps(0.5f / 255.f);
+        const __m256 one_255 = _mm256_set1_ps(1.f / 255.f);
+        return simd8float32(_mm256_fmadd_ps(f8, one_255, half_one_255));
+    }
+};
+template <>
+struct Codec4bit<SIMDLevel::AVX2> : Codec4bit<SIMDLevel::NONE> {
+    static FAISS_ALWAYS_INLINE simd8float32
+    decode_8_components(const uint8_t* code, size_t i) {
+        uint32_t c4 = *(uint32_t*)(code + (i >> 1));
+        uint32_t mask = 0x0f0f0f0f;
+        uint32_t c4ev = c4 & mask;
+        uint32_t c4od = (c4 >> 4) & mask;
+        // the 8 lower bytes of c8 contain the values
+        __m128i c8 =
+                _mm_unpacklo_epi8(_mm_set1_epi32(c4ev), _mm_set1_epi32(c4od));
+        __m128i c4lo = _mm_cvtepu8_epi32(c8);
+        __m128i c4hi = _mm_cvtepu8_epi32(_mm_srli_si128(c8, 4));
+        __m256i i8 = _mm256_castsi128_si256(c4lo);
+        i8 = _mm256_insertf128_si256(i8, c4hi, 1);
+        __m256 f8 = _mm256_cvtepi32_ps(i8);
+        __m256 half = _mm256_set1_ps(0.5f);
+        f8 = _mm256_add_ps(f8, half);
+        __m256 one_255 = _mm256_set1_ps(1.f / 15.f);
+        return simd8float32(_mm256_mul_ps(f8, one_255));
+    }
+};
+template <>
+struct Codec6bit<SIMDLevel::AVX2> : Codec6bit<SIMDLevel::NONE> {
+    /* Load 6 bytes that represent 8 6-bit values, return them as a
+     * 8*32 bit vector register */
+    static FAISS_ALWAYS_INLINE __m256i load6(const uint16_t* code16) {
+        const __m128i perm = _mm_set_epi8(
+                -1, 5, 5, 4, 4, 3, -1, 3, -1, 2, 2, 1, 1, 0, -1, 0);
+        const __m256i shifts = _mm256_set_epi32(2, 4, 6, 0, 2, 4, 6, 0);
+        // load 6 bytes
+        __m128i c1 =
+                _mm_set_epi16(0, 0, 0, 0, 0, code16[2], code16[1], code16[0]);
+        // put in 8 * 32 bits
+        __m128i c2 = _mm_shuffle_epi8(c1, perm);
+        __m256i c3 = _mm256_cvtepi16_epi32(c2);
+        // shift and mask out useless bits
+        __m256i c4 = _mm256_srlv_epi32(c3, shifts);
+        __m256i c5 = _mm256_and_si256(_mm256_set1_epi32(63), c4);
+        return c5;
+    }
+    static FAISS_ALWAYS_INLINE simd8float32
+    decode_8_components(const uint8_t* code, size_t i) {
+        // // Faster code for Intel CPUs or AMD Zen3+, just keeping it here
+        // // for the reference, maybe, it becomes used one day.
+        // const uint16_t* data16 = (const uint16_t*)(code + (i >> 2) * 3);
+        // const uint32_t* data32 = (const uint32_t*)data16;
+        // const uint64_t val = *data32 + ((uint64_t)data16[2] << 32);
+        // const uint64_t vext = _pdep_u64(val, 0x3F3F3F3F3F3F3F3FULL);
+        // const __m128i i8 = _mm_set1_epi64x(vext);
+        // const __m256i i32 = _mm256_cvtepi8_epi32(i8);
+        // const __m256 f8 = _mm256_cvtepi32_ps(i32);
+        // const __m256 half_one_255 = _mm256_set1_ps(0.5f / 63.f);
+        // const __m256 one_255 = _mm256_set1_ps(1.f / 63.f);
+        // return _mm256_fmadd_ps(f8, one_255, half_one_255);
+        __m256i i8 = load6((const uint16_t*)(code + (i >> 2) * 3));
+        __m256 f8 = _mm256_cvtepi32_ps(i8);
+        // this could also be done with bit manipulations but it is
+        // not obviously faster
+        const __m256 half_one_255 = _mm256_set1_ps(0.5f / 63.f);
+        const __m256 one_255 = _mm256_set1_ps(1.f / 63.f);
+        return simd8float32(_mm256_fmadd_ps(f8, one_255, half_one_255));
+    }
+};
+/**********************************************************
+ * Quantizers (uniform and non-uniform)
+ **********************************************************/
+template <class Codec>
+struct QuantizerTemplate<
+        Codec,
+        QuantizerTemplateScaling::UNIFORM,
+        SIMDLevel::AVX2>
+        : QuantizerTemplate<
+                  Codec,
+                  QuantizerTemplateScaling::UNIFORM,
+                  SIMDLevel::NONE> {
+    QuantizerTemplate(size_t d, const std::vector<float>& trained)
+            : QuantizerTemplate<
+                      Codec,
+                      QuantizerTemplateScaling::UNIFORM,
+                      SIMDLevel::NONE>(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        __m256 xi = Codec::decode_8_components(code, i).f;
+        return simd8float32(_mm256_fmadd_ps(
+                xi, _mm256_set1_ps(this->vdiff), _mm256_set1_ps(this->vmin)));
+    }
+};
+template <class Codec>
+struct QuantizerTemplate<
+        Codec,
+        QuantizerTemplateScaling::NON_UNIFORM,
+        SIMDLevel::AVX2>
+        : QuantizerTemplate<
+                  Codec,
+                  QuantizerTemplateScaling::NON_UNIFORM,
+                  SIMDLevel::NONE> {
+    QuantizerTemplate(size_t d, const std::vector<float>& trained)
+            : QuantizerTemplate<
+                      Codec,
+                      QuantizerTemplateScaling::NON_UNIFORM,
+                      SIMDLevel::NONE>(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        __m256 xi = Codec::decode_8_components(code, i).f;
+        return simd8float32(_mm256_fmadd_ps(
+                xi,
+                _mm256_loadu_ps(this->vdiff + i),
+                _mm256_loadu_ps(this->vmin + i)));
+    }
+};
+/**********************************************************
+ * TurboQuant MSE quantizer
+ **********************************************************/
+#define DEFINE_TQMSE_AVX2_SPECIALIZATION(NBITS, INDEX_EXPR)                 \
+    template <>                                                             \
+    struct QuantizerTurboQuantMSE<NBITS, SIMDLevel::AVX2>                   \
+            : QuantizerTurboQuantMSE<NBITS, SIMDLevel::NONE> {              \
+        using Base = QuantizerTurboQuantMSE<NBITS, SIMDLevel::NONE>;        \
+                                                                            \
+        QuantizerTurboQuantMSE(size_t d, const std::vector<float>& trained) \
+                : Base(d, trained) {                                        \
+            assert(d % 8 == 0);                                             \
+        }                                                                   \
+                                                                            \
+        FAISS_ALWAYS_INLINE simd8float32                                    \
+        reconstruct_8_components(const uint8_t* code, int i) const {        \
+            const __m256i indices = (INDEX_EXPR);                           \
+            return simd8float32(_mm256_i32gather_ps(                        \
+                    this->centroids, indices, sizeof(float)));              \
+        }                                                                   \
+    }
+DEFINE_TQMSE_AVX2_SPECIALIZATION(1, unpack_8x1bit_to_u32(code, i));
+DEFINE_TQMSE_AVX2_SPECIALIZATION(2, unpack_8x2bit_to_u32(code, i));
+DEFINE_TQMSE_AVX2_SPECIALIZATION(3, unpack_8x3bit_to_u32(code, i));
+DEFINE_TQMSE_AVX2_SPECIALIZATION(4, unpack_8x4bit_to_u32(code, i));
+#undef DEFINE_TQMSE_AVX2_SPECIALIZATION
+template <>
+struct QuantizerTurboQuantMSE<8, SIMDLevel::AVX2>
+        : QuantizerTurboQuantMSE<8, SIMDLevel::NONE> {
+    using Base = QuantizerTurboQuantMSE<8, SIMDLevel::NONE>;
+    QuantizerTurboQuantMSE(size_t d, const std::vector<float>& trained)
+            : Base(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        const __m128i packed = _mm_loadl_epi64(
+                (const __m128i*)(code + static_cast<size_t>(i)));
+        const __m256i indices = _mm256_cvtepu8_epi32(packed);
+        return simd8float32(
+                _mm256_i32gather_ps(this->centroids, indices, sizeof(float)));
+    }
+};
+/**********************************************************
+ * FP16 Quantizer
+ **********************************************************/
+template <>
+struct QuantizerFP16<SIMDLevel::AVX2> : QuantizerFP16<SIMDLevel::NONE> {
+    QuantizerFP16(size_t d, const std::vector<float>& trained)
+            : QuantizerFP16<SIMDLevel::NONE>(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        __m128i codei = _mm_loadu_si128((const __m128i*)(code + 2 * i));
+        return simd8float32(_mm256_cvtph_ps(codei));
+    }
+};
+/**********************************************************
+ * BF16 Quantizer
+ **********************************************************/
+template <>
+struct QuantizerBF16<SIMDLevel::AVX2> : QuantizerBF16<SIMDLevel::NONE> {
+    QuantizerBF16(size_t d, const std::vector<float>& trained)
+            : QuantizerBF16<SIMDLevel::NONE>(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        __m128i code_128i = _mm_loadu_si128((const __m128i*)(code + 2 * i));
+        __m256i code_256i = _mm256_cvtepu16_epi32(code_128i);
+        code_256i = _mm256_slli_epi32(code_256i, 16);
+        return simd8float32(_mm256_castsi256_ps(code_256i));
+    }
+};
+/**********************************************************
+ * 8bit Direct Quantizer
+ **********************************************************/
+template <>
+struct Quantizer8bitDirect<SIMDLevel::AVX2>
+        : Quantizer8bitDirect<SIMDLevel::NONE> {
+    Quantizer8bitDirect(size_t d, const std::vector<float>& trained)
+            : Quantizer8bitDirect<SIMDLevel::NONE>(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        __m128i x8 = _mm_loadl_epi64((__m128i*)(code + i)); // 8 * int8
+        __m256i y8 = _mm256_cvtepu8_epi32(x8);              // 8 * int32
+        return simd8float32(_mm256_cvtepi32_ps(y8));        // 8 * float32
+    }
+};
+/**********************************************************
+ * 8bit Direct Signed Quantizer
+ **********************************************************/
+template <>
+struct Quantizer8bitDirectSigned<SIMDLevel::AVX2>
+        : Quantizer8bitDirectSigned<SIMDLevel::NONE> {
+    Quantizer8bitDirectSigned(size_t d, const std::vector<float>& trained)
+            : Quantizer8bitDirectSigned<SIMDLevel::NONE>(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        __m128i x8 = _mm_loadl_epi64((__m128i*)(code + i)); // 8 * int8
+        __m256i y8 = _mm256_cvtepu8_epi32(x8);              // 8 * int32
+        __m256i c8 = _mm256_set1_epi32(128);
+        __m256i z8 = _mm256_sub_epi32(y8, c8); // subtract 128 from all lanes
+        return simd8float32(_mm256_cvtepi32_ps(z8)); // 8 * float32
+    }
+};
+/**********************************************************
+ * SimilarityL2 and SimilarityIP
+ **********************************************************/
+template <>
+struct SimilarityL2<SIMDLevel::AVX2> {
+    static constexpr int simdwidth = 8;
+    static constexpr SIMDLevel simd_level = SIMDLevel::AVX2;
+    static constexpr MetricType metric_type = METRIC_L2;
+    const float *y, *yi;
+    explicit SimilarityL2(const float* y) : y(y), yi(nullptr) {}
+    simd8float32 accu8 = {};
+    FAISS_ALWAYS_INLINE void begin_8() {
+        accu8.clear();
+        yi = y;
+    }
+    FAISS_ALWAYS_INLINE void add_8_components(simd8float32 x) {
+        __m256 yiv = _mm256_loadu_ps(yi);
+        yi += 8;
+        __m256 tmp = _mm256_sub_ps(yiv, x.f);
+        accu8 = simd8float32(_mm256_fmadd_ps(tmp, tmp, accu8.f));
+    }
+    FAISS_ALWAYS_INLINE void add_8_components_2(
+            simd8float32 x,
+            simd8float32 y_2) {
+        __m256 tmp = _mm256_sub_ps(y_2.f, x.f);
+        accu8 = simd8float32(_mm256_fmadd_ps(tmp, tmp, accu8.f));
+    }
+    FAISS_ALWAYS_INLINE float result_8() {
+        const __m128 sum = _mm_add_ps(
+                _mm256_castps256_ps128(accu8.f),
+                _mm256_extractf128_ps(accu8.f, 1));
+        const __m128 v0 = _mm_shuffle_ps(sum, sum, _MM_SHUFFLE(0, 0, 3, 2));
+        const __m128 v1 = _mm_add_ps(sum, v0);
+        __m128 v2 = _mm_shuffle_ps(v1, v1, _MM_SHUFFLE(0, 0, 0, 1));
+        const __m128 v3 = _mm_add_ps(v1, v2);
+        return _mm_cvtss_f32(v3);
+    }
+};
+template <>
+struct SimilarityIP<SIMDLevel::AVX2> {
+    static constexpr int simdwidth = 8;
+    static constexpr SIMDLevel simd_level = SIMDLevel::AVX2;
+    static constexpr MetricType metric_type = METRIC_INNER_PRODUCT;
+    const float *y, *yi;
+    float accu;
+    explicit SimilarityIP(const float* y) : y(y), yi(nullptr), accu(0) {}
+    simd8float32 accu8 = {};
+    FAISS_ALWAYS_INLINE void begin_8() {
+        accu8.clear();
+        yi = y;
+    }
+    FAISS_ALWAYS_INLINE void add_8_components(simd8float32 x) {
+        __m256 yiv = _mm256_loadu_ps(yi);
+        yi += 8;
+        accu8.f = _mm256_fmadd_ps(yiv, x.f, accu8.f);
+    }
+    FAISS_ALWAYS_INLINE void add_8_components_2(
+            simd8float32 x1,
+            simd8float32 x2) {
+        accu8.f = _mm256_fmadd_ps(x1.f, x2.f, accu8.f);
+    }
+    FAISS_ALWAYS_INLINE float result_8() {
+        const __m128 sum = _mm_add_ps(
+                _mm256_castps256_ps128(accu8.f),
+                _mm256_extractf128_ps(accu8.f, 1));
+        const __m128 v0 = _mm_shuffle_ps(sum, sum, _MM_SHUFFLE(0, 0, 3, 2));
+        const __m128 v1 = _mm_add_ps(sum, v0);
+        __m128 v2 = _mm_shuffle_ps(v1, v1, _MM_SHUFFLE(0, 0, 0, 1));
+        const __m128 v3 = _mm_add_ps(v1, v2);
+        return _mm_cvtss_f32(v3);
+    }
+};
+/**********************************************************
+ * Distance computers
+ **********************************************************/
+template <class Quantizer, class Similarity>
+struct DCTemplate<Quantizer, Similarity, SIMDLevel::AVX2> : SQDistanceComputer {
+    using Sim = Similarity;
+    Quantizer quant;
+    DCTemplate(size_t d, const std::vector<float>& trained)
+            : quant(d, trained) {}
+    float compute_distance(const float* x, const uint8_t* code) const {
+        Similarity sim(x);
+        sim.begin_8();
+        for (size_t i = 0; i < quant.d; i += 8) {
+            simd8float32 xi =
+                    quant.reconstruct_8_components(code, static_cast<int>(i));
+            sim.add_8_components(xi);
+        }
+        return sim.result_8();
+    }
+    float compute_code_distance(const uint8_t* code1, const uint8_t* code2)
+            const {
+        Similarity sim(nullptr);
+        sim.begin_8();
+        for (size_t i = 0; i < quant.d; i += 8) {
+            simd8float32 x1 =
+                    quant.reconstruct_8_components(code1, static_cast<int>(i));
+            simd8float32 x2 =
+                    quant.reconstruct_8_components(code2, static_cast<int>(i));
+            sim.add_8_components_2(x1, x2);
+        }
+        return sim.result_8();
+    }
+    void set_query(const float* x) final {
+        q = x;
+    }
+    float symmetric_dis(idx_t i, idx_t j) override {
+        return compute_code_distance(
+                codes + i * code_size, codes + j * code_size);
+    }
+    float query_to_code(const uint8_t* code) const final {
+        return compute_distance(q, code);
+    }
+    void query_to_codes_batch_4(
+            const uint8_t* code_0,
+            const uint8_t* code_1,
+            const uint8_t* code_2,
+            const uint8_t* code_3,
+            float& dis0,
+            float& dis1,
+            float& dis2,
+            float& dis3) const final {
+        Similarity sim0(q);
+        Similarity sim1(q);
+        Similarity sim2(q);
+        Similarity sim3(q);
+        sim0.begin_8();
+        sim1.begin_8();
+        sim2.begin_8();
+        sim3.begin_8();
+        for (size_t i = 0; i < quant.d; i += 8) {
+            const int ii = static_cast<int>(i);
+            simd8float32 xi0 = quant.reconstruct_8_components(code_0, ii);
+            simd8float32 xi1 = quant.reconstruct_8_components(code_1, ii);
+            simd8float32 xi2 = quant.reconstruct_8_components(code_2, ii);
+            simd8float32 xi3 = quant.reconstruct_8_components(code_3, ii);
+            sim0.add_8_components(xi0);
+            sim1.add_8_components(xi1);
+            sim2.add_8_components(xi2);
+            sim3.add_8_components(xi3);
+        }
+        dis0 = sim0.result_8();
+        dis1 = sim1.result_8();
+        dis2 = sim2.result_8();
+        dis3 = sim3.result_8();
+    }
+};
+template <class Similarity>
+struct DistanceComputerByte<Similarity, SIMDLevel::AVX2> : SQDistanceComputer {
+    using Sim = Similarity;
+    int d;
+    std::vector<uint8_t> tmp;
+    DistanceComputerByte(int d, const std::vector<float>&) : d(d), tmp(d) {}
+    int compute_code_distance(const uint8_t* code1, const uint8_t* code2)
+            const {
+        // __m256i accu = _mm256_setzero_ps ();
+        __m256i accu = _mm256_setzero_si256();
+        for (int i = 0; i < d; i += 16) {
+            // load 16 bytes, convert to 16 uint16_t
+            __m256i c1 = _mm256_cvtepu8_epi16(
+                    _mm_loadu_si128((__m128i*)(code1 + i)));
+            __m256i c2 = _mm256_cvtepu8_epi16(
+                    _mm_loadu_si128((__m128i*)(code2 + i)));
+            __m256i prod32;
+            if (Sim::metric_type == METRIC_INNER_PRODUCT) {
+                prod32 = _mm256_madd_epi16(c1, c2);
+            } else {
+                __m256i diff = _mm256_sub_epi16(c1, c2);
+                prod32 = _mm256_madd_epi16(diff, diff);
+            }
+            accu = _mm256_add_epi32(accu, prod32);
+        }
+        __m128i sum = _mm256_extractf128_si256(accu, 0);
+        sum = _mm_add_epi32(sum, _mm256_extractf128_si256(accu, 1));
+        sum = _mm_hadd_epi32(sum, sum);
+        sum = _mm_hadd_epi32(sum, sum);
+        return _mm_cvtsi128_si32(sum);
+    }
+    void set_query(const float* x) final {
+        /*
+        for (int i = 0; i < d; i += 8) {
+            __m256 xi = _mm256_loadu_ps (x + i);
+            __m256i ci = _mm256_cvtps_epi32(xi);
+        */
+        for (int i = 0; i < d; i++) {
+            tmp[i] = int(x[i]);
+        }
+    }
+    int compute_distance(const float* x, const uint8_t* code) {
+        set_query(x);
+        return compute_code_distance(tmp.data(), code);
+    }
+    float symmetric_dis(idx_t i, idx_t j) override {
+        return compute_code_distance(
+                codes + i * code_size, codes + j * code_size);
+    }
+    float query_to_code(const uint8_t* code) const final {
+        return compute_code_distance(tmp.data(), code);
+    }
+};
+} // namespace scalar_quantizer
+} // namespace faiss
+#define THE_LEVEL_TO_DISPATCH SIMDLevel::AVX2
+#include <faiss/impl/scalar_quantizer/sq-dispatch.h>
+#endif // COMPILE_SIMD_AVX2