RubyGems - faiss - Versions diffs - 0.3.1 → 0.3.3 - Mend

faiss 0.3.1 → 0.3.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (293) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +8 -0
data/LICENSE.txt +1 -1
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +2 -2
data/vendor/faiss/faiss/AutoTune.h +3 -3
data/vendor/faiss/faiss/Clustering.cpp +37 -6
data/vendor/faiss/faiss/Clustering.h +12 -3
data/vendor/faiss/faiss/IVFlib.cpp +6 -3
data/vendor/faiss/faiss/IVFlib.h +2 -2
data/vendor/faiss/faiss/Index.cpp +6 -2
data/vendor/faiss/faiss/Index.h +30 -8
data/vendor/faiss/faiss/Index2Layer.cpp +2 -2
data/vendor/faiss/faiss/Index2Layer.h +2 -2
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +7 -7
data/vendor/faiss/faiss/IndexAdditiveQuantizer.h +2 -2
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.cpp +14 -16
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.h +2 -2
data/vendor/faiss/faiss/IndexBinary.cpp +13 -2
data/vendor/faiss/faiss/IndexBinary.h +8 -2
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +2 -3
data/vendor/faiss/faiss/IndexBinaryFlat.h +2 -2
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +2 -2
data/vendor/faiss/faiss/IndexBinaryFromFloat.h +2 -2
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +2 -7
data/vendor/faiss/faiss/IndexBinaryHNSW.h +3 -3
data/vendor/faiss/faiss/IndexBinaryHash.cpp +2 -3
data/vendor/faiss/faiss/IndexBinaryHash.h +2 -2
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +3 -3
data/vendor/faiss/faiss/IndexBinaryIVF.h +2 -2
data/vendor/faiss/faiss/IndexFastScan.cpp +32 -18
data/vendor/faiss/faiss/IndexFastScan.h +11 -2
data/vendor/faiss/faiss/IndexFlat.cpp +13 -10
data/vendor/faiss/faiss/IndexFlat.h +2 -2
data/vendor/faiss/faiss/IndexFlatCodes.cpp +170 -7
data/vendor/faiss/faiss/IndexFlatCodes.h +25 -5
data/vendor/faiss/faiss/IndexHNSW.cpp +156 -96
data/vendor/faiss/faiss/IndexHNSW.h +54 -5
data/vendor/faiss/faiss/IndexIDMap.cpp +19 -3
data/vendor/faiss/faiss/IndexIDMap.h +5 -2
data/vendor/faiss/faiss/IndexIVF.cpp +5 -6
data/vendor/faiss/faiss/IndexIVF.h +13 -4
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +21 -7
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.h +5 -2
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.cpp +3 -14
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.h +2 -4
data/vendor/faiss/faiss/IndexIVFFastScan.cpp +201 -91
data/vendor/faiss/faiss/IndexIVFFastScan.h +33 -9
data/vendor/faiss/faiss/IndexIVFFlat.cpp +2 -2
data/vendor/faiss/faiss/IndexIVFFlat.h +2 -2
data/vendor/faiss/faiss/IndexIVFIndependentQuantizer.cpp +2 -2
data/vendor/faiss/faiss/IndexIVFIndependentQuantizer.h +2 -2
data/vendor/faiss/faiss/IndexIVFPQ.cpp +3 -6
data/vendor/faiss/faiss/IndexIVFPQ.h +2 -2
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +7 -14
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +2 -4
data/vendor/faiss/faiss/IndexIVFPQR.cpp +2 -2
data/vendor/faiss/faiss/IndexIVFPQR.h +2 -2
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +2 -3
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +2 -2
data/vendor/faiss/faiss/IndexLSH.cpp +2 -3
data/vendor/faiss/faiss/IndexLSH.h +2 -2
data/vendor/faiss/faiss/IndexLattice.cpp +3 -21
data/vendor/faiss/faiss/IndexLattice.h +5 -24
data/vendor/faiss/faiss/IndexNNDescent.cpp +2 -31
data/vendor/faiss/faiss/IndexNNDescent.h +3 -3
data/vendor/faiss/faiss/IndexNSG.cpp +2 -5
data/vendor/faiss/faiss/IndexNSG.h +3 -3
data/vendor/faiss/faiss/IndexNeuralNetCodec.cpp +56 -0
data/vendor/faiss/faiss/IndexNeuralNetCodec.h +49 -0
data/vendor/faiss/faiss/IndexPQ.cpp +26 -26
data/vendor/faiss/faiss/IndexPQ.h +2 -2
data/vendor/faiss/faiss/IndexPQFastScan.cpp +2 -5
data/vendor/faiss/faiss/IndexPQFastScan.h +2 -11
data/vendor/faiss/faiss/IndexPreTransform.cpp +2 -2
data/vendor/faiss/faiss/IndexPreTransform.h +3 -3
data/vendor/faiss/faiss/IndexRefine.cpp +46 -9
data/vendor/faiss/faiss/IndexRefine.h +9 -2
data/vendor/faiss/faiss/IndexReplicas.cpp +2 -2
data/vendor/faiss/faiss/IndexReplicas.h +2 -2
data/vendor/faiss/faiss/IndexRowwiseMinMax.cpp +2 -2
data/vendor/faiss/faiss/IndexRowwiseMinMax.h +2 -2
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +5 -4
data/vendor/faiss/faiss/IndexScalarQuantizer.h +2 -2
data/vendor/faiss/faiss/IndexShards.cpp +2 -2
data/vendor/faiss/faiss/IndexShards.h +2 -2
data/vendor/faiss/faiss/IndexShardsIVF.cpp +2 -2
data/vendor/faiss/faiss/IndexShardsIVF.h +2 -2
data/vendor/faiss/faiss/MatrixStats.cpp +2 -2
data/vendor/faiss/faiss/MatrixStats.h +2 -2
data/vendor/faiss/faiss/MetaIndexes.cpp +2 -3
data/vendor/faiss/faiss/MetaIndexes.h +2 -2
data/vendor/faiss/faiss/MetricType.h +9 -4
data/vendor/faiss/faiss/VectorTransform.cpp +2 -2
data/vendor/faiss/faiss/VectorTransform.h +2 -2
data/vendor/faiss/faiss/clone_index.cpp +2 -2
data/vendor/faiss/faiss/clone_index.h +2 -2
data/vendor/faiss/faiss/cppcontrib/SaDecodeKernels.h +2 -2
data/vendor/faiss/faiss/cppcontrib/detail/CoarseBitType.h +2 -2
data/vendor/faiss/faiss/cppcontrib/detail/UintReader.h +97 -19
data/vendor/faiss/faiss/cppcontrib/factory_tools.cpp +192 -0
data/vendor/faiss/faiss/cppcontrib/factory_tools.h +29 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-avx2-inl.h +2 -2
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-inl.h +85 -32
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-neon-inl.h +2 -2
data/vendor/faiss/faiss/cppcontrib/sa_decode/MinMax-inl.h +2 -2
data/vendor/faiss/faiss/cppcontrib/sa_decode/MinMaxFP16-inl.h +2 -2
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-avx2-inl.h +2 -2
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-inl.h +2 -2
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-neon-inl.h +2 -2
data/vendor/faiss/faiss/gpu/GpuAutoTune.cpp +2 -5
data/vendor/faiss/faiss/gpu/GpuAutoTune.h +2 -2
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +45 -13
data/vendor/faiss/faiss/gpu/GpuCloner.h +2 -2
data/vendor/faiss/faiss/gpu/GpuClonerOptions.h +12 -6
data/vendor/faiss/faiss/gpu/GpuDistance.h +11 -7
data/vendor/faiss/faiss/gpu/GpuFaissAssert.h +3 -3
data/vendor/faiss/faiss/gpu/GpuIcmEncoder.h +2 -2
data/vendor/faiss/faiss/gpu/GpuIndex.h +10 -15
data/vendor/faiss/faiss/gpu/GpuIndexBinaryFlat.h +2 -2
data/vendor/faiss/faiss/gpu/GpuIndexCagra.h +285 -0
data/vendor/faiss/faiss/gpu/GpuIndexFlat.h +2 -2
data/vendor/faiss/faiss/gpu/GpuIndexIVF.h +8 -2
data/vendor/faiss/faiss/gpu/GpuIndexIVFFlat.h +4 -2
data/vendor/faiss/faiss/gpu/GpuIndexIVFPQ.h +3 -3
data/vendor/faiss/faiss/gpu/GpuIndexIVFScalarQuantizer.h +2 -2
data/vendor/faiss/faiss/gpu/GpuIndicesOptions.h +2 -2
data/vendor/faiss/faiss/gpu/GpuResources.cpp +7 -2
data/vendor/faiss/faiss/gpu/GpuResources.h +11 -4
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +66 -11
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +15 -5
data/vendor/faiss/faiss/gpu/impl/IndexUtils.h +2 -2
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.cpp +28 -23
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.h +2 -2
data/vendor/faiss/faiss/gpu/impl/RemapIndices.cpp +2 -2
data/vendor/faiss/faiss/gpu/impl/RemapIndices.h +2 -2
data/vendor/faiss/faiss/gpu/perf/IndexWrapper-inl.h +2 -2
data/vendor/faiss/faiss/gpu/perf/IndexWrapper.h +2 -2
data/vendor/faiss/faiss/gpu/perf/PerfClustering.cpp +8 -2
data/vendor/faiss/faiss/gpu/perf/PerfIVFPQAdd.cpp +2 -3
data/vendor/faiss/faiss/gpu/perf/WriteIndex.cpp +2 -2
data/vendor/faiss/faiss/gpu/test/TestCodePacking.cpp +10 -7
data/vendor/faiss/faiss/gpu/test/TestGpuIndexBinaryFlat.cpp +2 -2
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +54 -54
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +144 -77
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +51 -51
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFScalarQuantizer.cpp +2 -2
data/vendor/faiss/faiss/gpu/test/TestGpuMemoryException.cpp +3 -3
data/vendor/faiss/faiss/gpu/test/TestGpuResidualQuantizer.cpp +70 -0
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +74 -4
data/vendor/faiss/faiss/gpu/test/TestUtils.h +2 -2
data/vendor/faiss/faiss/gpu/test/demo_ivfpq_indexing_gpu.cpp +3 -3
data/vendor/faiss/faiss/gpu/utils/{RaftUtils.h → CuvsUtils.h} +12 -11
data/vendor/faiss/faiss/gpu/utils/DeviceUtils.h +8 -2
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.cpp +2 -2
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.h +2 -2
data/vendor/faiss/faiss/gpu/utils/StaticUtils.h +2 -2
data/vendor/faiss/faiss/gpu/utils/Timer.cpp +6 -3
data/vendor/faiss/faiss/gpu/utils/Timer.h +3 -3
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +79 -11
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +17 -5
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +27 -2
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +11 -3
data/vendor/faiss/faiss/impl/CodePacker.cpp +2 -2
data/vendor/faiss/faiss/impl/CodePacker.h +2 -2
data/vendor/faiss/faiss/impl/DistanceComputer.h +48 -2
data/vendor/faiss/faiss/impl/FaissAssert.h +6 -4
data/vendor/faiss/faiss/impl/FaissException.cpp +2 -2
data/vendor/faiss/faiss/impl/FaissException.h +2 -3
data/vendor/faiss/faiss/impl/HNSW.cpp +378 -205
data/vendor/faiss/faiss/impl/HNSW.h +55 -24
data/vendor/faiss/faiss/impl/IDSelector.cpp +2 -2
data/vendor/faiss/faiss/impl/IDSelector.h +2 -2
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +10 -10
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.h +2 -2
data/vendor/faiss/faiss/impl/LookupTableScaler.h +36 -2
data/vendor/faiss/faiss/impl/NNDescent.cpp +15 -10
data/vendor/faiss/faiss/impl/NNDescent.h +2 -2
data/vendor/faiss/faiss/impl/NSG.cpp +26 -49
data/vendor/faiss/faiss/impl/NSG.h +20 -8
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +2 -2
data/vendor/faiss/faiss/impl/PolysemousTraining.h +2 -2
data/vendor/faiss/faiss/impl/ProductAdditiveQuantizer.cpp +2 -4
data/vendor/faiss/faiss/impl/ProductAdditiveQuantizer.h +2 -2
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +2 -2
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +3 -2
data/vendor/faiss/faiss/impl/ProductQuantizer.h +7 -3
data/vendor/faiss/faiss/impl/Quantizer.h +2 -2
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +2 -36
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +3 -13
data/vendor/faiss/faiss/impl/ResultHandler.h +153 -34
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +721 -104
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +5 -2
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +2 -2
data/vendor/faiss/faiss/impl/ThreadedIndex.h +2 -2
data/vendor/faiss/faiss/impl/code_distance/code_distance-avx2.h +7 -2
data/vendor/faiss/faiss/impl/code_distance/code_distance-avx512.h +248 -0
data/vendor/faiss/faiss/impl/code_distance/code_distance-generic.h +2 -2
data/vendor/faiss/faiss/impl/code_distance/code_distance-sve.h +440 -0
data/vendor/faiss/faiss/impl/code_distance/code_distance.h +55 -2
data/vendor/faiss/faiss/impl/index_read.cpp +31 -20
data/vendor/faiss/faiss/impl/index_read_utils.h +37 -0
data/vendor/faiss/faiss/impl/index_write.cpp +30 -16
data/vendor/faiss/faiss/impl/io.cpp +15 -7
data/vendor/faiss/faiss/impl/io.h +6 -6
data/vendor/faiss/faiss/impl/io_macros.h +8 -9
data/vendor/faiss/faiss/impl/kmeans1d.cpp +2 -3
data/vendor/faiss/faiss/impl/kmeans1d.h +2 -2
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +2 -3
data/vendor/faiss/faiss/impl/lattice_Zn.h +2 -2
data/vendor/faiss/faiss/impl/platform_macros.h +34 -2
data/vendor/faiss/faiss/impl/pq4_fast_scan.cpp +13 -2
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +20 -2
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +3 -3
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_qbs.cpp +450 -3
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.cpp +8 -8
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.h +3 -3
data/vendor/faiss/faiss/impl/simd_result_handlers.h +151 -67
data/vendor/faiss/faiss/index_factory.cpp +51 -34
data/vendor/faiss/faiss/index_factory.h +2 -2
data/vendor/faiss/faiss/index_io.h +14 -7
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +30 -10
data/vendor/faiss/faiss/invlists/BlockInvertedLists.h +5 -2
data/vendor/faiss/faiss/invlists/DirectMap.cpp +11 -3
data/vendor/faiss/faiss/invlists/DirectMap.h +2 -2
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +57 -19
data/vendor/faiss/faiss/invlists/InvertedLists.h +20 -11
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +2 -2
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.h +2 -2
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +23 -9
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +4 -3
data/vendor/faiss/faiss/python/python_callbacks.cpp +5 -5
data/vendor/faiss/faiss/python/python_callbacks.h +2 -2
data/vendor/faiss/faiss/utils/AlignedTable.h +5 -3
data/vendor/faiss/faiss/utils/Heap.cpp +2 -2
data/vendor/faiss/faiss/utils/Heap.h +107 -2
data/vendor/faiss/faiss/utils/NeuralNet.cpp +346 -0
data/vendor/faiss/faiss/utils/NeuralNet.h +147 -0
data/vendor/faiss/faiss/utils/WorkerThread.cpp +2 -2
data/vendor/faiss/faiss/utils/WorkerThread.h +2 -2
data/vendor/faiss/faiss/utils/approx_topk/approx_topk.h +2 -2
data/vendor/faiss/faiss/utils/approx_topk/avx2-inl.h +2 -2
data/vendor/faiss/faiss/utils/approx_topk/generic.h +2 -2
data/vendor/faiss/faiss/utils/approx_topk/mode.h +2 -2
data/vendor/faiss/faiss/utils/approx_topk_hamming/approx_topk_hamming.h +2 -2
data/vendor/faiss/faiss/utils/bf16.h +36 -0
data/vendor/faiss/faiss/utils/distances.cpp +249 -90
data/vendor/faiss/faiss/utils/distances.h +8 -8
data/vendor/faiss/faiss/utils/distances_fused/avx512.cpp +2 -2
data/vendor/faiss/faiss/utils/distances_fused/avx512.h +2 -2
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.cpp +2 -2
data/vendor/faiss/faiss/utils/distances_fused/distances_fused.h +2 -2
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based.cpp +2 -2
data/vendor/faiss/faiss/utils/distances_fused/simdlib_based.h +2 -2
data/vendor/faiss/faiss/utils/distances_simd.cpp +1543 -56
data/vendor/faiss/faiss/utils/extra_distances-inl.h +72 -2
data/vendor/faiss/faiss/utils/extra_distances.cpp +87 -140
data/vendor/faiss/faiss/utils/extra_distances.h +5 -4
data/vendor/faiss/faiss/utils/fp16-arm.h +2 -2
data/vendor/faiss/faiss/utils/fp16-fp16c.h +2 -2
data/vendor/faiss/faiss/utils/fp16-inl.h +2 -2
data/vendor/faiss/faiss/utils/fp16.h +2 -2
data/vendor/faiss/faiss/utils/hamming-inl.h +2 -2
data/vendor/faiss/faiss/utils/hamming.cpp +3 -4
data/vendor/faiss/faiss/utils/hamming.h +2 -2
data/vendor/faiss/faiss/utils/hamming_distance/avx2-inl.h +2 -2
data/vendor/faiss/faiss/utils/hamming_distance/avx512-inl.h +490 -0
data/vendor/faiss/faiss/utils/hamming_distance/common.h +2 -2
data/vendor/faiss/faiss/utils/hamming_distance/generic-inl.h +6 -3
data/vendor/faiss/faiss/utils/hamming_distance/hamdis-inl.h +7 -3
data/vendor/faiss/faiss/utils/hamming_distance/neon-inl.h +5 -5
data/vendor/faiss/faiss/utils/ordered_key_value.h +2 -2
data/vendor/faiss/faiss/utils/partitioning.cpp +2 -2
data/vendor/faiss/faiss/utils/partitioning.h +2 -2
data/vendor/faiss/faiss/utils/prefetch.h +2 -2
data/vendor/faiss/faiss/utils/quantize_lut.cpp +2 -2
data/vendor/faiss/faiss/utils/quantize_lut.h +2 -2
data/vendor/faiss/faiss/utils/random.cpp +45 -2
data/vendor/faiss/faiss/utils/random.h +27 -2
data/vendor/faiss/faiss/utils/simdlib.h +12 -3
data/vendor/faiss/faiss/utils/simdlib_avx2.h +2 -2
data/vendor/faiss/faiss/utils/simdlib_avx512.h +296 -0
data/vendor/faiss/faiss/utils/simdlib_emulated.h +2 -2
data/vendor/faiss/faiss/utils/simdlib_neon.h +7 -4
data/vendor/faiss/faiss/utils/simdlib_ppc64.h +1084 -0
data/vendor/faiss/faiss/utils/sorting.cpp +2 -2
data/vendor/faiss/faiss/utils/sorting.h +2 -2
data/vendor/faiss/faiss/utils/transpose/transpose-avx2-inl.h +2 -2
data/vendor/faiss/faiss/utils/transpose/transpose-avx512-inl.h +176 -0
data/vendor/faiss/faiss/utils/utils.cpp +17 -10
data/vendor/faiss/faiss/utils/utils.h +7 -3
metadata +22 -11
data/vendor/faiss/faiss/impl/code_distance/code_distance_avx512.h +0 -102

data/vendor/faiss/faiss/impl/pq4_fast_scan_search_qbs.cpp CHANGED Viewed

@@ -1,5 +1,5 @@
-/**
- * Copyright (c) Facebook, Inc. and its affiliates.
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
  *
  * This source code is licensed under the MIT license found in the
  * LICENSE file in the root directory of this source tree.
@@ -31,6 +31,8 @@ namespace {
  * writes results in a ResultHandler
  */
+#ifndef __AVX512F__
 template <int NQ, class ResultHandler, class Scaler>
 void kernel_accumulate_block(
         int nsq,
@@ -111,6 +113,451 @@ void kernel_accumulate_block(
     }
 }
+#else
+// a special version for NQ=1.
+// Despite the function being large in the text form, it compiles to a very
+//    compact assembler code.
+FAISS_PRAGMA_IMPRECISE_FUNCTION_BEGIN
+template <class ResultHandler, class Scaler>
+void kernel_accumulate_block_avx512_nq1(
+        int nsq,
+        const uint8_t* codes,
+        const uint8_t* LUT,
+        ResultHandler& res,
+        const Scaler& scaler) {
+    // NQ is kept in order to match the similarity to baseline function
+    constexpr int NQ = 1;
+    // distance accumulators. We can accept more for NQ=1
+    // layout: accu[q][b]: distance accumulator for vectors 32*b..32*b+15
+    simd32uint16 accu[NQ][4];
+    // layout: accu[q][b]: distance accumulator for vectors 32*b+16..32*b+31
+    simd32uint16 accu1[NQ][4];
+    for (int q = 0; q < NQ; q++) {
+        for (int b = 0; b < 4; b++) {
+            accu[q][b].clear();
+            accu1[q][b].clear();
+        }
+    }
+    // process "nsq - scaler.nscale" part
+    const int nsq_minus_nscale = nsq - scaler.nscale;
+    const int nsq_minus_nscale_8 = (nsq_minus_nscale / 8) * 8;
+    const int nsq_minus_nscale_4 = (nsq_minus_nscale / 4) * 4;
+    // process in chunks of 8
+    for (int sq = 0; sq < nsq_minus_nscale_8; sq += 8) {
+        // prefetch
+        simd64uint8 c(codes);
+        codes += 64;
+        simd64uint8 c1(codes);
+        codes += 64;
+        simd64uint8 mask(0xf);
+        // shift op does not exist for int8...
+        simd64uint8 chi = simd64uint8(simd32uint16(c) >> 4) & mask;
+        simd64uint8 clo = c & mask;
+        simd64uint8 c1hi = simd64uint8(simd32uint16(c1) >> 4) & mask;
+        simd64uint8 c1lo = c1 & mask;
+        for (int q = 0; q < NQ; q++) {
+            // load LUTs for 4 quantizers
+            simd64uint8 lut(LUT);
+            LUT += 64;
+            {
+                simd64uint8 res0 = lut.lookup_4_lanes(clo);
+                simd64uint8 res1 = lut.lookup_4_lanes(chi);
+                accu[q][0] += simd32uint16(res0);
+                accu[q][1] += simd32uint16(res0) >> 8;
+                accu[q][2] += simd32uint16(res1);
+                accu[q][3] += simd32uint16(res1) >> 8;
+            }
+        }
+        for (int q = 0; q < NQ; q++) {
+            // load LUTs for 4 quantizers
+            simd64uint8 lut(LUT);
+            LUT += 64;
+            {
+                simd64uint8 res0 = lut.lookup_4_lanes(c1lo);
+                simd64uint8 res1 = lut.lookup_4_lanes(c1hi);
+                accu1[q][0] += simd32uint16(res0);
+                accu1[q][1] += simd32uint16(res0) >> 8;
+                accu1[q][2] += simd32uint16(res1);
+                accu1[q][3] += simd32uint16(res1) >> 8;
+            }
+        }
+    }
+    // process leftovers: a single chunk of size 4
+    if (nsq_minus_nscale_8 != nsq_minus_nscale_4) {
+        // prefetch
+        simd64uint8 c(codes);
+        codes += 64;
+        simd64uint8 mask(0xf);
+        // shift op does not exist for int8...
+        simd64uint8 chi = simd64uint8(simd32uint16(c) >> 4) & mask;
+        simd64uint8 clo = c & mask;
+        for (int q = 0; q < NQ; q++) {
+            // load LUTs for 4 quantizers
+            simd64uint8 lut(LUT);
+            LUT += 64;
+            simd64uint8 res0 = lut.lookup_4_lanes(clo);
+            simd64uint8 res1 = lut.lookup_4_lanes(chi);
+            accu[q][0] += simd32uint16(res0);
+            accu[q][1] += simd32uint16(res0) >> 8;
+            accu[q][2] += simd32uint16(res1);
+            accu[q][3] += simd32uint16(res1) >> 8;
+        }
+    }
+    // process leftovers: a single chunk of size 2
+    if (nsq_minus_nscale_4 != nsq_minus_nscale) {
+        // prefetch
+        simd32uint8 c(codes);
+        codes += 32;
+        simd32uint8 mask(0xf);
+        // shift op does not exist for int8...
+        simd32uint8 chi = simd32uint8(simd16uint16(c) >> 4) & mask;
+        simd32uint8 clo = c & mask;
+        for (int q = 0; q < NQ; q++) {
+            // load LUTs for 2 quantizers
+            simd32uint8 lut(LUT);
+            LUT += 32;
+            simd32uint8 res0 = lut.lookup_2_lanes(clo);
+            simd32uint8 res1 = lut.lookup_2_lanes(chi);
+            accu[q][0] += simd32uint16(simd16uint16(res0));
+            accu[q][1] += simd32uint16(simd16uint16(res0) >> 8);
+            accu[q][2] += simd32uint16(simd16uint16(res1));
+            accu[q][3] += simd32uint16(simd16uint16(res1) >> 8);
+        }
+    }
+    // process "sq" part
+    const int nscale = scaler.nscale;
+    const int nscale_8 = (nscale / 8) * 8;
+    const int nscale_4 = (nscale / 4) * 4;
+    // process in chunks of 8
+    for (int sq = 0; sq < nscale_8; sq += 8) {
+        // prefetch
+        simd64uint8 c(codes);
+        codes += 64;
+        simd64uint8 c1(codes);
+        codes += 64;
+        simd64uint8 mask(0xf);
+        // shift op does not exist for int8...
+        simd64uint8 chi = simd64uint8(simd32uint16(c) >> 4) & mask;
+        simd64uint8 clo = c & mask;
+        simd64uint8 c1hi = simd64uint8(simd32uint16(c1) >> 4) & mask;
+        simd64uint8 c1lo = c1 & mask;
+        for (int q = 0; q < NQ; q++) {
+            // load LUTs for 4 quantizers
+            simd64uint8 lut(LUT);
+            LUT += 64;
+            {
+                simd64uint8 res0 = scaler.lookup(lut, clo);
+                accu[q][0] += scaler.scale_lo(res0); // handle vectors 0..15
+                accu[q][1] += scaler.scale_hi(res0); // handle vectors 16..31
+                simd64uint8 res1 = scaler.lookup(lut, chi);
+                accu[q][2] += scaler.scale_lo(res1); // handle vectors 32..47
+                accu[q][3] += scaler.scale_hi(res1); //  handle vectors 48..63
+            }
+        }
+        for (int q = 0; q < NQ; q++) {
+            // load LUTs for 4 quantizers
+            simd64uint8 lut(LUT);
+            LUT += 64;
+            {
+                simd64uint8 res0 = scaler.lookup(lut, c1lo);
+                accu1[q][0] += scaler.scale_lo(res0); // handle vectors 0..7
+                accu1[q][1] += scaler.scale_hi(res0); // handle vectors 8..15
+                simd64uint8 res1 = scaler.lookup(lut, c1hi);
+                accu1[q][2] += scaler.scale_lo(res1); // handle vectors 16..23
+                accu1[q][3] += scaler.scale_hi(res1); //  handle vectors 24..31
+            }
+        }
+    }
+    // process leftovers: a single chunk of size 4
+    if (nscale_8 != nscale_4) {
+        // prefetch
+        simd64uint8 c(codes);
+        codes += 64;
+        simd64uint8 mask(0xf);
+        // shift op does not exist for int8...
+        simd64uint8 chi = simd64uint8(simd32uint16(c) >> 4) & mask;
+        simd64uint8 clo = c & mask;
+        for (int q = 0; q < NQ; q++) {
+            // load LUTs for 4 quantizers
+            simd64uint8 lut(LUT);
+            LUT += 64;
+            simd64uint8 res0 = scaler.lookup(lut, clo);
+            accu[q][0] += scaler.scale_lo(res0); // handle vectors 0..15
+            accu[q][1] += scaler.scale_hi(res0); // handle vectors 16..31
+            simd64uint8 res1 = scaler.lookup(lut, chi);
+            accu[q][2] += scaler.scale_lo(res1); // handle vectors 32..47
+            accu[q][3] += scaler.scale_hi(res1); //  handle vectors 48..63
+        }
+    }
+    // process leftovers: a single chunk of size 2
+    if (nscale_4 != nscale) {
+        // prefetch
+        simd32uint8 c(codes);
+        codes += 32;
+        simd32uint8 mask(0xf);
+        // shift op does not exist for int8...
+        simd32uint8 chi = simd32uint8(simd16uint16(c) >> 4) & mask;
+        simd32uint8 clo = c & mask;
+        for (int q = 0; q < NQ; q++) {
+            // load LUTs for 2 quantizers
+            simd32uint8 lut(LUT);
+            LUT += 32;
+            simd32uint8 res0 = scaler.lookup(lut, clo);
+            accu[q][0] +=
+                    simd32uint16(scaler.scale_lo(res0)); // handle vectors 0..7
+            accu[q][1] +=
+                    simd32uint16(scaler.scale_hi(res0)); // handle vectors 8..15
+            simd32uint8 res1 = scaler.lookup(lut, chi);
+            accu[q][2] += simd32uint16(
+                    scaler.scale_lo(res1)); // handle vectors 16..23
+            accu[q][3] += simd32uint16(
+                    scaler.scale_hi(res1)); //  handle vectors 24..31
+        }
+    }
+    for (int q = 0; q < NQ; q++) {
+        for (int b = 0; b < 4; b++) {
+            accu[q][b] += accu1[q][b];
+        }
+    }
+    for (int q = 0; q < NQ; q++) {
+        accu[q][0] -= accu[q][1] << 8;
+        simd16uint16 dis0 = combine4x2(accu[q][0], accu[q][1]);
+        accu[q][2] -= accu[q][3] << 8;
+        simd16uint16 dis1 = combine4x2(accu[q][2], accu[q][3]);
+        res.handle(q, 0, dis0, dis1);
+    }
+}
+// general-purpose case
+FAISS_PRAGMA_IMPRECISE_FUNCTION_BEGIN
+template <int NQ, class ResultHandler, class Scaler>
+void kernel_accumulate_block_avx512_nqx(
+        int nsq,
+        const uint8_t* codes,
+        const uint8_t* LUT,
+        ResultHandler& res,
+        const Scaler& scaler) {
+    // dummy alloc to keep the windows compiler happy
+    constexpr int NQA = NQ > 0 ? NQ : 1;
+    // distance accumulators
+    // layout: accu[q][b]: distance accumulator for vectors 8*b..8*b+7
+    simd32uint16 accu[NQA][4];
+    for (int q = 0; q < NQ; q++) {
+        for (int b = 0; b < 4; b++) {
+            accu[q][b].clear();
+        }
+    }
+    // process "nsq - scaler.nscale" part
+    const int nsq_minus_nscale = nsq - scaler.nscale;
+    const int nsq_minus_nscale_4 = (nsq_minus_nscale / 4) * 4;
+    // process in chunks of 8
+    for (int sq = 0; sq < nsq_minus_nscale_4; sq += 4) {
+        // prefetch
+        simd64uint8 c(codes);
+        codes += 64;
+        simd64uint8 mask(0xf);
+        // shift op does not exist for int8...
+        simd64uint8 chi = simd64uint8(simd32uint16(c) >> 4) & mask;
+        simd64uint8 clo = c & mask;
+        for (int q = 0; q < NQ; q++) {
+            // load LUTs for 4 quantizers
+            simd32uint8 lut_a(LUT);
+            simd32uint8 lut_b(LUT + NQ * 32);
+            simd64uint8 lut(lut_a, lut_b);
+            LUT += 32;
+            {
+                simd64uint8 res0 = lut.lookup_4_lanes(clo);
+                simd64uint8 res1 = lut.lookup_4_lanes(chi);
+                accu[q][0] += simd32uint16(res0);
+                accu[q][1] += simd32uint16(res0) >> 8;
+                accu[q][2] += simd32uint16(res1);
+                accu[q][3] += simd32uint16(res1) >> 8;
+            }
+        }
+        LUT += NQ * 32;
+    }
+    // process leftovers: a single chunk of size 2
+    if (nsq_minus_nscale_4 != nsq_minus_nscale) {
+        // prefetch
+        simd32uint8 c(codes);
+        codes += 32;
+        simd32uint8 mask(0xf);
+        // shift op does not exist for int8...
+        simd32uint8 chi = simd32uint8(simd16uint16(c) >> 4) & mask;
+        simd32uint8 clo = c & mask;
+        for (int q = 0; q < NQ; q++) {
+            // load LUTs for 2 quantizers
+            simd32uint8 lut(LUT);
+            LUT += 32;
+            simd32uint8 res0 = lut.lookup_2_lanes(clo);
+            simd32uint8 res1 = lut.lookup_2_lanes(chi);
+            accu[q][0] += simd32uint16(simd16uint16(res0));
+            accu[q][1] += simd32uint16(simd16uint16(res0) >> 8);
+            accu[q][2] += simd32uint16(simd16uint16(res1));
+            accu[q][3] += simd32uint16(simd16uint16(res1) >> 8);
+        }
+    }
+    // process "sq" part
+    const int nscale = scaler.nscale;
+    const int nscale_4 = (nscale / 4) * 4;
+    // process in chunks of 4
+    for (int sq = 0; sq < nscale_4; sq += 4) {
+        // prefetch
+        simd64uint8 c(codes);
+        codes += 64;
+        simd64uint8 mask(0xf);
+        // shift op does not exist for int8...
+        simd64uint8 chi = simd64uint8(simd32uint16(c) >> 4) & mask;
+        simd64uint8 clo = c & mask;
+        for (int q = 0; q < NQ; q++) {
+            // load LUTs for 4 quantizers
+            simd32uint8 lut_a(LUT);
+            simd32uint8 lut_b(LUT + NQ * 32);
+            simd64uint8 lut(lut_a, lut_b);
+            LUT += 32;
+            {
+                simd64uint8 res0 = scaler.lookup(lut, clo);
+                accu[q][0] += scaler.scale_lo(res0); // handle vectors 0..7
+                accu[q][1] += scaler.scale_hi(res0); // handle vectors 8..15
+                simd64uint8 res1 = scaler.lookup(lut, chi);
+                accu[q][2] += scaler.scale_lo(res1); // handle vectors 16..23
+                accu[q][3] += scaler.scale_hi(res1); //  handle vectors 24..31
+            }
+        }
+        LUT += NQ * 32;
+    }
+    // process leftovers: a single chunk of size 2
+    if (nscale_4 != nscale) {
+        // prefetch
+        simd32uint8 c(codes);
+        codes += 32;
+        simd32uint8 mask(0xf);
+        // shift op does not exist for int8...
+        simd32uint8 chi = simd32uint8(simd16uint16(c) >> 4) & mask;
+        simd32uint8 clo = c & mask;
+        for (int q = 0; q < NQ; q++) {
+            // load LUTs for 2 quantizers
+            simd32uint8 lut(LUT);
+            LUT += 32;
+            simd32uint8 res0 = scaler.lookup(lut, clo);
+            accu[q][0] +=
+                    simd32uint16(scaler.scale_lo(res0)); // handle vectors 0..7
+            accu[q][1] +=
+                    simd32uint16(scaler.scale_hi(res0)); // handle vectors 8..15
+            simd32uint8 res1 = scaler.lookup(lut, chi);
+            accu[q][2] += simd32uint16(
+                    scaler.scale_lo(res1)); // handle vectors 16..23
+            accu[q][3] += simd32uint16(
+                    scaler.scale_hi(res1)); //  handle vectors 24..31
+        }
+    }
+    for (int q = 0; q < NQ; q++) {
+        accu[q][0] -= accu[q][1] << 8;
+        simd16uint16 dis0 = combine4x2(accu[q][0], accu[q][1]);
+        accu[q][2] -= accu[q][3] << 8;
+        simd16uint16 dis1 = combine4x2(accu[q][2], accu[q][3]);
+        res.handle(q, 0, dis0, dis1);
+    }
+}
+template <int NQ, class ResultHandler, class Scaler>
+void kernel_accumulate_block(
+        int nsq,
+        const uint8_t* codes,
+        const uint8_t* LUT,
+        ResultHandler& res,
+        const Scaler& scaler) {
+    if constexpr (NQ == 1) {
+        kernel_accumulate_block_avx512_nq1<ResultHandler, Scaler>(
+                nsq, codes, LUT, res, scaler);
+    } else {
+        kernel_accumulate_block_avx512_nqx<NQ, ResultHandler, Scaler>(
+                nsq, codes, LUT, res, scaler);
+    }
+}
+#endif
 // handle at most 4 blocks of queries
 template <int QBS, class ResultHandler, class Scaler>
 void accumulate_q_4step(
@@ -304,7 +751,7 @@ void pq4_accumulate_loop_qbs(
         SIMDResultHandler& res,
         const NormTableScaler* scaler) {
     Run_pq4_accumulate_loop_qbs consumer;
-    dispatch_SIMDResultHanlder(res, consumer, qbs, nb, nsq, codes, LUT, scaler);
+    dispatch_SIMDResultHandler(res, consumer, qbs, nb, nsq, codes, LUT, scaler);
 }
 /***************************************************************

data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.cpp CHANGED Viewed

@@ -1,5 +1,5 @@
-/**
- * Copyright (c) Facebook, Inc. and its affiliates.
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
  *
  * This source code is licensed under the MIT license found in the
  * LICENSE file in the root directory of this source tree.
@@ -95,7 +95,7 @@ void accum_and_store_tab(
         for (size_t ij = 1; ij < M; ij++) {
             reg += cbs[ij][kk];
         }
-        output[b * K + kk] = reg;
+        output[kk] = reg;
     }
 }
@@ -152,7 +152,7 @@ void accum_and_add_tab(
         for (size_t ij = 1; ij < M; ij++) {
             reg += cbs[ij][kk];
         }
-        output[b * K + kk] += reg;
+        output[kk] += reg;
     }
 }
@@ -664,8 +664,6 @@ void refine_beam_mp(
     std::unique_ptr<Index> assign_index;
     if (rq.assign_index_factory) {
         assign_index.reset((*rq.assign_index_factory)(rq.d));
-    } else {
-        assign_index.reset(new IndexFlatL2(rq.d));
     }
     // main loop
@@ -701,7 +699,9 @@ void refine_beam_mp(
                 assign_index.get(),
                 rq.approx_topk_mode);
-        assign_index->reset();
+        if (assign_index != nullptr) {
+            assign_index->reset();
+        }
         std::swap(codes_ptr, new_codes_ptr);
         std::swap(residuals_ptr, new_residuals_ptr);
@@ -809,7 +809,7 @@ void refine_beam_LUT_mp(
                 rq.codebook_offsets.data(),
                 query_cp + rq.codebook_offsets[m],
                 rq.total_codebook_size,
-                rq.cent_norms.data() + rq.codebook_offsets[m],
+                rq.centroid_norms.data() + rq.codebook_offsets[m],
                 m,
                 codes_ptr,
                 distances_ptr,

data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.h CHANGED Viewed

@@ -1,5 +1,5 @@
-/**
- * Copyright (c) Facebook, Inc. and its affiliates.
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
  *
  * This source code is licensed under the MIT license found in the
  * LICENSE file in the root directory of this source tree.
@@ -25,7 +25,7 @@ namespace faiss {
  * It allows low-level access to the encoding function, exposed mainly for unit
  * tests.
  *
- * @param n              number of vectors to hanlde
+ * @param n              number of vectors to handle
  * @param residuals      vectors to encode, size (n, beam_size, d)
  * @param cent           centroids, size (K, d)
  * @param beam_size      input beam size