RubyGems - faiss - Versions diffs - 0.2.4 → 0.2.5 - Mend

faiss 0.2.4 → 0.2.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (177) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +5 -0
data/README.md +23 -21
data/ext/faiss/extconf.rb +11 -0
data/ext/faiss/index.cpp +4 -4
data/ext/faiss/index_binary.cpp +6 -6
data/ext/faiss/product_quantizer.cpp +4 -4
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +13 -0
data/vendor/faiss/faiss/IVFlib.cpp +101 -2
data/vendor/faiss/faiss/IVFlib.h +26 -2
data/vendor/faiss/faiss/Index.cpp +36 -3
data/vendor/faiss/faiss/Index.h +43 -6
data/vendor/faiss/faiss/Index2Layer.cpp +6 -2
data/vendor/faiss/faiss/Index2Layer.h +6 -1
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +219 -16
data/vendor/faiss/faiss/IndexAdditiveQuantizer.h +63 -5
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.cpp +299 -0
data/vendor/faiss/faiss/IndexAdditiveQuantizerFastScan.h +199 -0
data/vendor/faiss/faiss/IndexBinary.cpp +20 -4
data/vendor/faiss/faiss/IndexBinary.h +18 -3
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +9 -2
data/vendor/faiss/faiss/IndexBinaryFlat.h +4 -2
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +4 -1
data/vendor/faiss/faiss/IndexBinaryFromFloat.h +2 -1
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +5 -1
data/vendor/faiss/faiss/IndexBinaryHNSW.h +2 -1
data/vendor/faiss/faiss/IndexBinaryHash.cpp +17 -4
data/vendor/faiss/faiss/IndexBinaryHash.h +8 -4
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +28 -13
data/vendor/faiss/faiss/IndexBinaryIVF.h +10 -7
data/vendor/faiss/faiss/IndexFastScan.cpp +626 -0
data/vendor/faiss/faiss/IndexFastScan.h +145 -0
data/vendor/faiss/faiss/IndexFlat.cpp +34 -21
data/vendor/faiss/faiss/IndexFlat.h +7 -4
data/vendor/faiss/faiss/IndexFlatCodes.cpp +35 -1
data/vendor/faiss/faiss/IndexFlatCodes.h +12 -0
data/vendor/faiss/faiss/IndexHNSW.cpp +66 -138
data/vendor/faiss/faiss/IndexHNSW.h +4 -2
data/vendor/faiss/faiss/IndexIDMap.cpp +247 -0
data/vendor/faiss/faiss/IndexIDMap.h +107 -0
data/vendor/faiss/faiss/IndexIVF.cpp +121 -33
data/vendor/faiss/faiss/IndexIVF.h +35 -16
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +84 -7
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.h +63 -1
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.cpp +590 -0
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.h +171 -0
data/vendor/faiss/faiss/IndexIVFFastScan.cpp +1290 -0
data/vendor/faiss/faiss/IndexIVFFastScan.h +213 -0
data/vendor/faiss/faiss/IndexIVFFlat.cpp +37 -17
data/vendor/faiss/faiss/IndexIVFFlat.h +4 -2
data/vendor/faiss/faiss/IndexIVFPQ.cpp +234 -50
data/vendor/faiss/faiss/IndexIVFPQ.h +5 -1
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +23 -852
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +7 -112
data/vendor/faiss/faiss/IndexIVFPQR.cpp +3 -3
data/vendor/faiss/faiss/IndexIVFPQR.h +1 -1
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +3 -1
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +2 -1
data/vendor/faiss/faiss/IndexLSH.cpp +4 -2
data/vendor/faiss/faiss/IndexLSH.h +2 -1
data/vendor/faiss/faiss/IndexLattice.cpp +7 -1
data/vendor/faiss/faiss/IndexLattice.h +3 -1
data/vendor/faiss/faiss/IndexNNDescent.cpp +4 -3
data/vendor/faiss/faiss/IndexNNDescent.h +2 -1
data/vendor/faiss/faiss/IndexNSG.cpp +37 -3
data/vendor/faiss/faiss/IndexNSG.h +25 -1
data/vendor/faiss/faiss/IndexPQ.cpp +106 -69
data/vendor/faiss/faiss/IndexPQ.h +19 -5
data/vendor/faiss/faiss/IndexPQFastScan.cpp +15 -450
data/vendor/faiss/faiss/IndexPQFastScan.h +15 -78
data/vendor/faiss/faiss/IndexPreTransform.cpp +47 -8
data/vendor/faiss/faiss/IndexPreTransform.h +15 -3
data/vendor/faiss/faiss/IndexRefine.cpp +8 -4
data/vendor/faiss/faiss/IndexRefine.h +4 -2
data/vendor/faiss/faiss/IndexReplicas.cpp +4 -2
data/vendor/faiss/faiss/IndexReplicas.h +2 -1
data/vendor/faiss/faiss/IndexRowwiseMinMax.cpp +438 -0
data/vendor/faiss/faiss/IndexRowwiseMinMax.h +92 -0
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +26 -15
data/vendor/faiss/faiss/IndexScalarQuantizer.h +6 -7
data/vendor/faiss/faiss/IndexShards.cpp +4 -1
data/vendor/faiss/faiss/IndexShards.h +2 -1
data/vendor/faiss/faiss/MetaIndexes.cpp +5 -178
data/vendor/faiss/faiss/MetaIndexes.h +3 -81
data/vendor/faiss/faiss/VectorTransform.cpp +43 -0
data/vendor/faiss/faiss/VectorTransform.h +22 -4
data/vendor/faiss/faiss/clone_index.cpp +23 -1
data/vendor/faiss/faiss/clone_index.h +3 -0
data/vendor/faiss/faiss/cppcontrib/SaDecodeKernels.h +300 -0
data/vendor/faiss/faiss/cppcontrib/detail/CoarseBitType.h +24 -0
data/vendor/faiss/faiss/cppcontrib/detail/UintReader.h +195 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-avx2-inl.h +2058 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-inl.h +408 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-neon-inl.h +2147 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/MinMax-inl.h +460 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/MinMaxFP16-inl.h +465 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-avx2-inl.h +1618 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-inl.h +251 -0
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-neon-inl.h +1452 -0
data/vendor/faiss/faiss/gpu/GpuAutoTune.cpp +1 -0
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +0 -4
data/vendor/faiss/faiss/gpu/GpuIndex.h +28 -4
data/vendor/faiss/faiss/gpu/GpuIndexBinaryFlat.h +2 -1
data/vendor/faiss/faiss/gpu/GpuIndexFlat.h +10 -8
data/vendor/faiss/faiss/gpu/GpuIndexIVF.h +75 -14
data/vendor/faiss/faiss/gpu/GpuIndexIVFFlat.h +19 -32
data/vendor/faiss/faiss/gpu/GpuIndexIVFPQ.h +22 -31
data/vendor/faiss/faiss/gpu/GpuIndexIVFScalarQuantizer.h +22 -28
data/vendor/faiss/faiss/gpu/GpuResources.cpp +14 -0
data/vendor/faiss/faiss/gpu/GpuResources.h +16 -3
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +3 -3
data/vendor/faiss/faiss/gpu/impl/IndexUtils.h +32 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexBinaryFlat.cpp +1 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +311 -75
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +10 -0
data/vendor/faiss/faiss/gpu/test/TestUtils.h +3 -0
data/vendor/faiss/faiss/gpu/test/demo_ivfpq_indexing_gpu.cpp +2 -2
data/vendor/faiss/faiss/gpu/utils/DeviceUtils.h +5 -4
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +116 -47
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +44 -13
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +0 -54
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +0 -76
data/vendor/faiss/faiss/impl/DistanceComputer.h +64 -0
data/vendor/faiss/faiss/impl/HNSW.cpp +123 -27
data/vendor/faiss/faiss/impl/HNSW.h +19 -16
data/vendor/faiss/faiss/impl/IDSelector.cpp +125 -0
data/vendor/faiss/faiss/impl/IDSelector.h +135 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +6 -28
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.h +6 -1
data/vendor/faiss/faiss/impl/LookupTableScaler.h +77 -0
data/vendor/faiss/faiss/impl/NNDescent.cpp +1 -0
data/vendor/faiss/faiss/impl/NSG.cpp +1 -1
data/vendor/faiss/faiss/impl/ProductAdditiveQuantizer.cpp +383 -0
data/vendor/faiss/faiss/impl/ProductAdditiveQuantizer.h +154 -0
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +225 -145
data/vendor/faiss/faiss/impl/ProductQuantizer.h +29 -10
data/vendor/faiss/faiss/impl/Quantizer.h +43 -0
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +192 -36
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +40 -20
data/vendor/faiss/faiss/impl/ResultHandler.h +96 -0
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +97 -173
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +18 -18
data/vendor/faiss/faiss/impl/index_read.cpp +240 -9
data/vendor/faiss/faiss/impl/index_write.cpp +237 -5
data/vendor/faiss/faiss/impl/kmeans1d.cpp +6 -4
data/vendor/faiss/faiss/impl/pq4_fast_scan.cpp +56 -16
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +25 -8
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +66 -25
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_qbs.cpp +75 -27
data/vendor/faiss/faiss/index_factory.cpp +196 -7
data/vendor/faiss/faiss/index_io.h +5 -0
data/vendor/faiss/faiss/invlists/DirectMap.cpp +1 -0
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +4 -1
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +2 -1
data/vendor/faiss/faiss/python/python_callbacks.cpp +27 -0
data/vendor/faiss/faiss/python/python_callbacks.h +15 -0
data/vendor/faiss/faiss/utils/Heap.h +31 -15
data/vendor/faiss/faiss/utils/distances.cpp +380 -56
data/vendor/faiss/faiss/utils/distances.h +113 -15
data/vendor/faiss/faiss/utils/distances_simd.cpp +726 -6
data/vendor/faiss/faiss/utils/extra_distances.cpp +12 -7
data/vendor/faiss/faiss/utils/extra_distances.h +3 -1
data/vendor/faiss/faiss/utils/fp16-fp16c.h +21 -0
data/vendor/faiss/faiss/utils/fp16-inl.h +101 -0
data/vendor/faiss/faiss/utils/fp16.h +11 -0
data/vendor/faiss/faiss/utils/hamming-inl.h +54 -0
data/vendor/faiss/faiss/utils/hamming.cpp +0 -48
data/vendor/faiss/faiss/utils/ordered_key_value.h +10 -0
data/vendor/faiss/faiss/utils/quantize_lut.cpp +62 -0
data/vendor/faiss/faiss/utils/quantize_lut.h +20 -0
data/vendor/faiss/faiss/utils/random.cpp +53 -0
data/vendor/faiss/faiss/utils/random.h +5 -0
data/vendor/faiss/faiss/utils/simdlib_avx2.h +4 -0
data/vendor/faiss/faiss/utils/simdlib_emulated.h +6 -1
data/vendor/faiss/faiss/utils/simdlib_neon.h +7 -2
metadata +37 -3

data/vendor/faiss/faiss/cppcontrib/sa_decode/MinMaxFP16-inl.h ADDED Viewed

@@ -0,0 +1,465 @@
+#pragma once
+#include <cstddef>
+#include <cstdint>
+#include <faiss/utils/fp16.h>
+namespace faiss {
+namespace cppcontrib {
+template <typename SubIndexT>
+struct IndexMinMaxFP16Decoder {
+    static constexpr intptr_t dim = SubIndexT::dim;
+    // Process 1 sample.
+    // Performs outputStore = scaler * decoded(code) + minv
+    static void store(
+            const float* const __restrict pqCoarseCentroids,
+            const float* const __restrict pqFineCentroids,
+            const uint8_t* const __restrict code,
+            float* const __restrict outputStore) {
+        const uint16_t* const __restrict codeFP16 =
+                reinterpret_cast<const uint16_t*>(code);
+        const float scaler = faiss::decode_fp16(codeFP16[0]);
+        const float minv = faiss::decode_fp16(codeFP16[1]);
+        SubIndexT::store(
+                pqCoarseCentroids,
+                pqFineCentroids,
+                code + 2 * sizeof(uint16_t),
+                outputStore);
+        for (intptr_t i = 0; i < SubIndexT::dim; i++) {
+            outputStore[i] = outputStore[i] * scaler + minv;
+        }
+    }
+    // Process 1 sample.
+    // Performs outputStore = scaler * decoded(code) + minv
+    static void store(
+            const float* const __restrict pqFineCentroids,
+            const uint8_t* const __restrict code,
+            float* const __restrict outputStore) {
+        const uint16_t* const __restrict codeFP16 =
+                reinterpret_cast<const uint16_t*>(code);
+        const float scaler = faiss::decode_fp16(codeFP16[0]);
+        const float minv = faiss::decode_fp16(codeFP16[1]);
+        SubIndexT::store(
+                pqFineCentroids, code + 2 * sizeof(uint16_t), outputStore);
+        for (intptr_t i = 0; i < SubIndexT::dim; i++) {
+            outputStore[i] = outputStore[i] * scaler + minv;
+        }
+    }
+    // Process 1 sample.
+    // Performs
+    //  * outputAccum += weight * scaler * decoded(code)
+    //  * minvAccum += weight * minv
+    static void accum(
+            const float* const __restrict pqCoarseCentroids,
+            const float* const __restrict pqFineCentroids,
+            const uint8_t* const __restrict code,
+            const float weight,
+            float* const __restrict outputAccum,
+            float& minvAccum) {
+        const uint16_t* const __restrict codeFP16 =
+                reinterpret_cast<const uint16_t*>(code);
+        const float scaler = faiss::decode_fp16(codeFP16[0]) * weight;
+        const float minv = faiss::decode_fp16(codeFP16[1]) * weight;
+        SubIndexT::accum(
+                pqCoarseCentroids,
+                pqFineCentroids,
+                code + 2 * sizeof(uint16_t),
+                scaler,
+                outputAccum);
+        minvAccum += minv;
+    }
+    // Process 1 sample.
+    // Performs
+    //  * outputAccum += weight * scaler * decoded(code)
+    //  * minvAccum += weight * minv
+    static void accum(
+            const float* const __restrict pqFineCentroids,
+            const uint8_t* const __restrict code,
+            const float weight,
+            float* const __restrict outputAccum,
+            float& minvAccum) {
+        const uint16_t* const __restrict codeFP16 =
+                reinterpret_cast<const uint16_t*>(code);
+        const float scaler = faiss::decode_fp16(codeFP16[0]) * weight;
+        const float minv = faiss::decode_fp16(codeFP16[1]) * weight;
+        SubIndexT::accum(
+                pqFineCentroids,
+                code + 2 * sizeof(uint16_t),
+                scaler,
+                outputAccum);
+        minvAccum += minv;
+    }
+    // Process 2 samples.
+    // Each code uses its own coarse pq centroids table and fine pq centroids
+    // table.
+    //
+    // Performs
+    //  * outputAccum += weight0 * scaler0 * decoded(code0)
+    //                 + weight1 * scaler1 * decoded(code1)
+    //  * minvAccum += weight0 * minv0 + weight1 * minv1
+    static void accum(
+            const float* const __restrict pqCoarseCentroids0,
+            const float* const __restrict pqFineCentroids0,
+            const uint8_t* const __restrict code0,
+            const float weight0,
+            const float* const __restrict pqCoarseCentroids1,
+            const float* const __restrict pqFineCentroids1,
+            const uint8_t* const __restrict code1,
+            const float weight1,
+            float* const __restrict outputAccum,
+            float& minvAccum) {
+        const uint16_t* const __restrict code0FP16 =
+                reinterpret_cast<const uint16_t*>(code0);
+        const float scaler0 = faiss::decode_fp16(code0FP16[0]) * weight0;
+        const float minv0 = faiss::decode_fp16(code0FP16[1]) * weight0;
+        const uint16_t* const __restrict code1FP16 =
+                reinterpret_cast<const uint16_t*>(code1);
+        const float scaler1 = faiss::decode_fp16(code1FP16[0]) * weight1;
+        const float minv1 = faiss::decode_fp16(code1FP16[1]) * weight1;
+        SubIndexT::accum(
+                pqCoarseCentroids0,
+                pqFineCentroids0,
+                code0 + 2 * sizeof(uint16_t),
+                scaler0,
+                pqCoarseCentroids1,
+                pqFineCentroids1,
+                code1 + 2 * sizeof(uint16_t),
+                scaler1,
+                outputAccum);
+        minvAccum += minv0 + minv1;
+    }
+    // Process 2 samples.
+    // Coarse pq centroids table and fine pq centroids table are shared among
+    // codes.
+    //
+    // Performs
+    //  * outputAccum += weight0 * scaler0 * decoded(code0)
+    //                 + weight1 * scaler1 * decoded(code1)
+    //  * minvAccum += weight0 * minv0 + weight1 * minv1
+    static void accum(
+            const float* const __restrict pqCoarseCentroids,
+            const float* const __restrict pqFineCentroids,
+            const uint8_t* const __restrict code0,
+            const float weight0,
+            const uint8_t* const __restrict code1,
+            const float weight1,
+            float* const __restrict outputAccum,
+            float& minvAccum) {
+        const uint16_t* const __restrict code0FP16 =
+                reinterpret_cast<const uint16_t*>(code0);
+        const float scaler0 = faiss::decode_fp16(code0FP16[0]) * weight0;
+        const float minv0 = faiss::decode_fp16(code0FP16[1]) * weight0;
+        const uint16_t* const __restrict code1FP16 =
+                reinterpret_cast<const uint16_t*>(code1);
+        const float scaler1 = faiss::decode_fp16(code1FP16[0]) * weight1;
+        const float minv1 = faiss::decode_fp16(code1FP16[1]) * weight1;
+        SubIndexT::accum(
+                pqCoarseCentroids,
+                pqFineCentroids,
+                code0 + 2 * sizeof(uint16_t),
+                scaler0,
+                code1 + 2 * sizeof(uint16_t),
+                scaler1,
+                outputAccum);
+        minvAccum += minv0 + minv1;
+    }
+    // Process 2 samples.
+    // Each code uses its own fine pq centroids table.
+    //
+    // Performs
+    //  * outputAccum += weight0 * scaler0 * decoded(code0)
+    //                 + weight1 * scaler1 * decoded(code1)
+    //  * minvAccum += weight0 * minv0 + weight1 * minv1
+    static void accum(
+            const float* const __restrict pqFineCentroids0,
+            const uint8_t* const __restrict code0,
+            const float weight0,
+            const float* const __restrict pqFineCentroids1,
+            const uint8_t* const __restrict code1,
+            const float weight1,
+            float* const __restrict outputAccum,
+            float& minvAccum) {
+        const uint16_t* const __restrict code0FP16 =
+                reinterpret_cast<const uint16_t*>(code0);
+        const float scaler0 = faiss::decode_fp16(code0FP16[0]) * weight0;
+        const float minv0 = faiss::decode_fp16(code0FP16[1]) * weight0;
+        const uint16_t* const __restrict code1FP16 =
+                reinterpret_cast<const uint16_t*>(code1);
+        const float scaler1 = faiss::decode_fp16(code1FP16[0]) * weight1;
+        const float minv1 = faiss::decode_fp16(code1FP16[1]) * weight1;
+        SubIndexT::accum(
+                pqFineCentroids0,
+                code0 + 2 * sizeof(uint16_t),
+                scaler0,
+                pqFineCentroids1,
+                code1 + 2 * sizeof(uint16_t),
+                scaler1,
+                outputAccum);
+        minvAccum += minv0 + minv1;
+    }
+    // Process 2 samples.
+    // Fine pq centroids table is shared among codes.
+    //
+    // Performs
+    //  * outputAccum += weight0 * scaler0 * decoded(code0)
+    //                 + weight1 * scaler1 * decoded(code1)
+    //  * minvAccum += weight0 * minv0 + weight1 * minv1
+    static void accum(
+            const float* const __restrict pqFineCentroids,
+            const uint8_t* const __restrict code0,
+            const float weight0,
+            const uint8_t* const __restrict code1,
+            const float weight1,
+            float* const __restrict outputAccum,
+            float& minvAccum) {
+        const uint16_t* const __restrict code0FP16 =
+                reinterpret_cast<const uint16_t*>(code0);
+        const float scaler0 = faiss::decode_fp16(code0FP16[0]) * weight0;
+        const float minv0 = faiss::decode_fp16(code0FP16[1]) * weight0;
+        const uint16_t* const __restrict code1FP16 =
+                reinterpret_cast<const uint16_t*>(code1);
+        const float scaler1 = faiss::decode_fp16(code1FP16[0]) * weight1;
+        const float minv1 = faiss::decode_fp16(code1FP16[1]) * weight1;
+        SubIndexT::accum(
+                pqFineCentroids,
+                code0 + 2 * sizeof(uint16_t),
+                scaler0,
+                code1 + 2 * sizeof(uint16_t),
+                scaler1,
+                outputAccum);
+        minvAccum += minv0 + minv1;
+    }
+    // Process 3 samples.
+    // Each code uses its own coarse pq centroids table and fine pq centroids
+    // table.
+    //
+    // Performs
+    //  * outputAccum += weight0 * scaler0 * decoded(code0)
+    //                 + weight1 * scaler1 * decoded(code1)
+    //                 + weight2 * scaler2 * decoded(code2)
+    //  * minvAccum += weight0 * minv0 + weight1 * minv1 + weight2 * minv2
+    static void accum(
+            const float* const __restrict pqCoarseCentroids0,
+            const float* const __restrict pqFineCentroids0,
+            const uint8_t* const __restrict code0,
+            const float weight0,
+            const float* const __restrict pqCoarseCentroids1,
+            const float* const __restrict pqFineCentroids1,
+            const uint8_t* const __restrict code1,
+            const float weight1,
+            const float* const __restrict pqCoarseCentroids2,
+            const float* const __restrict pqFineCentroids2,
+            const uint8_t* const __restrict code2,
+            const float weight2,
+            float* const __restrict outputAccum,
+            float& minvAccum) {
+        const uint16_t* const __restrict code0FP16 =
+                reinterpret_cast<const uint16_t*>(code0);
+        const float scaler0 = faiss::decode_fp16(code0FP16[0]) * weight0;
+        const float minv0 = faiss::decode_fp16(code0FP16[1]) * weight0;
+        const uint16_t* const __restrict code1FP16 =
+                reinterpret_cast<const uint16_t*>(code1);
+        const float scaler1 = faiss::decode_fp16(code1FP16[0]) * weight1;
+        const float minv1 = faiss::decode_fp16(code1FP16[1]) * weight1;
+        const uint16_t* const __restrict code2FP16 =
+                reinterpret_cast<const uint16_t*>(code2);
+        const float scaler2 = faiss::decode_fp16(code2FP16[0]) * weight2;
+        const float minv2 = faiss::decode_fp16(code2FP16[1]) * weight2;
+        SubIndexT::accum(
+                pqCoarseCentroids0,
+                pqFineCentroids0,
+                code0 + 2 * sizeof(uint16_t),
+                scaler0,
+                pqCoarseCentroids1,
+                pqFineCentroids1,
+                code1 + 2 * sizeof(uint16_t),
+                scaler1,
+                pqCoarseCentroids2,
+                pqFineCentroids2,
+                code2 + 2 * sizeof(uint16_t),
+                scaler2,
+                outputAccum);
+        minvAccum += minv0 + minv1 + minv2;
+    }
+    // Process 3 samples.
+    // Coarse pq centroids table and fine pq centroids table are shared among
+    // codes.
+    //
+    // Performs
+    //  * outputAccum += weight0 * scaler0 * decoded(code0)
+    //                 + weight1 * scaler1 * decoded(code1)
+    //                 + weight2 * scaler2 * decoded(code2)
+    //  * minvAccum += weight0 * minv0 + weight1 * minv1 + weight2 * minv2
+    static void accum(
+            const float* const __restrict pqCoarseCentroids,
+            const float* const __restrict pqFineCentroids,
+            const uint8_t* const __restrict code0,
+            const float weight0,
+            const uint8_t* const __restrict code1,
+            const float weight1,
+            const uint8_t* const __restrict code2,
+            const float weight2,
+            float* const __restrict outputAccum,
+            float& minvAccum) {
+        const uint16_t* const __restrict code0FP16 =
+                reinterpret_cast<const uint16_t*>(code0);
+        const float scaler0 = faiss::decode_fp16(code0FP16[0]) * weight0;
+        const float minv0 = faiss::decode_fp16(code0FP16[1]) * weight0;
+        const uint16_t* const __restrict code1FP16 =
+                reinterpret_cast<const uint16_t*>(code1);
+        const float scaler1 = faiss::decode_fp16(code1FP16[0]) * weight1;
+        const float minv1 = faiss::decode_fp16(code1FP16[1]) * weight1;
+        const uint16_t* const __restrict code2FP16 =
+                reinterpret_cast<const uint16_t*>(code2);
+        const float scaler2 = faiss::decode_fp16(code2FP16[0]) * weight2;
+        const float minv2 = faiss::decode_fp16(code2FP16[1]) * weight2;
+        SubIndexT::accum(
+                pqCoarseCentroids,
+                pqFineCentroids,
+                code0 + 2 * sizeof(uint16_t),
+                scaler0,
+                code1 + 2 * sizeof(uint16_t),
+                scaler1,
+                code2 + 2 * sizeof(uint16_t),
+                scaler2,
+                outputAccum);
+        minvAccum += minv0 + minv1 + minv2;
+    }
+    // Process 3 samples.
+    // Each code uses its own fine pq centroids table.
+    //
+    // Performs
+    //  * outputAccum += weight0 * scaler0 * decoded(code0)
+    //                 + weight1 * scaler1 * decoded(code1)
+    //                 + weight2 * scaler2 * decoded(code2)
+    //  * minvAccum += weight0 * minv0 + weight1 * minv1 + weight2 * minv2
+    static void accum(
+            const float* const __restrict pqFineCentroids0,
+            const uint8_t* const __restrict code0,
+            const float weight0,
+            const float* const __restrict pqFineCentroids1,
+            const uint8_t* const __restrict code1,
+            const float weight1,
+            const float* const __restrict pqFineCentroids2,
+            const uint8_t* const __restrict code2,
+            const float weight2,
+            float* const __restrict outputAccum,
+            float& minvAccum) {
+        const uint16_t* const __restrict code0FP16 =
+                reinterpret_cast<const uint16_t*>(code0);
+        const float scaler0 = faiss::decode_fp16(code0FP16[0]) * weight0;
+        const float minv0 = faiss::decode_fp16(code0FP16[1]) * weight0;
+        const uint16_t* const __restrict code1FP16 =
+                reinterpret_cast<const uint16_t*>(code1);
+        const float scaler1 = faiss::decode_fp16(code1FP16[0]) * weight1;
+        const float minv1 = faiss::decode_fp16(code1FP16[1]) * weight1;
+        const uint16_t* const __restrict code2FP16 =
+                reinterpret_cast<const uint16_t*>(code2);
+        const float scaler2 = faiss::decode_fp16(code2FP16[0]) * weight2;
+        const float minv2 = faiss::decode_fp16(code2FP16[1]) * weight2;
+        SubIndexT::accum(
+                pqFineCentroids0,
+                code0 + 2 * sizeof(uint16_t),
+                scaler0,
+                pqFineCentroids1,
+                code1 + 2 * sizeof(uint16_t),
+                scaler1,
+                pqFineCentroids2,
+                code2 + 2 * sizeof(uint16_t),
+                scaler2,
+                outputAccum);
+        minvAccum += minv0 + minv1 + minv2;
+    }
+    // Process 3 samples.
+    // Fine pq centroids table is shared among codes.
+    //
+    // Performs
+    //  * outputAccum += weight0 * scaler0 * decoded(code0)
+    //                 + weight1 * scaler1 * decoded(code1)
+    //                 + weight2 * scaler2 * decoded(code2)
+    //  * minvAccum += weight0 * minv0 + weight1 * minv1 + weight2 * minv2
+    static void accum(
+            const float* const __restrict pqFineCentroids,
+            const uint8_t* const __restrict code0,
+            const float weight0,
+            const uint8_t* const __restrict code1,
+            const float weight1,
+            const uint8_t* const __restrict code2,
+            const float weight2,
+            float* const __restrict outputAccum,
+            float& minvAccum) {
+        const uint16_t* const __restrict code0FP16 =
+                reinterpret_cast<const uint16_t*>(code0);
+        const float scaler0 = faiss::decode_fp16(code0FP16[0]) * weight0;
+        const float minv0 = faiss::decode_fp16(code0FP16[1]) * weight0;
+        const uint16_t* const __restrict code1FP16 =
+                reinterpret_cast<const uint16_t*>(code1);
+        const float scaler1 = faiss::decode_fp16(code1FP16[0]) * weight1;
+        const float minv1 = faiss::decode_fp16(code1FP16[1]) * weight1;
+        const uint16_t* const __restrict code2FP16 =
+                reinterpret_cast<const uint16_t*>(code2);
+        const float scaler2 = faiss::decode_fp16(code2FP16[0]) * weight2;
+        const float minv2 = faiss::decode_fp16(code2FP16[1]) * weight2;
+        SubIndexT::accum(
+                pqFineCentroids,
+                code0 + 2 * sizeof(uint16_t),
+                scaler0,
+                code1 + 2 * sizeof(uint16_t),
+                scaler1,
+                code2 + 2 * sizeof(uint16_t),
+                scaler2,
+                outputAccum);
+        minvAccum += minv0 + minv1 + minv2;
+    }
+};
+} // namespace cppcontrib
+} // namespace faiss