RubyGems - faiss - Versions diffs - 0.6.1 → 0.6.2 - Mend

faiss 0.6.1 → 0.6.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (93) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +4 -0
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/Index.h +1 -1
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +6 -7
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +3 -3
data/vendor/faiss/faiss/IndexHNSW.cpp +173 -143
data/vendor/faiss/faiss/IndexIVF.cpp +2 -2
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +2 -2
data/vendor/faiss/faiss/IndexIVFFlat.cpp +3 -1
data/vendor/faiss/faiss/IndexIVFFlatPanorama.cpp +3 -3
data/vendor/faiss/faiss/IndexIVFPQ.cpp +2 -3
data/vendor/faiss/faiss/IndexIVFPQR.cpp +2 -3
data/vendor/faiss/faiss/IndexIVFRaBitQ.cpp +4 -13
data/vendor/faiss/faiss/IndexNNDescent.cpp +1 -1
data/vendor/faiss/faiss/IndexNSG.cpp +1 -2
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +68 -6
data/vendor/faiss/faiss/IndexScalarQuantizer.h +10 -0
data/vendor/faiss/faiss/cppcontrib/SaDecodeKernels.h +1 -1
data/vendor/faiss/faiss/cppcontrib/sa_decode/Level2-neon-inl.h +902 -12
data/vendor/faiss/faiss/cppcontrib/sa_decode/PQ-neon-inl.h +702 -10
data/vendor/faiss/faiss/factory_tools.cpp +4 -0
data/vendor/faiss/faiss/gpu/GpuResources.h +3 -2
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +11 -12
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +3 -3
data/vendor/faiss/faiss/gpu_metal/MetalDistance.h +87 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndex.h +7 -0
data/vendor/faiss/faiss/gpu_metal/MetalIndexIVFFlat.h +181 -0
data/vendor/faiss/faiss/gpu_metal/MetalKernels.h +48 -3
data/vendor/faiss/faiss/gpu_metal/MetalPythonBridge.h +45 -0
data/vendor/faiss/faiss/gpu_metal/impl/MetalIVFFlat.h +193 -0
data/vendor/faiss/faiss/impl/HNSW.cpp +556 -199
data/vendor/faiss/faiss/impl/HNSW.h +51 -13
data/vendor/faiss/faiss/impl/NSG.cpp +15 -11
data/vendor/faiss/faiss/impl/Panorama.h +11 -0
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +25 -2
data/vendor/faiss/faiss/impl/RaBitQUtils.cpp +1 -1
data/vendor/faiss/faiss/impl/RaBitQuantizer.cpp +7 -1
data/vendor/faiss/faiss/impl/ResultHandler.h +1 -0
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +271 -8
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +50 -0
data/vendor/faiss/faiss/impl/VisitedTable.cpp +10 -10
data/vendor/faiss/faiss/impl/VisitedTable.h +69 -34
data/vendor/faiss/faiss/impl/fast_scan/dispatching.h +3 -1
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.cpp +35 -43
data/vendor/faiss/faiss/impl/hnsw/MinimaxHeap.h +64 -15
data/vendor/faiss/faiss/impl/hnsw/avx2.cpp +86 -40
data/vendor/faiss/faiss/impl/hnsw/avx512.cpp +81 -50
data/vendor/faiss/faiss/impl/index_read.cpp +100 -39
data/vendor/faiss/faiss/impl/index_write.cpp +1 -0
data/vendor/faiss/faiss/impl/io_macros.h +25 -0
data/vendor/faiss/faiss/impl/platform_macros.h +12 -8
data/vendor/faiss/faiss/impl/pq_code_distance/avx2.cpp +2 -0
data/vendor/faiss/faiss/impl/pq_code_distance/avx512.cpp +2 -0
data/vendor/faiss/faiss/impl/pq_code_distance/neon.cpp +2 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.cpp +20 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-inl.h +36 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-sve.cpp +5 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_scan_impl.h +105 -0
data/vendor/faiss/faiss/impl/pq_code_distance/rvv.cpp +2 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/distance_computers.h +6 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/quantizers.h +327 -18
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx2.cpp +264 -27
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx512-impl.h +553 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx512-spr.cpp +559 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx512.cpp +199 -27
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-dispatch.h +366 -3
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-neon.cpp +144 -19
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-rvv.cpp +26 -0
data/vendor/faiss/faiss/impl/simd_dispatch.h +65 -8
data/vendor/faiss/faiss/index_factory.cpp +5 -1
data/vendor/faiss/faiss/index_io.h +16 -0
data/vendor/faiss/faiss/invlists/DirectMap.cpp +4 -1
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +13 -13
data/vendor/faiss/faiss/invlists/InvertedLists.h +2 -2
data/vendor/faiss/faiss/svs/IndexSVSVamana.cpp +119 -22
data/vendor/faiss/faiss/svs/IndexSVSVamana.h +15 -5
data/vendor/faiss/faiss/svs/IndexSVSVamanaLVQ.cpp +3 -2
data/vendor/faiss/faiss/svs/IndexSVSVamanaLVQ.h +2 -1
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.cpp +65 -24
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.h +3 -2
data/vendor/faiss/faiss/utils/bf16.h +34 -0
data/vendor/faiss/faiss/utils/distances_simd.cpp +0 -1
data/vendor/faiss/faiss/utils/hamming.cpp +8 -8
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx2.cpp +2 -1
data/vendor/faiss/faiss/utils/hamming_distance/hamming_avx512_spr.cpp +15 -0
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx512.h +6 -30
data/vendor/faiss/faiss/utils/hamming_distance/hamming_computer-avx512_spr.h +171 -0
data/vendor/faiss/faiss/utils/partitioning.cpp +0 -2
data/vendor/faiss/faiss/utils/simd_impl/partitioning_simdlib256.h +14 -68
data/vendor/faiss/faiss/utils/simd_impl/rabitq_avx512_spr.cpp +343 -0
data/vendor/faiss/faiss/utils/simd_levels.cpp +12 -2
metadata +12 -2

data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx512.cpp CHANGED Viewed

@@ -214,6 +214,12 @@ struct QuantizerTemplate<
         return simd16float32(_mm512_fmadd_ps(
                 xi, _mm512_set1_ps(this->vdiff), _mm512_set1_ps(this->vmin)));
     }
+    /// Raw codec decode without denormalization
+    FAISS_ALWAYS_INLINE simd16float32
+    decode_16_raw(const uint8_t* code, int i) const {
+        return Codec::decode_16_components(code, i);
+    }
 };
 template <class Codec>
@@ -247,32 +253,78 @@ struct QuantizerTemplate<
  * TurboQuant MSE quantizer
  **********************************************************/
-#define DEFINE_TQMSE_AVX512_SPECIALIZATION(NBITS, INDEX_EXPR)               \
-    template <>                                                             \
-    struct QuantizerTurboQuantMSE<NBITS, SIMDLevel::AVX512>                 \
-            : QuantizerTurboQuantMSE<NBITS, SIMDLevel::NONE> {              \
-        using Base = QuantizerTurboQuantMSE<NBITS, SIMDLevel::NONE>;        \
-                                                                            \
-        QuantizerTurboQuantMSE(size_t d, const std::vector<float>& trained) \
-                : Base(d, trained) {                                        \
-            assert(d % 16 == 0);                                            \
-        }                                                                   \
-                                                                            \
-        FAISS_ALWAYS_INLINE simd16float32                                   \
-        reconstruct_16_components(const uint8_t* code, int i) const {       \
-            const __m512i indices = (INDEX_EXPR);                           \
-            return simd16float32(_mm512_i32gather_ps(                       \
-                    indices, this->centroids, sizeof(float)));              \
-        }                                                                   \
-    }
-DEFINE_TQMSE_AVX512_SPECIALIZATION(1, unpack_16x1bit_to_u32(code, i));
-DEFINE_TQMSE_AVX512_SPECIALIZATION(2, unpack_16x2bit_to_u32(code, i));
-DEFINE_TQMSE_AVX512_SPECIALIZATION(3, unpack_16x3bit_to_u32(code, i));
-DEFINE_TQMSE_AVX512_SPECIALIZATION(4, unpack_16x4bit_to_u32(code, i));
-#undef DEFINE_TQMSE_AVX512_SPECIALIZATION
+// 1-bit MSE AVX512: 16 comparisons → 2 bytes via mask compare.
+template <>
+struct QuantizerTurboQuantMSE<1, SIMDLevel::AVX512>
+        : QuantizerTurboQuantMSE<1, SIMDLevel::NONE> {
+    using Base = QuantizerTurboQuantMSE<1, SIMDLevel::NONE>;
+    QuantizerTurboQuantMSE(size_t d, const std::vector<float>& trained)
+            : Base(d, trained) {
+        assert(d % 16 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd16float32
+    reconstruct_16_components(const uint8_t* code, int i) const {
+        return simd16float32(_mm512_i32gather_ps(
+                unpack_16x1bit_to_u32(code, i),
+                this->centroids,
+                sizeof(float)));
+    }
+    void encode_vector(const float* x, uint8_t* code) const final {
+        __m512 boundary = _mm512_set1_ps(this->boundaries[0]);
+        for (size_t i = 0; i < this->d; i += 16) {
+            __m512 vals = _mm512_loadu_ps(x + i);
+            __mmask16 mask = _mm512_cmp_ps_mask(vals, boundary, _CMP_GT_OQ);
+            uint16_t bits = _cvtmask16_u32(mask);
+            memcpy(code + i / 8, &bits, sizeof(uint16_t));
+        }
+    }
+    void decode_vector(const uint8_t* code, float* x) const final {
+        for (size_t i = 0; i < this->d; i += 16) {
+            simd16float32 xi =
+                    reconstruct_16_components(code, static_cast<int>(i));
+            _mm512_storeu_ps(x + i, xi.f);
+        }
+    }
+};
+// 2-4 bit MSE AVX512: decode via gather, encode stays scalar.
+#define DEFINE_TQMSE_AVX512_MULTIBIT(NBITS, UNPACK_EXPR)                      \
+    template <>                                                               \
+    struct QuantizerTurboQuantMSE<NBITS, SIMDLevel::AVX512>                   \
+            : QuantizerTurboQuantMSE<NBITS, SIMDLevel::NONE> {                \
+        using Base = QuantizerTurboQuantMSE<NBITS, SIMDLevel::NONE>;          \
+                                                                              \
+        QuantizerTurboQuantMSE(size_t d, const std::vector<float>& trained)   \
+                : Base(d, trained) {                                          \
+            assert(d % 16 == 0);                                              \
+        }                                                                     \
+                                                                              \
+        FAISS_ALWAYS_INLINE simd16float32                                     \
+        reconstruct_16_components(const uint8_t* code, int i) const {         \
+            return simd16float32(_mm512_i32gather_ps(                         \
+                    (UNPACK_EXPR), this->centroids, sizeof(float)));          \
+        }                                                                     \
+                                                                              \
+        void decode_vector(const uint8_t* code, float* x) const final {       \
+            for (size_t i = 0; i < this->d; i += 16) {                        \
+                simd16float32 xi =                                            \
+                        reconstruct_16_components(code, static_cast<int>(i)); \
+                _mm512_storeu_ps(x + i, xi.f);                                \
+            }                                                                 \
+        }                                                                     \
+    }
+DEFINE_TQMSE_AVX512_MULTIBIT(2, unpack_16x2bit_to_u32(code, i));
+DEFINE_TQMSE_AVX512_MULTIBIT(3, unpack_16x3bit_to_u32(code, i));
+DEFINE_TQMSE_AVX512_MULTIBIT(4, unpack_16x4bit_to_u32(code, i));
+#undef DEFINE_TQMSE_AVX512_MULTIBIT
+// 8-bit MSE AVX512
 template <>
 struct QuantizerTurboQuantMSE<8, SIMDLevel::AVX512>
         : QuantizerTurboQuantMSE<8, SIMDLevel::NONE> {
@@ -291,6 +343,14 @@ struct QuantizerTurboQuantMSE<8, SIMDLevel::AVX512>
         return simd16float32(
                 _mm512_i32gather_ps(indices, this->centroids, sizeof(float)));
     }
+    void decode_vector(const uint8_t* code, float* x) const final {
+        for (size_t i = 0; i < this->d; i += 16) {
+            simd16float32 xi =
+                    reconstruct_16_components(code, static_cast<int>(i));
+            _mm512_storeu_ps(x + i, xi.f);
+        }
+    }
 };
 /**********************************************************
@@ -411,6 +471,22 @@ struct SimilarityL2<SIMDLevel::AVX512> {
     FAISS_ALWAYS_INLINE float result_16() {
         return horizontal_add(accu16);
     }
+    static void adjust_query_for_raw_decode(
+            const float* x,
+            float* q_adj,
+            size_t d,
+            float vmin,
+            float vdiff,
+            float& scale_factor,
+            float& bias) {
+        float inv_vdiff = (vdiff != 0) ? 1.0f / vdiff : 0.0f;
+        for (size_t i = 0; i < d; i++) {
+            q_adj[i] = (x[i] - vmin) * inv_vdiff;
+        }
+        scale_factor = vdiff * vdiff;
+        bias = 0;
+    }
 };
 template <>
@@ -445,6 +521,23 @@ struct SimilarityIP<SIMDLevel::AVX512> {
     FAISS_ALWAYS_INLINE float result_16() {
         return horizontal_add(accu16);
     }
+    static void adjust_query_for_raw_decode(
+            const float* x,
+            float* q_adj,
+            size_t d,
+            float vmin,
+            float vdiff,
+            float& scale_factor,
+            float& bias) {
+        float sum_q = 0;
+        for (size_t i = 0; i < d; i++) {
+            q_adj[i] = x[i];
+            sum_q += x[i];
+        }
+        scale_factor = vdiff;
+        bias = vmin * sum_q;
+    }
 };
 /**********************************************************
@@ -458,8 +551,23 @@ struct DCTemplate<Quantizer, Similarity, SIMDLevel::AVX512>
     Quantizer quant;
+    // Pre-adjusted query buffer for uniform quantizers
+    std::vector<float> q_adj;
+    float scale_factor = 0;
+    float bias = 0;
+    static constexpr bool has_decode_raw() {
+        return requires(const Quantizer& q, const uint8_t* c, int i) {
+            { q.decode_16_raw(c, i) };
+        };
+    }
     DCTemplate(size_t d, const std::vector<float>& trained)
-            : quant(d, trained) {}
+            : quant(d, trained) {
+        if constexpr (has_decode_raw()) {
+            q_adj.resize(d);
+        }
+    }
     float compute_distance(const float* x, const uint8_t* code) const {
         Similarity sim(x);
@@ -485,6 +593,26 @@ struct DCTemplate<Quantizer, Similarity, SIMDLevel::AVX512>
     void set_query(const float* x) final {
         q = x;
+        if constexpr (has_decode_raw()) {
+            Sim::adjust_query_for_raw_decode(
+                    x,
+                    q_adj.data(),
+                    quant.d,
+                    quant.vmin,
+                    quant.vdiff,
+                    scale_factor,
+                    bias);
+        }
+    }
+    float query_to_code_predecoded(const uint8_t* code) const {
+        Similarity sim(q_adj.data());
+        sim.begin_16();
+        for (size_t i = 0; i < quant.d; i += 16) {
+            simd16float32 xi = quant.decode_16_raw(code, i);
+            sim.add_16_components(xi);
+        }
+        return bias + scale_factor * sim.result_16();
     }
     float symmetric_dis(idx_t i, idx_t j) override {
@@ -493,7 +621,11 @@ struct DCTemplate<Quantizer, Similarity, SIMDLevel::AVX512>
     }
     float query_to_code(const uint8_t* code) const final {
-        return compute_distance(q, code);
+        if constexpr (has_decode_raw()) {
+            return query_to_code_predecoded(code);
+        } else {
+            return compute_distance(q, code);
+        }
     }
     void query_to_codes_batch_4(
@@ -588,10 +720,50 @@ struct DistanceComputerByte<Similarity, SIMDLevel::AVX512>
     }
 };
+/**********************************************************
+ * TurboQuant masked_sum AVX512 specialization
+ **********************************************************/
+template <SIMDLevel SL0>
+float turboq_masked_sum(const float* arr, const uint8_t* bits, size_t d);
+template <>
+float turboq_masked_sum<SIMDLevel::AVX512>(
+        const float* arr,
+        const uint8_t* bits,
+        size_t d) {
+    __m512 acc = _mm512_setzero_ps();
+    size_t i = 0;
+    size_t full_16 = (d / 16) * 16;
+    for (; i < full_16; i += 16) {
+        uint16_t mask16;
+        memcpy(&mask16, bits + i / 8, sizeof(mask16));
+        __mmask16 k = _cvtu32_mask16(mask16);
+        __m512 vals = _mm512_loadu_ps(arr + i);
+        acc = _mm512_mask_add_ps(acc, k, acc, vals);
+    }
+    float result = _mm512_reduce_add_ps(acc);
+    if (i < d) {
+        size_t remaining = d - i;
+        __mmask16 tail_mask = _cvtu32_mask16((1u << remaining) - 1);
+        __m512 tail_vals = _mm512_maskz_loadu_ps(tail_mask, arr + i);
+        uint16_t bits_tail = 0;
+        size_t bytes_remaining = (remaining + 7) / 8;
+        memcpy(&bits_tail, bits + i / 8, bytes_remaining);
+        __mmask16 bits_k = _cvtu32_mask16(bits_tail);
+        __mmask16 combined = _kand_mask16(tail_mask, bits_k);
+        __m512 masked_tail = _mm512_maskz_mov_ps(combined, tail_vals);
+        result += _mm512_reduce_add_ps(masked_tail);
+    }
+    return result;
+}
 } // namespace scalar_quantizer
 } // namespace faiss
+#ifndef SQ_AVX512_SKIP_DISPATCH
 #define THE_LEVEL_TO_DISPATCH SIMDLevel::AVX512
 #include <faiss/impl/scalar_quantizer/sq-dispatch.h>
+#endif
 #endif // COMPILE_SIMD_AVX512