RubyGems - faiss - Versions diffs - 0.5.2 → 0.6.0 - Mend

faiss 0.5.2 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (169) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +16 -0
data/LICENSE.txt +1 -1
data/ext/faiss/ext.cpp +1 -1
data/ext/faiss/extconf.rb +5 -6
data/ext/faiss/index_binary.cpp +76 -17
data/ext/faiss/{index.cpp → index_rb.cpp} +108 -35
data/ext/faiss/kmeans.cpp +12 -9
data/ext/faiss/numo.hpp +11 -9
data/ext/faiss/pca_matrix.cpp +10 -8
data/ext/faiss/product_quantizer.cpp +14 -12
data/ext/faiss/{utils.cpp → utils_rb.cpp} +10 -3
data/ext/faiss/{utils.h → utils_rb.h} +6 -0
data/lib/faiss/version.rb +1 -1
data/lib/faiss.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +130 -11
data/vendor/faiss/faiss/AutoTune.h +14 -1
data/vendor/faiss/faiss/Clustering.cpp +59 -10
data/vendor/faiss/faiss/Clustering.h +12 -0
data/vendor/faiss/faiss/IVFlib.cpp +31 -28
data/vendor/faiss/faiss/Index.cpp +20 -8
data/vendor/faiss/faiss/Index.h +25 -3
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +19 -24
data/vendor/faiss/faiss/IndexBinary.cpp +1 -0
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +9 -4
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +45 -11
data/vendor/faiss/faiss/IndexFastScan.cpp +35 -22
data/vendor/faiss/faiss/IndexFastScan.h +10 -1
data/vendor/faiss/faiss/IndexFlat.cpp +193 -136
data/vendor/faiss/faiss/IndexFlat.h +16 -1
data/vendor/faiss/faiss/IndexFlatCodes.cpp +46 -22
data/vendor/faiss/faiss/IndexFlatCodes.h +7 -1
data/vendor/faiss/faiss/IndexHNSW.cpp +24 -50
data/vendor/faiss/faiss/IndexHNSW.h +14 -12
data/vendor/faiss/faiss/IndexIDMap.cpp +1 -1
data/vendor/faiss/faiss/IndexIVF.cpp +76 -49
data/vendor/faiss/faiss/IndexIVF.h +14 -4
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.cpp +11 -8
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizerFastScan.h +2 -2
data/vendor/faiss/faiss/IndexIVFFastScan.cpp +25 -14
data/vendor/faiss/faiss/IndexIVFFastScan.h +26 -22
data/vendor/faiss/faiss/IndexIVFFlat.cpp +10 -61
data/vendor/faiss/faiss/IndexIVFFlatPanorama.cpp +39 -111
data/vendor/faiss/faiss/IndexIVFPQ.cpp +89 -147
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +37 -5
data/vendor/faiss/faiss/IndexIVFPQR.cpp +2 -1
data/vendor/faiss/faiss/IndexIVFRaBitQ.cpp +42 -30
data/vendor/faiss/faiss/IndexIVFRaBitQ.h +2 -2
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.cpp +246 -97
data/vendor/faiss/faiss/IndexIVFRaBitQFastScan.h +32 -29
data/vendor/faiss/faiss/IndexLSH.cpp +8 -6
data/vendor/faiss/faiss/IndexLattice.cpp +29 -24
data/vendor/faiss/faiss/IndexNNDescent.cpp +1 -0
data/vendor/faiss/faiss/IndexNSG.cpp +2 -1
data/vendor/faiss/faiss/IndexNSG.h +0 -2
data/vendor/faiss/faiss/IndexNeuralNetCodec.cpp +1 -1
data/vendor/faiss/faiss/IndexPQ.cpp +19 -10
data/vendor/faiss/faiss/IndexRaBitQ.cpp +26 -13
data/vendor/faiss/faiss/IndexRaBitQ.h +2 -2
data/vendor/faiss/faiss/IndexRaBitQFastScan.cpp +132 -78
data/vendor/faiss/faiss/IndexRaBitQFastScan.h +14 -12
data/vendor/faiss/faiss/IndexRefine.cpp +0 -30
data/vendor/faiss/faiss/IndexShards.cpp +3 -4
data/vendor/faiss/faiss/MetricType.h +16 -0
data/vendor/faiss/faiss/VectorTransform.cpp +120 -0
data/vendor/faiss/faiss/VectorTransform.h +23 -0
data/vendor/faiss/faiss/clone_index.cpp +7 -4
data/vendor/faiss/faiss/{cppcontrib/factory_tools.cpp → factory_tools.cpp} +1 -1
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +1 -1
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +37 -11
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +0 -28
data/vendor/faiss/faiss/impl/ClusteringInitialization.cpp +367 -0
data/vendor/faiss/faiss/impl/ClusteringInitialization.h +107 -0
data/vendor/faiss/faiss/impl/CodePacker.cpp +4 -0
data/vendor/faiss/faiss/impl/CodePacker.h +11 -3
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.cpp +83 -0
data/vendor/faiss/faiss/impl/CodePackerRaBitQ.h +47 -0
data/vendor/faiss/faiss/impl/FaissAssert.h +60 -2
data/vendor/faiss/faiss/impl/HNSW.cpp +25 -34
data/vendor/faiss/faiss/impl/HNSW.h +8 -6
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +34 -27
data/vendor/faiss/faiss/impl/NNDescent.cpp +1 -1
data/vendor/faiss/faiss/impl/NSG.cpp +6 -5
data/vendor/faiss/faiss/impl/NSG.h +17 -7
data/vendor/faiss/faiss/impl/Panorama.cpp +53 -46
data/vendor/faiss/faiss/impl/Panorama.h +22 -6
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +16 -5
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +70 -58
data/vendor/faiss/faiss/impl/RaBitQUtils.cpp +92 -0
data/vendor/faiss/faiss/impl/RaBitQUtils.h +93 -31
data/vendor/faiss/faiss/impl/RaBitQuantizer.cpp +12 -28
data/vendor/faiss/faiss/impl/RaBitQuantizer.h +3 -10
data/vendor/faiss/faiss/impl/RaBitQuantizerMultiBit.cpp +15 -41
data/vendor/faiss/faiss/impl/RaBitQuantizerMultiBit.h +0 -4
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +14 -9
data/vendor/faiss/faiss/impl/ResultHandler.h +131 -50
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +67 -2358
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +0 -2
data/vendor/faiss/faiss/impl/VisitedTable.cpp +42 -0
data/vendor/faiss/faiss/impl/VisitedTable.h +69 -0
data/vendor/faiss/faiss/impl/expanded_scanners.h +158 -0
data/vendor/faiss/faiss/impl/index_read.cpp +829 -471
data/vendor/faiss/faiss/impl/index_read_utils.h +0 -1
data/vendor/faiss/faiss/impl/index_write.cpp +17 -8
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +47 -20
data/vendor/faiss/faiss/impl/mapped_io.cpp +9 -2
data/vendor/faiss/faiss/impl/pq4_fast_scan.cpp +7 -2
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +11 -3
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +19 -13
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_qbs.cpp +29 -21
data/vendor/faiss/faiss/impl/{code_distance/code_distance-avx2.h → pq_code_distance/pq_code_distance-avx2.cpp} +42 -215
data/vendor/faiss/faiss/impl/{code_distance/code_distance-avx512.h → pq_code_distance/pq_code_distance-avx512.cpp} +68 -107
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-generic.cpp +141 -0
data/vendor/faiss/faiss/impl/pq_code_distance/pq_code_distance-inl.h +23 -0
data/vendor/faiss/faiss/impl/{code_distance/code_distance-sve.h → pq_code_distance/pq_code_distance-sve.cpp} +57 -144
data/vendor/faiss/faiss/impl/residual_quantizer_encode_steps.cpp +9 -6
data/vendor/faiss/faiss/impl/scalar_quantizer/codecs.h +121 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/distance_computers.h +136 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/quantizers.h +280 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/scanners.h +164 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/similarities.h +94 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx2.cpp +455 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-avx512.cpp +430 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-dispatch.h +329 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/sq-neon.cpp +467 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.cpp +203 -0
data/vendor/faiss/faiss/impl/scalar_quantizer/training.h +42 -0
data/vendor/faiss/faiss/impl/simd_dispatch.h +139 -0
data/vendor/faiss/faiss/impl/simd_result_handlers.h +18 -18
data/vendor/faiss/faiss/index_factory.cpp +35 -16
data/vendor/faiss/faiss/index_io.h +29 -3
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +7 -4
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +1 -1
data/vendor/faiss/faiss/svs/IndexSVSFaissUtils.h +9 -19
data/vendor/faiss/faiss/svs/IndexSVSFlat.h +2 -0
data/vendor/faiss/faiss/svs/IndexSVSVamana.h +2 -1
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.cpp +9 -1
data/vendor/faiss/faiss/svs/IndexSVSVamanaLeanVec.h +9 -0
data/vendor/faiss/faiss/utils/Heap.cpp +46 -0
data/vendor/faiss/faiss/utils/Heap.h +21 -0
data/vendor/faiss/faiss/utils/NeuralNet.cpp +10 -7
data/vendor/faiss/faiss/utils/distances.cpp +141 -23
data/vendor/faiss/faiss/utils/distances.h +98 -0
data/vendor/faiss/faiss/utils/distances_dispatch.h +170 -0
data/vendor/faiss/faiss/utils/distances_simd.cpp +74 -3511
data/vendor/faiss/faiss/utils/extra_distances-inl.h +164 -157
data/vendor/faiss/faiss/utils/extra_distances.cpp +52 -95
data/vendor/faiss/faiss/utils/extra_distances.h +47 -1
data/vendor/faiss/faiss/utils/hamming_distance/generic-inl.h +0 -1
data/vendor/faiss/faiss/utils/partitioning.cpp +1 -1
data/vendor/faiss/faiss/utils/pq_code_distance.h +251 -0
data/vendor/faiss/faiss/utils/rabitq_simd.h +260 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_aarch64.cpp +150 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_arm_sve.cpp +568 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_autovec-inl.h +153 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_avx2.cpp +1185 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_avx512.cpp +1092 -0
data/vendor/faiss/faiss/utils/simd_impl/distances_sse-inl.h +391 -0
data/vendor/faiss/faiss/utils/simd_levels.cpp +322 -0
data/vendor/faiss/faiss/utils/simd_levels.h +91 -0
data/vendor/faiss/faiss/utils/simdlib_avx2.h +12 -1
data/vendor/faiss/faiss/utils/simdlib_avx512.h +69 -0
data/vendor/faiss/faiss/utils/simdlib_neon.h +6 -0
data/vendor/faiss/faiss/utils/sorting.cpp +4 -4
data/vendor/faiss/faiss/utils/utils.cpp +16 -9
metadata +47 -18
data/vendor/faiss/faiss/impl/code_distance/code_distance-generic.h +0 -81
data/vendor/faiss/faiss/impl/code_distance/code_distance.h +0 -186
/data/vendor/faiss/faiss/{cppcontrib/factory_tools.h → factory_tools.h} +0 -0

data/vendor/faiss/faiss/impl/scalar_quantizer/sq-neon.cpp ADDED Viewed

@@ -0,0 +1,467 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ *
+ * This source code is licensed under the MIT license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#ifdef COMPILE_SIMD_ARM_NEON
+#include <faiss/impl/scalar_quantizer/codecs.h>
+#include <faiss/impl/scalar_quantizer/distance_computers.h>
+#include <faiss/impl/scalar_quantizer/quantizers.h>
+#include <faiss/impl/scalar_quantizer/scanners.h>
+#include <faiss/impl/scalar_quantizer/similarities.h>
+namespace faiss {
+namespace scalar_quantizer {
+/**********************************************************
+ * Codecs
+ **********************************************************/
+template <>
+struct Codec8bit<SIMDLevel::ARM_NEON> : Codec8bit<SIMDLevel::NONE> {
+    static FAISS_ALWAYS_INLINE simd8float32
+    decode_8_components(const uint8_t* code, size_t i) {
+        float32_t result[8] = {};
+        for (size_t j = 0; j < 8; j++) {
+            result[j] =
+                    Codec8bit<SIMDLevel::NONE>::decode_component(code, i + j);
+        }
+        float32x4_t res1 = vld1q_f32(result);
+        float32x4_t res2 = vld1q_f32(result + 4);
+        return simd8float32(float32x4x2_t{res1, res2});
+    }
+};
+template <>
+struct Codec4bit<SIMDLevel::ARM_NEON> : Codec4bit<SIMDLevel::NONE> {
+    static FAISS_ALWAYS_INLINE simd8float32
+    decode_8_components(const uint8_t* code, size_t i) {
+        float32_t result[8] = {};
+        for (size_t j = 0; j < 8; j++) {
+            result[j] =
+                    Codec4bit<SIMDLevel::NONE>::decode_component(code, i + j);
+        }
+        float32x4_t res1 = vld1q_f32(result);
+        float32x4_t res2 = vld1q_f32(result + 4);
+        return simd8float32(float32x4x2_t{res1, res2});
+    }
+};
+template <>
+struct Codec6bit<SIMDLevel::ARM_NEON> : Codec6bit<SIMDLevel::NONE> {
+    static FAISS_ALWAYS_INLINE simd8float32
+    decode_8_components(const uint8_t* code, size_t i) {
+        float32_t result[8] = {};
+        for (size_t j = 0; j < 8; j++) {
+            result[j] =
+                    Codec6bit<SIMDLevel::NONE>::decode_component(code, i + j);
+        }
+        float32x4_t res1 = vld1q_f32(result);
+        float32x4_t res2 = vld1q_f32(result + 4);
+        return simd8float32(float32x4x2_t{res1, res2});
+    }
+};
+/**********************************************************
+ * Quantizers (uniform and non-uniform)
+ **********************************************************/
+template <class Codec>
+struct QuantizerTemplate<
+        Codec,
+        scalar_quantizer::QuantizerTemplateScaling::UNIFORM,
+        SIMDLevel::ARM_NEON>
+        : QuantizerTemplate<
+                  Codec,
+                  scalar_quantizer::QuantizerTemplateScaling::UNIFORM,
+                  SIMDLevel::NONE> {
+    QuantizerTemplate(size_t d, const std::vector<float>& trained)
+            : QuantizerTemplate<
+                      Codec,
+                      scalar_quantizer::QuantizerTemplateScaling::UNIFORM,
+                      SIMDLevel::NONE>(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        simd8float32 xi = Codec::decode_8_components(code, i);
+        return simd8float32(
+                float32x4x2_t{
+                        vfmaq_n_f32(
+                                vdupq_n_f32(this->vmin),
+                                xi.data.val[0],
+                                this->vdiff),
+                        vfmaq_n_f32(
+                                vdupq_n_f32(this->vmin),
+                                xi.data.val[1],
+                                this->vdiff)});
+    }
+};
+template <class Codec>
+struct QuantizerTemplate<
+        Codec,
+        scalar_quantizer::QuantizerTemplateScaling::NON_UNIFORM,
+        SIMDLevel::ARM_NEON>
+        : QuantizerTemplate<
+                  Codec,
+                  scalar_quantizer::QuantizerTemplateScaling::NON_UNIFORM,
+                  SIMDLevel::NONE> {
+    QuantizerTemplate(size_t d, const std::vector<float>& trained)
+            : QuantizerTemplate<
+                      Codec,
+                      scalar_quantizer::QuantizerTemplateScaling::NON_UNIFORM,
+                      SIMDLevel::NONE>(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        simd8float32 xi = Codec::decode_8_components(code, i);
+        return simd8float32(
+                float32x4x2_t{
+                        vfmaq_f32(
+                                vld1q_f32(this->vmin + i),
+                                xi.data.val[0],
+                                vld1q_f32(this->vdiff + i)),
+                        vfmaq_f32(
+                                vld1q_f32(this->vmin + i + 4),
+                                xi.data.val[1],
+                                vld1q_f32(this->vdiff + i + 4))});
+    }
+};
+/**********************************************************
+ * FP16 Quantizer
+ **********************************************************/
+template <>
+struct QuantizerFP16<SIMDLevel::ARM_NEON> : QuantizerFP16<SIMDLevel::NONE> {
+    QuantizerFP16(size_t d, const std::vector<float>& trained)
+            : QuantizerFP16<SIMDLevel::NONE>(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        uint16x4x2_t codei = vld1_u16_x2((const uint16_t*)(code + 2 * i));
+        return simd8float32(
+                float32x4x2_t{
+                        vcvt_f32_f16(vreinterpret_f16_u16(codei.val[0])),
+                        vcvt_f32_f16(vreinterpret_f16_u16(codei.val[1]))});
+    }
+};
+/**********************************************************
+ * BF16 Quantizer
+ **********************************************************/
+template <>
+struct QuantizerBF16<SIMDLevel::ARM_NEON> : QuantizerBF16<SIMDLevel::NONE> {
+    QuantizerBF16(size_t d, const std::vector<float>& trained)
+            : QuantizerBF16<SIMDLevel::NONE>(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        uint16x4x2_t codei = vld1_u16_x2((const uint16_t*)(code + 2 * i));
+        return simd8float32(
+                float32x4x2_t{
+                        vreinterpretq_f32_u32(
+                                vshlq_n_u32(vmovl_u16(codei.val[0]), 16)),
+                        vreinterpretq_f32_u32(
+                                vshlq_n_u32(vmovl_u16(codei.val[1]), 16))});
+    }
+};
+/**********************************************************
+ * 8bit Direct Quantizer
+ **********************************************************/
+template <>
+struct Quantizer8bitDirect<SIMDLevel::ARM_NEON>
+        : Quantizer8bitDirect<SIMDLevel::NONE> {
+    Quantizer8bitDirect(size_t d, const std::vector<float>& trained)
+            : Quantizer8bitDirect<SIMDLevel::NONE>(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        uint8x8_t x8 = vld1_u8((const uint8_t*)(code + i));
+        uint16x8_t y8 = vmovl_u8(x8);
+        uint16x4_t y8_0 = vget_low_u16(y8);
+        uint16x4_t y8_1 = vget_high_u16(y8);
+        return simd8float32(
+                float32x4x2_t{
+                        vcvtq_f32_u32(vmovl_u16(y8_0)),
+                        vcvtq_f32_u32(vmovl_u16(y8_1))});
+    }
+};
+/**********************************************************
+ * 8bit Direct Signed Quantizer
+ **********************************************************/
+template <>
+struct Quantizer8bitDirectSigned<SIMDLevel::ARM_NEON>
+        : Quantizer8bitDirectSigned<SIMDLevel::NONE> {
+    Quantizer8bitDirectSigned(size_t d, const std::vector<float>& trained)
+            : Quantizer8bitDirectSigned<SIMDLevel::NONE>(d, trained) {
+        assert(d % 8 == 0);
+    }
+    FAISS_ALWAYS_INLINE simd8float32
+    reconstruct_8_components(const uint8_t* code, int i) const {
+        uint8x8_t x8 = vld1_u8((const uint8_t*)(code + i));
+        uint16x8_t y8 = vmovl_u8(x8);
+        int16x8_t z8 = vreinterpretq_s16_u16(
+                vsubq_u16(y8, vdupq_n_u16(128))); // subtract 128 from all lanes
+        int16x4_t z8_0 = vget_low_s16(z8);
+        int16x4_t z8_1 = vget_high_s16(z8);
+        return simd8float32(
+                float32x4x2_t{
+                        vcvtq_f32_s32(vmovl_s16(z8_0)),
+                        vcvtq_f32_s32(vmovl_s16(z8_1))});
+    }
+};
+/**********************************************************
+ * Similarities (L2 and IP)
+ **********************************************************/
+template <>
+struct SimilarityL2<SIMDLevel::ARM_NEON> {
+    static constexpr int simdwidth = 8;
+    static constexpr SIMDLevel simd_level = SIMDLevel::ARM_NEON;
+    static constexpr MetricType metric_type = METRIC_L2;
+    const float *y, *yi;
+    explicit SimilarityL2(const float* y) : y(y), yi(nullptr) {}
+    simd8float32 accu8;
+    FAISS_ALWAYS_INLINE void begin_8() {
+        accu8.clear();
+        yi = y;
+    }
+    FAISS_ALWAYS_INLINE void add_8_components(simd8float32 x) {
+        simd8float32 yiv(yi);
+        yi += 8;
+        simd8float32 tmp = yiv - x;
+        accu8 = accu8 + tmp * tmp;
+    }
+    FAISS_ALWAYS_INLINE void add_8_components_2(
+            simd8float32 x,
+            simd8float32 y_2) {
+        simd8float32 tmp = y_2 - x;
+        accu8 = accu8 + tmp * tmp;
+    }
+    FAISS_ALWAYS_INLINE float result_8() {
+        return horizontal_add(accu8);
+    }
+};
+template <>
+struct SimilarityIP<SIMDLevel::ARM_NEON> {
+    static constexpr int simdwidth = 8;
+    static constexpr SIMDLevel simd_level = SIMDLevel::ARM_NEON;
+    static constexpr MetricType metric_type = METRIC_INNER_PRODUCT;
+    const float *y, *yi;
+    explicit SimilarityIP(const float* y) : y(y), yi(nullptr) {}
+    simd8float32 accu8;
+    FAISS_ALWAYS_INLINE void begin_8() {
+        accu8.clear();
+        yi = y;
+    }
+    FAISS_ALWAYS_INLINE void add_8_components(simd8float32 x) {
+        simd8float32 yiv(yi);
+        yi += 8;
+        accu8 = accu8 + yiv * x;
+    }
+    FAISS_ALWAYS_INLINE void add_8_components_2(
+            simd8float32 x1,
+            simd8float32 x2) {
+        accu8 = accu8 + x1 * x2;
+    }
+    FAISS_ALWAYS_INLINE float result_8() {
+        return horizontal_add(accu8);
+    }
+};
+/**********************************************************
+ * Distance Computers
+ **********************************************************/
+template <class Quantizer, class Similarity>
+struct DCTemplate<Quantizer, Similarity, SIMDLevel::ARM_NEON>
+        : SQDistanceComputer {
+    using Sim = Similarity;
+    Quantizer quant;
+    DCTemplate(size_t d, const std::vector<float>& trained)
+            : quant(d, trained) {}
+    float compute_distance(const float* x, const uint8_t* code) const {
+        Similarity sim(x);
+        sim.begin_8();
+        for (size_t i = 0; i < quant.d; i += 8) {
+            simd8float32 xi = quant.reconstruct_8_components(code, i);
+            sim.add_8_components(xi);
+        }
+        return sim.result_8();
+    }
+    float compute_code_distance(const uint8_t* code1, const uint8_t* code2)
+            const {
+        Similarity sim(nullptr);
+        sim.begin_8();
+        for (size_t i = 0; i < quant.d; i += 8) {
+            simd8float32 x1 = quant.reconstruct_8_components(code1, i);
+            simd8float32 x2 = quant.reconstruct_8_components(code2, i);
+            sim.add_8_components_2(x1, x2);
+        }
+        return sim.result_8();
+    }
+    void set_query(const float* x) final {
+        q = x;
+    }
+    float symmetric_dis(idx_t i, idx_t j) override {
+        return compute_code_distance(
+                codes + i * code_size, codes + j * code_size);
+    }
+    float query_to_code(const uint8_t* code) const final {
+        return compute_distance(q, code);
+    }
+};
+template <class Similarity>
+struct DistanceComputerByte<Similarity, SIMDLevel::ARM_NEON>
+        : SQDistanceComputer {
+    using Sim = Similarity;
+    int d;
+    std::vector<uint8_t> tmp;
+    DistanceComputerByte(int d, const std::vector<float>&) : d(d), tmp(d) {}
+    int compute_code_distance(const uint8_t* code1, const uint8_t* code2)
+            const {
+        int accu = 0;
+        for (int i = 0; i < d; i++) {
+            if (Sim::metric_type == METRIC_INNER_PRODUCT) {
+                accu += int(code1[i]) * code2[i];
+            } else {
+                int diff = int(code1[i]) - code2[i];
+                accu += diff * diff;
+            }
+        }
+        return accu;
+    }
+    void set_query(const float* x) final {
+        for (int i = 0; i < d; i++) {
+            tmp[i] = int(x[i]);
+        }
+    }
+    int compute_distance(const float* x, const uint8_t* code) {
+        set_query(x);
+        return compute_code_distance(tmp.data(), code);
+    }
+    float symmetric_dis(idx_t i, idx_t j) override {
+        return compute_code_distance(
+                codes + i * code_size, codes + j * code_size);
+    }
+    float query_to_code(const uint8_t* code) const final {
+        return compute_code_distance(tmp.data(), code);
+    }
+};
+} // namespace scalar_quantizer
+} // namespace faiss
+#define THE_LEVEL_TO_DISPATCH SIMDLevel::ARM_NEON
+#include <faiss/impl/scalar_quantizer/sq-dispatch.h>
+#ifdef COMPILE_SIMD_ARM_SVE
+// ARM_SVE: SVE is a superset of NEON. Forward to the NEON implementation
+// until a dedicated SVE specialization is written.
+namespace faiss {
+namespace scalar_quantizer {
+// NOLINTNEXTLINE(facebook-hte-MisplacedTemplateSpecialization)
+template <>
+ScalarQuantizer::SQuantizer* sq_select_quantizer<SIMDLevel::ARM_SVE>(
+        QuantizerType qtype,
+        size_t d,
+        const std::vector<float>& trained) {
+    return sq_select_quantizer<SIMDLevel::ARM_NEON>(qtype, d, trained);
+}
+// NOLINTNEXTLINE(facebook-hte-MisplacedTemplateSpecialization)
+template <>
+SQDistanceComputer* sq_select_distance_computer<SIMDLevel::ARM_SVE>(
+        MetricType metric,
+        ScalarQuantizer::QuantizerType qtype,
+        size_t d,
+        const std::vector<float>& trained) {
+    return sq_select_distance_computer<SIMDLevel::ARM_NEON>(
+            metric, qtype, d, trained);
+}
+// NOLINTNEXTLINE(facebook-hte-MisplacedTemplateSpecialization)
+template <>
+InvertedListScanner* sq_select_InvertedListScanner<SIMDLevel::ARM_SVE>(
+        QuantizerType qtype,
+        MetricType mt,
+        size_t d,
+        size_t code_size,
+        const std::vector<float>& trained,
+        const Index* quantizer,
+        bool store_pairs,
+        const IDSelector* sel,
+        bool by_residual) {
+    return sq_select_InvertedListScanner<SIMDLevel::ARM_NEON>(
+            qtype,
+            mt,
+            d,
+            code_size,
+            trained,
+            quantizer,
+            store_pairs,
+            sel,
+            by_residual);
+}
+} // namespace scalar_quantizer
+} // namespace faiss
+#endif // COMPILE_SIMD_ARM_SVE
+#endif // COMPILE_SIMD_ARM_NEON

data/vendor/faiss/faiss/impl/scalar_quantizer/training.cpp ADDED Viewed

@@ -0,0 +1,203 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ *
+ * This source code is licensed under the MIT license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#include <faiss/impl/scalar_quantizer/training.h>
+#include <faiss/impl/FaissAssert.h>
+#include <algorithm>
+#include <cmath>
+namespace faiss {
+namespace scalar_quantizer {
+/*******************************************************************
+ * Quantizer range training
+ */
+static float sqr(float x) {
+    return x * x;
+}
+void train_Uniform(
+        RangeStat rs,
+        float rs_arg,
+        idx_t n,
+        int k,
+        const float* x,
+        std::vector<float>& trained) {
+    FAISS_THROW_IF_NOT(n > 0);
+    trained.resize(2);
+    float& vmin = trained[0];
+    float& vmax = trained[1];
+    if (rs == ScalarQuantizer::RS_minmax) {
+        vmin = HUGE_VAL;
+        vmax = -HUGE_VAL;
+        for (size_t i = 0; i < n; i++) {
+            if (x[i] < vmin) {
+                vmin = x[i];
+            }
+            if (x[i] > vmax) {
+                vmax = x[i];
+            }
+        }
+        float vexp = (vmax - vmin) * rs_arg;
+        vmin -= vexp;
+        vmax += vexp;
+    } else if (rs == ScalarQuantizer::RS_meanstd) {
+        double sum = 0, sum2 = 0;
+        for (size_t i = 0; i < n; i++) {
+            sum += x[i];
+            sum2 += x[i] * x[i];
+        }
+        float mean = sum / n;
+        float var = sum2 / n - mean * mean;
+        float std = var <= 0 ? 1.0 : std::sqrt(var);
+        vmin = mean - std * rs_arg;
+        vmax = mean + std * rs_arg;
+    } else if (rs == ScalarQuantizer::RS_quantiles) {
+        std::vector<float> x_copy(n);
+        memcpy(x_copy.data(), x, n * sizeof(*x));
+        idx_t o = static_cast<idx_t>(rs_arg * n);
+        if (o < 0) {
+            o = 0;
+        }
+        if (o > n - o) {
+            o = n / 2;
+        }
+        std::nth_element(x_copy.begin(), x_copy.begin() + o, x_copy.end());
+        vmin = x_copy[o];
+        std::nth_element(
+                x_copy.begin(), x_copy.begin() + (n - 1 - o), x_copy.end());
+        vmax = x_copy[n - 1 - o];
+    } else if (rs == ScalarQuantizer::RS_optim) {
+        float a, b;
+        float sx = 0;
+        {
+            vmin = HUGE_VAL, vmax = -HUGE_VAL;
+            for (size_t i = 0; i < n; i++) {
+                if (x[i] < vmin) {
+                    vmin = x[i];
+                }
+                if (x[i] > vmax) {
+                    vmax = x[i];
+                }
+                sx += x[i];
+            }
+            b = vmin;
+            a = (vmax - vmin) / (k - 1);
+        }
+        int verbose = false;
+        int niter = 2000;
+        float last_err = -1;
+        int iter_last_err = 0;
+        for (int it = 0; it < niter; it++) {
+            float sn = 0, sn2 = 0, sxn = 0, err1 = 0;
+            for (idx_t i = 0; i < n; i++) {
+                float xi = x[i];
+                float ni = floor((xi - b) / a + 0.5);
+                if (ni < 0) {
+                    ni = 0;
+                }
+                if (ni >= k) {
+                    ni = k - 1;
+                }
+                err1 += sqr(xi - (ni * a + b));
+                sn += ni;
+                sn2 += ni * ni;
+                sxn += ni * xi;
+            }
+            if (err1 == last_err) {
+                iter_last_err++;
+                if (iter_last_err == 16) {
+                    break;
+                }
+            } else {
+                last_err = err1;
+                iter_last_err = 0;
+            }
+            float det = sqr(sn) - sn2 * n;
+            b = (sn * sxn - sn2 * sx) / det;
+            a = (sn * sx - n * sxn) / det;
+            if (verbose) {
+                printf("it %d, err1=%g            \r", it, err1);
+                fflush(stdout);
+            }
+        }
+        if (verbose) {
+            printf("\n");
+        }
+        vmin = b;
+        vmax = b + a * (k - 1);
+    } else {
+        FAISS_THROW_MSG("Invalid qtype");
+    }
+    vmax -= vmin;
+}
+void train_NonUniform(
+        RangeStat rs,
+        float rs_arg,
+        idx_t n,
+        int d,
+        int k,
+        const float* x,
+        std::vector<float>& trained) {
+    trained.resize(static_cast<size_t>(2) * d);
+    float* vmin = trained.data();
+    float* vmax = trained.data() + d;
+    if (rs == ScalarQuantizer::RS_minmax) {
+        memcpy(vmin, x, sizeof(*x) * d);
+        memcpy(vmax, x, sizeof(*x) * d);
+        for (size_t i = 1; i < n; i++) {
+            const float* xi = x + i * d;
+            for (size_t j = 0; j < d; j++) {
+                if (xi[j] < vmin[j]) {
+                    vmin[j] = xi[j];
+                }
+                if (xi[j] > vmax[j]) {
+                    vmax[j] = xi[j];
+                }
+            }
+        }
+        float* vdiff = vmax;
+        for (size_t j = 0; j < d; j++) {
+            float vexp = (vmax[j] - vmin[j]) * rs_arg;
+            vmin[j] -= vexp;
+            vmax[j] += vexp;
+            vdiff[j] = vmax[j] - vmin[j];
+        }
+    } else {
+        // transpose
+        std::vector<float> xt(n * d);
+        for (size_t i = 1; i < n; i++) {
+            const float* xi = x + i * d;
+            for (size_t j = 0; j < d; j++) {
+                xt[j * n + i] = xi[j];
+            }
+        }
+        std::vector<float> trained_d(2);
+#pragma omp parallel for
+        for (int j = 0; j < d; j++) {
+            train_Uniform(rs, rs_arg, n, k, xt.data() + j * n, trained_d);
+            vmin[j] = trained_d[0];
+            vmax[j] = trained_d[1];
+        }
+    }
+}
+} // namespace scalar_quantizer
+} // namespace faiss

data/vendor/faiss/faiss/impl/scalar_quantizer/training.h ADDED Viewed

@@ -0,0 +1,42 @@
+/*
+ * Copyright (c) Meta Platforms, Inc. and affiliates.
+ *
+ * This source code is licensed under the MIT license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+/*******************************************************************
+ * Quantizer range training for the scalar quantizer. This is independent of the
+ * searching code and needs not to be very optimized (scalar quantizer training
+ * is very efficient).
+ */
+#include <faiss/impl/ScalarQuantizer.h>
+namespace faiss {
+namespace scalar_quantizer {
+using RangeStat = ScalarQuantizer::RangeStat;
+void train_Uniform(
+        RangeStat rs,
+        float rs_arg,
+        idx_t n,
+        int k,
+        const float* x,
+        std::vector<float>& trained);
+void train_NonUniform(
+        RangeStat rs,
+        float rs_arg,
+        idx_t n,
+        int d,
+        int k,
+        const float* x,
+        std::vector<float>& trained);
+} // namespace scalar_quantizer
+} // namespace faiss