RubyGems - faiss - Versions diffs - 0.2.0 → 0.2.4 - Mend

faiss 0.2.0 → 0.2.4

Files changed (215) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +16 -0
data/LICENSE.txt +1 -1
data/README.md +7 -7
data/ext/faiss/extconf.rb +6 -3
data/ext/faiss/numo.hpp +4 -4
data/ext/faiss/utils.cpp +1 -1
data/ext/faiss/utils.h +1 -1
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +292 -291
data/vendor/faiss/faiss/AutoTune.h +55 -56
data/vendor/faiss/faiss/Clustering.cpp +365 -194
data/vendor/faiss/faiss/Clustering.h +102 -35
data/vendor/faiss/faiss/IVFlib.cpp +171 -195
data/vendor/faiss/faiss/IVFlib.h +48 -51
data/vendor/faiss/faiss/Index.cpp +85 -103
data/vendor/faiss/faiss/Index.h +54 -48
data/vendor/faiss/faiss/Index2Layer.cpp +126 -224
data/vendor/faiss/faiss/Index2Layer.h +22 -36
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +407 -0
data/vendor/faiss/faiss/IndexAdditiveQuantizer.h +195 -0
data/vendor/faiss/faiss/IndexBinary.cpp +45 -37
data/vendor/faiss/faiss/IndexBinary.h +140 -132
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +73 -53
data/vendor/faiss/faiss/IndexBinaryFlat.h +29 -24
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +46 -43
data/vendor/faiss/faiss/IndexBinaryFromFloat.h +16 -15
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +215 -232
data/vendor/faiss/faiss/IndexBinaryHNSW.h +25 -24
data/vendor/faiss/faiss/IndexBinaryHash.cpp +182 -177
data/vendor/faiss/faiss/IndexBinaryHash.h +41 -34
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +489 -461
data/vendor/faiss/faiss/IndexBinaryIVF.h +97 -68
data/vendor/faiss/faiss/IndexFlat.cpp +115 -176
data/vendor/faiss/faiss/IndexFlat.h +42 -59
data/vendor/faiss/faiss/IndexFlatCodes.cpp +67 -0
data/vendor/faiss/faiss/IndexFlatCodes.h +47 -0
data/vendor/faiss/faiss/IndexHNSW.cpp +372 -348
data/vendor/faiss/faiss/IndexHNSW.h +57 -41
data/vendor/faiss/faiss/IndexIVF.cpp +545 -453
data/vendor/faiss/faiss/IndexIVF.h +169 -118
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +316 -0
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.h +121 -0
data/vendor/faiss/faiss/IndexIVFFlat.cpp +247 -252
data/vendor/faiss/faiss/IndexIVFFlat.h +48 -51
data/vendor/faiss/faiss/IndexIVFPQ.cpp +459 -517
data/vendor/faiss/faiss/IndexIVFPQ.h +75 -67
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +406 -372
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +82 -57
data/vendor/faiss/faiss/IndexIVFPQR.cpp +104 -102
data/vendor/faiss/faiss/IndexIVFPQR.h +33 -28
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +163 -150
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +38 -25
data/vendor/faiss/faiss/IndexLSH.cpp +66 -113
data/vendor/faiss/faiss/IndexLSH.h +20 -38
data/vendor/faiss/faiss/IndexLattice.cpp +42 -56
data/vendor/faiss/faiss/IndexLattice.h +11 -16
data/vendor/faiss/faiss/IndexNNDescent.cpp +229 -0
data/vendor/faiss/faiss/IndexNNDescent.h +72 -0
data/vendor/faiss/faiss/IndexNSG.cpp +301 -0
data/vendor/faiss/faiss/IndexNSG.h +85 -0
data/vendor/faiss/faiss/IndexPQ.cpp +387 -495
data/vendor/faiss/faiss/IndexPQ.h +64 -82
data/vendor/faiss/faiss/IndexPQFastScan.cpp +143 -170
data/vendor/faiss/faiss/IndexPQFastScan.h +46 -32
data/vendor/faiss/faiss/IndexPreTransform.cpp +120 -150
data/vendor/faiss/faiss/IndexPreTransform.h +33 -36
data/vendor/faiss/faiss/IndexRefine.cpp +139 -127
data/vendor/faiss/faiss/IndexRefine.h +32 -23
data/vendor/faiss/faiss/IndexReplicas.cpp +147 -153
data/vendor/faiss/faiss/IndexReplicas.h +62 -56
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +111 -172
data/vendor/faiss/faiss/IndexScalarQuantizer.h +41 -59
data/vendor/faiss/faiss/IndexShards.cpp +256 -240
data/vendor/faiss/faiss/IndexShards.h +85 -73
data/vendor/faiss/faiss/MatrixStats.cpp +112 -97
data/vendor/faiss/faiss/MatrixStats.h +7 -10
data/vendor/faiss/faiss/MetaIndexes.cpp +135 -157
data/vendor/faiss/faiss/MetaIndexes.h +40 -34
data/vendor/faiss/faiss/MetricType.h +7 -7
data/vendor/faiss/faiss/VectorTransform.cpp +654 -475
data/vendor/faiss/faiss/VectorTransform.h +64 -89
data/vendor/faiss/faiss/clone_index.cpp +78 -73
data/vendor/faiss/faiss/clone_index.h +4 -9
data/vendor/faiss/faiss/gpu/GpuAutoTune.cpp +33 -38
data/vendor/faiss/faiss/gpu/GpuAutoTune.h +11 -9
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +198 -171
data/vendor/faiss/faiss/gpu/GpuCloner.h +53 -35
data/vendor/faiss/faiss/gpu/GpuClonerOptions.cpp +12 -14
data/vendor/faiss/faiss/gpu/GpuClonerOptions.h +27 -25
data/vendor/faiss/faiss/gpu/GpuDistance.h +116 -112
data/vendor/faiss/faiss/gpu/GpuFaissAssert.h +1 -2
data/vendor/faiss/faiss/gpu/GpuIcmEncoder.h +60 -0
data/vendor/faiss/faiss/gpu/GpuIndex.h +134 -137
data/vendor/faiss/faiss/gpu/GpuIndexBinaryFlat.h +76 -73
data/vendor/faiss/faiss/gpu/GpuIndexFlat.h +173 -162
data/vendor/faiss/faiss/gpu/GpuIndexIVF.h +67 -64
data/vendor/faiss/faiss/gpu/GpuIndexIVFFlat.h +89 -86
data/vendor/faiss/faiss/gpu/GpuIndexIVFPQ.h +150 -141
data/vendor/faiss/faiss/gpu/GpuIndexIVFScalarQuantizer.h +101 -103
data/vendor/faiss/faiss/gpu/GpuIndicesOptions.h +17 -16
data/vendor/faiss/faiss/gpu/GpuResources.cpp +116 -128
data/vendor/faiss/faiss/gpu/GpuResources.h +182 -186
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +433 -422
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +131 -130
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.cpp +468 -456
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.h +25 -19
data/vendor/faiss/faiss/gpu/impl/RemapIndices.cpp +22 -20
data/vendor/faiss/faiss/gpu/impl/RemapIndices.h +9 -8
data/vendor/faiss/faiss/gpu/perf/IndexWrapper-inl.h +39 -44
data/vendor/faiss/faiss/gpu/perf/IndexWrapper.h +16 -14
data/vendor/faiss/faiss/gpu/perf/PerfClustering.cpp +77 -71
data/vendor/faiss/faiss/gpu/perf/PerfIVFPQAdd.cpp +109 -88
data/vendor/faiss/faiss/gpu/perf/WriteIndex.cpp +75 -64
data/vendor/faiss/faiss/gpu/test/TestCodePacking.cpp +230 -215
data/vendor/faiss/faiss/gpu/test/TestGpuIndexBinaryFlat.cpp +80 -86
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +284 -277
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +416 -416
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +611 -517
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFScalarQuantizer.cpp +166 -164
data/vendor/faiss/faiss/gpu/test/TestGpuMemoryException.cpp +61 -53
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +274 -238
data/vendor/faiss/faiss/gpu/test/TestUtils.h +73 -57
data/vendor/faiss/faiss/gpu/test/demo_ivfpq_indexing_gpu.cpp +47 -50
data/vendor/faiss/faiss/gpu/utils/DeviceUtils.h +79 -72
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.cpp +140 -146
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.h +69 -71
data/vendor/faiss/faiss/gpu/utils/StaticUtils.h +21 -16
data/vendor/faiss/faiss/gpu/utils/Timer.cpp +25 -29
data/vendor/faiss/faiss/gpu/utils/Timer.h +30 -29
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +503 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +175 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +90 -120
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +81 -65
data/vendor/faiss/faiss/impl/FaissAssert.h +73 -58
data/vendor/faiss/faiss/impl/FaissException.cpp +56 -48
data/vendor/faiss/faiss/impl/FaissException.h +41 -29
data/vendor/faiss/faiss/impl/HNSW.cpp +606 -617
data/vendor/faiss/faiss/impl/HNSW.h +179 -200
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +855 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.h +244 -0
data/vendor/faiss/faiss/impl/NNDescent.cpp +487 -0
data/vendor/faiss/faiss/impl/NNDescent.h +154 -0
data/vendor/faiss/faiss/impl/NSG.cpp +679 -0
data/vendor/faiss/faiss/impl/NSG.h +199 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +484 -454
data/vendor/faiss/faiss/impl/PolysemousTraining.h +52 -55
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +26 -47
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +469 -459
data/vendor/faiss/faiss/impl/ProductQuantizer.h +76 -87
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +758 -0
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +188 -0
data/vendor/faiss/faiss/impl/ResultHandler.h +96 -132
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +647 -707
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +48 -46
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +129 -131
data/vendor/faiss/faiss/impl/ThreadedIndex.h +61 -55
data/vendor/faiss/faiss/impl/index_read.cpp +631 -480
data/vendor/faiss/faiss/impl/index_write.cpp +547 -407
data/vendor/faiss/faiss/impl/io.cpp +76 -95
data/vendor/faiss/faiss/impl/io.h +31 -41
data/vendor/faiss/faiss/impl/io_macros.h +60 -29
data/vendor/faiss/faiss/impl/kmeans1d.cpp +301 -0
data/vendor/faiss/faiss/impl/kmeans1d.h +48 -0
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +137 -186
data/vendor/faiss/faiss/impl/lattice_Zn.h +40 -51
data/vendor/faiss/faiss/impl/platform_macros.h +29 -8
data/vendor/faiss/faiss/impl/pq4_fast_scan.cpp +77 -124
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +39 -48
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +41 -52
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_qbs.cpp +80 -117
data/vendor/faiss/faiss/impl/simd_result_handlers.h +109 -137
data/vendor/faiss/faiss/index_factory.cpp +619 -397
data/vendor/faiss/faiss/index_factory.h +8 -6
data/vendor/faiss/faiss/index_io.h +23 -26
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +67 -75
data/vendor/faiss/faiss/invlists/BlockInvertedLists.h +22 -24
data/vendor/faiss/faiss/invlists/DirectMap.cpp +96 -112
data/vendor/faiss/faiss/invlists/DirectMap.h +29 -33
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +307 -364
data/vendor/faiss/faiss/invlists/InvertedLists.h +151 -151
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +29 -34
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.h +17 -18
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +257 -293
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +50 -45
data/vendor/faiss/faiss/python/python_callbacks.cpp +23 -26
data/vendor/faiss/faiss/python/python_callbacks.h +9 -16
data/vendor/faiss/faiss/utils/AlignedTable.h +79 -44
data/vendor/faiss/faiss/utils/Heap.cpp +40 -48
data/vendor/faiss/faiss/utils/Heap.h +186 -209
data/vendor/faiss/faiss/utils/WorkerThread.cpp +67 -76
data/vendor/faiss/faiss/utils/WorkerThread.h +32 -33
data/vendor/faiss/faiss/utils/distances.cpp +305 -312
data/vendor/faiss/faiss/utils/distances.h +170 -122
data/vendor/faiss/faiss/utils/distances_simd.cpp +498 -508
data/vendor/faiss/faiss/utils/extra_distances-inl.h +117 -0
data/vendor/faiss/faiss/utils/extra_distances.cpp +113 -232
data/vendor/faiss/faiss/utils/extra_distances.h +30 -29
data/vendor/faiss/faiss/utils/hamming-inl.h +260 -209
data/vendor/faiss/faiss/utils/hamming.cpp +375 -469
data/vendor/faiss/faiss/utils/hamming.h +62 -85
data/vendor/faiss/faiss/utils/ordered_key_value.h +16 -18
data/vendor/faiss/faiss/utils/partitioning.cpp +393 -318
data/vendor/faiss/faiss/utils/partitioning.h +26 -21
data/vendor/faiss/faiss/utils/quantize_lut.cpp +78 -66
data/vendor/faiss/faiss/utils/quantize_lut.h +22 -20
data/vendor/faiss/faiss/utils/random.cpp +39 -63
data/vendor/faiss/faiss/utils/random.h +13 -16
data/vendor/faiss/faiss/utils/simdlib.h +4 -2
data/vendor/faiss/faiss/utils/simdlib_avx2.h +88 -85
data/vendor/faiss/faiss/utils/simdlib_emulated.h +226 -165
data/vendor/faiss/faiss/utils/simdlib_neon.h +832 -0
data/vendor/faiss/faiss/utils/utils.cpp +304 -287
data/vendor/faiss/faiss/utils/utils.h +54 -49
metadata +29 -4

data/vendor/faiss/faiss/utils/simdlib_emulated.h CHANGED Viewed

@@ -7,17 +7,14 @@
 #pragma once
-#include <string>
+#include <algorithm>
 #include <cstdint>
 #include <cstring>
-#include <functional>
-#include <algorithm>
+#include <string>
 namespace faiss {
 struct simd256bit {
     union {
         uint8_t u8[32];
         uint16_t u16[16];
@@ -27,8 +24,7 @@ struct simd256bit {
     simd256bit() {}
-    explicit simd256bit(const void *x)
-    {
+    explicit simd256bit(const void* x) {
         memcpy(u8, x, 32);
     }
@@ -36,20 +32,20 @@ struct simd256bit {
         memset(u8, 0, 32);
     }
-    void storeu(void *ptr) const {
+    void storeu(void* ptr) const {
         memcpy(ptr, u8, 32);
     }
-    void loadu(const void *ptr) {
+    void loadu(const void* ptr) {
         memcpy(u8, ptr, 32);
     }
-    void store(void *ptr) const {
+    void store(void* ptr) const {
         storeu(ptr);
     }
     void bin(char bits[257]) const {
-        const char *bytes = (char*)this->u8;
+        const char* bytes = (char*)this->u8;
         for (int i = 0; i < 256; i++) {
             bits[i] = '0' + ((bytes[i / 8] >> (i % 8)) & 1);
         }
@@ -61,14 +57,10 @@ struct simd256bit {
         bin(bits);
         return std::string(bits);
     }
 };
 /// vector of 16 elements in uint16
-struct simd16uint16: simd256bit {
+struct simd16uint16 : simd256bit {
     simd16uint16() {}
     explicit simd16uint16(int x) {
@@ -79,13 +71,13 @@ struct simd16uint16: simd256bit {
         set1(x);
     }
-    explicit simd16uint16(simd256bit x): simd256bit(x) {}
+    explicit simd16uint16(const simd256bit& x) : simd256bit(x) {}
-    explicit simd16uint16(const uint16_t *x): simd256bit((const void*)x) {}
+    explicit simd16uint16(const uint16_t* x) : simd256bit((const void*)x) {}
-    std::string elements_to_string(const char * fmt) const {
+    std::string elements_to_string(const char* fmt) const {
         char res[1000], *ptr = res;
-        for(int i = 0; i < 16; i++) {
+        for (int i = 0; i < 16; i++) {
             ptr += sprintf(ptr, fmt, u16[i]);
         }
         // strip last ,
@@ -101,88 +93,86 @@ struct simd16uint16: simd256bit {
         return elements_to_string("%3d,");
     }
-    static simd16uint16 unary_func(
-        simd16uint16 a, std::function<uint16_t (uint16_t)> f)
-    {
+    template <typename F>
+    static simd16uint16 unary_func(const simd16uint16& a, F&& f) {
         simd16uint16 c;
-        for(int j = 0; j < 16; j++) {
+        for (int j = 0; j < 16; j++) {
             c.u16[j] = f(a.u16[j]);
         }
         return c;
     }
+    template <typename F>
     static simd16uint16 binary_func(
-        simd16uint16 a, simd16uint16 b,
-        std::function<uint16_t (uint16_t, uint16_t)> f)
-    {
+            const simd16uint16& a,
+            const simd16uint16& b,
+            F&& f) {
         simd16uint16 c;
-        for(int j = 0; j < 16; j++) {
+        for (int j = 0; j < 16; j++) {
             c.u16[j] = f(a.u16[j], b.u16[j]);
         }
         return c;
     }
     void set1(uint16_t x) {
-        for(int i = 0; i < 16; i++) {
+        for (int i = 0; i < 16; i++) {
             u16[i] = x;
         }
     }
     // shift must be known at compile time
-    simd16uint16 operator >> (const int shift) const {
-        return unary_func(*this, [shift](uint16_t a) {return a >> shift; });
+    simd16uint16 operator>>(const int shift) const {
+        return unary_func(*this, [shift](uint16_t a) { return a >> shift; });
     }
     // shift must be known at compile time
-    simd16uint16 operator << (const int shift) const {
-        return unary_func(*this, [shift](uint16_t a) {return a << shift; });
+    simd16uint16 operator<<(const int shift) const {
+        return unary_func(*this, [shift](uint16_t a) { return a << shift; });
     }
-    simd16uint16 operator += (simd16uint16 other) {
+    simd16uint16 operator+=(const simd16uint16& other) {
         *this = *this + other;
         return *this;
     }
-    simd16uint16 operator -= (simd16uint16 other) {
+    simd16uint16 operator-=(const simd16uint16& other) {
         *this = *this - other;
         return *this;
     }
-    simd16uint16 operator + (simd16uint16 other) const {
-        return binary_func(*this, other,
-            [](uint16_t a, uint16_t b) {return a + b; }
-        );
+    simd16uint16 operator+(const simd16uint16& other) const {
+        return binary_func(
+                *this, other, [](uint16_t a, uint16_t b) { return a + b; });
     }
-    simd16uint16 operator - (simd16uint16 other) const {
-        return binary_func(*this, other,
-            [](uint16_t a, uint16_t b) {return a - b; }
-        );
+    simd16uint16 operator-(const simd16uint16& other) const {
+        return binary_func(
+                *this, other, [](uint16_t a, uint16_t b) { return a - b; });
     }
-    simd16uint16 operator & (simd256bit other) const {
-        return binary_func(*this, simd16uint16(other),
-            [](uint16_t a, uint16_t b) {return a & b; }
-        );
+    simd16uint16 operator&(const simd256bit& other) const {
+        return binary_func(
+                *this, simd16uint16(other), [](uint16_t a, uint16_t b) {
+                    return a & b;
+                });
     }
-    simd16uint16 operator | (simd256bit other) const {
-        return binary_func(*this, simd16uint16(other),
-            [](uint16_t a, uint16_t b) {return a | b; }
-        );
+    simd16uint16 operator|(const simd256bit& other) const {
+        return binary_func(
+                *this, simd16uint16(other), [](uint16_t a, uint16_t b) {
+                    return a | b;
+                });
     }
     // returns binary masks
-    simd16uint16 operator == (simd16uint16 other) const {
-        return binary_func(*this, other,
-            [](uint16_t a, uint16_t b) {return a == b ? 0xffff : 0; }
-        );
+    simd16uint16 operator==(const simd16uint16& other) const {
+        return binary_func(*this, other, [](uint16_t a, uint16_t b) {
+            return a == b ? 0xffff : 0;
+        });
     }
-    simd16uint16 operator ~() const {
-        return unary_func(*this, [](uint16_t a) {return ~a; });
+    simd16uint16 operator~() const {
+        return unary_func(*this, [](uint16_t a) { return ~a; });
     }
     // get scalar at index 0
@@ -192,9 +182,9 @@ struct simd16uint16: simd256bit {
     // mask of elements where this >= thresh
     // 2 bit per component: 16 * 2 = 32 bit
-    uint32_t ge_mask(simd16uint16 thresh) const {
+    uint32_t ge_mask(const simd16uint16& thresh) const {
         uint32_t gem = 0;
-        for(int j = 0; j < 16; j++) {
+        for (int j = 0; j < 16; j++) {
             if (u16[j] >= thresh.u16[j]) {
                 gem |= 3 << (j * 2);
             }
@@ -202,61 +192,57 @@ struct simd16uint16: simd256bit {
         return gem;
     }
-    uint32_t le_mask(simd16uint16 thresh) const {
+    uint32_t le_mask(const simd16uint16& thresh) const {
         return thresh.ge_mask(*this);
     }
-    uint32_t gt_mask(simd16uint16 thresh) const {
+    uint32_t gt_mask(const simd16uint16& thresh) const {
         return ~le_mask(thresh);
     }
-    bool all_gt(simd16uint16 thresh) const {
+    bool all_gt(const simd16uint16& thresh) const {
         return le_mask(thresh) == 0;
     }
     // for debugging only
-    uint16_t operator [] (int i) const {
+    uint16_t operator[](int i) const {
         return u16[i];
     }
-    void accu_min(simd16uint16 incoming) {
-        for(int j = 0; j < 16; j++) {
+    void accu_min(const simd16uint16& incoming) {
+        for (int j = 0; j < 16; j++) {
             if (incoming.u16[j] < u16[j]) {
                 u16[j] = incoming.u16[j];
             }
         }
     }
-    void accu_max(simd16uint16 incoming) {
-        for(int j = 0; j < 16; j++) {
+    void accu_max(const simd16uint16& incoming) {
+        for (int j = 0; j < 16; j++) {
             if (incoming.u16[j] > u16[j]) {
                 u16[j] = incoming.u16[j];
             }
         }
     }
 };
 // not really a std::min because it returns an elementwise min
-inline simd16uint16 min(simd16uint16 av, simd16uint16 bv) {
-    return simd16uint16::binary_func(av, bv,
-        [](uint16_t a, uint16_t b) {return std::min(a, b); }
-    );
+inline simd16uint16 min(const simd16uint16& av, const simd16uint16& bv) {
+    return simd16uint16::binary_func(
+            av, bv, [](uint16_t a, uint16_t b) { return std::min(a, b); });
 }
-inline simd16uint16 max(simd16uint16 av, simd16uint16 bv) {
-    return simd16uint16::binary_func(av, bv,
-        [](uint16_t a, uint16_t b) {return std::max(a, b); }
-    );
+inline simd16uint16 max(const simd16uint16& av, const simd16uint16& bv) {
+    return simd16uint16::binary_func(
+            av, bv, [](uint16_t a, uint16_t b) { return std::max(a, b); });
 }
 // decompose in 128-lanes: a = (a0, a1), b = (b0, b1)
 // return (a0 + a1, b0 + b1)
 // TODO find a better name
-inline simd16uint16 combine2x2(simd16uint16 a, simd16uint16 b) {
+inline simd16uint16 combine2x2(const simd16uint16& a, const simd16uint16& b) {
     simd16uint16 c;
-    for(int j = 0; j < 8; j++) {
+    for (int j = 0; j < 8; j++) {
         c.u16[j] = a.u16[j] + a.u16[j + 8];
         c.u16[j + 8] = b.u16[j] + b.u16[j + 8];
     }
@@ -265,9 +251,12 @@ inline simd16uint16 combine2x2(simd16uint16 a, simd16uint16 b) {
 // compare d0 and d1 to thr, return 32 bits corresponding to the concatenation
 // of d0 and d1 with thr
-inline uint32_t cmp_ge32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
+inline uint32_t cmp_ge32(
+        const simd16uint16& d0,
+        const simd16uint16& d1,
+        const simd16uint16& thr) {
     uint32_t gem = 0;
-    for(int j = 0; j < 16; j++) {
+    for (int j = 0; j < 16; j++) {
         if (d0.u16[j] >= thr.u16[j]) {
             gem |= 1 << j;
         }
@@ -278,10 +267,12 @@ inline uint32_t cmp_ge32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
     return gem;
 }
-inline uint32_t cmp_le32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
+inline uint32_t cmp_le32(
+        const simd16uint16& d0,
+        const simd16uint16& d1,
+        const simd16uint16& thr) {
     uint32_t gem = 0;
-    for(int j = 0; j < 16; j++) {
+    for (int j = 0; j < 16; j++) {
         if (d0.u16[j] <= thr.u16[j]) {
             gem |= 1 << j;
         }
@@ -292,24 +283,25 @@ inline uint32_t cmp_le32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
     return gem;
 }
 // vector of 32 unsigned 8-bit integers
-struct simd32uint8: simd256bit {
+struct simd32uint8 : simd256bit {
     simd32uint8() {}
-    explicit simd32uint8(int x) {set1(x); }
+    explicit simd32uint8(int x) {
+        set1(x);
+    }
-    explicit simd32uint8(uint8_t x) {set1(x); }
+    explicit simd32uint8(uint8_t x) {
+        set1(x);
+    }
-    explicit simd32uint8(simd256bit x): simd256bit(x) {}
+    explicit simd32uint8(const simd256bit& x) : simd256bit(x) {}
-    explicit simd32uint8(const uint8_t *x): simd256bit((const void*)x) {}
+    explicit simd32uint8(const uint8_t* x) : simd256bit((const void*)x) {}
-    std::string elements_to_string(const char * fmt) const {
+    std::string elements_to_string(const char* fmt) const {
         char res[1000], *ptr = res;
-        for(int i = 0; i < 32; i++) {
+        for (int i = 0; i < 32; i++) {
             ptr += sprintf(ptr, fmt, u8[i]);
         }
         // strip last ,
@@ -326,39 +318,38 @@ struct simd32uint8: simd256bit {
     }
     void set1(uint8_t x) {
-        for(int j = 0; j < 32; j++) {
+        for (int j = 0; j < 32; j++) {
             u8[j] = x;
         }
     }
+    template <typename F>
     static simd32uint8 binary_func(
-        simd32uint8 a, simd32uint8 b,
-        std::function<uint8_t (uint8_t, uint8_t)> f)
-    {
+            const simd32uint8& a,
+            const simd32uint8& b,
+            F&& f) {
         simd32uint8 c;
-        for(int j = 0; j < 32; j++) {
+        for (int j = 0; j < 32; j++) {
             c.u8[j] = f(a.u8[j], b.u8[j]);
         }
         return c;
     }
-    simd32uint8 operator & (simd256bit other) const {
-        return binary_func(*this, simd32uint8(other),
-            [](uint8_t a, uint8_t b) {return a & b; }
-        );
+    simd32uint8 operator&(const simd256bit& other) const {
+        return binary_func(*this, simd32uint8(other), [](uint8_t a, uint8_t b) {
+            return a & b;
+        });
     }
-    simd32uint8 operator + (simd32uint8 other) const {
-        return binary_func(*this, other,
-            [](uint8_t a, uint8_t b) {return a + b; }
-        );
+    simd32uint8 operator+(const simd32uint8& other) const {
+        return binary_func(
+                *this, other, [](uint8_t a, uint8_t b) { return a + b; });
     }
     // The very important operation that everything relies on
-    simd32uint8 lookup_2_lanes(simd32uint8 idx) const {
+    simd32uint8 lookup_2_lanes(const simd32uint8& idx) const {
         simd32uint8 c;
-        for(int j = 0; j < 32; j++) {
+        for (int j = 0; j < 32; j++) {
             if (idx.u8[j] & 0x80) {
                 c.u8[j] = 0;
             } else {
@@ -376,31 +367,29 @@ struct simd32uint8: simd256bit {
     // extract + 0-extend lane
     // this operation is slow (3 cycles)
-    simd32uint8 operator += (simd32uint8 other) {
+    simd32uint8 operator+=(const simd32uint8& other) {
         *this = *this + other;
         return *this;
     }
     // for debugging only
-    uint8_t operator [] (int i) const {
+    uint8_t operator[](int i) const {
         return u8[i];
     }
 };
 // convert with saturation
 // careful: this does not cross lanes, so the order is weird
-inline simd32uint8 uint16_to_uint8_saturate(simd16uint16 a, simd16uint16 b) {
+inline simd32uint8 uint16_to_uint8_saturate(
+        const simd16uint16& a,
+        const simd16uint16& b) {
     simd32uint8 c;
-    auto saturate_16_to_8 = [] (uint16_t x) {
-        return x >= 256 ? 0xff : x;
-    };
+    auto saturate_16_to_8 = [](uint16_t x) { return x >= 256 ? 0xff : x; };
     for (int i = 0; i < 8; i++) {
-        c.u8[     i] = saturate_16_to_8(a.u16[i]);
-        c.u8[8  + i] = saturate_16_to_8(b.u16[i]);
+        c.u8[i] = saturate_16_to_8(a.u16[i]);
+        c.u8[8 + i] = saturate_16_to_8(b.u16[i]);
         c.u8[16 + i] = saturate_16_to_8(a.u16[8 + i]);
         c.u8[24 + i] = saturate_16_to_8(b.u16[8 + i]);
     }
@@ -408,7 +397,7 @@ inline simd32uint8 uint16_to_uint8_saturate(simd16uint16 a, simd16uint16 b) {
 }
 /// get most significant bit of each byte
-inline uint32_t get_MSBs(simd32uint8 a) {
+inline uint32_t get_MSBs(const simd32uint8& a) {
     uint32_t res = 0;
     for (int i = 0; i < 32; i++) {
         if (a.u8[i] & 0x80) {
@@ -419,7 +408,10 @@ inline uint32_t get_MSBs(simd32uint8 a) {
 }
 /// use MSB of each byte of mask to select a byte between a and b
-inline simd32uint8 blendv(simd32uint8 a, simd32uint8 b, simd32uint8 mask) {
+inline simd32uint8 blendv(
+        const simd32uint8& a,
+        const simd32uint8& b,
+        const simd32uint8& mask) {
     simd32uint8 c;
     for (int i = 0; i < 32; i++) {
         if (mask.u8[i] & 0x80) {
@@ -431,23 +423,21 @@ inline simd32uint8 blendv(simd32uint8 a, simd32uint8 b, simd32uint8 mask) {
     return c;
 }
 /// vector of 8 unsigned 32-bit integers
-struct simd8uint32: simd256bit {
+struct simd8uint32 : simd256bit {
     simd8uint32() {}
+    explicit simd8uint32(uint32_t x) {
+        set1(x);
+    }
-    explicit simd8uint32(uint32_t x) {set1(x); }
-    explicit simd8uint32(simd256bit x): simd256bit(x) {}
+    explicit simd8uint32(const simd256bit& x) : simd256bit(x) {}
-    explicit simd8uint32(const uint8_t *x): simd256bit((const void*)x) {}
+    explicit simd8uint32(const uint8_t* x) : simd256bit((const void*)x) {}
-    std::string elements_to_string(const char * fmt) const {
+    std::string elements_to_string(const char* fmt) const {
         char res[1000], *ptr = res;
-        for(int i = 0; i < 8; i++) {
+        for (int i = 0; i < 8; i++) {
             ptr += sprintf(ptr, fmt, u32[i]);
         }
         // strip last ,
@@ -468,69 +458,67 @@ struct simd8uint32: simd256bit {
             u32[i] = x;
         }
     }
 };
-struct simd8float32: simd256bit {
+struct simd8float32 : simd256bit {
     simd8float32() {}
-    explicit simd8float32(simd256bit x): simd256bit(x) {}
+    explicit simd8float32(const simd256bit& x) : simd256bit(x) {}
-    explicit simd8float32(float x) {set1(x); }
+    explicit simd8float32(float x) {
+        set1(x);
+    }
-    explicit simd8float32(const float *x) {loadu((void*)x); }
+    explicit simd8float32(const float* x) {
+        loadu((void*)x);
+    }
     void set1(float x) {
-        for(int i = 0; i < 8; i++) {
+        for (int i = 0; i < 8; i++) {
             f32[i] = x;
         }
     }
+    template <typename F>
     static simd8float32 binary_func(
-        simd8float32 a, simd8float32 b,
-        std::function<float (float, float)> f)
-    {
+            const simd8float32& a,
+            const simd8float32& b,
+            F&& f) {
         simd8float32 c;
-        for(int j = 0; j < 8; j++) {
+        for (int j = 0; j < 8; j++) {
             c.f32[j] = f(a.f32[j], b.f32[j]);
         }
         return c;
     }
-    simd8float32 operator * (simd8float32 other) const {
-        return binary_func(*this, other,
-            [](float a, float b) {return a * b; }
-        );
+    simd8float32 operator*(const simd8float32& other) const {
+        return binary_func(
+                *this, other, [](float a, float b) { return a * b; });
     }
-    simd8float32 operator + (simd8float32 other) const {
-        return binary_func(*this, other,
-            [](float a, float b) {return a + b; }
-        );
+    simd8float32 operator+(const simd8float32& other) const {
+        return binary_func(
+                *this, other, [](float a, float b) { return a + b; });
     }
-    simd8float32 operator - (simd8float32 other) const {
-        return binary_func(*this, other,
-            [](float a, float b) {return a - b; }
-        );
+    simd8float32 operator-(const simd8float32& other) const {
+        return binary_func(
+                *this, other, [](float a, float b) { return a - b; });
     }
     std::string tostring() const {
         char res[1000], *ptr = res;
-        for(int i = 0; i < 8; i++) {
+        for (int i = 0; i < 8; i++) {
             ptr += sprintf(ptr, "%g,", f32[i]);
         }
         // strip last ,
         ptr[-1] = 0;
         return std::string(res);
     }
 };
 // hadd does not cross lanes
-inline simd8float32 hadd(simd8float32 a, simd8float32 b) {
+inline simd8float32 hadd(const simd8float32& a, const simd8float32& b) {
     simd8float32 c;
     c.f32[0] = a.f32[0] + a.f32[1];
     c.f32[1] = a.f32[2] + a.f32[3];
@@ -545,7 +533,7 @@ inline simd8float32 hadd(simd8float32 a, simd8float32 b) {
     return c;
 }
-inline simd8float32 unpacklo(simd8float32 a, simd8float32 b) {
+inline simd8float32 unpacklo(const simd8float32& a, const simd8float32& b) {
     simd8float32 c;
     c.f32[0] = a.f32[0];
     c.f32[1] = b.f32[0];
@@ -560,7 +548,7 @@ inline simd8float32 unpacklo(simd8float32 a, simd8float32 b) {
     return c;
 }
-inline simd8float32 unpackhi(simd8float32 a, simd8float32 b) {
+inline simd8float32 unpackhi(const simd8float32& a, const simd8float32& b) {
     simd8float32 c;
     c.f32[0] = a.f32[2];
     c.f32[1] = b.f32[2];
@@ -576,14 +564,87 @@ inline simd8float32 unpackhi(simd8float32 a, simd8float32 b) {
 }
 // compute a * b + c
-inline simd8float32 fmadd(simd8float32 a, simd8float32 b, simd8float32 c) {
+inline simd8float32 fmadd(
+        const simd8float32& a,
+        const simd8float32& b,
+        const simd8float32& c) {
     simd8float32 res;
-    for(int i = 0; i < 8; i++) {
+    for (int i = 0; i < 8; i++) {
         res.f32[i] = a.f32[i] * b.f32[i] + c.f32[i];
     }
     return res;
 }
+namespace {
+// get even float32's of a and b, interleaved
+simd8float32 geteven(const simd8float32& a, const simd8float32& b) {
+    simd8float32 c;
+    c.f32[0] = a.f32[0];
+    c.f32[1] = a.f32[2];
+    c.f32[2] = b.f32[0];
+    c.f32[3] = b.f32[2];
+    c.f32[4] = a.f32[4];
+    c.f32[5] = a.f32[6];
+    c.f32[6] = b.f32[4];
+    c.f32[7] = b.f32[6];
+    return c;
+}
+// get odd float32's of a and b, interleaved
+simd8float32 getodd(const simd8float32& a, const simd8float32& b) {
+    simd8float32 c;
+    c.f32[0] = a.f32[1];
+    c.f32[1] = a.f32[3];
+    c.f32[2] = b.f32[1];
+    c.f32[3] = b.f32[3];
+    c.f32[4] = a.f32[5];
+    c.f32[5] = a.f32[7];
+    c.f32[6] = b.f32[5];
+    c.f32[7] = b.f32[7];
+    return c;
+}
+// 3 cycles
+// if the lanes are a = [a0 a1] and b = [b0 b1], return [a0 b0]
+simd8float32 getlow128(const simd8float32& a, const simd8float32& b) {
+    simd8float32 c;
+    c.f32[0] = a.f32[0];
+    c.f32[1] = a.f32[1];
+    c.f32[2] = a.f32[2];
+    c.f32[3] = a.f32[3];
+    c.f32[4] = b.f32[0];
+    c.f32[5] = b.f32[1];
+    c.f32[6] = b.f32[2];
+    c.f32[7] = b.f32[3];
+    return c;
+}
+simd8float32 gethigh128(const simd8float32& a, const simd8float32& b) {
+    simd8float32 c;
+    c.f32[0] = a.f32[4];
+    c.f32[1] = a.f32[5];
+    c.f32[2] = a.f32[6];
+    c.f32[3] = a.f32[7];
+    c.f32[4] = b.f32[4];
+    c.f32[5] = b.f32[5];
+    c.f32[6] = b.f32[6];
+    c.f32[7] = b.f32[7];
+    return c;
+}
+} // namespace
 } // namespace faiss