RubyGems - faiss - Versions diffs - 0.2.0 → 0.2.4 - Mend

faiss 0.2.0 → 0.2.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (215) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +16 -0
data/LICENSE.txt +1 -1
data/README.md +7 -7
data/ext/faiss/extconf.rb +6 -3
data/ext/faiss/numo.hpp +4 -4
data/ext/faiss/utils.cpp +1 -1
data/ext/faiss/utils.h +1 -1
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +292 -291
data/vendor/faiss/faiss/AutoTune.h +55 -56
data/vendor/faiss/faiss/Clustering.cpp +365 -194
data/vendor/faiss/faiss/Clustering.h +102 -35
data/vendor/faiss/faiss/IVFlib.cpp +171 -195
data/vendor/faiss/faiss/IVFlib.h +48 -51
data/vendor/faiss/faiss/Index.cpp +85 -103
data/vendor/faiss/faiss/Index.h +54 -48
data/vendor/faiss/faiss/Index2Layer.cpp +126 -224
data/vendor/faiss/faiss/Index2Layer.h +22 -36
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +407 -0
data/vendor/faiss/faiss/IndexAdditiveQuantizer.h +195 -0
data/vendor/faiss/faiss/IndexBinary.cpp +45 -37
data/vendor/faiss/faiss/IndexBinary.h +140 -132
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +73 -53
data/vendor/faiss/faiss/IndexBinaryFlat.h +29 -24
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +46 -43
data/vendor/faiss/faiss/IndexBinaryFromFloat.h +16 -15
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +215 -232
data/vendor/faiss/faiss/IndexBinaryHNSW.h +25 -24
data/vendor/faiss/faiss/IndexBinaryHash.cpp +182 -177
data/vendor/faiss/faiss/IndexBinaryHash.h +41 -34
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +489 -461
data/vendor/faiss/faiss/IndexBinaryIVF.h +97 -68
data/vendor/faiss/faiss/IndexFlat.cpp +115 -176
data/vendor/faiss/faiss/IndexFlat.h +42 -59
data/vendor/faiss/faiss/IndexFlatCodes.cpp +67 -0
data/vendor/faiss/faiss/IndexFlatCodes.h +47 -0
data/vendor/faiss/faiss/IndexHNSW.cpp +372 -348
data/vendor/faiss/faiss/IndexHNSW.h +57 -41
data/vendor/faiss/faiss/IndexIVF.cpp +545 -453
data/vendor/faiss/faiss/IndexIVF.h +169 -118
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +316 -0
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.h +121 -0
data/vendor/faiss/faiss/IndexIVFFlat.cpp +247 -252
data/vendor/faiss/faiss/IndexIVFFlat.h +48 -51
data/vendor/faiss/faiss/IndexIVFPQ.cpp +459 -517
data/vendor/faiss/faiss/IndexIVFPQ.h +75 -67
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +406 -372
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +82 -57
data/vendor/faiss/faiss/IndexIVFPQR.cpp +104 -102
data/vendor/faiss/faiss/IndexIVFPQR.h +33 -28
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +163 -150
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +38 -25
data/vendor/faiss/faiss/IndexLSH.cpp +66 -113
data/vendor/faiss/faiss/IndexLSH.h +20 -38
data/vendor/faiss/faiss/IndexLattice.cpp +42 -56
data/vendor/faiss/faiss/IndexLattice.h +11 -16
data/vendor/faiss/faiss/IndexNNDescent.cpp +229 -0
data/vendor/faiss/faiss/IndexNNDescent.h +72 -0
data/vendor/faiss/faiss/IndexNSG.cpp +301 -0
data/vendor/faiss/faiss/IndexNSG.h +85 -0
data/vendor/faiss/faiss/IndexPQ.cpp +387 -495
data/vendor/faiss/faiss/IndexPQ.h +64 -82
data/vendor/faiss/faiss/IndexPQFastScan.cpp +143 -170
data/vendor/faiss/faiss/IndexPQFastScan.h +46 -32
data/vendor/faiss/faiss/IndexPreTransform.cpp +120 -150
data/vendor/faiss/faiss/IndexPreTransform.h +33 -36
data/vendor/faiss/faiss/IndexRefine.cpp +139 -127
data/vendor/faiss/faiss/IndexRefine.h +32 -23
data/vendor/faiss/faiss/IndexReplicas.cpp +147 -153
data/vendor/faiss/faiss/IndexReplicas.h +62 -56
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +111 -172
data/vendor/faiss/faiss/IndexScalarQuantizer.h +41 -59
data/vendor/faiss/faiss/IndexShards.cpp +256 -240
data/vendor/faiss/faiss/IndexShards.h +85 -73
data/vendor/faiss/faiss/MatrixStats.cpp +112 -97
data/vendor/faiss/faiss/MatrixStats.h +7 -10
data/vendor/faiss/faiss/MetaIndexes.cpp +135 -157
data/vendor/faiss/faiss/MetaIndexes.h +40 -34
data/vendor/faiss/faiss/MetricType.h +7 -7
data/vendor/faiss/faiss/VectorTransform.cpp +654 -475
data/vendor/faiss/faiss/VectorTransform.h +64 -89
data/vendor/faiss/faiss/clone_index.cpp +78 -73
data/vendor/faiss/faiss/clone_index.h +4 -9
data/vendor/faiss/faiss/gpu/GpuAutoTune.cpp +33 -38
data/vendor/faiss/faiss/gpu/GpuAutoTune.h +11 -9
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +198 -171
data/vendor/faiss/faiss/gpu/GpuCloner.h +53 -35
data/vendor/faiss/faiss/gpu/GpuClonerOptions.cpp +12 -14
data/vendor/faiss/faiss/gpu/GpuClonerOptions.h +27 -25
data/vendor/faiss/faiss/gpu/GpuDistance.h +116 -112
data/vendor/faiss/faiss/gpu/GpuFaissAssert.h +1 -2
data/vendor/faiss/faiss/gpu/GpuIcmEncoder.h +60 -0
data/vendor/faiss/faiss/gpu/GpuIndex.h +134 -137
data/vendor/faiss/faiss/gpu/GpuIndexBinaryFlat.h +76 -73
data/vendor/faiss/faiss/gpu/GpuIndexFlat.h +173 -162
data/vendor/faiss/faiss/gpu/GpuIndexIVF.h +67 -64
data/vendor/faiss/faiss/gpu/GpuIndexIVFFlat.h +89 -86
data/vendor/faiss/faiss/gpu/GpuIndexIVFPQ.h +150 -141
data/vendor/faiss/faiss/gpu/GpuIndexIVFScalarQuantizer.h +101 -103
data/vendor/faiss/faiss/gpu/GpuIndicesOptions.h +17 -16
data/vendor/faiss/faiss/gpu/GpuResources.cpp +116 -128
data/vendor/faiss/faiss/gpu/GpuResources.h +182 -186
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +433 -422
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +131 -130
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.cpp +468 -456
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.h +25 -19
data/vendor/faiss/faiss/gpu/impl/RemapIndices.cpp +22 -20
data/vendor/faiss/faiss/gpu/impl/RemapIndices.h +9 -8
data/vendor/faiss/faiss/gpu/perf/IndexWrapper-inl.h +39 -44
data/vendor/faiss/faiss/gpu/perf/IndexWrapper.h +16 -14
data/vendor/faiss/faiss/gpu/perf/PerfClustering.cpp +77 -71
data/vendor/faiss/faiss/gpu/perf/PerfIVFPQAdd.cpp +109 -88
data/vendor/faiss/faiss/gpu/perf/WriteIndex.cpp +75 -64
data/vendor/faiss/faiss/gpu/test/TestCodePacking.cpp +230 -215
data/vendor/faiss/faiss/gpu/test/TestGpuIndexBinaryFlat.cpp +80 -86
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +284 -277
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +416 -416
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +611 -517
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFScalarQuantizer.cpp +166 -164
data/vendor/faiss/faiss/gpu/test/TestGpuMemoryException.cpp +61 -53
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +274 -238
data/vendor/faiss/faiss/gpu/test/TestUtils.h +73 -57
data/vendor/faiss/faiss/gpu/test/demo_ivfpq_indexing_gpu.cpp +47 -50
data/vendor/faiss/faiss/gpu/utils/DeviceUtils.h +79 -72
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.cpp +140 -146
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.h +69 -71
data/vendor/faiss/faiss/gpu/utils/StaticUtils.h +21 -16
data/vendor/faiss/faiss/gpu/utils/Timer.cpp +25 -29
data/vendor/faiss/faiss/gpu/utils/Timer.h +30 -29
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +503 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +175 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +90 -120
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +81 -65
data/vendor/faiss/faiss/impl/FaissAssert.h +73 -58
data/vendor/faiss/faiss/impl/FaissException.cpp +56 -48
data/vendor/faiss/faiss/impl/FaissException.h +41 -29
data/vendor/faiss/faiss/impl/HNSW.cpp +606 -617
data/vendor/faiss/faiss/impl/HNSW.h +179 -200
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +855 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.h +244 -0
data/vendor/faiss/faiss/impl/NNDescent.cpp +487 -0
data/vendor/faiss/faiss/impl/NNDescent.h +154 -0
data/vendor/faiss/faiss/impl/NSG.cpp +679 -0
data/vendor/faiss/faiss/impl/NSG.h +199 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +484 -454
data/vendor/faiss/faiss/impl/PolysemousTraining.h +52 -55
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +26 -47
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +469 -459
data/vendor/faiss/faiss/impl/ProductQuantizer.h +76 -87
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +758 -0
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +188 -0
data/vendor/faiss/faiss/impl/ResultHandler.h +96 -132
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +647 -707
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +48 -46
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +129 -131
data/vendor/faiss/faiss/impl/ThreadedIndex.h +61 -55
data/vendor/faiss/faiss/impl/index_read.cpp +631 -480
data/vendor/faiss/faiss/impl/index_write.cpp +547 -407
data/vendor/faiss/faiss/impl/io.cpp +76 -95
data/vendor/faiss/faiss/impl/io.h +31 -41
data/vendor/faiss/faiss/impl/io_macros.h +60 -29
data/vendor/faiss/faiss/impl/kmeans1d.cpp +301 -0
data/vendor/faiss/faiss/impl/kmeans1d.h +48 -0
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +137 -186
data/vendor/faiss/faiss/impl/lattice_Zn.h +40 -51
data/vendor/faiss/faiss/impl/platform_macros.h +29 -8
data/vendor/faiss/faiss/impl/pq4_fast_scan.cpp +77 -124
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +39 -48
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +41 -52
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_qbs.cpp +80 -117
data/vendor/faiss/faiss/impl/simd_result_handlers.h +109 -137
data/vendor/faiss/faiss/index_factory.cpp +619 -397
data/vendor/faiss/faiss/index_factory.h +8 -6
data/vendor/faiss/faiss/index_io.h +23 -26
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +67 -75
data/vendor/faiss/faiss/invlists/BlockInvertedLists.h +22 -24
data/vendor/faiss/faiss/invlists/DirectMap.cpp +96 -112
data/vendor/faiss/faiss/invlists/DirectMap.h +29 -33
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +307 -364
data/vendor/faiss/faiss/invlists/InvertedLists.h +151 -151
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +29 -34
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.h +17 -18
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +257 -293
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +50 -45
data/vendor/faiss/faiss/python/python_callbacks.cpp +23 -26
data/vendor/faiss/faiss/python/python_callbacks.h +9 -16
data/vendor/faiss/faiss/utils/AlignedTable.h +79 -44
data/vendor/faiss/faiss/utils/Heap.cpp +40 -48
data/vendor/faiss/faiss/utils/Heap.h +186 -209
data/vendor/faiss/faiss/utils/WorkerThread.cpp +67 -76
data/vendor/faiss/faiss/utils/WorkerThread.h +32 -33
data/vendor/faiss/faiss/utils/distances.cpp +305 -312
data/vendor/faiss/faiss/utils/distances.h +170 -122
data/vendor/faiss/faiss/utils/distances_simd.cpp +498 -508
data/vendor/faiss/faiss/utils/extra_distances-inl.h +117 -0
data/vendor/faiss/faiss/utils/extra_distances.cpp +113 -232
data/vendor/faiss/faiss/utils/extra_distances.h +30 -29
data/vendor/faiss/faiss/utils/hamming-inl.h +260 -209
data/vendor/faiss/faiss/utils/hamming.cpp +375 -469
data/vendor/faiss/faiss/utils/hamming.h +62 -85
data/vendor/faiss/faiss/utils/ordered_key_value.h +16 -18
data/vendor/faiss/faiss/utils/partitioning.cpp +393 -318
data/vendor/faiss/faiss/utils/partitioning.h +26 -21
data/vendor/faiss/faiss/utils/quantize_lut.cpp +78 -66
data/vendor/faiss/faiss/utils/quantize_lut.h +22 -20
data/vendor/faiss/faiss/utils/random.cpp +39 -63
data/vendor/faiss/faiss/utils/random.h +13 -16
data/vendor/faiss/faiss/utils/simdlib.h +4 -2
data/vendor/faiss/faiss/utils/simdlib_avx2.h +88 -85
data/vendor/faiss/faiss/utils/simdlib_emulated.h +226 -165
data/vendor/faiss/faiss/utils/simdlib_neon.h +832 -0
data/vendor/faiss/faiss/utils/utils.cpp +304 -287
data/vendor/faiss/faiss/utils/utils.h +54 -49
metadata +29 -4

data/vendor/faiss/faiss/utils/random.h CHANGED Viewed

@@ -13,9 +13,8 @@
 #pragma once
-#include <random>
 #include <stdint.h>
+#include <random>
 namespace faiss {
@@ -25,36 +24,34 @@ namespace faiss {
 /// random generator that can be used in multithreaded contexts
 struct RandomGenerator {
     std::mt19937 mt;
     /// random positive integer
-    int rand_int ();
+    int rand_int();
     /// random int64_t
-    int64_t rand_int64 ();
+    int64_t rand_int64();
     /// generate random integer between 0 and max-1
-    int rand_int (int max);
+    int rand_int(int max);
     /// between 0 and 1
-    float rand_float ();
+    float rand_float();
-    double rand_double ();
+    double rand_double();
-    explicit RandomGenerator (int64_t seed = 1234);
+    explicit RandomGenerator(int64_t seed = 1234);
 };
 /* Generate an array of uniform random floats / multi-threaded implementation */
-void float_rand (float * x, size_t n, int64_t seed);
-void float_randn (float * x, size_t n, int64_t seed);
-void int64_rand (int64_t * x, size_t n, int64_t seed);
-void byte_rand (uint8_t * x, size_t n, int64_t seed);
+void float_rand(float* x, size_t n, int64_t seed);
+void float_randn(float* x, size_t n, int64_t seed);
+void int64_rand(int64_t* x, size_t n, int64_t seed);
+void byte_rand(uint8_t* x, size_t n, int64_t seed);
 // max is actually the maximum value + 1
-void int64_rand_max (int64_t * x, size_t n, uint64_t max, int64_t seed);
+void int64_rand_max(int64_t* x, size_t n, uint64_t max, int64_t seed);
 /* random permutation */
-void rand_perm (int * perm, size_t n, int64_t seed);
+void rand_perm(int* perm, size_t n, int64_t seed);
 } // namespace faiss

data/vendor/faiss/faiss/utils/simdlib.h CHANGED Viewed

@@ -7,8 +7,6 @@
 #pragma once
 /** Abstractions for 256-bit registers
  *
  * The objective is to separate the different interpretations of the same
@@ -20,6 +18,10 @@
 #include <faiss/utils/simdlib_avx2.h>
+#elif defined(__aarch64__)
+#include <faiss/utils/simdlib_neon.h>
 #else
 // emulated = all operations are implemented as scalars

data/vendor/faiss/faiss/utils/simdlib_avx2.h CHANGED Viewed

@@ -7,8 +7,8 @@
 #pragma once
-#include <string>
 #include <cstdint>
+#include <string>
 #include <immintrin.h>
@@ -16,7 +16,6 @@
 namespace faiss {
 /** Simple wrapper around the AVX 256-bit registers
  *
  * The objective is to separate the different interpretations of the same
@@ -27,36 +26,34 @@ namespace faiss {
 /// 256-bit representation without interpretation as a vector
 struct simd256bit {
-        union {
+    union {
         __m256i i;
         __m256 f;
     };
-    simd256bit()   {}
+    simd256bit() {}
-    explicit simd256bit(__m256i i): i(i) {}
+    explicit simd256bit(__m256i i) : i(i) {}
-    explicit simd256bit(__m256 f): f(f) {}
+    explicit simd256bit(__m256 f) : f(f) {}
-    explicit simd256bit(const void *x):
-    i(_mm256_load_si256((__m256i const *)x))
-    {}
+    explicit simd256bit(const void* x)
+            : i(_mm256_load_si256((__m256i const*)x)) {}
     void clear() {
         i = _mm256_setzero_si256();
     }
-    void storeu(void *ptr) const {
-        _mm256_storeu_si256((__m256i *)ptr, i);
+    void storeu(void* ptr) const {
+        _mm256_storeu_si256((__m256i*)ptr, i);
     }
-    void loadu(const void *ptr) {
+    void loadu(const void* ptr) {
         i = _mm256_loadu_si256((__m256i*)ptr);
     }
-    void store(void *ptr) const {
-        _mm256_store_si256((__m256i *)ptr, i);
+    void store(void* ptr) const {
+        _mm256_store_si256((__m256i*)ptr, i);
     }
     void bin(char bits[257]) const {
@@ -73,30 +70,28 @@ struct simd256bit {
         bin(bits);
         return std::string(bits);
     }
 };
 /// vector of 16 elements in uint16
-struct simd16uint16: simd256bit {
+struct simd16uint16 : simd256bit {
     simd16uint16() {}
-    explicit simd16uint16(__m256i i): simd256bit(i) {}
+    explicit simd16uint16(__m256i i) : simd256bit(i) {}
-    explicit simd16uint16(int x): simd256bit(_mm256_set1_epi16(x)) {}
+    explicit simd16uint16(int x) : simd256bit(_mm256_set1_epi16(x)) {}
-    explicit simd16uint16(uint16_t x): simd256bit(_mm256_set1_epi16(x)) {}
+    explicit simd16uint16(uint16_t x) : simd256bit(_mm256_set1_epi16(x)) {}
-    explicit simd16uint16(simd256bit x): simd256bit(x) {}
+    explicit simd16uint16(simd256bit x) : simd256bit(x) {}
-    explicit simd16uint16(const uint16_t *x): simd256bit((const void*)x) {}
+    explicit simd16uint16(const uint16_t* x) : simd256bit((const void*)x) {}
-    std::string elements_to_string(const char * fmt) const {
+    std::string elements_to_string(const char* fmt) const {
         uint16_t bytes[16];
         storeu((void*)bytes);
         char res[1000];
-        char *ptr = res;
-        for(int i = 0; i < 16; i++) {
+        char* ptr = res;
+        for (int i = 0; i < 16; i++) {
             ptr += sprintf(ptr, fmt, bytes[i]);
         }
         // strip last ,
@@ -117,47 +112,47 @@ struct simd16uint16: simd256bit {
     }
     // shift must be known at compile time
-    simd16uint16 operator >> (const int shift) const {
+    simd16uint16 operator>>(const int shift) const {
         return simd16uint16(_mm256_srli_epi16(i, shift));
     }
     // shift must be known at compile time
-    simd16uint16 operator << (const int shift) const {
+    simd16uint16 operator<<(const int shift) const {
         return simd16uint16(_mm256_slli_epi16(i, shift));
     }
-    simd16uint16 operator += (simd16uint16 other) {
+    simd16uint16 operator+=(simd16uint16 other) {
         i = _mm256_add_epi16(i, other.i);
         return *this;
     }
-    simd16uint16 operator -= (simd16uint16 other) {
+    simd16uint16 operator-=(simd16uint16 other) {
         i = _mm256_sub_epi16(i, other.i);
         return *this;
     }
-    simd16uint16 operator + (simd16uint16 other) const {
+    simd16uint16 operator+(simd16uint16 other) const {
         return simd16uint16(_mm256_add_epi16(i, other.i));
     }
-    simd16uint16 operator - (simd16uint16 other) const {
+    simd16uint16 operator-(simd16uint16 other) const {
         return simd16uint16(_mm256_sub_epi16(i, other.i));
     }
-    simd16uint16 operator & (simd256bit other) const {
+    simd16uint16 operator&(simd256bit other) const {
         return simd16uint16(_mm256_and_si256(i, other.i));
     }
-    simd16uint16 operator | (simd256bit other) const {
+    simd16uint16 operator|(simd256bit other) const {
         return simd16uint16(_mm256_or_si256(i, other.i));
     }
     // returns binary masks
-    simd16uint16 operator == (simd256bit other) const {
+    simd16uint16 operator==(simd256bit other) const {
         return simd16uint16(_mm256_cmpeq_epi16(i, other.i));
     }
-    simd16uint16 operator ~() const {
+    simd16uint16 operator~() const {
         return simd16uint16(_mm256_xor_si256(i, _mm256_set1_epi32(-1)));
     }
@@ -188,7 +183,7 @@ struct simd16uint16: simd256bit {
     }
     // for debugging only
-    uint16_t operator [] (int i) const {
+    uint16_t operator[](int i) const {
         ALIGNED(32) uint16_t tab[16];
         store(tab);
         return tab[i];
@@ -201,7 +196,6 @@ struct simd16uint16: simd256bit {
     void accu_max(simd16uint16 incoming) {
         i = _mm256_max_epu16(i, incoming.i);
     }
 };
 // not really a std::min because it returns an elementwise min
@@ -213,13 +207,10 @@ inline simd16uint16 max(simd16uint16 a, simd16uint16 b) {
     return simd16uint16(_mm256_max_epu16(a.i, b.i));
 }
 // decompose in 128-lanes: a = (a0, a1), b = (b0, b1)
 // return (a0 + a1, b0 + b1)
 // TODO find a better name
 inline simd16uint16 combine2x2(simd16uint16 a, simd16uint16 b) {
     __m256i a1b0 = _mm256_permute2f128_si256(a.i, b.i, 0x21);
     __m256i a0b1 = _mm256_blend_epi32(a.i, b.i, 0xF0);
@@ -229,7 +220,6 @@ inline simd16uint16 combine2x2(simd16uint16 a, simd16uint16 b) {
 // compare d0 and d1 to thr, return 32 bits corresponding to the concatenation
 // of d0 and d1 with thr
 inline uint32_t cmp_ge32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
     __m256i max0 = _mm256_max_epu16(d0.i, thr.i);
     __m256i ge0 = _mm256_cmpeq_epi16(d0.i, max0);
@@ -245,9 +235,7 @@ inline uint32_t cmp_ge32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
     return ge;
 }
 inline uint32_t cmp_le32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
     __m256i max0 = _mm256_min_epu16(d0.i, thr.i);
     __m256i ge0 = _mm256_cmpeq_epi16(d0.i, max0);
@@ -263,29 +251,26 @@ inline uint32_t cmp_le32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
     return ge;
 }
 // vector of 32 unsigned 8-bit integers
-struct simd32uint8: simd256bit {
+struct simd32uint8 : simd256bit {
     simd32uint8() {}
-    explicit simd32uint8(__m256i i): simd256bit(i) {}
+    explicit simd32uint8(__m256i i) : simd256bit(i) {}
-    explicit simd32uint8(int x): simd256bit(_mm256_set1_epi8(x)) {}
+    explicit simd32uint8(int x) : simd256bit(_mm256_set1_epi8(x)) {}
-    explicit simd32uint8(uint8_t x): simd256bit(_mm256_set1_epi8(x)) {}
+    explicit simd32uint8(uint8_t x) : simd256bit(_mm256_set1_epi8(x)) {}
-    explicit simd32uint8(simd256bit x): simd256bit(x) {}
+    explicit simd32uint8(simd256bit x) : simd256bit(x) {}
-    explicit simd32uint8(const uint8_t *x): simd256bit((const void*)x) {}
+    explicit simd32uint8(const uint8_t* x) : simd256bit((const void*)x) {}
-    std::string elements_to_string(const char * fmt) const {
+    std::string elements_to_string(const char* fmt) const {
         uint8_t bytes[32];
         storeu((void*)bytes);
         char res[1000];
-        char *ptr = res;
-        for(int i = 0; i < 32; i++) {
+        char* ptr = res;
+        for (int i = 0; i < 32; i++) {
             ptr += sprintf(ptr, fmt, bytes[i]);
         }
         // strip last ,
@@ -305,11 +290,11 @@ struct simd32uint8: simd256bit {
         i = _mm256_set1_epi8((char)x);
     }
-    simd32uint8 operator & (simd256bit other) const {
+    simd32uint8 operator&(simd256bit other) const {
         return simd32uint8(_mm256_and_si256(i, other.i));
     }
-    simd32uint8 operator + (simd32uint8 other) const {
+    simd32uint8 operator+(simd32uint8 other) const {
         return simd32uint8(_mm256_add_epi8(i, other.i));
     }
@@ -329,18 +314,17 @@ struct simd32uint8: simd256bit {
         return simd16uint16(_mm256_cvtepu8_epi16(x));
     }
-    simd32uint8 operator += (simd32uint8 other) {
+    simd32uint8 operator+=(simd32uint8 other) {
         i = _mm256_add_epi8(i, other.i);
         return *this;
     }
     // for debugging only
-    uint8_t operator [] (int i) const {
+    uint8_t operator[](int i) const {
         ALIGNED(32) uint8_t tab[32];
         store(tab);
         return tab[i];
     }
 };
 // convert with saturation
@@ -359,26 +343,24 @@ inline simd32uint8 blendv(simd32uint8 a, simd32uint8 b, simd32uint8 mask) {
     return simd32uint8(_mm256_blendv_epi8(a.i, b.i, mask.i));
 }
 /// vector of 8 unsigned 32-bit integers
-struct simd8uint32: simd256bit {
+struct simd8uint32 : simd256bit {
     simd8uint32() {}
-    explicit simd8uint32(__m256i i): simd256bit(i) {}
+    explicit simd8uint32(__m256i i) : simd256bit(i) {}
-    explicit simd8uint32(uint32_t x): simd256bit(_mm256_set1_epi32(x)) {}
+    explicit simd8uint32(uint32_t x) : simd256bit(_mm256_set1_epi32(x)) {}
-    explicit simd8uint32(simd256bit x): simd256bit(x) {}
+    explicit simd8uint32(simd256bit x) : simd256bit(x) {}
-    explicit simd8uint32(const uint8_t *x): simd256bit((const void*)x) {}
+    explicit simd8uint32(const uint8_t* x) : simd256bit((const void*)x) {}
-    std::string elements_to_string(const char * fmt) const {
+    std::string elements_to_string(const char* fmt) const {
         uint32_t bytes[8];
         storeu((void*)bytes);
         char res[1000];
-        char *ptr = res;
-        for(int i = 0; i < 8; i++) {
+        char* ptr = res;
+        for (int i = 0; i < 8; i++) {
             ptr += sprintf(ptr, fmt, bytes[i]);
         }
         // strip last ,
@@ -397,31 +379,28 @@ struct simd8uint32: simd256bit {
     void set1(uint32_t x) {
         i = _mm256_set1_epi32((int)x);
     }
 };
-struct simd8float32: simd256bit {
+struct simd8float32 : simd256bit {
     simd8float32() {}
+    explicit simd8float32(simd256bit x) : simd256bit(x) {}
-    explicit simd8float32(simd256bit x): simd256bit(x) {}
-    explicit simd8float32(__m256 x): simd256bit(x) {}
+    explicit simd8float32(__m256 x) : simd256bit(x) {}
-    explicit simd8float32(float x): simd256bit(_mm256_set1_ps(x)) {}
+    explicit simd8float32(float x) : simd256bit(_mm256_set1_ps(x)) {}
-    explicit simd8float32(const float *x): simd256bit(_mm256_load_ps(x)) {}
+    explicit simd8float32(const float* x) : simd256bit(_mm256_load_ps(x)) {}
-    simd8float32 operator * (simd8float32 other) const {
+    simd8float32 operator*(simd8float32 other) const {
         return simd8float32(_mm256_mul_ps(f, other.f));
     }
-    simd8float32 operator + (simd8float32 other) const {
+    simd8float32 operator+(simd8float32 other) const {
         return simd8float32(_mm256_add_ps(f, other.f));
     }
-    simd8float32 operator - (simd8float32 other) const {
+    simd8float32 operator-(simd8float32 other) const {
         return simd8float32(_mm256_sub_ps(f, other.f));
     }
@@ -429,15 +408,14 @@ struct simd8float32: simd256bit {
         float tab[8];
         storeu((void*)tab);
         char res[1000];
-        char *ptr = res;
-        for(int i = 0; i < 8; i++) {
+        char* ptr = res;
+        for (int i = 0; i < 8; i++) {
             ptr += sprintf(ptr, "%g,", tab[i]);
         }
         // strip last ,
         ptr[-1] = 0;
         return std::string(res);
     }
 };
 inline simd8float32 hadd(simd8float32 a, simd8float32 b) {
@@ -457,5 +435,30 @@ inline simd8float32 fmadd(simd8float32 a, simd8float32 b, simd8float32 c) {
     return simd8float32(_mm256_fmadd_ps(a.f, b.f, c.f));
 }
+namespace {
+// get even float32's of a and b, interleaved
+inline simd8float32 geteven(simd8float32 a, simd8float32 b) {
+    return simd8float32(
+            _mm256_shuffle_ps(a.f, b.f, 0 << 0 | 2 << 2 | 0 << 4 | 2 << 6));
+}
+// get odd float32's of a and b, interleaved
+inline simd8float32 getodd(simd8float32 a, simd8float32 b) {
+    return simd8float32(
+            _mm256_shuffle_ps(a.f, b.f, 1 << 0 | 3 << 2 | 1 << 4 | 3 << 6));
+}
+// 3 cycles
+// if the lanes are a = [a0 a1] and b = [b0 b1], return [a0 b0]
+inline simd8float32 getlow128(simd8float32 a, simd8float32 b) {
+    return simd8float32(_mm256_permute2f128_ps(a.f, b.f, 0 | 2 << 4));
+}
+inline simd8float32 gethigh128(simd8float32 a, simd8float32 b) {
+    return simd8float32(_mm256_permute2f128_ps(a.f, b.f, 1 | 3 << 4));
+}
+} // namespace
 } // namespace faiss