RubyGems - faiss - Versions diffs - 0.1.3 → 0.1.4 - Mend

faiss 0.1.3 → 0.1.4

Files changed (184) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +4 -0
data/LICENSE.txt +1 -1
data/README.md +1 -1
data/ext/faiss/extconf.rb +1 -1
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +36 -33
data/vendor/faiss/faiss/AutoTune.h +6 -3
data/vendor/faiss/faiss/Clustering.cpp +16 -12
data/vendor/faiss/faiss/Index.cpp +3 -4
data/vendor/faiss/faiss/Index.h +3 -3
data/vendor/faiss/faiss/IndexBinary.cpp +3 -4
data/vendor/faiss/faiss/IndexBinary.h +1 -1
data/vendor/faiss/faiss/IndexBinaryHash.cpp +2 -12
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +1 -2
data/vendor/faiss/faiss/IndexFlat.cpp +0 -148
data/vendor/faiss/faiss/IndexFlat.h +0 -51
data/vendor/faiss/faiss/IndexHNSW.cpp +4 -5
data/vendor/faiss/faiss/IndexIVF.cpp +118 -31
data/vendor/faiss/faiss/IndexIVF.h +22 -15
data/vendor/faiss/faiss/IndexIVFFlat.cpp +3 -3
data/vendor/faiss/faiss/IndexIVFFlat.h +2 -1
data/vendor/faiss/faiss/IndexIVFPQ.cpp +39 -15
data/vendor/faiss/faiss/IndexIVFPQ.h +25 -9
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +1116 -0
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +166 -0
data/vendor/faiss/faiss/IndexIVFPQR.cpp +8 -9
data/vendor/faiss/faiss/IndexIVFPQR.h +2 -1
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +1 -2
data/vendor/faiss/faiss/IndexPQ.cpp +34 -18
data/vendor/faiss/faiss/IndexPQFastScan.cpp +536 -0
data/vendor/faiss/faiss/IndexPQFastScan.h +111 -0
data/vendor/faiss/faiss/IndexPreTransform.cpp +47 -0
data/vendor/faiss/faiss/IndexPreTransform.h +2 -0
data/vendor/faiss/faiss/IndexRefine.cpp +256 -0
data/vendor/faiss/faiss/IndexRefine.h +73 -0
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +2 -2
data/vendor/faiss/faiss/IndexScalarQuantizer.h +1 -1
data/vendor/faiss/faiss/gpu/GpuDistance.h +1 -1
data/vendor/faiss/faiss/gpu/GpuIndex.h +16 -9
data/vendor/faiss/faiss/gpu/GpuIndexBinaryFlat.h +8 -1
data/vendor/faiss/faiss/gpu/GpuIndexFlat.h +11 -11
data/vendor/faiss/faiss/gpu/GpuIndexIVF.h +19 -2
data/vendor/faiss/faiss/gpu/GpuIndexIVFFlat.h +28 -2
data/vendor/faiss/faiss/gpu/GpuIndexIVFPQ.h +24 -14
data/vendor/faiss/faiss/gpu/GpuIndexIVFScalarQuantizer.h +29 -2
data/vendor/faiss/faiss/gpu/GpuResources.h +4 -0
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +60 -27
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +28 -6
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.cpp +547 -0
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.h +51 -0
data/vendor/faiss/faiss/gpu/impl/RemapIndices.cpp +3 -3
data/vendor/faiss/faiss/gpu/impl/RemapIndices.h +3 -2
data/vendor/faiss/faiss/gpu/test/TestCodePacking.cpp +274 -0
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +7 -2
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +5 -1
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFScalarQuantizer.cpp +231 -0
data/vendor/faiss/faiss/gpu/test/TestUtils.h +33 -0
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.cpp +1 -0
data/vendor/faiss/faiss/gpu/utils/StaticUtils.h +6 -0
data/vendor/faiss/faiss/gpu/utils/Timer.cpp +5 -6
data/vendor/faiss/faiss/gpu/utils/Timer.h +2 -2
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +5 -4
data/vendor/faiss/faiss/impl/HNSW.cpp +2 -4
data/vendor/faiss/faiss/impl/PolysemousTraining.h +4 -4
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +22 -12
data/vendor/faiss/faiss/impl/ProductQuantizer.h +2 -0
data/vendor/faiss/faiss/impl/ResultHandler.h +452 -0
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +29 -19
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +6 -0
data/vendor/faiss/faiss/impl/index_read.cpp +64 -96
data/vendor/faiss/faiss/impl/index_write.cpp +34 -25
data/vendor/faiss/faiss/impl/io.cpp +33 -2
data/vendor/faiss/faiss/impl/io.h +7 -2
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +1 -15
data/vendor/faiss/faiss/impl/platform_macros.h +44 -0
data/vendor/faiss/faiss/impl/pq4_fast_scan.cpp +272 -0
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +169 -0
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +180 -0
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_qbs.cpp +354 -0
data/vendor/faiss/faiss/impl/simd_result_handlers.h +559 -0
data/vendor/faiss/faiss/index_factory.cpp +112 -7
data/vendor/faiss/faiss/index_io.h +1 -48
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +151 -0
data/vendor/faiss/faiss/invlists/BlockInvertedLists.h +76 -0
data/vendor/faiss/faiss/{DirectMap.cpp → invlists/DirectMap.cpp} +1 -1
data/vendor/faiss/faiss/{DirectMap.h → invlists/DirectMap.h} +1 -1
data/vendor/faiss/faiss/{InvertedLists.cpp → invlists/InvertedLists.cpp} +72 -1
data/vendor/faiss/faiss/{InvertedLists.h → invlists/InvertedLists.h} +32 -1
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +107 -0
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.h +63 -0
data/vendor/faiss/faiss/{OnDiskInvertedLists.cpp → invlists/OnDiskInvertedLists.cpp} +21 -6
data/vendor/faiss/faiss/{OnDiskInvertedLists.h → invlists/OnDiskInvertedLists.h} +5 -2
data/vendor/faiss/faiss/python/python_callbacks.h +8 -1
data/vendor/faiss/faiss/utils/AlignedTable.h +141 -0
data/vendor/faiss/faiss/utils/Heap.cpp +2 -4
data/vendor/faiss/faiss/utils/Heap.h +61 -50
data/vendor/faiss/faiss/utils/distances.cpp +164 -319
data/vendor/faiss/faiss/utils/distances.h +28 -20
data/vendor/faiss/faiss/utils/distances_simd.cpp +277 -49
data/vendor/faiss/faiss/utils/extra_distances.cpp +1 -2
data/vendor/faiss/faiss/utils/hamming-inl.h +4 -4
data/vendor/faiss/faiss/utils/hamming.cpp +3 -6
data/vendor/faiss/faiss/utils/hamming.h +2 -7
data/vendor/faiss/faiss/utils/ordered_key_value.h +98 -0
data/vendor/faiss/faiss/utils/partitioning.cpp +1256 -0
data/vendor/faiss/faiss/utils/partitioning.h +69 -0
data/vendor/faiss/faiss/utils/quantize_lut.cpp +277 -0
data/vendor/faiss/faiss/utils/quantize_lut.h +80 -0
data/vendor/faiss/faiss/utils/simdlib.h +31 -0
data/vendor/faiss/faiss/utils/simdlib_avx2.h +461 -0
data/vendor/faiss/faiss/utils/simdlib_emulated.h +589 -0
metadata +43 -141
data/vendor/faiss/benchs/bench_6bit_codec.cpp +0 -80
data/vendor/faiss/c_api/AutoTune_c.cpp +0 -83
data/vendor/faiss/c_api/AutoTune_c.h +0 -66
data/vendor/faiss/c_api/Clustering_c.cpp +0 -145
data/vendor/faiss/c_api/Clustering_c.h +0 -123
data/vendor/faiss/c_api/IndexFlat_c.cpp +0 -140
data/vendor/faiss/c_api/IndexFlat_c.h +0 -115
data/vendor/faiss/c_api/IndexIVFFlat_c.cpp +0 -64
data/vendor/faiss/c_api/IndexIVFFlat_c.h +0 -58
data/vendor/faiss/c_api/IndexIVF_c.cpp +0 -99
data/vendor/faiss/c_api/IndexIVF_c.h +0 -142
data/vendor/faiss/c_api/IndexLSH_c.cpp +0 -37
data/vendor/faiss/c_api/IndexLSH_c.h +0 -40
data/vendor/faiss/c_api/IndexPreTransform_c.cpp +0 -21
data/vendor/faiss/c_api/IndexPreTransform_c.h +0 -32
data/vendor/faiss/c_api/IndexShards_c.cpp +0 -38
data/vendor/faiss/c_api/IndexShards_c.h +0 -39
data/vendor/faiss/c_api/Index_c.cpp +0 -105
data/vendor/faiss/c_api/Index_c.h +0 -183
data/vendor/faiss/c_api/MetaIndexes_c.cpp +0 -49
data/vendor/faiss/c_api/MetaIndexes_c.h +0 -49
data/vendor/faiss/c_api/clone_index_c.cpp +0 -23
data/vendor/faiss/c_api/clone_index_c.h +0 -32
data/vendor/faiss/c_api/error_c.h +0 -42
data/vendor/faiss/c_api/error_impl.cpp +0 -27
data/vendor/faiss/c_api/error_impl.h +0 -16
data/vendor/faiss/c_api/faiss_c.h +0 -58
data/vendor/faiss/c_api/gpu/GpuAutoTune_c.cpp +0 -98
data/vendor/faiss/c_api/gpu/GpuAutoTune_c.h +0 -56
data/vendor/faiss/c_api/gpu/GpuClonerOptions_c.cpp +0 -52
data/vendor/faiss/c_api/gpu/GpuClonerOptions_c.h +0 -68
data/vendor/faiss/c_api/gpu/GpuIndex_c.cpp +0 -17
data/vendor/faiss/c_api/gpu/GpuIndex_c.h +0 -30
data/vendor/faiss/c_api/gpu/GpuIndicesOptions_c.h +0 -38
data/vendor/faiss/c_api/gpu/GpuResources_c.cpp +0 -86
data/vendor/faiss/c_api/gpu/GpuResources_c.h +0 -66
data/vendor/faiss/c_api/gpu/StandardGpuResources_c.cpp +0 -54
data/vendor/faiss/c_api/gpu/StandardGpuResources_c.h +0 -53
data/vendor/faiss/c_api/gpu/macros_impl.h +0 -42
data/vendor/faiss/c_api/impl/AuxIndexStructures_c.cpp +0 -220
data/vendor/faiss/c_api/impl/AuxIndexStructures_c.h +0 -149
data/vendor/faiss/c_api/index_factory_c.cpp +0 -26
data/vendor/faiss/c_api/index_factory_c.h +0 -30
data/vendor/faiss/c_api/index_io_c.cpp +0 -42
data/vendor/faiss/c_api/index_io_c.h +0 -50
data/vendor/faiss/c_api/macros_impl.h +0 -110
data/vendor/faiss/demos/demo_imi_flat.cpp +0 -154
data/vendor/faiss/demos/demo_imi_pq.cpp +0 -203
data/vendor/faiss/demos/demo_ivfpq_indexing.cpp +0 -151
data/vendor/faiss/demos/demo_sift1M.cpp +0 -252
data/vendor/faiss/demos/demo_weighted_kmeans.cpp +0 -185
data/vendor/faiss/misc/test_blas.cpp +0 -87
data/vendor/faiss/tests/test_binary_flat.cpp +0 -62
data/vendor/faiss/tests/test_dealloc_invlists.cpp +0 -188
data/vendor/faiss/tests/test_ivfpq_codec.cpp +0 -70
data/vendor/faiss/tests/test_ivfpq_indexing.cpp +0 -100
data/vendor/faiss/tests/test_lowlevel_ivf.cpp +0 -573
data/vendor/faiss/tests/test_merge.cpp +0 -260
data/vendor/faiss/tests/test_omp_threads.cpp +0 -14
data/vendor/faiss/tests/test_ondisk_ivf.cpp +0 -225
data/vendor/faiss/tests/test_pairs_decoding.cpp +0 -193
data/vendor/faiss/tests/test_params_override.cpp +0 -236
data/vendor/faiss/tests/test_pq_encoding.cpp +0 -98
data/vendor/faiss/tests/test_sliding_ivf.cpp +0 -246
data/vendor/faiss/tests/test_threaded_index.cpp +0 -253
data/vendor/faiss/tests/test_transfer_invlists.cpp +0 -159
data/vendor/faiss/tutorial/cpp/1-Flat.cpp +0 -104
data/vendor/faiss/tutorial/cpp/2-IVFFlat.cpp +0 -85
data/vendor/faiss/tutorial/cpp/3-IVFPQ.cpp +0 -98
data/vendor/faiss/tutorial/cpp/4-GPU.cpp +0 -122
data/vendor/faiss/tutorial/cpp/5-Multiple-GPUs.cpp +0 -104

data/vendor/faiss/faiss/utils/simdlib_avx2.h ADDED Viewed

@@ -0,0 +1,461 @@
+/**
+ * Copyright (c) Facebook, Inc. and its affiliates.
+ *
+ * This source code is licensed under the MIT license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+#pragma once
+#include <string>
+#include <cstdint>
+#include <immintrin.h>
+#include <faiss/impl/platform_macros.h>
+namespace faiss {
+/** Simple wrapper around the AVX 256-bit registers
+ *
+ * The objective is to separate the different interpretations of the same
+ * registers (as a vector of uint8, uint16 or uint32), to provide printing
+ * functions, and to give more readable names to the AVX intrinsics. It does not
+ * pretend to be exhausitve, functions are added as needed.
+ */
+/// 256-bit representation without interpretation as a vector
+struct simd256bit {
+        union {
+        __m256i i;
+        __m256 f;
+    };
+    simd256bit()   {}
+    explicit simd256bit(__m256i i): i(i) {}
+    explicit simd256bit(__m256 f): f(f) {}
+    explicit simd256bit(const void *x):
+    i(_mm256_load_si256((__m256i const *)x))
+    {}
+    void clear() {
+        i = _mm256_setzero_si256();
+    }
+    void storeu(void *ptr) const {
+        _mm256_storeu_si256((__m256i *)ptr, i);
+    }
+    void loadu(const void *ptr) {
+        i = _mm256_loadu_si256((__m256i*)ptr);
+    }
+    void store(void *ptr) const {
+        _mm256_store_si256((__m256i *)ptr, i);
+    }
+    void bin(char bits[257]) const {
+        char bytes[32];
+        storeu((void*)bytes);
+        for (int i = 0; i < 256; i++) {
+            bits[i] = '0' + ((bytes[i / 8] >> (i % 8)) & 1);
+        }
+        bits[256] = 0;
+    }
+    std::string bin() const {
+        char bits[257];
+        bin(bits);
+        return std::string(bits);
+    }
+};
+/// vector of 16 elements in uint16
+struct simd16uint16: simd256bit {
+    simd16uint16() {}
+    explicit simd16uint16(__m256i i): simd256bit(i) {}
+    explicit simd16uint16(int x): simd256bit(_mm256_set1_epi16(x)) {}
+    explicit simd16uint16(uint16_t x): simd256bit(_mm256_set1_epi16(x)) {}
+    explicit simd16uint16(simd256bit x): simd256bit(x) {}
+    explicit simd16uint16(const uint16_t *x): simd256bit((const void*)x) {}
+    std::string elements_to_string(const char * fmt) const {
+        uint16_t bytes[16];
+        storeu((void*)bytes);
+        char res[1000];
+        char *ptr = res;
+        for(int i = 0; i < 16; i++) {
+            ptr += sprintf(ptr, fmt, bytes[i]);
+        }
+        // strip last ,
+        ptr[-1] = 0;
+        return std::string(res);
+    }
+    std::string hex() const {
+        return elements_to_string("%02x,");
+    }
+    std::string dec() const {
+        return elements_to_string("%3d,");
+    }
+    void set1(uint16_t x) {
+        i = _mm256_set1_epi16((short)x);
+    }
+    // shift must be known at compile time
+    simd16uint16 operator >> (const int shift) const {
+        return simd16uint16(_mm256_srli_epi16(i, shift));
+    }
+    // shift must be known at compile time
+    simd16uint16 operator << (const int shift) const {
+        return simd16uint16(_mm256_slli_epi16(i, shift));
+    }
+    simd16uint16 operator += (simd16uint16 other) {
+        i = _mm256_add_epi16(i, other.i);
+        return *this;
+    }
+    simd16uint16 operator -= (simd16uint16 other) {
+        i = _mm256_sub_epi16(i, other.i);
+        return *this;
+    }
+    simd16uint16 operator + (simd16uint16 other) const {
+        return simd16uint16(_mm256_add_epi16(i, other.i));
+    }
+    simd16uint16 operator - (simd16uint16 other) const {
+        return simd16uint16(_mm256_sub_epi16(i, other.i));
+    }
+    simd16uint16 operator & (simd256bit other) const {
+        return simd16uint16(_mm256_and_si256(i, other.i));
+    }
+    simd16uint16 operator | (simd256bit other) const {
+        return simd16uint16(_mm256_or_si256(i, other.i));
+    }
+    // returns binary masks
+    simd16uint16 operator == (simd256bit other) const {
+        return simd16uint16(_mm256_cmpeq_epi16(i, other.i));
+    }
+    simd16uint16 operator ~() const {
+        return simd16uint16(_mm256_xor_si256(i, _mm256_set1_epi32(-1)));
+    }
+    // get scalar at index 0
+    uint16_t get_scalar_0() const {
+        return _mm256_extract_epi16(i, 0);
+    }
+    // mask of elements where this >= thresh
+    // 2 bit per component: 16 * 2 = 32 bit
+    uint32_t ge_mask(simd16uint16 thresh) const {
+        __m256i j = thresh.i;
+        __m256i max = _mm256_max_epu16(i, j);
+        __m256i ge = _mm256_cmpeq_epi16(i, max);
+        return _mm256_movemask_epi8(ge);
+    }
+    uint32_t le_mask(simd16uint16 thresh) const {
+        return thresh.ge_mask(*this);
+    }
+    uint32_t gt_mask(simd16uint16 thresh) const {
+        return ~le_mask(thresh);
+    }
+    bool all_gt(simd16uint16 thresh) const {
+        return le_mask(thresh) == 0;
+    }
+    // for debugging only
+    uint16_t operator [] (int i) const {
+        ALIGNED(32) uint16_t tab[16];
+        store(tab);
+        return tab[i];
+    }
+    void accu_min(simd16uint16 incoming) {
+        i = _mm256_min_epu16(i, incoming.i);
+    }
+    void accu_max(simd16uint16 incoming) {
+        i = _mm256_max_epu16(i, incoming.i);
+    }
+};
+// not really a std::min because it returns an elementwise min
+inline simd16uint16 min(simd16uint16 a, simd16uint16 b) {
+    return simd16uint16(_mm256_min_epu16(a.i, b.i));
+}
+inline simd16uint16 max(simd16uint16 a, simd16uint16 b) {
+    return simd16uint16(_mm256_max_epu16(a.i, b.i));
+}
+// decompose in 128-lanes: a = (a0, a1), b = (b0, b1)
+// return (a0 + a1, b0 + b1)
+// TODO find a better name
+inline simd16uint16 combine2x2(simd16uint16 a, simd16uint16 b) {
+    __m256i a1b0 = _mm256_permute2f128_si256(a.i, b.i, 0x21);
+    __m256i a0b1 = _mm256_blend_epi32(a.i, b.i, 0xF0);
+    return simd16uint16(a1b0) + simd16uint16(a0b1);
+}
+// compare d0 and d1 to thr, return 32 bits corresponding to the concatenation
+// of d0 and d1 with thr
+inline uint32_t cmp_ge32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
+    __m256i max0 = _mm256_max_epu16(d0.i, thr.i);
+    __m256i ge0 = _mm256_cmpeq_epi16(d0.i, max0);
+    __m256i max1 = _mm256_max_epu16(d1.i, thr.i);
+    __m256i ge1 = _mm256_cmpeq_epi16(d1.i, max1);
+    __m256i ge01 = _mm256_packs_epi16(ge0, ge1);
+    // easier than manipulating bit fields afterwards
+    ge01 = _mm256_permute4x64_epi64(ge01, 0 | (2 << 2) | (1 << 4) | (3 << 6));
+    uint32_t ge = _mm256_movemask_epi8(ge01);
+    return ge;
+}
+inline uint32_t cmp_le32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
+    __m256i max0 = _mm256_min_epu16(d0.i, thr.i);
+    __m256i ge0 = _mm256_cmpeq_epi16(d0.i, max0);
+    __m256i max1 = _mm256_min_epu16(d1.i, thr.i);
+    __m256i ge1 = _mm256_cmpeq_epi16(d1.i, max1);
+    __m256i ge01 = _mm256_packs_epi16(ge0, ge1);
+    // easier than manipulating bit fields afterwards
+    ge01 = _mm256_permute4x64_epi64(ge01, 0 | (2 << 2) | (1 << 4) | (3 << 6));
+    uint32_t ge = _mm256_movemask_epi8(ge01);
+    return ge;
+}
+// vector of 32 unsigned 8-bit integers
+struct simd32uint8: simd256bit {
+    simd32uint8() {}
+    explicit simd32uint8(__m256i i): simd256bit(i) {}
+    explicit simd32uint8(int x): simd256bit(_mm256_set1_epi8(x)) {}
+    explicit simd32uint8(uint8_t x): simd256bit(_mm256_set1_epi8(x)) {}
+    explicit simd32uint8(simd256bit x): simd256bit(x) {}
+    explicit simd32uint8(const uint8_t *x): simd256bit((const void*)x) {}
+    std::string elements_to_string(const char * fmt) const {
+        uint8_t bytes[32];
+        storeu((void*)bytes);
+        char res[1000];
+        char *ptr = res;
+        for(int i = 0; i < 32; i++) {
+            ptr += sprintf(ptr, fmt, bytes[i]);
+        }
+        // strip last ,
+        ptr[-1] = 0;
+        return std::string(res);
+    }
+    std::string hex() const {
+        return elements_to_string("%02x,");
+    }
+    std::string dec() const {
+        return elements_to_string("%3d,");
+    }
+    void set1(uint8_t x) {
+        i = _mm256_set1_epi8((char)x);
+    }
+    simd32uint8 operator & (simd256bit other) const {
+        return simd32uint8(_mm256_and_si256(i, other.i));
+    }
+    simd32uint8 operator + (simd32uint8 other) const {
+        return simd32uint8(_mm256_add_epi8(i, other.i));
+    }
+    simd32uint8 lookup_2_lanes(simd32uint8 idx) const {
+        return simd32uint8(_mm256_shuffle_epi8(i, idx.i));
+    }
+    // extract + 0-extend lane
+    // this operation is slow (3 cycles)
+    simd16uint16 lane0_as_uint16() const {
+        __m128i x = _mm256_extracti128_si256(i, 0);
+        return simd16uint16(_mm256_cvtepu8_epi16(x));
+    }
+    simd16uint16 lane1_as_uint16() const {
+        __m128i x = _mm256_extracti128_si256(i, 1);
+        return simd16uint16(_mm256_cvtepu8_epi16(x));
+    }
+    simd32uint8 operator += (simd32uint8 other) {
+        i = _mm256_add_epi8(i, other.i);
+        return *this;
+    }
+    // for debugging only
+    uint8_t operator [] (int i) const {
+        ALIGNED(32) uint8_t tab[32];
+        store(tab);
+        return tab[i];
+    }
+};
+// convert with saturation
+// careful: this does not cross lanes, so the order is weird
+inline simd32uint8 uint16_to_uint8_saturate(simd16uint16 a, simd16uint16 b) {
+    return simd32uint8(_mm256_packs_epi16(a.i, b.i));
+}
+/// get most significant bit of each byte
+inline uint32_t get_MSBs(simd32uint8 a) {
+    return _mm256_movemask_epi8(a.i);
+}
+/// use MSB of each byte of mask to select a byte between a and b
+inline simd32uint8 blendv(simd32uint8 a, simd32uint8 b, simd32uint8 mask) {
+    return simd32uint8(_mm256_blendv_epi8(a.i, b.i, mask.i));
+}
+/// vector of 8 unsigned 32-bit integers
+struct simd8uint32: simd256bit {
+    simd8uint32() {}
+    explicit simd8uint32(__m256i i): simd256bit(i) {}
+    explicit simd8uint32(uint32_t x): simd256bit(_mm256_set1_epi32(x)) {}
+    explicit simd8uint32(simd256bit x): simd256bit(x) {}
+    explicit simd8uint32(const uint8_t *x): simd256bit((const void*)x) {}
+    std::string elements_to_string(const char * fmt) const {
+        uint32_t bytes[8];
+        storeu((void*)bytes);
+        char res[1000];
+        char *ptr = res;
+        for(int i = 0; i < 8; i++) {
+            ptr += sprintf(ptr, fmt, bytes[i]);
+        }
+        // strip last ,
+        ptr[-1] = 0;
+        return std::string(res);
+    }
+    std::string hex() const {
+        return elements_to_string("%08x,");
+    }
+    std::string dec() const {
+        return elements_to_string("%10d,");
+    }
+    void set1(uint32_t x) {
+        i = _mm256_set1_epi32((int)x);
+    }
+};
+struct simd8float32: simd256bit {
+    simd8float32() {}
+    explicit simd8float32(simd256bit x): simd256bit(x) {}
+    explicit simd8float32(__m256 x): simd256bit(x) {}
+    explicit simd8float32(float x): simd256bit(_mm256_set1_ps(x)) {}
+    explicit simd8float32(const float *x): simd256bit(_mm256_load_ps(x)) {}
+    simd8float32 operator * (simd8float32 other) const {
+        return simd8float32(_mm256_mul_ps(f, other.f));
+    }
+    simd8float32 operator + (simd8float32 other) const {
+        return simd8float32(_mm256_add_ps(f, other.f));
+    }
+    simd8float32 operator - (simd8float32 other) const {
+        return simd8float32(_mm256_sub_ps(f, other.f));
+    }
+    std::string tostring() const {
+        float tab[8];
+        storeu((void*)tab);
+        char res[1000];
+        char *ptr = res;
+        for(int i = 0; i < 8; i++) {
+            ptr += sprintf(ptr, "%g,", tab[i]);
+        }
+        // strip last ,
+        ptr[-1] = 0;
+        return std::string(res);
+    }
+};
+inline simd8float32 hadd(simd8float32 a, simd8float32 b) {
+    return simd8float32(_mm256_hadd_ps(a.f, b.f));
+}
+inline simd8float32 unpacklo(simd8float32 a, simd8float32 b) {
+    return simd8float32(_mm256_unpacklo_ps(a.f, b.f));
+}
+inline simd8float32 unpackhi(simd8float32 a, simd8float32 b) {
+    return simd8float32(_mm256_unpackhi_ps(a.f, b.f));
+}
+// compute a * b + c
+inline simd8float32 fmadd(simd8float32 a, simd8float32 b, simd8float32 c) {
+    return simd8float32(_mm256_fmadd_ps(a.f, b.f, c.f));
+}
+} // namespace faiss