RubyGems - faiss - Versions diffs - 0.2.0 → 0.2.4 - Mend

faiss 0.2.0 → 0.2.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (215) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +16 -0
data/LICENSE.txt +1 -1
data/README.md +7 -7
data/ext/faiss/extconf.rb +6 -3
data/ext/faiss/numo.hpp +4 -4
data/ext/faiss/utils.cpp +1 -1
data/ext/faiss/utils.h +1 -1
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +292 -291
data/vendor/faiss/faiss/AutoTune.h +55 -56
data/vendor/faiss/faiss/Clustering.cpp +365 -194
data/vendor/faiss/faiss/Clustering.h +102 -35
data/vendor/faiss/faiss/IVFlib.cpp +171 -195
data/vendor/faiss/faiss/IVFlib.h +48 -51
data/vendor/faiss/faiss/Index.cpp +85 -103
data/vendor/faiss/faiss/Index.h +54 -48
data/vendor/faiss/faiss/Index2Layer.cpp +126 -224
data/vendor/faiss/faiss/Index2Layer.h +22 -36
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +407 -0
data/vendor/faiss/faiss/IndexAdditiveQuantizer.h +195 -0
data/vendor/faiss/faiss/IndexBinary.cpp +45 -37
data/vendor/faiss/faiss/IndexBinary.h +140 -132
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +73 -53
data/vendor/faiss/faiss/IndexBinaryFlat.h +29 -24
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +46 -43
data/vendor/faiss/faiss/IndexBinaryFromFloat.h +16 -15
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +215 -232
data/vendor/faiss/faiss/IndexBinaryHNSW.h +25 -24
data/vendor/faiss/faiss/IndexBinaryHash.cpp +182 -177
data/vendor/faiss/faiss/IndexBinaryHash.h +41 -34
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +489 -461
data/vendor/faiss/faiss/IndexBinaryIVF.h +97 -68
data/vendor/faiss/faiss/IndexFlat.cpp +115 -176
data/vendor/faiss/faiss/IndexFlat.h +42 -59
data/vendor/faiss/faiss/IndexFlatCodes.cpp +67 -0
data/vendor/faiss/faiss/IndexFlatCodes.h +47 -0
data/vendor/faiss/faiss/IndexHNSW.cpp +372 -348
data/vendor/faiss/faiss/IndexHNSW.h +57 -41
data/vendor/faiss/faiss/IndexIVF.cpp +545 -453
data/vendor/faiss/faiss/IndexIVF.h +169 -118
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +316 -0
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.h +121 -0
data/vendor/faiss/faiss/IndexIVFFlat.cpp +247 -252
data/vendor/faiss/faiss/IndexIVFFlat.h +48 -51
data/vendor/faiss/faiss/IndexIVFPQ.cpp +459 -517
data/vendor/faiss/faiss/IndexIVFPQ.h +75 -67
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +406 -372
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +82 -57
data/vendor/faiss/faiss/IndexIVFPQR.cpp +104 -102
data/vendor/faiss/faiss/IndexIVFPQR.h +33 -28
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +163 -150
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +38 -25
data/vendor/faiss/faiss/IndexLSH.cpp +66 -113
data/vendor/faiss/faiss/IndexLSH.h +20 -38
data/vendor/faiss/faiss/IndexLattice.cpp +42 -56
data/vendor/faiss/faiss/IndexLattice.h +11 -16
data/vendor/faiss/faiss/IndexNNDescent.cpp +229 -0
data/vendor/faiss/faiss/IndexNNDescent.h +72 -0
data/vendor/faiss/faiss/IndexNSG.cpp +301 -0
data/vendor/faiss/faiss/IndexNSG.h +85 -0
data/vendor/faiss/faiss/IndexPQ.cpp +387 -495
data/vendor/faiss/faiss/IndexPQ.h +64 -82
data/vendor/faiss/faiss/IndexPQFastScan.cpp +143 -170
data/vendor/faiss/faiss/IndexPQFastScan.h +46 -32
data/vendor/faiss/faiss/IndexPreTransform.cpp +120 -150
data/vendor/faiss/faiss/IndexPreTransform.h +33 -36
data/vendor/faiss/faiss/IndexRefine.cpp +139 -127
data/vendor/faiss/faiss/IndexRefine.h +32 -23
data/vendor/faiss/faiss/IndexReplicas.cpp +147 -153
data/vendor/faiss/faiss/IndexReplicas.h +62 -56
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +111 -172
data/vendor/faiss/faiss/IndexScalarQuantizer.h +41 -59
data/vendor/faiss/faiss/IndexShards.cpp +256 -240
data/vendor/faiss/faiss/IndexShards.h +85 -73
data/vendor/faiss/faiss/MatrixStats.cpp +112 -97
data/vendor/faiss/faiss/MatrixStats.h +7 -10
data/vendor/faiss/faiss/MetaIndexes.cpp +135 -157
data/vendor/faiss/faiss/MetaIndexes.h +40 -34
data/vendor/faiss/faiss/MetricType.h +7 -7
data/vendor/faiss/faiss/VectorTransform.cpp +654 -475
data/vendor/faiss/faiss/VectorTransform.h +64 -89
data/vendor/faiss/faiss/clone_index.cpp +78 -73
data/vendor/faiss/faiss/clone_index.h +4 -9
data/vendor/faiss/faiss/gpu/GpuAutoTune.cpp +33 -38
data/vendor/faiss/faiss/gpu/GpuAutoTune.h +11 -9
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +198 -171
data/vendor/faiss/faiss/gpu/GpuCloner.h +53 -35
data/vendor/faiss/faiss/gpu/GpuClonerOptions.cpp +12 -14
data/vendor/faiss/faiss/gpu/GpuClonerOptions.h +27 -25
data/vendor/faiss/faiss/gpu/GpuDistance.h +116 -112
data/vendor/faiss/faiss/gpu/GpuFaissAssert.h +1 -2
data/vendor/faiss/faiss/gpu/GpuIcmEncoder.h +60 -0
data/vendor/faiss/faiss/gpu/GpuIndex.h +134 -137
data/vendor/faiss/faiss/gpu/GpuIndexBinaryFlat.h +76 -73
data/vendor/faiss/faiss/gpu/GpuIndexFlat.h +173 -162
data/vendor/faiss/faiss/gpu/GpuIndexIVF.h +67 -64
data/vendor/faiss/faiss/gpu/GpuIndexIVFFlat.h +89 -86
data/vendor/faiss/faiss/gpu/GpuIndexIVFPQ.h +150 -141
data/vendor/faiss/faiss/gpu/GpuIndexIVFScalarQuantizer.h +101 -103
data/vendor/faiss/faiss/gpu/GpuIndicesOptions.h +17 -16
data/vendor/faiss/faiss/gpu/GpuResources.cpp +116 -128
data/vendor/faiss/faiss/gpu/GpuResources.h +182 -186
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +433 -422
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +131 -130
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.cpp +468 -456
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.h +25 -19
data/vendor/faiss/faiss/gpu/impl/RemapIndices.cpp +22 -20
data/vendor/faiss/faiss/gpu/impl/RemapIndices.h +9 -8
data/vendor/faiss/faiss/gpu/perf/IndexWrapper-inl.h +39 -44
data/vendor/faiss/faiss/gpu/perf/IndexWrapper.h +16 -14
data/vendor/faiss/faiss/gpu/perf/PerfClustering.cpp +77 -71
data/vendor/faiss/faiss/gpu/perf/PerfIVFPQAdd.cpp +109 -88
data/vendor/faiss/faiss/gpu/perf/WriteIndex.cpp +75 -64
data/vendor/faiss/faiss/gpu/test/TestCodePacking.cpp +230 -215
data/vendor/faiss/faiss/gpu/test/TestGpuIndexBinaryFlat.cpp +80 -86
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +284 -277
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +416 -416
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +611 -517
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFScalarQuantizer.cpp +166 -164
data/vendor/faiss/faiss/gpu/test/TestGpuMemoryException.cpp +61 -53
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +274 -238
data/vendor/faiss/faiss/gpu/test/TestUtils.h +73 -57
data/vendor/faiss/faiss/gpu/test/demo_ivfpq_indexing_gpu.cpp +47 -50
data/vendor/faiss/faiss/gpu/utils/DeviceUtils.h +79 -72
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.cpp +140 -146
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.h +69 -71
data/vendor/faiss/faiss/gpu/utils/StaticUtils.h +21 -16
data/vendor/faiss/faiss/gpu/utils/Timer.cpp +25 -29
data/vendor/faiss/faiss/gpu/utils/Timer.h +30 -29
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +503 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +175 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +90 -120
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +81 -65
data/vendor/faiss/faiss/impl/FaissAssert.h +73 -58
data/vendor/faiss/faiss/impl/FaissException.cpp +56 -48
data/vendor/faiss/faiss/impl/FaissException.h +41 -29
data/vendor/faiss/faiss/impl/HNSW.cpp +606 -617
data/vendor/faiss/faiss/impl/HNSW.h +179 -200
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +855 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.h +244 -0
data/vendor/faiss/faiss/impl/NNDescent.cpp +487 -0
data/vendor/faiss/faiss/impl/NNDescent.h +154 -0
data/vendor/faiss/faiss/impl/NSG.cpp +679 -0
data/vendor/faiss/faiss/impl/NSG.h +199 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +484 -454
data/vendor/faiss/faiss/impl/PolysemousTraining.h +52 -55
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +26 -47
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +469 -459
data/vendor/faiss/faiss/impl/ProductQuantizer.h +76 -87
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +758 -0
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +188 -0
data/vendor/faiss/faiss/impl/ResultHandler.h +96 -132
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +647 -707
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +48 -46
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +129 -131
data/vendor/faiss/faiss/impl/ThreadedIndex.h +61 -55
data/vendor/faiss/faiss/impl/index_read.cpp +631 -480
data/vendor/faiss/faiss/impl/index_write.cpp +547 -407
data/vendor/faiss/faiss/impl/io.cpp +76 -95
data/vendor/faiss/faiss/impl/io.h +31 -41
data/vendor/faiss/faiss/impl/io_macros.h +60 -29
data/vendor/faiss/faiss/impl/kmeans1d.cpp +301 -0
data/vendor/faiss/faiss/impl/kmeans1d.h +48 -0
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +137 -186
data/vendor/faiss/faiss/impl/lattice_Zn.h +40 -51
data/vendor/faiss/faiss/impl/platform_macros.h +29 -8
data/vendor/faiss/faiss/impl/pq4_fast_scan.cpp +77 -124
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +39 -48
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +41 -52
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_qbs.cpp +80 -117
data/vendor/faiss/faiss/impl/simd_result_handlers.h +109 -137
data/vendor/faiss/faiss/index_factory.cpp +619 -397
data/vendor/faiss/faiss/index_factory.h +8 -6
data/vendor/faiss/faiss/index_io.h +23 -26
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +67 -75
data/vendor/faiss/faiss/invlists/BlockInvertedLists.h +22 -24
data/vendor/faiss/faiss/invlists/DirectMap.cpp +96 -112
data/vendor/faiss/faiss/invlists/DirectMap.h +29 -33
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +307 -364
data/vendor/faiss/faiss/invlists/InvertedLists.h +151 -151
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +29 -34
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.h +17 -18
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +257 -293
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +50 -45
data/vendor/faiss/faiss/python/python_callbacks.cpp +23 -26
data/vendor/faiss/faiss/python/python_callbacks.h +9 -16
data/vendor/faiss/faiss/utils/AlignedTable.h +79 -44
data/vendor/faiss/faiss/utils/Heap.cpp +40 -48
data/vendor/faiss/faiss/utils/Heap.h +186 -209
data/vendor/faiss/faiss/utils/WorkerThread.cpp +67 -76
data/vendor/faiss/faiss/utils/WorkerThread.h +32 -33
data/vendor/faiss/faiss/utils/distances.cpp +305 -312
data/vendor/faiss/faiss/utils/distances.h +170 -122
data/vendor/faiss/faiss/utils/distances_simd.cpp +498 -508
data/vendor/faiss/faiss/utils/extra_distances-inl.h +117 -0
data/vendor/faiss/faiss/utils/extra_distances.cpp +113 -232
data/vendor/faiss/faiss/utils/extra_distances.h +30 -29
data/vendor/faiss/faiss/utils/hamming-inl.h +260 -209
data/vendor/faiss/faiss/utils/hamming.cpp +375 -469
data/vendor/faiss/faiss/utils/hamming.h +62 -85
data/vendor/faiss/faiss/utils/ordered_key_value.h +16 -18
data/vendor/faiss/faiss/utils/partitioning.cpp +393 -318
data/vendor/faiss/faiss/utils/partitioning.h +26 -21
data/vendor/faiss/faiss/utils/quantize_lut.cpp +78 -66
data/vendor/faiss/faiss/utils/quantize_lut.h +22 -20
data/vendor/faiss/faiss/utils/random.cpp +39 -63
data/vendor/faiss/faiss/utils/random.h +13 -16
data/vendor/faiss/faiss/utils/simdlib.h +4 -2
data/vendor/faiss/faiss/utils/simdlib_avx2.h +88 -85
data/vendor/faiss/faiss/utils/simdlib_emulated.h +226 -165
data/vendor/faiss/faiss/utils/simdlib_neon.h +832 -0
data/vendor/faiss/faiss/utils/utils.cpp +304 -287
data/vendor/faiss/faiss/utils/utils.h +54 -49
metadata +29 -4

data/vendor/faiss/faiss/impl/lattice_Zn.h CHANGED Viewed

@@ -9,9 +9,9 @@
 #ifndef FAISS_LATTICE_ZN_H
 #define FAISS_LATTICE_ZN_H
-#include <vector>
 #include <stddef.h>
 #include <stdint.h>
+#include <vector>
 namespace faiss {
@@ -32,23 +32,20 @@ struct ZnSphereSearch {
     ZnSphereSearch(int dim, int r2);
     /// find nearest centroid. x does not need to be normalized
-    float search(const float *x, float *c) const;
+    float search(const float* x, float* c) const;
     /// full call. Requires externally-allocated temp space
-    float search(const float *x, float *c,
-                 float *tmp, // size 2 *dim
-                 int *tmp_int, // size dim
-                 int *ibest_out = nullptr
-                 ) const;
+    float search(
+            const float* x,
+            float* c,
+            float* tmp,   // size 2 *dim
+            int* tmp_int, // size dim
+            int* ibest_out = nullptr) const;
     // multi-threaded
-    void search_multi(int n, const float *x,
-                      float *c_out,
-                      float *dp_out);
+    void search_multi(int n, const float* x, float* c_out, float* dp_out);
 };
 /***************************************************************************
  * Support ids as well.
  *
@@ -60,30 +57,31 @@ struct EnumeratedVectors {
     uint64_t nv;
     int dim;
-    explicit EnumeratedVectors(int dim): nv(0), dim(dim) {}
+    explicit EnumeratedVectors(int dim) : nv(0), dim(dim) {}
     /// encode a vector from a collection
-    virtual uint64_t encode(const float *x) const = 0;
+    virtual uint64_t encode(const float* x) const = 0;
     /// decode it
-    virtual void decode(uint64_t code, float *c) const = 0;
+    virtual void decode(uint64_t code, float* c) const = 0;
     // call encode on nc vectors
-    void encode_multi (size_t nc, const float *c,
-                       uint64_t * codes) const;
+    void encode_multi(size_t nc, const float* c, uint64_t* codes) const;
     // call decode on nc codes
-    void decode_multi (size_t nc, const uint64_t * codes,
-                       float *c) const;
+    void decode_multi(size_t nc, const uint64_t* codes, float* c) const;
     // find the nearest neighbor of each xq
     // (decodes and computes distances)
-    void find_nn (size_t n, const uint64_t * codes,
-                  size_t nq, const float *xq,
-                  int64_t *idx, float *dis);
+    void find_nn(
+            size_t n,
+            const uint64_t* codes,
+            size_t nq,
+            const float* xq,
+            int64_t* idx,
+            float* dis);
     virtual ~EnumeratedVectors() {}
 };
 struct Repeat {
@@ -100,26 +98,24 @@ struct Repeats {
     std::vector<Repeat> repeats;
     // initialize from a template of the atom.
-    Repeats(int dim = 0, const float *c = nullptr);
+    Repeats(int dim = 0, const float* c = nullptr);
     // count number of possible codes for this atom
     uint64_t count() const;
-    uint64_t encode(const float *c) const;
+    uint64_t encode(const float* c) const;
-    void decode(uint64_t code, float *c) const;
+    void decode(uint64_t code, float* c) const;
 };
 /** codec that can return ids for the encoded vectors
  *
  * uses the ZnSphereSearch to encode the vector by encoding the
  * permutation and signs. Depends on ZnSphereSearch because it uses
  * the atom numbers */
-struct ZnSphereCodec: ZnSphereSearch, EnumeratedVectors {
-    struct CodeSegment:Repeats {
-        explicit CodeSegment(const Repeats & r): Repeats(r) {}
+struct ZnSphereCodec : ZnSphereSearch, EnumeratedVectors {
+    struct CodeSegment : Repeats {
+        explicit CodeSegment(const Repeats& r) : Repeats(r) {}
         uint64_t c0; // first code assigned to segment
         int signbits;
     };
@@ -130,13 +126,12 @@ struct ZnSphereCodec: ZnSphereSearch, EnumeratedVectors {
     ZnSphereCodec(int dim, int r2);
-    uint64_t search_and_encode(const float *x) const;
+    uint64_t search_and_encode(const float* x) const;
-    void decode(uint64_t code, float *c) const override;
+    void decode(uint64_t code, float* c) const override;
     /// takes vectors that do not need to be centroids
-    uint64_t encode(const float *x) const override;
+    uint64_t encode(const float* x) const override;
 };
 /** recursive sphere codec
@@ -145,8 +140,7 @@ struct ZnSphereCodec: ZnSphereSearch, EnumeratedVectors {
  * centroids found by the ZnSphereSearch. The codes are *not*
  * compatible with the ones of ZnSpehreCodec
  */
-struct ZnSphereCodecRec: EnumeratedVectors {
+struct ZnSphereCodecRec : EnumeratedVectors {
     int r2;
     int log2_dim;
@@ -154,19 +148,19 @@ struct ZnSphereCodecRec: EnumeratedVectors {
     ZnSphereCodecRec(int dim, int r2);
-    uint64_t encode_centroid(const float *c) const;
+    uint64_t encode_centroid(const float* c) const;
-    void decode(uint64_t code, float *c) const override;
+    void decode(uint64_t code, float* c) const override;
     /// vectors need to be centroids (does not work on arbitrary
     /// vectors)
-    uint64_t encode(const float *x) const override;
+    uint64_t encode(const float* x) const override;
     std::vector<uint64_t> all_nv;
     std::vector<uint64_t> all_nv_cum;
     int decode_cache_ld;
-    std::vector<std::vector<float> > decode_cache;
+    std::vector<std::vector<float>> decode_cache;
     // nb of vectors in the sphere in dim 2^ld with r2 radius
     uint64_t get_nv(int ld, int r2a) const;
@@ -174,26 +168,21 @@ struct ZnSphereCodecRec: EnumeratedVectors {
     // cumulative version
     uint64_t get_nv_cum(int ld, int r2t, int r2a) const;
     void set_nv_cum(int ld, int r2t, int r2a, uint64_t v);
 };
 /** Codec that uses the recursive codec if dim is a power of 2 and
  * the regular one otherwise */
-struct ZnSphereCodecAlt: ZnSphereCodec {
+struct ZnSphereCodecAlt : ZnSphereCodec {
     bool use_rec;
     ZnSphereCodecRec znc_rec;
-    ZnSphereCodecAlt (int dim, int r2);
-    uint64_t encode(const float *x) const override;
-    void decode(uint64_t code, float *c) const override;
-};
+    ZnSphereCodecAlt(int dim, int r2);
+    uint64_t encode(const float* x) const override;
+    void decode(uint64_t code, float* c) const override;
 };
+} // namespace faiss
 #endif

data/vendor/faiss/faiss/impl/platform_macros.h CHANGED Viewed

@@ -7,14 +7,12 @@
 #pragma once
 #ifdef _MSC_VER
 /*******************************************************
  * Windows specific macros
  *******************************************************/
 #ifdef FAISS_MAIN_LIB
 #define FAISS_API __declspec(dllexport)
 #else // _FAISS_MAIN_LIB
@@ -23,7 +21,8 @@
 #define __PRETTY_FUNCTION__ __FUNCSIG__
-#define posix_memalign(p, a, s) (((*(p)) = _aligned_malloc((s), (a))), *(p) ?0 :errno)
+#define posix_memalign(p, a, s) \
+    (((*(p)) = _aligned_malloc((s), (a))), *(p) ? 0 : errno)
 #define posix_memalign_free _aligned_free
 // aligned should be in front of the declaration
@@ -39,18 +38,42 @@ inline int __builtin_ctzll(uint64_t x) {
     return (int)ret;
 }
+// cudatoolkit provides __builtin_ctz for NVCC >= 11.0
+#if !defined(__CUDACC__) || __CUDACC_VER_MAJOR__ < 11
 inline int __builtin_ctz(unsigned long x) {
     unsigned long ret;
     _BitScanForward(&ret, x);
     return (int)ret;
 }
+#endif
 inline int __builtin_clzll(uint64_t x) {
     return (int)__lzcnt64(x);
 }
+#define __builtin_popcount __popcnt
 #define __builtin_popcountl __popcnt64
+// MSVC does not define __SSEx__, and _M_IX86_FP is only defined on 32-bit
+// processors cf.
+// https://docs.microsoft.com/en-us/cpp/preprocessor/predefined-macros
+#ifdef __AVX__
+#define __SSE__ 1
+#define __SSE2__ 1
+#define __SSE3__ 1
+#define __SSE4_1__ 1
+#define __SSE4_2__ 1
+#endif
+// MSVC sets FMA and F16C automatically when using AVX2
+// Ref. FMA (under /arch:AVX2):
+// https://docs.microsoft.com/en-us/cpp/build/reference/arch-x64 Ref. F16C (2nd
+// paragraph): https://walbourn.github.io/directxmath-avx2/
+#ifdef __AVX2__
+#define __FMA__ 1
+#define __F16C__ 1
+#endif
 #else
 /*******************************************************
  * Linux and OSX
@@ -59,10 +82,8 @@ inline int __builtin_clzll(uint64_t x) {
 #define FAISS_API
 #define posix_memalign_free free
-// aligned should be *in front* of the declaration, for compatibility with windows
-#define ALIGNED(x) __attribute__ ((aligned(x)))
+// aligned should be *in front* of the declaration, for compatibility with
+// windows
+#define ALIGNED(x) __attribute__((aligned(x)))
 #endif // _MSC_VER

data/vendor/faiss/faiss/impl/pq4_fast_scan.cpp CHANGED Viewed

@@ -5,37 +5,33 @@
  * LICENSE file in the root directory of this source tree.
  */
-#include <faiss/impl/pq4_fast_scan.h>
 #include <faiss/impl/FaissAssert.h>
+#include <faiss/impl/pq4_fast_scan.h>
 #include <faiss/impl/simd_result_handlers.h>
 #include <array>
 namespace faiss {
 using namespace simd_result_handlers;
 /***************************************************************
  * Packing functions for codes
  ***************************************************************/
 namespace {
 /* extract the column starting at (i, j)
  * from packed matrix src of size (m, n)*/
-template<typename T, class TA>
+template <typename T, class TA>
 void get_matrix_column(
-        T * src,
-        size_t m, size_t n,
-        int64_t i, int64_t j,
-        TA & dest) {
-    for(int64_t k = 0; k < dest.size(); k++) {
+        T* src,
+        size_t m,
+        size_t n,
+        int64_t i,
+        int64_t j,
+        TA& dest) {
+    for (int64_t k = 0; k < dest.size(); k++) {
         if (k + i >= 0 && k + i < m) {
             dest[k] = src[(k + i) * n + j];
         } else {
@@ -46,38 +42,34 @@ void get_matrix_column(
 } // anonymous namespace
 void pq4_pack_codes(
-        const uint8_t *codes,
-        size_t ntotal, size_t M,
-        size_t nb, size_t bbs, size_t nsq,
-        uint8_t *blocks
-)
-{
+        const uint8_t* codes,
+        size_t ntotal,
+        size_t M,
+        size_t nb,
+        size_t bbs,
+        size_t nsq,
+        uint8_t* blocks) {
     FAISS_THROW_IF_NOT(bbs % 32 == 0);
     FAISS_THROW_IF_NOT(nb % bbs == 0);
     FAISS_THROW_IF_NOT(nsq % 2 == 0);
     memset(blocks, 0, nb * nsq / 2);
-    const uint8_t perm0[16] =
-            {0,  8,  1,  9,  2, 10,  3, 11,
-            4, 12,  5, 13,  6, 14,  7, 15};
+    const uint8_t perm0[16] = {
+            0, 8, 1, 9, 2, 10, 3, 11, 4, 12, 5, 13, 6, 14, 7, 15};
-    uint8_t *codes2 = blocks;
-    for(size_t i0 = 0; i0 < nb; i0 += bbs) {
-        for(int sq = 0; sq < nsq; sq += 2) {
-            for(size_t i = 0; i < bbs; i += 32) {
+    uint8_t* codes2 = blocks;
+    for (size_t i0 = 0; i0 < nb; i0 += bbs) {
+        for (int sq = 0; sq < nsq; sq += 2) {
+            for (size_t i = 0; i < bbs; i += 32) {
                 std::array<uint8_t, 32> c, c0, c1;
                 get_matrix_column(
-                    codes, ntotal,
-                    (M + 1) / 2,
-                    i0 + i, sq / 2, c
-                );
-                for(int j = 0; j < 32; j++) {
+                        codes, ntotal, (M + 1) / 2, i0 + i, sq / 2, c);
+                for (int j = 0; j < 32; j++) {
                     c0[j] = c[j] & 15;
                     c1[j] = c[j] >> 4;
                 }
-                for(int j = 0; j < 16; j++) {
+                for (int j = 0; j < 16; j++) {
                     uint8_t d0, d1;
                     d0 = c0[perm0[j]] | (c0[perm0[j] + 16] << 4);
                     d1 = c1[perm0[j]] | (c1[perm0[j] + 16] << 4);
@@ -91,36 +83,33 @@ void pq4_pack_codes(
 }
 void pq4_pack_codes_range(
-        const uint8_t *codes,
+        const uint8_t* codes,
         size_t M,
-        size_t i0, size_t i1,
-        size_t bbs, size_t M2,
-        uint8_t * blocks
-) {
-    const uint8_t perm0[16] =
-            {0,  8,  1,  9,  2, 10,  3, 11,
-            4, 12,  5, 13,  6, 14,  7, 15};
+        size_t i0,
+        size_t i1,
+        size_t bbs,
+        size_t M2,
+        uint8_t* blocks) {
+    const uint8_t perm0[16] = {
+            0, 8, 1, 9, 2, 10, 3, 11, 4, 12, 5, 13, 6, 14, 7, 15};
     // range of affected blocks
     size_t block0 = i0 / bbs;
     size_t block1 = ((i1 - 1) / bbs) + 1;
     for (size_t b = block0; b < block1; b++) {
-        uint8_t *codes2 = blocks + b * bbs * M2 / 2;
+        uint8_t* codes2 = blocks + b * bbs * M2 / 2;
         int64_t i_base = b * bbs - i0;
-        for(int sq = 0; sq < M2; sq += 2) {
-            for(size_t i = 0; i < bbs; i += 32) {
+        for (int sq = 0; sq < M2; sq += 2) {
+            for (size_t i = 0; i < bbs; i += 32) {
                 std::array<uint8_t, 32> c, c0, c1;
                 get_matrix_column(
-                    codes, i1 - i0,
-                    (M + 1) / 2,
-                    i_base + i, sq / 2, c
-                );
-                for(int j = 0; j < 32; j++) {
+                        codes, i1 - i0, (M + 1) / 2, i_base + i, sq / 2, c);
+                for (int j = 0; j < 32; j++) {
                     c0[j] = c[j] & 15;
                     c1[j] = c[j] >> 4;
                 }
-                for(int j = 0; j < 16; j++) {
+                for (int j = 0; j < 16; j++) {
                     uint8_t d0, d1;
                     d0 = c0[perm0[j]] | (c0[perm0[j] + 16] << 4);
                     d1 = c1[perm0[j]] | (c1[perm0[j] + 16] << 4);
@@ -131,14 +120,14 @@ void pq4_pack_codes_range(
             }
         }
     }
 }
 uint8_t pq4_get_packed_element(
-        const uint8_t *data, size_t bbs, size_t nsq,
-        size_t i, size_t sq
-) {
+        const uint8_t* data,
+        size_t bbs,
+        size_t nsq,
+        size_t i,
+        size_t sq) {
     // move to correct bbs-sized block
     data += (i / bbs * (nsq / 2) + sq / 2) * bbs;
     sq = sq & 1;
@@ -151,122 +140,86 @@ uint8_t pq4_get_packed_element(
     if (sq == 1) {
         data += 16;
     }
-    const uint8_t iperm0[16] =
-        {0,  2,  4,  6,  8, 10, 12, 14,
-         1,  3,  5,  7,  9, 11, 13, 15};
+    const uint8_t iperm0[16] = {
+            0, 2, 4, 6, 8, 10, 12, 14, 1, 3, 5, 7, 9, 11, 13, 15};
     if (i < 16) {
         return data[iperm0[i]] & 15;
     } else {
         return data[iperm0[i - 16]] >> 4;
     }
 }
 /***************************************************************
  * Packing functions for Look-Up Tables (LUT)
  ***************************************************************/
-void pq4_pack_LUT(
-        int nq, int nsq,
-        const uint8_t *src,
-        uint8_t *dest)
-{
-    for(int q = 0; q < nq; q++) {
-        for(int sq = 0; sq < nsq; sq += 2) {
-            memcpy(
-                dest + (sq / 2 * nq + q) * 32,
-                src + (q * nsq + sq) * 16,
-                16
-            );
-            memcpy(
-                dest + (sq / 2 * nq + q) * 32 + 16,
-                src + (q * nsq + sq + 1) * 16,
-                16
-            );
+void pq4_pack_LUT(int nq, int nsq, const uint8_t* src, uint8_t* dest) {
+    for (int q = 0; q < nq; q++) {
+        for (int sq = 0; sq < nsq; sq += 2) {
+            memcpy(dest + (sq / 2 * nq + q) * 32,
+                   src + (q * nsq + sq) * 16,
+                   16);
+            memcpy(dest + (sq / 2 * nq + q) * 32 + 16,
+                   src + (q * nsq + sq + 1) * 16,
+                   16);
         }
     }
 }
-int pq4_pack_LUT_qbs(
-        int qbs, int nsq,
-        const uint8_t *src,
-        uint8_t *dest)
-{
+int pq4_pack_LUT_qbs(int qbs, int nsq, const uint8_t* src, uint8_t* dest) {
     FAISS_THROW_IF_NOT(nsq % 2 == 0);
     size_t dim12 = 16 * nsq;
     int i0 = 0;
     int qi = qbs;
-    while(qi) {
+    while (qi) {
         int nq = qi & 15;
         qi >>= 4;
-        pq4_pack_LUT(
-                nq, nsq,
-                src + i0 * dim12,
-                dest + i0 * dim12
-        );
+        pq4_pack_LUT(nq, nsq, src + i0 * dim12, dest + i0 * dim12);
         i0 += nq;
     }
     return i0;
 }
 namespace {
 void pack_LUT_1_q_map(
-        int nq, const int *q_map,
+        int nq,
+        const int* q_map,
         int nsq,
-        const uint8_t *src,
-        uint8_t *dest)
-{
-    for(int qi = 0; qi < nq; qi++) {
+        const uint8_t* src,
+        uint8_t* dest) {
+    for (int qi = 0; qi < nq; qi++) {
         int q = q_map[qi];
-        for(int sq = 0; sq < nsq; sq += 2) {
-            memcpy(
-                dest + (sq / 2 * nq + qi) * 32,
-                src + (q * nsq + sq) * 16,
-                16
-            );
-            memcpy(
-                dest + (sq / 2 * nq + qi) * 32 + 16,
-                src + (q * nsq + sq + 1) * 16,
-                16
-            );
+        for (int sq = 0; sq < nsq; sq += 2) {
+            memcpy(dest + (sq / 2 * nq + qi) * 32,
+                   src + (q * nsq + sq) * 16,
+                   16);
+            memcpy(dest + (sq / 2 * nq + qi) * 32 + 16,
+                   src + (q * nsq + sq + 1) * 16,
+                   16);
         }
     }
 }
 } // anonymous namespace
 int pq4_pack_LUT_qbs_q_map(
-        int qbs, int nsq,
-        const uint8_t *src,
-        const int * q_map,
-        uint8_t *dest)
-{
+        int qbs,
+        int nsq,
+        const uint8_t* src,
+        const int* q_map,
+        uint8_t* dest) {
     FAISS_THROW_IF_NOT(nsq % 2 == 0);
     size_t dim12 = 16 * nsq;
     int i0 = 0;
     int qi = qbs;
-    while(qi) {
+    while (qi) {
         int nq = qi & 15;
         qi >>= 4;
-        pack_LUT_1_q_map(
-                nq, q_map + i0, nsq,
-                src,
-                dest + i0 * dim12
-        );
+        pack_LUT_1_q_map(nq, q_map + i0, nsq, src, dest + i0 * dim12);
         i0 += nq;
     }
     return i0;
 }
 } // namespace faiss