RubyGems - faiss - Versions diffs - 0.2.0 → 0.2.1 - Mend

faiss 0.2.0 → 0.2.1

Files changed (202) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +4 -0
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +292 -291
data/vendor/faiss/faiss/AutoTune.h +55 -56
data/vendor/faiss/faiss/Clustering.cpp +334 -195
data/vendor/faiss/faiss/Clustering.h +88 -35
data/vendor/faiss/faiss/IVFlib.cpp +171 -195
data/vendor/faiss/faiss/IVFlib.h +48 -51
data/vendor/faiss/faiss/Index.cpp +85 -103
data/vendor/faiss/faiss/Index.h +54 -48
data/vendor/faiss/faiss/Index2Layer.cpp +139 -164
data/vendor/faiss/faiss/Index2Layer.h +22 -22
data/vendor/faiss/faiss/IndexBinary.cpp +45 -37
data/vendor/faiss/faiss/IndexBinary.h +140 -132
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +73 -53
data/vendor/faiss/faiss/IndexBinaryFlat.h +29 -24
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +46 -43
data/vendor/faiss/faiss/IndexBinaryFromFloat.h +16 -15
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +215 -232
data/vendor/faiss/faiss/IndexBinaryHNSW.h +25 -24
data/vendor/faiss/faiss/IndexBinaryHash.cpp +182 -177
data/vendor/faiss/faiss/IndexBinaryHash.h +41 -34
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +489 -461
data/vendor/faiss/faiss/IndexBinaryIVF.h +97 -68
data/vendor/faiss/faiss/IndexFlat.cpp +116 -147
data/vendor/faiss/faiss/IndexFlat.h +35 -46
data/vendor/faiss/faiss/IndexHNSW.cpp +372 -348
data/vendor/faiss/faiss/IndexHNSW.h +57 -41
data/vendor/faiss/faiss/IndexIVF.cpp +474 -454
data/vendor/faiss/faiss/IndexIVF.h +146 -113
data/vendor/faiss/faiss/IndexIVFFlat.cpp +248 -250
data/vendor/faiss/faiss/IndexIVFFlat.h +48 -51
data/vendor/faiss/faiss/IndexIVFPQ.cpp +457 -516
data/vendor/faiss/faiss/IndexIVFPQ.h +74 -66
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +406 -372
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +82 -57
data/vendor/faiss/faiss/IndexIVFPQR.cpp +104 -102
data/vendor/faiss/faiss/IndexIVFPQR.h +33 -28
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +125 -133
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +19 -21
data/vendor/faiss/faiss/IndexLSH.cpp +75 -96
data/vendor/faiss/faiss/IndexLSH.h +21 -26
data/vendor/faiss/faiss/IndexLattice.cpp +42 -56
data/vendor/faiss/faiss/IndexLattice.h +11 -16
data/vendor/faiss/faiss/IndexNNDescent.cpp +231 -0
data/vendor/faiss/faiss/IndexNNDescent.h +72 -0
data/vendor/faiss/faiss/IndexNSG.cpp +303 -0
data/vendor/faiss/faiss/IndexNSG.h +85 -0
data/vendor/faiss/faiss/IndexPQ.cpp +405 -464
data/vendor/faiss/faiss/IndexPQ.h +64 -67
data/vendor/faiss/faiss/IndexPQFastScan.cpp +143 -170
data/vendor/faiss/faiss/IndexPQFastScan.h +46 -32
data/vendor/faiss/faiss/IndexPreTransform.cpp +120 -150
data/vendor/faiss/faiss/IndexPreTransform.h +33 -36
data/vendor/faiss/faiss/IndexRefine.cpp +115 -131
data/vendor/faiss/faiss/IndexRefine.h +22 -23
data/vendor/faiss/faiss/IndexReplicas.cpp +147 -153
data/vendor/faiss/faiss/IndexReplicas.h +62 -56
data/vendor/faiss/faiss/IndexResidual.cpp +291 -0
data/vendor/faiss/faiss/IndexResidual.h +152 -0
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +120 -155
data/vendor/faiss/faiss/IndexScalarQuantizer.h +41 -45
data/vendor/faiss/faiss/IndexShards.cpp +256 -240
data/vendor/faiss/faiss/IndexShards.h +85 -73
data/vendor/faiss/faiss/MatrixStats.cpp +112 -97
data/vendor/faiss/faiss/MatrixStats.h +7 -10
data/vendor/faiss/faiss/MetaIndexes.cpp +135 -157
data/vendor/faiss/faiss/MetaIndexes.h +40 -34
data/vendor/faiss/faiss/MetricType.h +7 -7
data/vendor/faiss/faiss/VectorTransform.cpp +652 -474
data/vendor/faiss/faiss/VectorTransform.h +61 -89
data/vendor/faiss/faiss/clone_index.cpp +77 -73
data/vendor/faiss/faiss/clone_index.h +4 -9
data/vendor/faiss/faiss/gpu/GpuAutoTune.cpp +33 -38
data/vendor/faiss/faiss/gpu/GpuAutoTune.h +11 -9
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +197 -170
data/vendor/faiss/faiss/gpu/GpuCloner.h +53 -35
data/vendor/faiss/faiss/gpu/GpuClonerOptions.cpp +12 -14
data/vendor/faiss/faiss/gpu/GpuClonerOptions.h +27 -25
data/vendor/faiss/faiss/gpu/GpuDistance.h +116 -112
data/vendor/faiss/faiss/gpu/GpuFaissAssert.h +1 -2
data/vendor/faiss/faiss/gpu/GpuIndex.h +134 -137
data/vendor/faiss/faiss/gpu/GpuIndexBinaryFlat.h +76 -73
data/vendor/faiss/faiss/gpu/GpuIndexFlat.h +173 -162
data/vendor/faiss/faiss/gpu/GpuIndexIVF.h +67 -64
data/vendor/faiss/faiss/gpu/GpuIndexIVFFlat.h +89 -86
data/vendor/faiss/faiss/gpu/GpuIndexIVFPQ.h +150 -141
data/vendor/faiss/faiss/gpu/GpuIndexIVFScalarQuantizer.h +101 -103
data/vendor/faiss/faiss/gpu/GpuIndicesOptions.h +17 -16
data/vendor/faiss/faiss/gpu/GpuResources.cpp +116 -128
data/vendor/faiss/faiss/gpu/GpuResources.h +182 -186
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +433 -422
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +131 -130
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.cpp +468 -456
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.h +25 -19
data/vendor/faiss/faiss/gpu/impl/RemapIndices.cpp +22 -20
data/vendor/faiss/faiss/gpu/impl/RemapIndices.h +9 -8
data/vendor/faiss/faiss/gpu/perf/IndexWrapper-inl.h +39 -44
data/vendor/faiss/faiss/gpu/perf/IndexWrapper.h +16 -14
data/vendor/faiss/faiss/gpu/perf/PerfClustering.cpp +77 -71
data/vendor/faiss/faiss/gpu/perf/PerfIVFPQAdd.cpp +109 -88
data/vendor/faiss/faiss/gpu/perf/WriteIndex.cpp +75 -64
data/vendor/faiss/faiss/gpu/test/TestCodePacking.cpp +230 -215
data/vendor/faiss/faiss/gpu/test/TestGpuIndexBinaryFlat.cpp +80 -86
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +284 -277
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +416 -416
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +611 -517
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFScalarQuantizer.cpp +166 -164
data/vendor/faiss/faiss/gpu/test/TestGpuMemoryException.cpp +61 -53
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +274 -238
data/vendor/faiss/faiss/gpu/test/TestUtils.h +73 -57
data/vendor/faiss/faiss/gpu/test/demo_ivfpq_indexing_gpu.cpp +47 -50
data/vendor/faiss/faiss/gpu/utils/DeviceUtils.h +79 -72
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.cpp +140 -146
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.h +69 -71
data/vendor/faiss/faiss/gpu/utils/StaticUtils.h +21 -16
data/vendor/faiss/faiss/gpu/utils/Timer.cpp +25 -29
data/vendor/faiss/faiss/gpu/utils/Timer.h +30 -29
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +270 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +115 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +90 -120
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +81 -65
data/vendor/faiss/faiss/impl/FaissAssert.h +73 -58
data/vendor/faiss/faiss/impl/FaissException.cpp +56 -48
data/vendor/faiss/faiss/impl/FaissException.h +41 -29
data/vendor/faiss/faiss/impl/HNSW.cpp +595 -611
data/vendor/faiss/faiss/impl/HNSW.h +179 -200
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +672 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.h +172 -0
data/vendor/faiss/faiss/impl/NNDescent.cpp +487 -0
data/vendor/faiss/faiss/impl/NNDescent.h +154 -0
data/vendor/faiss/faiss/impl/NSG.cpp +682 -0
data/vendor/faiss/faiss/impl/NSG.h +199 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +484 -454
data/vendor/faiss/faiss/impl/PolysemousTraining.h +52 -55
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +26 -47
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +469 -459
data/vendor/faiss/faiss/impl/ProductQuantizer.h +76 -87
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +448 -0
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +130 -0
data/vendor/faiss/faiss/impl/ResultHandler.h +96 -132
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +648 -701
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +48 -46
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +129 -131
data/vendor/faiss/faiss/impl/ThreadedIndex.h +61 -55
data/vendor/faiss/faiss/impl/index_read.cpp +547 -479
data/vendor/faiss/faiss/impl/index_write.cpp +497 -407
data/vendor/faiss/faiss/impl/io.cpp +75 -94
data/vendor/faiss/faiss/impl/io.h +31 -41
data/vendor/faiss/faiss/impl/io_macros.h +40 -29
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +137 -186
data/vendor/faiss/faiss/impl/lattice_Zn.h +40 -51
data/vendor/faiss/faiss/impl/platform_macros.h +29 -8
data/vendor/faiss/faiss/impl/pq4_fast_scan.cpp +77 -124
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +39 -48
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +41 -52
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_qbs.cpp +80 -117
data/vendor/faiss/faiss/impl/simd_result_handlers.h +109 -137
data/vendor/faiss/faiss/index_factory.cpp +269 -218
data/vendor/faiss/faiss/index_factory.h +6 -7
data/vendor/faiss/faiss/index_io.h +23 -26
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +67 -75
data/vendor/faiss/faiss/invlists/BlockInvertedLists.h +22 -24
data/vendor/faiss/faiss/invlists/DirectMap.cpp +96 -112
data/vendor/faiss/faiss/invlists/DirectMap.h +29 -33
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +307 -364
data/vendor/faiss/faiss/invlists/InvertedLists.h +151 -151
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +29 -34
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.h +17 -18
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +257 -293
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +50 -45
data/vendor/faiss/faiss/python/python_callbacks.cpp +23 -26
data/vendor/faiss/faiss/python/python_callbacks.h +9 -16
data/vendor/faiss/faiss/utils/AlignedTable.h +79 -44
data/vendor/faiss/faiss/utils/Heap.cpp +40 -48
data/vendor/faiss/faiss/utils/Heap.h +186 -209
data/vendor/faiss/faiss/utils/WorkerThread.cpp +67 -76
data/vendor/faiss/faiss/utils/WorkerThread.h +32 -33
data/vendor/faiss/faiss/utils/distances.cpp +301 -310
data/vendor/faiss/faiss/utils/distances.h +133 -118
data/vendor/faiss/faiss/utils/distances_simd.cpp +456 -516
data/vendor/faiss/faiss/utils/extra_distances-inl.h +117 -0
data/vendor/faiss/faiss/utils/extra_distances.cpp +113 -232
data/vendor/faiss/faiss/utils/extra_distances.h +30 -29
data/vendor/faiss/faiss/utils/hamming-inl.h +260 -209
data/vendor/faiss/faiss/utils/hamming.cpp +375 -469
data/vendor/faiss/faiss/utils/hamming.h +62 -85
data/vendor/faiss/faiss/utils/ordered_key_value.h +16 -18
data/vendor/faiss/faiss/utils/partitioning.cpp +393 -318
data/vendor/faiss/faiss/utils/partitioning.h +26 -21
data/vendor/faiss/faiss/utils/quantize_lut.cpp +78 -66
data/vendor/faiss/faiss/utils/quantize_lut.h +22 -20
data/vendor/faiss/faiss/utils/random.cpp +39 -63
data/vendor/faiss/faiss/utils/random.h +13 -16
data/vendor/faiss/faiss/utils/simdlib.h +4 -2
data/vendor/faiss/faiss/utils/simdlib_avx2.h +88 -85
data/vendor/faiss/faiss/utils/simdlib_emulated.h +226 -165
data/vendor/faiss/faiss/utils/simdlib_neon.h +832 -0
data/vendor/faiss/faiss/utils/utils.cpp +304 -287
data/vendor/faiss/faiss/utils/utils.h +53 -48
metadata +20 -2

data/vendor/faiss/faiss/utils/random.cpp CHANGED Viewed

@@ -15,79 +15,67 @@ namespace faiss {
  * Random data generation functions
  **************************************************/
-RandomGenerator::RandomGenerator (int64_t seed)
-    : mt((unsigned int)seed) {}
+RandomGenerator::RandomGenerator(int64_t seed) : mt((unsigned int)seed) {}
-int RandomGenerator::rand_int ()
-{
+int RandomGenerator::rand_int() {
     return mt() & 0x7fffffff;
 }
-int64_t RandomGenerator::rand_int64 ()
-{
+int64_t RandomGenerator::rand_int64() {
     return int64_t(rand_int()) | int64_t(rand_int()) << 31;
 }
-int RandomGenerator::rand_int (int max)
-{
+int RandomGenerator::rand_int(int max) {
     return mt() % max;
 }
-float RandomGenerator::rand_float ()
-{
+float RandomGenerator::rand_float() {
     return mt() / float(mt.max());
 }
-double RandomGenerator::rand_double ()
-{
+double RandomGenerator::rand_double() {
     return mt() / double(mt.max());
 }
 /***********************************************************************
  * Random functions in this C file only exist because Torch
  *  counterparts are slow and not multi-threaded.  Typical use is for
  *  more than 1-100 billion values. */
 /* Generate a set of random floating point values such that x[i] in [0,1]
    multi-threading. For this reason, we rely on re-entreant functions.  */
-void float_rand (float * x, size_t n, int64_t seed)
-{
+void float_rand(float* x, size_t n, int64_t seed) {
     // only try to parallelize on large enough arrays
     const size_t nblock = n < 1024 ? 1 : 1024;
-    RandomGenerator rng0 (seed);
-    int a0 = rng0.rand_int (), b0 = rng0.rand_int ();
+    RandomGenerator rng0(seed);
+    int a0 = rng0.rand_int(), b0 = rng0.rand_int();
 #pragma omp parallel for
     for (int64_t j = 0; j < nblock; j++) {
-        RandomGenerator rng (a0 + j * b0);
+        RandomGenerator rng(a0 + j * b0);
         const size_t istart = j * n / nblock;
         const size_t iend = (j + 1) * n / nblock;
         for (size_t i = istart; i < iend; i++)
-            x[i] = rng.rand_float ();
+            x[i] = rng.rand_float();
     }
 }
-void float_randn (float * x, size_t n, int64_t seed)
-{
+void float_randn(float* x, size_t n, int64_t seed) {
     // only try to parallelize on large enough arrays
     const size_t nblock = n < 1024 ? 1 : 1024;
-    RandomGenerator rng0 (seed);
-    int a0 = rng0.rand_int (), b0 = rng0.rand_int ();
+    RandomGenerator rng0(seed);
+    int a0 = rng0.rand_int(), b0 = rng0.rand_int();
 #pragma omp parallel for
     for (int64_t j = 0; j < nblock; j++) {
-        RandomGenerator rng (a0 + j * b0);
+        RandomGenerator rng(a0 + j * b0);
         double a = 0, b = 0, s = 0;
-        int state = 0;  /* generate two number per "do-while" loop */
+        int state = 0; /* generate two number per "do-while" loop */
         const size_t istart = j * n / nblock;
         const size_t iend = (j + 1) * n / nblock;
@@ -96,96 +84,84 @@ void float_randn (float * x, size_t n, int64_t seed)
             /* Marsaglia's method (see Knuth) */
             if (state == 0) {
                 do {
-                    a = 2.0 * rng.rand_double () - 1;
-                    b = 2.0 * rng.rand_double () - 1;
+                    a = 2.0 * rng.rand_double() - 1;
+                    b = 2.0 * rng.rand_double() - 1;
                     s = a * a + b * b;
                 } while (s >= 1.0);
                 x[i] = a * sqrt(-2.0 * log(s) / s);
-            }
-            else
+            } else
                 x[i] = b * sqrt(-2.0 * log(s) / s);
             state = 1 - state;
         }
     }
 }
 /* Integer versions */
-void int64_rand (int64_t * x, size_t n, int64_t seed)
-{
+void int64_rand(int64_t* x, size_t n, int64_t seed) {
     // only try to parallelize on large enough arrays
     const size_t nblock = n < 1024 ? 1 : 1024;
-    RandomGenerator rng0 (seed);
-    int a0 = rng0.rand_int (), b0 = rng0.rand_int ();
+    RandomGenerator rng0(seed);
+    int a0 = rng0.rand_int(), b0 = rng0.rand_int();
 #pragma omp parallel for
     for (int64_t j = 0; j < nblock; j++) {
-        RandomGenerator rng (a0 + j * b0);
+        RandomGenerator rng(a0 + j * b0);
         const size_t istart = j * n / nblock;
         const size_t iend = (j + 1) * n / nblock;
         for (size_t i = istart; i < iend; i++)
-            x[i] = rng.rand_int64 ();
+            x[i] = rng.rand_int64();
     }
 }
-void int64_rand_max (int64_t * x, size_t n, uint64_t max, int64_t seed)
-{
+void int64_rand_max(int64_t* x, size_t n, uint64_t max, int64_t seed) {
     // only try to parallelize on large enough arrays
     const size_t nblock = n < 1024 ? 1 : 1024;
-    RandomGenerator rng0 (seed);
-    int a0 = rng0.rand_int (), b0 = rng0.rand_int ();
+    RandomGenerator rng0(seed);
+    int a0 = rng0.rand_int(), b0 = rng0.rand_int();
 #pragma omp parallel for
     for (int64_t j = 0; j < nblock; j++) {
-        RandomGenerator rng (a0 + j * b0);
+        RandomGenerator rng(a0 + j * b0);
         const size_t istart = j * n / nblock;
         const size_t iend = (j + 1) * n / nblock;
         for (size_t i = istart; i < iend; i++)
-            x[i] = rng.rand_int64 () % max;
+            x[i] = rng.rand_int64() % max;
     }
 }
+void rand_perm(int* perm, size_t n, int64_t seed) {
+    for (size_t i = 0; i < n; i++)
+        perm[i] = i;
-void rand_perm (int *perm, size_t n, int64_t seed)
-{
-    for (size_t i = 0; i < n; i++) perm[i] = i;
-    RandomGenerator rng (seed);
+    RandomGenerator rng(seed);
     for (size_t i = 0; i + 1 < n; i++) {
-        int i2 = i + rng.rand_int (n - i);
+        int i2 = i + rng.rand_int(n - i);
         std::swap(perm[i], perm[i2]);
     }
 }
-void byte_rand (uint8_t * x, size_t n, int64_t seed)
-{
+void byte_rand(uint8_t* x, size_t n, int64_t seed) {
     // only try to parallelize on large enough arrays
     const size_t nblock = n < 1024 ? 1 : 1024;
-    RandomGenerator rng0 (seed);
-    int a0 = rng0.rand_int (), b0 = rng0.rand_int ();
+    RandomGenerator rng0(seed);
+    int a0 = rng0.rand_int(), b0 = rng0.rand_int();
 #pragma omp parallel for
     for (int64_t j = 0; j < nblock; j++) {
-        RandomGenerator rng (a0 + j * b0);
+        RandomGenerator rng(a0 + j * b0);
         const size_t istart = j * n / nblock;
         const size_t iend = (j + 1) * n / nblock;
         size_t i;
         for (i = istart; i < iend; i++)
-            x[i] = rng.rand_int64 ();
+            x[i] = rng.rand_int64();
     }
 }

data/vendor/faiss/faiss/utils/random.h CHANGED Viewed

@@ -13,9 +13,8 @@
 #pragma once
-#include <random>
 #include <stdint.h>
+#include <random>
 namespace faiss {
@@ -25,36 +24,34 @@ namespace faiss {
 /// random generator that can be used in multithreaded contexts
 struct RandomGenerator {
     std::mt19937 mt;
     /// random positive integer
-    int rand_int ();
+    int rand_int();
     /// random int64_t
-    int64_t rand_int64 ();
+    int64_t rand_int64();
     /// generate random integer between 0 and max-1
-    int rand_int (int max);
+    int rand_int(int max);
     /// between 0 and 1
-    float rand_float ();
+    float rand_float();
-    double rand_double ();
+    double rand_double();
-    explicit RandomGenerator (int64_t seed = 1234);
+    explicit RandomGenerator(int64_t seed = 1234);
 };
 /* Generate an array of uniform random floats / multi-threaded implementation */
-void float_rand (float * x, size_t n, int64_t seed);
-void float_randn (float * x, size_t n, int64_t seed);
-void int64_rand (int64_t * x, size_t n, int64_t seed);
-void byte_rand (uint8_t * x, size_t n, int64_t seed);
+void float_rand(float* x, size_t n, int64_t seed);
+void float_randn(float* x, size_t n, int64_t seed);
+void int64_rand(int64_t* x, size_t n, int64_t seed);
+void byte_rand(uint8_t* x, size_t n, int64_t seed);
 // max is actually the maximum value + 1
-void int64_rand_max (int64_t * x, size_t n, uint64_t max, int64_t seed);
+void int64_rand_max(int64_t* x, size_t n, uint64_t max, int64_t seed);
 /* random permutation */
-void rand_perm (int * perm, size_t n, int64_t seed);
+void rand_perm(int* perm, size_t n, int64_t seed);
 } // namespace faiss

data/vendor/faiss/faiss/utils/simdlib.h CHANGED Viewed

@@ -7,8 +7,6 @@
 #pragma once
 /** Abstractions for 256-bit registers
  *
  * The objective is to separate the different interpretations of the same
@@ -20,6 +18,10 @@
 #include <faiss/utils/simdlib_avx2.h>
+#elif defined(__aarch64__)
+#include <faiss/utils/simdlib_neon.h>
 #else
 // emulated = all operations are implemented as scalars

data/vendor/faiss/faiss/utils/simdlib_avx2.h CHANGED Viewed

@@ -7,8 +7,8 @@
 #pragma once
-#include <string>
 #include <cstdint>
+#include <string>
 #include <immintrin.h>
@@ -16,7 +16,6 @@
 namespace faiss {
 /** Simple wrapper around the AVX 256-bit registers
  *
  * The objective is to separate the different interpretations of the same
@@ -27,36 +26,34 @@ namespace faiss {
 /// 256-bit representation without interpretation as a vector
 struct simd256bit {
-        union {
+    union {
         __m256i i;
         __m256 f;
     };
-    simd256bit()   {}
+    simd256bit() {}
-    explicit simd256bit(__m256i i): i(i) {}
+    explicit simd256bit(__m256i i) : i(i) {}
-    explicit simd256bit(__m256 f): f(f) {}
+    explicit simd256bit(__m256 f) : f(f) {}
-    explicit simd256bit(const void *x):
-    i(_mm256_load_si256((__m256i const *)x))
-    {}
+    explicit simd256bit(const void* x)
+            : i(_mm256_load_si256((__m256i const*)x)) {}
     void clear() {
         i = _mm256_setzero_si256();
     }
-    void storeu(void *ptr) const {
-        _mm256_storeu_si256((__m256i *)ptr, i);
+    void storeu(void* ptr) const {
+        _mm256_storeu_si256((__m256i*)ptr, i);
     }
-    void loadu(const void *ptr) {
+    void loadu(const void* ptr) {
         i = _mm256_loadu_si256((__m256i*)ptr);
     }
-    void store(void *ptr) const {
-        _mm256_store_si256((__m256i *)ptr, i);
+    void store(void* ptr) const {
+        _mm256_store_si256((__m256i*)ptr, i);
     }
     void bin(char bits[257]) const {
@@ -73,30 +70,28 @@ struct simd256bit {
         bin(bits);
         return std::string(bits);
     }
 };
 /// vector of 16 elements in uint16
-struct simd16uint16: simd256bit {
+struct simd16uint16 : simd256bit {
     simd16uint16() {}
-    explicit simd16uint16(__m256i i): simd256bit(i) {}
+    explicit simd16uint16(__m256i i) : simd256bit(i) {}
-    explicit simd16uint16(int x): simd256bit(_mm256_set1_epi16(x)) {}
+    explicit simd16uint16(int x) : simd256bit(_mm256_set1_epi16(x)) {}
-    explicit simd16uint16(uint16_t x): simd256bit(_mm256_set1_epi16(x)) {}
+    explicit simd16uint16(uint16_t x) : simd256bit(_mm256_set1_epi16(x)) {}
-    explicit simd16uint16(simd256bit x): simd256bit(x) {}
+    explicit simd16uint16(simd256bit x) : simd256bit(x) {}
-    explicit simd16uint16(const uint16_t *x): simd256bit((const void*)x) {}
+    explicit simd16uint16(const uint16_t* x) : simd256bit((const void*)x) {}
-    std::string elements_to_string(const char * fmt) const {
+    std::string elements_to_string(const char* fmt) const {
         uint16_t bytes[16];
         storeu((void*)bytes);
         char res[1000];
-        char *ptr = res;
-        for(int i = 0; i < 16; i++) {
+        char* ptr = res;
+        for (int i = 0; i < 16; i++) {
             ptr += sprintf(ptr, fmt, bytes[i]);
         }
         // strip last ,
@@ -117,47 +112,47 @@ struct simd16uint16: simd256bit {
     }
     // shift must be known at compile time
-    simd16uint16 operator >> (const int shift) const {
+    simd16uint16 operator>>(const int shift) const {
         return simd16uint16(_mm256_srli_epi16(i, shift));
     }
     // shift must be known at compile time
-    simd16uint16 operator << (const int shift) const {
+    simd16uint16 operator<<(const int shift) const {
         return simd16uint16(_mm256_slli_epi16(i, shift));
     }
-    simd16uint16 operator += (simd16uint16 other) {
+    simd16uint16 operator+=(simd16uint16 other) {
         i = _mm256_add_epi16(i, other.i);
         return *this;
     }
-    simd16uint16 operator -= (simd16uint16 other) {
+    simd16uint16 operator-=(simd16uint16 other) {
         i = _mm256_sub_epi16(i, other.i);
         return *this;
     }
-    simd16uint16 operator + (simd16uint16 other) const {
+    simd16uint16 operator+(simd16uint16 other) const {
         return simd16uint16(_mm256_add_epi16(i, other.i));
     }
-    simd16uint16 operator - (simd16uint16 other) const {
+    simd16uint16 operator-(simd16uint16 other) const {
         return simd16uint16(_mm256_sub_epi16(i, other.i));
     }
-    simd16uint16 operator & (simd256bit other) const {
+    simd16uint16 operator&(simd256bit other) const {
         return simd16uint16(_mm256_and_si256(i, other.i));
     }
-    simd16uint16 operator | (simd256bit other) const {
+    simd16uint16 operator|(simd256bit other) const {
         return simd16uint16(_mm256_or_si256(i, other.i));
     }
     // returns binary masks
-    simd16uint16 operator == (simd256bit other) const {
+    simd16uint16 operator==(simd256bit other) const {
         return simd16uint16(_mm256_cmpeq_epi16(i, other.i));
     }
-    simd16uint16 operator ~() const {
+    simd16uint16 operator~() const {
         return simd16uint16(_mm256_xor_si256(i, _mm256_set1_epi32(-1)));
     }
@@ -188,7 +183,7 @@ struct simd16uint16: simd256bit {
     }
     // for debugging only
-    uint16_t operator [] (int i) const {
+    uint16_t operator[](int i) const {
         ALIGNED(32) uint16_t tab[16];
         store(tab);
         return tab[i];
@@ -201,7 +196,6 @@ struct simd16uint16: simd256bit {
     void accu_max(simd16uint16 incoming) {
         i = _mm256_max_epu16(i, incoming.i);
     }
 };
 // not really a std::min because it returns an elementwise min
@@ -213,13 +207,10 @@ inline simd16uint16 max(simd16uint16 a, simd16uint16 b) {
     return simd16uint16(_mm256_max_epu16(a.i, b.i));
 }
 // decompose in 128-lanes: a = (a0, a1), b = (b0, b1)
 // return (a0 + a1, b0 + b1)
 // TODO find a better name
 inline simd16uint16 combine2x2(simd16uint16 a, simd16uint16 b) {
     __m256i a1b0 = _mm256_permute2f128_si256(a.i, b.i, 0x21);
     __m256i a0b1 = _mm256_blend_epi32(a.i, b.i, 0xF0);
@@ -229,7 +220,6 @@ inline simd16uint16 combine2x2(simd16uint16 a, simd16uint16 b) {
 // compare d0 and d1 to thr, return 32 bits corresponding to the concatenation
 // of d0 and d1 with thr
 inline uint32_t cmp_ge32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
     __m256i max0 = _mm256_max_epu16(d0.i, thr.i);
     __m256i ge0 = _mm256_cmpeq_epi16(d0.i, max0);
@@ -245,9 +235,7 @@ inline uint32_t cmp_ge32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
     return ge;
 }
 inline uint32_t cmp_le32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
     __m256i max0 = _mm256_min_epu16(d0.i, thr.i);
     __m256i ge0 = _mm256_cmpeq_epi16(d0.i, max0);
@@ -263,29 +251,26 @@ inline uint32_t cmp_le32(simd16uint16 d0, simd16uint16 d1, simd16uint16 thr) {
     return ge;
 }
 // vector of 32 unsigned 8-bit integers
-struct simd32uint8: simd256bit {
+struct simd32uint8 : simd256bit {
     simd32uint8() {}
-    explicit simd32uint8(__m256i i): simd256bit(i) {}
+    explicit simd32uint8(__m256i i) : simd256bit(i) {}
-    explicit simd32uint8(int x): simd256bit(_mm256_set1_epi8(x)) {}
+    explicit simd32uint8(int x) : simd256bit(_mm256_set1_epi8(x)) {}
-    explicit simd32uint8(uint8_t x): simd256bit(_mm256_set1_epi8(x)) {}
+    explicit simd32uint8(uint8_t x) : simd256bit(_mm256_set1_epi8(x)) {}
-    explicit simd32uint8(simd256bit x): simd256bit(x) {}
+    explicit simd32uint8(simd256bit x) : simd256bit(x) {}
-    explicit simd32uint8(const uint8_t *x): simd256bit((const void*)x) {}
+    explicit simd32uint8(const uint8_t* x) : simd256bit((const void*)x) {}
-    std::string elements_to_string(const char * fmt) const {
+    std::string elements_to_string(const char* fmt) const {
         uint8_t bytes[32];
         storeu((void*)bytes);
         char res[1000];
-        char *ptr = res;
-        for(int i = 0; i < 32; i++) {
+        char* ptr = res;
+        for (int i = 0; i < 32; i++) {
             ptr += sprintf(ptr, fmt, bytes[i]);
         }
         // strip last ,
@@ -305,11 +290,11 @@ struct simd32uint8: simd256bit {
         i = _mm256_set1_epi8((char)x);
     }
-    simd32uint8 operator & (simd256bit other) const {
+    simd32uint8 operator&(simd256bit other) const {
         return simd32uint8(_mm256_and_si256(i, other.i));
     }
-    simd32uint8 operator + (simd32uint8 other) const {
+    simd32uint8 operator+(simd32uint8 other) const {
         return simd32uint8(_mm256_add_epi8(i, other.i));
     }
@@ -329,18 +314,17 @@ struct simd32uint8: simd256bit {
         return simd16uint16(_mm256_cvtepu8_epi16(x));
     }
-    simd32uint8 operator += (simd32uint8 other) {
+    simd32uint8 operator+=(simd32uint8 other) {
         i = _mm256_add_epi8(i, other.i);
         return *this;
     }
     // for debugging only
-    uint8_t operator [] (int i) const {
+    uint8_t operator[](int i) const {
         ALIGNED(32) uint8_t tab[32];
         store(tab);
         return tab[i];
     }
 };
 // convert with saturation
@@ -359,26 +343,24 @@ inline simd32uint8 blendv(simd32uint8 a, simd32uint8 b, simd32uint8 mask) {
     return simd32uint8(_mm256_blendv_epi8(a.i, b.i, mask.i));
 }
 /// vector of 8 unsigned 32-bit integers
-struct simd8uint32: simd256bit {
+struct simd8uint32 : simd256bit {
     simd8uint32() {}
-    explicit simd8uint32(__m256i i): simd256bit(i) {}
+    explicit simd8uint32(__m256i i) : simd256bit(i) {}
-    explicit simd8uint32(uint32_t x): simd256bit(_mm256_set1_epi32(x)) {}
+    explicit simd8uint32(uint32_t x) : simd256bit(_mm256_set1_epi32(x)) {}
-    explicit simd8uint32(simd256bit x): simd256bit(x) {}
+    explicit simd8uint32(simd256bit x) : simd256bit(x) {}
-    explicit simd8uint32(const uint8_t *x): simd256bit((const void*)x) {}
+    explicit simd8uint32(const uint8_t* x) : simd256bit((const void*)x) {}
-    std::string elements_to_string(const char * fmt) const {
+    std::string elements_to_string(const char* fmt) const {
         uint32_t bytes[8];
         storeu((void*)bytes);
         char res[1000];
-        char *ptr = res;
-        for(int i = 0; i < 8; i++) {
+        char* ptr = res;
+        for (int i = 0; i < 8; i++) {
             ptr += sprintf(ptr, fmt, bytes[i]);
         }
         // strip last ,
@@ -397,31 +379,28 @@ struct simd8uint32: simd256bit {
     void set1(uint32_t x) {
         i = _mm256_set1_epi32((int)x);
     }
 };
-struct simd8float32: simd256bit {
+struct simd8float32 : simd256bit {
     simd8float32() {}
+    explicit simd8float32(simd256bit x) : simd256bit(x) {}
-    explicit simd8float32(simd256bit x): simd256bit(x) {}
-    explicit simd8float32(__m256 x): simd256bit(x) {}
+    explicit simd8float32(__m256 x) : simd256bit(x) {}
-    explicit simd8float32(float x): simd256bit(_mm256_set1_ps(x)) {}
+    explicit simd8float32(float x) : simd256bit(_mm256_set1_ps(x)) {}
-    explicit simd8float32(const float *x): simd256bit(_mm256_load_ps(x)) {}
+    explicit simd8float32(const float* x) : simd256bit(_mm256_load_ps(x)) {}
-    simd8float32 operator * (simd8float32 other) const {
+    simd8float32 operator*(simd8float32 other) const {
         return simd8float32(_mm256_mul_ps(f, other.f));
     }
-    simd8float32 operator + (simd8float32 other) const {
+    simd8float32 operator+(simd8float32 other) const {
         return simd8float32(_mm256_add_ps(f, other.f));
     }
-    simd8float32 operator - (simd8float32 other) const {
+    simd8float32 operator-(simd8float32 other) const {
         return simd8float32(_mm256_sub_ps(f, other.f));
     }
@@ -429,15 +408,14 @@ struct simd8float32: simd256bit {
         float tab[8];
         storeu((void*)tab);
         char res[1000];
-        char *ptr = res;
-        for(int i = 0; i < 8; i++) {
+        char* ptr = res;
+        for (int i = 0; i < 8; i++) {
             ptr += sprintf(ptr, "%g,", tab[i]);
         }
         // strip last ,
         ptr[-1] = 0;
         return std::string(res);
     }
 };
 inline simd8float32 hadd(simd8float32 a, simd8float32 b) {
@@ -457,5 +435,30 @@ inline simd8float32 fmadd(simd8float32 a, simd8float32 b, simd8float32 c) {
     return simd8float32(_mm256_fmadd_ps(a.f, b.f, c.f));
 }
+namespace {
+// get even float32's of a and b, interleaved
+inline simd8float32 geteven(simd8float32 a, simd8float32 b) {
+    return simd8float32(
+            _mm256_shuffle_ps(a.f, b.f, 0 << 0 | 2 << 2 | 0 << 4 | 2 << 6));
+}
+// get odd float32's of a and b, interleaved
+inline simd8float32 getodd(simd8float32 a, simd8float32 b) {
+    return simd8float32(
+            _mm256_shuffle_ps(a.f, b.f, 1 << 0 | 3 << 2 | 1 << 4 | 3 << 6));
+}
+// 3 cycles
+// if the lanes are a = [a0 a1] and b = [b0 b1], return [a0 b0]
+inline simd8float32 getlow128(simd8float32 a, simd8float32 b) {
+    return simd8float32(_mm256_permute2f128_ps(a.f, b.f, 0 | 2 << 4));
+}
+inline simd8float32 gethigh128(simd8float32 a, simd8float32 b) {
+    return simd8float32(_mm256_permute2f128_ps(a.f, b.f, 1 | 3 << 4));
+}
+} // namespace
 } // namespace faiss