RubyGems - faiss - Versions diffs - 0.1.5 → 0.2.2 - Mend

faiss 0.1.5 → 0.2.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (219) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +24 -0
data/README.md +12 -0
data/ext/faiss/ext.cpp +1 -1
data/ext/faiss/extconf.rb +6 -2
data/ext/faiss/index.cpp +114 -43
data/ext/faiss/index_binary.cpp +24 -30
data/ext/faiss/kmeans.cpp +20 -16
data/ext/faiss/numo.hpp +867 -0
data/ext/faiss/pca_matrix.cpp +13 -14
data/ext/faiss/product_quantizer.cpp +23 -24
data/ext/faiss/utils.cpp +10 -37
data/ext/faiss/utils.h +2 -13
data/lib/faiss.rb +0 -5
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +292 -291
data/vendor/faiss/faiss/AutoTune.h +55 -56
data/vendor/faiss/faiss/Clustering.cpp +334 -195
data/vendor/faiss/faiss/Clustering.h +88 -35
data/vendor/faiss/faiss/IVFlib.cpp +171 -195
data/vendor/faiss/faiss/IVFlib.h +48 -51
data/vendor/faiss/faiss/Index.cpp +85 -103
data/vendor/faiss/faiss/Index.h +54 -48
data/vendor/faiss/faiss/Index2Layer.cpp +139 -164
data/vendor/faiss/faiss/Index2Layer.h +22 -22
data/vendor/faiss/faiss/IndexBinary.cpp +45 -37
data/vendor/faiss/faiss/IndexBinary.h +140 -132
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +73 -53
data/vendor/faiss/faiss/IndexBinaryFlat.h +29 -24
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +46 -43
data/vendor/faiss/faiss/IndexBinaryFromFloat.h +16 -15
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +215 -232
data/vendor/faiss/faiss/IndexBinaryHNSW.h +25 -24
data/vendor/faiss/faiss/IndexBinaryHash.cpp +182 -177
data/vendor/faiss/faiss/IndexBinaryHash.h +41 -34
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +489 -461
data/vendor/faiss/faiss/IndexBinaryIVF.h +97 -68
data/vendor/faiss/faiss/IndexFlat.cpp +116 -147
data/vendor/faiss/faiss/IndexFlat.h +35 -46
data/vendor/faiss/faiss/IndexHNSW.cpp +372 -348
data/vendor/faiss/faiss/IndexHNSW.h +57 -41
data/vendor/faiss/faiss/IndexIVF.cpp +474 -454
data/vendor/faiss/faiss/IndexIVF.h +146 -113
data/vendor/faiss/faiss/IndexIVFFlat.cpp +248 -250
data/vendor/faiss/faiss/IndexIVFFlat.h +48 -51
data/vendor/faiss/faiss/IndexIVFPQ.cpp +457 -516
data/vendor/faiss/faiss/IndexIVFPQ.h +74 -66
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +406 -372
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +82 -57
data/vendor/faiss/faiss/IndexIVFPQR.cpp +104 -102
data/vendor/faiss/faiss/IndexIVFPQR.h +33 -28
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +125 -133
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +19 -21
data/vendor/faiss/faiss/IndexLSH.cpp +75 -96
data/vendor/faiss/faiss/IndexLSH.h +21 -26
data/vendor/faiss/faiss/IndexLattice.cpp +42 -56
data/vendor/faiss/faiss/IndexLattice.h +11 -16
data/vendor/faiss/faiss/IndexNNDescent.cpp +231 -0
data/vendor/faiss/faiss/IndexNNDescent.h +72 -0
data/vendor/faiss/faiss/IndexNSG.cpp +303 -0
data/vendor/faiss/faiss/IndexNSG.h +85 -0
data/vendor/faiss/faiss/IndexPQ.cpp +405 -464
data/vendor/faiss/faiss/IndexPQ.h +64 -67
data/vendor/faiss/faiss/IndexPQFastScan.cpp +143 -170
data/vendor/faiss/faiss/IndexPQFastScan.h +46 -32
data/vendor/faiss/faiss/IndexPreTransform.cpp +120 -150
data/vendor/faiss/faiss/IndexPreTransform.h +33 -36
data/vendor/faiss/faiss/IndexRefine.cpp +115 -131
data/vendor/faiss/faiss/IndexRefine.h +22 -23
data/vendor/faiss/faiss/IndexReplicas.cpp +147 -153
data/vendor/faiss/faiss/IndexReplicas.h +62 -56
data/vendor/faiss/faiss/IndexResidual.cpp +291 -0
data/vendor/faiss/faiss/IndexResidual.h +152 -0
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +120 -155
data/vendor/faiss/faiss/IndexScalarQuantizer.h +41 -45
data/vendor/faiss/faiss/IndexShards.cpp +256 -240
data/vendor/faiss/faiss/IndexShards.h +85 -73
data/vendor/faiss/faiss/MatrixStats.cpp +112 -97
data/vendor/faiss/faiss/MatrixStats.h +7 -10
data/vendor/faiss/faiss/MetaIndexes.cpp +135 -157
data/vendor/faiss/faiss/MetaIndexes.h +40 -34
data/vendor/faiss/faiss/MetricType.h +7 -7
data/vendor/faiss/faiss/VectorTransform.cpp +652 -474
data/vendor/faiss/faiss/VectorTransform.h +61 -89
data/vendor/faiss/faiss/clone_index.cpp +77 -73
data/vendor/faiss/faiss/clone_index.h +4 -9
data/vendor/faiss/faiss/gpu/GpuAutoTune.cpp +33 -38
data/vendor/faiss/faiss/gpu/GpuAutoTune.h +11 -9
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +197 -170
data/vendor/faiss/faiss/gpu/GpuCloner.h +53 -35
data/vendor/faiss/faiss/gpu/GpuClonerOptions.cpp +12 -14
data/vendor/faiss/faiss/gpu/GpuClonerOptions.h +27 -25
data/vendor/faiss/faiss/gpu/GpuDistance.h +116 -112
data/vendor/faiss/faiss/gpu/GpuFaissAssert.h +1 -2
data/vendor/faiss/faiss/gpu/GpuIndex.h +134 -137
data/vendor/faiss/faiss/gpu/GpuIndexBinaryFlat.h +76 -73
data/vendor/faiss/faiss/gpu/GpuIndexFlat.h +173 -162
data/vendor/faiss/faiss/gpu/GpuIndexIVF.h +67 -64
data/vendor/faiss/faiss/gpu/GpuIndexIVFFlat.h +89 -86
data/vendor/faiss/faiss/gpu/GpuIndexIVFPQ.h +150 -141
data/vendor/faiss/faiss/gpu/GpuIndexIVFScalarQuantizer.h +101 -103
data/vendor/faiss/faiss/gpu/GpuIndicesOptions.h +17 -16
data/vendor/faiss/faiss/gpu/GpuResources.cpp +116 -128
data/vendor/faiss/faiss/gpu/GpuResources.h +182 -186
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +433 -422
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +131 -130
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.cpp +468 -456
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.h +25 -19
data/vendor/faiss/faiss/gpu/impl/RemapIndices.cpp +22 -20
data/vendor/faiss/faiss/gpu/impl/RemapIndices.h +9 -8
data/vendor/faiss/faiss/gpu/perf/IndexWrapper-inl.h +39 -44
data/vendor/faiss/faiss/gpu/perf/IndexWrapper.h +16 -14
data/vendor/faiss/faiss/gpu/perf/PerfClustering.cpp +77 -71
data/vendor/faiss/faiss/gpu/perf/PerfIVFPQAdd.cpp +109 -88
data/vendor/faiss/faiss/gpu/perf/WriteIndex.cpp +75 -64
data/vendor/faiss/faiss/gpu/test/TestCodePacking.cpp +230 -215
data/vendor/faiss/faiss/gpu/test/TestGpuIndexBinaryFlat.cpp +80 -86
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +284 -277
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +416 -416
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +611 -517
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFScalarQuantizer.cpp +166 -164
data/vendor/faiss/faiss/gpu/test/TestGpuMemoryException.cpp +61 -53
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +274 -238
data/vendor/faiss/faiss/gpu/test/TestUtils.h +73 -57
data/vendor/faiss/faiss/gpu/test/demo_ivfpq_indexing_gpu.cpp +47 -50
data/vendor/faiss/faiss/gpu/utils/DeviceUtils.h +79 -72
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.cpp +140 -146
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.h +69 -71
data/vendor/faiss/faiss/gpu/utils/StaticUtils.h +21 -16
data/vendor/faiss/faiss/gpu/utils/Timer.cpp +25 -29
data/vendor/faiss/faiss/gpu/utils/Timer.h +30 -29
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +270 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +115 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +90 -120
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +81 -65
data/vendor/faiss/faiss/impl/FaissAssert.h +73 -58
data/vendor/faiss/faiss/impl/FaissException.cpp +56 -48
data/vendor/faiss/faiss/impl/FaissException.h +41 -29
data/vendor/faiss/faiss/impl/HNSW.cpp +595 -611
data/vendor/faiss/faiss/impl/HNSW.h +179 -200
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +672 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.h +172 -0
data/vendor/faiss/faiss/impl/NNDescent.cpp +487 -0
data/vendor/faiss/faiss/impl/NNDescent.h +154 -0
data/vendor/faiss/faiss/impl/NSG.cpp +682 -0
data/vendor/faiss/faiss/impl/NSG.h +199 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +484 -454
data/vendor/faiss/faiss/impl/PolysemousTraining.h +52 -55
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +26 -47
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +469 -459
data/vendor/faiss/faiss/impl/ProductQuantizer.h +76 -87
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +448 -0
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +130 -0
data/vendor/faiss/faiss/impl/ResultHandler.h +96 -132
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +648 -701
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +48 -46
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +129 -131
data/vendor/faiss/faiss/impl/ThreadedIndex.h +61 -55
data/vendor/faiss/faiss/impl/index_read.cpp +547 -479
data/vendor/faiss/faiss/impl/index_write.cpp +497 -407
data/vendor/faiss/faiss/impl/io.cpp +75 -94
data/vendor/faiss/faiss/impl/io.h +31 -41
data/vendor/faiss/faiss/impl/io_macros.h +40 -29
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +137 -186
data/vendor/faiss/faiss/impl/lattice_Zn.h +40 -51
data/vendor/faiss/faiss/impl/platform_macros.h +29 -8
data/vendor/faiss/faiss/impl/pq4_fast_scan.cpp +77 -124
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +39 -48
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +41 -52
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_qbs.cpp +80 -117
data/vendor/faiss/faiss/impl/simd_result_handlers.h +109 -137
data/vendor/faiss/faiss/index_factory.cpp +269 -218
data/vendor/faiss/faiss/index_factory.h +6 -7
data/vendor/faiss/faiss/index_io.h +23 -26
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +67 -75
data/vendor/faiss/faiss/invlists/BlockInvertedLists.h +22 -24
data/vendor/faiss/faiss/invlists/DirectMap.cpp +96 -112
data/vendor/faiss/faiss/invlists/DirectMap.h +29 -33
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +307 -364
data/vendor/faiss/faiss/invlists/InvertedLists.h +151 -151
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +29 -34
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.h +17 -18
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +257 -293
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +50 -45
data/vendor/faiss/faiss/python/python_callbacks.cpp +23 -26
data/vendor/faiss/faiss/python/python_callbacks.h +9 -16
data/vendor/faiss/faiss/utils/AlignedTable.h +79 -44
data/vendor/faiss/faiss/utils/Heap.cpp +40 -48
data/vendor/faiss/faiss/utils/Heap.h +186 -209
data/vendor/faiss/faiss/utils/WorkerThread.cpp +67 -76
data/vendor/faiss/faiss/utils/WorkerThread.h +32 -33
data/vendor/faiss/faiss/utils/distances.cpp +301 -310
data/vendor/faiss/faiss/utils/distances.h +133 -118
data/vendor/faiss/faiss/utils/distances_simd.cpp +456 -516
data/vendor/faiss/faiss/utils/extra_distances-inl.h +117 -0
data/vendor/faiss/faiss/utils/extra_distances.cpp +113 -232
data/vendor/faiss/faiss/utils/extra_distances.h +30 -29
data/vendor/faiss/faiss/utils/hamming-inl.h +260 -209
data/vendor/faiss/faiss/utils/hamming.cpp +375 -469
data/vendor/faiss/faiss/utils/hamming.h +62 -85
data/vendor/faiss/faiss/utils/ordered_key_value.h +16 -18
data/vendor/faiss/faiss/utils/partitioning.cpp +393 -318
data/vendor/faiss/faiss/utils/partitioning.h +26 -21
data/vendor/faiss/faiss/utils/quantize_lut.cpp +78 -66
data/vendor/faiss/faiss/utils/quantize_lut.h +22 -20
data/vendor/faiss/faiss/utils/random.cpp +39 -63
data/vendor/faiss/faiss/utils/random.h +13 -16
data/vendor/faiss/faiss/utils/simdlib.h +4 -2
data/vendor/faiss/faiss/utils/simdlib_avx2.h +88 -85
data/vendor/faiss/faiss/utils/simdlib_emulated.h +226 -165
data/vendor/faiss/faiss/utils/simdlib_neon.h +832 -0
data/vendor/faiss/faiss/utils/utils.cpp +304 -287
data/vendor/faiss/faiss/utils/utils.h +53 -48
metadata +24 -10
data/lib/faiss/index.rb +0 -20
data/lib/faiss/index_binary.rb +0 -20
data/lib/faiss/kmeans.rb +0 -15
data/lib/faiss/pca_matrix.rb +0 -15
data/lib/faiss/product_quantizer.rb +0 -22

data/vendor/faiss/faiss/gpu/utils/StaticUtils.h CHANGED Viewed

@@ -5,7 +5,6 @@
  * LICENSE file in the root directory of this source tree.
  */
 #pragma once
 #include <cuda.h>
@@ -16,43 +15,45 @@
 #define __device__
 #endif
-namespace faiss { namespace gpu { namespace utils {
+namespace faiss {
+namespace gpu {
+namespace utils {
 template <typename U, typename V>
 constexpr __host__ __device__ auto divDown(U a, V b) -> decltype(a + b) {
-  return (a / b);
+    return (a / b);
 }
 template <typename U, typename V>
 constexpr __host__ __device__ auto divUp(U a, V b) -> decltype(a + b) {
-  return (a + b - 1) / b;
+    return (a + b - 1) / b;
 }
 template <typename U, typename V>
 constexpr __host__ __device__ auto roundDown(U a, V b) -> decltype(a + b) {
-  return divDown(a, b) * b;
+    return divDown(a, b) * b;
 }
 template <typename U, typename V>
 constexpr __host__ __device__ auto roundUp(U a, V b) -> decltype(a + b) {
-  return divUp(a, b) * b;
+    return divUp(a, b) * b;
 }
 template <class T>
 constexpr __host__ __device__ T pow(T n, T power) {
-  return (power > 0 ? n * pow(n, power - 1) : 1);
+    return (power > 0 ? n * pow(n, power - 1) : 1);
 }
 template <class T>
 constexpr __host__ __device__ T pow2(T n) {
-  return pow(2, (T) n);
+    return pow(2, (T)n);
 }
 static_assert(pow2(8) == 256, "pow2");
 template <typename T>
 constexpr __host__ __device__ int log2(T n, int p = 0) {
-  return (n <= 1) ? p : log2(n / 2, p + 1);
+    return (n <= 1) ? p : log2(n / 2, p + 1);
 }
 static_assert(log2(2) == 1, "log2");
@@ -61,7 +62,7 @@ static_assert(log2(4) == 2, "log2");
 template <typename T>
 constexpr __host__ __device__ bool isPowerOf2(T v) {
-  return (v && !(v & (v - 1)));
+    return (v && !(v & (v - 1)));
 }
 static_assert(isPowerOf2(2048), "isPowerOf2");
@@ -69,7 +70,7 @@ static_assert(!isPowerOf2(3333), "isPowerOf2");
 template <typename T>
 constexpr __host__ __device__ T nextHighestPowerOf2(T v) {
-  return (isPowerOf2(v) ? (T) 2 * v : ((T) 1 << (log2(v) + 1)));
+    return (isPowerOf2(v) ? (T)2 * v : ((T)1 << (log2(v) + 1)));
 }
 static_assert(nextHighestPowerOf2(1) == 2, "nextHighestPowerOf2");
@@ -81,9 +82,13 @@ static_assert(nextHighestPowerOf2(15) == 16, "nextHighestPowerOf2");
 static_assert(nextHighestPowerOf2(16) == 32, "nextHighestPowerOf2");
 static_assert(nextHighestPowerOf2(17) == 32, "nextHighestPowerOf2");
-static_assert(nextHighestPowerOf2(1536000000u) == 2147483648u,
-              "nextHighestPowerOf2");
-static_assert(nextHighestPowerOf2((size_t) 2147483648ULL) ==
-              (size_t) 4294967296ULL, "nextHighestPowerOf2");
+static_assert(
+        nextHighestPowerOf2(1536000000u) == 2147483648u,
+        "nextHighestPowerOf2");
+static_assert(
+        nextHighestPowerOf2((size_t)2147483648ULL) == (size_t)4294967296ULL,
+        "nextHighestPowerOf2");
-} } } // namespace
+} // namespace utils
+} // namespace gpu
+} // namespace faiss

data/vendor/faiss/faiss/gpu/utils/Timer.cpp CHANGED Viewed

@@ -5,55 +5,51 @@
  * LICENSE file in the root directory of this source tree.
  */
-#include <faiss/gpu/utils/Timer.h>
 #include <faiss/gpu/utils/DeviceUtils.h>
+#include <faiss/gpu/utils/Timer.h>
 #include <faiss/impl/FaissAssert.h>
 #include <chrono>
-namespace faiss { namespace gpu {
+namespace faiss {
+namespace gpu {
 KernelTimer::KernelTimer(cudaStream_t stream)
-    : startEvent_(0),
-      stopEvent_(0),
-      stream_(stream),
-      valid_(true) {
-  CUDA_VERIFY(cudaEventCreate(&startEvent_));
-  CUDA_VERIFY(cudaEventCreate(&stopEvent_));
-  CUDA_VERIFY(cudaEventRecord(startEvent_, stream_));
+        : startEvent_(0), stopEvent_(0), stream_(stream), valid_(true) {
+    CUDA_VERIFY(cudaEventCreate(&startEvent_));
+    CUDA_VERIFY(cudaEventCreate(&stopEvent_));
+    CUDA_VERIFY(cudaEventRecord(startEvent_, stream_));
 }
 KernelTimer::~KernelTimer() {
-  CUDA_VERIFY(cudaEventDestroy(startEvent_));
-  CUDA_VERIFY(cudaEventDestroy(stopEvent_));
+    CUDA_VERIFY(cudaEventDestroy(startEvent_));
+    CUDA_VERIFY(cudaEventDestroy(stopEvent_));
 }
-float
-KernelTimer::elapsedMilliseconds() {
-  FAISS_ASSERT(valid_);
+float KernelTimer::elapsedMilliseconds() {
+    FAISS_ASSERT(valid_);
-  CUDA_VERIFY(cudaEventRecord(stopEvent_, stream_));
-  CUDA_VERIFY(cudaEventSynchronize(stopEvent_));
+    CUDA_VERIFY(cudaEventRecord(stopEvent_, stream_));
+    CUDA_VERIFY(cudaEventSynchronize(stopEvent_));
-  auto time = 0.0f;
-  CUDA_VERIFY(cudaEventElapsedTime(&time, startEvent_, stopEvent_));
-  valid_ = false;
+    auto time = 0.0f;
+    CUDA_VERIFY(cudaEventElapsedTime(&time, startEvent_, stopEvent_));
+    valid_ = false;
-  return time;
+    return time;
 }
 CpuTimer::CpuTimer() {
-  start_ = std::chrono::steady_clock::now();
+    start_ = std::chrono::steady_clock::now();
 }
-float
-CpuTimer::elapsedMilliseconds() {
-  auto end = std::chrono::steady_clock::now();
+float CpuTimer::elapsedMilliseconds() {
+    auto end = std::chrono::steady_clock::now();
-  std::chrono::duration<float, std::milli> duration = end - start_;
+    std::chrono::duration<float, std::milli> duration = end - start_;
-  return duration.count();
+    return duration.count();
 }
-} } // namespace
+} // namespace gpu
+} // namespace faiss

data/vendor/faiss/faiss/gpu/utils/Timer.h CHANGED Viewed

@@ -5,48 +5,49 @@
  * LICENSE file in the root directory of this source tree.
  */
 #pragma once
 #include <cuda_runtime.h>
 #include <chrono>
-namespace faiss { namespace gpu {
+namespace faiss {
+namespace gpu {
 /// Utility class for timing execution of a kernel
 class KernelTimer {
- public:
-  /// Constructor starts the timer and adds an event into the current
-  /// device stream
-  KernelTimer(cudaStream_t stream = 0);
-  /// Destructor releases event resources
-  ~KernelTimer();
-  /// Adds a stop event then synchronizes on the stop event to get the
-  /// actual GPU-side kernel timings for any kernels launched in the
-  /// current stream. Returns the number of milliseconds elapsed.
-  /// Can only be called once.
-  float elapsedMilliseconds();
- private:
-  cudaEvent_t startEvent_;
-  cudaEvent_t stopEvent_;
-  cudaStream_t stream_;
-  bool valid_;
+   public:
+    /// Constructor starts the timer and adds an event into the current
+    /// device stream
+    KernelTimer(cudaStream_t stream = 0);
+    /// Destructor releases event resources
+    ~KernelTimer();
+    /// Adds a stop event then synchronizes on the stop event to get the
+    /// actual GPU-side kernel timings for any kernels launched in the
+    /// current stream. Returns the number of milliseconds elapsed.
+    /// Can only be called once.
+    float elapsedMilliseconds();
+   private:
+    cudaEvent_t startEvent_;
+    cudaEvent_t stopEvent_;
+    cudaStream_t stream_;
+    bool valid_;
 };
 /// CPU wallclock elapsed timer
 class CpuTimer {
- public:
-  /// Creates and starts a new timer
-  CpuTimer();
+   public:
+    /// Creates and starts a new timer
+    CpuTimer();
-  /// Returns elapsed time in milliseconds
-  float elapsedMilliseconds();
+    /// Returns elapsed time in milliseconds
+    float elapsedMilliseconds();
- private:
-  std::chrono::time_point<std::chrono::steady_clock> start_;
+   private:
+    std::chrono::time_point<std::chrono::steady_clock> start_;
 };
-} } // namespace
+} // namespace gpu
+} // namespace faiss

data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp ADDED Viewed

@@ -0,0 +1,270 @@
+/**
+ * Copyright (c) Facebook, Inc. and its affiliates.
+ *
+ * This source code is licensed under the MIT license found in the
+ * LICENSE file in the root directory of this source tree.
+ */
+// -*- c++ -*-
+#include <faiss/impl/AdditiveQuantizer.h>
+#include <faiss/impl/FaissAssert.h>
+#include <cstddef>
+#include <cstdio>
+#include <cstring>
+#include <memory>
+#include <random>
+#include <algorithm>
+#include <faiss/utils/Heap.h>
+#include <faiss/utils/distances.h>
+#include <faiss/utils/hamming.h> // BitstringWriter
+#include <faiss/utils/utils.h>
+extern "C" {
+// general matrix multiplication
+int sgemm_(
+        const char* transa,
+        const char* transb,
+        FINTEGER* m,
+        FINTEGER* n,
+        FINTEGER* k,
+        const float* alpha,
+        const float* a,
+        FINTEGER* lda,
+        const float* b,
+        FINTEGER* ldb,
+        float* beta,
+        float* c,
+        FINTEGER* ldc);
+}
+namespace {
+// c and a and b can overlap
+void fvec_add(size_t d, const float* a, const float* b, float* c) {
+    for (size_t i = 0; i < d; i++) {
+        c[i] = a[i] + b[i];
+    }
+}
+void fvec_add(size_t d, const float* a, float b, float* c) {
+    for (size_t i = 0; i < d; i++) {
+        c[i] = a[i] + b;
+    }
+}
+} // namespace
+namespace faiss {
+void AdditiveQuantizer::set_derived_values() {
+    tot_bits = 0;
+    is_byte_aligned = true;
+    codebook_offsets.resize(M + 1, 0);
+    for (int i = 0; i < M; i++) {
+        int nbit = nbits[i];
+        size_t k = 1 << nbit;
+        codebook_offsets[i + 1] = codebook_offsets[i] + k;
+        tot_bits += nbit;
+        if (nbit % 8 != 0) {
+            is_byte_aligned = false;
+        }
+    }
+    total_codebook_size = codebook_offsets[M];
+    // convert bits to bytes
+    code_size = (tot_bits + 7) / 8;
+}
+void AdditiveQuantizer::pack_codes(
+        size_t n,
+        const int32_t* codes,
+        uint8_t* packed_codes,
+        int64_t ld_codes) const {
+    if (ld_codes == -1) {
+        ld_codes = M;
+    }
+#pragma omp parallel for if (n > 1000)
+    for (int64_t i = 0; i < n; i++) {
+        const int32_t* codes1 = codes + i * ld_codes;
+        BitstringWriter bsw(packed_codes + i * code_size, code_size);
+        for (int m = 0; m < M; m++) {
+            bsw.write(codes1[m], nbits[m]);
+        }
+    }
+}
+void AdditiveQuantizer::decode(const uint8_t* code, float* x, size_t n) const {
+    FAISS_THROW_IF_NOT_MSG(
+            is_trained, "The additive quantizer is not trained yet.");
+    // standard additive quantizer decoding
+#pragma omp parallel for if (n > 1000)
+    for (int64_t i = 0; i < n; i++) {
+        BitstringReader bsr(code + i * code_size, code_size);
+        float* xi = x + i * d;
+        for (int m = 0; m < M; m++) {
+            int idx = bsr.read(nbits[m]);
+            const float* c = codebooks.data() + d * (codebook_offsets[m] + idx);
+            if (m == 0) {
+                memcpy(xi, c, sizeof(*x) * d);
+            } else {
+                fvec_add(d, xi, c, xi);
+            }
+        }
+    }
+}
+AdditiveQuantizer::~AdditiveQuantizer() {}
+/****************************************************************************
+ * Support for fast distance computations and search with additive quantizer
+ ****************************************************************************/
+void AdditiveQuantizer::compute_centroid_norms(float* norms) const {
+    size_t ntotal = (size_t)1 << tot_bits;
+    // TODO: make tree of partial sums
+#pragma omp parallel
+    {
+        std::vector<float> tmp(d);
+#pragma omp for
+        for (int64_t i = 0; i < ntotal; i++) {
+            decode_64bit(i, tmp.data());
+            norms[i] = fvec_norm_L2sqr(tmp.data(), d);
+        }
+    }
+}
+void AdditiveQuantizer::decode_64bit(idx_t bits, float* xi) const {
+    for (int m = 0; m < M; m++) {
+        idx_t idx = bits & (((size_t)1 << nbits[m]) - 1);
+        bits >>= nbits[m];
+        const float* c = codebooks.data() + d * (codebook_offsets[m] + idx);
+        if (m == 0) {
+            memcpy(xi, c, sizeof(*xi) * d);
+        } else {
+            fvec_add(d, xi, c, xi);
+        }
+    }
+}
+void AdditiveQuantizer::compute_LUT(size_t n, const float* xq, float* LUT)
+        const {
+    // in all cases, it is large matrix multiplication
+    FINTEGER ncenti = total_codebook_size;
+    FINTEGER di = d;
+    FINTEGER nqi = n;
+    float one = 1, zero = 0;
+    sgemm_("Transposed",
+           "Not transposed",
+           &ncenti,
+           &nqi,
+           &di,
+           &one,
+           codebooks.data(),
+           &di,
+           xq,
+           &di,
+           &zero,
+           LUT,
+           &ncenti);
+}
+namespace {
+void compute_inner_prod_with_LUT(
+        const AdditiveQuantizer& aq,
+        const float* LUT,
+        float* ips) {
+    size_t prev_size = 1;
+    for (int m = 0; m < aq.M; m++) {
+        const float* LUTm = LUT + aq.codebook_offsets[m];
+        int nb = aq.nbits[m];
+        size_t nc = (size_t)1 << nb;
+        if (m == 0) {
+            memcpy(ips, LUT, sizeof(*ips) * nc);
+        } else {
+            for (int64_t i = nc - 1; i >= 0; i--) {
+                float v = LUTm[i];
+                fvec_add(prev_size, ips, v, ips + i * prev_size);
+            }
+        }
+        prev_size *= nc;
+    }
+}
+} // anonymous namespace
+void AdditiveQuantizer::knn_exact_inner_product(
+        idx_t n,
+        const float* xq,
+        idx_t k,
+        float* distances,
+        idx_t* labels) const {
+    std::unique_ptr<float[]> LUT(new float[n * total_codebook_size]);
+    compute_LUT(n, xq, LUT.get());
+    size_t ntotal = (size_t)1 << tot_bits;
+#pragma omp parallel if (n > 100)
+    {
+        std::vector<float> dis(ntotal);
+#pragma omp for
+        for (idx_t i = 0; i < n; i++) {
+            const float* LUTi = LUT.get() + i * total_codebook_size;
+            compute_inner_prod_with_LUT(*this, LUTi, dis.data());
+            float* distances_i = distances + i * k;
+            idx_t* labels_i = labels + i * k;
+            minheap_heapify(k, distances_i, labels_i);
+            minheap_addn(k, distances_i, labels_i, dis.data(), nullptr, ntotal);
+            minheap_reorder(k, distances_i, labels_i);
+        }
+    }
+}
+void AdditiveQuantizer::knn_exact_L2(
+        idx_t n,
+        const float* xq,
+        idx_t k,
+        float* distances,
+        idx_t* labels,
+        const float* norms) const {
+    std::unique_ptr<float[]> LUT(new float[n * total_codebook_size]);
+    compute_LUT(n, xq, LUT.get());
+    std::unique_ptr<float[]> q_norms(new float[n]);
+    fvec_norms_L2sqr(q_norms.get(), xq, d, n);
+    size_t ntotal = (size_t)1 << tot_bits;
+#pragma omp parallel if (n > 100)
+    {
+        std::vector<float> dis(ntotal);
+#pragma omp for
+        for (idx_t i = 0; i < n; i++) {
+            const float* LUTi = LUT.get() + i * total_codebook_size;
+            float* distances_i = distances + i * k;
+            idx_t* labels_i = labels + i * k;
+            compute_inner_prod_with_LUT(*this, LUTi, dis.data());
+            // update distances using
+            // ||x - y||^2 = ||x||^2 + ||y||^2 - 2 * <x,y>
+            maxheap_heapify(k, distances_i, labels_i);
+            for (idx_t j = 0; j < ntotal; j++) {
+                float disj = q_norms[i] + norms[j] - 2 * dis[j];
+                if (disj < distances_i[0]) {
+                    heap_replace_top<CMax<float, int64_t>>(
+                            k, distances_i, labels_i, disj, j);
+                }
+            }
+            maxheap_reorder(k, distances_i, labels_i);
+        }
+    }
+}
+} // namespace faiss