RubyGems - faiss - Versions diffs - 0.2.0 → 0.2.4 - Mend

faiss 0.2.0 → 0.2.4

Files changed (215) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +16 -0
data/LICENSE.txt +1 -1
data/README.md +7 -7
data/ext/faiss/extconf.rb +6 -3
data/ext/faiss/numo.hpp +4 -4
data/ext/faiss/utils.cpp +1 -1
data/ext/faiss/utils.h +1 -1
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +292 -291
data/vendor/faiss/faiss/AutoTune.h +55 -56
data/vendor/faiss/faiss/Clustering.cpp +365 -194
data/vendor/faiss/faiss/Clustering.h +102 -35
data/vendor/faiss/faiss/IVFlib.cpp +171 -195
data/vendor/faiss/faiss/IVFlib.h +48 -51
data/vendor/faiss/faiss/Index.cpp +85 -103
data/vendor/faiss/faiss/Index.h +54 -48
data/vendor/faiss/faiss/Index2Layer.cpp +126 -224
data/vendor/faiss/faiss/Index2Layer.h +22 -36
data/vendor/faiss/faiss/IndexAdditiveQuantizer.cpp +407 -0
data/vendor/faiss/faiss/IndexAdditiveQuantizer.h +195 -0
data/vendor/faiss/faiss/IndexBinary.cpp +45 -37
data/vendor/faiss/faiss/IndexBinary.h +140 -132
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +73 -53
data/vendor/faiss/faiss/IndexBinaryFlat.h +29 -24
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +46 -43
data/vendor/faiss/faiss/IndexBinaryFromFloat.h +16 -15
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +215 -232
data/vendor/faiss/faiss/IndexBinaryHNSW.h +25 -24
data/vendor/faiss/faiss/IndexBinaryHash.cpp +182 -177
data/vendor/faiss/faiss/IndexBinaryHash.h +41 -34
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +489 -461
data/vendor/faiss/faiss/IndexBinaryIVF.h +97 -68
data/vendor/faiss/faiss/IndexFlat.cpp +115 -176
data/vendor/faiss/faiss/IndexFlat.h +42 -59
data/vendor/faiss/faiss/IndexFlatCodes.cpp +67 -0
data/vendor/faiss/faiss/IndexFlatCodes.h +47 -0
data/vendor/faiss/faiss/IndexHNSW.cpp +372 -348
data/vendor/faiss/faiss/IndexHNSW.h +57 -41
data/vendor/faiss/faiss/IndexIVF.cpp +545 -453
data/vendor/faiss/faiss/IndexIVF.h +169 -118
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.cpp +316 -0
data/vendor/faiss/faiss/IndexIVFAdditiveQuantizer.h +121 -0
data/vendor/faiss/faiss/IndexIVFFlat.cpp +247 -252
data/vendor/faiss/faiss/IndexIVFFlat.h +48 -51
data/vendor/faiss/faiss/IndexIVFPQ.cpp +459 -517
data/vendor/faiss/faiss/IndexIVFPQ.h +75 -67
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +406 -372
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +82 -57
data/vendor/faiss/faiss/IndexIVFPQR.cpp +104 -102
data/vendor/faiss/faiss/IndexIVFPQR.h +33 -28
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +163 -150
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +38 -25
data/vendor/faiss/faiss/IndexLSH.cpp +66 -113
data/vendor/faiss/faiss/IndexLSH.h +20 -38
data/vendor/faiss/faiss/IndexLattice.cpp +42 -56
data/vendor/faiss/faiss/IndexLattice.h +11 -16
data/vendor/faiss/faiss/IndexNNDescent.cpp +229 -0
data/vendor/faiss/faiss/IndexNNDescent.h +72 -0
data/vendor/faiss/faiss/IndexNSG.cpp +301 -0
data/vendor/faiss/faiss/IndexNSG.h +85 -0
data/vendor/faiss/faiss/IndexPQ.cpp +387 -495
data/vendor/faiss/faiss/IndexPQ.h +64 -82
data/vendor/faiss/faiss/IndexPQFastScan.cpp +143 -170
data/vendor/faiss/faiss/IndexPQFastScan.h +46 -32
data/vendor/faiss/faiss/IndexPreTransform.cpp +120 -150
data/vendor/faiss/faiss/IndexPreTransform.h +33 -36
data/vendor/faiss/faiss/IndexRefine.cpp +139 -127
data/vendor/faiss/faiss/IndexRefine.h +32 -23
data/vendor/faiss/faiss/IndexReplicas.cpp +147 -153
data/vendor/faiss/faiss/IndexReplicas.h +62 -56
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +111 -172
data/vendor/faiss/faiss/IndexScalarQuantizer.h +41 -59
data/vendor/faiss/faiss/IndexShards.cpp +256 -240
data/vendor/faiss/faiss/IndexShards.h +85 -73
data/vendor/faiss/faiss/MatrixStats.cpp +112 -97
data/vendor/faiss/faiss/MatrixStats.h +7 -10
data/vendor/faiss/faiss/MetaIndexes.cpp +135 -157
data/vendor/faiss/faiss/MetaIndexes.h +40 -34
data/vendor/faiss/faiss/MetricType.h +7 -7
data/vendor/faiss/faiss/VectorTransform.cpp +654 -475
data/vendor/faiss/faiss/VectorTransform.h +64 -89
data/vendor/faiss/faiss/clone_index.cpp +78 -73
data/vendor/faiss/faiss/clone_index.h +4 -9
data/vendor/faiss/faiss/gpu/GpuAutoTune.cpp +33 -38
data/vendor/faiss/faiss/gpu/GpuAutoTune.h +11 -9
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +198 -171
data/vendor/faiss/faiss/gpu/GpuCloner.h +53 -35
data/vendor/faiss/faiss/gpu/GpuClonerOptions.cpp +12 -14
data/vendor/faiss/faiss/gpu/GpuClonerOptions.h +27 -25
data/vendor/faiss/faiss/gpu/GpuDistance.h +116 -112
data/vendor/faiss/faiss/gpu/GpuFaissAssert.h +1 -2
data/vendor/faiss/faiss/gpu/GpuIcmEncoder.h +60 -0
data/vendor/faiss/faiss/gpu/GpuIndex.h +134 -137
data/vendor/faiss/faiss/gpu/GpuIndexBinaryFlat.h +76 -73
data/vendor/faiss/faiss/gpu/GpuIndexFlat.h +173 -162
data/vendor/faiss/faiss/gpu/GpuIndexIVF.h +67 -64
data/vendor/faiss/faiss/gpu/GpuIndexIVFFlat.h +89 -86
data/vendor/faiss/faiss/gpu/GpuIndexIVFPQ.h +150 -141
data/vendor/faiss/faiss/gpu/GpuIndexIVFScalarQuantizer.h +101 -103
data/vendor/faiss/faiss/gpu/GpuIndicesOptions.h +17 -16
data/vendor/faiss/faiss/gpu/GpuResources.cpp +116 -128
data/vendor/faiss/faiss/gpu/GpuResources.h +182 -186
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +433 -422
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +131 -130
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.cpp +468 -456
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.h +25 -19
data/vendor/faiss/faiss/gpu/impl/RemapIndices.cpp +22 -20
data/vendor/faiss/faiss/gpu/impl/RemapIndices.h +9 -8
data/vendor/faiss/faiss/gpu/perf/IndexWrapper-inl.h +39 -44
data/vendor/faiss/faiss/gpu/perf/IndexWrapper.h +16 -14
data/vendor/faiss/faiss/gpu/perf/PerfClustering.cpp +77 -71
data/vendor/faiss/faiss/gpu/perf/PerfIVFPQAdd.cpp +109 -88
data/vendor/faiss/faiss/gpu/perf/WriteIndex.cpp +75 -64
data/vendor/faiss/faiss/gpu/test/TestCodePacking.cpp +230 -215
data/vendor/faiss/faiss/gpu/test/TestGpuIndexBinaryFlat.cpp +80 -86
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +284 -277
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +416 -416
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +611 -517
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFScalarQuantizer.cpp +166 -164
data/vendor/faiss/faiss/gpu/test/TestGpuMemoryException.cpp +61 -53
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +274 -238
data/vendor/faiss/faiss/gpu/test/TestUtils.h +73 -57
data/vendor/faiss/faiss/gpu/test/demo_ivfpq_indexing_gpu.cpp +47 -50
data/vendor/faiss/faiss/gpu/utils/DeviceUtils.h +79 -72
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.cpp +140 -146
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.h +69 -71
data/vendor/faiss/faiss/gpu/utils/StaticUtils.h +21 -16
data/vendor/faiss/faiss/gpu/utils/Timer.cpp +25 -29
data/vendor/faiss/faiss/gpu/utils/Timer.h +30 -29
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +503 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +175 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +90 -120
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +81 -65
data/vendor/faiss/faiss/impl/FaissAssert.h +73 -58
data/vendor/faiss/faiss/impl/FaissException.cpp +56 -48
data/vendor/faiss/faiss/impl/FaissException.h +41 -29
data/vendor/faiss/faiss/impl/HNSW.cpp +606 -617
data/vendor/faiss/faiss/impl/HNSW.h +179 -200
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +855 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.h +244 -0
data/vendor/faiss/faiss/impl/NNDescent.cpp +487 -0
data/vendor/faiss/faiss/impl/NNDescent.h +154 -0
data/vendor/faiss/faiss/impl/NSG.cpp +679 -0
data/vendor/faiss/faiss/impl/NSG.h +199 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +484 -454
data/vendor/faiss/faiss/impl/PolysemousTraining.h +52 -55
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +26 -47
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +469 -459
data/vendor/faiss/faiss/impl/ProductQuantizer.h +76 -87
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +758 -0
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +188 -0
data/vendor/faiss/faiss/impl/ResultHandler.h +96 -132
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +647 -707
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +48 -46
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +129 -131
data/vendor/faiss/faiss/impl/ThreadedIndex.h +61 -55
data/vendor/faiss/faiss/impl/index_read.cpp +631 -480
data/vendor/faiss/faiss/impl/index_write.cpp +547 -407
data/vendor/faiss/faiss/impl/io.cpp +76 -95
data/vendor/faiss/faiss/impl/io.h +31 -41
data/vendor/faiss/faiss/impl/io_macros.h +60 -29
data/vendor/faiss/faiss/impl/kmeans1d.cpp +301 -0
data/vendor/faiss/faiss/impl/kmeans1d.h +48 -0
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +137 -186
data/vendor/faiss/faiss/impl/lattice_Zn.h +40 -51
data/vendor/faiss/faiss/impl/platform_macros.h +29 -8
data/vendor/faiss/faiss/impl/pq4_fast_scan.cpp +77 -124
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +39 -48
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +41 -52
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_qbs.cpp +80 -117
data/vendor/faiss/faiss/impl/simd_result_handlers.h +109 -137
data/vendor/faiss/faiss/index_factory.cpp +619 -397
data/vendor/faiss/faiss/index_factory.h +8 -6
data/vendor/faiss/faiss/index_io.h +23 -26
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +67 -75
data/vendor/faiss/faiss/invlists/BlockInvertedLists.h +22 -24
data/vendor/faiss/faiss/invlists/DirectMap.cpp +96 -112
data/vendor/faiss/faiss/invlists/DirectMap.h +29 -33
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +307 -364
data/vendor/faiss/faiss/invlists/InvertedLists.h +151 -151
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +29 -34
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.h +17 -18
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +257 -293
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +50 -45
data/vendor/faiss/faiss/python/python_callbacks.cpp +23 -26
data/vendor/faiss/faiss/python/python_callbacks.h +9 -16
data/vendor/faiss/faiss/utils/AlignedTable.h +79 -44
data/vendor/faiss/faiss/utils/Heap.cpp +40 -48
data/vendor/faiss/faiss/utils/Heap.h +186 -209
data/vendor/faiss/faiss/utils/WorkerThread.cpp +67 -76
data/vendor/faiss/faiss/utils/WorkerThread.h +32 -33
data/vendor/faiss/faiss/utils/distances.cpp +305 -312
data/vendor/faiss/faiss/utils/distances.h +170 -122
data/vendor/faiss/faiss/utils/distances_simd.cpp +498 -508
data/vendor/faiss/faiss/utils/extra_distances-inl.h +117 -0
data/vendor/faiss/faiss/utils/extra_distances.cpp +113 -232
data/vendor/faiss/faiss/utils/extra_distances.h +30 -29
data/vendor/faiss/faiss/utils/hamming-inl.h +260 -209
data/vendor/faiss/faiss/utils/hamming.cpp +375 -469
data/vendor/faiss/faiss/utils/hamming.h +62 -85
data/vendor/faiss/faiss/utils/ordered_key_value.h +16 -18
data/vendor/faiss/faiss/utils/partitioning.cpp +393 -318
data/vendor/faiss/faiss/utils/partitioning.h +26 -21
data/vendor/faiss/faiss/utils/quantize_lut.cpp +78 -66
data/vendor/faiss/faiss/utils/quantize_lut.h +22 -20
data/vendor/faiss/faiss/utils/random.cpp +39 -63
data/vendor/faiss/faiss/utils/random.h +13 -16
data/vendor/faiss/faiss/utils/simdlib.h +4 -2
data/vendor/faiss/faiss/utils/simdlib_avx2.h +88 -85
data/vendor/faiss/faiss/utils/simdlib_emulated.h +226 -165
data/vendor/faiss/faiss/utils/simdlib_neon.h +832 -0
data/vendor/faiss/faiss/utils/utils.cpp +304 -287
data/vendor/faiss/faiss/utils/utils.h +54 -49
metadata +29 -4

data/vendor/faiss/faiss/Clustering.cpp CHANGED Viewed

@@ -8,6 +8,7 @@
 // -*- c++ -*-
 #include <faiss/Clustering.h>
+#include <faiss/VectorTransform.h>
 #include <faiss/impl/AuxIndexStructures.h>
 #include <cinttypes>
@@ -17,100 +18,101 @@
 #include <omp.h>
-#include <faiss/utils/utils.h>
-#include <faiss/utils/random.h>
-#include <faiss/utils/distances.h>
-#include <faiss/impl/FaissAssert.h>
 #include <faiss/IndexFlat.h>
+#include <faiss/impl/FaissAssert.h>
+#include <faiss/impl/kmeans1d.h>
+#include <faiss/utils/distances.h>
+#include <faiss/utils/random.h>
+#include <faiss/utils/utils.h>
 namespace faiss {
-ClusteringParameters::ClusteringParameters ():
-    niter(25),
-    nredo(1),
-    verbose(false),
-    spherical(false),
-    int_centroids(false),
-    update_index(false),
-    frozen_centroids(false),
-    min_points_per_centroid(39),
-    max_points_per_centroid(256),
-    seed(1234),
-    decode_block_size(32768)
-{}
+ClusteringParameters::ClusteringParameters()
+        : niter(25),
+          nredo(1),
+          verbose(false),
+          spherical(false),
+          int_centroids(false),
+          update_index(false),
+          frozen_centroids(false),
+          min_points_per_centroid(39),
+          max_points_per_centroid(256),
+          seed(1234),
+          decode_block_size(32768) {}
 // 39 corresponds to 10000 / 256 -> to avoid warnings on PQ tests with randu10k
+Clustering::Clustering(int d, int k) : d(d), k(k) {}
-Clustering::Clustering (int d, int k):
-    d(d), k(k) {}
-Clustering::Clustering (int d, int k, const ClusteringParameters &cp):
-    ClusteringParameters (cp), d(d), k(k) {}
+Clustering::Clustering(int d, int k, const ClusteringParameters& cp)
+        : ClusteringParameters(cp), d(d), k(k) {}
-static double imbalance_factor (int n, int k, int64_t *assign) {
+static double imbalance_factor(int n, int k, int64_t* assign) {
     std::vector<int> hist(k, 0);
     for (int i = 0; i < n; i++)
         hist[assign[i]]++;
     double tot = 0, uf = 0;
-    for (int i = 0 ; i < k ; i++) {
+    for (int i = 0; i < k; i++) {
         tot += hist[i];
-        uf += hist[i] * (double) hist[i];
+        uf += hist[i] * (double)hist[i];
     }
     uf = uf * k / (tot * tot);
     return uf;
 }
-void Clustering::post_process_centroids ()
-{
+void Clustering::post_process_centroids() {
     if (spherical) {
-        fvec_renorm_L2 (d, k, centroids.data());
+        fvec_renorm_L2(d, k, centroids.data());
     }
     if (int_centroids) {
         for (size_t i = 0; i < centroids.size(); i++)
-            centroids[i] = roundf (centroids[i]);
+            centroids[i] = roundf(centroids[i]);
     }
 }
-void Clustering::train (idx_t nx, const float *x_in, Index & index,
-                        const float *weights) {
-    train_encoded (nx, reinterpret_cast<const uint8_t *>(x_in), nullptr,
-                   index, weights);
+void Clustering::train(
+        idx_t nx,
+        const float* x_in,
+        Index& index,
+        const float* weights) {
+    train_encoded(
+            nx,
+            reinterpret_cast<const uint8_t*>(x_in),
+            nullptr,
+            index,
+            weights);
 }
 namespace {
 using idx_t = Clustering::idx_t;
 idx_t subsample_training_set(
-          const Clustering &clus, idx_t nx, const uint8_t *x,
-          size_t line_size, const float * weights,
-          uint8_t **x_out,
-          float **weights_out
-)
-{
+        const Clustering& clus,
+        idx_t nx,
+        const uint8_t* x,
+        size_t line_size,
+        const float* weights,
+        uint8_t** x_out,
+        float** weights_out) {
     if (clus.verbose) {
         printf("Sampling a subset of %zd / %" PRId64 " for training\n",
-               clus.k * clus.max_points_per_centroid, nx);
+               clus.k * clus.max_points_per_centroid,
+               nx);
     }
-    std::vector<int> perm (nx);
-    rand_perm (perm.data (), nx, clus.seed);
+    std::vector<int> perm(nx);
+    rand_perm(perm.data(), nx, clus.seed);
     nx = clus.k * clus.max_points_per_centroid;
-    uint8_t * x_new = new uint8_t [nx * line_size];
+    uint8_t* x_new = new uint8_t[nx * line_size];
     *x_out = x_new;
     for (idx_t i = 0; i < nx; i++) {
-        memcpy (x_new + i * line_size, x + perm[i] * line_size, line_size);
+        memcpy(x_new + i * line_size, x + perm[i] * line_size, line_size);
     }
     if (weights) {
-        float *weights_new = new float[nx];
+        float* weights_new = new float[nx];
         for (idx_t i = 0; i < nx; i++) {
             weights_new[i] = weights[perm[i]];
         }
@@ -134,20 +136,23 @@ idx_t subsample_training_set(
  *
  */
-void compute_centroids (size_t d, size_t k, size_t n,
-                       size_t k_frozen,
-                       const uint8_t * x, const Index *codec,
-                       const int64_t * assign,
-                       const float * weights,
-                       float * hassign,
-                       float * centroids)
-{
+void compute_centroids(
+        size_t d,
+        size_t k,
+        size_t n,
+        size_t k_frozen,
+        const uint8_t* x,
+        const Index* codec,
+        const int64_t* assign,
+        const float* weights,
+        float* hassign,
+        float* centroids) {
     k -= k_frozen;
     centroids += k_frozen * d;
-    memset (centroids, 0, sizeof(*centroids) * d * k);
+    memset(centroids, 0, sizeof(*centroids) * d * k);
-    size_t line_size = codec ? codec->sa_code_size() : d * sizeof (float);
+    size_t line_size = codec ? codec->sa_code_size() : d * sizeof(float);
 #pragma omp parallel
     {
@@ -157,20 +162,20 @@ void compute_centroids (size_t d, size_t k, size_t n,
         // this thread is taking care of centroids c0:c1
         size_t c0 = (k * rank) / nt;
         size_t c1 = (k * (rank + 1)) / nt;
-        std::vector<float> decode_buffer (d);
+        std::vector<float> decode_buffer(d);
         for (size_t i = 0; i < n; i++) {
             int64_t ci = assign[i];
-            assert (ci >= 0 && ci < k + k_frozen);
+            assert(ci >= 0 && ci < k + k_frozen);
             ci -= k_frozen;
-            if (ci >= c0 && ci < c1)  {
-                float * c = centroids + ci * d;
-                const float * xi;
+            if (ci >= c0 && ci < c1) {
+                float* c = centroids + ci * d;
+                const float* xi;
                 if (!codec) {
                     xi = reinterpret_cast<const float*>(x + i * line_size);
                 } else {
-                    float *xif = decode_buffer.data();
-                    codec->sa_decode (1, x + i * line_size, xif);
+                    float* xif = decode_buffer.data();
+                    codec->sa_decode(1, x + i * line_size, xif);
                     xi = xif;
                 }
                 if (weights) {
@@ -187,7 +192,6 @@ void compute_centroids (size_t d, size_t k, size_t n,
                 }
             }
         }
     }
 #pragma omp parallel for
@@ -196,12 +200,11 @@ void compute_centroids (size_t d, size_t k, size_t n,
             continue;
         }
         float norm = 1 / hassign[ci];
-        float * c = centroids + ci * d;
+        float* c = centroids + ci * d;
         for (size_t j = 0; j < d; j++) {
             c[j] *= norm;
         }
     }
 }
 // a bit above machine epsilon for float16
@@ -214,29 +217,33 @@ void compute_centroids (size_t d, size_t k, size_t n,
  *
  * @return           nb of spliting operations (larger is worse)
  */
-int split_clusters (size_t d, size_t k, size_t n,
-                    size_t k_frozen,
-                    float * hassign,
-                    float * centroids)
-{
+int split_clusters(
+        size_t d,
+        size_t k,
+        size_t n,
+        size_t k_frozen,
+        float* hassign,
+        float* centroids) {
     k -= k_frozen;
     centroids += k_frozen * d;
     /* Take care of void clusters */
     size_t nsplit = 0;
-    RandomGenerator rng (1234);
+    RandomGenerator rng(1234);
     for (size_t ci = 0; ci < k; ci++) {
         if (hassign[ci] == 0) { /* need to redefine a centroid */
             size_t cj;
             for (cj = 0; 1; cj = (cj + 1) % k) {
                 /* probability to pick this cluster for split */
-                float p = (hassign[cj] - 1.0) / (float) (n - k);
-                float r = rng.rand_float ();
+                float p = (hassign[cj] - 1.0) / (float)(n - k);
+                float r = rng.rand_float();
                 if (r < p) {
                     break; /* found our cluster to be split */
                 }
             }
-            memcpy (centroids+ci*d, centroids+cj*d, sizeof(*centroids) * d);
+            memcpy(centroids + ci * d,
+                   centroids + cj * d,
+                   sizeof(*centroids) * d);
             /* small symmetric pertubation */
             for (size_t j = 0; j < d; j++) {
@@ -257,30 +264,35 @@ int split_clusters (size_t d, size_t k, size_t n,
     }
     return nsplit;
 }
-};
-void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
-                                const Index * codec, Index & index,
-                                const float *weights) {
-    FAISS_THROW_IF_NOT_FMT (nx >= k,
-             "Number of training points (%" PRId64 ") should be at least "
-             "as large as number of clusters (%zd)", nx, k);
-    FAISS_THROW_IF_NOT_FMT ((!codec || codec->d == d),
-             "Codec dimension %d not the same as data dimension %d",
-             int(codec->d), int(d));
-    FAISS_THROW_IF_NOT_FMT (index.d == d,
+}; // namespace
+void Clustering::train_encoded(
+        idx_t nx,
+        const uint8_t* x_in,
+        const Index* codec,
+        Index& index,
+        const float* weights) {
+    FAISS_THROW_IF_NOT_FMT(
+            nx >= k,
+            "Number of training points (%" PRId64
+            ") should be at least "
+            "as large as number of clusters (%zd)",
+            nx,
+            k);
+    FAISS_THROW_IF_NOT_FMT(
+            (!codec || codec->d == d),
+            "Codec dimension %d not the same as data dimension %d",
+            int(codec->d),
+            int(d));
+    FAISS_THROW_IF_NOT_FMT(
+            index.d == d,
             "Index dimension %d not the same as data dimension %d",
-            int(index.d), int(d));
+            int(index.d),
+            int(d));
     double t0 = getmillisecs();
@@ -288,67 +300,78 @@ void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
         // Check for NaNs in input data. Normally it is the user's
         // responsibility, but it may spare us some hard-to-debug
         // reports.
-        const float *x = reinterpret_cast<const float *>(x_in);
+        const float* x = reinterpret_cast<const float*>(x_in);
         for (size_t i = 0; i < nx * d; i++) {
-            FAISS_THROW_IF_NOT_MSG (std::isfinite (x[i]),
-                                    "input contains NaN's or Inf's");
+            FAISS_THROW_IF_NOT_MSG(
+                    std::isfinite(x[i]), "input contains NaN's or Inf's");
         }
     }
-    const uint8_t *x = x_in;
-    std::unique_ptr<uint8_t []> del1;
-    std::unique_ptr<float []> del3;
+    const uint8_t* x = x_in;
+    std::unique_ptr<uint8_t[]> del1;
+    std::unique_ptr<float[]> del3;
     size_t line_size = codec ? codec->sa_code_size() : sizeof(float) * d;
     if (nx > k * max_points_per_centroid) {
-        uint8_t *x_new;
-        float *weights_new;
-        nx = subsample_training_set (*this, nx, x, line_size, weights,
-                                &x_new, &weights_new);
-        del1.reset (x_new); x = x_new;
-        del3.reset (weights_new); weights = weights_new;
+        uint8_t* x_new;
+        float* weights_new;
+        nx = subsample_training_set(
+                *this, nx, x, line_size, weights, &x_new, &weights_new);
+        del1.reset(x_new);
+        x = x_new;
+        del3.reset(weights_new);
+        weights = weights_new;
     } else if (nx < k * min_points_per_centroid) {
-        fprintf (stderr,
-                 "WARNING clustering %" PRId64 " points to %zd centroids: "
-                 "please provide at least %" PRId64 " training points\n",
-                 nx, k, idx_t(k) * min_points_per_centroid);
+        fprintf(stderr,
+                "WARNING clustering %" PRId64
+                " points to %zd centroids: "
+                "please provide at least %" PRId64 " training points\n",
+                nx,
+                k,
+                idx_t(k) * min_points_per_centroid);
     }
     if (nx == k) {
         // this is a corner case, just copy training set to clusters
         if (verbose) {
-            printf("Number of training points (%" PRId64 ") same as number of "
-                   "clusters, just copying\n", nx);
+            printf("Number of training points (%" PRId64
+                   ") same as number of "
+                   "clusters, just copying\n",
+                   nx);
         }
-        centroids.resize (d * k);
+        centroids.resize(d * k);
         if (!codec) {
-            memcpy (centroids.data(), x_in, sizeof (float) * d * k);
+            memcpy(centroids.data(), x_in, sizeof(float) * d * k);
         } else {
-            codec->sa_decode (nx, x_in, centroids.data());
+            codec->sa_decode(nx, x_in, centroids.data());
         }
         // one fake iteration...
-        ClusteringIterationStats stats = { 0.0, 0.0, 0.0, 1.0, 0 };
-        iteration_stats.push_back (stats);
+        ClusteringIterationStats stats = {0.0, 0.0, 0.0, 1.0, 0};
+        iteration_stats.push_back(stats);
         index.reset();
         index.add(k, centroids.data());
         return;
     }
     if (verbose) {
-        printf("Clustering %" PRId64 " points in %zdD to %zd clusters, "
+        printf("Clustering %" PRId64
+               " points in %zdD to %zd clusters, "
                "redo %d times, %d iterations\n",
-               nx, d, k, nredo, niter);
+               nx,
+               d,
+               k,
+               nredo,
+               niter);
         if (codec) {
             printf("Input data encoded in %zd bytes per vector\n",
-                   codec->sa_code_size ());
+                   codec->sa_code_size());
         }
     }
-    std::unique_ptr<idx_t []> assign(new idx_t[nx]);
-    std::unique_ptr<float []> dis(new float[nx]);
+    std::unique_ptr<idx_t[]> assign(new idx_t[nx]);
+    std::unique_ptr<float[]> dis(new float[nx]);
     // remember best iteration for redo
     bool lower_is_better = index.metric_type != METRIC_INNER_PRODUCT;
@@ -358,52 +381,49 @@ void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
     // support input centroids
-    FAISS_THROW_IF_NOT_MSG (
-       centroids.size() % d == 0,
-       "size of provided input centroids not a multiple of dimension"
-    );
+    FAISS_THROW_IF_NOT_MSG(
+            centroids.size() % d == 0,
+            "size of provided input centroids not a multiple of dimension");
     size_t n_input_centroids = centroids.size() / d;
     if (verbose && n_input_centroids > 0) {
-        printf ("  Using %zd centroids provided as input (%sfrozen)\n",
-                n_input_centroids, frozen_centroids ? "" : "not ");
+        printf("  Using %zd centroids provided as input (%sfrozen)\n",
+               n_input_centroids,
+               frozen_centroids ? "" : "not ");
     }
     double t_search_tot = 0;
     if (verbose) {
-        printf("  Preprocessing in %.2f s\n",
-               (getmillisecs() - t0) / 1000.);
+        printf("  Preprocessing in %.2f s\n", (getmillisecs() - t0) / 1000.);
     }
     t0 = getmillisecs();
     // temporary buffer to decode vectors during the optimization
-    std::vector<float> decode_buffer
-        (codec ? d * decode_block_size : 0);
+    std::vector<float> decode_buffer(codec ? d * decode_block_size : 0);
     for (int redo = 0; redo < nredo; redo++) {
         if (verbose && nredo > 1) {
             printf("Outer iteration %d / %d\n", redo, nredo);
         }
         // initialize (remaining) centroids with random points from the dataset
-        centroids.resize (d * k);
-        std::vector<int> perm (nx);
+        centroids.resize(d * k);
+        std::vector<int> perm(nx);
-        rand_perm (perm.data(), nx, seed + 1 + redo * 15486557L);
+        rand_perm(perm.data(), nx, seed + 1 + redo * 15486557L);
         if (!codec) {
-            for (int i = n_input_centroids; i < k ; i++) {
-                memcpy (&centroids[i * d], x + perm[i] * line_size, line_size);
+            for (int i = n_input_centroids; i < k; i++) {
+                memcpy(&centroids[i * d], x + perm[i] * line_size, line_size);
             }
         } else {
-            for (int i = n_input_centroids; i < k ; i++) {
-                codec->sa_decode (1, x + perm[i] * line_size, &centroids[i * d]);
+            for (int i = n_input_centroids; i < k; i++) {
+                codec->sa_decode(1, x + perm[i] * line_size, &centroids[i * d]);
             }
         }
-        post_process_centroids ();
+        post_process_centroids();
         // prepare the index
@@ -412,10 +432,10 @@ void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
         }
         if (!index.is_trained) {
-            index.train (k, centroids.data());
+            index.train(k, centroids.data());
         }
-        index.add (k, centroids.data());
+        index.add(k, centroids.data());
         // k-means iterations
@@ -424,18 +444,28 @@ void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
             double t0s = getmillisecs();
             if (!codec) {
-                index.search (nx, reinterpret_cast<const float *>(x), 1,
-                              dis.get(), assign.get());
+                index.search(
+                        nx,
+                        reinterpret_cast<const float*>(x),
+                        1,
+                        dis.get(),
+                        assign.get());
             } else {
                 // search by blocks of decode_block_size vectors
-                size_t code_size = codec->sa_code_size ();
+                size_t code_size = codec->sa_code_size();
                 for (size_t i0 = 0; i0 < nx; i0 += decode_block_size) {
                     size_t i1 = i0 + decode_block_size;
-                    if (i1 > nx) { i1 = nx; }
-                    codec->sa_decode (i1 - i0, x + code_size * i0,
-                                      decode_buffer.data ());
-                    index.search (i1 - i0, decode_buffer.data (), 1,
-                                  dis.get() + i0, assign.get() + i0);
+                    if (i1 > nx) {
+                        i1 = nx;
+                    }
+                    codec->sa_decode(
+                            i1 - i0, x + code_size * i0, decode_buffer.data());
+                    index.search(
+                            i1 - i0,
+                            decode_buffer.data(),
+                            1,
+                            dis.get() + i0,
+                            assign.get() + i0);
                 }
             }
@@ -449,61 +479,71 @@ void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
             }
             // update the centroids
-            std::vector<float> hassign (k);
+            std::vector<float> hassign(k);
             size_t k_frozen = frozen_centroids ? n_input_centroids : 0;
-            compute_centroids (
-                  d, k, nx, k_frozen,
-                  x, codec, assign.get(), weights,
-                  hassign.data(), centroids.data()
-            );
-            int nsplit = split_clusters (
-                  d, k, nx, k_frozen,
-                  hassign.data(), centroids.data()
-            );
+            compute_centroids(
+                    d,
+                    k,
+                    nx,
+                    k_frozen,
+                    x,
+                    codec,
+                    assign.get(),
+                    weights,
+                    hassign.data(),
+                    centroids.data());
+            int nsplit = split_clusters(
+                    d, k, nx, k_frozen, hassign.data(), centroids.data());
             // collect statistics
-            ClusteringIterationStats stats =
-                { obj, (getmillisecs() - t0) / 1000.0,
-                  t_search_tot / 1000,
-                  imbalance_factor (nx, k, assign.get()),
-                  nsplit };
+            ClusteringIterationStats stats = {
+                    obj,
+                    (getmillisecs() - t0) / 1000.0,
+                    t_search_tot / 1000,
+                    imbalance_factor(nx, k, assign.get()),
+                    nsplit};
             iteration_stats.push_back(stats);
             if (verbose) {
-                printf ("  Iteration %d (%.2f s, search %.2f s): "
-                        "objective=%g imbalance=%.3f nsplit=%d       \r",
-                        i, stats.time, stats.time_search, stats.obj,
-                        stats.imbalance_factor, nsplit);
-                fflush (stdout);
+                printf("  Iteration %d (%.2f s, search %.2f s): "
+                       "objective=%g imbalance=%.3f nsplit=%d       \r",
+                       i,
+                       stats.time,
+                       stats.time_search,
+                       stats.obj,
+                       stats.imbalance_factor,
+                       nsplit);
+                fflush(stdout);
             }
-            post_process_centroids ();
+            post_process_centroids();
             // add centroids to index for the next iteration (or for output)
-            index.reset ();
+            index.reset();
             if (update_index) {
-                index.train (k, centroids.data());
+                index.train(k, centroids.data());
             }
-            index.add (k, centroids.data());
-            InterruptCallback::check ();
+            index.add(k, centroids.data());
+            InterruptCallback::check();
         }
-        if (verbose) printf("\n");
+        if (verbose)
+            printf("\n");
         if (nredo > 1) {
             if ((lower_is_better && obj < best_obj) ||
                 (!lower_is_better && obj > best_obj)) {
                 if (verbose) {
-                    printf ("Objective improved: keep new clusters\n");
+                    printf("Objective improved: keep new clusters\n");
                 }
                 best_centroids = centroids;
                 best_iteration_stats = iteration_stats;
                 best_obj = obj;
             }
-            index.reset ();
+            index.reset();
         }
     }
     if (nredo > 1) {
@@ -512,20 +552,151 @@ void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
         index.reset();
         index.add(k, best_centroids.data());
     }
+}
+Clustering1D::Clustering1D(int k) : Clustering(1, k) {}
+Clustering1D::Clustering1D(int k, const ClusteringParameters& cp)
+        : Clustering(1, k, cp) {}
+void Clustering1D::train_exact(idx_t n, const float* x) {
+    const float* xt = x;
+    std::unique_ptr<uint8_t[]> del;
+    if (n > k * max_points_per_centroid) {
+        uint8_t* x_new;
+        float* weights_new;
+        n = subsample_training_set(
+                *this,
+                n,
+                (uint8_t*)x,
+                sizeof(float) * d,
+                nullptr,
+                &x_new,
+                &weights_new);
+        del.reset(x_new);
+        xt = (float*)x_new;
+    }
+    centroids.resize(k);
+    double uf = kmeans1d(xt, n, k, centroids.data());
+    ClusteringIterationStats stats = {0.0, 0.0, 0.0, uf, 0};
+    iteration_stats.push_back(stats);
 }
-float kmeans_clustering (size_t d, size_t n, size_t k,
-                         const float *x,
-                         float *centroids)
-{
-    Clustering clus (d, k);
+float kmeans_clustering(
+        size_t d,
+        size_t n,
+        size_t k,
+        const float* x,
+        float* centroids) {
+    Clustering clus(d, k);
     clus.verbose = d * n * k > (1L << 30);
     // display logs if > 1Gflop per iteration
-    IndexFlatL2 index (d);
-    clus.train (n, x, index);
+    IndexFlatL2 index(d);
+    clus.train(n, x, index);
     memcpy(centroids, clus.centroids.data(), sizeof(*centroids) * d * k);
     return clus.iteration_stats.back().obj;
 }
+/******************************************************************************
+ * ProgressiveDimClustering implementation
+ ******************************************************************************/
+ProgressiveDimClusteringParameters::ProgressiveDimClusteringParameters() {
+    progressive_dim_steps = 10;
+    apply_pca = true; // seems a good idea to do this by default
+    niter = 10;       // reduce nb of iterations per step
+}
+Index* ProgressiveDimIndexFactory::operator()(int dim) {
+    return new IndexFlatL2(dim);
+}
+ProgressiveDimClustering::ProgressiveDimClustering(int d, int k) : d(d), k(k) {}
+ProgressiveDimClustering::ProgressiveDimClustering(
+        int d,
+        int k,
+        const ProgressiveDimClusteringParameters& cp)
+        : ProgressiveDimClusteringParameters(cp), d(d), k(k) {}
+namespace {
+using idx_t = Index::idx_t;
+void copy_columns(idx_t n, idx_t d1, const float* src, idx_t d2, float* dest) {
+    idx_t d = std::min(d1, d2);
+    for (idx_t i = 0; i < n; i++) {
+        memcpy(dest, src, sizeof(float) * d);
+        src += d1;
+        dest += d2;
+    }
+}
+}; // namespace
+void ProgressiveDimClustering::train(
+        idx_t n,
+        const float* x,
+        ProgressiveDimIndexFactory& factory) {
+    int d_prev = 0;
+    PCAMatrix pca(d, d);
+    std::vector<float> xbuf;
+    if (apply_pca) {
+        if (verbose) {
+            printf("Training PCA transform\n");
+        }
+        pca.train(n, x);
+        if (verbose) {
+            printf("Apply PCA\n");
+        }
+        xbuf.resize(n * d);
+        pca.apply_noalloc(n, x, xbuf.data());
+        x = xbuf.data();
+    }
+    for (int iter = 0; iter < progressive_dim_steps; iter++) {
+        int di = int(pow(d, (1. + iter) / progressive_dim_steps));
+        if (verbose) {
+            printf("Progressive dim step %d: cluster in dimension %d\n",
+                   iter,
+                   di);
+        }
+        std::unique_ptr<Index> clustering_index(factory(di));
+        Clustering clus(di, k, *this);
+        if (d_prev > 0) {
+            // copy warm-start centroids (padded with 0s)
+            clus.centroids.resize(k * di);
+            copy_columns(
+                    k, d_prev, centroids.data(), di, clus.centroids.data());
+        }
+        std::vector<float> xsub(n * di);
+        copy_columns(n, d, x, di, xsub.data());
+        clus.train(n, xsub.data(), *clustering_index.get());
+        centroids = clus.centroids;
+        iteration_stats.insert(
+                iteration_stats.end(),
+                clus.iteration_stats.begin(),
+                clus.iteration_stats.end());
+        d_prev = di;
+    }
+    if (apply_pca) {
+        if (verbose) {
+            printf("Revert PCA transform on centroids\n");
+        }
+        std::vector<float> cent_transformed(d * k);
+        pca.reverse_transform(k, centroids.data(), cent_transformed.data());
+        cent_transformed.swap(centroids);
+    }
+}
 } // namespace faiss