RubyGems - faiss - Versions diffs - 0.1.5 → 0.2.2 - Mend

faiss 0.1.5 → 0.2.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (219) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +24 -0
data/README.md +12 -0
data/ext/faiss/ext.cpp +1 -1
data/ext/faiss/extconf.rb +6 -2
data/ext/faiss/index.cpp +114 -43
data/ext/faiss/index_binary.cpp +24 -30
data/ext/faiss/kmeans.cpp +20 -16
data/ext/faiss/numo.hpp +867 -0
data/ext/faiss/pca_matrix.cpp +13 -14
data/ext/faiss/product_quantizer.cpp +23 -24
data/ext/faiss/utils.cpp +10 -37
data/ext/faiss/utils.h +2 -13
data/lib/faiss.rb +0 -5
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +292 -291
data/vendor/faiss/faiss/AutoTune.h +55 -56
data/vendor/faiss/faiss/Clustering.cpp +334 -195
data/vendor/faiss/faiss/Clustering.h +88 -35
data/vendor/faiss/faiss/IVFlib.cpp +171 -195
data/vendor/faiss/faiss/IVFlib.h +48 -51
data/vendor/faiss/faiss/Index.cpp +85 -103
data/vendor/faiss/faiss/Index.h +54 -48
data/vendor/faiss/faiss/Index2Layer.cpp +139 -164
data/vendor/faiss/faiss/Index2Layer.h +22 -22
data/vendor/faiss/faiss/IndexBinary.cpp +45 -37
data/vendor/faiss/faiss/IndexBinary.h +140 -132
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +73 -53
data/vendor/faiss/faiss/IndexBinaryFlat.h +29 -24
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +46 -43
data/vendor/faiss/faiss/IndexBinaryFromFloat.h +16 -15
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +215 -232
data/vendor/faiss/faiss/IndexBinaryHNSW.h +25 -24
data/vendor/faiss/faiss/IndexBinaryHash.cpp +182 -177
data/vendor/faiss/faiss/IndexBinaryHash.h +41 -34
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +489 -461
data/vendor/faiss/faiss/IndexBinaryIVF.h +97 -68
data/vendor/faiss/faiss/IndexFlat.cpp +116 -147
data/vendor/faiss/faiss/IndexFlat.h +35 -46
data/vendor/faiss/faiss/IndexHNSW.cpp +372 -348
data/vendor/faiss/faiss/IndexHNSW.h +57 -41
data/vendor/faiss/faiss/IndexIVF.cpp +474 -454
data/vendor/faiss/faiss/IndexIVF.h +146 -113
data/vendor/faiss/faiss/IndexIVFFlat.cpp +248 -250
data/vendor/faiss/faiss/IndexIVFFlat.h +48 -51
data/vendor/faiss/faiss/IndexIVFPQ.cpp +457 -516
data/vendor/faiss/faiss/IndexIVFPQ.h +74 -66
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +406 -372
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +82 -57
data/vendor/faiss/faiss/IndexIVFPQR.cpp +104 -102
data/vendor/faiss/faiss/IndexIVFPQR.h +33 -28
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +125 -133
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +19 -21
data/vendor/faiss/faiss/IndexLSH.cpp +75 -96
data/vendor/faiss/faiss/IndexLSH.h +21 -26
data/vendor/faiss/faiss/IndexLattice.cpp +42 -56
data/vendor/faiss/faiss/IndexLattice.h +11 -16
data/vendor/faiss/faiss/IndexNNDescent.cpp +231 -0
data/vendor/faiss/faiss/IndexNNDescent.h +72 -0
data/vendor/faiss/faiss/IndexNSG.cpp +303 -0
data/vendor/faiss/faiss/IndexNSG.h +85 -0
data/vendor/faiss/faiss/IndexPQ.cpp +405 -464
data/vendor/faiss/faiss/IndexPQ.h +64 -67
data/vendor/faiss/faiss/IndexPQFastScan.cpp +143 -170
data/vendor/faiss/faiss/IndexPQFastScan.h +46 -32
data/vendor/faiss/faiss/IndexPreTransform.cpp +120 -150
data/vendor/faiss/faiss/IndexPreTransform.h +33 -36
data/vendor/faiss/faiss/IndexRefine.cpp +115 -131
data/vendor/faiss/faiss/IndexRefine.h +22 -23
data/vendor/faiss/faiss/IndexReplicas.cpp +147 -153
data/vendor/faiss/faiss/IndexReplicas.h +62 -56
data/vendor/faiss/faiss/IndexResidual.cpp +291 -0
data/vendor/faiss/faiss/IndexResidual.h +152 -0
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +120 -155
data/vendor/faiss/faiss/IndexScalarQuantizer.h +41 -45
data/vendor/faiss/faiss/IndexShards.cpp +256 -240
data/vendor/faiss/faiss/IndexShards.h +85 -73
data/vendor/faiss/faiss/MatrixStats.cpp +112 -97
data/vendor/faiss/faiss/MatrixStats.h +7 -10
data/vendor/faiss/faiss/MetaIndexes.cpp +135 -157
data/vendor/faiss/faiss/MetaIndexes.h +40 -34
data/vendor/faiss/faiss/MetricType.h +7 -7
data/vendor/faiss/faiss/VectorTransform.cpp +652 -474
data/vendor/faiss/faiss/VectorTransform.h +61 -89
data/vendor/faiss/faiss/clone_index.cpp +77 -73
data/vendor/faiss/faiss/clone_index.h +4 -9
data/vendor/faiss/faiss/gpu/GpuAutoTune.cpp +33 -38
data/vendor/faiss/faiss/gpu/GpuAutoTune.h +11 -9
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +197 -170
data/vendor/faiss/faiss/gpu/GpuCloner.h +53 -35
data/vendor/faiss/faiss/gpu/GpuClonerOptions.cpp +12 -14
data/vendor/faiss/faiss/gpu/GpuClonerOptions.h +27 -25
data/vendor/faiss/faiss/gpu/GpuDistance.h +116 -112
data/vendor/faiss/faiss/gpu/GpuFaissAssert.h +1 -2
data/vendor/faiss/faiss/gpu/GpuIndex.h +134 -137
data/vendor/faiss/faiss/gpu/GpuIndexBinaryFlat.h +76 -73
data/vendor/faiss/faiss/gpu/GpuIndexFlat.h +173 -162
data/vendor/faiss/faiss/gpu/GpuIndexIVF.h +67 -64
data/vendor/faiss/faiss/gpu/GpuIndexIVFFlat.h +89 -86
data/vendor/faiss/faiss/gpu/GpuIndexIVFPQ.h +150 -141
data/vendor/faiss/faiss/gpu/GpuIndexIVFScalarQuantizer.h +101 -103
data/vendor/faiss/faiss/gpu/GpuIndicesOptions.h +17 -16
data/vendor/faiss/faiss/gpu/GpuResources.cpp +116 -128
data/vendor/faiss/faiss/gpu/GpuResources.h +182 -186
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +433 -422
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +131 -130
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.cpp +468 -456
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.h +25 -19
data/vendor/faiss/faiss/gpu/impl/RemapIndices.cpp +22 -20
data/vendor/faiss/faiss/gpu/impl/RemapIndices.h +9 -8
data/vendor/faiss/faiss/gpu/perf/IndexWrapper-inl.h +39 -44
data/vendor/faiss/faiss/gpu/perf/IndexWrapper.h +16 -14
data/vendor/faiss/faiss/gpu/perf/PerfClustering.cpp +77 -71
data/vendor/faiss/faiss/gpu/perf/PerfIVFPQAdd.cpp +109 -88
data/vendor/faiss/faiss/gpu/perf/WriteIndex.cpp +75 -64
data/vendor/faiss/faiss/gpu/test/TestCodePacking.cpp +230 -215
data/vendor/faiss/faiss/gpu/test/TestGpuIndexBinaryFlat.cpp +80 -86
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +284 -277
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +416 -416
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +611 -517
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFScalarQuantizer.cpp +166 -164
data/vendor/faiss/faiss/gpu/test/TestGpuMemoryException.cpp +61 -53
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +274 -238
data/vendor/faiss/faiss/gpu/test/TestUtils.h +73 -57
data/vendor/faiss/faiss/gpu/test/demo_ivfpq_indexing_gpu.cpp +47 -50
data/vendor/faiss/faiss/gpu/utils/DeviceUtils.h +79 -72
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.cpp +140 -146
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.h +69 -71
data/vendor/faiss/faiss/gpu/utils/StaticUtils.h +21 -16
data/vendor/faiss/faiss/gpu/utils/Timer.cpp +25 -29
data/vendor/faiss/faiss/gpu/utils/Timer.h +30 -29
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +270 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +115 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +90 -120
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +81 -65
data/vendor/faiss/faiss/impl/FaissAssert.h +73 -58
data/vendor/faiss/faiss/impl/FaissException.cpp +56 -48
data/vendor/faiss/faiss/impl/FaissException.h +41 -29
data/vendor/faiss/faiss/impl/HNSW.cpp +595 -611
data/vendor/faiss/faiss/impl/HNSW.h +179 -200
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +672 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.h +172 -0
data/vendor/faiss/faiss/impl/NNDescent.cpp +487 -0
data/vendor/faiss/faiss/impl/NNDescent.h +154 -0
data/vendor/faiss/faiss/impl/NSG.cpp +682 -0
data/vendor/faiss/faiss/impl/NSG.h +199 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +484 -454
data/vendor/faiss/faiss/impl/PolysemousTraining.h +52 -55
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +26 -47
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +469 -459
data/vendor/faiss/faiss/impl/ProductQuantizer.h +76 -87
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +448 -0
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +130 -0
data/vendor/faiss/faiss/impl/ResultHandler.h +96 -132
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +648 -701
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +48 -46
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +129 -131
data/vendor/faiss/faiss/impl/ThreadedIndex.h +61 -55
data/vendor/faiss/faiss/impl/index_read.cpp +547 -479
data/vendor/faiss/faiss/impl/index_write.cpp +497 -407
data/vendor/faiss/faiss/impl/io.cpp +75 -94
data/vendor/faiss/faiss/impl/io.h +31 -41
data/vendor/faiss/faiss/impl/io_macros.h +40 -29
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +137 -186
data/vendor/faiss/faiss/impl/lattice_Zn.h +40 -51
data/vendor/faiss/faiss/impl/platform_macros.h +29 -8
data/vendor/faiss/faiss/impl/pq4_fast_scan.cpp +77 -124
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +39 -48
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +41 -52
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_qbs.cpp +80 -117
data/vendor/faiss/faiss/impl/simd_result_handlers.h +109 -137
data/vendor/faiss/faiss/index_factory.cpp +269 -218
data/vendor/faiss/faiss/index_factory.h +6 -7
data/vendor/faiss/faiss/index_io.h +23 -26
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +67 -75
data/vendor/faiss/faiss/invlists/BlockInvertedLists.h +22 -24
data/vendor/faiss/faiss/invlists/DirectMap.cpp +96 -112
data/vendor/faiss/faiss/invlists/DirectMap.h +29 -33
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +307 -364
data/vendor/faiss/faiss/invlists/InvertedLists.h +151 -151
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +29 -34
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.h +17 -18
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +257 -293
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +50 -45
data/vendor/faiss/faiss/python/python_callbacks.cpp +23 -26
data/vendor/faiss/faiss/python/python_callbacks.h +9 -16
data/vendor/faiss/faiss/utils/AlignedTable.h +79 -44
data/vendor/faiss/faiss/utils/Heap.cpp +40 -48
data/vendor/faiss/faiss/utils/Heap.h +186 -209
data/vendor/faiss/faiss/utils/WorkerThread.cpp +67 -76
data/vendor/faiss/faiss/utils/WorkerThread.h +32 -33
data/vendor/faiss/faiss/utils/distances.cpp +301 -310
data/vendor/faiss/faiss/utils/distances.h +133 -118
data/vendor/faiss/faiss/utils/distances_simd.cpp +456 -516
data/vendor/faiss/faiss/utils/extra_distances-inl.h +117 -0
data/vendor/faiss/faiss/utils/extra_distances.cpp +113 -232
data/vendor/faiss/faiss/utils/extra_distances.h +30 -29
data/vendor/faiss/faiss/utils/hamming-inl.h +260 -209
data/vendor/faiss/faiss/utils/hamming.cpp +375 -469
data/vendor/faiss/faiss/utils/hamming.h +62 -85
data/vendor/faiss/faiss/utils/ordered_key_value.h +16 -18
data/vendor/faiss/faiss/utils/partitioning.cpp +393 -318
data/vendor/faiss/faiss/utils/partitioning.h +26 -21
data/vendor/faiss/faiss/utils/quantize_lut.cpp +78 -66
data/vendor/faiss/faiss/utils/quantize_lut.h +22 -20
data/vendor/faiss/faiss/utils/random.cpp +39 -63
data/vendor/faiss/faiss/utils/random.h +13 -16
data/vendor/faiss/faiss/utils/simdlib.h +4 -2
data/vendor/faiss/faiss/utils/simdlib_avx2.h +88 -85
data/vendor/faiss/faiss/utils/simdlib_emulated.h +226 -165
data/vendor/faiss/faiss/utils/simdlib_neon.h +832 -0
data/vendor/faiss/faiss/utils/utils.cpp +304 -287
data/vendor/faiss/faiss/utils/utils.h +53 -48
metadata +24 -10
data/lib/faiss/index.rb +0 -20
data/lib/faiss/index_binary.rb +0 -20
data/lib/faiss/kmeans.rb +0 -15
data/lib/faiss/pca_matrix.rb +0 -15
data/lib/faiss/product_quantizer.rb +0 -22

data/vendor/faiss/faiss/AutoTune.h CHANGED Viewed

@@ -10,38 +10,39 @@
 #ifndef FAISS_AUTO_TUNE_H
 #define FAISS_AUTO_TUNE_H
-#include <vector>
-#include <unordered_map>
 #include <stdint.h>
+#include <unordered_map>
+#include <vector>
 #include <faiss/Index.h>
 #include <faiss/IndexBinary.h>
 namespace faiss {
 /**
  * Evaluation criterion. Returns a performance measure in [0,1],
  * higher is better.
  */
 struct AutoTuneCriterion {
     typedef Index::idx_t idx_t;
-    idx_t nq;  ///< nb of queries this criterion is evaluated on
-    idx_t nnn; ///< nb of NNs that the query should request
-    idx_t gt_nnn; ///< nb of GT NNs required to evaluate crterion
+    idx_t nq;     ///< nb of queries this criterion is evaluated on
+    idx_t nnn;    ///< nb of NNs that the query should request
+    idx_t gt_nnn; ///< nb of GT NNs required to evaluate criterion
-    std::vector<float> gt_D;  ///< Ground-truth distances (size nq * gt_nnn)
-    std::vector<idx_t> gt_I;  ///< Ground-truth indexes (size nq * gt_nnn)
+    std::vector<float> gt_D; ///< Ground-truth distances (size nq * gt_nnn)
+    std::vector<idx_t> gt_I; ///< Ground-truth indexes (size nq * gt_nnn)
-    AutoTuneCriterion (idx_t nq, idx_t nnn);
+    AutoTuneCriterion(idx_t nq, idx_t nnn);
     /** Intitializes the gt_D and gt_I vectors. Must be called before evaluating
      *
      * @param gt_D_in  size nq * gt_nnn
      * @param gt_I_in  size nq * gt_nnn
      */
-    void set_groundtruth (int gt_nnn, const float *gt_D_in,
-                          const idx_t *gt_I_in);
+    void set_groundtruth(
+            int gt_nnn,
+            const float* gt_D_in,
+            const idx_t* gt_I_in);
     /** Evaluate the criterion.
      *
@@ -49,29 +50,25 @@ struct AutoTuneCriterion {
      * @param I  size nq * nnn
      * @return the criterion, between 0 and 1. Larger is better.
      */
-    virtual double evaluate (const float *D, const idx_t *I) const = 0;
-    virtual ~AutoTuneCriterion () {}
+    virtual double evaluate(const float* D, const idx_t* I) const = 0;
+    virtual ~AutoTuneCriterion() {}
 };
-struct OneRecallAtRCriterion: AutoTuneCriterion {
+struct OneRecallAtRCriterion : AutoTuneCriterion {
     idx_t R;
-    OneRecallAtRCriterion (idx_t nq, idx_t R);
+    OneRecallAtRCriterion(idx_t nq, idx_t R);
     double evaluate(const float* D, const idx_t* I) const override;
     ~OneRecallAtRCriterion() override {}
 };
-struct IntersectionCriterion: AutoTuneCriterion {
+struct IntersectionCriterion : AutoTuneCriterion {
     idx_t R;
-    IntersectionCriterion (idx_t nq, idx_t R);
+    IntersectionCriterion(idx_t nq, idx_t R);
     double evaluate(const float* D, const idx_t* I) const override;
@@ -91,7 +88,7 @@ struct OperatingPoint {
     double perf;     ///< performance measure (output of a Criterion)
     double t;        ///< corresponding execution time (ms)
     std::string key; ///< key that identifies this op pt
-    int64_t cno;        ///< integer identifer
+    int64_t cno;     ///< integer identifer
 };
 struct OperatingPoints {
@@ -102,27 +99,27 @@ struct OperatingPoints {
     std::vector<OperatingPoint> optimal_pts;
     // begins with a single operating point: t=0, perf=0
-    OperatingPoints ();
+    OperatingPoints();
     /// add operating points from other to this, with a prefix to the keys
-    int merge_with (const OperatingPoints &other,
-                    const std::string & prefix = "");
+    int merge_with(
+            const OperatingPoints& other,
+            const std::string& prefix = "");
-    void clear ();
+    void clear();
     /// add a performance measure. Return whether it is an optimal point
-    bool add (double perf, double t, const std::string & key, size_t cno = 0);
+    bool add(double perf, double t, const std::string& key, size_t cno = 0);
     /// get time required to obtain a given performance measure
-    double t_for_perf (double perf) const;
+    double t_for_perf(double perf) const;
     /// easy-to-read output
-    void display (bool only_optimal = true) const;
+    void display(bool only_optimal = true) const;
     /// output to a format easy to digest by gnuplot
-    void all_to_gnuplot (const char *fname) const;
-    void optimal_to_gnuplot (const char *fname) const;
+    void all_to_gnuplot(const char* fname) const;
+    void optimal_to_gnuplot(const char* fname) const;
 };
 /// possible values of a parameter, sorted from least to most expensive/accurate
@@ -156,41 +153,45 @@ struct ParameterSpace {
     /// duration (to avoid jittering in MT mode)
     double min_test_duration;
-    ParameterSpace ();
+    ParameterSpace();
     /// nb of combinations, = product of values sizes
-    size_t n_combinations () const;
+    size_t n_combinations() const;
     /// returns whether combinations c1 >= c2 in the tuple sense
-    bool combination_ge (size_t c1, size_t c2) const;
+    bool combination_ge(size_t c1, size_t c2) const;
     /// get string representation of the combination
-    std::string combination_name (size_t cno) const;
+    std::string combination_name(size_t cno) const;
     /// print a description on stdout
-    void display () const;
+    void display() const;
     /// add a new parameter (or return it if it exists)
-    ParameterRange &add_range(const std::string & name);
+    ParameterRange& add_range(const std::string& name);
     /// initialize with reasonable parameters for the index
-    virtual void initialize (const Index * index);
+    virtual void initialize(const Index* index);
     /// set a combination of parameters on an index
-    void set_index_parameters (Index *index, size_t cno) const;
+    void set_index_parameters(Index* index, size_t cno) const;
     /// set a combination of parameters described by a string
-    void set_index_parameters (Index *index, const char *param_string) const;
+    void set_index_parameters(Index* index, const char* param_string) const;
     /// set one of the parameters, returns whether setting was successful
-    virtual void set_index_parameter (
-        Index * index, const std::string & name, double val) const;
+    virtual void set_index_parameter(
+            Index* index,
+            const std::string& name,
+            double val) const;
     /** find an upper bound on the performance and a lower bound on t
      * for configuration cno given another operating point op */
-    void update_bounds (size_t cno, const OperatingPoint & op,
-                        double *upper_bound_perf,
-                        double *lower_bound_t) const;
+    void update_bounds(
+            size_t cno,
+            const OperatingPoint& op,
+            double* upper_bound_perf,
+            double* lower_bound_t) const;
     /** explore operating points
      * @param index   index to run on
@@ -198,18 +199,16 @@ struct ParameterSpace {
      * @param crit    selection criterion
      * @param ops     resulting operating points
      */
-    void explore (Index *index,
-                  size_t nq, const float *xq,
-                  const AutoTuneCriterion & crit,
-                  OperatingPoints * ops)  const;
-    virtual ~ParameterSpace () {}
+    void explore(
+            Index* index,
+            size_t nq,
+            const float* xq,
+            const AutoTuneCriterion& crit,
+            OperatingPoints* ops) const;
+    virtual ~ParameterSpace() {}
 };
 } // namespace faiss
 #endif

data/vendor/faiss/faiss/Clustering.cpp CHANGED Viewed

@@ -8,6 +8,7 @@
 // -*- c++ -*-
 #include <faiss/Clustering.h>
+#include <faiss/VectorTransform.h>
 #include <faiss/impl/AuxIndexStructures.h>
 #include <cinttypes>
@@ -17,100 +18,100 @@
 #include <omp.h>
-#include <faiss/utils/utils.h>
-#include <faiss/utils/random.h>
-#include <faiss/utils/distances.h>
-#include <faiss/impl/FaissAssert.h>
 #include <faiss/IndexFlat.h>
+#include <faiss/impl/FaissAssert.h>
+#include <faiss/utils/distances.h>
+#include <faiss/utils/random.h>
+#include <faiss/utils/utils.h>
 namespace faiss {
-ClusteringParameters::ClusteringParameters ():
-    niter(25),
-    nredo(1),
-    verbose(false),
-    spherical(false),
-    int_centroids(false),
-    update_index(false),
-    frozen_centroids(false),
-    min_points_per_centroid(39),
-    max_points_per_centroid(256),
-    seed(1234),
-    decode_block_size(32768)
-{}
+ClusteringParameters::ClusteringParameters()
+        : niter(25),
+          nredo(1),
+          verbose(false),
+          spherical(false),
+          int_centroids(false),
+          update_index(false),
+          frozen_centroids(false),
+          min_points_per_centroid(39),
+          max_points_per_centroid(256),
+          seed(1234),
+          decode_block_size(32768) {}
 // 39 corresponds to 10000 / 256 -> to avoid warnings on PQ tests with randu10k
+Clustering::Clustering(int d, int k) : d(d), k(k) {}
-Clustering::Clustering (int d, int k):
-    d(d), k(k) {}
-Clustering::Clustering (int d, int k, const ClusteringParameters &cp):
-    ClusteringParameters (cp), d(d), k(k) {}
+Clustering::Clustering(int d, int k, const ClusteringParameters& cp)
+        : ClusteringParameters(cp), d(d), k(k) {}
-static double imbalance_factor (int n, int k, int64_t *assign) {
+static double imbalance_factor(int n, int k, int64_t* assign) {
     std::vector<int> hist(k, 0);
     for (int i = 0; i < n; i++)
         hist[assign[i]]++;
     double tot = 0, uf = 0;
-    for (int i = 0 ; i < k ; i++) {
+    for (int i = 0; i < k; i++) {
         tot += hist[i];
-        uf += hist[i] * (double) hist[i];
+        uf += hist[i] * (double)hist[i];
     }
     uf = uf * k / (tot * tot);
     return uf;
 }
-void Clustering::post_process_centroids ()
-{
+void Clustering::post_process_centroids() {
     if (spherical) {
-        fvec_renorm_L2 (d, k, centroids.data());
+        fvec_renorm_L2(d, k, centroids.data());
     }
     if (int_centroids) {
         for (size_t i = 0; i < centroids.size(); i++)
-            centroids[i] = roundf (centroids[i]);
+            centroids[i] = roundf(centroids[i]);
     }
 }
-void Clustering::train (idx_t nx, const float *x_in, Index & index,
-                        const float *weights) {
-    train_encoded (nx, reinterpret_cast<const uint8_t *>(x_in), nullptr,
-                   index, weights);
+void Clustering::train(
+        idx_t nx,
+        const float* x_in,
+        Index& index,
+        const float* weights) {
+    train_encoded(
+            nx,
+            reinterpret_cast<const uint8_t*>(x_in),
+            nullptr,
+            index,
+            weights);
 }
 namespace {
 using idx_t = Clustering::idx_t;
 idx_t subsample_training_set(
-          const Clustering &clus, idx_t nx, const uint8_t *x,
-          size_t line_size, const float * weights,
-          uint8_t **x_out,
-          float **weights_out
-)
-{
+        const Clustering& clus,
+        idx_t nx,
+        const uint8_t* x,
+        size_t line_size,
+        const float* weights,
+        uint8_t** x_out,
+        float** weights_out) {
     if (clus.verbose) {
         printf("Sampling a subset of %zd / %" PRId64 " for training\n",
-               clus.k * clus.max_points_per_centroid, nx);
+               clus.k * clus.max_points_per_centroid,
+               nx);
     }
-    std::vector<int> perm (nx);
-    rand_perm (perm.data (), nx, clus.seed);
+    std::vector<int> perm(nx);
+    rand_perm(perm.data(), nx, clus.seed);
     nx = clus.k * clus.max_points_per_centroid;
-    uint8_t * x_new = new uint8_t [nx * line_size];
+    uint8_t* x_new = new uint8_t[nx * line_size];
     *x_out = x_new;
     for (idx_t i = 0; i < nx; i++) {
-        memcpy (x_new + i * line_size, x + perm[i] * line_size, line_size);
+        memcpy(x_new + i * line_size, x + perm[i] * line_size, line_size);
     }
     if (weights) {
-        float *weights_new = new float[nx];
+        float* weights_new = new float[nx];
         for (idx_t i = 0; i < nx; i++) {
             weights_new[i] = weights[perm[i]];
         }
@@ -134,20 +135,23 @@ idx_t subsample_training_set(
  *
  */
-void compute_centroids (size_t d, size_t k, size_t n,
-                       size_t k_frozen,
-                       const uint8_t * x, const Index *codec,
-                       const int64_t * assign,
-                       const float * weights,
-                       float * hassign,
-                       float * centroids)
-{
+void compute_centroids(
+        size_t d,
+        size_t k,
+        size_t n,
+        size_t k_frozen,
+        const uint8_t* x,
+        const Index* codec,
+        const int64_t* assign,
+        const float* weights,
+        float* hassign,
+        float* centroids) {
     k -= k_frozen;
     centroids += k_frozen * d;
-    memset (centroids, 0, sizeof(*centroids) * d * k);
+    memset(centroids, 0, sizeof(*centroids) * d * k);
-    size_t line_size = codec ? codec->sa_code_size() : d * sizeof (float);
+    size_t line_size = codec ? codec->sa_code_size() : d * sizeof(float);
 #pragma omp parallel
     {
@@ -157,20 +161,20 @@ void compute_centroids (size_t d, size_t k, size_t n,
         // this thread is taking care of centroids c0:c1
         size_t c0 = (k * rank) / nt;
         size_t c1 = (k * (rank + 1)) / nt;
-        std::vector<float> decode_buffer (d);
+        std::vector<float> decode_buffer(d);
         for (size_t i = 0; i < n; i++) {
             int64_t ci = assign[i];
-            assert (ci >= 0 && ci < k + k_frozen);
+            assert(ci >= 0 && ci < k + k_frozen);
             ci -= k_frozen;
-            if (ci >= c0 && ci < c1)  {
-                float * c = centroids + ci * d;
-                const float * xi;
+            if (ci >= c0 && ci < c1) {
+                float* c = centroids + ci * d;
+                const float* xi;
                 if (!codec) {
                     xi = reinterpret_cast<const float*>(x + i * line_size);
                 } else {
-                    float *xif = decode_buffer.data();
-                    codec->sa_decode (1, x + i * line_size, xif);
+                    float* xif = decode_buffer.data();
+                    codec->sa_decode(1, x + i * line_size, xif);
                     xi = xif;
                 }
                 if (weights) {
@@ -187,7 +191,6 @@ void compute_centroids (size_t d, size_t k, size_t n,
                 }
             }
         }
     }
 #pragma omp parallel for
@@ -196,12 +199,11 @@ void compute_centroids (size_t d, size_t k, size_t n,
             continue;
         }
         float norm = 1 / hassign[ci];
-        float * c = centroids + ci * d;
+        float* c = centroids + ci * d;
         for (size_t j = 0; j < d; j++) {
             c[j] *= norm;
         }
     }
 }
 // a bit above machine epsilon for float16
@@ -214,29 +216,33 @@ void compute_centroids (size_t d, size_t k, size_t n,
  *
  * @return           nb of spliting operations (larger is worse)
  */
-int split_clusters (size_t d, size_t k, size_t n,
-                    size_t k_frozen,
-                    float * hassign,
-                    float * centroids)
-{
+int split_clusters(
+        size_t d,
+        size_t k,
+        size_t n,
+        size_t k_frozen,
+        float* hassign,
+        float* centroids) {
     k -= k_frozen;
     centroids += k_frozen * d;
     /* Take care of void clusters */
     size_t nsplit = 0;
-    RandomGenerator rng (1234);
+    RandomGenerator rng(1234);
     for (size_t ci = 0; ci < k; ci++) {
         if (hassign[ci] == 0) { /* need to redefine a centroid */
             size_t cj;
             for (cj = 0; 1; cj = (cj + 1) % k) {
                 /* probability to pick this cluster for split */
-                float p = (hassign[cj] - 1.0) / (float) (n - k);
-                float r = rng.rand_float ();
+                float p = (hassign[cj] - 1.0) / (float)(n - k);
+                float r = rng.rand_float();
                 if (r < p) {
                     break; /* found our cluster to be split */
                 }
             }
-            memcpy (centroids+ci*d, centroids+cj*d, sizeof(*centroids) * d);
+            memcpy(centroids + ci * d,
+                   centroids + cj * d,
+                   sizeof(*centroids) * d);
             /* small symmetric pertubation */
             for (size_t j = 0; j < d; j++) {
@@ -257,30 +263,35 @@ int split_clusters (size_t d, size_t k, size_t n,
     }
     return nsplit;
 }
-};
-void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
-                                const Index * codec, Index & index,
-                                const float *weights) {
-    FAISS_THROW_IF_NOT_FMT (nx >= k,
-             "Number of training points (%" PRId64 ") should be at least "
-             "as large as number of clusters (%zd)", nx, k);
-    FAISS_THROW_IF_NOT_FMT ((!codec || codec->d == d),
-             "Codec dimension %d not the same as data dimension %d",
-             int(codec->d), int(d));
-    FAISS_THROW_IF_NOT_FMT (index.d == d,
+}; // namespace
+void Clustering::train_encoded(
+        idx_t nx,
+        const uint8_t* x_in,
+        const Index* codec,
+        Index& index,
+        const float* weights) {
+    FAISS_THROW_IF_NOT_FMT(
+            nx >= k,
+            "Number of training points (%" PRId64
+            ") should be at least "
+            "as large as number of clusters (%zd)",
+            nx,
+            k);
+    FAISS_THROW_IF_NOT_FMT(
+            (!codec || codec->d == d),
+            "Codec dimension %d not the same as data dimension %d",
+            int(codec->d),
+            int(d));
+    FAISS_THROW_IF_NOT_FMT(
+            index.d == d,
             "Index dimension %d not the same as data dimension %d",
-            int(index.d), int(d));
+            int(index.d),
+            int(d));
     double t0 = getmillisecs();
@@ -288,67 +299,78 @@ void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
         // Check for NaNs in input data. Normally it is the user's
         // responsibility, but it may spare us some hard-to-debug
         // reports.
-        const float *x = reinterpret_cast<const float *>(x_in);
+        const float* x = reinterpret_cast<const float*>(x_in);
         for (size_t i = 0; i < nx * d; i++) {
-            FAISS_THROW_IF_NOT_MSG (std::isfinite (x[i]),
-                                    "input contains NaN's or Inf's");
+            FAISS_THROW_IF_NOT_MSG(
+                    std::isfinite(x[i]), "input contains NaN's or Inf's");
         }
     }
-    const uint8_t *x = x_in;
-    std::unique_ptr<uint8_t []> del1;
-    std::unique_ptr<float []> del3;
+    const uint8_t* x = x_in;
+    std::unique_ptr<uint8_t[]> del1;
+    std::unique_ptr<float[]> del3;
     size_t line_size = codec ? codec->sa_code_size() : sizeof(float) * d;
     if (nx > k * max_points_per_centroid) {
-        uint8_t *x_new;
-        float *weights_new;
-        nx = subsample_training_set (*this, nx, x, line_size, weights,
-                                &x_new, &weights_new);
-        del1.reset (x_new); x = x_new;
-        del3.reset (weights_new); weights = weights_new;
+        uint8_t* x_new;
+        float* weights_new;
+        nx = subsample_training_set(
+                *this, nx, x, line_size, weights, &x_new, &weights_new);
+        del1.reset(x_new);
+        x = x_new;
+        del3.reset(weights_new);
+        weights = weights_new;
     } else if (nx < k * min_points_per_centroid) {
-        fprintf (stderr,
-                 "WARNING clustering %" PRId64 " points to %zd centroids: "
-                 "please provide at least %" PRId64 " training points\n",
-                 nx, k, idx_t(k) * min_points_per_centroid);
+        fprintf(stderr,
+                "WARNING clustering %" PRId64
+                " points to %zd centroids: "
+                "please provide at least %" PRId64 " training points\n",
+                nx,
+                k,
+                idx_t(k) * min_points_per_centroid);
     }
     if (nx == k) {
         // this is a corner case, just copy training set to clusters
         if (verbose) {
-            printf("Number of training points (%" PRId64 ") same as number of "
-                   "clusters, just copying\n", nx);
+            printf("Number of training points (%" PRId64
+                   ") same as number of "
+                   "clusters, just copying\n",
+                   nx);
         }
-        centroids.resize (d * k);
+        centroids.resize(d * k);
         if (!codec) {
-            memcpy (centroids.data(), x_in, sizeof (float) * d * k);
+            memcpy(centroids.data(), x_in, sizeof(float) * d * k);
         } else {
-            codec->sa_decode (nx, x_in, centroids.data());
+            codec->sa_decode(nx, x_in, centroids.data());
         }
         // one fake iteration...
-        ClusteringIterationStats stats = { 0.0, 0.0, 0.0, 1.0, 0 };
-        iteration_stats.push_back (stats);
+        ClusteringIterationStats stats = {0.0, 0.0, 0.0, 1.0, 0};
+        iteration_stats.push_back(stats);
         index.reset();
         index.add(k, centroids.data());
         return;
     }
     if (verbose) {
-        printf("Clustering %" PRId64 " points in %zdD to %zd clusters, "
+        printf("Clustering %" PRId64
+               " points in %zdD to %zd clusters, "
                "redo %d times, %d iterations\n",
-               nx, d, k, nredo, niter);
+               nx,
+               d,
+               k,
+               nredo,
+               niter);
         if (codec) {
             printf("Input data encoded in %zd bytes per vector\n",
-                   codec->sa_code_size ());
+                   codec->sa_code_size());
         }
     }
-    std::unique_ptr<idx_t []> assign(new idx_t[nx]);
-    std::unique_ptr<float []> dis(new float[nx]);
+    std::unique_ptr<idx_t[]> assign(new idx_t[nx]);
+    std::unique_ptr<float[]> dis(new float[nx]);
     // remember best iteration for redo
     bool lower_is_better = index.metric_type != METRIC_INNER_PRODUCT;
@@ -358,52 +380,49 @@ void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
     // support input centroids
-    FAISS_THROW_IF_NOT_MSG (
-       centroids.size() % d == 0,
-       "size of provided input centroids not a multiple of dimension"
-    );
+    FAISS_THROW_IF_NOT_MSG(
+            centroids.size() % d == 0,
+            "size of provided input centroids not a multiple of dimension");
     size_t n_input_centroids = centroids.size() / d;
     if (verbose && n_input_centroids > 0) {
-        printf ("  Using %zd centroids provided as input (%sfrozen)\n",
-                n_input_centroids, frozen_centroids ? "" : "not ");
+        printf("  Using %zd centroids provided as input (%sfrozen)\n",
+               n_input_centroids,
+               frozen_centroids ? "" : "not ");
     }
     double t_search_tot = 0;
     if (verbose) {
-        printf("  Preprocessing in %.2f s\n",
-               (getmillisecs() - t0) / 1000.);
+        printf("  Preprocessing in %.2f s\n", (getmillisecs() - t0) / 1000.);
     }
     t0 = getmillisecs();
     // temporary buffer to decode vectors during the optimization
-    std::vector<float> decode_buffer
-        (codec ? d * decode_block_size : 0);
+    std::vector<float> decode_buffer(codec ? d * decode_block_size : 0);
     for (int redo = 0; redo < nredo; redo++) {
         if (verbose && nredo > 1) {
             printf("Outer iteration %d / %d\n", redo, nredo);
         }
         // initialize (remaining) centroids with random points from the dataset
-        centroids.resize (d * k);
-        std::vector<int> perm (nx);
+        centroids.resize(d * k);
+        std::vector<int> perm(nx);
-        rand_perm (perm.data(), nx, seed + 1 + redo * 15486557L);
+        rand_perm(perm.data(), nx, seed + 1 + redo * 15486557L);
         if (!codec) {
-            for (int i = n_input_centroids; i < k ; i++) {
-                memcpy (&centroids[i * d], x + perm[i] * line_size, line_size);
+            for (int i = n_input_centroids; i < k; i++) {
+                memcpy(&centroids[i * d], x + perm[i] * line_size, line_size);
             }
         } else {
-            for (int i = n_input_centroids; i < k ; i++) {
-                codec->sa_decode (1, x + perm[i] * line_size, &centroids[i * d]);
+            for (int i = n_input_centroids; i < k; i++) {
+                codec->sa_decode(1, x + perm[i] * line_size, &centroids[i * d]);
             }
         }
-        post_process_centroids ();
+        post_process_centroids();
         // prepare the index
@@ -412,10 +431,10 @@ void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
         }
         if (!index.is_trained) {
-            index.train (k, centroids.data());
+            index.train(k, centroids.data());
         }
-        index.add (k, centroids.data());
+        index.add(k, centroids.data());
         // k-means iterations
@@ -424,18 +443,28 @@ void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
             double t0s = getmillisecs();
             if (!codec) {
-                index.search (nx, reinterpret_cast<const float *>(x), 1,
-                              dis.get(), assign.get());
+                index.search(
+                        nx,
+                        reinterpret_cast<const float*>(x),
+                        1,
+                        dis.get(),
+                        assign.get());
             } else {
                 // search by blocks of decode_block_size vectors
-                size_t code_size = codec->sa_code_size ();
+                size_t code_size = codec->sa_code_size();
                 for (size_t i0 = 0; i0 < nx; i0 += decode_block_size) {
                     size_t i1 = i0 + decode_block_size;
-                    if (i1 > nx) { i1 = nx; }
-                    codec->sa_decode (i1 - i0, x + code_size * i0,
-                                      decode_buffer.data ());
-                    index.search (i1 - i0, decode_buffer.data (), 1,
-                                  dis.get() + i0, assign.get() + i0);
+                    if (i1 > nx) {
+                        i1 = nx;
+                    }
+                    codec->sa_decode(
+                            i1 - i0, x + code_size * i0, decode_buffer.data());
+                    index.search(
+                            i1 - i0,
+                            decode_buffer.data(),
+                            1,
+                            dis.get() + i0,
+                            assign.get() + i0);
                 }
             }
@@ -449,61 +478,71 @@ void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
             }
             // update the centroids
-            std::vector<float> hassign (k);
+            std::vector<float> hassign(k);
             size_t k_frozen = frozen_centroids ? n_input_centroids : 0;
-            compute_centroids (
-                  d, k, nx, k_frozen,
-                  x, codec, assign.get(), weights,
-                  hassign.data(), centroids.data()
-            );
-            int nsplit = split_clusters (
-                  d, k, nx, k_frozen,
-                  hassign.data(), centroids.data()
-            );
+            compute_centroids(
+                    d,
+                    k,
+                    nx,
+                    k_frozen,
+                    x,
+                    codec,
+                    assign.get(),
+                    weights,
+                    hassign.data(),
+                    centroids.data());
+            int nsplit = split_clusters(
+                    d, k, nx, k_frozen, hassign.data(), centroids.data());
             // collect statistics
-            ClusteringIterationStats stats =
-                { obj, (getmillisecs() - t0) / 1000.0,
-                  t_search_tot / 1000,
-                  imbalance_factor (nx, k, assign.get()),
-                  nsplit };
+            ClusteringIterationStats stats = {
+                    obj,
+                    (getmillisecs() - t0) / 1000.0,
+                    t_search_tot / 1000,
+                    imbalance_factor(nx, k, assign.get()),
+                    nsplit};
             iteration_stats.push_back(stats);
             if (verbose) {
-                printf ("  Iteration %d (%.2f s, search %.2f s): "
-                        "objective=%g imbalance=%.3f nsplit=%d       \r",
-                        i, stats.time, stats.time_search, stats.obj,
-                        stats.imbalance_factor, nsplit);
-                fflush (stdout);
+                printf("  Iteration %d (%.2f s, search %.2f s): "
+                       "objective=%g imbalance=%.3f nsplit=%d       \r",
+                       i,
+                       stats.time,
+                       stats.time_search,
+                       stats.obj,
+                       stats.imbalance_factor,
+                       nsplit);
+                fflush(stdout);
             }
-            post_process_centroids ();
+            post_process_centroids();
             // add centroids to index for the next iteration (or for output)
-            index.reset ();
+            index.reset();
             if (update_index) {
-                index.train (k, centroids.data());
+                index.train(k, centroids.data());
             }
-            index.add (k, centroids.data());
-            InterruptCallback::check ();
+            index.add(k, centroids.data());
+            InterruptCallback::check();
         }
-        if (verbose) printf("\n");
+        if (verbose)
+            printf("\n");
         if (nredo > 1) {
             if ((lower_is_better && obj < best_obj) ||
                 (!lower_is_better && obj > best_obj)) {
                 if (verbose) {
-                    printf ("Objective improved: keep new clusters\n");
+                    printf("Objective improved: keep new clusters\n");
                 }
                 best_centroids = centroids;
                 best_iteration_stats = iteration_stats;
                 best_obj = obj;
             }
-            index.reset ();
+            index.reset();
         }
     }
     if (nredo > 1) {
@@ -512,20 +551,120 @@ void Clustering::train_encoded (idx_t nx, const uint8_t *x_in,
         index.reset();
         index.add(k, best_centroids.data());
     }
 }
-float kmeans_clustering (size_t d, size_t n, size_t k,
-                         const float *x,
-                         float *centroids)
-{
-    Clustering clus (d, k);
+float kmeans_clustering(
+        size_t d,
+        size_t n,
+        size_t k,
+        const float* x,
+        float* centroids) {
+    Clustering clus(d, k);
     clus.verbose = d * n * k > (1L << 30);
     // display logs if > 1Gflop per iteration
-    IndexFlatL2 index (d);
-    clus.train (n, x, index);
+    IndexFlatL2 index(d);
+    clus.train(n, x, index);
     memcpy(centroids, clus.centroids.data(), sizeof(*centroids) * d * k);
     return clus.iteration_stats.back().obj;
 }
+/******************************************************************************
+ * ProgressiveDimClustering implementation
+ ******************************************************************************/
+ProgressiveDimClusteringParameters::ProgressiveDimClusteringParameters() {
+    progressive_dim_steps = 10;
+    apply_pca = true; // seems a good idea to do this by default
+    niter = 10;       // reduce nb of iterations per step
+}
+Index* ProgressiveDimIndexFactory::operator()(int dim) {
+    return new IndexFlatL2(dim);
+}
+ProgressiveDimClustering::ProgressiveDimClustering(int d, int k) : d(d), k(k) {}
+ProgressiveDimClustering::ProgressiveDimClustering(
+        int d,
+        int k,
+        const ProgressiveDimClusteringParameters& cp)
+        : ProgressiveDimClusteringParameters(cp), d(d), k(k) {}
+namespace {
+using idx_t = Index::idx_t;
+void copy_columns(idx_t n, idx_t d1, const float* src, idx_t d2, float* dest) {
+    idx_t d = std::min(d1, d2);
+    for (idx_t i = 0; i < n; i++) {
+        memcpy(dest, src, sizeof(float) * d);
+        src += d1;
+        dest += d2;
+    }
+}
+}; // namespace
+void ProgressiveDimClustering::train(
+        idx_t n,
+        const float* x,
+        ProgressiveDimIndexFactory& factory) {
+    int d_prev = 0;
+    PCAMatrix pca(d, d);
+    std::vector<float> xbuf;
+    if (apply_pca) {
+        if (verbose) {
+            printf("Training PCA transform\n");
+        }
+        pca.train(n, x);
+        if (verbose) {
+            printf("Apply PCA\n");
+        }
+        xbuf.resize(n * d);
+        pca.apply_noalloc(n, x, xbuf.data());
+        x = xbuf.data();
+    }
+    for (int iter = 0; iter < progressive_dim_steps; iter++) {
+        int di = int(pow(d, (1. + iter) / progressive_dim_steps));
+        if (verbose) {
+            printf("Progressive dim step %d: cluster in dimension %d\n",
+                   iter,
+                   di);
+        }
+        std::unique_ptr<Index> clustering_index(factory(di));
+        Clustering clus(di, k, *this);
+        if (d_prev > 0) {
+            // copy warm-start centroids (padded with 0s)
+            clus.centroids.resize(k * di);
+            copy_columns(
+                    k, d_prev, centroids.data(), di, clus.centroids.data());
+        }
+        std::vector<float> xsub(n * di);
+        copy_columns(n, d, x, di, xsub.data());
+        clus.train(n, xsub.data(), *clustering_index.get());
+        centroids = clus.centroids;
+        iteration_stats.insert(
+                iteration_stats.end(),
+                clus.iteration_stats.begin(),
+                clus.iteration_stats.end());
+        d_prev = di;
+    }
+    if (apply_pca) {
+        if (verbose) {
+            printf("Revert PCA transform on centroids\n");
+        }
+        std::vector<float> cent_transformed(d * k);
+        pca.reverse_transform(k, centroids.data(), cent_transformed.data());
+        cent_transformed.swap(centroids);
+    }
+}
 } // namespace faiss