RubyGems - faiss - Versions diffs - 0.1.5 → 0.2.2 - Mend

faiss 0.1.5 → 0.2.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (219) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +24 -0
data/README.md +12 -0
data/ext/faiss/ext.cpp +1 -1
data/ext/faiss/extconf.rb +6 -2
data/ext/faiss/index.cpp +114 -43
data/ext/faiss/index_binary.cpp +24 -30
data/ext/faiss/kmeans.cpp +20 -16
data/ext/faiss/numo.hpp +867 -0
data/ext/faiss/pca_matrix.cpp +13 -14
data/ext/faiss/product_quantizer.cpp +23 -24
data/ext/faiss/utils.cpp +10 -37
data/ext/faiss/utils.h +2 -13
data/lib/faiss.rb +0 -5
data/lib/faiss/version.rb +1 -1
data/vendor/faiss/faiss/AutoTune.cpp +292 -291
data/vendor/faiss/faiss/AutoTune.h +55 -56
data/vendor/faiss/faiss/Clustering.cpp +334 -195
data/vendor/faiss/faiss/Clustering.h +88 -35
data/vendor/faiss/faiss/IVFlib.cpp +171 -195
data/vendor/faiss/faiss/IVFlib.h +48 -51
data/vendor/faiss/faiss/Index.cpp +85 -103
data/vendor/faiss/faiss/Index.h +54 -48
data/vendor/faiss/faiss/Index2Layer.cpp +139 -164
data/vendor/faiss/faiss/Index2Layer.h +22 -22
data/vendor/faiss/faiss/IndexBinary.cpp +45 -37
data/vendor/faiss/faiss/IndexBinary.h +140 -132
data/vendor/faiss/faiss/IndexBinaryFlat.cpp +73 -53
data/vendor/faiss/faiss/IndexBinaryFlat.h +29 -24
data/vendor/faiss/faiss/IndexBinaryFromFloat.cpp +46 -43
data/vendor/faiss/faiss/IndexBinaryFromFloat.h +16 -15
data/vendor/faiss/faiss/IndexBinaryHNSW.cpp +215 -232
data/vendor/faiss/faiss/IndexBinaryHNSW.h +25 -24
data/vendor/faiss/faiss/IndexBinaryHash.cpp +182 -177
data/vendor/faiss/faiss/IndexBinaryHash.h +41 -34
data/vendor/faiss/faiss/IndexBinaryIVF.cpp +489 -461
data/vendor/faiss/faiss/IndexBinaryIVF.h +97 -68
data/vendor/faiss/faiss/IndexFlat.cpp +116 -147
data/vendor/faiss/faiss/IndexFlat.h +35 -46
data/vendor/faiss/faiss/IndexHNSW.cpp +372 -348
data/vendor/faiss/faiss/IndexHNSW.h +57 -41
data/vendor/faiss/faiss/IndexIVF.cpp +474 -454
data/vendor/faiss/faiss/IndexIVF.h +146 -113
data/vendor/faiss/faiss/IndexIVFFlat.cpp +248 -250
data/vendor/faiss/faiss/IndexIVFFlat.h +48 -51
data/vendor/faiss/faiss/IndexIVFPQ.cpp +457 -516
data/vendor/faiss/faiss/IndexIVFPQ.h +74 -66
data/vendor/faiss/faiss/IndexIVFPQFastScan.cpp +406 -372
data/vendor/faiss/faiss/IndexIVFPQFastScan.h +82 -57
data/vendor/faiss/faiss/IndexIVFPQR.cpp +104 -102
data/vendor/faiss/faiss/IndexIVFPQR.h +33 -28
data/vendor/faiss/faiss/IndexIVFSpectralHash.cpp +125 -133
data/vendor/faiss/faiss/IndexIVFSpectralHash.h +19 -21
data/vendor/faiss/faiss/IndexLSH.cpp +75 -96
data/vendor/faiss/faiss/IndexLSH.h +21 -26
data/vendor/faiss/faiss/IndexLattice.cpp +42 -56
data/vendor/faiss/faiss/IndexLattice.h +11 -16
data/vendor/faiss/faiss/IndexNNDescent.cpp +231 -0
data/vendor/faiss/faiss/IndexNNDescent.h +72 -0
data/vendor/faiss/faiss/IndexNSG.cpp +303 -0
data/vendor/faiss/faiss/IndexNSG.h +85 -0
data/vendor/faiss/faiss/IndexPQ.cpp +405 -464
data/vendor/faiss/faiss/IndexPQ.h +64 -67
data/vendor/faiss/faiss/IndexPQFastScan.cpp +143 -170
data/vendor/faiss/faiss/IndexPQFastScan.h +46 -32
data/vendor/faiss/faiss/IndexPreTransform.cpp +120 -150
data/vendor/faiss/faiss/IndexPreTransform.h +33 -36
data/vendor/faiss/faiss/IndexRefine.cpp +115 -131
data/vendor/faiss/faiss/IndexRefine.h +22 -23
data/vendor/faiss/faiss/IndexReplicas.cpp +147 -153
data/vendor/faiss/faiss/IndexReplicas.h +62 -56
data/vendor/faiss/faiss/IndexResidual.cpp +291 -0
data/vendor/faiss/faiss/IndexResidual.h +152 -0
data/vendor/faiss/faiss/IndexScalarQuantizer.cpp +120 -155
data/vendor/faiss/faiss/IndexScalarQuantizer.h +41 -45
data/vendor/faiss/faiss/IndexShards.cpp +256 -240
data/vendor/faiss/faiss/IndexShards.h +85 -73
data/vendor/faiss/faiss/MatrixStats.cpp +112 -97
data/vendor/faiss/faiss/MatrixStats.h +7 -10
data/vendor/faiss/faiss/MetaIndexes.cpp +135 -157
data/vendor/faiss/faiss/MetaIndexes.h +40 -34
data/vendor/faiss/faiss/MetricType.h +7 -7
data/vendor/faiss/faiss/VectorTransform.cpp +652 -474
data/vendor/faiss/faiss/VectorTransform.h +61 -89
data/vendor/faiss/faiss/clone_index.cpp +77 -73
data/vendor/faiss/faiss/clone_index.h +4 -9
data/vendor/faiss/faiss/gpu/GpuAutoTune.cpp +33 -38
data/vendor/faiss/faiss/gpu/GpuAutoTune.h +11 -9
data/vendor/faiss/faiss/gpu/GpuCloner.cpp +197 -170
data/vendor/faiss/faiss/gpu/GpuCloner.h +53 -35
data/vendor/faiss/faiss/gpu/GpuClonerOptions.cpp +12 -14
data/vendor/faiss/faiss/gpu/GpuClonerOptions.h +27 -25
data/vendor/faiss/faiss/gpu/GpuDistance.h +116 -112
data/vendor/faiss/faiss/gpu/GpuFaissAssert.h +1 -2
data/vendor/faiss/faiss/gpu/GpuIndex.h +134 -137
data/vendor/faiss/faiss/gpu/GpuIndexBinaryFlat.h +76 -73
data/vendor/faiss/faiss/gpu/GpuIndexFlat.h +173 -162
data/vendor/faiss/faiss/gpu/GpuIndexIVF.h +67 -64
data/vendor/faiss/faiss/gpu/GpuIndexIVFFlat.h +89 -86
data/vendor/faiss/faiss/gpu/GpuIndexIVFPQ.h +150 -141
data/vendor/faiss/faiss/gpu/GpuIndexIVFScalarQuantizer.h +101 -103
data/vendor/faiss/faiss/gpu/GpuIndicesOptions.h +17 -16
data/vendor/faiss/faiss/gpu/GpuResources.cpp +116 -128
data/vendor/faiss/faiss/gpu/GpuResources.h +182 -186
data/vendor/faiss/faiss/gpu/StandardGpuResources.cpp +433 -422
data/vendor/faiss/faiss/gpu/StandardGpuResources.h +131 -130
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.cpp +468 -456
data/vendor/faiss/faiss/gpu/impl/InterleavedCodes.h +25 -19
data/vendor/faiss/faiss/gpu/impl/RemapIndices.cpp +22 -20
data/vendor/faiss/faiss/gpu/impl/RemapIndices.h +9 -8
data/vendor/faiss/faiss/gpu/perf/IndexWrapper-inl.h +39 -44
data/vendor/faiss/faiss/gpu/perf/IndexWrapper.h +16 -14
data/vendor/faiss/faiss/gpu/perf/PerfClustering.cpp +77 -71
data/vendor/faiss/faiss/gpu/perf/PerfIVFPQAdd.cpp +109 -88
data/vendor/faiss/faiss/gpu/perf/WriteIndex.cpp +75 -64
data/vendor/faiss/faiss/gpu/test/TestCodePacking.cpp +230 -215
data/vendor/faiss/faiss/gpu/test/TestGpuIndexBinaryFlat.cpp +80 -86
data/vendor/faiss/faiss/gpu/test/TestGpuIndexFlat.cpp +284 -277
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFFlat.cpp +416 -416
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFPQ.cpp +611 -517
data/vendor/faiss/faiss/gpu/test/TestGpuIndexIVFScalarQuantizer.cpp +166 -164
data/vendor/faiss/faiss/gpu/test/TestGpuMemoryException.cpp +61 -53
data/vendor/faiss/faiss/gpu/test/TestUtils.cpp +274 -238
data/vendor/faiss/faiss/gpu/test/TestUtils.h +73 -57
data/vendor/faiss/faiss/gpu/test/demo_ivfpq_indexing_gpu.cpp +47 -50
data/vendor/faiss/faiss/gpu/utils/DeviceUtils.h +79 -72
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.cpp +140 -146
data/vendor/faiss/faiss/gpu/utils/StackDeviceMemory.h +69 -71
data/vendor/faiss/faiss/gpu/utils/StaticUtils.h +21 -16
data/vendor/faiss/faiss/gpu/utils/Timer.cpp +25 -29
data/vendor/faiss/faiss/gpu/utils/Timer.h +30 -29
data/vendor/faiss/faiss/impl/AdditiveQuantizer.cpp +270 -0
data/vendor/faiss/faiss/impl/AdditiveQuantizer.h +115 -0
data/vendor/faiss/faiss/impl/AuxIndexStructures.cpp +90 -120
data/vendor/faiss/faiss/impl/AuxIndexStructures.h +81 -65
data/vendor/faiss/faiss/impl/FaissAssert.h +73 -58
data/vendor/faiss/faiss/impl/FaissException.cpp +56 -48
data/vendor/faiss/faiss/impl/FaissException.h +41 -29
data/vendor/faiss/faiss/impl/HNSW.cpp +595 -611
data/vendor/faiss/faiss/impl/HNSW.h +179 -200
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.cpp +672 -0
data/vendor/faiss/faiss/impl/LocalSearchQuantizer.h +172 -0
data/vendor/faiss/faiss/impl/NNDescent.cpp +487 -0
data/vendor/faiss/faiss/impl/NNDescent.h +154 -0
data/vendor/faiss/faiss/impl/NSG.cpp +682 -0
data/vendor/faiss/faiss/impl/NSG.h +199 -0
data/vendor/faiss/faiss/impl/PolysemousTraining.cpp +484 -454
data/vendor/faiss/faiss/impl/PolysemousTraining.h +52 -55
data/vendor/faiss/faiss/impl/ProductQuantizer-inl.h +26 -47
data/vendor/faiss/faiss/impl/ProductQuantizer.cpp +469 -459
data/vendor/faiss/faiss/impl/ProductQuantizer.h +76 -87
data/vendor/faiss/faiss/impl/ResidualQuantizer.cpp +448 -0
data/vendor/faiss/faiss/impl/ResidualQuantizer.h +130 -0
data/vendor/faiss/faiss/impl/ResultHandler.h +96 -132
data/vendor/faiss/faiss/impl/ScalarQuantizer.cpp +648 -701
data/vendor/faiss/faiss/impl/ScalarQuantizer.h +48 -46
data/vendor/faiss/faiss/impl/ThreadedIndex-inl.h +129 -131
data/vendor/faiss/faiss/impl/ThreadedIndex.h +61 -55
data/vendor/faiss/faiss/impl/index_read.cpp +547 -479
data/vendor/faiss/faiss/impl/index_write.cpp +497 -407
data/vendor/faiss/faiss/impl/io.cpp +75 -94
data/vendor/faiss/faiss/impl/io.h +31 -41
data/vendor/faiss/faiss/impl/io_macros.h +40 -29
data/vendor/faiss/faiss/impl/lattice_Zn.cpp +137 -186
data/vendor/faiss/faiss/impl/lattice_Zn.h +40 -51
data/vendor/faiss/faiss/impl/platform_macros.h +29 -8
data/vendor/faiss/faiss/impl/pq4_fast_scan.cpp +77 -124
data/vendor/faiss/faiss/impl/pq4_fast_scan.h +39 -48
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_1.cpp +41 -52
data/vendor/faiss/faiss/impl/pq4_fast_scan_search_qbs.cpp +80 -117
data/vendor/faiss/faiss/impl/simd_result_handlers.h +109 -137
data/vendor/faiss/faiss/index_factory.cpp +269 -218
data/vendor/faiss/faiss/index_factory.h +6 -7
data/vendor/faiss/faiss/index_io.h +23 -26
data/vendor/faiss/faiss/invlists/BlockInvertedLists.cpp +67 -75
data/vendor/faiss/faiss/invlists/BlockInvertedLists.h +22 -24
data/vendor/faiss/faiss/invlists/DirectMap.cpp +96 -112
data/vendor/faiss/faiss/invlists/DirectMap.h +29 -33
data/vendor/faiss/faiss/invlists/InvertedLists.cpp +307 -364
data/vendor/faiss/faiss/invlists/InvertedLists.h +151 -151
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.cpp +29 -34
data/vendor/faiss/faiss/invlists/InvertedListsIOHook.h +17 -18
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.cpp +257 -293
data/vendor/faiss/faiss/invlists/OnDiskInvertedLists.h +50 -45
data/vendor/faiss/faiss/python/python_callbacks.cpp +23 -26
data/vendor/faiss/faiss/python/python_callbacks.h +9 -16
data/vendor/faiss/faiss/utils/AlignedTable.h +79 -44
data/vendor/faiss/faiss/utils/Heap.cpp +40 -48
data/vendor/faiss/faiss/utils/Heap.h +186 -209
data/vendor/faiss/faiss/utils/WorkerThread.cpp +67 -76
data/vendor/faiss/faiss/utils/WorkerThread.h +32 -33
data/vendor/faiss/faiss/utils/distances.cpp +301 -310
data/vendor/faiss/faiss/utils/distances.h +133 -118
data/vendor/faiss/faiss/utils/distances_simd.cpp +456 -516
data/vendor/faiss/faiss/utils/extra_distances-inl.h +117 -0
data/vendor/faiss/faiss/utils/extra_distances.cpp +113 -232
data/vendor/faiss/faiss/utils/extra_distances.h +30 -29
data/vendor/faiss/faiss/utils/hamming-inl.h +260 -209
data/vendor/faiss/faiss/utils/hamming.cpp +375 -469
data/vendor/faiss/faiss/utils/hamming.h +62 -85
data/vendor/faiss/faiss/utils/ordered_key_value.h +16 -18
data/vendor/faiss/faiss/utils/partitioning.cpp +393 -318
data/vendor/faiss/faiss/utils/partitioning.h +26 -21
data/vendor/faiss/faiss/utils/quantize_lut.cpp +78 -66
data/vendor/faiss/faiss/utils/quantize_lut.h +22 -20
data/vendor/faiss/faiss/utils/random.cpp +39 -63
data/vendor/faiss/faiss/utils/random.h +13 -16
data/vendor/faiss/faiss/utils/simdlib.h +4 -2
data/vendor/faiss/faiss/utils/simdlib_avx2.h +88 -85
data/vendor/faiss/faiss/utils/simdlib_emulated.h +226 -165
data/vendor/faiss/faiss/utils/simdlib_neon.h +832 -0
data/vendor/faiss/faiss/utils/utils.cpp +304 -287
data/vendor/faiss/faiss/utils/utils.h +53 -48
metadata +24 -10
data/lib/faiss/index.rb +0 -20
data/lib/faiss/index_binary.rb +0 -20
data/lib/faiss/kmeans.rb +0 -15
data/lib/faiss/pca_matrix.rb +0 -15
data/lib/faiss/product_quantizer.rb +0 -22

data/vendor/faiss/faiss/utils/distances.h CHANGED Viewed

@@ -5,49 +5,34 @@
  * LICENSE file in the root directory of this source tree.
  */
-// -*- c++ -*-
 /* All distance functions for L2 and IP distances.
- * The actual functions are implemented in distances.cpp and distances_simd.cpp */
+ * The actual functions are implemented in distances.cpp and distances_simd.cpp
+ */
 #pragma once
 #include <stdint.h>
-#include <faiss/utils/Heap.h>
 #include <faiss/impl/platform_macros.h>
+#include <faiss/utils/Heap.h>
 namespace faiss {
- /*********************************************************
+/*********************************************************
  * Optimized distance/norm/inner prod computations
  *********************************************************/
 /// Squared L2 distance between two vectors
-float fvec_L2sqr (
-        const float * x,
-        const float * y,
-        size_t d);
+float fvec_L2sqr(const float* x, const float* y, size_t d);
 /// inner product
-float  fvec_inner_product (
-        const float * x,
-        const float * y,
-        size_t d);
+float fvec_inner_product(const float* x, const float* y, size_t d);
 /// L1 distance
-float fvec_L1 (
-        const float * x,
-        const float * y,
-        size_t d);
-float fvec_Linf (
-        const float * x,
-        const float * y,
-        size_t d);
+float fvec_L1(const float* x, const float* y, size_t d);
+/// infinity distance
+float fvec_Linf(const float* x, const float* y, size_t d);
 /** Compute pairwise distances between sets of vectors
  *
@@ -59,74 +44,83 @@ float fvec_Linf (
  * @param dis   output distances (size nq * nb)
  * @param ldq,ldb, ldd strides for the matrices
  */
-void pairwise_L2sqr (int64_t d,
-                     int64_t nq, const float *xq,
-                     int64_t nb, const float *xb,
-                     float *dis,
-                     int64_t ldq = -1, int64_t ldb = -1, int64_t ldd = -1);
+void pairwise_L2sqr(
+        int64_t d,
+        int64_t nq,
+        const float* xq,
+        int64_t nb,
+        const float* xb,
+        float* dis,
+        int64_t ldq = -1,
+        int64_t ldb = -1,
+        int64_t ldd = -1);
 /* compute the inner product between nx vectors x and one y */
-void fvec_inner_products_ny (
-        float * ip,         /* output inner product */
-        const float * x,
-        const float * y,
-        size_t d, size_t ny);
+void fvec_inner_products_ny(
+        float* ip, /* output inner product */
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t ny);
 /* compute ny square L2 distance bewteen x and a set of contiguous y vectors */
-void fvec_L2sqr_ny (
-        float * dis,
-        const float * x,
-        const float * y,
-        size_t d, size_t ny);
+void fvec_L2sqr_ny(
+        float* dis,
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t ny);
 /** squared norm of a vector */
-float fvec_norm_L2sqr (const float * x,
-                       size_t d);
+float fvec_norm_L2sqr(const float* x, size_t d);
 /** compute the L2 norms for a set of vectors
  *
- * @param  ip       output norms, size nx
+ * @param  norms    output norms, size nx
  * @param  x        set of vectors, size nx * d
  */
-void fvec_norms_L2 (float * ip, const float * x, size_t d, size_t nx);
+void fvec_norms_L2(float* norms, const float* x, size_t d, size_t nx);
-/// same as fvec_norms_L2, but computes square norms
-void fvec_norms_L2sqr (float * ip, const float * x, size_t d, size_t nx);
+/// same as fvec_norms_L2, but computes squared norms
+void fvec_norms_L2sqr(float* norms, const float* x, size_t d, size_t nx);
 /* L2-renormalize a set of vector. Nothing done if the vector is 0-normed */
-void fvec_renorm_L2 (size_t d, size_t nx, float * x);
+void fvec_renorm_L2(size_t d, size_t nx, float* x);
 /* This function exists because the Torch counterpart is extremly slow
    (not multi-threaded + unexpected overhead even in single thread).
    It is here to implement the usual property |x-y|^2=|x|^2+|y|^2-2<x|y>  */
-void inner_product_to_L2sqr (float * dis,
-                             const float * nr1,
-                             const float * nr2,
-                             size_t n1, size_t n2);
+void inner_product_to_L2sqr(
+        float* dis,
+        const float* nr1,
+        const float* nr2,
+        size_t n1,
+        size_t n2);
 /***************************************************************************
  * Compute a subset of  distances
  ***************************************************************************/
- /* compute the inner product between x and a subset y of ny vectors,
-   whose indices are given by idy.  */
-void fvec_inner_products_by_idx (
-        float * ip,
-        const float * x,
-        const float * y,
-        const int64_t *ids,
-        size_t d, size_t nx, size_t ny);
+/* compute the inner product between x and a subset y of ny vectors,
+  whose indices are given by idy.  */
+void fvec_inner_products_by_idx(
+        float* ip,
+        const float* x,
+        const float* y,
+        const int64_t* ids,
+        size_t d,
+        size_t nx,
+        size_t ny);
 /* same but for a subset in y indexed by idsy (ny vectors in total) */
-void fvec_L2sqr_by_idx (
-        float * dis,
-        const float * x,
-        const float * y,
-        const int64_t *ids, /* ids of y vecs */
-        size_t d, size_t nx, size_t ny);
+void fvec_L2sqr_by_idx(
+        float* dis,
+        const float* x,
+        const float* y,
+        const int64_t* ids, /* ids of y vecs */
+        size_t d,
+        size_t nx,
+        size_t ny);
 /** compute dis[j] = L2sqr(x[ix[j]], y[iy[j]]) forall j=0..n-1
  *
@@ -136,18 +130,24 @@ void fvec_L2sqr_by_idx (
  * @param iy size n
  * @param dis size n
  */
-void pairwise_indexed_L2sqr (
-        size_t d, size_t n,
-        const float * x, const int64_t *ix,
-        const float * y, const int64_t *iy,
-        float *dis);
+void pairwise_indexed_L2sqr(
+        size_t d,
+        size_t n,
+        const float* x,
+        const int64_t* ix,
+        const float* y,
+        const int64_t* iy,
+        float* dis);
 /* same for inner product */
-void pairwise_indexed_inner_product (
-        size_t d, size_t n,
-        const float * x, const int64_t *ix,
-        const float * y, const int64_t *iy,
-        float *dis);
+void pairwise_indexed_inner_product(
+        size_t d,
+        size_t n,
+        const float* x,
+        const int64_t* ix,
+        const float* y,
+        const int64_t* iy,
+        float* dis);
 /***************************************************************************
  * KNN functions
@@ -171,46 +171,51 @@ FAISS_API extern int distance_compute_min_k_reservoir;
  * @param y    database vectors, size ny * d
  * @param res  result array, which also provides k. Sorted on output
  */
-void knn_inner_product (
-        const float * x,
-        const float * y,
-        size_t d, size_t nx, size_t ny,
-        float_minheap_array_t * res);
+void knn_inner_product(
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t nx,
+        size_t ny,
+        float_minheap_array_t* res);
 /** Same as knn_inner_product, for the L2 distance
  *  @param y_norm2    norms for the y vectors (nullptr or size ny)
  */
-void knn_L2sqr (
-        const float * x,
-        const float * y,
-        size_t d, size_t nx, size_t ny,
-        float_maxheap_array_t * res,
-        const float *y_norm2 = nullptr);
+void knn_L2sqr(
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t nx,
+        size_t ny,
+        float_maxheap_array_t* res,
+        const float* y_norm2 = nullptr);
 /* Find the nearest neighbors for nx queries in a set of ny vectors
  * indexed by ids. May be useful for re-ranking a pre-selected vector list
  */
-void knn_inner_products_by_idx (
-        const float * x,
-        const float * y,
-        const int64_t *  ids,
-        size_t d, size_t nx, size_t ny,
-        float_minheap_array_t * res);
-void knn_L2sqr_by_idx (
-        const float * x,
-        const float * y,
-        const int64_t * ids,
-        size_t d, size_t nx, size_t ny,
-        float_maxheap_array_t * res);
+void knn_inner_products_by_idx(
+        const float* x,
+        const float* y,
+        const int64_t* ids,
+        size_t d,
+        size_t nx,
+        size_t ny,
+        float_minheap_array_t* res);
+void knn_L2sqr_by_idx(
+        const float* x,
+        const float* y,
+        const int64_t* ids,
+        size_t d,
+        size_t nx,
+        size_t ny,
+        float_maxheap_array_t* res);
 /***************************************************************************
  * Range search
  ***************************************************************************/
 /// Forward declaration, see AuxIndexStructures.h
 struct RangeSearchResult;
@@ -222,21 +227,24 @@ struct RangeSearchResult;
  * @param radius search radius around the x vectors
  * @param result result structure
  */
-void range_search_L2sqr (
-        const float * x,
-        const float * y,
-        size_t d, size_t nx, size_t ny,
+void range_search_L2sqr(
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t nx,
+        size_t ny,
         float radius,
-        RangeSearchResult *result);
+        RangeSearchResult* result);
 /// same as range_search_L2sqr for the inner product similarity
-void range_search_inner_product (
-        const float * x,
-        const float * y,
-        size_t d, size_t nx, size_t ny,
+void range_search_inner_product(
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t nx,
+        size_t ny,
         float radius,
-        RangeSearchResult *result);
+        RangeSearchResult* result);
 /***************************************************************************
  * PQ tables computations
@@ -244,9 +252,16 @@ void range_search_inner_product (
 /// specialized function for PQ2
 void compute_PQ_dis_tables_dsub2(
-        size_t d, size_t ksub, const float *centroids,
-        size_t nx, const float * x,
+        size_t d,
+        size_t ksub,
+        const float* centroids,
+        size_t nx,
+        const float* x,
         bool is_inner_product,
-        float * dis_tables);
+        float* dis_tables);
+/***************************************************************************
+ * Templatized versions of distance functions
+ ***************************************************************************/
 } // namespace faiss

data/vendor/faiss/faiss/utils/distances_simd.cpp CHANGED Viewed

@@ -9,13 +9,14 @@
 #include <faiss/utils/distances.h>
-#include <cstdio>
 #include <cassert>
-#include <cstring>
 #include <cmath>
+#include <cstdio>
+#include <cstring>
-#include <faiss/utils/simdlib.h>
 #include <faiss/impl/FaissAssert.h>
+#include <faiss/impl/platform_macros.h>
+#include <faiss/utils/simdlib.h>
 #ifdef __SSE3__
 #include <immintrin.h>
@@ -25,19 +26,16 @@
 #include <arm_neon.h>
 #endif
 namespace faiss {
 #ifdef __AVX__
 #define USE_AVX
 #endif
 /*********************************************************
  * Optimized distance computations
  *********************************************************/
 /* Functions to compute:
    - L2 distance between 2 vectors
    - inner product between 2 vectors
@@ -53,29 +51,21 @@ namespace faiss {
 */
 /*********************************************************
  * Reference implementations
  */
-float fvec_L2sqr_ref (const float * x,
-                     const float * y,
-                     size_t d)
-{
+float fvec_L2sqr_ref(const float* x, const float* y, size_t d) {
     size_t i;
     float res = 0;
     for (i = 0; i < d; i++) {
         const float tmp = x[i] - y[i];
-       res += tmp * tmp;
+        res += tmp * tmp;
     }
     return res;
 }
-float fvec_L1_ref (const float * x,
-                   const float * y,
-                   size_t d)
-{
+float fvec_L1_ref(const float* x, const float* y, size_t d) {
     size_t i;
     float res = 0;
     for (i = 0; i < d; i++) {
@@ -85,56 +75,49 @@ float fvec_L1_ref (const float * x,
     return res;
 }
-float fvec_Linf_ref (const float * x,
-                     const float * y,
-                     size_t d)
-{
+float fvec_Linf_ref(const float* x, const float* y, size_t d) {
     size_t i;
     float res = 0;
     for (i = 0; i < d; i++) {
-      res = fmax(res, fabs(x[i] - y[i]));
+        res = fmax(res, fabs(x[i] - y[i]));
     }
     return res;
 }
-float fvec_inner_product_ref (const float * x,
-                             const float * y,
-                             size_t d)
-{
+float fvec_inner_product_ref(const float* x, const float* y, size_t d) {
     size_t i;
     float res = 0;
     for (i = 0; i < d; i++)
-       res += x[i] * y[i];
+        res += x[i] * y[i];
     return res;
 }
-float fvec_norm_L2sqr_ref (const float *x, size_t d)
-{
+float fvec_norm_L2sqr_ref(const float* x, size_t d) {
     size_t i;
     double res = 0;
     for (i = 0; i < d; i++)
-       res += x[i] * x[i];
+        res += x[i] * x[i];
     return res;
 }
-void fvec_L2sqr_ny_ref (float * dis,
-                    const float * x,
-                    const float * y,
-                    size_t d, size_t ny)
-{
+void fvec_L2sqr_ny_ref(
+        float* dis,
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t ny) {
     for (size_t i = 0; i < ny; i++) {
-        dis[i] = fvec_L2sqr (x, y, d);
+        dis[i] = fvec_L2sqr(x, y, d);
         y += d;
     }
 }
-void fvec_inner_products_ny_ref (float * ip,
-                             const float * x,
-                             const float * y,
-                             size_t d, size_t ny)
-{
+void fvec_inner_products_ny_ref(
+        float* ip,
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t ny) {
     // BLAS slower for the use cases here
 #if 0
     {
@@ -146,15 +129,11 @@ void fvec_inner_products_ny_ref (float * ip,
     }
 #endif
     for (size_t i = 0; i < ny; i++) {
-        ip[i] = fvec_inner_product (x, y, d);
+        ip[i] = fvec_inner_product(x, y, d);
         y += d;
     }
 }
 /*********************************************************
  * SSE and AVX implementations
  */
@@ -162,40 +141,38 @@ void fvec_inner_products_ny_ref (float * ip,
 #ifdef __SSE3__
 // reads 0 <= d < 4 floats as __m128
-static inline __m128 masked_read (int d, const float *x)
-{
-    assert (0 <= d && d < 4);
-    __attribute__((__aligned__(16))) float buf[4] = {0, 0, 0, 0};
+static inline __m128 masked_read(int d, const float* x) {
+    assert(0 <= d && d < 4);
+    ALIGNED(16) float buf[4] = {0, 0, 0, 0};
     switch (d) {
-      case 3:
-        buf[2] = x[2];
-      case 2:
-        buf[1] = x[1];
-      case 1:
-        buf[0] = x[0];
-    }
-    return _mm_load_ps (buf);
+        case 3:
+            buf[2] = x[2];
+        case 2:
+            buf[1] = x[1];
+        case 1:
+            buf[0] = x[0];
+    }
+    return _mm_load_ps(buf);
     // cannot use AVX2 _mm_mask_set1_epi32
 }
-float fvec_norm_L2sqr (const float *  x,
-                      size_t d)
-{
+float fvec_norm_L2sqr(const float* x, size_t d) {
     __m128 mx;
     __m128 msum1 = _mm_setzero_ps();
     while (d >= 4) {
-        mx = _mm_loadu_ps (x); x += 4;
-        msum1 = _mm_add_ps (msum1, _mm_mul_ps (mx, mx));
+        mx = _mm_loadu_ps(x);
+        x += 4;
+        msum1 = _mm_add_ps(msum1, _mm_mul_ps(mx, mx));
         d -= 4;
     }
-    mx = masked_read (d, x);
-    msum1 = _mm_add_ps (msum1, _mm_mul_ps (mx, mx));
+    mx = masked_read(d, x);
+    msum1 = _mm_add_ps(msum1, _mm_mul_ps(mx, mx));
-    msum1 = _mm_hadd_ps (msum1, msum1);
-    msum1 = _mm_hadd_ps (msum1, msum1);
-    return  _mm_cvtss_f32 (msum1);
+    msum1 = _mm_hadd_ps(msum1, msum1);
+    msum1 = _mm_hadd_ps(msum1, msum1);
+    return _mm_cvtss_f32(msum1);
 }
 namespace {
@@ -204,586 +181,588 @@ namespace {
 /// to compute L2 distances. ElementOp can then be used in the fvec_op_ny
 /// functions below
 struct ElementOpL2 {
-    static float op (float x, float y) {
+    static float op(float x, float y) {
         float tmp = x - y;
         return tmp * tmp;
     }
-    static __m128 op (__m128 x, __m128 y) {
-        __m128 tmp = x - y;
-        return tmp * tmp;
+    static __m128 op(__m128 x, __m128 y) {
+        __m128 tmp = _mm_sub_ps(x, y);
+        return _mm_mul_ps(tmp, tmp);
     }
 };
 /// Function that does a component-wise operation between x and y
 /// to compute inner products
 struct ElementOpIP {
-    static float op (float x, float y) {
+    static float op(float x, float y) {
         return x * y;
     }
-    static __m128 op (__m128 x, __m128 y) {
-        return x * y;
+    static __m128 op(__m128 x, __m128 y) {
+        return _mm_mul_ps(x, y);
     }
 };
-template<class ElementOp>
-void fvec_op_ny_D1 (float * dis, const float * x,
-                       const float * y, size_t ny)
-{
+template <class ElementOp>
+void fvec_op_ny_D1(float* dis, const float* x, const float* y, size_t ny) {
     float x0s = x[0];
-    __m128 x0 = _mm_set_ps (x0s, x0s, x0s, x0s);
+    __m128 x0 = _mm_set_ps(x0s, x0s, x0s, x0s);
     size_t i;
     for (i = 0; i + 3 < ny; i += 4) {
-        __m128 accu = ElementOp::op(x0, _mm_loadu_ps (y)); y += 4;
-        dis[i] = _mm_cvtss_f32 (accu);
-        __m128 tmp = _mm_shuffle_ps (accu, accu, 1);
-        dis[i + 1] = _mm_cvtss_f32 (tmp);
-        tmp = _mm_shuffle_ps (accu, accu, 2);
-        dis[i + 2] = _mm_cvtss_f32 (tmp);
-        tmp = _mm_shuffle_ps (accu, accu, 3);
-        dis[i + 3] = _mm_cvtss_f32 (tmp);
+        __m128 accu = ElementOp::op(x0, _mm_loadu_ps(y));
+        y += 4;
+        dis[i] = _mm_cvtss_f32(accu);
+        __m128 tmp = _mm_shuffle_ps(accu, accu, 1);
+        dis[i + 1] = _mm_cvtss_f32(tmp);
+        tmp = _mm_shuffle_ps(accu, accu, 2);
+        dis[i + 2] = _mm_cvtss_f32(tmp);
+        tmp = _mm_shuffle_ps(accu, accu, 3);
+        dis[i + 3] = _mm_cvtss_f32(tmp);
     }
     while (i < ny) { // handle non-multiple-of-4 case
         dis[i++] = ElementOp::op(x0s, *y++);
     }
 }
-template<class ElementOp>
-void fvec_op_ny_D2 (float * dis, const float * x,
-                       const float * y, size_t ny)
-{
-    __m128 x0 = _mm_set_ps (x[1], x[0], x[1], x[0]);
+template <class ElementOp>
+void fvec_op_ny_D2(float* dis, const float* x, const float* y, size_t ny) {
+    __m128 x0 = _mm_set_ps(x[1], x[0], x[1], x[0]);
     size_t i;
     for (i = 0; i + 1 < ny; i += 2) {
-        __m128 accu = ElementOp::op(x0, _mm_loadu_ps (y)); y += 4;
-        accu = _mm_hadd_ps (accu, accu);
-        dis[i] = _mm_cvtss_f32 (accu);
-        accu = _mm_shuffle_ps (accu, accu, 3);
-        dis[i + 1] = _mm_cvtss_f32 (accu);
+        __m128 accu = ElementOp::op(x0, _mm_loadu_ps(y));
+        y += 4;
+        accu = _mm_hadd_ps(accu, accu);
+        dis[i] = _mm_cvtss_f32(accu);
+        accu = _mm_shuffle_ps(accu, accu, 3);
+        dis[i + 1] = _mm_cvtss_f32(accu);
     }
     if (i < ny) { // handle odd case
         dis[i] = ElementOp::op(x[0], y[0]) + ElementOp::op(x[1], y[1]);
     }
 }
-template<class ElementOp>
-void fvec_op_ny_D4 (float * dis, const float * x,
-                        const float * y, size_t ny)
-{
+template <class ElementOp>
+void fvec_op_ny_D4(float* dis, const float* x, const float* y, size_t ny) {
     __m128 x0 = _mm_loadu_ps(x);
     for (size_t i = 0; i < ny; i++) {
-        __m128 accu = ElementOp::op(x0, _mm_loadu_ps (y)); y += 4;
-        accu = _mm_hadd_ps (accu, accu);
-        accu = _mm_hadd_ps (accu, accu);
-        dis[i] = _mm_cvtss_f32 (accu);
+        __m128 accu = ElementOp::op(x0, _mm_loadu_ps(y));
+        y += 4;
+        accu = _mm_hadd_ps(accu, accu);
+        accu = _mm_hadd_ps(accu, accu);
+        dis[i] = _mm_cvtss_f32(accu);
     }
 }
-template<class ElementOp>
-void fvec_op_ny_D8 (float * dis, const float * x,
-                        const float * y, size_t ny)
-{
+template <class ElementOp>
+void fvec_op_ny_D8(float* dis, const float* x, const float* y, size_t ny) {
     __m128 x0 = _mm_loadu_ps(x);
     __m128 x1 = _mm_loadu_ps(x + 4);
     for (size_t i = 0; i < ny; i++) {
-        __m128 accu = ElementOp::op(x0, _mm_loadu_ps (y)); y += 4;
-        accu       += ElementOp::op(x1, _mm_loadu_ps (y)); y += 4;
-        accu = _mm_hadd_ps (accu, accu);
-        accu = _mm_hadd_ps (accu, accu);
-        dis[i] = _mm_cvtss_f32 (accu);
+        __m128 accu = ElementOp::op(x0, _mm_loadu_ps(y));
+        y += 4;
+        accu = _mm_add_ps(accu, ElementOp::op(x1, _mm_loadu_ps(y)));
+        y += 4;
+        accu = _mm_hadd_ps(accu, accu);
+        accu = _mm_hadd_ps(accu, accu);
+        dis[i] = _mm_cvtss_f32(accu);
     }
 }
-template<class ElementOp>
-void fvec_op_ny_D12 (float * dis, const float * x,
-                        const float * y, size_t ny)
-{
+template <class ElementOp>
+void fvec_op_ny_D12(float* dis, const float* x, const float* y, size_t ny) {
     __m128 x0 = _mm_loadu_ps(x);
     __m128 x1 = _mm_loadu_ps(x + 4);
     __m128 x2 = _mm_loadu_ps(x + 8);
     for (size_t i = 0; i < ny; i++) {
-        __m128 accu = ElementOp::op(x0, _mm_loadu_ps (y)); y += 4;
-        accu       += ElementOp::op(x1, _mm_loadu_ps (y)); y += 4;
-        accu       += ElementOp::op(x2, _mm_loadu_ps (y)); y += 4;
-        accu = _mm_hadd_ps (accu, accu);
-        accu = _mm_hadd_ps (accu, accu);
-        dis[i] = _mm_cvtss_f32 (accu);
+        __m128 accu = ElementOp::op(x0, _mm_loadu_ps(y));
+        y += 4;
+        accu = _mm_add_ps(accu, ElementOp::op(x1, _mm_loadu_ps(y)));
+        y += 4;
+        accu = _mm_add_ps(accu, ElementOp::op(x2, _mm_loadu_ps(y)));
+        y += 4;
+        accu = _mm_hadd_ps(accu, accu);
+        accu = _mm_hadd_ps(accu, accu);
+        dis[i] = _mm_cvtss_f32(accu);
     }
 }
 } // anonymous namespace
-void fvec_L2sqr_ny (float * dis, const float * x,
-                        const float * y, size_t d, size_t ny) {
+void fvec_L2sqr_ny(
+        float* dis,
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t ny) {
     // optimized for a few special cases
-#define DISPATCH(dval) \
-    case dval:\
-        fvec_op_ny_D ## dval <ElementOpL2> (dis, x, y, ny); \
+#define DISPATCH(dval)                                  \
+    case dval:                                          \
+        fvec_op_ny_D##dval<ElementOpL2>(dis, x, y, ny); \
         return;
-    switch(d) {
+    switch (d) {
         DISPATCH(1)
         DISPATCH(2)
         DISPATCH(4)
         DISPATCH(8)
         DISPATCH(12)
-    default:
-        fvec_L2sqr_ny_ref (dis, x, y, d, ny);
-        return;
+        default:
+            fvec_L2sqr_ny_ref(dis, x, y, d, ny);
+            return;
     }
 #undef DISPATCH
 }
-void fvec_inner_products_ny (float * dis, const float * x,
-                        const float * y, size_t d, size_t ny) {
-#define DISPATCH(dval) \
-    case dval:\
-        fvec_op_ny_D ## dval <ElementOpIP> (dis, x, y, ny); \
+void fvec_inner_products_ny(
+        float* dis,
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t ny) {
+#define DISPATCH(dval)                                  \
+    case dval:                                          \
+        fvec_op_ny_D##dval<ElementOpIP>(dis, x, y, ny); \
         return;
-    switch(d) {
+    switch (d) {
         DISPATCH(1)
         DISPATCH(2)
         DISPATCH(4)
         DISPATCH(8)
         DISPATCH(12)
-    default:
-        fvec_inner_products_ny_ref (dis, x, y, d, ny);
-        return;
+        default:
+            fvec_inner_products_ny_ref(dis, x, y, d, ny);
+            return;
     }
 #undef DISPATCH
 }
 #endif
 #ifdef USE_AVX
 // reads 0 <= d < 8 floats as __m256
-static inline __m256 masked_read_8 (int d, const float *x)
-{
-    assert (0 <= d && d < 8);
+static inline __m256 masked_read_8(int d, const float* x) {
+    assert(0 <= d && d < 8);
     if (d < 4) {
-        __m256 res = _mm256_setzero_ps ();
-        res = _mm256_insertf128_ps (res, masked_read (d, x), 0);
+        __m256 res = _mm256_setzero_ps();
+        res = _mm256_insertf128_ps(res, masked_read(d, x), 0);
         return res;
     } else {
-        __m256 res = _mm256_setzero_ps ();
-        res = _mm256_insertf128_ps (res, _mm_loadu_ps (x), 0);
-        res = _mm256_insertf128_ps (res, masked_read (d - 4, x + 4), 1);
+        __m256 res = _mm256_setzero_ps();
+        res = _mm256_insertf128_ps(res, _mm_loadu_ps(x), 0);
+        res = _mm256_insertf128_ps(res, masked_read(d - 4, x + 4), 1);
         return res;
     }
 }
-float fvec_inner_product (const float * x,
-                          const float * y,
-                          size_t d)
-{
+float fvec_inner_product(const float* x, const float* y, size_t d) {
     __m256 msum1 = _mm256_setzero_ps();
     while (d >= 8) {
-        __m256 mx = _mm256_loadu_ps (x); x += 8;
-        __m256 my = _mm256_loadu_ps (y); y += 8;
-        msum1 = _mm256_add_ps (msum1, _mm256_mul_ps (mx, my));
+        __m256 mx = _mm256_loadu_ps(x);
+        x += 8;
+        __m256 my = _mm256_loadu_ps(y);
+        y += 8;
+        msum1 = _mm256_add_ps(msum1, _mm256_mul_ps(mx, my));
         d -= 8;
     }
     __m128 msum2 = _mm256_extractf128_ps(msum1, 1);
-    msum2 +=       _mm256_extractf128_ps(msum1, 0);
+    msum2 = _mm_add_ps(msum2, _mm256_extractf128_ps(msum1, 0));
     if (d >= 4) {
-        __m128 mx = _mm_loadu_ps (x); x += 4;
-        __m128 my = _mm_loadu_ps (y); y += 4;
-        msum2 = _mm_add_ps (msum2, _mm_mul_ps (mx, my));
+        __m128 mx = _mm_loadu_ps(x);
+        x += 4;
+        __m128 my = _mm_loadu_ps(y);
+        y += 4;
+        msum2 = _mm_add_ps(msum2, _mm_mul_ps(mx, my));
         d -= 4;
     }
     if (d > 0) {
-        __m128 mx = masked_read (d, x);
-        __m128 my = masked_read (d, y);
-        msum2 = _mm_add_ps (msum2, _mm_mul_ps (mx, my));
+        __m128 mx = masked_read(d, x);
+        __m128 my = masked_read(d, y);
+        msum2 = _mm_add_ps(msum2, _mm_mul_ps(mx, my));
     }
-    msum2 = _mm_hadd_ps (msum2, msum2);
-    msum2 = _mm_hadd_ps (msum2, msum2);
-    return  _mm_cvtss_f32 (msum2);
+    msum2 = _mm_hadd_ps(msum2, msum2);
+    msum2 = _mm_hadd_ps(msum2, msum2);
+    return _mm_cvtss_f32(msum2);
 }
-float fvec_L2sqr (const float * x,
-                 const float * y,
-                 size_t d)
-{
+float fvec_L2sqr(const float* x, const float* y, size_t d) {
     __m256 msum1 = _mm256_setzero_ps();
     while (d >= 8) {
-        __m256 mx = _mm256_loadu_ps (x); x += 8;
-        __m256 my = _mm256_loadu_ps (y); y += 8;
-        const __m256 a_m_b1 = mx - my;
-        msum1 += a_m_b1 * a_m_b1;
+        __m256 mx = _mm256_loadu_ps(x);
+        x += 8;
+        __m256 my = _mm256_loadu_ps(y);
+        y += 8;
+        const __m256 a_m_b1 = _mm256_sub_ps(mx, my);
+        msum1 = _mm256_add_ps(msum1, _mm256_mul_ps(a_m_b1, a_m_b1));
         d -= 8;
     }
     __m128 msum2 = _mm256_extractf128_ps(msum1, 1);
-    msum2 +=       _mm256_extractf128_ps(msum1, 0);
+    msum2 = _mm_add_ps(msum2, _mm256_extractf128_ps(msum1, 0));
     if (d >= 4) {
-        __m128 mx = _mm_loadu_ps (x); x += 4;
-        __m128 my = _mm_loadu_ps (y); y += 4;
-        const __m128 a_m_b1 = mx - my;
-        msum2 += a_m_b1 * a_m_b1;
+        __m128 mx = _mm_loadu_ps(x);
+        x += 4;
+        __m128 my = _mm_loadu_ps(y);
+        y += 4;
+        const __m128 a_m_b1 = _mm_sub_ps(mx, my);
+        msum2 = _mm_add_ps(msum2, _mm_mul_ps(a_m_b1, a_m_b1));
         d -= 4;
     }
     if (d > 0) {
-        __m128 mx = masked_read (d, x);
-        __m128 my = masked_read (d, y);
-        __m128 a_m_b1 = mx - my;
-        msum2 += a_m_b1 * a_m_b1;
+        __m128 mx = masked_read(d, x);
+        __m128 my = masked_read(d, y);
+        __m128 a_m_b1 = _mm_sub_ps(mx, my);
+        msum2 = _mm_add_ps(msum2, _mm_mul_ps(a_m_b1, a_m_b1));
     }
-    msum2 = _mm_hadd_ps (msum2, msum2);
-    msum2 = _mm_hadd_ps (msum2, msum2);
-    return  _mm_cvtss_f32 (msum2);
+    msum2 = _mm_hadd_ps(msum2, msum2);
+    msum2 = _mm_hadd_ps(msum2, msum2);
+    return _mm_cvtss_f32(msum2);
 }
-float fvec_L1 (const float * x, const float * y, size_t d)
-{
+float fvec_L1(const float* x, const float* y, size_t d) {
     __m256 msum1 = _mm256_setzero_ps();
-    __m256 signmask = __m256(_mm256_set1_epi32 (0x7fffffffUL));
+    __m256 signmask = _mm256_castsi256_ps(_mm256_set1_epi32(0x7fffffffUL));
     while (d >= 8) {
-        __m256 mx = _mm256_loadu_ps (x); x += 8;
-        __m256 my = _mm256_loadu_ps (y); y += 8;
-        const __m256 a_m_b = mx - my;
-        msum1 += _mm256_and_ps(signmask, a_m_b);
+        __m256 mx = _mm256_loadu_ps(x);
+        x += 8;
+        __m256 my = _mm256_loadu_ps(y);
+        y += 8;
+        const __m256 a_m_b = _mm256_sub_ps(mx, my);
+        msum1 = _mm256_add_ps(msum1, _mm256_and_ps(signmask, a_m_b));
         d -= 8;
     }
     __m128 msum2 = _mm256_extractf128_ps(msum1, 1);
-    msum2 +=       _mm256_extractf128_ps(msum1, 0);
-    __m128 signmask2 = __m128(_mm_set1_epi32 (0x7fffffffUL));
+    msum2 = _mm_add_ps(msum2, _mm256_extractf128_ps(msum1, 0));
+    __m128 signmask2 = _mm_castsi128_ps(_mm_set1_epi32(0x7fffffffUL));
     if (d >= 4) {
-        __m128 mx = _mm_loadu_ps (x); x += 4;
-        __m128 my = _mm_loadu_ps (y); y += 4;
-        const __m128 a_m_b = mx - my;
-        msum2 += _mm_and_ps(signmask2, a_m_b);
+        __m128 mx = _mm_loadu_ps(x);
+        x += 4;
+        __m128 my = _mm_loadu_ps(y);
+        y += 4;
+        const __m128 a_m_b = _mm_sub_ps(mx, my);
+        msum2 = _mm_add_ps(msum2, _mm_and_ps(signmask2, a_m_b));
         d -= 4;
     }
     if (d > 0) {
-        __m128 mx = masked_read (d, x);
-        __m128 my = masked_read (d, y);
-        __m128 a_m_b = mx - my;
-        msum2 += _mm_and_ps(signmask2, a_m_b);
+        __m128 mx = masked_read(d, x);
+        __m128 my = masked_read(d, y);
+        __m128 a_m_b = _mm_sub_ps(mx, my);
+        msum2 = _mm_add_ps(msum2, _mm_and_ps(signmask2, a_m_b));
     }
-    msum2 = _mm_hadd_ps (msum2, msum2);
-    msum2 = _mm_hadd_ps (msum2, msum2);
-    return  _mm_cvtss_f32 (msum2);
+    msum2 = _mm_hadd_ps(msum2, msum2);
+    msum2 = _mm_hadd_ps(msum2, msum2);
+    return _mm_cvtss_f32(msum2);
 }
-float fvec_Linf (const float * x, const float * y, size_t d)
-{
+float fvec_Linf(const float* x, const float* y, size_t d) {
     __m256 msum1 = _mm256_setzero_ps();
-    __m256 signmask = __m256(_mm256_set1_epi32 (0x7fffffffUL));
+    __m256 signmask = _mm256_castsi256_ps(_mm256_set1_epi32(0x7fffffffUL));
     while (d >= 8) {
-        __m256 mx = _mm256_loadu_ps (x); x += 8;
-        __m256 my = _mm256_loadu_ps (y); y += 8;
-        const __m256 a_m_b = mx - my;
+        __m256 mx = _mm256_loadu_ps(x);
+        x += 8;
+        __m256 my = _mm256_loadu_ps(y);
+        y += 8;
+        const __m256 a_m_b = _mm256_sub_ps(mx, my);
         msum1 = _mm256_max_ps(msum1, _mm256_and_ps(signmask, a_m_b));
         d -= 8;
     }
     __m128 msum2 = _mm256_extractf128_ps(msum1, 1);
-    msum2 = _mm_max_ps (msum2, _mm256_extractf128_ps(msum1, 0));
-    __m128 signmask2 = __m128(_mm_set1_epi32 (0x7fffffffUL));
+    msum2 = _mm_max_ps(msum2, _mm256_extractf128_ps(msum1, 0));
+    __m128 signmask2 = _mm_castsi128_ps(_mm_set1_epi32(0x7fffffffUL));
     if (d >= 4) {
-        __m128 mx = _mm_loadu_ps (x); x += 4;
-        __m128 my = _mm_loadu_ps (y); y += 4;
-        const __m128 a_m_b = mx - my;
+        __m128 mx = _mm_loadu_ps(x);
+        x += 4;
+        __m128 my = _mm_loadu_ps(y);
+        y += 4;
+        const __m128 a_m_b = _mm_sub_ps(mx, my);
         msum2 = _mm_max_ps(msum2, _mm_and_ps(signmask2, a_m_b));
         d -= 4;
     }
     if (d > 0) {
-        __m128 mx = masked_read (d, x);
-        __m128 my = masked_read (d, y);
-        __m128 a_m_b = mx - my;
+        __m128 mx = masked_read(d, x);
+        __m128 my = masked_read(d, y);
+        __m128 a_m_b = _mm_sub_ps(mx, my);
         msum2 = _mm_max_ps(msum2, _mm_and_ps(signmask2, a_m_b));
     }
     msum2 = _mm_max_ps(_mm_movehl_ps(msum2, msum2), msum2);
-    msum2 = _mm_max_ps(msum2, _mm_shuffle_ps (msum2, msum2, 1));
-    return  _mm_cvtss_f32 (msum2);
+    msum2 = _mm_max_ps(msum2, _mm_shuffle_ps(msum2, msum2, 1));
+    return _mm_cvtss_f32(msum2);
 }
 #elif defined(__SSE3__) // But not AVX
-float fvec_L1 (const float * x, const float * y, size_t d)
-{
-    return fvec_L1_ref (x, y, d);
+float fvec_L1(const float* x, const float* y, size_t d) {
+    return fvec_L1_ref(x, y, d);
 }
-float fvec_Linf (const float * x, const float * y, size_t d)
-{
-    return fvec_Linf_ref (x, y, d);
+float fvec_Linf(const float* x, const float* y, size_t d) {
+    return fvec_Linf_ref(x, y, d);
 }
-float fvec_L2sqr (const float * x,
-                 const float * y,
-                 size_t d)
-{
+float fvec_L2sqr(const float* x, const float* y, size_t d) {
     __m128 msum1 = _mm_setzero_ps();
     while (d >= 4) {
-        __m128 mx = _mm_loadu_ps (x); x += 4;
-        __m128 my = _mm_loadu_ps (y); y += 4;
-        const __m128 a_m_b1 = mx - my;
-        msum1 += a_m_b1 * a_m_b1;
+        __m128 mx = _mm_loadu_ps(x);
+        x += 4;
+        __m128 my = _mm_loadu_ps(y);
+        y += 4;
+        const __m128 a_m_b1 = _mm_sub_ps(mx, my);
+        msum1 = _mm_add_ps(msum1, _mm_mul_ps(a_m_b1, a_m_b1));
         d -= 4;
     }
     if (d > 0) {
         // add the last 1, 2 or 3 values
-        __m128 mx = masked_read (d, x);
-        __m128 my = masked_read (d, y);
-        __m128 a_m_b1 = mx - my;
-        msum1 += a_m_b1 * a_m_b1;
+        __m128 mx = masked_read(d, x);
+        __m128 my = masked_read(d, y);
+        __m128 a_m_b1 = _mm_sub_ps(mx, my);
+        msum1 = _mm_add_ps(msum1, _mm_mul_ps(a_m_b1, a_m_b1));
     }
-    msum1 = _mm_hadd_ps (msum1, msum1);
-    msum1 = _mm_hadd_ps (msum1, msum1);
-    return  _mm_cvtss_f32 (msum1);
+    msum1 = _mm_hadd_ps(msum1, msum1);
+    msum1 = _mm_hadd_ps(msum1, msum1);
+    return _mm_cvtss_f32(msum1);
 }
-float fvec_inner_product (const float * x,
-                         const float * y,
-                         size_t d)
-{
+float fvec_inner_product(const float* x, const float* y, size_t d) {
     __m128 mx, my;
     __m128 msum1 = _mm_setzero_ps();
     while (d >= 4) {
-        mx = _mm_loadu_ps (x); x += 4;
-        my = _mm_loadu_ps (y); y += 4;
-        msum1 = _mm_add_ps (msum1, _mm_mul_ps (mx, my));
+        mx = _mm_loadu_ps(x);
+        x += 4;
+        my = _mm_loadu_ps(y);
+        y += 4;
+        msum1 = _mm_add_ps(msum1, _mm_mul_ps(mx, my));
         d -= 4;
     }
     // add the last 1, 2, or 3 values
-    mx = masked_read (d, x);
-    my = masked_read (d, y);
-    __m128 prod = _mm_mul_ps (mx, my);
+    mx = masked_read(d, x);
+    my = masked_read(d, y);
+    __m128 prod = _mm_mul_ps(mx, my);
-    msum1 = _mm_add_ps (msum1, prod);
+    msum1 = _mm_add_ps(msum1, prod);
-    msum1 = _mm_hadd_ps (msum1, msum1);
-    msum1 = _mm_hadd_ps (msum1, msum1);
-    return  _mm_cvtss_f32 (msum1);
+    msum1 = _mm_hadd_ps(msum1, msum1);
+    msum1 = _mm_hadd_ps(msum1, msum1);
+    return _mm_cvtss_f32(msum1);
 }
 #elif defined(__aarch64__)
-float fvec_L2sqr (const float * x,
-                  const float * y,
-                  size_t d)
-{
-    if (d & 3) return fvec_L2sqr_ref (x, y, d);
-    float32x4_t accu = vdupq_n_f32 (0);
-    for (size_t i = 0; i < d; i += 4) {
-        float32x4_t xi = vld1q_f32 (x + i);
-        float32x4_t yi = vld1q_f32 (y + i);
-        float32x4_t sq = vsubq_f32 (xi, yi);
-        accu = vfmaq_f32 (accu, sq, sq);
+float fvec_L2sqr(const float* x, const float* y, size_t d) {
+    float32x4_t accux4 = vdupq_n_f32(0);
+    const size_t d_simd = d - (d & 3);
+    size_t i;
+    for (i = 0; i < d_simd; i += 4) {
+        float32x4_t xi = vld1q_f32(x + i);
+        float32x4_t yi = vld1q_f32(y + i);
+        float32x4_t sq = vsubq_f32(xi, yi);
+        accux4 = vfmaq_f32(accux4, sq, sq);
+    }
+    float32x4_t accux2 = vpaddq_f32(accux4, accux4);
+    float32_t accux1 = vdups_laneq_f32(accux2, 0) + vdups_laneq_f32(accux2, 1);
+    for (; i < d; ++i) {
+        float32_t xi = x[i];
+        float32_t yi = y[i];
+        float32_t sq = xi - yi;
+        accux1 += sq * sq;
+    }
+    return accux1;
+}
+float fvec_inner_product(const float* x, const float* y, size_t d) {
+    float32x4_t accux4 = vdupq_n_f32(0);
+    const size_t d_simd = d - (d & 3);
+    size_t i;
+    for (i = 0; i < d_simd; i += 4) {
+        float32x4_t xi = vld1q_f32(x + i);
+        float32x4_t yi = vld1q_f32(y + i);
+        accux4 = vfmaq_f32(accux4, xi, yi);
     }
-    float32x4_t a2 = vpaddq_f32 (accu, accu);
-    return vdups_laneq_f32 (a2, 0) + vdups_laneq_f32 (a2, 1);
-}
-float fvec_inner_product (const float * x,
-                          const float * y,
-                          size_t d)
-{
-    if (d & 3) return fvec_inner_product_ref (x, y, d);
-    float32x4_t accu = vdupq_n_f32 (0);
-    for (size_t i = 0; i < d; i += 4) {
-        float32x4_t xi = vld1q_f32 (x + i);
-        float32x4_t yi = vld1q_f32 (y + i);
-        accu = vfmaq_f32 (accu, xi, yi);
+    float32x4_t accux2 = vpaddq_f32(accux4, accux4);
+    float32_t accux1 = vdups_laneq_f32(accux2, 0) + vdups_laneq_f32(accux2, 1);
+    for (; i < d; ++i) {
+        float32_t xi = x[i];
+        float32_t yi = y[i];
+        accux1 += xi * yi;
     }
-    float32x4_t a2 = vpaddq_f32 (accu, accu);
-    return vdups_laneq_f32 (a2, 0) + vdups_laneq_f32 (a2, 1);
+    return accux1;
 }
-float fvec_norm_L2sqr (const float *x, size_t d)
-{
-    if (d & 3) return fvec_norm_L2sqr_ref (x, d);
-    float32x4_t accu = vdupq_n_f32 (0);
-    for (size_t i = 0; i < d; i += 4) {
-        float32x4_t xi = vld1q_f32 (x + i);
-        accu = vfmaq_f32 (accu, xi, xi);
+float fvec_norm_L2sqr(const float* x, size_t d) {
+    float32x4_t accux4 = vdupq_n_f32(0);
+    const size_t d_simd = d - (d & 3);
+    size_t i;
+    for (i = 0; i < d_simd; i += 4) {
+        float32x4_t xi = vld1q_f32(x + i);
+        accux4 = vfmaq_f32(accux4, xi, xi);
     }
-    float32x4_t a2 = vpaddq_f32 (accu, accu);
-    return vdups_laneq_f32 (a2, 0) + vdups_laneq_f32 (a2, 1);
+    float32x4_t accux2 = vpaddq_f32(accux4, accux4);
+    float32_t accux1 = vdups_laneq_f32(accux2, 0) + vdups_laneq_f32(accux2, 1);
+    for (; i < d; ++i) {
+        float32_t xi = x[i];
+        accux1 += xi * xi;
+    }
+    return accux1;
 }
 // not optimized for ARM
-void fvec_L2sqr_ny (float * dis, const float * x,
-                        const float * y, size_t d, size_t ny) {
-    fvec_L2sqr_ny_ref (dis, x, y, d, ny);
+void fvec_L2sqr_ny(
+        float* dis,
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t ny) {
+    fvec_L2sqr_ny_ref(dis, x, y, d, ny);
 }
-float fvec_L1 (const float * x, const float * y, size_t d)
-{
-    return fvec_L1_ref (x, y, d);
+float fvec_L1(const float* x, const float* y, size_t d) {
+    return fvec_L1_ref(x, y, d);
 }
-float fvec_Linf (const float * x, const float * y, size_t d)
-{
-    return fvec_Linf_ref (x, y, d);
+float fvec_Linf(const float* x, const float* y, size_t d) {
+    return fvec_Linf_ref(x, y, d);
 }
+void fvec_inner_products_ny(
+        float* dis,
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t ny) {
+    fvec_inner_products_ny_ref(dis, x, y, d, ny);
+}
 #else
 // scalar implementation
-float fvec_L2sqr (const float * x,
-                  const float * y,
-                  size_t d)
-{
-    return fvec_L2sqr_ref (x, y, d);
+float fvec_L2sqr(const float* x, const float* y, size_t d) {
+    return fvec_L2sqr_ref(x, y, d);
 }
-float fvec_L1 (const float * x, const float * y, size_t d)
-{
-    return fvec_L1_ref (x, y, d);
+float fvec_L1(const float* x, const float* y, size_t d) {
+    return fvec_L1_ref(x, y, d);
 }
-float fvec_Linf (const float * x, const float * y, size_t d)
-{
-    return fvec_Linf_ref (x, y, d);
+float fvec_Linf(const float* x, const float* y, size_t d) {
+    return fvec_Linf_ref(x, y, d);
 }
-float fvec_inner_product (const float * x,
-                             const float * y,
-                             size_t d)
-{
-    return fvec_inner_product_ref (x, y, d);
+float fvec_inner_product(const float* x, const float* y, size_t d) {
+    return fvec_inner_product_ref(x, y, d);
 }
-float fvec_norm_L2sqr (const float *x, size_t d)
-{
-    return fvec_norm_L2sqr_ref (x, d);
+float fvec_norm_L2sqr(const float* x, size_t d) {
+    return fvec_norm_L2sqr_ref(x, d);
 }
-void fvec_L2sqr_ny (float * dis, const float * x,
-                        const float * y, size_t d, size_t ny) {
-    fvec_L2sqr_ny_ref (dis, x, y, d, ny);
+void fvec_L2sqr_ny(
+        float* dis,
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t ny) {
+    fvec_L2sqr_ny_ref(dis, x, y, d, ny);
 }
-void fvec_inner_products_ny (float * dis, const float * x,
-                        const float * y, size_t d, size_t ny) {
-    fvec_inner_products_ny_ref (dis, x, y, d, ny);
+void fvec_inner_products_ny(
+        float* dis,
+        const float* x,
+        const float* y,
+        size_t d,
+        size_t ny) {
+    fvec_inner_products_ny_ref(dis, x, y, d, ny);
 }
 #endif
 /***************************************************************************
  * heavily optimized table computations
  ***************************************************************************/
-static inline void fvec_madd_ref (size_t n, const float *a,
-                           float bf, const float *b, float *c) {
+static inline void fvec_madd_ref(
+        size_t n,
+        const float* a,
+        float bf,
+        const float* b,
+        float* c) {
     for (size_t i = 0; i < n; i++)
         c[i] = a[i] + bf * b[i];
 }
 #ifdef __SSE3__
-static inline void fvec_madd_sse (size_t n, const float *a,
-                                  float bf, const float *b, float *c) {
+static inline void fvec_madd_sse(
+        size_t n,
+        const float* a,
+        float bf,
+        const float* b,
+        float* c) {
     n >>= 2;
-    __m128 bf4 = _mm_set_ps1 (bf);
-    __m128 * a4 = (__m128*)a;
-    __m128 * b4 = (__m128*)b;
-    __m128 * c4 = (__m128*)c;
+    __m128 bf4 = _mm_set_ps1(bf);
+    __m128* a4 = (__m128*)a;
+    __m128* b4 = (__m128*)b;
+    __m128* c4 = (__m128*)c;
     while (n--) {
-        *c4 = _mm_add_ps (*a4, _mm_mul_ps (bf4, *b4));
+        *c4 = _mm_add_ps(*a4, _mm_mul_ps(bf4, *b4));
         b4++;
         a4++;
         c4++;
     }
 }
-void fvec_madd (size_t n, const float *a,
-                float bf, const float *b, float *c)
-{
-    if ((n & 3) == 0 &&
-        ((((long)a) | ((long)b) | ((long)c)) & 15) == 0)
-        fvec_madd_sse (n, a, bf, b, c);
+void fvec_madd(size_t n, const float* a, float bf, const float* b, float* c) {
+    if ((n & 3) == 0 && ((((long)a) | ((long)b) | ((long)c)) & 15) == 0)
+        fvec_madd_sse(n, a, bf, b, c);
     else
-        fvec_madd_ref (n, a, bf, b, c);
+        fvec_madd_ref(n, a, bf, b, c);
 }
 #else
-void fvec_madd (size_t n, const float *a,
-                float bf, const float *b, float *c)
-{
-    fvec_madd_ref (n, a, bf, b, c);
+void fvec_madd(size_t n, const float* a, float bf, const float* b, float* c) {
+    fvec_madd_ref(n, a, bf, b, c);
 }
 #endif
-static inline int fvec_madd_and_argmin_ref (size_t n, const float *a,
-                                         float bf, const float *b, float *c) {
+static inline int fvec_madd_and_argmin_ref(
+        size_t n,
+        const float* a,
+        float bf,
+        const float* b,
+        float* c) {
     float vmin = 1e20;
     int imin = -1;
@@ -799,125 +778,100 @@ static inline int fvec_madd_and_argmin_ref (size_t n, const float *a,
 #ifdef __SSE3__
-static inline int fvec_madd_and_argmin_sse (
-        size_t n, const float *a,
-        float bf, const float *b, float *c) {
+static inline int fvec_madd_and_argmin_sse(
+        size_t n,
+        const float* a,
+        float bf,
+        const float* b,
+        float* c) {
     n >>= 2;
-    __m128 bf4 = _mm_set_ps1 (bf);
-    __m128 vmin4 = _mm_set_ps1 (1e20);
-    __m128i imin4 = _mm_set1_epi32 (-1);
-    __m128i idx4 = _mm_set_epi32 (3, 2, 1, 0);
-    __m128i inc4 = _mm_set1_epi32 (4);
-    __m128 * a4 = (__m128*)a;
-    __m128 * b4 = (__m128*)b;
-    __m128 * c4 = (__m128*)c;
+    __m128 bf4 = _mm_set_ps1(bf);
+    __m128 vmin4 = _mm_set_ps1(1e20);
+    __m128i imin4 = _mm_set1_epi32(-1);
+    __m128i idx4 = _mm_set_epi32(3, 2, 1, 0);
+    __m128i inc4 = _mm_set1_epi32(4);
+    __m128* a4 = (__m128*)a;
+    __m128* b4 = (__m128*)b;
+    __m128* c4 = (__m128*)c;
     while (n--) {
-        __m128 vc4 = _mm_add_ps (*a4, _mm_mul_ps (bf4, *b4));
+        __m128 vc4 = _mm_add_ps(*a4, _mm_mul_ps(bf4, *b4));
         *c4 = vc4;
-        __m128i mask = (__m128i)_mm_cmpgt_ps (vmin4, vc4);
+        __m128i mask = _mm_castps_si128(_mm_cmpgt_ps(vmin4, vc4));
         // imin4 = _mm_blendv_epi8 (imin4, idx4, mask); // slower!
-        imin4 = _mm_or_si128 (_mm_and_si128 (mask, idx4),
-                              _mm_andnot_si128 (mask, imin4));
-        vmin4 = _mm_min_ps (vmin4, vc4);
+        imin4 = _mm_or_si128(
+                _mm_and_si128(mask, idx4), _mm_andnot_si128(mask, imin4));
+        vmin4 = _mm_min_ps(vmin4, vc4);
         b4++;
         a4++;
         c4++;
-        idx4 = _mm_add_epi32 (idx4, inc4);
+        idx4 = _mm_add_epi32(idx4, inc4);
     }
     // 4 values -> 2
     {
-        idx4 = _mm_shuffle_epi32 (imin4, 3 << 2 | 2);
-        __m128 vc4 = _mm_shuffle_ps (vmin4, vmin4, 3 << 2 | 2);
-        __m128i mask = (__m128i)_mm_cmpgt_ps (vmin4, vc4);
-        imin4 = _mm_or_si128 (_mm_and_si128 (mask, idx4),
-                              _mm_andnot_si128 (mask, imin4));
-        vmin4 = _mm_min_ps (vmin4, vc4);
+        idx4 = _mm_shuffle_epi32(imin4, 3 << 2 | 2);
+        __m128 vc4 = _mm_shuffle_ps(vmin4, vmin4, 3 << 2 | 2);
+        __m128i mask = _mm_castps_si128(_mm_cmpgt_ps(vmin4, vc4));
+        imin4 = _mm_or_si128(
+                _mm_and_si128(mask, idx4), _mm_andnot_si128(mask, imin4));
+        vmin4 = _mm_min_ps(vmin4, vc4);
     }
     // 2 values -> 1
     {
-        idx4 = _mm_shuffle_epi32 (imin4, 1);
-        __m128 vc4 = _mm_shuffle_ps (vmin4, vmin4, 1);
-        __m128i mask = (__m128i)_mm_cmpgt_ps (vmin4, vc4);
-        imin4 = _mm_or_si128 (_mm_and_si128 (mask, idx4),
-                              _mm_andnot_si128 (mask, imin4));
+        idx4 = _mm_shuffle_epi32(imin4, 1);
+        __m128 vc4 = _mm_shuffle_ps(vmin4, vmin4, 1);
+        __m128i mask = _mm_castps_si128(_mm_cmpgt_ps(vmin4, vc4));
+        imin4 = _mm_or_si128(
+                _mm_and_si128(mask, idx4), _mm_andnot_si128(mask, imin4));
         // vmin4 = _mm_min_ps (vmin4, vc4);
     }
-    return _mm_cvtsi128_si32 (imin4);
+    return _mm_cvtsi128_si32(imin4);
 }
-int fvec_madd_and_argmin (size_t n, const float *a,
-                          float bf, const float *b, float *c)
-{
-    if ((n & 3) == 0 &&
-        ((((long)a) | ((long)b) | ((long)c)) & 15) == 0)
-        return fvec_madd_and_argmin_sse (n, a, bf, b, c);
+int fvec_madd_and_argmin(
+        size_t n,
+        const float* a,
+        float bf,
+        const float* b,
+        float* c) {
+    if ((n & 3) == 0 && ((((long)a) | ((long)b) | ((long)c)) & 15) == 0)
+        return fvec_madd_and_argmin_sse(n, a, bf, b, c);
     else
-        return fvec_madd_and_argmin_ref (n, a, bf, b, c);
+        return fvec_madd_and_argmin_ref(n, a, bf, b, c);
 }
 #else
-int fvec_madd_and_argmin (size_t n, const float *a,
-                          float bf, const float *b, float *c)
-{
-  return fvec_madd_and_argmin_ref (n, a, bf, b, c);
+int fvec_madd_and_argmin(
+        size_t n,
+        const float* a,
+        float bf,
+        const float* b,
+        float* c) {
+    return fvec_madd_and_argmin_ref(n, a, bf, b, c);
 }
 #endif
 /***************************************************************************
  * PQ tables computations
  ***************************************************************************/
-#ifdef __AVX2__
 namespace {
-// get even float32's of a and b, interleaved
-simd8float32 geteven(simd8float32 a, simd8float32 b) {
-    return simd8float32(
-        _mm256_shuffle_ps(a.f, b.f, 0 << 0 | 2 << 2 | 0 << 4 | 2 << 6)
-    );
-}
-// get odd float32's of a and b, interleaved
-simd8float32 getodd(simd8float32 a, simd8float32 b) {
-    return simd8float32(
-        _mm256_shuffle_ps(a.f, b.f, 1 << 0 | 3 << 2 | 1 << 4 | 3 << 6)
-    );
-}
-// 3 cycles
-// if the lanes are a = [a0 a1] and b = [b0 b1], return [a0 b0]
-simd8float32 getlow128(simd8float32 a, simd8float32 b) {
-    return simd8float32(
-        _mm256_permute2f128_ps(a.f, b.f, 0 | 2 << 4)
-    );
-}
-simd8float32 gethigh128(simd8float32 a, simd8float32 b) {
-    return simd8float32(
-        _mm256_permute2f128_ps(a.f, b.f, 1 | 3 << 4)
-    );
-}
 /// compute the IP for dsub = 2 for 8 centroids and 4 sub-vectors at a time
-template<bool is_inner_product>
+template <bool is_inner_product>
 void pq2_8cents_table(
         const simd8float32 centroids[8],
         const simd8float32 x,
-        float *out, size_t ldo, size_t nout = 4
-) {
+        float* out,
+        size_t ldo,
+        size_t nout = 4) {
     simd8float32 ips[4];
-    for(int i = 0; i < 4; i++) {
+    for (int i = 0; i < 4; i++) {
         simd8float32 p1, p2;
         if (is_inner_product) {
             p1 = x * centroids[2 * i];
@@ -941,21 +895,21 @@ void pq2_8cents_table(
     simd8float32 ip1 = getlow128(ip13a, ip13b);
     simd8float32 ip3 = gethigh128(ip13a, ip13b);
-    switch(nout) {
-    case 4:
-        ip3.storeu(out + 3 * ldo);
-    case 3:
-        ip2.storeu(out + 2 * ldo);
-    case 2:
-        ip1.storeu(out + 1 * ldo);
-    case 1:
-        ip0.storeu(out);
+    switch (nout) {
+        case 4:
+            ip3.storeu(out + 3 * ldo);
+        case 3:
+            ip2.storeu(out + 2 * ldo);
+        case 2:
+            ip1.storeu(out + 1 * ldo);
+        case 1:
+            ip0.storeu(out);
     }
 }
-simd8float32 load_simd8float32_partial(const float *x, int n) {
+simd8float32 load_simd8float32_partial(const float* x, int n) {
     ALIGNED(32) float tmp[8] = {0, 0, 0, 0, 0, 0, 0, 0};
-    float *wp = tmp;
+    float* wp = tmp;
     for (int i = 0; i < n; i++) {
         *wp++ = *x++;
     }
@@ -964,25 +918,23 @@ simd8float32 load_simd8float32_partial(const float *x, int n) {
 } // anonymous namespace
 void compute_PQ_dis_tables_dsub2(
-        size_t d, size_t ksub, const float *all_centroids,
-        size_t nx, const float * x,
+        size_t d,
+        size_t ksub,
+        const float* all_centroids,
+        size_t nx,
+        const float* x,
         bool is_inner_product,
-        float * dis_tables)
-{
+        float* dis_tables) {
     size_t M = d / 2;
     FAISS_THROW_IF_NOT(ksub % 8 == 0);
-    for(size_t m0 = 0; m0 < M; m0 += 4) {
+    for (size_t m0 = 0; m0 < M; m0 += 4) {
         int m1 = std::min(M, m0 + 4);
-        for(int k0 = 0; k0 < ksub; k0 += 8) {
+        for (int k0 = 0; k0 < ksub; k0 += 8) {
             simd8float32 centroids[8];
             for (int k = 0; k < 8; k++) {
-                float centroid[8] __attribute__((aligned(32)));
+                ALIGNED(32) float centroid[8];
                 size_t wp = 0;
                 size_t rp = (m0 * ksub + k + k0) * 2;
                 for (int m = m0; m < m1; m++) {
@@ -992,45 +944,33 @@ void compute_PQ_dis_tables_dsub2(
                 }
                 centroids[k] = simd8float32(centroid);
             }
-            for(size_t i = 0; i < nx; i++) {
+            for (size_t i = 0; i < nx; i++) {
                 simd8float32 xi;
                 if (m1 == m0 + 4) {
                     xi.loadu(x + i * d + m0 * 2);
                 } else {
-                    xi = load_simd8float32_partial(x + i * d + m0 * 2, 2 * (m1 - m0));
+                    xi = load_simd8float32_partial(
+                            x + i * d + m0 * 2, 2 * (m1 - m0));
                 }
-                if(is_inner_product) {
+                if (is_inner_product) {
                     pq2_8cents_table<true>(
-                        centroids, xi,
-                        dis_tables + (i * M + m0) * ksub + k0,
-                        ksub, m1 - m0
-                    );
+                            centroids,
+                            xi,
+                            dis_tables + (i * M + m0) * ksub + k0,
+                            ksub,
+                            m1 - m0);
                 } else {
                     pq2_8cents_table<false>(
-                        centroids, xi,
-                        dis_tables + (i * M + m0) * ksub + k0,
-                        ksub, m1 - m0
-                    );
+                            centroids,
+                            xi,
+                            dis_tables + (i * M + m0) * ksub + k0,
+                            ksub,
+                            m1 - m0);
                 }
             }
         }
     }
 }
-#else
-void compute_PQ_dis_tables_dsub2(
-        size_t d, size_t ksub, const float *all_centroids,
-        size_t nx, const float * x,
-        bool is_inner_product,
-        float * dis_tables)
-{
-    FAISS_THROW_MSG("only implemented for AVX2");
-}
-#endif
 } // namespace faiss