RubyGems - ckmeans - Versions diffs - 2.1.0 → 2.1.1 - Mend

ckmeans 2.1.0 → 2.1.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: '08439cddf5410f952a06263d423297de219c86927dea2d0c4538916d9d0c70fd'
-  data.tar.gz: 94b1cece717f8538945208519c94046881f2d42c7ea9ba9bd453d063eef39878
+  metadata.gz: 231337d4b73a838b8a9326936c4ae4c003db103108b6622c22a09a6a44bf4e31
+  data.tar.gz: c0d97cd2fd4b1fd6693305900e9e329e218993fb735b9d24cd1c7281eda14e8a
 SHA512:
-  metadata.gz: 955d8b19a2a33d46b6adebfa05c9460784f5838d1a5d6d8c82e447be2eacb95da3a2711aebacf96429bf36fafe4d46dfc98fe87025cce4373c734c1cc6a60fb9
-  data.tar.gz: 8887346eb2602c071923ade05a549a0eb3df44491538fb79155bd766429dde0084847231e1a4f2dcf6e5e3c14f6dca309f2399339abe378becd4b21d8bc70aa7
+  metadata.gz: 04be90532ac9498a184025d849b14a0d34fb61d00352c818a6e7495ae753666689ecef0d542fc6e95f118e5c83fcc29560baee2b339762158d47811a1d4164cd
+  data.tar.gz: '019cc8ff7f3fa2648faa03997fc88489718e944d13760b1e28eed3c4e48d48da56fd87ced9e5d4499e9c6cfb962cba6c02889dd0d3a53fd88ccb0a0396e00551'

data/ext/ckmeans/algorithm.inc ADDED Viewed

@@ -0,0 +1,281 @@
+/* SMAWK algorithm implementation template
+ *
+ * This file is designed to be included multiple times with different DISSIM_SUFFIX and DISSIM macro definitions
+ * to generate L1 and L2 specific versions of the clustering algorithm.
+ *
+ * Before including this file, define:
+ *   DISSIM_SUFFIX              - suffix for function names (e.g., l1, l2)
+ *   DISSIM(j, i, xsum, xsumsq) - macro that calls the dissimilarity function
+ *
+ * Example:
+ *   #define DISSIM_SUFFIX l2
+ *   #define DISSIM(j, i, xsum, xsumsq) dissimilarity_l2(j, i, xsum, xsumsq)
+ *   #include "algorithm.inc"
+ *   #undef DISSIM
+ *   #undef DISSIM_SUFFIX
+ */
+#ifndef DISSIM_SUFFIX
+#error "DISSIM_SUFFIX must be defined before including algorithm.inc"
+#endif
+#ifndef DISSIM
+#error "DISSIM must be defined before including algorithm.inc"
+#endif
+/* Helper macros for token pasting */
+#define CONCAT_IMPL(a, b) a##_##b
+#define CONCAT(a, b) CONCAT_IMPL(a, b)
+#define FUNC_NAME(name) CONCAT(name, DISSIM_SUFFIX)
+static inline void FUNC_NAME(fill_even_positions)(State state, RowParams rparams, VectorI *split_candidates)
+{
+    uint32_t row     = rparams.row;
+    uint32_t imin    = rparams.imin;
+    uint32_t imax    = rparams.imax;
+    uint32_t istep   = rparams.istep;
+    uint32_t n       = split_candidates->size;
+    uint32_t istepx2 = istep * 2;
+    uint32_t jl      = vector_get_i(split_candidates, 0);
+    VectorF *const xsum    = state.xsum;
+    VectorF *const xsumsq  = state.xsumsq;
+    MatrixI *const splits  = state.splits;
+    for (uint32_t i = imin, r = 0; i <= imax; i += istepx2) {
+        while (vector_get_i(split_candidates, r) < jl) r++;
+        uint32_t rcandidate    = vector_get_i(split_candidates, r);
+        uint32_t cost_base_row = row - 1;
+        uint32_t cost_base_col = rcandidate - 1;
+        LDouble cost           = matrix_get_f(state.cost, cost_base_row, cost_base_col)
+                               + DISSIM(rcandidate, i, xsum, xsumsq);
+        matrix_set_f(state.cost, row, i, cost);
+        matrix_set_i(state.splits, row, i, rcandidate);
+        uint32_t jh = (i + istep) <= imax
+            ? matrix_get_i(splits, row, i + istep)
+            : vector_get_i(split_candidates, n - 1);
+        uint32_t jmax  = jh < i ? jh : i;
+        LDouble sjimin = DISSIM(jmax, i, xsum, xsumsq);
+        for (++r; r < n && vector_get_i(split_candidates, r) <= jmax; r++) {
+            uint32_t jabs = vector_get_i(split_candidates, r);
+            if (jabs > i) break;
+            if (jabs < matrix_get_i(splits, row - 1, i)) continue;
+            LDouble cost_base = matrix_get_f(state.cost, row - 1, jabs  - 1);
+            LDouble sj        = cost_base + DISSIM(jabs, i, xsum, xsumsq);
+            LDouble cost_prev = matrix_get_f(state.cost, row, i);
+            if (sj <= cost_prev) {
+                matrix_set_f(state.cost, row, i, sj);
+                matrix_set_i(state.splits, row, i, jabs);
+            } else if (cost_base + sjimin > cost_prev) {
+                break;
+            }
+        }
+        r--;
+        jl = jh;
+    }
+}
+static inline void FUNC_NAME(find_min_from_candidates)(State state, RowParams rparams, VectorI *split_candidates)
+{
+    const uint32_t row     = rparams.row;
+    const uint32_t imin    = rparams.imin;
+    const uint32_t imax    = rparams.imax;
+    const uint32_t istep   = rparams.istep;
+    MatrixF *const cost    = state.cost;
+    MatrixI *const splits  = state.splits;
+    uint32_t optimal_split_idx_prev = 0;
+    for (uint32_t i = imin; i <= imax; i += istep)
+    {
+        const uint32_t optimal_split_idx = optimal_split_idx_prev;
+        const uint32_t optimal_split     = vector_get_i(split_candidates, optimal_split_idx);
+        const uint32_t cost_prev         = matrix_get_f(cost, row - 1, optimal_split - 1);
+        const LDouble added_cost         = DISSIM(optimal_split, i, state.xsum, state.xsumsq);
+        matrix_set_f(cost, row, i, cost_prev + added_cost);
+        matrix_set_i(splits, row, i, optimal_split);
+        for (uint32_t r = optimal_split_idx + 1; r < split_candidates->size; r++)
+        {
+            uint32_t split = vector_get_i(split_candidates, r);
+            if (split < matrix_get_i(splits, row - 1, i)) continue;
+            if (split > i) break;
+            LDouble split_cost = matrix_get_f(cost, row - 1, split - 1) + DISSIM(split, i, state.xsum, state.xsumsq);
+            if (split_cost > matrix_get_f(cost, row, i)) continue;
+            matrix_set_f(cost, row, i, split_cost);
+            matrix_set_i(splits, row, i, split);
+            optimal_split_idx_prev = r;
+        }
+    }
+}
+static inline VectorI *FUNC_NAME(prune_candidates)(State state, RowParams rparams, VectorI *split_candidates)
+{
+    uint32_t imin  = rparams.imin;
+    uint32_t row   = rparams.row;
+    uint32_t istep = rparams.istep;
+    uint32_t n     = ((rparams.imax - imin) / istep) + 1;
+    uint32_t m     = split_candidates->size;
+    if (n >= m) return split_candidates;
+    uint32_t left   = 0;
+    uint32_t right  = 0;
+    VectorI *pruned = vector_dup_i(split_candidates, state.arena);
+    while (m > n)
+    {
+        uint32_t i     = imin + left * istep;
+        uint32_t j     = vector_get_i(pruned, right);
+        uint32_t jnext = vector_get_i(pruned, right + 1);
+        LDouble sl     = matrix_get_f(state.cost, row - 1, j - 1) + DISSIM(j, i, state.xsum, state.xsumsq);
+        LDouble snext  = matrix_get_f(state.cost, row - 1, jnext - 1) + DISSIM(jnext, i, state.xsum, state.xsumsq);
+        if ((sl < snext) && (left < n - 1)) {
+            vector_set_i(pruned, left, j);
+            left++;
+            right++;
+        } else if ((sl < snext) && (left == n - 1)) {
+            right++;
+            m--;
+            vector_set_i(pruned, right, j);
+        } else {
+            if (left > 0) {
+                vector_set_i(pruned, right, vector_get_i(pruned, --left));
+            } else {
+                right++;
+            }
+            m--;
+        }
+    }
+    for (uint32_t i = left; i < m; i++) {
+        vector_set_i(pruned, i, vector_get_i(pruned, right++));
+    }
+    vector_downsize_i(pruned, m);
+    return pruned;
+}
+void FUNC_NAME(smawk)(State state, RowParams rparams, VectorI *split_candidates)
+{
+    const uint32_t imin  = rparams.imin;
+    const uint32_t imax  = rparams.imax;
+    const uint32_t istep = rparams.istep;
+    if ((imax - imin) <= (0 * istep)) {
+        FUNC_NAME(find_min_from_candidates)(state, rparams, split_candidates);
+    } else {
+        VectorI *odd_candidates = FUNC_NAME(prune_candidates)(state, rparams, split_candidates);
+        uint32_t istepx2        = istep * 2;
+        uint32_t imin_odd       = imin + istep;
+        uint32_t imax_odd       = imin_odd + ((imax - imin_odd) / istepx2 * istepx2);
+        RowParams rparams_odd   = { .row = rparams.row, .imin = imin_odd, .imax = imax_odd, .istep = istepx2 };
+        FUNC_NAME(smawk)(state, rparams_odd, odd_candidates);
+        FUNC_NAME(fill_even_positions)(state, rparams, split_candidates);
+    }
+}
+void FUNC_NAME(fill_row)(State state, uint32_t q, uint32_t imin, uint32_t imax)
+{
+    uint32_t size = imax - q + 1;
+    VectorI *split_candidates = vector_create_i(state.arena, size);
+    for (uint32_t i = 0; i < size; i++) {
+        vector_set_i(split_candidates, i, q + i);
+    }
+    RowParams rparams = { .row = q, .imin = imin, .imax = imax, .istep = 1 };
+    FUNC_NAME(smawk)(state, rparams, split_candidates);
+}
+VALUE FUNC_NAME(rb_sorted_group_sizes)(VALUE self, FnFindKOptimal *find_koptimal)
+{
+    uint32_t xcount  = NUM2UINT(rb_iv_get(self, "@xcount"));
+    uint32_t kmin    = NUM2UINT(rb_iv_get(self, "@kmin"));
+    uint32_t kmax    = NUM2UINT(rb_iv_get(self, "@kmax"));
+    VALUE rb_xsorted = rb_iv_get(self, "@xsorted");
+    size_t capacity  = sizeof(LDouble) * (xcount + 2) * (kmax + 2) * ALLOCATION_FACTOR + ARENA_MIN_CAPACITY;
+    Arena *arena     = arena_create(capacity);
+    if (arena == NULL) rb_raise(rb_eNoMemError, "Arena Memory Allocation Failed");
+    MatrixF *cost    = matrix_create_f(arena, kmax, xcount);
+    MatrixI *splits  = matrix_create_i(arena, kmax, xcount);
+    VectorF *xsorted = vector_create_f(arena, xcount);
+    VectorF *xsum    = vector_create_f(arena, xcount);
+    VectorF *xsumsq  = vector_create_f(arena, xcount);
+    for (uint32_t i = 0; i < xcount; i++) {
+        LDouble xi = NUM2DBL(rb_ary_entry(rb_xsorted, i));
+        vector_set_f(xsorted, i, xi);
+    }
+    State state = {
+        .arena   = arena,
+        .xcount  = xcount,
+        .kmin    = kmin,
+        .kmax    = kmax,
+        .xsorted = xsorted,
+        .cost    = cost,
+        .splits  = splits,
+        .xsum    = xsum,
+        .xsumsq  = xsumsq
+    };
+    LDouble shift        = vector_get_f(xsorted, xcount / 2);
+    LDouble diff_initial = vector_get_f(xsorted, 0) - shift;
+    vector_set_f(xsum, 0, diff_initial);
+    vector_set_f(xsumsq, 0, diff_initial * diff_initial);
+    for (uint32_t i = 1; i < xcount; i++) {
+        LDouble xi          = vector_get_f(xsorted, i);
+        LDouble xsum_prev   = vector_get_f(xsum, i - 1);
+        LDouble xsumsq_prev = vector_get_f(xsumsq, i - 1);
+        LDouble diff        = xi - shift;
+        vector_set_f(xsum, i, xsum_prev + diff);
+        vector_set_f(xsumsq, i, xsumsq_prev + diff * diff);
+        matrix_set_f(cost, 0, i, DISSIM(0, i, xsum, xsumsq));
+        matrix_set_i(splits, 0, i, 0);
+    }
+    for (uint32_t q = 1; q <= kmax - 1; q++) {
+        uint32_t imin = (q < kmax - 1) ? ((q > 1) ? q : 1) : xcount - 1;
+        FUNC_NAME(fill_row)(state, q, imin, xcount - 1);
+    }
+    uint32_t koptimal = find_koptimal(state);
+    VectorI *sizes = vector_create_i(arena, koptimal);
+    backtrack_sizes(state, sizes, koptimal);
+    VALUE response = rb_ary_new2(sizes->size);
+    for (uint32_t i = 0; i < sizes->size; i++) {
+        VALUE size = LONG2NUM(vector_get_i(sizes, i));
+        rb_ary_store(response, i, size);
+    }
+    arena_destroy(arena);
+    return response;
+}
+#undef CONCAT_IMPL
+#undef CONCAT
+#undef FUNC_NAME

data/ext/ckmeans/dissimilarity.h ADDED Viewed

@@ -0,0 +1,65 @@
+#ifndef DISSIMILARITY_H
+#define DISSIMILARITY_H
+/* L2 aka Euclidean aka Mean dissimilarity criteria */
+static inline LDouble dissimilarity_l2(uint32_t j, uint32_t i, VectorF *restrict xsum, VectorF *restrict xsumsq)
+{
+    LDouble sji = 0.0;
+    if (j >= i) return sji;
+    if (j > 0) {
+        LDouble segment_diff  = vector_get_diff_f(xsum, i, j - 1);
+        uint32_t segment_size = i - j + 1;
+        sji = vector_get_diff_f(xsumsq, i, j - 1) - (segment_diff * segment_diff / segment_size);
+    } else {
+        LDouble xsumi = vector_get_f(xsum, i);
+        sji = vector_get_f(xsumsq, i) - (xsumi * xsumi / (i + 1));
+    }
+    return (sji > 0) ? sji : 0.0;
+}
+/* L1 aka Manhattan aka Median dissimilarity criteria */
+static inline LDouble dissimilarity_l1(uint32_t j, uint32_t i, VectorF *restrict xsum, VectorF *restrict _xsumsq)
+{
+    LDouble sji = 0.0;
+    if (j >= i) return sji;
+    if (j > 0) {
+        uint32_t median_idx = (i + j) >> 1;
+        if (((i - j + 1) % 2) == 1) {
+            sji =
+                - vector_get_f(xsum, median_idx - 1)
+                + vector_get_f(xsum, j - 1)
+                + vector_get_f(xsum, i)
+                - vector_get_f(xsum, median_idx);
+        } else {
+            sji =
+                - vector_get_f(xsum, median_idx)
+                + vector_get_f(xsum, j - 1)
+                + vector_get_f(xsum, i)
+                - vector_get_f(xsum, median_idx);
+        }
+    } else { // j == 0
+        uint32_t median_idx = i >> 1;
+        if (((i + 1) % 2) == 1) {
+            sji =
+                - vector_get_f(xsum, median_idx - 1)
+                + vector_get_f(xsum, i)
+                - vector_get_f(xsum, median_idx);
+        } else {
+            sji =
+                - vector_get_f(xsum, median_idx)
+                + vector_get_f(xsum, i)
+                - vector_get_f(xsum, median_idx);
+        }
+    }
+    return (sji < 0) ? 0.0 : sji;
+}
+#endif /* DISSIMILARITY_H */

data/ext/ckmeans/extensions.c CHANGED Viewed

@@ -33,8 +33,6 @@ typedef struct VectorI {
     uint32_t *values;
 } VectorI;
-typedef LDouble (FnDissim)(uint32_t, uint32_t, VectorF*, VectorF*);
 typedef struct State {
     uint32_t xcount;
     uint32_t kmin;
@@ -45,7 +43,6 @@ typedef struct State {
     MatrixI *splits;
     VectorF *xsum;
     VectorF *xsumsq;
-    FnDissim *dissim;
 } State;
 typedef struct RowParams {
@@ -64,7 +61,6 @@ typedef struct {
 VALUE rb_ckmeans_sorted_group_sizes(VALUE self);
 VALUE rb_ckmedian_sorted_group_sizes(VALUE self);
-VALUE rb_sorted_group_sizes(VALUE self, FnDissim*, FnFindKOptimal*);
 Arena *arena_create(size_t);
 void  *arena_alloc(Arena*, size_t);
@@ -91,13 +87,6 @@ uint32_t vector_get_i(VectorI*, uint32_t offset);
 void     vector_downsize_i(VectorI*, uint32_t);
 void     vector_inspect_i(VectorI*);
-LDouble      dissimilarity_l2(uint32_t, uint32_t, VectorF*, VectorF*);
-LDouble      dissimilarity_l1(uint32_t, uint32_t, VectorF*, VectorF*);
-void         fill_row(State, uint32_t, uint32_t, uint32_t);
-void         smawk(State, RowParams, VectorI*);
-void         find_min_from_candidates(State, RowParams, VectorI*);
-VectorI      *prune_candidates(State, RowParams, VectorI*);
-void         fill_even_positions(State, RowParams, VectorI*);
 SegmentStats shifted_data_variance(VectorF*, uint32_t, uint32_t);
 VectorI      *backtrack_sizes(State, VectorI*, uint32_t);
 uint32_t     find_koptimal_fast(State);
@@ -118,99 +107,34 @@ void Init_extensions(void) {
 # define ALLOCATION_FACTOR 3
 # define PIx2 (M_PI * 2.0)
+#include "dissimilarity.h"
+/* L2-specific versions of all hot-path functions */
+#define DISSIM_SUFFIX l2
+#define DISSIM(j, i, xsum, xsumsq) dissimilarity_l2(j, i, xsum, xsumsq)
+#include "algorithm.inc"
+#undef DISSIM
+#undef DISSIM_SUFFIX
+/* L1-specific versions of all hot-path functions */
+#define DISSIM_SUFFIX l1
+#define DISSIM(j, i, xsum, xsumsq) dissimilarity_l1(j, i, xsum, xsumsq)
+#include "algorithm.inc"
+#undef DISSIM
+#undef DISSIM_SUFFIX
 VALUE rb_ckmeans_sorted_group_sizes(VALUE self)
 {
-    bool use_gmm = RTEST(rb_iv_get(self, "@use_gmm"));
-    FnFindKOptimal *find_k = use_gmm ? find_koptimal_gmm : find_koptimal_fast;
-    return rb_sorted_group_sizes(self, dissimilarity_l2, find_k);
+    bool use_stable = RTEST(rb_iv_get(self, "@use_stable_estimation"));
+    FnFindKOptimal *find_k = use_stable ? find_koptimal_gmm : find_koptimal_fast;
+    return rb_sorted_group_sizes_l2(self, find_k);
 }
 VALUE rb_ckmedian_sorted_group_sizes(VALUE self)
 {
-    bool use_lmm = RTEST(rb_iv_get(self, "@use_lmm"));
-    FnFindKOptimal *find_k = use_lmm ? find_koptimal_lmm : find_koptimal_fast;
-    return rb_sorted_group_sizes(self, dissimilarity_l1, find_k);
-}
-VALUE rb_sorted_group_sizes(VALUE self, FnDissim *criteria, FnFindKOptimal *find_koptimal)
-{
-    uint32_t xcount  = NUM2UINT(rb_iv_get(self, "@xcount"));
-    uint32_t kmin    = NUM2UINT(rb_iv_get(self, "@kmin"));
-    uint32_t kmax    = NUM2UINT(rb_iv_get(self, "@kmax"));
-    VALUE rb_xsorted = rb_iv_get(self, "@xsorted");
-    size_t capacity  = sizeof(LDouble) * (xcount + 2) * (kmax + 2) * ALLOCATION_FACTOR + ARENA_MIN_CAPACITY;
-    Arena *arena     = arena_create(capacity);
-    if (arena == NULL) rb_raise(rb_eNoMemError, "Arena Memory Allocation Failed");
-    MatrixF *cost    = matrix_create_f(arena, kmax, xcount);
-    MatrixI *splits  = matrix_create_i(arena, kmax, xcount);
-    VectorF *xsorted = vector_create_f(arena, xcount);
-    VectorF *xsum    = vector_create_f(arena, xcount);
-    VectorF *xsumsq  = vector_create_f(arena, xcount);
-    for (uint32_t i = 0; i < xcount; i++) {
-        LDouble xi = NUM2DBL(rb_ary_entry(rb_xsorted, i));
-        vector_set_f(xsorted, i, xi);
-    }
-    State state = {
-        .arena   = arena,
-        .xcount  = xcount,
-        .kmin    = kmin,
-        .kmax    = kmax,
-        .xsorted = xsorted,
-        .cost    = cost,
-        .splits  = splits,
-        .xsum    = xsum,
-        .xsumsq  = xsumsq,
-        .dissim  = criteria
-    };
-    LDouble shift        = vector_get_f(xsorted, xcount / 2);
-    LDouble diff_initial = vector_get_f(xsorted, 0) - shift;
-    vector_set_f(xsum, 0, diff_initial);
-    vector_set_f(xsumsq, 0, diff_initial * diff_initial);
-    for (uint32_t i = 1; i < xcount; i++) {
-        LDouble xi          = vector_get_f(xsorted, i);
-        LDouble xsum_prev   = vector_get_f(xsum, i - 1);
-        LDouble xsumsq_prev = vector_get_f(xsumsq, i - 1);
-        LDouble diff        = xi - shift;
-        vector_set_f(xsum, i, xsum_prev + diff);
-        vector_set_f(xsumsq, i, xsumsq_prev + diff * diff);
-        matrix_set_f(cost, 0, i, criteria(0, i, xsum, xsumsq));
-        matrix_set_i(splits, 0, i, 0);
-    }
-    for (uint32_t q = 1; q <= kmax - 1; q++) {
-        uint32_t imin = (q < kmax - 1) ? ((q > 1) ? q : 1) : xcount - 1;
-        fill_row(state, q, imin, xcount - 1);
-    }
-    uint32_t koptimal = find_koptimal(state);
-    VectorI *sizes = vector_create_i(arena, koptimal);
-    backtrack_sizes(state, sizes, koptimal);
-    /* printf("XSORTED \t"); vector_inspect_f(xsorted); */
-    /* printf("K OPTIMAL: %lld\n", koptimal); */
-    /* printf("SIZES \t"); vector_inspect_i(sizes); */
-    /* printf("FINAL COST\n"); matrix_inspect_f(cost); */
-    /* printf("FINAL SPLITS\n"); matrix_inspect_i(splits); */
-    VALUE response = rb_ary_new2(sizes->size);
-    for (uint32_t i = 0; i < sizes->size; i++) {
-        VALUE size = LONG2NUM(vector_get_i(sizes, i));
-        rb_ary_store(response, i, size);
-    }
-    arena_destroy(arena);
-    return response;
+    bool use_stable = RTEST(rb_iv_get(self, "@use_stable_estimation"));
+    FnFindKOptimal *find_k = use_stable ? find_koptimal_lmm : find_koptimal_fast;
+    return rb_sorted_group_sizes_l1(self, find_k);
 }
 uint32_t find_koptimal_fast(State state)
@@ -536,249 +460,6 @@ SegmentStats shifted_data_variance(VectorF *xsorted, uint32_t left, uint32_t rig
     return stats;
 }
-void fill_row(State state, uint32_t q, uint32_t imin, uint32_t imax)
-{
-    uint32_t size = imax - q + 1;
-    VectorI *split_candidates = vector_create_i(state.arena, size);
-    for (uint32_t i = 0; i < size; i++) {
-        vector_set_i(split_candidates, i, q + i);
-    }
-    RowParams rparams = { .row = q, .imin = imin, .imax = imax, .istep = 1 };
-    smawk(state, rparams, split_candidates);
-}
-void smawk(State state, RowParams rparams, VectorI *split_candidates)
-{
-    const uint32_t imin  = rparams.imin;
-    const uint32_t imax  = rparams.imax;
-    const uint32_t istep = rparams.istep;
-    if ((imax - imin) <= (0 * istep)) {
-        find_min_from_candidates(state, rparams, split_candidates);
-    } else {
-        VectorI *odd_candidates = prune_candidates(state, rparams, split_candidates);
-        /* printf("PRUNED\t"); vector_inspect_i(odd_candidates); */
-        uint32_t istepx2        = istep * 2;
-        uint32_t imin_odd       = imin + istep;
-        uint32_t imax_odd       = imin_odd + ((imax - imin_odd) / istepx2 * istepx2);
-        RowParams rparams_odd   = { .row = rparams.row, .imin = imin_odd, .imax = imax_odd, .istep = istepx2 };
-        smawk(state, rparams_odd, odd_candidates);
-        fill_even_positions(state, rparams, split_candidates);
-    }
-}
-inline void fill_even_positions(State state, RowParams rparams, VectorI *split_candidates)
-{
-    uint32_t row     = rparams.row;
-    uint32_t imin    = rparams.imin;
-    uint32_t imax    = rparams.imax;
-    uint32_t istep   = rparams.istep;
-    uint32_t n       = split_candidates->size;
-    uint32_t istepx2 = istep * 2;
-    uint32_t jl      = vector_get_i(split_candidates, 0);
-    VectorF *const xsum    = state.xsum;
-    VectorF *const xsumsq  = state.xsumsq;
-    MatrixI *const splits  = state.splits;
-    FnDissim *const dissim = state.dissim;
-    for (uint32_t i = imin, r = 0; i <= imax; i += istepx2) {
-        while (vector_get_i(split_candidates, r) < jl) r++;
-        uint32_t rcandidate    = vector_get_i(split_candidates, r);
-        uint32_t cost_base_row = row - 1;
-        uint32_t cost_base_col = rcandidate - 1;
-        LDouble cost           =
-            matrix_get_f(state.cost, cost_base_row, cost_base_col) + dissim(rcandidate, i, xsum, xsumsq);
-        matrix_set_f(state.cost, row, i, cost);
-        matrix_set_i(state.splits, row, i, rcandidate);
-        uint32_t jh =
-            (i + istep) <= imax
-            ? matrix_get_i(splits, row, i + istep)
-            : vector_get_i(split_candidates, n - 1);
-        uint32_t jmax  = jh < i ? jh : i;
-        LDouble sjimin = dissim(jmax, i, xsum, xsumsq);
-        for (++r; r < n && vector_get_i(split_candidates, r) <= jmax; r++) {
-            uint32_t jabs = vector_get_i(split_candidates, r);
-            if (jabs > i) break;
-            if (jabs < matrix_get_i(splits, row - 1, i)) continue;
-            LDouble cost_base = matrix_get_f(state.cost, row - 1, jabs  - 1);
-            LDouble sj        = cost_base + dissim(jabs, i, xsum, xsumsq);
-            LDouble cost_prev = matrix_get_f(state.cost, row, i);
-            if (sj <= cost_prev) {
-                matrix_set_f(state.cost, row, i, sj);
-                matrix_set_i(state.splits, row, i, jabs);
-            } else if (cost_base + sjimin > cost_prev) {
-                break;
-            }
-        }
-        r--;
-        jl = jh;
-    }
-}
-inline void find_min_from_candidates(State state, RowParams rparams, VectorI *split_candidates)
-{
-    const uint32_t row     = rparams.row;
-    const uint32_t imin    = rparams.imin;
-    const uint32_t imax    = rparams.imax;
-    const uint32_t istep   = rparams.istep;
-    MatrixF *const cost    = state.cost;
-    MatrixI *const splits  = state.splits;
-    FnDissim *const dissim = state.dissim;
-    uint32_t optimal_split_idx_prev = 0;
-    for (uint32_t i = imin; i <= imax; i += istep)
-    {
-        const uint32_t optimal_split_idx = optimal_split_idx_prev;
-        const uint32_t optimal_split     = vector_get_i(split_candidates, optimal_split_idx);
-        const uint32_t cost_prev         = matrix_get_f(cost, row - 1, optimal_split - 1);
-        const LDouble added_cost         = dissim(optimal_split, i, state.xsum, state.xsumsq);
-        matrix_set_f(cost, row, i, cost_prev + added_cost);
-        matrix_set_i(splits, row, i, optimal_split);
-        for (uint32_t r = optimal_split_idx + 1; r < split_candidates->size; r++)
-        {
-            uint32_t split = vector_get_i(split_candidates, r);
-            if (split < matrix_get_i(splits, row - 1, i)) continue;
-            if (split > i) break;
-            LDouble split_cost =
-                matrix_get_f(cost, row - 1, split - 1) + dissim(split, i, state.xsum, state.xsumsq);
-            if (split_cost > matrix_get_f(cost, row, i)) continue;
-            matrix_set_f(cost, row, i, split_cost);
-            matrix_set_i(splits, row, i, split);
-            optimal_split_idx_prev = r;
-        }
-    }
-}
-inline VectorI *prune_candidates(State state, RowParams rparams, VectorI *split_candidates)
-{
-    uint32_t imin  = rparams.imin;
-    uint32_t row   = rparams.row;
-    uint32_t istep = rparams.istep;
-    uint32_t n     = ((rparams.imax - imin) / istep) + 1;
-    uint32_t m     = split_candidates->size;
-    if (n >= m) return split_candidates;
-    uint32_t left   = 0;
-    uint32_t right  = 0;
-    VectorI *pruned = vector_dup_i(split_candidates, state.arena);
-    FnDissim *const dissim = state.dissim;
-    while (m > n)
-    {
-        uint32_t i     = imin + left * istep;
-        uint32_t j     = vector_get_i(pruned, right);
-        uint32_t jnext = vector_get_i(pruned, right + 1);
-        LDouble sl     =
-            matrix_get_f(state.cost, row - 1, j - 1) + dissim(j, i, state.xsum, state.xsumsq);
-        LDouble snext  =
-            matrix_get_f(state.cost, row - 1, jnext - 1) + dissim(jnext, i, state.xsum, state.xsumsq);
-        if ((sl < snext) && (left < n - 1)) {
-            vector_set_i(pruned, left, j);
-            left++;
-            right++;
-        } else if ((sl < snext) && (left == n - 1)) {
-            right++;
-            m--;
-            vector_set_i(pruned, right, j);
-        } else {
-            if (left > 0) {
-                vector_set_i(pruned, right, vector_get_i(pruned, --left));
-            } else {
-                right++;
-            }
-            m--;
-        }
-    }
-    for (uint32_t i = left; i < m; i++) {
-        vector_set_i(pruned, i, vector_get_i(pruned, right++));
-    }
-    vector_downsize_i(pruned, m);
-    return pruned;
-}
-/* L2 aka Euclidean aka Mean dissimilarity criteria */
-inline LDouble dissimilarity_l2(uint32_t j, uint32_t i, VectorF *restrict xsum, VectorF *restrict xsumsq) {
-    LDouble sji = 0.0;
-    if (j >= i) return sji;
-    if (j > 0) {
-        LDouble segment_diff  = vector_get_diff_f(xsum, i, j - 1);
-        uint32_t segment_size = i - j + 1;
-        sji                   = vector_get_diff_f(xsumsq, i, j - 1) - (segment_diff * segment_diff / segment_size);
-    } else {
-        LDouble xsumi = vector_get_f(xsum, i);
-        sji           = vector_get_f(xsumsq, i) - (xsumi * xsumi / (i + 1));
-    }
-    return (sji > 0) ? sji : 0.0;
-}
-/* L1 aka Manhattan aka Median dissimilarity criteria */
-inline LDouble dissimilarity_l1(uint32_t j, uint32_t i, VectorF *restrict xsum, VectorF *restrict _xsumsq)
-{
-    LDouble sji = 0.0;
-    if (j >= i) return sji;
-    if (j > 0) {
-        uint32_t median_idx = (i + j) >> 1;
-        if (((i - j + 1) % 2) == 1) {
-            sji =
-                - vector_get_f(xsum, median_idx - 1)
-                + vector_get_f(xsum, j - 1)
-                + vector_get_f(xsum, i)
-                - vector_get_f(xsum, median_idx);
-        } else {
-            sji =
-                - vector_get_f(xsum, median_idx)
-                + vector_get_f(xsum, j - 1)
-                + vector_get_f(xsum, i)
-                - vector_get_f(xsum, median_idx);
-        }
-    } else { // j == 0
-        uint32_t median_idx = i >> 1;
-        if (((i + 1) % 2) == 1) {
-            sji =
-                - vector_get_f(xsum, median_idx - 1)
-                + vector_get_f(xsum, i)
-                - vector_get_f(xsum, median_idx);
-        } else {
-            sji =
-                - vector_get_f(xsum, median_idx)
-                + vector_get_f(xsum, i)
-                - vector_get_f(xsum, median_idx);
-        }
-    }
-    return (sji < 0) ? 0.0 : sji;
-}
 inline VectorF *vector_create_f(Arena *arena, uint32_t size) {
     VectorF *v;

data/lib/ckmeans/clusterer.rb CHANGED Viewed

@@ -26,12 +26,12 @@ module Ckmeans
       raise ArgumentError, "Minimum cluster count is bigger than element count" if kmin > @xcount
       raise ArgumentError, "Maximum cluster count is bigger than element count" if kmax > @xcount
-      @kmin             = kmin
-      @unique_xcount    = entries.uniq.size
-      @kmax             = [@unique_xcount, kmax].min
-      @xsorted_original = entries.sort
-      @xsorted          = @xsorted_original.map(&:to_f)
-      @use_gmm          = %i[gmm stable].include?(kestimate)
+      @kmin                  = kmin
+      @unique_xcount         = entries.uniq.size
+      @kmax                  = [@unique_xcount, kmax].min
+      @xsorted_original      = entries.sort
+      @xsorted               = @xsorted_original.map(&:to_f)
+      @use_stable_estimation = %i[gmm stable].include?(kestimate)
     end
     def clusters

data/lib/ckmeans/version.rb CHANGED Viewed

@@ -1,5 +1,5 @@
 # frozen_string_literal: true
 module Ckmeans
-  VERSION = "2.1.0"
+  VERSION = "2.1.1"
 end

data/lib/ckmedian/clusterer.rb CHANGED Viewed

@@ -28,12 +28,12 @@ module Ckmedian
       raise ArgumentError, "Minimum cluster count is bigger than element count" if kmin > @xcount
       raise ArgumentError, "Maximum cluster count is bigger than element count" if kmax > @xcount
-      @kmin             = kmin
-      @unique_xcount    = entries.uniq.size
-      @kmax             = [@unique_xcount, kmax].min
-      @xsorted_original = entries.sort
-      @xsorted          = @xsorted_original.map(&:to_f)
-      @use_lmm          = %i[lmm stable].include?(kestimate)
+      @kmin                  = kmin
+      @unique_xcount         = entries.uniq.size
+      @kmax                  = [@unique_xcount, kmax].min
+      @xsorted_original      = entries.sort
+      @xsorted               = @xsorted_original.map(&:to_f)
+      @use_stable_estimation = %i[lmm stable].include?(kestimate)
     end
     def clusters

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: ckmeans
 version: !ruby/object:Gem::Version
-  version: 2.1.0
+  version: 2.1.1
 platform: ruby
 authors:
 - Vlad Lebedev
@@ -28,6 +28,8 @@ files:
 - LICENSE
 - README.md
 - Rakefile
+- ext/ckmeans/algorithm.inc
+- ext/ckmeans/dissimilarity.h
 - ext/ckmeans/extconf.rb
 - ext/ckmeans/extensions.c
 - lib/ckmeans.rb