RubyGems - kmeans-clusterer - Versions diffs - 0.9.0 → 0.10.0 - Mend

kmeans-clusterer 0.9.0 → 0.10.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (3) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 9b1be676c0018dc27d0d3133b2ea021cf6349814
-  data.tar.gz: 0ef6ad8299f561accd85006569928b8b2d005a94
+  metadata.gz: 873f13d79f2d199400d1e359aca6e56c74d68ac0
+  data.tar.gz: a4d1f06a71b2e8289c60badeb93fb007fee06af6
 SHA512:
-  metadata.gz: aed54a15689e0b2c785a2d8aca57026959942239ca44576d3ffc835a84981a190daf1b0679580f15b8944a2f58b33c9f98ef60b59598781d65278e506c60ed45
-  data.tar.gz: 758a21a859d09e981c350d02de7965e39294f4dba667a741b08bab93fab8670a4d8573617c7d0896112c38f7a1e0be4723f9e20fb00a5f190bde55e89e8517e1
+  metadata.gz: 1e160f4bbe512e7aac37c2edcbcc63c1f103e51ae4c441a0c2f2e6cc57783344eddbcd31f30ea1a9a32dcc979250fb5bab6e1faba7a1d686612362d4aa798129
+  data.tar.gz: 405a6ab16edcb0fcdd958c9963446a44bd2954be9cdb1e95dc728bf7d10e18536334c693ca38f00b956d51358b3ab105aa2a9a3f68c862ab99914e4e4ee894e4

data/lib/kmeans-clusterer.rb CHANGED Viewed

@@ -21,13 +21,18 @@ class KMeansClusterer
       data = (data - mean) / std
       [NMatrix.ref(data), mean, std]
     end
+    def self.row_norms data
+      squared_data = NArray.ref(data)**2
+      NMatrix.ref(squared_data).sum(0)
+    end
   end
   module Distance
     def self.euclidean x, y, yy = nil
       if x.is_a?(NMatrix) && y.is_a?(NMatrix)
-        xx = x.map {|v| v**2}.sum(0)
-        yy ||= y.map {|v| v**2}.sum(0)
+        xx = Scaler.row_norms(x)
+        yy ||= Scaler.row_norms(y)
         xy = x * y.transpose
         distance = xy * -2
         distance += xx
@@ -93,7 +98,7 @@ class KMeansClusterer
   end
-  DEFAULT_OPTS = { scale_data: false, runs: 10, log: false, init: :kmpp, float_precision: :double }
+  DEFAULT_OPTS = { scale_data: false, runs: 10, log: false, init: :kmpp, float_precision: :double, max_iter: 300 }
   def self.run k, data, opts = {}
     opts = DEFAULT_OPTS.merge(opts)
@@ -112,7 +117,7 @@ class KMeansClusterer
     end
     opts[:points_matrix] = data
-    opts[:row_norms] = opts[:points_matrix].map {|v| v**2}.sum(0)
+    opts[:row_norms] = Scaler.row_norms(data)
     bestrun = nil
@@ -147,6 +152,7 @@ class KMeansClusterer
     @std = opts[:std]
     @scale_data = opts[:scale_data]
     @typecode = opts[:typecode]
+    @max_iter = opts[:max_iter]
     init_centroids
   end
@@ -154,55 +160,60 @@ class KMeansClusterer
   def run
     start_time = Time.now
     @iterations, @runtime = 0, 0
-    @cluster_point_ids = Array.new(@k) { [] }
+    @cluster_assigns = NArray.int(@points_count)
+    min_distances = NArray.new(@typecode, @points_count)
     loop do
       @iterations +=1
+      min_distances.fill! Float::INFINITY
       distances = Distance.euclidean(@centroids, @points_matrix, @row_norms)
-      # assign point ids to @cluster_point_ids
-      @points_count.times do |i|
-        min_distance_index = distances[i, true].sort_index[0]
-        @cluster_point_ids[min_distance_index] << i
+      @k.times do |cluster_id|
+        dist = NArray.ref distances[true, cluster_id].flatten
+        mask = dist < min_distances
+        @cluster_assigns[mask] = cluster_id
+        min_distances[mask] = dist[mask]
       end
-      moves = []
-      updated_centroids = []
+      max_move = 0
-      @k.times do |i|
-        centroid = NArray.ref(@centroids[true, i].flatten)
-        point_ids = @cluster_point_ids[i]
+      @k.times do |cluster_id|
+        centroid = NArray.ref(@centroids[true, cluster_id].flatten)
+        point_ids = @cluster_assigns.eq(cluster_id).where
-        if point_ids.empty?
-          newcenter = centroid
-          moves << 0
-        else
+        unless point_ids.empty?
           points = @points_matrix[true, point_ids]
           newcenter = points.mean(1)
-          moves << Distance.euclidean(centroid, newcenter)
+          move = Distance.euclidean(centroid, newcenter)
+          max_move = move if move > max_move
+          @centroids[true, cluster_id] = newcenter
         end
-        updated_centroids << newcenter
       end
-      @centroids = NMatrix.cast updated_centroids, @typecode
-      break if moves.max < 0.001 # i.e., no movement
-      break if @iterations >= 300
-      @cluster_point_ids = Array.new(@k) { [] }
+      break if max_move < 0.001 # i.e., no movement
+      break if @iterations >= @max_iter
     end
-    @error = calculate_error
+    @error = (min_distances**2).sum
     @runtime =  Time.now - start_time
     self
   end
   def finish
-    set_points
-    set_clusters
+    @clusters = @k.times.map do |i|
+      centroid = NArray.ref @centroids[true, i].flatten
+      Cluster.new i, Point.new(-i, centroid)
+    end
+    @points = @points_count.times.map do |i|
+      data = NArray.ref @points_matrix[true, i].flatten
+      point = Point.new(i, data, @labels[i])
+      cluster = @clusters[@cluster_assigns[i]]
+      cluster.points << point
+      point
+    end
     self
   end
@@ -305,40 +316,6 @@ class KMeansClusterer
       @points_count.times.to_a.sample @k
     end
-    def set_points
-      @points = @points_count.times.map do |i|
-        data = NArray.ref @points_matrix[true, i].flatten
-        Point.new(i, data, @labels[i])
-      end
-    end
-    def set_clusters
-      @clusters = @k.times.map do |i|
-        centroid = NArray.ref @centroids[true, i].flatten
-        c = Cluster.new i, Point.new(-i, centroid)
-        @cluster_point_ids[i].each do |p|
-          c << @points[p]
-        end
-        c
-      end
-    end
-    def calculate_error
-      errors = @k.times.map do |i|
-        centroid = get_centroid i
-        points = get_points_for_centroid i
-        if points.empty?
-          0
-        else
-          distances = Distance.euclidean points, centroid
-          (distances**2).sum
-        end
-      end
-      errors.reduce(:+)
-    end
     def get_point i
       NArray.ref @points_matrix[true, i].flatten
     end
@@ -348,7 +325,7 @@ class KMeansClusterer
     end
     def get_points_for_centroid i
-      point_ids = @cluster_point_ids[i]
+      point_ids = @cluster_assigns.eq(i).where
       points = @points_matrix[true, point_ids]
       points.empty? ? NArray.sfloat(0) : NArray.ref(points)
     end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: kmeans-clusterer
 version: !ruby/object:Gem::Version
-  version: 0.9.0
+  version: 0.10.0
 platform: ruby
 authors:
 - Geoff Buesing
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2015-03-03 00:00:00.000000000 Z
+date: 2015-03-10 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: narray