RubyGems - rumale - Versions diffs - 0.13.6 → 0.13.7 - Mend

rumale 0.13.6 → 0.13.7

Files changed (8) hide show

checksums.yaml +4 -4
data/CHANGELOG.md +6 -0
data/lib/rumale.rb +3 -0
data/lib/rumale/evaluation_measure/calinski_harabasz_score.rb +56 -0
data/lib/rumale/evaluation_measure/davies_bouldin_score.rb +53 -0
data/lib/rumale/evaluation_measure/silhouette_score.rb +80 -0
data/lib/rumale/version.rb +1 -1
metadata +5 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: e78d2a2eeb35fc8409dac683e2f8a3b90e5c396d
-  data.tar.gz: 8ae3c1396efeac327288a5fe534661ea65d0d766
+  metadata.gz: 6b7030e096e10df1a95d79aefe6d275c0ca16406
+  data.tar.gz: 85f6b809e41ecb4743df7e07b99bc3fcf13710e1
 SHA512:
-  metadata.gz: f25dee4375b9d9707374341b7cebe19973ea66f8e8b42af92806aa50b2b41323fcd0ba1470b9a87266859e1c30eea8a1a583ffa620519998df6da91bca8e1b23
-  data.tar.gz: 2e9a3cd0d87aae35e180e74c8335a93b1126f57fd9d4f5c727e60decf5b81982b96f0bdcd2e99c4104169341a1dc4db9a6d631c1fe5cf8eb709ccc5ae9f377e2
+  metadata.gz: efb25c2ea461c3ceb9b8d500a4ef77dd4db6e4a2c21400009e8fd940bd28dab6d4a725a320a5e3cc1a1b7676626d03b9c2ef73c9c02246c29e122461680488d7
+  data.tar.gz: 264c10852a7eb01ddb075c87969625f2cb82eb0bfa3050e21bf41f355d8213808c3684a63a0e7e95480965e0737ae76a85babee60b0a638274c31bc1741774b9

data/CHANGELOG.md CHANGED Viewed

@@ -1,3 +1,9 @@
+# 0.13.7
+- Add some evaluator classes for clustering.
+  - SilhouetteScore
+  - CalinskiHarabaszScore
+  - DaviesBouldinScore
 # 0.13.6
 - Add transformer class for [FastICA](https://yoshoku.github.io/rumale/doc/Rumale/Decomposition/FastICA.html).
 - Fix a typo on README ([#13](https://github.com/yoshoku/rumale/pull/13)).

data/lib/rumale.rb CHANGED Viewed

@@ -104,3 +104,6 @@ require 'rumale/evaluation_measure/adjusted_rand_score'
 require 'rumale/evaluation_measure/purity'
 require 'rumale/evaluation_measure/mutual_information'
 require 'rumale/evaluation_measure/normalized_mutual_information'
+require 'rumale/evaluation_measure/silhouette_score'
+require 'rumale/evaluation_measure/davies_bouldin_score'
+require 'rumale/evaluation_measure/calinski_harabasz_score'

data/lib/rumale/evaluation_measure/calinski_harabasz_score.rb ADDED Viewed

@@ -0,0 +1,56 @@
+# frozen_string_literal: true
+require 'rumale/base/evaluator'
+module Rumale
+  module EvaluationMeasure
+    # CalinskiHarabaszScore is a class that calculates the Calinski and Harabasz score.
+    #
+    # @example
+    #   evaluator = Rumale::EvaluationMeasure::CalinskiHarabaszScore.new
+    #   puts evaluator.score(x, predicted)
+    #
+    # *Reference*
+    # - T. Calinski and J. Harabsz, "A dendrite method for cluster analysis," Communication in Statistics, Vol. 3 (1), pp. 1--27, 1972.
+    class CalinskiHarabaszScore
+      include Base::Evaluator
+      # Calculates the Calinski and Harabasz score.
+      #
+      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The samples to be used for calculating score.
+      # @param y [Numo::Int32] (shape: [n_samples]) The predicted labels for each sample.
+      # @return [Float] The Calinski and Harabasz score.
+      def score(x, y)
+        check_sample_array(x)
+        check_label_array(y)
+        check_sample_label_size(x, y)
+        labels = y.to_a.uniq.sort
+        n_clusters = labels.size
+        n_dimensions = x.shape[1]
+        centroids = Numo::DFloat.zeros(n_clusters, n_dimensions)
+        within_group = 0.0
+        n_clusters.times do |n|
+          cls_samples = x[y.eq(labels[n]), true]
+          cls_centroid = cls_samples.mean(0)
+          centroids[n, true] = cls_centroid
+          within_group += ((cls_samples - cls_centroid)**2).sum
+        end
+        return 1.0 if within_group.zero?
+        mean_vec = x.mean(0)
+        between_group = 0.0
+        n_clusters.times do |n|
+          sz_cluster = y.eq(labels[n]).count
+          between_group += sz_cluster * ((centroids[n, true] - mean_vec)**2).sum
+        end
+        n_samples = x.shape[0]
+        (between_group / (n_clusters - 1)) / (within_group / (n_samples - n_clusters))
+      end
+    end
+  end
+end

data/lib/rumale/evaluation_measure/davies_bouldin_score.rb ADDED Viewed

@@ -0,0 +1,53 @@
+# frozen_string_literal: true
+require 'rumale/base/evaluator'
+require 'rumale/pairwise_metric'
+module Rumale
+  module EvaluationMeasure
+    # DaviesBouldinScore is a class that calculates the Davies-Bouldin score.
+    #
+    # @example
+    #   evaluator = Rumale::EvaluationMeasure::DaviesBouldinScore.new
+    #   puts evaluator.score(x, predicted)
+    #
+    # *Reference*
+    # - D L. Davies and D W. Bouldin, "A Cluster Separation Measure," IEEE Trans. Pattern Analysis and Machine Intelligence, Vol. PAMI-1, No. 2, pp. 224--227, 1979.
+    class DaviesBouldinScore
+      include Base::Evaluator
+      # Calculates the Davies-Bouldin score.
+      #
+      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The samples to be used for calculating score.
+      # @param y [Numo::Int32] (shape: [n_samples]) The predicted labels for each sample.
+      # @return [Float] The Davies-Bouldin score.
+      def score(x, y)
+        check_sample_array(x)
+        check_label_array(y)
+        check_sample_label_size(x, y)
+        labels = y.to_a.uniq.sort
+        n_clusters = labels.size
+        n_dimensions = x.shape[1]
+        dist_cluster = Numo::DFloat.zeros(n_clusters)
+        centroids = Numo::DFloat.zeros(n_clusters, n_dimensions)
+        n_clusters.times do |n|
+          cls_samples = x[y.eq(labels[n]), true]
+          cls_centroid = cls_samples.mean(0)
+          centroids[n, true] = cls_centroid
+          dist_cluster[n] = Rumale::PairwiseMetric.euclidean_distance(cls_samples, cls_centroid.expand_dims(0)).mean
+        end
+        dist_centroid = Rumale::PairwiseMetric.euclidean_distance(centroids)
+        # p dist_cluster
+        # p dist_centroid
+        dist_centroid[dist_centroid.eq(0)] = Float::INFINITY
+        dist_mat = (dist_cluster.expand_dims(1) + dist_cluster) / dist_centroid
+        dist_mat[dist_mat.diag_indices] = -Float::INFINITY
+        dist_mat.max(0).mean
+      end
+    end
+  end
+end

data/lib/rumale/evaluation_measure/silhouette_score.rb ADDED Viewed

@@ -0,0 +1,80 @@
+# frozen_string_literal: true
+require 'rumale/base/evaluator'
+require 'rumale/pairwise_metric'
+module Rumale
+  module EvaluationMeasure
+    # SilhouetteScore is a class that calculates the Silhouette Coefficient.
+    #
+    # @example
+    #   evaluator = Rumale::EvaluationMeasure::SilhouetteScore.new
+    #   puts evaluator.score(x, predicted)
+    #
+    # *Reference*
+    # - P J. Rousseuw, "Silhouettes: A graphical aid to the interpretation and validation of cluster analysis," Journal of Computational and Applied Mathematics, Vol. 20, pp. 53--65, 1987.
+    class SilhouetteScore
+      include Base::Evaluator
+      # Create a new evaluator that calculates the silhouette coefficient.
+      #
+      # @param metric [String] The metric to calculate the sihouette coefficient.
+      #   If metric is 'euclidean', Euclidean distance is used for dissimilarity between sample points.
+      #   If metric is 'precomputed', the score method expects to be given a distance matrix.
+      def initialize(metric: 'euclidean')
+        check_params_string(metric: metric)
+        @metric = metric
+      end
+      # Calculates the silhouette coefficient.
+      #
+      # @param x [Numo::DFloat] (shape: [n_samples, n_features]) The samples to be used for calculating score.
+      # @param y [Numo::Int32] (shape: [n_samples]) The predicted labels for each sample.
+      # @return [Float] The mean of silhouette coefficient.
+      def score(x, y)
+        check_sample_array(x)
+        check_label_array(y)
+        check_sample_label_size(x, y)
+        dist_mat = @metric == 'precomputed' ? x : Rumale::PairwiseMetric.euclidean_distance(x)
+        labels = y.to_a.uniq.sort
+        n_clusters = labels.size
+        n_samples = dist_mat.shape[0]
+        intra_dists = Numo::DFloat.zeros(n_samples)
+        n_clusters.times do |n|
+          cls_pos = y.eq(labels[n])
+          sz_cluster = cls_pos.count
+          next unless sz_cluster > 1
+          cls_dist_mat = dist_mat[cls_pos, cls_pos].dup
+          cls_dist_mat[cls_dist_mat.diag_indices] = 0.0
+          intra_dists[cls_pos] = cls_dist_mat.sum(0) / (sz_cluster - 1)
+        end
+        inter_dists = Numo::DFloat.zeros(n_samples) + Float::INFINITY
+        n_clusters.times do |m|
+          cls_pos = y.eq(labels[m])
+          n_clusters.times do |n|
+            next if m == n
+            not_cls_pos = y.eq(labels[n])
+            inter_dists[cls_pos] = Numo::DFloat.minimum(
+              inter_dists[cls_pos], dist_mat[cls_pos, not_cls_pos].mean(1)
+            )
+          end
+        end
+        mask = Numo::DFloat.ones(n_samples)
+        n_clusters.times do |n|
+          cls_pos = y.eq(labels[n])
+          mask[cls_pos] = 0 unless cls_pos.count > 1
+        end
+        silhouettes = mask * ((inter_dists - intra_dists) / Numo::DFloat.maximum(inter_dists, intra_dists))
+        silhouettes[silhouettes.isnan] = 0.0
+        silhouettes.mean
+      end
+    end
+  end
+end

data/lib/rumale/version.rb CHANGED Viewed

@@ -3,5 +3,5 @@
 # Rumale is a machine learning library in Ruby.
 module Rumale
   # The version of Rumale you are using.
-  VERSION = '0.13.6'
+  VERSION = '0.13.7'
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rumale
 version: !ruby/object:Gem::Version
-  version: 0.13.6
+  version: 0.13.7
 platform: ruby
 authors:
 - yoshoku
 autorequire:
 bindir: exe
 cert_chain: []
-date: 2019-10-13 00:00:00.000000000 Z
+date: 2019-11-02 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: numo-narray
@@ -185,6 +185,8 @@ files:
 - lib/rumale/ensemble/random_forest_regressor.rb
 - lib/rumale/evaluation_measure/accuracy.rb
 - lib/rumale/evaluation_measure/adjusted_rand_score.rb
+- lib/rumale/evaluation_measure/calinski_harabasz_score.rb
+- lib/rumale/evaluation_measure/davies_bouldin_score.rb
 - lib/rumale/evaluation_measure/explained_variance_score.rb
 - lib/rumale/evaluation_measure/f_score.rb
 - lib/rumale/evaluation_measure/log_loss.rb
@@ -200,6 +202,7 @@ files:
 - lib/rumale/evaluation_measure/r2_score.rb
 - lib/rumale/evaluation_measure/recall.rb
 - lib/rumale/evaluation_measure/roc_auc.rb
+- lib/rumale/evaluation_measure/silhouette_score.rb
 - lib/rumale/kernel_approximation/rbf.rb
 - lib/rumale/kernel_machine/kernel_pca.rb
 - lib/rumale/kernel_machine/kernel_ridge.rb