RubyGems - ai4r - Versions diffs - 1.12 → 2.0 - Mend

ai4r 1.12 → 2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (128) hide show

checksums.yaml +7 -0
data/README.md +174 -0
data/examples/classifiers/hyperpipes_data.csv +14 -0
data/examples/classifiers/hyperpipes_example.rb +22 -0
data/examples/classifiers/ib1_example.rb +12 -0
data/examples/classifiers/id3_example.rb +15 -10
data/examples/classifiers/id3_graphviz_example.rb +17 -0
data/examples/classifiers/logistic_regression_example.rb +11 -0
data/examples/classifiers/naive_bayes_attributes_example.rb +13 -0
data/examples/classifiers/naive_bayes_example.rb +12 -13
data/examples/classifiers/one_r_example.rb +27 -0
data/examples/classifiers/parameter_tutorial.rb +29 -0
data/examples/classifiers/prism_nominal_example.rb +15 -0
data/examples/classifiers/prism_numeric_example.rb +21 -0
data/examples/classifiers/simple_linear_regression_example.csv +159 -0
data/examples/classifiers/simple_linear_regression_example.rb +18 -0
data/examples/classifiers/zero_and_one_r_example.rb +34 -0
data/examples/classifiers/zero_one_r_data.csv +8 -0
data/examples/clusterers/clusterer_example.rb +62 -0
data/examples/clusterers/dbscan_example.rb +17 -0
data/examples/clusterers/dendrogram_example.rb +17 -0
data/examples/clusterers/hierarchical_dendrogram_example.rb +20 -0
data/examples/clusterers/kmeans_custom_example.rb +26 -0
data/examples/genetic_algorithm/bitstring_example.rb +41 -0
data/examples/genetic_algorithm/genetic_algorithm_example.rb +26 -18
data/examples/genetic_algorithm/kmeans_seed_tuning.rb +45 -0
data/examples/neural_network/backpropagation_example.rb +49 -48
data/examples/neural_network/hopfield_example.rb +45 -0
data/examples/neural_network/patterns_with_base_noise.rb +39 -39
data/examples/neural_network/patterns_with_noise.rb +41 -39
data/examples/neural_network/train_epochs_callback.rb +25 -0
data/examples/neural_network/training_patterns.rb +39 -39
data/examples/neural_network/transformer_text_classification.rb +78 -0
data/examples/neural_network/xor_example.rb +23 -22
data/examples/reinforcement/q_learning_example.rb +10 -0
data/examples/som/som_data.rb +155 -152
data/examples/som/som_multi_node_example.rb +12 -13
data/examples/som/som_single_example.rb +12 -15
data/examples/transformer/decode_classifier_example.rb +68 -0
data/examples/transformer/deterministic_example.rb +10 -0
data/examples/transformer/seq2seq_example.rb +16 -0
data/lib/ai4r/classifiers/classifier.rb +24 -16
data/lib/ai4r/classifiers/gradient_boosting.rb +64 -0
data/lib/ai4r/classifiers/hyperpipes.rb +119 -43
data/lib/ai4r/classifiers/ib1.rb +122 -32
data/lib/ai4r/classifiers/id3.rb +527 -144
data/lib/ai4r/classifiers/logistic_regression.rb +96 -0
data/lib/ai4r/classifiers/multilayer_perceptron.rb +75 -59
data/lib/ai4r/classifiers/naive_bayes.rb +112 -48
data/lib/ai4r/classifiers/one_r.rb +112 -44
data/lib/ai4r/classifiers/prism.rb +167 -76
data/lib/ai4r/classifiers/random_forest.rb +72 -0
data/lib/ai4r/classifiers/simple_linear_regression.rb +143 -0
data/lib/ai4r/classifiers/support_vector_machine.rb +91 -0
data/lib/ai4r/classifiers/votes.rb +57 -0
data/lib/ai4r/classifiers/zero_r.rb +71 -30
data/lib/ai4r/clusterers/average_linkage.rb +46 -27
data/lib/ai4r/clusterers/bisecting_k_means.rb +50 -44
data/lib/ai4r/clusterers/centroid_linkage.rb +52 -36
data/lib/ai4r/clusterers/cluster_tree.rb +50 -0
data/lib/ai4r/clusterers/clusterer.rb +28 -24
data/lib/ai4r/clusterers/complete_linkage.rb +42 -31
data/lib/ai4r/clusterers/dbscan.rb +134 -0
data/lib/ai4r/clusterers/diana.rb +75 -49
data/lib/ai4r/clusterers/k_means.rb +309 -72
data/lib/ai4r/clusterers/median_linkage.rb +49 -33
data/lib/ai4r/clusterers/single_linkage.rb +196 -88
data/lib/ai4r/clusterers/ward_linkage.rb +51 -35
data/lib/ai4r/clusterers/ward_linkage_hierarchical.rb +63 -0
data/lib/ai4r/clusterers/weighted_average_linkage.rb +48 -32
data/lib/ai4r/data/data_set.rb +229 -100
data/lib/ai4r/data/parameterizable.rb +31 -25
data/lib/ai4r/data/proximity.rb +72 -50
data/lib/ai4r/data/statistics.rb +46 -35
data/lib/ai4r/experiment/classifier_evaluator.rb +84 -32
data/lib/ai4r/experiment/split.rb +39 -0
data/lib/ai4r/genetic_algorithm/chromosome_base.rb +43 -0
data/lib/ai4r/genetic_algorithm/genetic_algorithm.rb +92 -170
data/lib/ai4r/genetic_algorithm/tsp_chromosome.rb +83 -0
data/lib/ai4r/hmm/hidden_markov_model.rb +134 -0
data/lib/ai4r/neural_network/activation_functions.rb +37 -0
data/lib/ai4r/neural_network/backpropagation.rb +419 -143
data/lib/ai4r/neural_network/hopfield.rb +175 -58
data/lib/ai4r/neural_network/transformer.rb +194 -0
data/lib/ai4r/neural_network/weight_initializations.rb +40 -0
data/lib/ai4r/reinforcement/policy_iteration.rb +66 -0
data/lib/ai4r/reinforcement/q_learning.rb +51 -0
data/lib/ai4r/search/a_star.rb +76 -0
data/lib/ai4r/search/bfs.rb +50 -0
data/lib/ai4r/search/dfs.rb +50 -0
data/lib/ai4r/search/mcts.rb +118 -0
data/lib/ai4r/search.rb +12 -0
data/lib/ai4r/som/distance_metrics.rb +29 -0
data/lib/ai4r/som/layer.rb +28 -17
data/lib/ai4r/som/node.rb +61 -32
data/lib/ai4r/som/som.rb +158 -41
data/lib/ai4r/som/two_phase_layer.rb +21 -25
data/lib/ai4r/version.rb +3 -0
data/lib/ai4r.rb +58 -27
metadata +117 -106
data/README.rdoc +0 -44
data/test/classifiers/hyperpipes_test.rb +0 -84
data/test/classifiers/ib1_test.rb +0 -78
data/test/classifiers/id3_test.rb +0 -208
data/test/classifiers/multilayer_perceptron_test.rb +0 -79
data/test/classifiers/naive_bayes_test.rb +0 -43
data/test/classifiers/one_r_test.rb +0 -62
data/test/classifiers/prism_test.rb +0 -85
data/test/classifiers/zero_r_test.rb +0 -50
data/test/clusterers/average_linkage_test.rb +0 -51
data/test/clusterers/bisecting_k_means_test.rb +0 -66
data/test/clusterers/centroid_linkage_test.rb +0 -53
data/test/clusterers/complete_linkage_test.rb +0 -57
data/test/clusterers/diana_test.rb +0 -69
data/test/clusterers/k_means_test.rb +0 -100
data/test/clusterers/median_linkage_test.rb +0 -53
data/test/clusterers/single_linkage_test.rb +0 -122
data/test/clusterers/ward_linkage_test.rb +0 -53
data/test/clusterers/weighted_average_linkage_test.rb +0 -53
data/test/data/data_set_test.rb +0 -96
data/test/data/proximity_test.rb +0 -81
data/test/data/statistics_test.rb +0 -65
data/test/experiment/classifier_evaluator_test.rb +0 -76
data/test/genetic_algorithm/chromosome_test.rb +0 -57
data/test/genetic_algorithm/genetic_algorithm_test.rb +0 -81
data/test/neural_network/backpropagation_test.rb +0 -82
data/test/neural_network/hopfield_test.rb +0 -72
data/test/som/som_test.rb +0 -97

data/lib/ai4r/classifiers/hyperpipes.rb CHANGED Viewed

@@ -1,118 +1,194 @@
+# frozen_string_literal: true
 # Author::    Sergio Fierens (Implementation only)
 # License::   MPL 1.1
 # Project::   ai4r
-# Url::       http://www.ai4r.org/
+# Url::       https://github.com/SergioFierens/ai4r
 #
-# You can redistribute it and/or modify it under the terms of
-# the Mozilla Public License version 1.1  as published by the
+# You can redistribute it and/or modify it under the terms of
+# the Mozilla Public License version 1.1  as published by the
 # Mozilla Foundation at http://www.mozilla.org/MPL/MPL-1.1.txt
 require 'set'
-require File.dirname(__FILE__) + '/../data/data_set'
-require File.dirname(__FILE__) + '/../classifiers/classifier'
+require_relative '../data/data_set'
+require_relative '../classifiers/classifier'
+require_relative '../classifiers/votes'
 module Ai4r
+  # Collection of classifier algorithms.
   module Classifiers
     include Ai4r::Data
     # = Introduction
-    #
-    # A fast classifier algorithm, created by Lucio de Souza Coelho
+    #
+    # A fast classifier algorithm, created by Lucio de Souza Coelho
     # and Len Trigg.
     class Hyperpipes < Classifier
       attr_reader :data_set, :pipes
+      parameters_info tie_break:
+                        'Strategy used when more than one class has the same maximal vote. ' \
+                        'Valid values are :last (default) and :random.',
+                      margin: 'Numeric margin added to the bounds of numeric attributes.',
+                      random_seed: 'Seed for random tie-breaking when tie_break is :random.'
+      # @return [Object]
+      def initialize
+        super()
+        @tie_break = :last
+        @margin = 0
+        @random_seed = nil
+        @rng = nil
+      end
       # Build a new Hyperpipes classifier. You must provide a DataSet instance
-      # as parameter. The last attribute of each item is considered as
+      # as parameter. The last attribute of each item is considered as
       # the item class.
+      # @param data_set [Object]
+      # @return [Object]
       def build(data_set)
         data_set.check_not_empty
         @data_set = data_set
         @domains = data_set.build_domains
         @pipes = {}
-        @domains.last.each {|cat| @pipes[cat] = build_pipe(@data_set)}
-        @data_set.data_items.each {|item| update_pipe(@pipes[item.last], item) }
-        return self
+        @domains.last.each { |cat| @pipes[cat] = build_pipe(@data_set) }
+        @data_set.data_items.each { |item| update_pipe(@pipes[item.last], item) }
+        self
       end
       # You can evaluate new data, predicting its class.
       # e.g.
-      #   classifier.eval(['New York',  '<30', 'F'])  # => 'Y'
+      #   classifier.eval(['New York',  '<30', 'F'])  # => 'Y'
+      # Tie resolution is controlled by +tie_break+ parameter.
+      # @param data [Object]
+      # @return [Object]
       def eval(data)
-        votes = Hash.new {0}
+        votes = Votes.new
         @pipes.each do |category, pipe|
           pipe.each_with_index do |bounds, i|
             if data[i].is_a? Numeric
-              votes[category]+=1 if data[i]>=bounds[:min] && data[i]<=bounds[:max]
-            else
-              votes[category]+=1 if bounds[data[i]]
+              votes.increment_category(category) if data[i].between?(bounds[:min], bounds[:max])
+            elsif bounds[data[i]]
+              votes.increment_category(category)
             end
           end
         end
-        return votes.to_a.max {|x, y| x.last <=> y.last}.first
+        rng = @rng || (@random_seed.nil? ? Random.new : Random.new(@random_seed))
+        votes.get_winner(@tie_break, rng: rng)
       end
+      # rubocop:enable Metrics/AbcSize, Metrics/CyclomaticComplexity, Metrics/PerceivedComplexity
       # This method returns the generated rules in ruby code.
       # e.g.
-      #
+      #
       #   classifier.get_rules
       #     # =>  if age_range == '<30' then marketing_target = 'Y'
       #           elsif age_range == '[30-50)' then marketing_target = 'N'
       #           elsif age_range == '[50-80]' then marketing_target = 'N'
       #           end
       #
-      # It is a nice way to inspect induction results, and also to execute them:
+      # It is a nice way to inspect induction results, and also to execute them:
       #     marketing_target = nil
-      #     eval classifier.get_rules
+      #     eval classifier.get_rules
       #     puts marketing_target
       #       # =>  'Y'
+      # @return [Object]
+      # rubocop:disable Metrics/AbcSize
       def get_rules
         rules = []
-        rules << "votes = Hash.new {0}"
+        rules << 'votes = Votes.new'
         data = @data_set.data_items.first
-        labels = @data_set.data_labels.collect {|l| l.to_s}
+        labels = @data_set.data_labels.collect(&:to_s)
         @pipes.each do |category, pipe|
           pipe.each_with_index do |bounds, i|
-            rule = "votes['#{category}'] += 1 "
-            if data[i].is_a? Numeric
-              rule += "if #{labels[i]} >= #{bounds[:min]} && #{labels[i]} <= #{bounds[:max]}"
+            rule = "votes.increment_category('#{category}') "
+            rule += if data[i].is_a? Numeric
+                      "if #{labels[i]} >= #{bounds[:min]} && #{labels[i]} <= #{bounds[:max]}"
+                    else
+                      "if #{bounds.inspect}[#{labels[i]}]"
+                    end
+            rules << rule
+          end
+        end
+        rules << "#{labels.last} = votes.get_winner(:#{@tie_break})"
+        rules.join("\n")
+      end
+      # rubocop:enable Metrics/AbcSize
+      # rubocop:enable Naming/AccessorMethodName
+      # Return a summary representation of all pipes.
+      #
+      # The returned hash maps each category to another hash where the keys are
+      # attribute labels and the values are either numeric ranges
+      # `[min, max]` (including the optional margin) or a Set of nominal values.
+      #
+      #   classifier.pipes_summary
+      #     # => { "Y" => { "city" => #{Set['New York', 'Chicago']},
+      #                    "age" => [18, 85],
+      #                    "gender" => #{Set['M', 'F']} },
+      #          "N" => { ... } }
+      #
+      # The optional +margin+ parameter expands numeric bounds by the given
+      # fraction.  A value of 0.1 would enlarge each range by 10%.
+      # @param margin [Object]
+      # @return [Object]
+      # rubocop:disable Metrics/AbcSize, Metrics/CyclomaticComplexity, Metrics/PerceivedComplexity
+      def pipes_summary(margin: 0)
+        raise 'Model not built yet' unless @data_set && @pipes
+        labels = @data_set.data_labels[0...-1]
+        summary = {}
+        @pipes.each do |category, pipe|
+          attr_summary = {}
+          pipe.each_with_index do |bounds, i|
+            if bounds.is_a?(Hash) && bounds.key?(:min) && bounds.key?(:max)
+              min = bounds[:min]
+              max = bounds[:max]
+              range_margin = (max - min) * margin
+              attr_summary[labels[i]] = [min - range_margin, max + range_margin]
             else
-              rule += "if #{bounds.inspect}[#{labels[i]}]"
+              attr_summary[labels[i]] = bounds.select { |_k, v| v }.keys.to_set
             end
-            rules << rule
           end
+          summary[category] = attr_summary
         end
-        rules << "#{labels.last} = votes.to_a.max {|x, y| x.last <=> y.last}.first"
-        return rules.join("\n")
+        summary
       end
+      # rubocop:enable Metrics/AbcSize, Metrics/CyclomaticComplexity, Metrics/PerceivedComplexity
       protected
+      # @param data_set [Object]
+      # @return [Object]
       def build_pipe(data_set)
         data_set.data_items.first[0...-1].collect do |att|
           if att.is_a? Numeric
-            {:min=>1.0/0, :max=>-1.0/0}
+            { min: Float::INFINITY, max: -Float::INFINITY }
           else
             Hash.new(false)
           end
         end
       end
+      # @param pipe [Object]
+      # @param data_item [Object]
+      # @return [Object]
+      # rubocop:disable Metrics/AbcSize
       def update_pipe(pipe, data_item)
         data_item[0...-1].each_with_index do |att, i|
           if att.is_a? Numeric
-            pipe[i][:min] = att if att < pipe[i][:min]
-            pipe[i][:max] = att if att > pipe[i][:max]
+            min_val = att - @margin
+            max_val = att + @margin
+            pipe[i][:min] = min_val if min_val < pipe[i][:min]
+            pipe[i][:max] = max_val if max_val > pipe[i][:max]
           else
             pipe[i][att] = true
-          end
+          end
         end
       end
+      # rubocop:enable Metrics/AbcSize
     end
   end
 end

data/lib/ai4r/classifiers/ib1.rb CHANGED Viewed

@@ -1,21 +1,22 @@
+# frozen_string_literal: true
 # Author::    Sergio Fierens (Implementation only)
 # License::   MPL 1.1
 # Project::   ai4r
-# Url::       http://ai4r.org/
+# Url::       https://github.com/SergioFierens/ai4r
 #
-# You can redistribute it and/or modify it under the terms of
-# the Mozilla Public License version 1.1  as published by the
+# You can redistribute it and/or modify it under the terms of
+# the Mozilla Public License version 1.1  as published by the
 # Mozilla Foundation at http://www.mozilla.org/MPL/MPL-1.1.txt
 require 'set'
-require File.dirname(__FILE__) + '/../data/data_set'
-require File.dirname(__FILE__) + '/../classifiers/classifier'
+require_relative '../data/data_set'
+require_relative '../classifiers/classifier'
 module Ai4r
   module Classifiers
     # = Introduction
-    #
+    #
     # IB1 algorithm implementation.
     # IB1 is the simplest instance-based learning (IBL) algorithm.
     #
@@ -26,45 +27,126 @@ module Ai4r
     # it normalizes its attributes' ranges, processes instances
     # incrementally, and has a simple policy for tolerating missing values
     class IB1 < Classifier
-      attr_reader :data_set
+      attr_reader :data_set, :min_values, :max_values
+      parameters_info k: 'Number of nearest neighbors to consider. Default is 1.',
+                      distance_function:
+                        'Optional custom distance metric taking two instances.',
+                      tie_break:
+                        'Strategy used when neighbors vote tie. ' \
+                        'Valid values are :first (default) and :random.',
+                      random_seed:
+                        'Seed for random tie-breaking when :tie_break is :random.'
+      # @return [Object]
+      def initialize
+        super()
+        @k = 1
+        @distance_function = nil
+        @tie_break = :first
+        @random_seed = nil
+        @rng = nil
+      end
       # Build a new IB1 classifier. You must provide a DataSet instance
-      # as parameter. The last attribute of each item is considered as
+      # as parameter. The last attribute of each item is considered as
       # the item class.
+      # @param data_set [Object]
+      # @return [Object]
       def build(data_set)
         data_set.check_not_empty
         @data_set = data_set
         @min_values = Array.new(data_set.data_labels.length)
         @max_values = Array.new(data_set.data_labels.length)
         data_set.data_items.each { |data_item| update_min_max(data_item[0...-1]) }
-        return self
+        self
+      end
+      # Append a new instance to the internal dataset. The last element is
+      # considered the class label. Minimum and maximum values for numeric
+      # attributes are updated so that future distance calculations remain
+      # normalized.
+      # @param data_item [Object]
+      # @return [Object]
+      def add_instance(data_item)
+        @data_set << data_item
+        update_min_max(data_item[0...-1])
+        self
       end
       # You can evaluate new data, predicting its class.
       # e.g.
-      #   classifier.eval(['New York',  '<30', 'F'])  # => 'Y'
+      #   classifier.eval(['New York',  '<30', 'F'])  # => 'Y'
+      #
+      # Evaluation does not update internal statistics, keeping the
+      # classifier state unchanged. Use +update_with_instance+ to
+      # incorporate new samples.
       def eval(data)
-        update_min_max(data)
-        min_distance = 1.0/0
-        klass = nil
-        @data_set.data_items.each do |train_item|
-          d = distance(data, train_item)
-          if d < min_distance
-            min_distance = d
-            klass = train_item.last
-          end
+        neighbors = @data_set.data_items.map do |train_item|
+          [distance(data, train_item), train_item.last]
+        end
+        neighbors.sort_by! { |d, _| d }
+        k_limit = [@k, @data_set.data_items.length].min
+        k_neighbors = neighbors.first(k_limit)
+        # Include any other neighbors tied with the last selected distance
+        last_distance = k_neighbors.last[0]
+        neighbors[k_limit..].to_a.each do |dist, klass|
+          break if dist > last_distance
+          k_neighbors << [dist, klass]
         end
-        return klass
+        counts = Hash.new(0)
+        k_neighbors.each { |(_dist, klass)| counts[klass] += 1 }
+        max_votes = counts.values.max
+        tied = counts.select { |_, v| v == max_votes }.keys
+        return tied.first if tied.length == 1
+        rng = @rng || (@random_seed.nil? ? Random.new : Random.new(@random_seed))
+        case @tie_break
+        when :random
+          tied.sample(random: rng)
+        else
+          k_neighbors.each { |(_dist, klass)| return klass if tied.include?(klass) }
+        end
+      end
+      # Returns an array with the +k+ nearest instances from the training set
+      # for the given +data+ item. The returned elements are the training data
+      # rows themselves, ordered from the closest to the furthest.
+      # @param data [Object]
+      # @param k [Object]
+      # @return [Object]
+      def neighbors_for(data, k_neighbors)
+        update_min_max(data)
+        @data_set.data_items
+                 .map { |train_item| [train_item, distance(data, train_item)] }
+                 .sort_by(&:last)
+                 .first(k_neighbors)
+                 .map(&:first)
+      end
+      # Update min/max values with the provided instance attributes. If
+      # +learn+ is true, also append the instance to the training set so the
+      # classifier learns incrementally.
+      def update_with_instance(data_item, learn: false)
+        update_min_max(data_item[0...-1])
+        @data_set << data_item if learn
+        self
       end
       protected
       # We keep in the state the min and max value of each attribute,
       # to provide normalized distances between to values of a numeric attribute
+      # @param atts [Object]
+      # @return [Object]
       def update_min_max(atts)
         atts.each_with_index do |att, i|
-          if att && att.is_a?(Numeric)
+          if att.is_a?(Numeric)
             @min_values[i] = att if @min_values[i].nil? || @min_values[i] > att
             @max_values[i] = att if @max_values[i].nil? || @max_values[i] < att
           end
@@ -80,10 +162,15 @@ module Ai4r
       #  * 1 if both atts are missing
       #  * normalized numeric att value if other att value is missing and > 0.5
       #  * 1.0-normalized numeric att value if other att value is missing and < 0.5
-      def distance(a, b)
+      # @param a [Object]
+      # @param b [Object]
+      # @return [Object]
+      def distance(data_a, data_b)
+        return @distance_function.call(data_a, data_b) if @distance_function
         d = 0
-        a.each_with_index do |att_a, i|
-          att_b = b[i]
+        data_a.each_with_index do |att_a, i|
+          att_b = data_b[i]
           if att_a.nil?
             if att_b.is_a? Numeric
               diff = norm(att_b, i)
@@ -93,7 +180,7 @@ module Ai4r
             end
           elsif att_a.is_a? Numeric
             if att_b.is_a? Numeric
-              diff = norm(att_a, i) - norm(att_b, i);
+              diff = norm(att_a, i) - norm(att_b, i)
             else
               diff = norm(att_a, i)
               diff = 1.0 - diff if diff < 0.5
@@ -105,17 +192,20 @@ module Ai4r
           end
           d += diff * diff
         end
-        return d
+        d
       end
       # Returns normalized value att
       #
       # index is the index of the attribute in the instance.
+      # @param att [Object]
+      # @param index [Object]
+      # @return [Object]
       def norm(att, index)
         return 0 if @min_values[index].nil?
-        return 1.0*(att - @min_values[index]) / (@max_values[index] -@min_values[index]);
+        1.0 * (att - @min_values[index]) / (@max_values[index] - @min_values[index])
       end
     end
   end
 end