RubyGems - aprendizaje_maquina - Versions diffs - 0.1.4.beta1 → 0.1.4 - Mend

aprendizaje_maquina 0.1.4.beta1 → 0.1.4

Files changed (7) hide show

checksums.yaml +4 -4
data/README.md +9 -0
data/examples/decision_tree_example.rb +26 -0
data/lib/aprendizaje_maquina.rb +1 -4
data/lib/aprendizaje_maquina/decision_tree.rb +130 -0
data/lib/aprendizaje_maquina/version.rb +1 -1
metadata +6 -4

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 03e7fac70b0b1de20e1496d918b96fbf5c716be6
-  data.tar.gz: 38669d3a47c811f6af8794223c6c5395c3b1e35d
+  metadata.gz: d7e2c5b8ffec0964f22044e3adc1891c19f242dc
+  data.tar.gz: c7698caf79f6506b2de12e63ba21b1943abaaa0f
 SHA512:
-  metadata.gz: 74c9a63aa42c3844846ddd5db0dc6300ec6022c071448efd7ddc092e5f857afbbffd47cb859fa6d3a3d495cc68ecfa97b7560cea820c87c8200a410b95ca09a9
-  data.tar.gz: 948708cb197af7a4fdbeba2c423ced683df600ee15ebf744dfbd4e8723877432a7cd1d170a817cdb3887fed53378fbd29f4339a71fede89c6e4c8b4a94c2e241
+  metadata.gz: d8e516d6233105d702bf3f021d6c6da7cf90a8f42772c85d0a201ec2037c336c63953860d195a9135277379a58374c89b57e1c6d5243faa7c10dbb27bcf7a1f8
+  data.tar.gz: '098e44d8ffcf022fa88d78b6ec5a2667582278688d50d8fb46fb1d55cee6c94088f747e53758edd9ed6c639111aceacfd9b59f5d9d402a3aa98e48ee1f8efee2'

data/README.md CHANGED

@@ -135,6 +135,15 @@ make predictions for multiclass(one vs all)
 	# Predict the closest cluster
 	p clustering.predict(Vector[63,190])
+## Decision tree
+	tree = AprendizajeMaquina::DecisionTree.new(dataset)
+	print tree.display_tree
+	puts tree.predict(datatest)
 ## License
 The gem is available as open source under the terms of the [MIT License](https://opensource.org/licenses/MIT).

data/examples/decision_tree_example.rb ADDED

@@ -0,0 +1,26 @@
+require 'aprendizaje_maquina'
+my_data = [['slashdot','USA','yes',18,'None'],
+					['google','France','yes',23,'Premium'],
+					['digg','USA','yes',24,'Basic'],
+					['kiwitobes','France','yes',23,'Basic'],
+					['google','UK','no',21,'Premium'],
+					['(direct)','New Zealand','no',12,'None'],
+					['(direct)','UK','no',21,'Basic'],
+					['google','USA','no',24,'Premium'],
+					['slashdot','France','yes',19,'None'],
+					['digg','USA','no',18,'None'],
+					['google','UK','no',18,'None'],
+					['kiwitobes','UK','no',19,'None'],
+					['digg','New Zealand','yes',12,'Basic'],
+					['slashdot','UK','no',21,'None'],
+					['google','UK','yes',18,'Basic'],
+					['kiwitobes','France','yes',19,'Basic']]
+tree = AprendizajeMaquina::DecisionTree.new(my_data)
+print tree.display_tree
+test_data = ['(direct)','USA','yes',5]
+p tree.predict(test_data)

data/lib/aprendizaje_maquina.rb CHANGED

@@ -4,13 +4,10 @@ require "aprendizaje_maquina/regresion_lineal"
 require "aprendizaje_maquina/matrixx"
 require "aprendizaje_maquina/clasificacion_logistica"
 require "aprendizaje_maquina/clustering"
+require "aprendizaje_maquina/decision_tree"
 module AprendizajeMaquina
 	#class RedNeuronal
 		# Coming soon...
 	#end
-	#class ArbolDecision
-		# Coming soon...
-	#end
 end

data/lib/aprendizaje_maquina/decision_tree.rb ADDED

@@ -0,0 +1,130 @@
+module AprendizajeMaquina
+  class DecisionTree
+    def initialize(dataset)
+      @dataset = dataset
+    end
+    def display_tree
+      node_root = build_tree(@dataset)
+      colection = [node_root]
+      branches = []
+      tree = "root --> #{node_root[1][0]}:#{node_root[1][1]}?\n"
+      for node in 0...node_root[2].length
+        branches << build_tree(node_root[2][node])
+        colection << branches
+        1000.times do
+          subbranches = []
+          true_or_false = lambda { |node| node == 0 ? true : false }
+          branches.each do |branch|
+            if branch.is_a?(Array)
+              tree << "#{true_or_false.call(node)} --> "+"#{branch[1][0]}:#{branch[1][1]}?\n"
+              for node in 0...branch[2].length
+                if build_tree(branch[2][node]).is_a? Hash
+                  tree << "#{true_or_false.call(node)} --> "+"#{build_tree(branch[2][node])}\n"
+                else
+                  subbranches << build_tree(branch[2][node])
+                end
+              end
+            elsif branch.is_a?(Hash)
+              tree << "#{true_or_false.call(node)} --> "+"#{branch}\n"
+            end
+          end
+          branches = subbranches
+          colection << branches
+          if colection.last.empty?
+            colection.pop
+            break
+          end
+        end
+      end
+      return tree
+    end
+    def predict(observation)
+      node_root = build_tree(@dataset)
+      until node_root.is_a?(Hash)
+        if observation[node_root[1][0]].is_a?(Integer) or observation[node_root[1][0]].is_a?(Float)
+          if observation[node_root[1][0]] >= node_root[1][1]
+            branch = build_tree(node_root[2][0])
+          else
+            branch = build_tree(node_root[2][1])
+          end
+        else
+          if observation[node_root[1][0]] == node_root[1][1]
+            branch = build_tree(node_root[2][0])
+          else
+            branch = build_tree(node_root[2][1])
+          end
+        end
+        node_root = branch
+      end
+      return node_root
+    end
+    private
+    def split_dataset(dataset, column, value)
+      if value.is_a? Integer or value.is_a? Float
+        split_function = lambda { |row| row[column] >= value }
+      else
+        split_function	=	lambda { |row| row[column] == value }
+      end
+      set1 = []
+      set2 = []
+      for row in dataset
+        if split_function.call(row)
+          set1 << row
+        else
+          set2 << row
+        end
+      end
+      return set1,set2
+    end
+    def count_classes(dataset)
+      hash_count = {}
+      dataset.each do |row|
+        if hash_count.include?(row[-1])
+          hash_count[row[-1]] += 1
+        else
+          hash_count[row[-1]] = 1
+        end
+      end
+      return hash_count
+    end
+    def entropy(dataset)
+      classes_count = count_classes(dataset)
+      ent = 0.0
+      classes_count.each_value do |value|
+        prob = value.to_f / dataset.length
+        ent -= prob * Math.log2(prob)
+      end
+      return ent
+    end
+    def build_tree(dataset)
+      best_info_gain = 0.0
+      column_and_value_attribute = nil
+      best_sets = nil
+      for column_attribute in 0...dataset[0].length-1 # elimina la etiqueta
+        for row in dataset
+          value_attribute = row[column_attribute]
+          node_true, node_false = split_dataset(dataset,column_attribute,value_attribute)
+          information_gain = entropy(dataset) - (node_true.length.to_f/dataset.length) * entropy(node_true) -
+                                                (node_false.length.to_f/dataset.length) * entropy(node_false)
+          if information_gain > best_info_gain # pick the highest information_gain
+            best_info_gain = information_gain
+            column_and_value_attribute = column_attribute, value_attribute
+            best_sets = node_true, node_false
+          end
+        end
+      end
+      if best_info_gain > 0
+        return best_info_gain, column_and_value_attribute, best_sets
+      else
+        return count_classes(dataset)
+      end
+    end
+  end
+end

data/lib/aprendizaje_maquina/version.rb CHANGED

@@ -1,3 +1,3 @@
 module AprendizajeMaquina
-  VERSION = "0.1.4.beta1"
+  VERSION = "0.1.4"
 end

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: aprendizaje_maquina
 version: !ruby/object:Gem::Version
-  version: 0.1.4.beta1
+  version: 0.1.4
 platform: ruby
 authors:
 - Erickson Morales
 autorequire:
 bindir: exe
 cert_chain: []
-date: 2018-05-11 00:00:00.000000000 Z
+date: 2018-05-29 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bundler
@@ -76,12 +76,14 @@ files:
 - examples/clustering_data.csv
 - examples/clustering_example.rb
 - examples/data_lg.csv
+- examples/decision_tree_example.rb
 - examples/regresion_lineal_example.rb
 - examples/train.csv
 - lib/aprendizaje_maquina.rb
 - lib/aprendizaje_maquina/cargar.rb
 - lib/aprendizaje_maquina/clasificacion_logistica.rb
 - lib/aprendizaje_maquina/clustering.rb
+- lib/aprendizaje_maquina/decision_tree.rb
 - lib/aprendizaje_maquina/matrixx.rb
 - lib/aprendizaje_maquina/regresion_lineal.rb
 - lib/aprendizaje_maquina/version.rb
@@ -100,9 +102,9 @@ required_ruby_version: !ruby/object:Gem::Requirement
       version: '0'
 required_rubygems_version: !ruby/object:Gem::Requirement
   requirements:
-  - - ">"
+  - - ">="
     - !ruby/object:Gem::Version
-      version: 1.3.1
+      version: '0'
 requirements: []
 rubyforge_project:
 rubygems_version: 2.6.14