RubyGems - rbbt-dm - Versions diffs - 1.1.53 → 1.1.54 - Mend

rbbt-dm 1.1.53 → 1.1.54

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

checksums.yaml +4 -4
data/lib/rbbt/tensorflow.rb +1 -1
data/lib/rbbt/vector/model/random_forest.rb +26 -0
data/lib/rbbt/vector/model/svm.rb +3 -3
data/lib/rbbt/vector/model/tensorflow.rb +1 -1
data/lib/rbbt/vector/model.rb +137 -48
data/test/rbbt/vector/model/test_svm.rb +3 -3
data/test/rbbt/vector/model/test_tensorflow.rb +3 -3
data/test/rbbt/vector/test_model.rb +162 -77
metadata +3 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: b00fd271a576dd8e92f3e24e863ce59128c39edba34c14c75b3f0414f45e2ccf
-  data.tar.gz: 19a2825592b122ab485abaffa432cf19a71afc6f9fc30d6e7a63793fc70de914
+  metadata.gz: 40ee19cdf9fd742bfa844428a16e61f398f76d53ca0bfdda5499f5bb03db1c2b
+  data.tar.gz: 7be309bf582ce9e547cf316a36b88ad3043fb0bdc9cd5d5590d507f0f78a7a71
 SHA512:
-  metadata.gz: b7b327a6de2ea159266ae41f38a8139e84552ece97b94bdab809dd26474be59b4a62456628257e788384e2cd2d5ea3c6d4f915dfbca1fb24fcad283d75c539ad
-  data.tar.gz: 53581538c5d4ac0a9ff7acda9039565f608caa04e5bfa5721f1e9efc29fb69ff7e1ff88de0379c8ca9be217feb4c273d44fefc5d30f901dcd6c723e0db28abab
+  metadata.gz: 801e3c9a8541b3b87b12b961c31c4932c17b36db6c9d65dd9a88ef1adb5811188d79570099cf96a1dea3d71d6323edfe2707fd46ebe9e9faa96f38ade84684eb
+  data.tar.gz: e1955147d51d34595cf169e818da48584cf9f1597dd2a714d91de88cf90846e9845f3147715ea95769cfb453adf170879c926e02419ff1437b95968cf9bf9ffc

data/lib/rbbt/tensorflow.rb CHANGED Viewed

@@ -27,7 +27,7 @@ module RbbtTensorflow
       mod.compile(optimizer='adam',
                   loss='sparse_categorical_crossentropy',
                   metrics=['accuracy'])
-      mod.fit(x_train, y_train, epochs:1)
+      mod.fit(x_train, y_train, epochs:3)
       mod
     end

data/lib/rbbt/vector/model/random_forest.rb ADDED Viewed

@@ -0,0 +1,26 @@
+require 'rbbt/vector/model'
+class RFModel < VectorModel
+  def initialize(dir)
+    super(dir)
+    @extract_features = Proc.new{|element|
+      element
+    }
+    @train_model =<<-EOF
+rbbt.require("randomForest");
+model = randomForest(as.factor(label) ~ ., data = features);
+    EOF
+    @eval_model =<<-EOF
+rbbt.require("randomForest");
+pred = names(model$forest$xlevels)
+for (p in pred) {
+  if (class(features[[p]]) == "factor") {
+      features[[p]] = factor(features[[p]], levels=model$forest$xlevels[[p]])
+    }
+}
+label = predict(model, features);
+    EOF
+  end
+end

data/lib/rbbt/vector/model/svm.rb CHANGED Viewed

@@ -8,12 +8,12 @@ class SVMModel < VectorModel
     }
     @train_model =<<-EOF
-library(e1071);
-model = svm(as.factor(class) ~ ., data = features);
+rbbt.require('e1071');
+model = svm(as.factor(label) ~ ., data = features);
     EOF
     @eval_model =<<-EOF
-library(e1071);
+rbbt.require('e1071');
 label = predict(model, features);
     EOF
   end

data/lib/rbbt/vector/model/tensorflow.rb CHANGED Viewed

@@ -32,7 +32,7 @@ class TensorFlowModel < VectorModel
       end
       @graph ||= keras_graph
       @graph.compile(**@compile_options)
-      @graph.fit(features, labels, :epochs => @epochs, :verbose => false)
+      @graph.fit(features, labels, :epochs => @epochs, :verbose => true)
       @graph.save(file)
     end

data/lib/rbbt/vector/model.rb CHANGED Viewed

@@ -2,54 +2,85 @@ require 'rbbt/util/R'
 class VectorModel
   attr_accessor :directory, :model_file, :extract_features, :train_model, :eval_model
-  attr_accessor :features, :labels
+  attr_accessor :features, :names, :labels, :factor_levels
-  def self.R_run(model_file, features, labels, code)
+  def self.R_run(model_file, features, labels, code, names = nil, factor_levels = nil)
     TmpFile.with_file do |feature_file|
       Open.write(feature_file, features.collect{|feats| feats * "\t"} * "\n")
-      Open.write(feature_file + '.class', labels * "\n")
+      Open.write(feature_file + '.label', labels * "\n" + "\n")
+      Open.write(feature_file + '.names', names * "\n" + "\n") if names
+      what = case labels.first
+             when Numeric, Integer, Float
+               'numeric()'
+             else
+               'character()'
+             end
       R.run <<-EOF
-features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
-labels = scan("#{ feature_file }.class");
-features = cbind(features, class = labels);
+features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=TRUE);
+#{"names(features) = make.names(readLines('#{feature_file + '.names'}'))" if names }
+#{ factor_levels.collect do |name,levels|
+    "features[['#{name}']] = factor(features[['#{name}']], levels=#{R.ruby2R levels})"
+  end * "\n" if factor_levels }
+labels = scan("#{ feature_file }.label", what=#{what});
+features = cbind(features, label = labels);
 #{code}
       EOF
     end
   end
-  def self.R_train(model_file, features, labels, code)
+  def self.R_train(model_file, features, labels, code, names = nil, factor_levels = nil)
     TmpFile.with_file do |feature_file|
       Open.write(feature_file, features.collect{|feats| feats * "\t"} * "\n")
-      Open.write(feature_file + '.class', labels * "\n")
+      Open.write(feature_file + '.label', labels * "\n" + "\n")
+      Open.write(feature_file + '.names', names * "\n" + "\n") if names
+      what = case labels.first
+             when Numeric, Integer, Float
+               'numeric()'
+             else
+               'character()'
+             end
       R.run <<-EOF
-features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
-labels = scan("#{ feature_file }.class");
-features = cbind(features, class = labels);
+features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=TRUE);
+labels = scan("#{ feature_file }.label", what=#{what});
+#{"names(features) = make.names(readLines('#{feature_file + '.names'}'))" if names }
+features = cbind(features, label = labels);
+#{ factor_levels.collect do |name,levels|
+    "features[['#{name}']] = factor(features[['#{name}']], levels=#{R.ruby2R levels})"
+  end * "\n" if factor_levels }
 #{code}
 save(model, file='#{model_file}')
       EOF
     end
   end
-  def self.R_eval(model_file, features, list, code)
+  def self.R_eval(model_file, features, list, code, names = nil, factor_levels = nil)
     TmpFile.with_file do |feature_file|
+      if list
+        Open.write(feature_file, features.collect{|feat| feat * "\t"} * "\n" + "\n")
+      else
+        Open.write(feature_file, features * "\t" + "\n")
+      end
+      Open.write(feature_file + '.names', names * "\n" + "\n") if names
       TmpFile.with_file do |results|
-        if list
-          Open.write(feature_file, features.collect{|feat| feat * "\t"} * "\n" + "\n")
-        else
-          Open.write(feature_file, features * "\t" + "\n")
-        end
         io = R.run <<-EOF
-features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
+features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=TRUE);
+#{"names(features) = make.names(readLines('#{feature_file + '.names'}'))" if names }
+#{ factor_levels.collect do |name,levels|
+    "features[['#{name}']] = factor(features[['#{name}']], levels=#{R.ruby2R levels})"
+  end * "\n" if factor_levels }
 load(file="#{model_file}");
 #{code}
 cat(paste(label, sep="\\n", collapse="\\n"));
         EOF
         txt = io.read
-        res = txt.sub(/WARNING: .*?\n/s,'').split(/\s+/).collect{|l| l.to_f}
+        res = txt.sub(/WARNING: .*?\n/s,'').split(/\s+/)
         if list
           res
@@ -66,7 +97,7 @@ cat(paste(label, sep="\\n", collapse="\\n"));
     instance_eval code, file
   end
-  def initialize(directory, extract_features = nil, train_model = nil, eval_model = nil)
+  def initialize(directory, extract_features = nil, train_model = nil, eval_model = nil, names = nil, factor_levels = nil)
     @directory = directory
     FileUtils.mkdir_p @directory unless File.exists? @directory
@@ -76,6 +107,8 @@ cat(paste(label, sep="\\n", collapse="\\n"));
     @eval_model_file = File.join(@directory, "eval_model")
     @train_model_file_R = File.join(@directory, "train_model.R")
     @eval_model_file_R = File.join(@directory, "eval_model.R")
+    @names_file = File.join(@directory, "feature_names")
+    @levels_file = File.join(@directory, "levels")
     if extract_features.nil?
       if File.exists?(@extract_features_file)
@@ -105,6 +138,22 @@ cat(paste(label, sep="\\n", collapse="\\n"));
       @eval_model = eval_model
     end
+    if names.nil?
+      if File.exists?(@names_file)
+        @names = Open.read(@names_file).split("\n")
+      end
+    else
+      @extract_features = names
+    end
+    if factor_levels.nil?
+      if File.exists?(@levels_file)
+        @factor_levels = YAML.load(Open.read(@levels_file))
+      end
+    else
+      @factor_levels = factor_levels
+    end
     @features = []
     @labels = []
   end
@@ -156,28 +205,31 @@ cat(paste(label, sep="\\n", collapse="\\n"));
     when String === eval_model
       Open.write(@eval_model_file_R, eval_model)
     end
+    Open.write(@levels_file, @factor_levels.to_yaml) if @factor_levels
+    Open.write(@names_file, @names * "\n" + "\n") if @names
   end
   def train
     case
     when Proc === train_model
-      train_model.call(@model_file, @features, @labels)
+      train_model.call(@model_file, @features, @labels, @names, @factor_levels)
     when String === train_model
-      VectorModel.R_train(@model_file,  @features, @labels, train_model)
+      VectorModel.R_train(@model_file,  @features, @labels, train_model, @names, @factor_levels)
     end
     save_models
   end
   def run(code)
-    VectorModel.R_run(@model_file,  @features, @labels, code)
+    VectorModel.R_run(@model_file,  @features, @labels, code, @names, @factor_levels)
   end
   def eval(element)
     case
     when Proc === @eval_model
-      @eval_model.call(@model_file, @extract_features.call(element), false)
+      @eval_model.call(@model_file, @extract_features.call(element), false, nil, @names, @factor_levels)
     when String === @eval_model
-      VectorModel.R_eval(@model_file,  @extract_features.call(element), false, eval_model)
+      VectorModel.R_eval(@model_file,  @extract_features.call(element), false, eval_model, @names, @factor_levels)
     end
   end
@@ -195,9 +247,9 @@ cat(paste(label, sep="\\n", collapse="\\n"));
     case
     when Proc === eval_model
-      eval_model.call(@model_file, features, true)
+      eval_model.call(@model_file, features, true, nil, @names, @factor_levels)
     when String === eval_model
-      VectorModel.R_eval(@model_file, features, true, eval_model)
+      VectorModel.R_eval(@model_file, features, true, eval_model, @names, @factor_levels)
     end
   end
@@ -231,14 +283,61 @@ cat(paste(label, sep="\\n", collapse="\\n"));
   #  acc
   #end
+  #
+  def self.f1_metrics(test, predicted, good_label = nil)
+    tp, tn, fp, fn, pr, re, f1 = [0, 0, 0, 0, nil, nil, nil]
+    labels = (test + predicted).uniq
+    if labels.length == 2 || good_label
+      good_label = labels.uniq.select{|l| l.to_s == "true"}.first if good_label.nil?
+      good_label = labels.uniq.select{|l| l.to_s == "1"}.first if good_label.nil?
+      good_label = labels.uniq.sort.first if good_label.nil?
+      test.zip(predicted).each do |gs,pred|
+        gs = gs.to_s
+        pred = pred.to_s
+        tp += 1 if gs == pred && gs == good_label
+        tn += 1 if gs == pred && gs != good_label
+        fp += 1 if gs != good_label && pred == good_label
+        fn += 1 if gs == good_label && pred != good_label
+      end
+      p = tp + fn
+      pp = tp + fp
-  def cross_validation(folds = 10)
+      pr = tp.to_f / pp
+      re = tp.to_f / p
-    res = TSV.setup({}, "Fold~TP,TN,FP,FN,P,R,F1#:type=:list")
+      f1 = (2.0 * tp) / (2.0 * tp + fp + fn)
+      [tp, tn, fp, fn, pr, re, f1]
+    else
+      num = labels.length
+      acc = []
+      labels.each do |good_label|
+        values = VectorModel.f1_metrics(test, predicted, good_label)
+        acc << values
+      end
+      Misc.zip_fields(acc).collect{|s| Misc.mean(s)}
+    end
+  end
+  def cross_validation(folds = 10, good_label = nil)
     orig_features = @features
     orig_labels = @labels
+    multiclass = @labels.uniq.length > 2
+    if multiclass
+      res = TSV.setup({}, "Fold~P,R,F1#:type=:list")
+    else
+      res = TSV.setup({}, "Fold~TP,TN,FP,FN,P,R,F1#:type=:list")
+    end
     begin
       feature_folds = Misc.divide(@features, folds)
       labels_folds = Misc.divide(@labels, folds)
@@ -253,8 +352,6 @@ cat(paste(label, sep="\\n", collapse="\\n"));
         test_labels = labels_folds[fix]
         train_labels = labels_folds.values_at(*rest).flatten
-        tp, fp, tn, fn, pr, re, f1 = [0, 0, 0, 0, nil, nil, nil]
         @features = train_set
         @labels = train_labels
         self.train
@@ -262,26 +359,18 @@ cat(paste(label, sep="\\n", collapse="\\n"));
         raise "Number of predictions (#{predictions.length}) and test labels (#{test_labels.length}) do not match" if predictions.length != test_labels.length
-        test_labels.zip(predictions).each do |gs,pred|
-          gs = gs.to_i
-          pred = pred > 0.5 ? 1 : 0
-          tp += 1 if gs == pred && gs == 1
-          tn += 1 if gs == pred && gs == 0
-          fp += 1 if gs == 0 && pred == 1
-          fn += 1 if gs == 1 && pred == 0
-        end
-        p = tp + fn
-        pp = tp + fp
-        pr = tp.to_f / pp
-        re = tp.to_f / p
+        different_labels = test_labels.uniq
-        f1 = (2.0 * tp) / (2.0 * tp + fp + fn)
+        tp, tn, fp, fn, pr, re, f1 = VectorModel.f1_metrics(test_labels, predictions, good_label)
-        Log.debug "CV Fold #{fix} P:#{"%.3f" % pr} R:#{"%.3f" % re} F1:#{"%.3f" % f1} - #{[tp.to_s, tn.to_s, fp.to_s, fn.to_s] * " "}"
+        if multiclass
+          Log.low "Multi-class CV Fold #{fix} - Average P:#{"%.3f" % pr} R:#{"%.3f" % re} F1:#{"%.3f" % f1}"
+          res[fix] = [pr,re,f1]
+        else
+          Log.low "CV Fold #{fix} P:#{"%.3f" % pr} R:#{"%.3f" % re} F1:#{"%.3f" % f1} - #{[tp.to_s, tn.to_s, fp.to_s, fn.to_s] * " "}"
+          res[fix] = [tp,tn,fp,fn,pr,re,f1]
+        end
-        res[fix] = [tp,tn,fp,fn,pr,re,f1]
       end
     ensure
       @features = orig_features

data/test/rbbt/vector/model/test_svm.rb CHANGED Viewed

@@ -33,10 +33,10 @@ class TestSVMModel < Test::Unit::TestCase
       model.train
-      assert model.eval("1;1;1") > 0.5
-      assert model.eval("0;0;0") < 0.5
+      assert model.eval("1;1;1") == "1"
+      assert model.eval("0;0;0") == "0"
-      assert_equal [true, false], model.eval_list(%w(1;1;1 0;0;0)).collect{|v| v > 0.5}
+      assert_equal [true, false], model.eval_list(%w(1;1;1 0;0;0)).collect{|v| v == "1"}
     end
   end

data/test/rbbt/vector/model/test_tensorflow.rb CHANGED Viewed

@@ -4,12 +4,13 @@ require 'rbbt/vector/model/tensorflow'
 class TestTensorflowModel < Test::Unit::TestCase
   def test_keras
+    Log.severity = 0
     TmpFile.with_file() do |dir|
       FileUtils.mkdir_p dir
       model = TensorFlowModel.new(
         dir,
-        optimizer:'adam',
+        optimizer: 'adam',
         loss: 'sparse_categorical_crossentropy',
         metrics: ['accuracy']
       )
@@ -42,6 +43,7 @@ class TestTensorflowModel < Test::Unit::TestCase
         predictions = model.eval_list x_test.tolist()
         sum = 0
         predictions.zip(y_test.tolist()).each do |pred,label|
           sum += 1 if label.to_i == pred
         end
@@ -49,8 +51,6 @@ class TestTensorflowModel < Test::Unit::TestCase
       end
       assert sum.to_f / predictions.length > 0.7
     end
   end
 end

data/test/rbbt/vector/test_model.rb CHANGED Viewed

@@ -211,7 +211,7 @@ cat(label, file="#{results}");
     end
   end
-  def test_model_list
+  def test_model_save
     text =<<-EOF
 1 0;1;1
 1 1;0;1
@@ -243,9 +243,9 @@ cat(label, file="#{results}");
           R.run <<-EOF
 features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
 labels = scan("#{ feature_file }.class", what=numeric());
-features = cbind(features, class = labels);
+features = cbind(features, label = labels);
 rbbt.require('e1071')
-model = svm(class ~ ., data = features)
+model = svm(label ~ ., data = features)
 save(model, file="#{ model_file }");
           EOF
         end
@@ -276,12 +276,18 @@ cat(label, file="#{results}");
       model.train
+      model = VectorModel.new(dir)
+      pairs = text.split(/\n/).collect do |line|
+        label, features = line.split(" ")
+        model.add features, label
+      end
       assert model.eval("1;1;1").to_f > 0.5
       assert model.eval("0;0;0").to_f < 0.5
     end
   end
-  def test_model_save
+  def test_model_name
     text =<<-EOF
 1 0;1;1
 1 1;0;1
@@ -298,50 +304,31 @@ cat(label, file="#{results}");
       FileUtils.mkdir_p dir
       model = VectorModel.new(dir)
-      model.extract_features = Proc.new{|element|
-        element.split(";")
-      }
+      model.names = %w(Var1 Var2 Var3)
-      model.train_model = Proc.new{|model_file,features,labels|
-        TmpFile.with_file do |feature_file|
-          Open.write(feature_file, features.collect{|feats| feats * "\t"} * "\n")
-          Open.write(feature_file + '.class', labels * "\n")
-          R.run <<-EOF
-features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
-labels = scan("#{ feature_file }.class", what=numeric());
-features = cbind(features, class = labels);
-rbbt.require('e1071')
-model = svm(class ~ ., data = features)
-save(model, file="#{ model_file }");
-          EOF
+      model.extract_features = Proc.new{|element,list|
+        if element
+          element.split(";")
+        elsif list
+          list.collect{|e| e.split(";") }
         end
       }
-      model.eval_model = Proc.new{|model_file,features|
-        TmpFile.with_file do |feature_file|
-          TmpFile.with_file do |results|
-            Open.write(feature_file, features * "\t")
-            puts R.run(<<-EOF
-features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
+      model.train_model =<<-EOF
+rbbt.require('e1071')
+model = svm(as.factor(label) ~ Var1 + Var2, data = features)
+      EOF
+      model.eval_model = <<-EOF
 library(e1071)
-load(file="#{ model_file }")
 label = predict(model, features);
-cat(label, file="#{results}");
-            EOF
-            ).read
-            Open.read(results)
-          end
-        end
-      }
+      EOF
       pairs = text.split(/\n/).collect do |line|
         label, features = line.split(" ")
-        [features, label]
+        model.add features, label
       end
-      model.add_list(*Misc.zip_fields(pairs))
       model.train
       assert model.eval("1;1;1").to_f > 0.5
@@ -349,23 +336,25 @@ cat(label, file="#{results}");
     end
   end
-  def test_model_save
+  def test_model_cv
     text =<<-EOF
-1 0;1;1
-1 1;0;1
-1 1;1;1
-1 0;1;1
-1 1;1;1
-0 0;1;0
-0 1;0;0
-0 0;1;0
-0 1;0;0
+0 0;1;0;0
+0 1;0;0;0
+0 0;1;0;0
+0 1;0;0;0
+1 0;1;1;0
+1 1;0;1;0
+1 1;1;1;0
+1 0;1;1;0
+1 1;1;1;0
     EOF
     TmpFile.with_file() do |dir|
       FileUtils.mkdir_p dir
       model = VectorModel.new(dir)
+      model.names = %w(Var1 Var2 Var3 Var4)
       model.extract_features = Proc.new{|element,list|
         if element
           element.split(";")
@@ -374,55 +363,151 @@ cat(label, file="#{results}");
         end
       }
-      model.train_model = Proc.new{|model_file,features,labels|
-        TmpFile.with_file do |feature_file|
-          Open.write(feature_file, features.collect{|feats| feats * "\t"} * "\n")
-          Open.write(feature_file + '.class', labels * "\n")
-          R.run <<-EOF
-features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
-labels = scan("#{ feature_file }.class", what=numeric());
-features = cbind(features, class = labels);
-rbbt.require('e1071')
-model = svm(class ~ ., data = features)
-save(model, file="#{ model_file }");
-          EOF
-        end
-      }
+      model.train_model =<<-EOF
+rbbt.require('randomForest')
+model = randomForest(as.factor(label) ~ ., data = features)
+      EOF
-      model.eval_model = Proc.new{|model_file,features|
-        TmpFile.with_file do |feature_file|
-          TmpFile.with_file do |results|
-            Open.write(feature_file, features * "\t")
-            puts R.run(<<-EOF
-features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
-library(e1071)
-load(file="#{ model_file }")
+      model.eval_model = <<-EOF
+rbbt.require('randomForest')
 label = predict(model, features);
-cat(label, file="#{results}");
-            EOF
-            ).read
-            Open.read(results)
-          end
-        end
+      EOF
+      pairs = text.split(/\n/).collect do |line|
+        label, features = line.split(" ")
+        model.add features, label
+      end
+      model.train
+      assert_equal "0", model.eval("1;1;0;0")
+      assert_equal "1", model.eval("1;1;1;0")
+      Log.with_severity 1 do
+        model.cross_validation(2)
+      end
+    end
+  end
+  def test_model_mclass
+    text =<<-EOF
+0 0;1;0;0
+0 1;0;0;0
+0 0;1;0;0
+0 1;0;0;0
+1 0;1;1;0
+1 1;0;1;0
+1 1;1;1;0
+1 0;1;1;0
+1 1;1;1;0
+2 0;1;0;1
+2 1;0;0;1
+2 1;1;0;1
+2 0;1;0;1
+2 1;1;0;1
+    EOF
+    TmpFile.with_file() do |dir|
+      FileUtils.mkdir_p dir
+      model = VectorModel.new(dir)
+      model.names = %w(Var1 Var2 Var3 Var4)
+      model.extract_features = Proc.new{|element,list|
+        if element
+          element.split(";")
+        elsif list
+          list.collect{|e| e.split(";") }
+        end
       }
+      model.train_model =<<-EOF
+rbbt.require('randomForest')
+model = randomForest(as.factor(label) ~ ., data = features)
+      EOF
+      model.eval_model = <<-EOF
+rbbt.require('randomForest')
+label = predict(model, features);
+      EOF
       pairs = text.split(/\n/).collect do |line|
         label, features = line.split(" ")
         model.add features, label
       end
       model.train
+      assert_equal "0", model.eval("1;1;0;0")
+      assert_equal "1", model.eval("1;1;1;0")
+      assert_equal "2", model.eval("1;1;0;1")
+      Log.with_severity 1 do
+        model.cross_validation(2)
+      end
+    end
+  end
+  def test_model_factor_levels
+    text =<<-EOF
+0 0;1;0;f1
+0 1;0;0;f1
+0 0;1;0;f1
+0 1;0;0;f1
+1 0;1;1;f2
+1 1;0;1;f2
+1 1;1;1;f2
+1 0;1;1;f2
+1 1;1;1;f2
+    EOF
+    TmpFile.with_file() do |dir|
+      FileUtils.mkdir_p dir
       model = VectorModel.new(dir)
+      model.names = %w(Var1 Var2 Var3 Factor)
+      model.extract_features = Proc.new{|element,list|
+        if element
+          element.split(";")
+        elsif list
+          list.collect{|e| e.split(";") }
+        end
+      }
+      model.train_model =<<-EOF
+rbbt.require('randomForest')
+model = randomForest(as.factor(label) ~ ., data = features)
+      EOF
+      model.eval_model = <<-EOF
+rbbt.require('randomForest')
+label = predict(model, features);
+      EOF
       pairs = text.split(/\n/).collect do |line|
         label, features = line.split(" ")
         model.add features, label
       end
-      assert model.eval("1;1;1").to_f > 0.5
-      assert model.eval("0;0;0").to_f < 0.5
+      Log.with_severity 0 do
+        model.train
+        model.cross_validation(2)
+        assert_raise do
+          assert_equal "0", model.eval("1;1;0;f1")
+        end
+        model.factor_levels = {"Factor" => %w(f1 f2)}
+        model.train
+        model = VectorModel.new(dir)
+        assert_equal "1", model.eval("1;1;1;f2")
+      end
     end
   end
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rbbt-dm
 version: !ruby/object:Gem::Version
-  version: 1.1.53
+  version: 1.1.54
 platform: ruby
 authors:
 - Miguel Vazquez
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2021-06-25 00:00:00.000000000 Z
+date: 2021-12-13 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rbbt-util
@@ -107,6 +107,7 @@ files:
 - lib/rbbt/statistics/rank_product.rb
 - lib/rbbt/tensorflow.rb
 - lib/rbbt/vector/model.rb
+- lib/rbbt/vector/model/random_forest.rb
 - lib/rbbt/vector/model/spaCy.rb
 - lib/rbbt/vector/model/svm.rb
 - lib/rbbt/vector/model/tensorflow.rb