RubyGems - rbbt-dm - Versions diffs - 1.1.49 → 1.1.50 - Mend

rbbt-dm 1.1.49 → 1.1.50

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

checksums.yaml +4 -4
data/lib/rbbt/network/paths.rb +1 -1
data/lib/rbbt/tensorflow.rb +43 -0
data/lib/rbbt/vector/model.rb +164 -65
data/lib/rbbt/vector/model/spaCy.rb +72 -0
data/lib/rbbt/vector/model/svm.rb +1 -1
data/lib/rbbt/vector/model/tensorflow.rb +55 -0
data/test/rbbt/network/test_paths.rb +1 -1
data/test/rbbt/vector/model/test_spaCy.rb +88 -0
data/test/rbbt/vector/model/test_tensorflow.rb +57 -0
data/test/rbbt/vector/test_model.rb +354 -0
metadata +10 -3

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 73f692fa2323508c640c594a056975f7bd24659aaffe8e9c4fb5e1c19d5b4ee9
-  data.tar.gz: 9cc5cb88059630f1c65e6e2c6e9b9af5e1766aa97cc1192f088ee7043ee2cbef
+  metadata.gz: 2efbfe29d382655f78a91a1e8e381a304f4610f2d13d6d7c5fae8be40a22aa29
+  data.tar.gz: cee71dc48458dad863d6cc04bf8d1c113430e3f78309dac4cad1d575d9f4b198
 SHA512:
-  metadata.gz: bab237c5d577abab5e4fed7f4567f15a95c20faa64dfbc3ba58dfb4054dc715093c2685e9166ce0df91148a3de0ea60aba1ea3de20a40120eb563806f15dd5a2
-  data.tar.gz: 20fe2789e521288b50ff070b5f4ad930115ffcc782fbb656048a601f17e8f7408cbdc14181023e3430194855e40fd3dee8fbea2cb7d28981296ceafa10c6abc7
+  metadata.gz: 953cf89ffc4a04e38aff7020bd25d8ab8db5a6383db3a9a9fce5e7bab3bc668a763d660953bdbeedfc9d32beaacc6e83142c773dac6663b118c3a02c58405611
+  data.tar.gz: c899b27449bb378c9c757438aed976d5375e8d49bb99edf80ff7dbf9f2b03adeac9ec2000aa35bed4206b13e399f025e326952e35acfaefe04d1e5612597367f

data/lib/rbbt/network/paths.rb CHANGED Viewed

@@ -32,7 +32,7 @@ module Paths
     if end_node
       end_node = end_node.select{|n| parents.keys.include? n}.first unless String === end_node
       return nil if not parents.include? end_node
-      extract_path(parents, start_node, u)
+      extract_path(parents, start_node, end_node)
     else
       parents
     end

data/lib/rbbt/tensorflow.rb ADDED Viewed

@@ -0,0 +1,43 @@
+require 'rbbt/util/python'
+module RbbtTensorflow
+  def self.init
+    RbbtPython.run do
+      pyimport "tensorflow", as: "tf"
+    end
+  end
+  def self.test
+    mod = x_test = y_test = nil
+    RbbtPython.run do
+      mnist_db = tf.keras.datasets.mnist
+      (x_train, y_train), (x_test, y_test) = mnist_db.load_data()
+      x_train, x_test = x_train / 255.0, x_test / 255.0
+      mod = tf.keras.models.Sequential.new([
+        tf.keras.layers.Flatten.new(input_shape: [28, 28]),
+        tf.keras.layers.Dense.new(128, activation:'relu'),
+        tf.keras.layers.Dropout.new(0.2),
+        tf.keras.layers.Dense.new(10, activation:'softmax')
+      ])
+      mod.compile(optimizer='adam',
+                  loss='sparse_categorical_crossentropy',
+                  metrics=['accuracy'])
+      mod.fit(x_train, y_train, epochs:1)
+      mod
+    end
+    RbbtPython.run do
+      mod.evaluate(x_test,  y_test, verbose:2)
+    end
+  end
+end
+if __FILE__ == $0
+  RbbtTensorflow.init
+  RbbtTensorflow.test
+end

data/lib/rbbt/vector/model.rb CHANGED Viewed

@@ -46,10 +46,10 @@ save(model, file='#{model_file}')
 features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
 load(file="#{model_file}");
 #{code}
-cat(paste(label, sep="\\n"));
+cat(paste(label, sep="\\n", collapse="\\n"));
         EOF
-        res = io.read.sub(/WARNING: .*?\n/s,'').split(/\s+/).collect{|l| l.to_f}
+        txt = io.read
+        res = txt.sub(/WARNING: .*?\n/s,'').split(/\s+/).collect{|l| l.to_f}
         if list
           res
@@ -60,13 +60,51 @@ cat(paste(label, sep="\\n"));
     end
   end
+  def __load_method(file)
+    code = Open.read(file)
+    code.sub!(/.*Proc\.new/, "Proc.new")
+    instance_eval code, file
+  end
   def initialize(directory, extract_features = nil, train_model = nil, eval_model = nil)
     @directory = directory
     FileUtils.mkdir_p @directory unless File.exists? @directory
     @model_file = File.join(@directory, "model")
-    extract_features = @extract_features
-    train_model = @train_model
-    eval_model = @eval_model
+    @extract_features_file = File.join(@directory, "features")
+    @train_model_file = File.join(@directory, "train_model")
+    @eval_model_file = File.join(@directory, "eval_model")
+    @train_model_file_R = File.join(@directory, "train_model.R")
+    @eval_model_file_R = File.join(@directory, "eval_model.R")
+    if extract_features.nil?
+      if File.exists?(@extract_features_file)
+        @extract_features = __load_method @extract_features_file
+      end
+    else
+      @extract_features = extract_features
+    end
+    if train_model.nil?
+      if File.exists?(@train_model_file)
+        @train_model = __load_method @train_model_file
+      elsif File.exists?(@train_model_file_R)
+        @train_model = Open.read(@train_model_file_R)
+      end
+    else
+      @train_model = train_model
+    end
+    if eval_model.nil?
+      if File.exists?(@eval_model_file)
+        @eval_model = __load_method @eval_model_file
+      elsif File.exists?(@eval_model_file_R)
+        @eval_model = Open.read(@eval_model_file_R)
+      end
+    else
+      @eval_model = eval_model
+    end
     @features = []
     @labels = []
   end
@@ -77,8 +115,47 @@ cat(paste(label, sep="\\n"));
   end
   def add(element, label = nil)
-    @features << extract_features.call(element)
-    @labels << label unless label.nil?
+    features = @extract_features ? extract_features.call(element) : element
+    @features << features
+    @labels << label
+  end
+  def add_list(elements, labels = nil)
+    if @extract_features.nil? || @extract_features.arity == 1
+      elements.zip(labels || [nil]).each do |elem,label|
+        add(elem, label)
+      end
+    else
+      features = @extract_features.call(nil, elements)
+      @features.concat  features
+      @labels.concat labels if labels
+    end
+  end
+  def save_models
+    require 'method_source'
+    case
+    when Proc === train_model
+      begin
+        Open.write(@train_model_file, train_model.source)
+      rescue
+      end
+    when String === train_model
+      Open.write(@train_model_file_R, @train_model)
+    end
+    Open.write(@extract_features_file, @extract_features.source) if @extract_features
+    case
+    when Proc === eval_model
+      begin
+        Open.write(@eval_model_file, eval_model.source)
+      rescue
+      end
+    when String === eval_model
+      Open.write(@eval_model_file_R, eval_model)
+    end
   end
   def train
@@ -88,6 +165,7 @@ cat(paste(label, sep="\\n"));
     when String === train_model
       VectorModel.R_train(@model_file,  @features, @labels, train_model)
     end
+    save_models
   end
   def run(code)
@@ -96,99 +174,120 @@ cat(paste(label, sep="\\n"));
   def eval(element)
     case
-    when Proc === eval_model
-      eval_model.call(@model_file, extract_features.call(element), false)
-    when String === eval_model
-      VectorModel.R_eval(@model_file,  extract_features.call(element), false, eval_model)
+    when Proc === @eval_model
+      @eval_model.call(@model_file, @extract_features.call(element), false)
+    when String === @eval_model
+      VectorModel.R_eval(@model_file,  @extract_features.call(element), false, eval_model)
     end
   end
   def eval_list(elements, extract = true)
+    if extract && ! @extract_features.nil?
+      features = if @extract_features.arity == 1
+                   elements.collect{|element| @extract_features.call(element) }
+                 else
+                   @extract_features.call(nil, elements)
+                 end
+    else
+      features = elements
+    end
     case
     when Proc === eval_model
-      eval_model.call(@model_file, extract ? elements.collect{|element| extract_features.call(element)} : elements, true)
+      eval_model.call(@model_file, features, true)
     when String === eval_model
-      SVMModel.R_eval(@model_file, extract ? elements.collect{|element| extract_features.call(element)} : elements, true, eval_model)
+      VectorModel.R_eval(@model_file, features, true, eval_model)
     end
   end
-  def cross_validation(folds = 10)
-    saved_features = @features
-    saved_labels = @labels
-    seq = (0..features.length - 1).to_a
+  #def cross_validation(folds = 10)
+  #  saved_features = @features
+  #  saved_labels = @labels
+  #  seq = (0..features.length - 1).to_a
-    chunk_size = features.length / folds
+  #  chunk_size = features.length / folds
-    acc = []
-    folds.times do
-      seq = seq.shuffle
-      eval_chunk = seq[0..chunk_size]
-      train_chunk = seq[chunk_size.. -1]
+  #  acc = []
+  #  folds.times do
+  #    seq = seq.shuffle
+  #    eval_chunk = seq[0..chunk_size]
+  #    train_chunk = seq[chunk_size.. -1]
-      eval_features = @features.values_at *eval_chunk
-      eval_labels = @labels.values_at *eval_chunk
+  #    eval_features = @features.values_at *eval_chunk
+  #    eval_labels = @labels.values_at *eval_chunk
-      @features = @features.values_at *train_chunk
-      @labels = @labels.values_at *train_chunk
+  #    @features = @features.values_at *train_chunk
+  #    @labels = @labels.values_at *train_chunk
-      train
-      predictions = eval_list eval_features, false
+  #    train
+  #    predictions = eval_list eval_features, false
-      acc << predictions.zip(eval_labels).collect{|pred,lab| pred - lab < 0.5 ? 1 : 0}.inject(0){|acc,e| acc +=e} / chunk_size
+  #    acc << predictions.zip(eval_labels).collect{|pred,lab| pred - lab < 0.5 ? 1 : 0}.inject(0){|acc,e| acc +=e} / chunk_size
-      @features = saved_features
-      @labels = saved_labels
-    end
+  #    @features = saved_features
+  #    @labels = saved_labels
+  #  end
-    acc
-  end
+  #  acc
+  #end
   def cross_validation(folds = 10)
     res = TSV.setup({}, "Fold~TP,TN,FP,FN,P,R,F1#:type=:list")
-    feature_folds = Misc.divide(@features, folds)
-    labels_folds = Misc.divide(@labels, folds)
+    orig_features = @features
+    orig_labels = @labels
-    folds.times do |fix|
+    begin
+      feature_folds = Misc.divide(@features, folds)
+      labels_folds = Misc.divide(@labels, folds)
-      test_set = feature_folds[fix]
-      train_set = feature_folds.values_at(*((0..9).to_a - [fix])).inject([]){|acc,e| acc += e; acc}
+      folds.times do |fix|
-      test_labels = labels_folds[fix]
-      train_labels = labels_folds.values_at(*((0..9).to_a - [fix])).flatten
+        rest = (0..(folds-1)).to_a - [fix]
-      tp, fp, tn, fn, pr, re, f1 = [0, 0, 0, 0, nil, nil, nil]
+        test_set = feature_folds[fix]
+        train_set = feature_folds.values_at(*rest).inject([]){|acc,e| acc += e; acc}
-      @features = train_set
-      @labels = train_labels
-      self.train
-      predictions = self.eval_list test_set, false
+        test_labels = labels_folds[fix]
+        train_labels = labels_folds.values_at(*rest).flatten
-      test_labels.zip(predictions).each do |gs,pred|
-        gs = gs.to_i
-        pred = pred > 0.5 ? 1 : 0
-        tp += 1 if gs == pred && gs == 1
-        tn += 1 if gs == pred && gs == 0
-        fp += 1 if gs == 0 && pred == 1
-        fn += 1 if gs == 1 && pred == 0
-      end
+        tp, fp, tn, fn, pr, re, f1 = [0, 0, 0, 0, nil, nil, nil]
-      p = tp + fn
-      pp = tp + fp
+        @features = train_set
+        @labels = train_labels
+        self.train
+        predictions = self.eval_list test_set, false
-      pr = tp.to_f / pp
-      re = tp.to_f / p
+        raise "Number of predictions (#{predictions.length}) and test labels (#{test_labels.length}) do not match" if predictions.length != test_labels.length
-      f1 = (2.0 * tp) / (2.0 * tp + fp + fn)
+        test_labels.zip(predictions).each do |gs,pred|
+          gs = gs.to_i
+          pred = pred > 0.5 ? 1 : 0
+          tp += 1 if gs == pred && gs == 1
+          tn += 1 if gs == pred && gs == 0
+          fp += 1 if gs == 0 && pred == 1
+          fn += 1 if gs == 1 && pred == 0
+        end
-      Misc.fingerprint([tp,tn,fp,fn,pr,re,f1])
+        p = tp + fn
+        pp = tp + fp
-      Log.debug "CV Fold #{fix} P:#{"%.3f" % pr} R:#{"%.3f" % re} F1:#{"%.3f" % f1}"
+        pr = tp.to_f / pp
+        re = tp.to_f / p
-      res[fix] = [tp,tn,fp,fn,pr,re,f1]
-    end
+        f1 = (2.0 * tp) / (2.0 * tp + fp + fn)
+        Log.debug "CV Fold #{fix} P:#{"%.3f" % pr} R:#{"%.3f" % re} F1:#{"%.3f" % f1} - #{[tp.to_s, tn.to_s, fp.to_s, fn.to_s] * " "}"
+        res[fix] = [tp,tn,fp,fn,pr,re,f1]
+      end
+    ensure
+      @features = orig_features
+      @labels = orig_labels
+    end
+    self.train
     res
   end
 end

data/lib/rbbt/vector/model/spaCy.rb ADDED Viewed

@@ -0,0 +1,72 @@
+require 'rbbt/vector/model'
+require 'rbbt/nlp/spaCy'
+class SpaCyModel < VectorModel
+  attr_accessor :config
+  def spacy(&block)
+    RbbtPython.run "spacy" do
+      RbbtPython.module_eval(&block)
+    end
+  end
+  def initialize(dir, config, lang = 'en_core_web_md')
+    @config = case
+              when Path === config
+                config.read
+              when Misc.is_filename?(config)
+                Open.read(config)
+              when (Misc.is_filename?(config, false) && Rbbt.share.spaCy.cpu[config].exists?)
+                Rbbt.share.spaCy.cpu[config].read
+              when (Misc.is_filename?(config, false) && Rbbt.share.spaCy[config].exists?)
+                Rbbt.share.spaCy[config].read
+              else
+                config
+              end
+    @lang = lang
+    super(dir)
+    @train_model = Proc.new do |file, features, labels|
+      texts = features
+      docs = []
+      tmpconfig = File.join(file, 'config')
+      tmptrain = File.join(file, 'train.spacy')
+      SpaCy.config(@config, tmpconfig)
+      spacy do
+        nlp = SpaCy.nlp(lang)
+        docs = []
+        RbbtPython.iterate nlp.pipe(texts.zip(labels), as_tuples: true), :bar => "Training documents into spacy format" do |doc,label|
+          if %w(1 true pos).include?(label.to_s.downcase)
+            doc.cats["positive"] = 1
+            doc.cats["negative"] = 0
+          else
+            doc.cats["positive"] = 0
+            doc.cats["negative"] = 1
+          end
+          docs << doc
+        end
+        doc_bin = spacy.tokens.DocBin.new(docs: docs)
+        doc_bin.to_disk(tmptrain)
+      end
+      CMD.cmd_log(:spacy, "train #{tmpconfig} --output #{file} --paths.train #{tmptrain} --paths.dev #{tmptrain}")
+    end
+    @eval_model = Proc.new do |file, features|
+      texts = features
+      docs = []
+      spacy do
+        nlp = spacy.load("#{file}/model-best")
+        texts.collect do |text|
+          cats = nlp.(text).cats
+          cats['positive'] > cats['negative']  ? 1 : 0
+        end
+      end
+    end
+  end
+end

data/lib/rbbt/vector/model/svm.rb CHANGED Viewed

@@ -9,7 +9,7 @@ class SVMModel < VectorModel
     @train_model =<<-EOF
 library(e1071);
-model = svm(class ~ ., data = features, scale=c(0));
+model = svm(as.factor(class) ~ ., data = features);
     EOF
     @eval_model =<<-EOF

data/lib/rbbt/vector/model/tensorflow.rb ADDED Viewed

@@ -0,0 +1,55 @@
+require 'rbbt/vector/model'
+require 'rbbt/tensorflow'
+class TensorFlowModel < VectorModel
+  attr_accessor :graph, :epochs, :compile_options
+  def tensorflow(&block)
+    RbbtPython.run "tensorflow" do
+      RbbtPython.module_eval(&block)
+    end
+  end
+  def keras(&block)
+    RbbtPython.run "tensorflow.keras", as: 'keras' do
+      RbbtPython.run "tensorflow" do
+        RbbtPython.module_eval(&block)
+      end
+    end
+  end
+  def initialize(dir, graph = nil, epochs = 3, **compile_options)
+    @graph = graph
+    @epochs = epochs
+    @compile_options = compile_options
+    super(dir)
+    @train_model = Proc.new do |file, features, labels|
+      tensorflow do
+        features = tensorflow.convert_to_tensor(features)
+        labels = tensorflow.convert_to_tensor(labels)
+      end
+      @graph ||= keras_graph
+      @graph.compile(**@compile_options)
+      @graph.fit(features, labels, :epochs => @epochs, :verbose => false)
+      @graph.save(file)
+    end
+    @eval_model = Proc.new do |file, features|
+      tensorflow do
+        features = tensorflow.convert_to_tensor(features)
+      end
+      keras do
+        @graph ||= keras.models.load_model(file)
+        indices = @graph.predict(features, :verbose => false).tolist()
+        labels = indices.collect{|p| p.length > 1 ? p.index(p.max): p.first }
+        labels
+      end
+    end
+  end
+  def keras_graph(&block)
+    @graph = keras(&block)
+  end
+end

data/test/rbbt/network/test_paths.rb CHANGED Viewed

@@ -20,7 +20,7 @@ N4 N5
     end_node = "N5"
     path = Paths.dijkstra(network, start_node, [end_node])
-    assert_equal %w(N1 N2 N4), path.reverse
+    assert_equal %w(N1 N2 N4 N5), path.reverse
   end
   def test_weighted_dijsktra

data/test/rbbt/vector/model/test_spaCy.rb ADDED Viewed

@@ -0,0 +1,88 @@
+require File.join(File.expand_path(File.dirname(__FILE__)), '../../..', 'test_helper.rb')
+require 'rbbt/vector/model/spaCy'
+require 'rbbt/vector/model/svm'
+class TestSpaCyModel < Test::Unit::TestCase
+  def test_spyCy
+    TmpFile.with_file() do |dir|
+      Log.severity = 0
+      FileUtils.mkdir_p dir
+      model = SpaCyModel.new(
+        dir,
+        "cpu/textcat_efficiency.conf"
+      )
+      require 'rbbt/tsv/csv'
+      url = "https://raw.githubusercontent.com/hanzhang0420/Women-Clothing-E-commerce/master/Womens%20Clothing%20E-Commerce%20Reviews.csv"
+      tsv = TSV.csv(Open.open(url))
+      tsv = tsv.reorder("Review Text", ["Recommended IND"]).to_single
+      good = tsv.select("Recommended IND" => '1')
+      bad = tsv.select("Recommended IND" => '0')
+      gsize = 2000
+      bsize = 500
+      good.keys[0..gsize-1].each do |text|
+        next if text.nil? || text.empty?
+        model.add text, '1'
+      end
+      bad.keys[0..bsize-1].each do |text|
+        model.add text, '0'
+      end
+      model.cross_validation
+    end
+    def _test_svm_spacy
+      require 'rbbt/tsv/csv'
+      url = "https://raw.githubusercontent.com/hanzhang0420/Women-Clothing-E-commerce/master/Womens%20Clothing%20E-Commerce%20Reviews.csv"
+      tsv = TSV.csv(Open.open(url))
+      tsv = tsv.reorder("Review Text", ["Recommended IND"]).to_single
+      good = tsv.select("Recommended IND" => '1')
+      bad = tsv.select("Recommended IND" => '0')
+      gsize = 2000
+      bsize = 500
+      model = SVMModel.new(
+        dir
+      )
+      nlp = RbbtPython.run "spacy" do
+        spacy.load('en_core_web_md')
+      end
+      model.extract_features = Proc.new do |text|
+        vs = RbbtPython.run do
+          RbbtPython.collect nlp.(text).__iter__ do |token|
+            token.vector.tolist()
+          end
+        end
+        length = vs.length
+        v = vs.inject(nil){|acc,ev| acc = acc.nil? ? ev : acc.zip(ev).collect{|a,b| a + b } }
+        v.collect{|e| e / length }
+      end
+      TSV.traverse good.keys[0..gsize-1], :type => :array, :bar => true do |text|
+        next if text.nil? || text.empty?
+        model.add text, '1'
+      end
+      TSV.traverse bad.keys[0..bsize-1], :type => :array, :bar => true do |text|
+        model.add text, '0'
+      end
+      model.cross_validation
+    end
+  end
+end

data/test/rbbt/vector/model/test_tensorflow.rb ADDED Viewed

@@ -0,0 +1,57 @@
+require File.join(File.expand_path(File.dirname(__FILE__)), '../../..', 'test_helper.rb')
+require 'rbbt/vector/model/tensorflow'
+class TestTensorflowModel < Test::Unit::TestCase
+  def test_keras
+    TmpFile.with_file() do |dir|
+      FileUtils.mkdir_p dir
+      model = TensorFlowModel.new(
+        dir,
+        optimizer:'adam',
+        loss: 'sparse_categorical_crossentropy',
+        metrics: ['accuracy']
+      )
+      model.keras_graph do
+        tf = tensorflow
+        tf.keras.models.Sequential.new([
+          tf.keras.layers.Flatten.new(input_shape: [28, 28]),
+          tf.keras.layers.Dense.new(128, activation:'relu'),
+          tf.keras.layers.Dropout.new(0.2),
+          tf.keras.layers.Dense.new(10, activation:'softmax')
+        ])
+      end
+      sum = predictions = nil
+      model.tensorflow do
+        tf = tensorflow
+        mnist_db = tf.keras.datasets.mnist
+        (x_train, y_train), (x_test, y_test) = mnist_db.load_data()
+        x_train, x_test = x_train / 255.0, x_test / 255.0
+        num = PyCall.len(x_train)
+        num.times do |i|
+          model.add x_train[i], y_train[i]
+        end
+        model.train
+        predictions = model.eval_list x_test.tolist()
+        sum = 0
+        predictions.zip(y_test.tolist()).each do |pred,label|
+          sum += 1 if label.to_i == pred
+        end
+      end
+      assert sum.to_f / predictions.length > 0.7
+    end
+  end
+end

data/test/rbbt/vector/test_model.rb CHANGED Viewed

@@ -71,4 +71,358 @@ cat(label, file="#{results}");
     end
   end
+  def test_model_list
+    text =<<-EOF
+1 0;1;1
+1 1;0;1
+1 1;1;1
+1 0;1;1
+1 1;1;1
+0 0;1;0
+0 1;0;0
+0 0;1;0
+0 1;0;0
+    EOF
+    TmpFile.with_file() do |dir|
+      FileUtils.mkdir_p dir
+      model = VectorModel.new(dir)
+      model.extract_features = Proc.new{|element,list|
+        if element
+          element.split(";")
+        elsif list
+          list.collect{|e| e.split(";") }
+        end
+      }
+      model.train_model = Proc.new{|model_file,features,labels|
+        TmpFile.with_file do |feature_file|
+          Open.write(feature_file, features.collect{|feats| feats * "\t"} * "\n")
+          Open.write(feature_file + '.class', labels * "\n")
+          R.run <<-EOF
+features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
+labels = scan("#{ feature_file }.class", what=numeric());
+features = cbind(features, class = labels);
+rbbt.require('e1071')
+model = svm(class ~ ., data = features)
+save(model, file="#{ model_file }");
+          EOF
+        end
+      }
+      model.eval_model = Proc.new{|model_file,features|
+        TmpFile.with_file do |feature_file|
+          TmpFile.with_file do |results|
+            Open.write(feature_file, features * "\t")
+            puts R.run(<<-EOF
+features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
+library(e1071)
+load(file="#{ model_file }")
+label = predict(model, features);
+cat(label, file="#{results}");
+            EOF
+            ).read
+            Open.read(results)
+          end
+        end
+      }
+      pairs = text.split(/\n/).collect do |line|
+        label, features = line.split(" ")
+        [features, label]
+      end
+      model.add_list(*Misc.zip_fields(pairs))
+      model.train
+      assert model.eval("1;1;1").to_f > 0.5
+      assert model.eval("0;0;0").to_f < 0.5
+    end
+  end
+  def test_model_list2
+    text =<<-EOF
+1 0;1;1
+1 1;0;1
+1 1;1;1
+1 0;1;1
+1 1;1;1
+0 0;1;0
+0 1;0;0
+0 0;1;0
+0 1;0;0
+    EOF
+    TmpFile.with_file() do |dir|
+      FileUtils.mkdir_p dir
+      model = VectorModel.new(dir)
+      model.extract_features = Proc.new{|element|
+        element.split(";")
+      }
+      model.train_model = Proc.new{|model_file,features,labels|
+        TmpFile.with_file do |feature_file|
+          Open.write(feature_file, features.collect{|feats| feats * "\t"} * "\n")
+          Open.write(feature_file + '.class', labels * "\n")
+          R.run <<-EOF
+features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
+labels = scan("#{ feature_file }.class", what=numeric());
+features = cbind(features, class = labels);
+rbbt.require('e1071')
+model = svm(class ~ ., data = features)
+save(model, file="#{ model_file }");
+          EOF
+        end
+      }
+      model.eval_model = Proc.new{|model_file,features|
+        TmpFile.with_file do |feature_file|
+          TmpFile.with_file do |results|
+            Open.write(feature_file, features * "\t")
+            puts R.run(<<-EOF
+features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
+library(e1071)
+load(file="#{ model_file }")
+label = predict(model, features);
+cat(label, file="#{results}");
+            EOF
+            ).read
+            Open.read(results)
+          end
+        end
+      }
+      pairs = text.split(/\n/).collect do |line|
+        label, features = line.split(" ")
+        [features, label]
+      end
+      model.add_list(*Misc.zip_fields(pairs))
+      model.train
+      assert model.eval("1;1;1").to_f > 0.5
+      assert model.eval("0;0;0").to_f < 0.5
+    end
+  end
+  def test_model_list
+    text =<<-EOF
+1 0;1;1
+1 1;0;1
+1 1;1;1
+1 0;1;1
+1 1;1;1
+0 0;1;0
+0 1;0;0
+0 0;1;0
+0 1;0;0
+    EOF
+    TmpFile.with_file() do |dir|
+      FileUtils.mkdir_p dir
+      model = VectorModel.new(dir)
+      model.extract_features = Proc.new{|element,list|
+        if element
+          element.split(";")
+        elsif list
+          list.collect{|e| e.split(";") }
+        end
+      }
+      model.train_model = Proc.new{|model_file,features,labels|
+        TmpFile.with_file do |feature_file|
+          Open.write(feature_file, features.collect{|feats| feats * "\t"} * "\n")
+          Open.write(feature_file + '.class', labels * "\n")
+          R.run <<-EOF
+features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
+labels = scan("#{ feature_file }.class", what=numeric());
+features = cbind(features, class = labels);
+rbbt.require('e1071')
+model = svm(class ~ ., data = features)
+save(model, file="#{ model_file }");
+          EOF
+        end
+      }
+      model.eval_model = Proc.new{|model_file,features|
+        TmpFile.with_file do |feature_file|
+          TmpFile.with_file do |results|
+            Open.write(feature_file, features * "\t")
+            puts R.run(<<-EOF
+features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
+library(e1071)
+load(file="#{ model_file }")
+label = predict(model, features);
+cat(label, file="#{results}");
+            EOF
+            ).read
+            Open.read(results)
+          end
+        end
+      }
+      pairs = text.split(/\n/).collect do |line|
+        label, features = line.split(" ")
+        model.add features, label
+      end
+      model.train
+      assert model.eval("1;1;1").to_f > 0.5
+      assert model.eval("0;0;0").to_f < 0.5
+    end
+  end
+  def test_model_save
+    text =<<-EOF
+1 0;1;1
+1 1;0;1
+1 1;1;1
+1 0;1;1
+1 1;1;1
+0 0;1;0
+0 1;0;0
+0 0;1;0
+0 1;0;0
+    EOF
+    TmpFile.with_file() do |dir|
+      FileUtils.mkdir_p dir
+      model = VectorModel.new(dir)
+      model.extract_features = Proc.new{|element|
+        element.split(";")
+      }
+      model.train_model = Proc.new{|model_file,features,labels|
+        TmpFile.with_file do |feature_file|
+          Open.write(feature_file, features.collect{|feats| feats * "\t"} * "\n")
+          Open.write(feature_file + '.class', labels * "\n")
+          R.run <<-EOF
+features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
+labels = scan("#{ feature_file }.class", what=numeric());
+features = cbind(features, class = labels);
+rbbt.require('e1071')
+model = svm(class ~ ., data = features)
+save(model, file="#{ model_file }");
+          EOF
+        end
+      }
+      model.eval_model = Proc.new{|model_file,features|
+        TmpFile.with_file do |feature_file|
+          TmpFile.with_file do |results|
+            Open.write(feature_file, features * "\t")
+            puts R.run(<<-EOF
+features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
+library(e1071)
+load(file="#{ model_file }")
+label = predict(model, features);
+cat(label, file="#{results}");
+            EOF
+            ).read
+            Open.read(results)
+          end
+        end
+      }
+      pairs = text.split(/\n/).collect do |line|
+        label, features = line.split(" ")
+        [features, label]
+      end
+      model.add_list(*Misc.zip_fields(pairs))
+      model.train
+      assert model.eval("1;1;1").to_f > 0.5
+      assert model.eval("0;0;0").to_f < 0.5
+    end
+  end
+  def test_model_save
+    text =<<-EOF
+1 0;1;1
+1 1;0;1
+1 1;1;1
+1 0;1;1
+1 1;1;1
+0 0;1;0
+0 1;0;0
+0 0;1;0
+0 1;0;0
+    EOF
+    TmpFile.with_file() do |dir|
+      FileUtils.mkdir_p dir
+      model = VectorModel.new(dir)
+      model.extract_features = Proc.new{|element,list|
+        if element
+          element.split(";")
+        elsif list
+          list.collect{|e| e.split(";") }
+        end
+      }
+      model.train_model = Proc.new{|model_file,features,labels|
+        TmpFile.with_file do |feature_file|
+          Open.write(feature_file, features.collect{|feats| feats * "\t"} * "\n")
+          Open.write(feature_file + '.class', labels * "\n")
+          R.run <<-EOF
+features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
+labels = scan("#{ feature_file }.class", what=numeric());
+features = cbind(features, class = labels);
+rbbt.require('e1071')
+model = svm(class ~ ., data = features)
+save(model, file="#{ model_file }");
+          EOF
+        end
+      }
+      model.eval_model = Proc.new{|model_file,features|
+        TmpFile.with_file do |feature_file|
+          TmpFile.with_file do |results|
+            Open.write(feature_file, features * "\t")
+            puts R.run(<<-EOF
+features = read.table("#{ feature_file }", sep ="\\t", stringsAsFactors=FALSE);
+library(e1071)
+load(file="#{ model_file }")
+label = predict(model, features);
+cat(label, file="#{results}");
+            EOF
+            ).read
+            Open.read(results)
+          end
+        end
+      }
+      pairs = text.split(/\n/).collect do |line|
+        label, features = line.split(" ")
+        model.add features, label
+      end
+      model.train
+      model = VectorModel.new(dir)
+      pairs = text.split(/\n/).collect do |line|
+        label, features = line.split(" ")
+        model.add features, label
+      end
+      assert model.eval("1;1;1").to_f > 0.5
+      assert model.eval("0;0;0").to_f < 0.5
+    end
+  end
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rbbt-dm
 version: !ruby/object:Gem::Version
-  version: 1.1.49
+  version: 1.1.50
 platform: ruby
 authors:
 - Miguel Vazquez
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2020-08-14 00:00:00.000000000 Z
+date: 2021-06-17 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rbbt-util
@@ -105,8 +105,11 @@ files:
 - lib/rbbt/statistics/hypergeometric.rb
 - lib/rbbt/statistics/random_walk.rb
 - lib/rbbt/statistics/rank_product.rb
+- lib/rbbt/tensorflow.rb
 - lib/rbbt/vector/model.rb
+- lib/rbbt/vector/model/spaCy.rb
 - lib/rbbt/vector/model/svm.rb
+- lib/rbbt/vector/model/tensorflow.rb
 - share/R/MA.R
 - share/R/barcode.R
 - share/R/heatmap.3.R
@@ -118,7 +121,9 @@ files:
 - test/rbbt/statistics/test_random_walk.rb
 - test/rbbt/test_ml_task.rb
 - test/rbbt/test_stan.rb
+- test/rbbt/vector/model/test_spaCy.rb
 - test/rbbt/vector/model/test_svm.rb
+- test/rbbt/vector/model/test_tensorflow.rb
 - test/rbbt/vector/test_model.rb
 - test/test_helper.rb
 homepage: http://github.com/mikisvaz/rbbt-phgx
@@ -139,7 +144,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.0.6
+rubygems_version: 3.1.4
 signing_key:
 specification_version: 4
 summary: Data-mining and statistics
@@ -152,6 +157,8 @@ test_files:
 - test/rbbt/statistics/test_hypergeometric.rb
 - test/rbbt/test_ml_task.rb
 - test/rbbt/vector/test_model.rb
+- test/rbbt/vector/model/test_spaCy.rb
+- test/rbbt/vector/model/test_tensorflow.rb
 - test/rbbt/vector/model/test_svm.rb
 - test/rbbt/test_stan.rb
 - test/test_helper.rb