RubyGems - rbbt-dm - Versions diffs - 1.1.56 → 1.1.59 - Mend

rbbt-dm 1.1.56 → 1.1.59

Files changed (13) hide show

checksums.yaml +4 -4
data/LICENSE +1 -1
data/lib/rbbt/vector/model/random_forest.rb +11 -1
data/lib/rbbt/vector/model/spaCy.rb +27 -19
data/lib/rbbt/vector/model/svm.rb +3 -3
data/lib/rbbt/vector/model/util.rb +12 -0
data/lib/rbbt/vector/model.rb +29 -4
data/share/spaCy/cpu/textcat_multilabel_accuracy.conf +86 -0
data/share/spaCy/cpu/textcat_multilabel_efficiency.conf +78 -0
data/share/spaCy/gpu/textcat_multilabel_accuracy.conf +84 -0
data/share/spaCy/gpu/textcat_multilabel_efficiency.conf +73 -0
data/test/rbbt/vector/model/test_spaCy.rb +13 -6
metadata +7 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 8ab1295a1cb43602045e0c75226cc71e1b8eb8fbc7ce72f869f1636309745ad7
-  data.tar.gz: 0c6bd97a2e8c81deb4435531344fd5b145382ddafd06012e93d8695de89f3ff2
+  metadata.gz: 1e001607266948a5221118c15d1fc95ed4266b0f8880b2fa628350d429ed3f7d
+  data.tar.gz: 1d56618e3039e1d99c8183aace2ae20e8cd3dafce0d574b5dbd49ce4f5a1ee14
 SHA512:
-  metadata.gz: 9f2b34158e345c703e60a94d7481e397add3651b0fc5fd7c80205b2c44ae9578e1ccac2b9d67e3679afa37f60d56fe3defed8fbd42c81765e1239b90e8bc06da
-  data.tar.gz: fc1d764b9a240b60bd1de30e22f534485f7319c0396b291e28b0fe1ad48acde7cdeb5de7448509550892cd17e743b5388348f1f40584233280b5ec42cc95940c
+  metadata.gz: d8d324c664257cb142ae7363de776ea7b6e367cd14c22026018c00de335bc3e35be428d00dad6d84a61c3f0874057612d1379e6839b1cea6fc312ea5d8e9a699
+  data.tar.gz: b2e52024a63f3105ac88ca1b471df0b69fe91237a1e3fa70185fc519e0740421c58755eb3560003c9f4e4f60b6479bf449fca7596684e3badba46e4ec242feee

data/LICENSE CHANGED Viewed

@@ -1,4 +1,4 @@
-Copyright (c) 2010-2013 Miguel Vázquez García
+Copyright (c) 2010-2022 Miguel Vázquez García
 Permission is hereby granted, free of charge, to any person obtaining
 a copy of this software and associated documentation files (the

data/lib/rbbt/vector/model/random_forest.rb CHANGED Viewed

@@ -16,11 +16,21 @@ model = randomForest(as.factor(label) ~ ., data = features);
 rbbt.require("randomForest");
 pred = names(model$forest$xlevels)
 for (p in pred) {
-  if (class(features[[p]]) == "factor") {
+  if (is.factor(features[[p]])) {
       features[[p]] = factor(features[[p]], levels=model$forest$xlevels[[p]])
     }
 }
 label = predict(model, features);
     EOF
   end
+  def importance
+    TmpFile.with_file do |tmp|
+      tsv = R.run <<-EOF
+load(file="#{model_file}");
+rbbt.tsv.write('#{tmp}', model$importance)
+      EOF
+      TSV.open(tmp)
+    end
+  end
 end

data/lib/rbbt/vector/model/spaCy.rb CHANGED Viewed

@@ -4,13 +4,13 @@ require 'rbbt/nlp/spaCy'
 class SpaCyModel < VectorModel
   attr_accessor :config
-  def spacy(&block)
+  def self.spacy(&block)
     RbbtPython.run "spacy" do
       RbbtPython.module_eval(&block)
     end
   end
-  def initialize(dir, config, lang = 'en_core_web_md')
+  def initialize(dir, config, categories = %w(positive negative), lang = 'en_core_web_md')
     @config = case
               when Path === config
                 config.read
@@ -30,20 +30,21 @@ class SpaCyModel < VectorModel
     @train_model = Proc.new do |file, features, labels|
       texts = features
       docs = []
+      unique_labels = labels.uniq
       tmpconfig = File.join(file, 'config')
       tmptrain = File.join(file, 'train.spacy')
       SpaCy.config(@config, tmpconfig)
-      spacy do
+      bar = bar(features.length, "Training documents into spacy format")
+      SpaCyModel.spacy do
         nlp = SpaCy.nlp(lang)
         docs = []
-        RbbtPython.iterate nlp.pipe(texts.zip(labels), as_tuples: true), :bar => "Training documents into spacy format" do |doc,label|
-          if %w(1 true pos).include?(label.to_s.downcase)
-            doc.cats["positive"] = 1
-            doc.cats["negative"] = 0
-          else
-            doc.cats["positive"] = 0
-            doc.cats["negative"] = 1
+        RbbtPython.iterate nlp.pipe(texts.zip(labels), as_tuples: true), :bar => bar do |doc,label|
+          unique_labels.each do |other_label|
+            next if other_label == label
+            doc.cats[other_label] = false
           end
+          doc.cats[label] = true
           docs << doc
         end
@@ -51,24 +52,31 @@ class SpaCyModel < VectorModel
         doc_bin.to_disk(tmptrain)
       end
-      gpu = Rbbt::Config.get('gpu_id', :spacy, :spacy_train)
+      gpu = Rbbt::Config.get('gpu_id', :spacy, :spacy_train, :default => 0)
       CMD.cmd_log(:spacy, "train #{tmpconfig} --output #{file} --paths.train #{tmptrain} --paths.dev #{tmptrain}",  "--gpu-id" => gpu)
     end
-    @eval_model = Proc.new do |file, features|
+    @eval_model = Proc.new do |file, features,list|
       texts = features
+      texts = [texts] unless list
       docs = []
-      spacy do
+      bar = bar(features.length, "Evaluating model")
+      SpaCyModel.spacy do
         nlp = spacy.load("#{file}/model-best")
-        Log::ProgressBar.with_bar texts.length, :desc => "Evaluating documents" do |bar|
-          texts.collect do |text|
-            cats = nlp.(text).cats
-            bar.tick
-            cats['positive'] > cats['negative']  ? 1 : 0
-          end
+        docs = nlp.pipe(texts)
+        RbbtPython.collect docs, :bar => bar do |d|
+          d.cats.sort_by{|l,v| v.to_f || 0 }.last.first
         end
+        #nlp.(docs).cats.collect{|cats| cats.sort_by{|l,v| v.to_f }.last.first }
+        #Log::ProgressBar.with_bar texts.length, :desc => "Evaluating documents" do |bar|
+        #  texts.collect do |text|
+        #    cats = nlp.(text).cats
+        #    bar.tick
+        #    cats.sort_by{|l,v| v.to_f }.last.first
+        #  end
+        #end
       end
     end
   end

data/lib/rbbt/vector/model/svm.rb CHANGED Viewed

@@ -3,16 +3,16 @@ class SVMModel < VectorModel
   def initialize(dir)
     super(dir)
-    @extract_features = Proc.new{|element|
+    @extract_features ||= Proc.new{|element|
       element
     }
-    @train_model =<<-EOF
+    @train_model ||=<<-EOF
 rbbt.require('e1071');
 model = svm(as.factor(label) ~ ., data = features);
     EOF
-    @eval_model =<<-EOF
+    @eval_model ||=<<-EOF
 rbbt.require('e1071');
 label = predict(model, features);
     EOF

data/lib/rbbt/vector/model/util.rb ADDED Viewed

@@ -0,0 +1,12 @@
+class VectorModel
+  attr_accessor :bar
+  def bar(max = nil, desc = nil)
+    desc, max = max, nil if desc.nil?
+    @bar ||= Log::ProgressBar.new max
+    @bar.desc = desc
+    @bar.max = max
+    @bar.init
+    @bar
+  end
+end

data/lib/rbbt/vector/model.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 require 'rbbt/util/R'
+require 'rbbt/vector/model/util'
 class VectorModel
   attr_accessor :directory, :model_file, :extract_features, :train_model, :eval_model
@@ -53,6 +54,13 @@ features = cbind(features, label = labels);
     "features[['#{name}']] = factor(features[['#{name}']], levels=#{R.ruby2R levels})"
   end * "\n" if factor_levels }
 #{code}
+# Save used factor levels
+factor_levels = c()
+for (c in names(features)){
+  if (is.factor(features[[c]]))
+    factor_levels[c] = paste(levels(features[[c]]), collapse="\t")
+}
+rbbt.tsv.write("#{model_file}.factor_levels", factor_levels, names=c('Levels'), type='flat')
 save(model, file='#{model_file}')
       EOF
     end
@@ -150,6 +158,9 @@ cat(paste(label, sep="\\n", collapse="\\n"));
       if File.exists?(@levels_file)
         @factor_levels = YAML.load(Open.read(@levels_file))
       end
+      if File.exists?(@model_file + '.factor_levels')
+        @factor_levels = TSV.open(@model_file + '.factor_levels')
+      end
     else
       @factor_levels = factor_levels
     end
@@ -320,6 +331,8 @@ cat(paste(label, sep="\\n", collapse="\\n"));
       acc = []
       labels.each do |good_label|
         values = VectorModel.f1_metrics(test, predicted, good_label)
+        tp, tn, fp, fn, pr, re, f1 = values
+        Log.debug "Partial CV #{good_label} - P:#{"%.3f" % pr} R:#{"%.3f" % re} F1:#{"%.3f" % f1} - #{[tp.to_s, tn.to_s, fp.to_s, fn.to_s] * " "}"
         acc << values
       end
       Misc.zip_fields(acc).collect{|s| Misc.mean(s)}
@@ -340,12 +353,21 @@ cat(paste(label, sep="\\n", collapse="\\n"));
     end
     begin
-      feature_folds = Misc.divide(@features, folds)
-      labels_folds = Misc.divide(@labels, folds)
+      if folds == 1
+        feature_folds = [@features]
+        labels_folds = [@labels]
+      else
+        feature_folds = Misc.divide(@features, folds)
+        labels_folds = Misc.divide(@labels, folds)
+      end
       folds.times do |fix|
-        rest = (0..(folds-1)).to_a - [fix]
+        if folds == 1
+          rest = [fix]
+        else
+          rest = (0..(folds-1)).to_a - [fix]
+        end
         test_set = feature_folds[fix]
         train_set = feature_folds.values_at(*rest).inject([]){|acc,e| acc += e; acc}
@@ -355,6 +377,7 @@ cat(paste(label, sep="\\n", collapse="\\n"));
         @features = train_set
         @labels = train_labels
         self.train
         predictions = self.eval_list test_set, false
@@ -362,6 +385,8 @@ cat(paste(label, sep="\\n", collapse="\\n"));
         different_labels = test_labels.uniq
+        Log.debug do "Accuracy Fold #{fix}: #{(100 * test_labels.zip(predictions).select{|t,p| t == p }.length.to_f / test_labels.length).round(2)}%"  end
         tp, tn, fp, fn, pr, re, f1 = VectorModel.f1_metrics(test_labels, predictions, good_label)
         if multiclass
@@ -377,7 +402,7 @@ cat(paste(label, sep="\\n", collapse="\\n"));
       @features = orig_features
       @labels = orig_labels
     end
-    self.train
+    self.train unless folds == 1
     res
   end
 end

data/share/spaCy/cpu/textcat_multilabel_accuracy.conf ADDED Viewed

@@ -0,0 +1,86 @@
+# This is an auto-generated partial config. To use it with 'spacy train'
+# you can run spacy init fill-config to auto-fill all default settings:
+# python -m spacy init fill-config ./base_config.cfg ./config.cfg
+[paths]
+train = null
+dev = null
+[system]
+gpu_allocator = null
+[nlp]
+lang = "en"
+pipeline = ["tok2vec","textcat_multilabel"]
+batch_size = 1000
+[components]
+[components.tok2vec]
+factory = "tok2vec"
+[components.tok2vec.model]
+@architectures = "spacy.Tok2Vec.v2"
+[components.tok2vec.model.embed]
+@architectures = "spacy.MultiHashEmbed.v2"
+width = ${components.tok2vec.model.encode.width}
+attrs = ["ORTH", "SHAPE"]
+rows = [5000, 2500]
+include_static_vectors = true
+[components.tok2vec.model.encode]
+@architectures = "spacy.MaxoutWindowEncoder.v2"
+width = 256
+depth = 8
+window_size = 1
+maxout_pieces = 3
+[components.textcat_multilabel]
+factory = "textcat_multilabel"
+[components.textcat_multilabel.model]
+@architectures = "spacy.TextCatEnsemble.v2"
+nO = null
+[components.textcat_multilabel.model.tok2vec]
+@architectures = "spacy.Tok2VecListener.v1"
+width = ${components.tok2vec.model.encode.width}
+[components.textcat_multilabel.model.linear_model]
+@architectures = "spacy.TextCatBOW.v1"
+exclusive_classes = true
+ngram_size = 1
+no_output_layer = false
+[corpora]
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+max_length = 2000
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+max_length = 0
+[training]
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+[training.optimizer]
+@optimizers = "Adam.v1"
+[training.batcher]
+@batchers = "spacy.batch_by_words.v1"
+discard_oversize = false
+tolerance = 0.2
+[training.batcher.size]
+@schedules = "compounding.v1"
+start = 100
+stop = 1000
+compound = 1.001
+[initialize]
+vectors = "en_core_web_lg"

data/share/spaCy/cpu/textcat_multilabel_efficiency.conf ADDED Viewed

@@ -0,0 +1,78 @@
+# This is an auto-generated partial config. To use it with 'spacy train'
+# you can run spacy init fill-config to auto-fill all default settings:
+# python -m spacy init fill-config ./base_config.cfg ./config.cfg
+[paths]
+train = null
+dev = null
+[system]
+gpu_allocator = null
+[nlp]
+lang = "en"
+pipeline = ["tok2vec","textcat_multilabel"]
+batch_size = 1000
+[components]
+[components.tok2vec]
+factory = "tok2vec"
+[components.tok2vec.model]
+@architectures = "spacy.Tok2Vec.v2"
+[components.tok2vec.model.embed]
+@architectures = "spacy.MultiHashEmbed.v2"
+width = ${components.tok2vec.model.encode.width}
+attrs = ["ORTH", "SHAPE"]
+rows = [5000, 2500]
+include_static_vectors = false
+[components.tok2vec.model.encode]
+@architectures = "spacy.MaxoutWindowEncoder.v2"
+width = 96
+depth = 4
+window_size = 1
+maxout_pieces = 3
+[components.textcat_multilabel]
+factory = "textcat_multilabel"
+[components.textcat_multilabel.model]
+@architectures = "spacy.TextCatBOW.v1"
+exclusive_classes = true
+ngram_size = 1
+no_output_layer = false
+[corpora]
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+max_length = 2000
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+max_length = 0
+[training]
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+[training.optimizer]
+@optimizers = "Adam.v1"
+[training.batcher]
+@batchers = "spacy.batch_by_words.v1"
+discard_oversize = false
+tolerance = 0.2
+[training.batcher.size]
+@schedules = "compounding.v1"
+start = 100
+stop = 1000
+compound = 1.001
+[initialize]
+vectors = null

data/share/spaCy/gpu/textcat_multilabel_accuracy.conf ADDED Viewed

@@ -0,0 +1,84 @@
+# This is an auto-generated partial config. To use it with 'spacy train'
+# you can run spacy init fill-config to auto-fill all default settings:
+# python -m spacy init fill-config ./base_config.cfg ./config.cfg
+[paths]
+train = null
+dev = null
+[system]
+gpu_allocator = "pytorch"
+[nlp]
+lang = "en"
+pipeline = ["transformer","textcat_multilabel"]
+batch_size = 128
+[components]
+[components.transformer]
+factory = "transformer"
+[components.transformer.model]
+@architectures = "spacy-transformers.TransformerModel.v1"
+name = "emilyalsentzer/Bio_ClinicalBERT"
+tokenizer_config = {"use_fast": true}
+[components.transformer.model.get_spans]
+@span_getters = "spacy-transformers.strided_spans.v1"
+window = 128
+stride = 96
+[components.textcat_multilabel]
+factory = "textcat_multilabel"
+[components.textcat_multilabel.model]
+@architectures = "spacy.TextCatEnsemble.v2"
+nO = null
+[components.textcat_multilabel.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+[components.textcat_multilabel.model.tok2vec.pooling]
+@layers = "reduce_mean.v1"
+[components.textcat_multilabel.model.linear_model]
+@architectures = "spacy.TextCatBOW.v1"
+exclusive_classes = true
+ngram_size = 1
+no_output_layer = false
+[corpora]
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+max_length = 500
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+max_length = 0
+[training]
+accumulate_gradient = 3
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+[training.optimizer]
+@optimizers = "Adam.v1"
+[training.optimizer.learn_rate]
+@schedules = "warmup_linear.v1"
+warmup_steps = 250
+total_steps = 20000
+initial_rate = 5e-5
+[training.batcher]
+@batchers = "spacy.batch_by_padded.v1"
+discard_oversize = true
+size = 2000
+buffer = 256
+[initialize]
+vectors = null

data/share/spaCy/gpu/textcat_multilabel_efficiency.conf ADDED Viewed

@@ -0,0 +1,73 @@
+# This is an auto-generated partial config. To use it with 'spacy train'
+# you can run spacy init fill-config to auto-fill all default settings:
+# python -m spacy init fill-config ./base_config.cfg ./config.cfg
+[paths]
+train = null
+dev = null
+[system]
+gpu_allocator = "pytorch"
+[nlp]
+lang = "en"
+pipeline = ["transformer","textcat_multilabel"]
+batch_size = 128
+[components]
+[components.transformer]
+factory = "transformer"
+[components.transformer.model]
+@architectures = "spacy-transformers.TransformerModel.v1"
+name = "roberta-base"
+tokenizer_config = {"use_fast": true}
+[components.transformer.model.get_spans]
+@span_getters = "spacy-transformers.strided_spans.v1"
+window = 128
+stride = 96
+[components.textcat_multilabel]
+factory = "textcat_multilabel"
+[components.textcat_multilabel.model]
+@architectures = "spacy.TextCatBOW.v1"
+exclusive_classes = true
+ngram_size = 1
+no_output_layer = false
+[corpora]
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+max_length = 500
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+max_length = 0
+[training]
+accumulate_gradient = 3
+dev_corpus = "corpora.dev"
+train_corpus = "corpora.train"
+[training.optimizer]
+@optimizers = "Adam.v1"
+[training.optimizer.learn_rate]
+@schedules = "warmup_linear.v1"
+warmup_steps = 250
+total_steps = 20000
+initial_rate = 5e-5
+[training.batcher]
+@batchers = "spacy.batch_by_padded.v1"
+discard_oversize = true
+size = 2000
+buffer = 256
+[initialize]
+vectors = null

data/test/rbbt/vector/model/test_spaCy.rb CHANGED Viewed

@@ -23,18 +23,23 @@ class TestSpaCyModel < Test::Unit::TestCase
       good = tsv.select("Recommended IND" => '1')
       bad = tsv.select("Recommended IND" => '0')
-      gsize = 2000
-      bsize = 500
+      gsize = 200
+      bsize = 50
       good.keys[0..gsize-1].each do |text|
         next if text.nil? || text.empty?
-        model.add text, '1'
+        model.add text, 'good'
       end
       bad.keys[0..bsize-1].each do |text|
-        model.add text, '0'
+        model.add text, 'bad'
       end
-      model.cross_validation
+      model.cross_validation 1
+      model = VectorModel.new dir
+      assert Misc.counts(model.eval_list(good.keys[0..50]))['good'] > 40
+      assert Misc.counts(model.eval_list(bad.keys[0..50]))['bad'] > 40
     end
     def test_svm_spacy
@@ -91,14 +96,16 @@ class TestSpaCyModel < Test::Unit::TestCase
       model = SpaCyModel.new(
         dir,
-        "gpu/textcat_accuracy.conf"
+        "cpu/textcat_efficiency.conf"
       )
+      Rbbt::Config.set 'gpu_id', nil, :spacy
       require 'rbbt/tsv/csv'
       url = "https://raw.githubusercontent.com/hanzhang0420/Women-Clothing-E-commerce/master/Womens%20Clothing%20E-Commerce%20Reviews.csv"
       tsv = TSV.csv(Open.open(url))
       tsv = tsv.reorder("Review Text", ["Recommended IND"]).to_single
+      tsv = tsv.subset(tsv.keys.sample(100))
       good = tsv.select("Recommended IND" => '1')
       bad = tsv.select("Recommended IND" => '0')

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rbbt-dm
 version: !ruby/object:Gem::Version
-  version: 1.1.56
+  version: 1.1.59
 platform: ruby
 authors:
 - Miguel Vazquez
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2021-12-20 00:00:00.000000000 Z
+date: 2022-07-29 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rbbt-util
@@ -111,13 +111,18 @@ files:
 - lib/rbbt/vector/model/spaCy.rb
 - lib/rbbt/vector/model/svm.rb
 - lib/rbbt/vector/model/tensorflow.rb
+- lib/rbbt/vector/model/util.rb
 - share/R/MA.R
 - share/R/barcode.R
 - share/R/heatmap.3.R
 - share/spaCy/cpu/textcat_accuracy.conf
 - share/spaCy/cpu/textcat_efficiency.conf
+- share/spaCy/cpu/textcat_multilabel_accuracy.conf
+- share/spaCy/cpu/textcat_multilabel_efficiency.conf
 - share/spaCy/gpu/textcat_accuracy.conf
 - share/spaCy/gpu/textcat_efficiency.conf
+- share/spaCy/gpu/textcat_multilabel_accuracy.conf
+- share/spaCy/gpu/textcat_multilabel_efficiency.conf
 - test/rbbt/matrix/test_barcode.rb
 - test/rbbt/network/test_paths.rb
 - test/rbbt/statistics/test_fdr.rb