RubyGems - rbbt-dm - Versions diffs - 1.2.3 → 1.2.4 - Mend

rbbt-dm 1.2.3 → 1.2.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

checksums.yaml +4 -4
data/lib/rbbt/vector/model/huggingface.rb +3 -5
data/python/rbbt_dm/__init__.py +1 -0
data/python/rbbt_dm/huggingface.py +31 -8
data/test/rbbt/vector/model/test_huggingface.rb +16 -1
metadata +16 -15

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 2ff72107967b0f7c654697f3a7b3c0ef10f7a5264d775117f12f74084a2819b2
-  data.tar.gz: 6b9a58b5a2723c095332f79a37d9c1c7f4bc1431410f23a55beeed1c3b52f7ad
+  metadata.gz: abaea1fff82b5e14a84dc9afc966fc8dde6482d50769d196854c1d619adebaf3
+  data.tar.gz: 561b8864fc2c0ba271a2a658da0d3492c7481a2368b40c3b91fe6edb4ebca4cd
 SHA512:
-  metadata.gz: a0fb4198cb0be3aa5253df0f655ee230621dd26a31956a774fffe95eac35f4c8b558a41c0e340c25c6eef463760ff6230b967f09eb09671b2078a50066067384
-  data.tar.gz: 0bd6c3667a8ec26ed092c54e78176671807ed0634e136e497303e34a17b2740e5e023041bc06389ac187de39b54942b9b1c5cd77abbc067c89250424654b6974
+  metadata.gz: f26f6b27f1beb2554fa78369d1d618cc13175e0c9bb0e789b9490dcae0f7f6df4449a3c72d183ae22c96324d4e2f1ab0352bde8068c1c18871d52c5f5b53c235
+  data.tar.gz: bb33d93cbe24ea974beedb0530f9af317dec06c7e76f32c37d724322ba05f241c6b79a706a88f1bbe703ac4bc78c53c220f28c3f38cf7939477274b8747c436e

data/lib/rbbt/vector/model/huggingface.rb CHANGED Viewed

@@ -1,11 +1,12 @@
 require 'rbbt/vector/model'
 require 'rbbt/util/python'
+RbbtPython.add_path Rbbt.python.find(:lib)
 RbbtPython.init_rbbt
 class HuggingfaceModel < VectorModel
-  attr_accessor :checkpoint, :task, :locate_tokens, :class_labels
+  attr_accessor :checkpoint, :task, :locate_tokens, :class_labels, :class_weights
   def tsv_dataset(tsv_dataset_file, elements, labels = nil)
@@ -48,7 +49,7 @@ class HuggingfaceModel < VectorModel
       if labels
         training_args = call_method(:training_args, output_dir)
-        call_method(:train_model, @model, @tokenizer, training_args, tsv_dataset(tsv_file, elements, labels))
+        call_method(:train_model, @model, @tokenizer, training_args, tsv_dataset(tsv_file, elements, labels), @class_weights)
       else
         if Array === elements
           training_args = call_method(:training_args, output_dir)
@@ -135,6 +136,3 @@ class HuggingfaceModel < VectorModel
   end
 end
-if __FILE__ == $0
-end

data/python/rbbt_dm/__init__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ # Keep

data/python/rbbt_dm/huggingface.py CHANGED Viewed

@@ -51,17 +51,40 @@ def training_args(*args, **kwargs):
     return training_args
-def train_model(model, tokenizer, training_args, tsv_file):
+def train_model(model, tokenizer, training_args, tsv_file, class_weights=None):
     from transformers import Trainer
     tokenized_dataset = tsv_dataset(tokenizer, tsv_file)
-    trainer = Trainer(
-            model,
-            training_args,
-            train_dataset = tokenized_dataset["train"],
-            tokenizer = tokenizer
-            )
+    if (not class_weights == None):
+      import torch
+      from torch import nn
+      class WeightTrainer(Trainer):
+          def compute_loss(self, model, inputs, return_outputs=False):
+              labels = inputs.get("labels")
+              # forward pass
+              outputs = model(**inputs)
+              logits = outputs.get('logits')
+              # compute custom loss
+              loss_fct = nn.CrossEntropyLoss(weight=torch.tensor(class_weights).to(model.device))
+              loss = loss_fct(logits.view(-1, self.model.config.num_labels), labels.view(-1))
+              return (loss, outputs) if return_outputs else loss
+      trainer = WeightTrainer(
+              model,
+              training_args,
+              train_dataset = tokenized_dataset["train"],
+              tokenizer = tokenizer
+              )
+    else:
+      trainer = Trainer(
+              model,
+              training_args,
+              train_dataset = tokenized_dataset["train"],
+              tokenizer = tokenizer
+              )
     trainer.train()
@@ -90,7 +113,6 @@ def find_tokens_in_input(dataset, token_ids):
     return position_rows
 def predict_model(model, tokenizer, training_args, tsv_file, locate_tokens = None):
     from transformers import Trainer
@@ -110,3 +132,4 @@ def predict_model(model, tokenizer, training_args, tsv_file, locate_tokens = Non
     else:
         return result

data/test/rbbt/vector/model/test_huggingface.rb CHANGED Viewed

@@ -3,6 +3,22 @@ require 'rbbt/vector/model/huggingface'
 class TestHuggingface < Test::Unit::TestCase
+  def test_pipeline
+    require 'rbbt/util/python'
+    model = VectorModel.new
+    model.post_process do |elements|
+      elements.collect{|e| e['label'] }
+    end
+    model.eval_model do |file, elements|
+      RbbtPython.run :transformers do
+        classifier ||= transformers.pipeline("sentiment-analysis")
+        classifier.call(elements)
+      end
+    end
+    assert_equal ["POSITIVE"], model.eval("I've been waiting for a HuggingFace course my whole life.")
+  end
   def test_sst_eval
     TmpFile.with_file do |dir|
       checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
@@ -12,7 +28,6 @@ class TestHuggingface < Test::Unit::TestCase
       model.class_labels = ["Bad", "Good"]
       assert_equal ["Bad", "Good"], model.eval(["This is dog", "This is cat"])
     end
   end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rbbt-dm
 version: !ruby/object:Gem::Version
-  version: 1.2.3
+  version: 1.2.4
 platform: ruby
 authors:
 - Miguel Vazquez
-autorequire:
+autorequire:
 bindir: bin
 cert_chain: []
-date: 2023-02-04 00:00:00.000000000 Z
+date: 2023-02-07 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rbbt-util
@@ -113,6 +113,7 @@ files:
 - lib/rbbt/vector/model/svm.rb
 - lib/rbbt/vector/model/tensorflow.rb
 - lib/rbbt/vector/model/util.rb
+- python/rbbt_dm/__init__.py
 - python/rbbt_dm/huggingface.py
 - share/R/MA.R
 - share/R/barcode.R
@@ -142,7 +143,7 @@ files:
 homepage: http://github.com/mikisvaz/rbbt-phgx
 licenses: []
 metadata: {}
-post_install_message:
+post_install_message:
 rdoc_options: []
 require_paths:
 - lib
@@ -157,22 +158,22 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.1.2
-signing_key:
+rubygems_version: 3.1.6
+signing_key:
 specification_version: 4
 summary: Data-mining and statistics
 test_files:
-- test/test_helper.rb
+- test/rbbt/statistics/test_hypergeometric.rb
+- test/rbbt/statistics/test_fisher.rb
+- test/rbbt/statistics/test_fdr.rb
+- test/rbbt/statistics/test_random_walk.rb
+- test/rbbt/test_ml_task.rb
 - test/rbbt/vector/test_model.rb
-- test/rbbt/vector/model/test_huggingface.rb
 - test/rbbt/vector/model/test_tensorflow.rb
 - test/rbbt/vector/model/test_spaCy.rb
+- test/rbbt/vector/model/test_huggingface.rb
 - test/rbbt/vector/model/test_svm.rb
-- test/rbbt/statistics/test_random_walk.rb
-- test/rbbt/statistics/test_fisher.rb
-- test/rbbt/statistics/test_fdr.rb
-- test/rbbt/statistics/test_hypergeometric.rb
-- test/rbbt/test_stan.rb
-- test/rbbt/matrix/test_barcode.rb
-- test/rbbt/test_ml_task.rb
 - test/rbbt/network/test_paths.rb
+- test/rbbt/matrix/test_barcode.rb
+- test/rbbt/test_stan.rb
+- test/test_helper.rb