RubyGems - rbbt-dm - Versions diffs - 1.2.1 → 1.2.4 - Mend

rbbt-dm 1.2.1 → 1.2.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (7) hide show

checksums.yaml +4 -4
data/lib/rbbt/vector/model/huggingface.rb +3 -5
data/lib/rbbt/vector/model.rb +1 -1
data/python/rbbt_dm/__init__.py +1 -0
data/python/rbbt_dm/huggingface.py +135 -0
data/test/rbbt/vector/model/test_huggingface.rb +16 -1
metadata +17 -15

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: ab775c0224960820e5c62e294e6a183be49201da15710b66544762e1aaf97ebf
-  data.tar.gz: 8fffb47ba226f06d1f41a8893d085bdc12c33c021cf2f0152f4cc741db36e420
+  metadata.gz: abaea1fff82b5e14a84dc9afc966fc8dde6482d50769d196854c1d619adebaf3
+  data.tar.gz: 561b8864fc2c0ba271a2a658da0d3492c7481a2368b40c3b91fe6edb4ebca4cd
 SHA512:
-  metadata.gz: 8be084156063cd93c7fe905bc4b6248dd376bbfcff8e650cbb03a4cc5c28f29dbcdaa2801895a3663067d7660e8bc2cf96682829519ebd6511a7a74cec021da0
-  data.tar.gz: 9c8570722319caf5afe60c90778d0b8517e70064030e0081968d919a314cfe1af90f63d13a7b8ce8dd56da6644db89916a729a4005f1e20745c8d4b45d50394c
+  metadata.gz: f26f6b27f1beb2554fa78369d1d618cc13175e0c9bb0e789b9490dcae0f7f6df4449a3c72d183ae22c96324d4e2f1ab0352bde8068c1c18871d52c5f5b53c235
+  data.tar.gz: bb33d93cbe24ea974beedb0530f9af317dec06c7e76f32c37d724322ba05f241c6b79a706a88f1bbe703ac4bc78c53c220f28c3f38cf7939477274b8747c436e

data/lib/rbbt/vector/model/huggingface.rb CHANGED Viewed

@@ -1,11 +1,12 @@
 require 'rbbt/vector/model'
 require 'rbbt/util/python'
+RbbtPython.add_path Rbbt.python.find(:lib)
 RbbtPython.init_rbbt
 class HuggingfaceModel < VectorModel
-  attr_accessor :checkpoint, :task, :locate_tokens, :class_labels
+  attr_accessor :checkpoint, :task, :locate_tokens, :class_labels, :class_weights
   def tsv_dataset(tsv_dataset_file, elements, labels = nil)
@@ -48,7 +49,7 @@ class HuggingfaceModel < VectorModel
       if labels
         training_args = call_method(:training_args, output_dir)
-        call_method(:train_model, @model, @tokenizer, training_args, tsv_dataset(tsv_file, elements, labels))
+        call_method(:train_model, @model, @tokenizer, training_args, tsv_dataset(tsv_file, elements, labels), @class_weights)
       else
         if Array === elements
           training_args = call_method(:training_args, output_dir)
@@ -135,6 +136,3 @@ class HuggingfaceModel < VectorModel
   end
 end
-if __FILE__ == $0
-end

data/lib/rbbt/vector/model.rb CHANGED Viewed

@@ -436,7 +436,7 @@ cat(paste(label, sep="\\n", collapse="\\n"));
     ensure
       @features = orig_features
       @labels = orig_labels
-    end
+    end unless folds == -1
     self.train unless folds == 1
     res
   end

data/python/rbbt_dm/__init__.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ # Keep

data/python/rbbt_dm/huggingface.py ADDED Viewed

@@ -0,0 +1,135 @@
+#{{{ LOAD MODEL
+def import_module_class(module, class_name):
+    exec(f"from {module} import {class_name}")
+    return eval(class_name)
+def load_model(task, checkpoint):
+    class_name = 'AutoModelFor' + task
+    return import_module_class('transformers', class_name).from_pretrained(checkpoint)
+def load_tokenizer(task, checkpoint):
+    class_name = 'AutoTokenizer'
+    return import_module_class('transformers', class_name).from_pretrained(checkpoint)
+def load_model_and_tokenizer(task, checkpoint):
+    model = load_model(task, checkpoint)
+    tokenizer = load_tokenizer(task, checkpoint)
+    return model, tokenizer
+#{{{ SIMPLE EVALUATE
+def forward(model, features):
+    return model(**features)
+def logits(predictions):
+    logits = predictions["logits"]
+    return [v.detach().cpu().numpy() for v in logits]
+def eval_model(model, tokenizer, texts, return_logits = True):
+    features = tokenizer(texts, return_tensors='pt', truncation=True).to(model.device)
+    predictions = forward(model, features)
+    if (return_logits):
+        return logits(predictions)
+    else:
+        return predictions
+#{{{ TRAIN AND PREDICT
+def load_tsv(tsv_file):
+    from datasets import load_dataset
+    return load_dataset('csv', data_files=[tsv_file], sep="\t")
+def tsv_dataset(tokenizer, tsv_file):
+    dataset = load_tsv(tsv_file)
+    tokenized_dataset = dataset.map(lambda example: tokenizer(example["text"], truncation=True) , batched=True)
+    return tokenized_dataset
+def training_args(*args, **kwargs):
+    from transformers import TrainingArguments
+    training_args = TrainingArguments(*args, **kwargs)
+    return training_args
+def train_model(model, tokenizer, training_args, tsv_file, class_weights=None):
+    from transformers import Trainer
+    tokenized_dataset = tsv_dataset(tokenizer, tsv_file)
+    if (not class_weights == None):
+      import torch
+      from torch import nn
+      class WeightTrainer(Trainer):
+          def compute_loss(self, model, inputs, return_outputs=False):
+              labels = inputs.get("labels")
+              # forward pass
+              outputs = model(**inputs)
+              logits = outputs.get('logits')
+              # compute custom loss
+              loss_fct = nn.CrossEntropyLoss(weight=torch.tensor(class_weights).to(model.device))
+              loss = loss_fct(logits.view(-1, self.model.config.num_labels), labels.view(-1))
+              return (loss, outputs) if return_outputs else loss
+      trainer = WeightTrainer(
+              model,
+              training_args,
+              train_dataset = tokenized_dataset["train"],
+              tokenizer = tokenizer
+              )
+    else:
+      trainer = Trainer(
+              model,
+              training_args,
+              train_dataset = tokenized_dataset["train"],
+              tokenizer = tokenizer
+              )
+    trainer.train()
+def find_tokens_in_input(dataset, token_ids):
+    position_rows = []
+    for row in dataset:
+        input_ids = row["input_ids"]
+        if (not hasattr(token_ids, "__len__")):
+            token_ids = [token_ids]
+        positions = []
+        for token_id in token_ids:
+            item_positions = []
+            for i in range(len(input_ids)):
+                if input_ids[i] == token_id:
+                    item_positions.append(i)
+            positions.append(item_positions)
+        position_rows.append(positions)
+    return position_rows
+def predict_model(model, tokenizer, training_args, tsv_file, locate_tokens = None):
+    from transformers import Trainer
+    tokenized_dataset = tsv_dataset(tokenizer, tsv_file)
+    trainer = Trainer(
+            model,
+            training_args,
+            tokenizer = tokenizer
+            )
+    result = trainer.predict(test_dataset = tokenized_dataset["train"])
+    if (locate_tokens != None):
+        token_ids = tokenizer.convert_tokens_to_ids(locate_tokens)
+        token_positions = find_tokens_in_input(tokenized_dataset["train"], token_ids)
+        return dict(result=result, token_positions=token_positions)
+    else:
+        return result

data/test/rbbt/vector/model/test_huggingface.rb CHANGED Viewed

@@ -3,6 +3,22 @@ require 'rbbt/vector/model/huggingface'
 class TestHuggingface < Test::Unit::TestCase
+  def test_pipeline
+    require 'rbbt/util/python'
+    model = VectorModel.new
+    model.post_process do |elements|
+      elements.collect{|e| e['label'] }
+    end
+    model.eval_model do |file, elements|
+      RbbtPython.run :transformers do
+        classifier ||= transformers.pipeline("sentiment-analysis")
+        classifier.call(elements)
+      end
+    end
+    assert_equal ["POSITIVE"], model.eval("I've been waiting for a HuggingFace course my whole life.")
+  end
   def test_sst_eval
     TmpFile.with_file do |dir|
       checkpoint = "distilbert-base-uncased-finetuned-sst-2-english"
@@ -12,7 +28,6 @@ class TestHuggingface < Test::Unit::TestCase
       model.class_labels = ["Bad", "Good"]
       assert_equal ["Bad", "Good"], model.eval(["This is dog", "This is cat"])
     end
   end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rbbt-dm
 version: !ruby/object:Gem::Version
-  version: 1.2.1
+  version: 1.2.4
 platform: ruby
 authors:
 - Miguel Vazquez
-autorequire:
+autorequire:
 bindir: bin
 cert_chain: []
-date: 2023-02-04 00:00:00.000000000 Z
+date: 2023-02-07 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rbbt-util
@@ -113,6 +113,8 @@ files:
 - lib/rbbt/vector/model/svm.rb
 - lib/rbbt/vector/model/tensorflow.rb
 - lib/rbbt/vector/model/util.rb
+- python/rbbt_dm/__init__.py
+- python/rbbt_dm/huggingface.py
 - share/R/MA.R
 - share/R/barcode.R
 - share/R/heatmap.3.R
@@ -141,7 +143,7 @@ files:
 homepage: http://github.com/mikisvaz/rbbt-phgx
 licenses: []
 metadata: {}
-post_install_message:
+post_install_message:
 rdoc_options: []
 require_paths:
 - lib
@@ -156,22 +158,22 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.1.2
-signing_key:
+rubygems_version: 3.1.6
+signing_key:
 specification_version: 4
 summary: Data-mining and statistics
 test_files:
-- test/test_helper.rb
+- test/rbbt/statistics/test_hypergeometric.rb
+- test/rbbt/statistics/test_fisher.rb
+- test/rbbt/statistics/test_fdr.rb
+- test/rbbt/statistics/test_random_walk.rb
+- test/rbbt/test_ml_task.rb
 - test/rbbt/vector/test_model.rb
-- test/rbbt/vector/model/test_huggingface.rb
 - test/rbbt/vector/model/test_tensorflow.rb
 - test/rbbt/vector/model/test_spaCy.rb
+- test/rbbt/vector/model/test_huggingface.rb
 - test/rbbt/vector/model/test_svm.rb
-- test/rbbt/statistics/test_random_walk.rb
-- test/rbbt/statistics/test_fisher.rb
-- test/rbbt/statistics/test_fdr.rb
-- test/rbbt/statistics/test_hypergeometric.rb
-- test/rbbt/test_stan.rb
-- test/rbbt/matrix/test_barcode.rb
-- test/rbbt/test_ml_task.rb
 - test/rbbt/network/test_paths.rb
+- test/rbbt/matrix/test_barcode.rb
+- test/rbbt/test_stan.rb
+- test/test_helper.rb