RubyGems - rbbt-text - Versions diffs - 1.3.0 → 1.3.1 - Mend

rbbt-text 1.3.0 → 1.3.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

checksums.yaml +4 -4
data/lib/rbbt/bow/bow.rb +5 -0
data/lib/rbbt/bow/dictionary.rb +26 -22
data/lib/rbbt/segment/transformed.rb +5 -1
data/test/rbbt/segment/test_transformed.rb +29 -0
metadata +2 -2

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: c2a24d8e7faf30d53e41a00a27f6145e8e9f18f0c10af57cdddaea0ee18c35d6
-  data.tar.gz: 3475006965110391e35151cd1b5368028dacf467aa276f8eb68fce3320be1122
+  metadata.gz: a6965ecde1b38d5bc93d4836ee6d757e2add39a51d64c2f06142bbbd303e22d7
+  data.tar.gz: a5c32ea03ea8214dd8c94ef6e884b59e459e3a7a8e3d26065a0a046b5b9b4778
 SHA512:
-  metadata.gz: da40a039a4792eb5e7fa00270870279221c74dcbf51df1b5278b247496fefbfa888a87b7ab19f05676644c51a01177eb49e229cb0156fe7f0190dd4933d41e24
-  data.tar.gz: a32fca5f21a987dcbb6b5541015cc33879330e6f1ef7c4a28e75debe5bdd1dc8bf7b98bfc91d828e605f29868aa972b55cd59bb4f86e66d2fb0cfea31fac2ae0
+  metadata.gz: 756d240a796e5ac88b4b55368e0e4e3af14b3dd2d8b8b55e49839c3cdc3fa45ee807d648cf86b45b62e7f2f4d9e7fc15567ab21d3356e37a5c3c4316cbcaa841
+  data.tar.gz: 6caa03ec51185cac00cc436bac999b063fccfcc1dbf0e2c09359dad7171c0eea37f80436cc860038a2c1ad17eb9b67a03e88d1ae8ef406ce1c5c874d375d1abd

data/lib/rbbt/bow/bow.rb CHANGED

@@ -69,6 +69,11 @@ module BagOfWords
     count = bigrams ? count(bigrams(text)) : count(words(text))
     count.values_at(*terms)
   end
+  def self.weighted_features(text, weights)
+    features = features(text, weights.keys)
+    features.zip(weights.values).collect{|f,w| f * w }
+  end
 end
 class String

data/lib/rbbt/bow/dictionary.rb CHANGED

@@ -74,28 +74,32 @@ class Dictionary::TF_IDF
   end
   def best(options = {})
-    high, low, limit = {
-      :low   => 0,
-      :high    => 1,
-    }.merge(options).
-    values_at(:high, :low, :limit)
-    num_docs = @num_docs.to_f
-    best = df.select{|term, value|
-      value >= low && value <= high
-    }.collect{|p|
-      term     = p.first
-      df_value = p.last
-      [term,
-       @terms[term].to_f / num_docs * Math::log(1.0/df_value)
-      ]
-    }
-    if limit
-      Hash[*best.sort{|a,b| b[1] <=>  a[1]}.slice(0, limit).flatten]
-    else
-      Hash[*best.flatten]
-    end
+    key = Misc.obj2digest(options)
+    @best ||= {}
+    @best[key] ||= begin
+                     high, low, limit = {
+                       :low   => 0,
+                       :high    => 1,
+                     }.merge(options).
+                     values_at(:high, :low, :limit)
+                     num_docs = @num_docs.to_f
+                     best = df.select{|term, value|
+                       value >= low && value <= high
+                     }.collect{|p|
+                       term     = p.first
+                       df_value = p.last
+                       [term,
+                        @terms[term].to_f / num_docs * Math::log(1.0/df_value)
+                       ]
+                     }
+                     if limit
+                       Hash[*best.sort{|a,b| b[1] <=>  a[1]}.slice(0, limit).flatten]
+                     else
+                       Hash[*best.flatten]
+                     end
+                   end
   end
   def weights(options = {})

data/lib/rbbt/segment/transformed.rb CHANGED

@@ -68,6 +68,10 @@ module Transformed
     segments = [segments] unless Array === segments
     orig_length = self.length
+    offset = self.respond_to?(:offset) ? self.offset : 0
+    segments = segments.select{|s| s.offset >= offset && s.offset <= offset + self.length - 1 }
     Segment.clean_sort(segments).each do |segment|
       next if segment.offset.nil?
@@ -86,7 +90,7 @@ module Transformed
       updated_text = self[updated_begin..updated_end]
       if updated_text.nil?
-        Log.warn "Range outside of segment: #{self.length} #{segment.locus} (#{updated_range})"
+        Log.warn "Range outside of segment: #{self.length} #{segment.range} (#{updated_range})"
         next
       end

data/test/rbbt/segment/test_transformed.rb CHANGED

@@ -101,6 +101,35 @@ More recently, PPAR activators were shown to inhibit the activation of inflammat
     assert_equal "CDK5R1 protein", exp2
   end
+  def test_with_transform_sentences
+    a = "This first sentence mentions Bread. This sentence mentions the TP53 gene and the CDK5R1 protein"
+    original = a.dup
+    gene1 = "TP53"
+    gene1.extend NamedEntity
+    gene1.offset = a.index gene1
+    gene2 = "CDK5R1"
+    gene2.extend NamedEntity
+    gene2.offset = a.index gene2
+    bread = "Bread"
+    bread.extend NamedEntity
+    bread.offset = a.index bread
+    sentences = Segment.align(a, a.split(". "))
+    Transformed.with_transform(sentences[1], [gene1, gene2, bread], "GN") do
+      assert sentences[1].include?("GN gene and the GN protein")
+    end
+    Transformed.with_transform(sentences[0], [gene1, gene2, bread], "BR") do
+      assert sentences[0].include?("first sentence mentions BR")
+    end
+  end
   def test_html
     a = "This sentence mentions the TP53 gene and the CDK5R1 protein"

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rbbt-text
 version: !ruby/object:Gem::Version
-  version: 1.3.0
+  version: 1.3.1
 platform: ruby
 authors:
 - Miguel Vazquez
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2020-04-18 00:00:00.000000000 Z
+date: 2020-04-19 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rbbt-util