RubyGems - rbbt-text - Versions diffs - 1.3.6 → 1.3.8 - Mend

rbbt-text 1.3.6 → 1.3.8

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (17) hide show

checksums.yaml +4 -4
data/LICENSE +20 -0
data/lib/rbbt/document/corpus/pubmed.rb +13 -5
data/lib/rbbt/document/corpus.rb +4 -4
data/lib/rbbt/document.rb +1 -3
data/lib/rbbt/ner/oscar3.rb +0 -1
data/lib/rbbt/ner/oscar4.rb +0 -1
data/lib/rbbt/ner/rnorm/tokens.rb +3 -1
data/lib/rbbt/ner/rnorm.rb +5 -1
data/lib/rbbt/nlp/spaCy.rb +2 -2
data/lib/rbbt/segment/transformed.rb +9 -1
data/share/install/software/OpenNLP +3 -2
data/test/rbbt/document/corpus/test_pubmed.rb +1 -1
data/test/rbbt/ner/rnorm/test_tokens.rb +11 -0
data/test/rbbt/ner/test_rnorm.rb +5 -0
data/test/rbbt/segment/test_transformed.rb +9 -26
metadata +7 -17

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 110d05d205305e48b17ca63a91f8fef66ba6cb0d24639031614521c463dfde8f
-  data.tar.gz: 97df4097eb1a0cb645f4f6a0eeec9138f296760e09fcdc85a5ebebe6996640d0
+  metadata.gz: e1b07b2646ecdc51599e2a2356fd18708e88d819944910a07930f67ec3fc012d
+  data.tar.gz: 03bcbe61f41d830668b50fcfc253fa2b43285774040f61fb3fb0a58f80e9dfd3
 SHA512:
-  metadata.gz: bc3c92ae7b5268f02b232f04d28a2b6491740a618c9a9f3d78a099d51ed03dee489ebb805485c82552fc38d8164a4eb75a8e19a6d1df53aaac536e99287009fb
-  data.tar.gz: 1bb1594b9cd5831455e1a7e2454932b57fdd7da4401bc2596146dc1669fa6783931df3042c9deed6a3cf032c59d8697500a470a8aeba859061868cd8ab8b4ab8
+  metadata.gz: ae6de2dd809642ca38276ff82e243efeb193cf432bc78aea92e772ab21ff489f23224b9e93de726dcacdb06910716f1107171433cc39e7b022ba14ee4ed284f6
+  data.tar.gz: 82768060a28248d459031030b6ba49b500b63a9d3ae2199ccdf1417fd3b1f66ce0d962db17875615ee36bb3b5879d8ccbbdec892942f544fa08481b4551a1003

data/LICENSE ADDED Viewed

@@ -0,0 +1,20 @@
+Copyright (c) 2010-2022 Miguel Vázquez García
+Permission is hereby granted, free of charge, to any person obtaining
+a copy of this software and associated documentation files (the
+"Software"), to deal in the Software without restriction, including
+without limitation the rights to use, copy, modify, merge, publish,
+distribute, sublicense, and/or sell copies of the Software, and to
+permit persons to whom the Software is furnished to do so, subject to
+the following conditions:
+The above copyright notice and this permission notice shall be
+included in all copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND,
+EXPRESS OR IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF
+MERCHANTABILITY, FITNESS FOR A PARTICULAR PURPOSE AND
+NONINFRINGEMENT. IN NO EVENT SHALL THE AUTHORS OR COPYRIGHT HOLDERS BE
+LIABLE FOR ANY CLAIM, DAMAGES OR OTHER LIABILITY, WHETHER IN AN ACTION
+OF CONTRACT, TORT OR OTHERWISE, ARISING FROM, OUT OF OR IN CONNECTION
+WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE SOFTWARE.

data/lib/rbbt/document/corpus/pubmed.rb CHANGED Viewed

@@ -4,10 +4,11 @@ module Document::Corpus
   PUBMED_NAMESPACE="PMID"
   def add_pmid(pmid, type = nil, update = false)
     type = :abstract if type.nil?
-    if update == false
+    if ! (update || Array === pmid)
       id = [PUBMED_NAMESPACE, pmid, type].collect{|e| e.to_s}*":"
       documents = self.documents(id)
-      return documents if documents.any?
+      return documents.first if documents.any?
     end
     pmids = Array === pmid ? pmid : [pmid]
@@ -27,7 +28,14 @@ module Document::Corpus
       document
     end
-    Document.setup(res)
+    if Array === pmid
+      corpus = res.first.corpus if res.first
+      Document.setup(res, :corpus => corpus)
+    else
+      res = res.first
+    end
+    res
   end
   def add_pubmed_query(query, max = 3000, type = nil)
@@ -35,8 +43,8 @@ module Document::Corpus
     add_pmid(pmids, type)
   end
-  self.claim "PMID" do |id, type|
+  self.claim "PMID" do |id,type,update|
     Log.debug "Claiming #{id}"
-    self.add_pmid(id, type).first
+    self.add_pmid(id, type,update)
   end
 end

data/lib/rbbt/document/corpus.rb CHANGED Viewed

@@ -20,9 +20,9 @@ module Document::Corpus
   def docids(*prefix)
     prefix = prefix * ":"
-    prefix += ":" unless prefix == :all || prefix[-1] == ":"
+    prefix += ":" unless prefix == :all || prefix == "all" || prefix[-1] == ":"
     docids = self.read_and_close do
-      prefix == :all ? self.keys : self.prefix(prefix)
+      prefix == "all" ? self.keys : self.prefix(prefix)
     end
     DocID.setup(docids, :corpus => self)
   end
@@ -34,7 +34,7 @@ module Document::Corpus
   def [](*args)
     docid, *rest = args
-    res = self.read_and_close do
+    res = self.with_read do
       super(*args)
     end
@@ -44,7 +44,7 @@ module Document::Corpus
     namespace, id, type  = docid.split(":")
     if res.nil?
-      if Document::Corpus.claims.include?(namespace.to_s)
+      if Document::Corpus.claims && Document::Corpus.claims.include?(namespace.to_s)
         res = self.instance_exec(id, type, &Document::Corpus.claims[namespace.to_s])
       end
     end

data/lib/rbbt/document.rb CHANGED Viewed

@@ -22,9 +22,7 @@ module DocID
     if Array === self
       namespace, id, type = nil, nil, nil
       docs = self.collect do |docid|
-        text = self.corpus[docid]
-        namespace, id, type = docid.split(":")
-        text
+        self.corpus[docid]
       end
       Document.setup(docs, :corpus => corpus)
     else

data/lib/rbbt/ner/oscar3.rb CHANGED Viewed

@@ -1,6 +1,5 @@
 require 'rbbt'
 require 'rjb'
-require 'libxml'
 require 'rbbt/ner/NER'
 require 'rbbt/util/log'

data/lib/rbbt/ner/oscar4.rb CHANGED Viewed

@@ -1,6 +1,5 @@
 require 'rbbt'
 require 'rjb'
-require 'libxml'
 require 'rbbt/segment'
 require 'rbbt/ner/NER'
 require 'rbbt/util/log'

data/lib/rbbt/ner/rnorm/tokens.rb CHANGED Viewed

@@ -172,6 +172,7 @@ class Tokenizer
   #{{{ Token Types
   GREEK_RE = "(?:" + $greek.keys.select{|w| w.length > 3}.collect{|w| w.downcase}.join("|") + ")"
+  GREEK_LETTER_RE = "(?:" + $inverse_greek.keys.select{|w| w.length == 1}.collect{|w| w.upcase}.join("|") + ")"
   def tokenize(word)
     return word.
       gsub(/([^IVX])I$/,'\1|I|').     # Separate last roman number
@@ -180,6 +181,7 @@ class Tokenizer
       gsub(/([A-Z]{2,})([a-z])/,'\1-\2').
       gsub(/^(#{GREEK_RE})/,'\1-').
       gsub(/(#{GREEK_RE})$/,'-\1').
+      gsub(/(#{GREEK_LETTER_RE})$/,'-\1').
       split( /[^\w.]+/).  # Split by separator char
       select{|t|  !t.empty? }
   end
@@ -204,7 +206,7 @@ class Tokenizer
   end
   #{{{ Comparisons
   def evaluate_tokens(list1, list2)
     @operations.inject(0){|acc, o|
       acc + o.eval(list1, list2)

data/lib/rbbt/ner/rnorm.rb CHANGED Viewed

@@ -18,6 +18,10 @@ class Normalizer
     values.select{|p| p[1] == best}
   end
+  def token_evaluate(mention, name)
+    @tokens.evaluate(mention, name)
+  end
   # Compares the tokens and gives each candidate a score based on the
   # commonalities and differences amongst the tokens.
   def token_score(code, mention)
@@ -31,7 +35,7 @@ class Normalizer
               when mention.downcase.gsub(/\s/,'') == name.downcase.gsub(/\s/,'')
                 80
               else
-                @tokens.evaluate(mention, name)
+                token_evaluate(mention, name)
               end
       [value, name]
     }.sort_by{|value, name| value }.last

data/lib/rbbt/nlp/spaCy.rb CHANGED Viewed

@@ -153,8 +153,8 @@ module SpaCy
     chunk_index = Segment.index(SpaCy.chunk_segments(text, lang))
-    source_id = chunk_index[source.offset].first || source.segid
-    target_id = chunk_index[target.offset].first || target.segid
+    source_id = chunk_index[source.offset.to_i].first || source.segid
+    target_id = chunk_index[target.offset.to_i].first || target.segid
     path = Paths.dijkstra(graph, source_id, [target_id])

data/lib/rbbt/segment/transformed.rb CHANGED Viewed

@@ -70,7 +70,15 @@ module Transformed
     orig_length = self.length
     offset = self.respond_to?(:offset) ? self.offset.to_i : 0
-    segments = segments.select{|s| s.offset.to_i >= offset && s.offset.to_i <= offset + self.length - 1 }
+    segments = segments.select do |s|
+      shift = shift s.range
+      s_offset = s.offset.to_i
+      s_offset += shift.first if shift
+      s_offset >= offset &&
+        s_offset <= offset + self.length - 1
+    end
     Segment.clean_sort(segments).each do |segment|
       next if segment.offset.nil?

data/share/install/software/OpenNLP CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/bin/bash
 name='OpenNLP'
-url="http://apache.rediris.es/opennlp/opennlp-1.9.3/apache-opennlp-1.9.3-bin.tar.gz"
+url="http://apache.rediris.es/opennlp/opennlp-1.9.4/apache-opennlp-1.9.4-bin.tar.gz"
-install_jar $name $url
+install_src $name $url
+(cd $OPT_DIR/jars; ln -s $OPT_DIR/$name/lib/*.jar .)

data/test/rbbt/document/corpus/test_pubmed.rb CHANGED Viewed

@@ -7,7 +7,7 @@ class TestCorpusPubmed < Test::Unit::TestCase
   def test_add_pmid
     corpus = Document::Corpus.setup({})
-    document = corpus.add_pmid("33359141", :abstract).first
+    document = corpus.add_pmid("33359141", :abstract, true)
     title = document.to(:title)
     assert title.include?("COVID-19")
   end

data/test/rbbt/ner/rnorm/test_tokens.rb ADDED Viewed

@@ -0,0 +1,11 @@
+require File.join(File.expand_path(File.dirname(__FILE__)), '../../..', 'test_helper.rb')
+require 'rbbt/ner/rnorm'
+class TestRNorm < Test::Unit::TestCase
+  def test_evaluate
+    t = Tokenizer.new
+    assert t.evaluate("PDGFRA","PDGFRalpha") > 0
+    iii t.evaluate("JUNB","JunB")
+  end
+end

data/test/rbbt/ner/test_rnorm.rb CHANGED Viewed

@@ -43,4 +43,9 @@ S000000376	AAA	GENE1	DDD
   def test_order
     assert_equal(["S000000375"], @norm.resolve("GENE1"))
   end
+  def test_token_evaluate
+    iii @norm.token_evaluate("PDGFRA","PDGFRalpha")
+  end
 end

data/test/rbbt/segment/test_transformed.rb CHANGED Viewed

@@ -393,43 +393,26 @@ This is another sentence. Among the nonstructural proteins, the leader protein (
     end
   end
-  def ___test_transform
-    a = "This sentence mentions the TP53 gene and the CDK5 protein"
+  def test_transform_sorter_end
+    a = "The transcription factors farnesoid X receptor, small heterodimer partner, liver receptor homolog-1, and liver X receptor comprise the signaling cascade network that regulates the expression and secretion of apoM."
     original = a.dup
-    gene1 = "TP53"
+    gene1 = "liver receptor homolog-1"
     gene1.extend Segment
     gene1.offset = a.index gene1
-    gene2 = "CDK5"
+    gene2 = "apoM"
     gene2.extend Segment
     gene2.offset = a.index gene2
     assert_equal gene1, a[gene1.range]
     assert_equal gene2, a[gene2.range]
-    c = a.dup
-    c[gene2.range] = "GN"
-    assert_equal c, Transformed.transform(a,[gene2], "GN")
-    c[gene1.range] = "GN"
-    assert_equal c, Transformed.transform(a,[gene1], "GN")
-    iii a.transformation_offset_differences
-    raise
-    assert_equal gene2.offset, a.transformation_offset_differences.first.first.first
-    assert_equal gene1.offset, a.transformation_offset_differences.last.first.first
-    gene3 = "GN gene"
-    gene3.extend Segment
-    gene3.offset = a.index gene3
-    assert_equal gene3, a[gene3.range]
-    a.restore([gene3])
-    assert_equal original, a
-    assert_equal "TP53 gene", a[gene3.range]
+    Transformed.with_transform(a, [gene1], "[TF]") do
+      Transformed.with_transform(a, [gene2], "[TG]") do
+        assert_equal "The transcription factors farnesoid X receptor, small heterodimer partner, [TF], and liver X receptor comprise the signaling cascade network that regulates the expression and secretion of [TG].", a
+      end
+    end
   end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rbbt-text
 version: !ruby/object:Gem::Version
-  version: 1.3.6
+  version: 1.3.8
 platform: ruby
 authors:
 - Miguel Vazquez
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2021-06-25 00:00:00.000000000 Z
+date: 2022-11-08 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rbbt-util
@@ -38,20 +38,6 @@ dependencies:
     - - ">="
       - !ruby/object:Gem::Version
         version: '0'
-- !ruby/object:Gem::Dependency
-  name: libxml-ruby
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
-  type: :runtime
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
 - !ruby/object:Gem::Dependency
   name: json
   requirement: !ruby/object:Gem::Requirement
@@ -72,8 +58,10 @@ email: miguel.vazquez@fdi.ucm.es
 executables:
 - get_ppis.rb
 extensions: []
-extra_rdoc_files: []
+extra_rdoc_files:
+- LICENSE
 files:
+- LICENSE
 - bin/get_ppis.rb
 - lib/rbbt/bow/bow.rb
 - lib/rbbt/bow/dictionary.rb
@@ -139,6 +127,7 @@ files:
 - test/rbbt/document/test_annotation.rb
 - test/rbbt/document/test_corpus.rb
 - test/rbbt/entity/test_document.rb
+- test/rbbt/ner/rnorm/test_tokens.rb
 - test/rbbt/ner/test_NER.rb
 - test/rbbt/ner/test_abner.rb
 - test/rbbt/ner/test_banner.rb
@@ -205,6 +194,7 @@ test_files:
 - test/rbbt/ner/test_patterns.rb
 - test/rbbt/ner/test_NER.rb
 - test/rbbt/ner/test_abner.rb
+- test/rbbt/ner/rnorm/test_tokens.rb
 - test/rbbt/ner/test_rnorm.rb
 - test/rbbt/ner/test_regexpNER.rb
 - test/rbbt/ner/test_ngram_prefix_dictionary.rb