RubyGems - rbbt-text - Versions diffs - 1.3.9 → 1.3.11 - Mend

rbbt-text 1.3.9 → 1.3.11

Files changed (14) hide show

checksums.yaml +4 -4
data/lib/rbbt/bow/misc.rb +1 -1
data/lib/rbbt/document/annotation.rb +67 -2
data/lib/rbbt/document/corpus/pubmed.rb +6 -4
data/lib/rbbt/document.rb +4 -0
data/lib/rbbt/ner/g_norm_plus.rb +2 -1
data/lib/rbbt/ner/regexpNER.rb +10 -2
data/lib/rbbt/segment/annotation.rb +1 -0
data/lib/rbbt/segment/overlaps.rb +9 -1
data/lib/rbbt/segment.rb +4 -0
data/test/rbbt/document/test_annotation.rb +21 -0
data/test/rbbt/ner/test_g_norm_plus.rb +2 -0
data/test/rbbt/ner/test_regexpNER.rb +8 -0
metadata +3 -3

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 92c6b4b9d3452c6b495fc9f291b551a73c8c150faee05053b7ecadc62ccbbd53
-  data.tar.gz: 70e341cf31466628c42b9947c882b64ff592e4703e06c8629ab56d513fe0a975
+  metadata.gz: 587b7971fd0f8fec2602323ea480521445ca417c3a407d057cf95df1f3a36216
+  data.tar.gz: 4f66306f80e838a0a27299705d79e5856b38dd936005d2b18004539bbb192431
 SHA512:
-  metadata.gz: 2e8fdff40dd93072c3c377c59ff02d7374f3f81961dfc0f2596386776408c623543eb2e1f0da0112b3a8384d865c8331c659c650f2f2288a3d6282eca80e804e
-  data.tar.gz: d7b335d138eb48de51af8922d80d01715c4c61c025b525a9f63fcae789de329eedc2557cb10ba369f5987205ef87ffd85fc407fc3a29f6a75ef0b41951e4962b
+  metadata.gz: 4aa191aa4e5cb5e3f7d4a49b30beb1eb7259a34074a7521a10b9951cd1cc7a097a06ba6a97d9f4f4e100b2058de3f94f5199cb069a030f93a3f69bf1ecec09ff
+  data.tar.gz: f3d5eb11d12f8a9d951d1073abd7e6cb5ace99bd075e7dc897f0aa715ae1552271019b4eb6849a172529d830f30bbc09ce40dd351fd81f9c06f338b075523e36

data/lib/rbbt/bow/misc.rb CHANGED Viewed

@@ -37,7 +37,7 @@ $greek.each{|l,s| $inverse_greek[s] = l }
 class String
   CONSONANTS = []
-  if File.exists? File.join(Rbbt.datadir, 'wordlists/consonants')
+  if File.exist? File.join(Rbbt.datadir, 'wordlists/consonants')
     Object::Open.read(File.join(Rbbt.datadir, 'wordlists/consonants')).each_line{|l| CONSONANTS << l.chomp}
   end

data/lib/rbbt/document/annotation.rb CHANGED Viewed

@@ -6,7 +6,9 @@ module Document
     send :property, type do
       segments = self.instance_exec &block
-      Segment.align(self, segments) unless segments.empty? || (Segment === segments && segments.offset) || (Segment === segments.first && segments.first.offset)
+      Segment.align(self, segments) unless segments.empty? ||
+          (Segment === segments && segments.offset) ||
+          (Array === segments && Segment === segments.first && segments.first.offset)
       segments.each do |segment|
         SegmentAnnotation.setup(segment, :type => type.to_s) unless SegmentAnnotation === segment && segment.type
@@ -17,6 +19,36 @@ module Document
       segments
     end
+    DocID.property type do
+      self.document.send(type)
+    end
+    SegID.property type do
+      self.overlaps(self.docid.send(type))
+    end
+    Segment.property type do
+      self.overlaps(self.docid.send(type))
+    end
+    seg_type = "segids_for_" + type.to_s
+    send :property, seg_type do
+      SegID.setup(self.send(type).collect{|s| s.segid })
+    end
+    DocID.property seg_type do
+      self.document.send(seg_type)
+    end
+    SegID.property seg_type do
+      self.overlaps(self.docid.send(seg_type))
+    end
+    Segment.property seg_type do
+      self.overlaps(self.docid.send(seg_type))
+    end
   end
   def self.define_multiple(type, &block)
@@ -28,7 +60,10 @@ module Document
       doc_segments.each_with_index do |segments,i|
         next if segments.nil?
         document = list[i]
-        Segment.align(document, segments) unless segments.nil? || segments.empty? || (Segment === segments && segments.offset) || (Segment === segments.first && segments.first.offset)
+        Segment.align(document, segments) unless segments.nil? ||
+          segments.empty? ||
+          (Segment === segments && segments.offset) ||
+          (Array === segments && Segment === segments.first && segments.first.offset)
         segments.each do |segment|
           SegmentAnnotation.setup(segment, :type => type.to_s) unless SegmentAnnotation === segment && segment.type
@@ -41,5 +76,35 @@ module Document
         segments
       end
     end
+    DocID.property type do
+      self.document.send(type)
+    end
+    SegID.property type do
+      self.overlaps(self.docid.send(type))
+    end
+    Segment.property type do
+      self.overlaps(self.docid.send(type))
+    end
+    seg_type = "segids_for_" + type.to_s
+    send :property, seg_type do
+      SegID.setup(self.send(type).collect{|s| s.segid })
+    end
+    DocID.property seg_type do
+      self.document.send(seg_type)
+    end
+    SegID.property seg_type do
+      self.overlaps(self.docid.send(seg_type))
+    end
+    Segment.property seg_type do
+      self.overlaps(self.docid.send(seg_type))
+    end
   end
 end

data/lib/rbbt/document/corpus/pubmed.rb CHANGED Viewed

@@ -2,8 +2,8 @@ require 'rbbt/sources/pubmed'
 module Document::Corpus
   PUBMED_NAMESPACE="PMID"
-  def add_pmid(pmid, type = nil, update = false)
-    type = :abstract if type.nil?
+  def add_pmid(pmid, type = :title_and_abstract, update = false)
+    type = :title_and_abstract if type.nil?
     if ! (update || Array === pmid)
       id = [PUBMED_NAMESPACE, pmid, type].collect{|e| e.to_s}*":"
@@ -16,9 +16,11 @@ module Document::Corpus
     res = PubMed.get_article(pmids).collect do |pmid, article|
       document = if type.to_sym == :abstract
-                   Document.setup(article.abstract || "", PUBMED_NAMESPACE, pmid, :abstract, self, :corpus => self)
+                   Document.setup(article.abstract || "", PUBMED_NAMESPACE, pmid, type.to_sym , self, :corpus => self)
                  elsif type.to_sym == :title
-                   Document.setup(article.title, PUBMED_NAMESPACE, pmid, :title, self)
+                   Document.setup(article.title || "", PUBMED_NAMESPACE, pmid, type.to_sym, self)
+                 elsif type.to_sym == :title_and_abstract
+                   Document.setup((article.title || "") + "  " + (article.abstract || ""), PUBMED_NAMESPACE, pmid, type.to_sym, self)
                  else
                    raise "No FullText available for #{ pmid }" if article.full_text.nil?
                    Document.setup(article.full_text, PUBMED_NAMESPACE, pmid, :fulltext, self, :corpus => self)

data/lib/rbbt/document.rb CHANGED Viewed

@@ -9,6 +9,10 @@ module DocID
     attr_accessor :default_corpus
   end
+  def id
+    self
+  end
   def corpus
     annotation_values[:corpus] || DocID.default_corpus
   end

data/lib/rbbt/ner/g_norm_plus.rb CHANGED Viewed

@@ -66,7 +66,8 @@ EOF
         end
         Open.write('config', CONFIG)
-        CMD.cmd_log("java -Xmx20G -Xms20G  -jar '#{Rbbt.software.opt.GNormPlus.produce.find}/GNormPlus.jar' 'input' 'output' 'config'")
+        mem = Rbbt::Config.get(:java_mem, :GNormPlus, :g_norm_plus, :gnormplus, :gnp, :default => "2G")
+        CMD.cmd_log("java -Xmx#{mem} -Xms#{mem}  -jar '#{Rbbt.software.opt.GNormPlus.produce.find}/GNormPlus.jar' 'input' 'output' 'config'")
         if texts.respond_to? :key_field
           key_field = texts.key_field

data/lib/rbbt/ner/regexpNER.rb CHANGED Viewed

@@ -11,7 +11,15 @@ class RegExpNER < NER
       pre   = matchdata.pre_match
       post  = matchdata.post_match
-      if matchdata.captures.any?
+      if matchdata.named_captures.any?
+        match = matchdata[0]
+        code = matchdata.named_captures.collect{|k,v| [k,v] * "=" } * ";"
+        NamedEntity.setup(match, :offset => pre.length + start, :entity_type => type, :code => code)
+        matches << match
+        eend = match.length + pre.length
+        text = text[eend..-1]
+        start += match.length + pre.length
+      elsif matchdata.captures.any?
         match = matchdata.captures.first
         offset, eend = matchdata.offset(1)
         NamedEntity.setup(match, :offset => start + offset, :entity_type => type)
@@ -88,7 +96,7 @@ class RegExpNER < NER
   def match(text)
     matches = RegExpNER.match_regexp_hash(text, @regexps, @split_on_matches)
     matches.collect do |m|
-      NamedEntity.setup(m, :offset => m.offset, :type =>  m.type, :code => m)
+      NamedEntity.setup(m, :offset => m.offset, :type =>  m.type, :code => m.code || m)
     end
   end

data/lib/rbbt/segment/annotation.rb CHANGED Viewed

@@ -4,6 +4,7 @@ require 'rbbt/entity'
 module AnnotID
   extend Entity
+  include SegID
   self.annotation :corpus
   def _parts

data/lib/rbbt/segment/overlaps.rb CHANGED Viewed

@@ -1,4 +1,4 @@
-module Segment
+module SegmentRanges
   def pull(offset)
     if self.offset.nil? or offset.nil?
       self.offset = nil
@@ -61,3 +61,11 @@ module Segment
     end
   end
 end
+module Segment
+  include SegmentRanges
+end
+module SegID
+  include SegmentRanges
+end

data/lib/rbbt/segment.rb CHANGED Viewed

@@ -22,6 +22,10 @@ module SegID
     range.begin
   end
+  def eend
+    offset.to_i + length - 1
+  end
   def segment_length
     range.end - range.begin + 1
   end

data/test/rbbt/document/test_annotation.rb CHANGED Viewed

@@ -13,6 +13,10 @@ class TestAnnotation < Test::Unit::TestCase
       self.split(" ")
     end
+    Document.define :lines do
+      self.split("\n")
+    end
     $called_once = false
     Document.define :persisted_words do
       raise CalledOnce if $called_once
@@ -145,5 +149,22 @@ class TestAnnotation < Test::Unit::TestCase
     assert  text.ner.first.segid.include?("TEST:")
   end
+  def test_sentence_words
+    text =<<-EOF
+This is sentence 1
+This is sentence 2
+    EOF
+    Document.setup(text)
+    words = text.words
+    numbers = words.select{|w| w =~ /\d/}
+    text.lines.each do |sentence|
+      Transformed.with_transform(sentence, numbers, "[NUM]") do
+        puts sentence
+      end
+    end
+  end
 end

data/test/rbbt/ner/test_g_norm_plus.rb CHANGED Viewed

@@ -12,6 +12,7 @@ We found that TP53 is regulated by MDM2 in Homo
 sapiens
     EOF
+    Rbbt::Config.add_entry :java_mem, "2G", :gnp
     mentions = GNormPlus.process({:file => text})
     assert_equal 1, mentions.length
@@ -23,6 +24,7 @@ sapiens
 We found that TP53 is regulated by MDM2 in Homo sapiens
     EOF
+    Rbbt::Config.add_entry :java_mem, "2G", :gnp
     mentions = GNormPlus.entities({:file => text})
     assert mentions["file"].include?("TP53")
     mentions["file"].each do |mention|

data/test/rbbt/ner/test_regexpNER.rb CHANGED Viewed

@@ -88,6 +88,14 @@ class TestRegExpNER < Test::Unit::TestCase
   end
+  def test_entities_named_captures
+    sentence = "In a sentence I should find not this but this"
+    ner = RegExpNER.new({:this => /(?<who>I) should find not this but (this)/})
+    matches = ner.entities(sentence)
+  end
   def test_regexp_order
     text =<<-EOF

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rbbt-text
 version: !ruby/object:Gem::Version
-  version: 1.3.9
+  version: 1.3.11
 platform: ruby
 authors:
 - Miguel Vazquez
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2023-01-12 00:00:00.000000000 Z
+date: 2023-04-11 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rbbt-util
@@ -175,7 +175,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.1.4
+rubygems_version: 3.4.8
 signing_key:
 specification_version: 4
 summary: Text mining tools for the Ruby Bioinformatics Toolkit (rbbt)