RubyGems - rbbt-text - Versions diffs - 1.2.0 → 1.3.4 - Mend

rbbt-text 1.2.0 → 1.3.4

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (76) hide show

checksums.yaml +4 -4
data/lib/rbbt/bow/bow.rb +5 -2
data/lib/rbbt/bow/dictionary.rb +27 -23
data/lib/rbbt/document.rb +55 -0
data/lib/rbbt/document/annotation.rb +45 -0
data/lib/rbbt/document/corpus.rb +63 -0
data/lib/rbbt/document/corpus/pubmed.rb +33 -0
data/lib/rbbt/ner/NER.rb +3 -3
data/lib/rbbt/ner/abner.rb +1 -1
data/lib/rbbt/ner/banner.rb +1 -1
data/lib/rbbt/ner/brat.rb +1 -1
data/lib/rbbt/ner/chemical_tagger.rb +1 -2
data/lib/rbbt/ner/g_norm_plus.rb +26 -3
data/lib/rbbt/ner/linnaeus.rb +3 -3
data/lib/rbbt/ner/ngram_prefix_dictionary.rb +3 -3
data/lib/rbbt/ner/oscar3.rb +1 -2
data/lib/rbbt/ner/oscar4.rb +3 -3
data/lib/rbbt/ner/patterns.rb +5 -5
data/lib/rbbt/ner/regexpNER.rb +1 -2
data/lib/rbbt/ner/token_trieNER.rb +35 -22
data/lib/rbbt/nlp/genia/sentence_splitter.rb +3 -2
data/lib/rbbt/nlp/nlp.rb +5 -5
data/lib/rbbt/nlp/open_nlp/sentence_splitter.rb +37 -36
data/lib/rbbt/nlp/spaCy.rb +52 -0
data/lib/rbbt/segment.rb +179 -0
data/lib/rbbt/segment/annotation.rb +58 -0
data/lib/rbbt/segment/encoding.rb +18 -0
data/lib/rbbt/{text/segment → segment}/named_entity.rb +14 -11
data/lib/rbbt/segment/overlaps.rb +63 -0
data/lib/rbbt/segment/range_index.rb +35 -0
data/lib/rbbt/segment/relationship.rb +7 -0
data/lib/rbbt/{text/segment → segment}/segmented.rb +1 -1
data/lib/rbbt/segment/token.rb +23 -0
data/lib/rbbt/{text/segment → segment}/transformed.rb +12 -10
data/lib/rbbt/segment/tsv.rb +41 -0
data/share/install/software/Linnaeus +1 -1
data/share/install/software/OpenNLP +1 -1
data/test/rbbt/document/corpus/test_pubmed.rb +15 -0
data/test/rbbt/document/test_annotation.rb +140 -0
data/test/rbbt/document/test_corpus.rb +33 -0
data/test/rbbt/ner/test_finder.rb +3 -3
data/test/rbbt/ner/test_g_norm_plus.rb +20 -2
data/test/rbbt/ner/test_patterns.rb +9 -9
data/test/rbbt/ner/test_regexpNER.rb +14 -14
data/test/rbbt/ner/test_rnorm.rb +3 -4
data/test/rbbt/ner/test_token_trieNER.rb +1 -0
data/test/rbbt/nlp/genia/test_sentence_splitter.rb +37 -3
data/test/rbbt/nlp/open_nlp/test_sentence_splitter.rb +20 -4
data/test/rbbt/segment/test_annotation.rb +39 -0
data/test/rbbt/segment/test_corpus.rb +36 -0
data/test/rbbt/segment/test_encoding.rb +24 -0
data/test/rbbt/{text/segment → segment}/test_named_entity.rb +15 -11
data/test/rbbt/segment/test_overlaps.rb +69 -0
data/test/rbbt/segment/test_range_index.rb +42 -0
data/test/rbbt/{text/segment → segment}/test_transformed.rb +105 -51
data/test/rbbt/test_document.rb +14 -0
data/test/rbbt/test_segment.rb +182 -0
data/test/test_helper.rb +5 -3
data/test/test_spaCy.rb +32 -0
metadata +44 -32
data/lib/rbbt/text/corpus.rb +0 -106
data/lib/rbbt/text/corpus/document.rb +0 -383
data/lib/rbbt/text/corpus/document_repo.rb +0 -68
data/lib/rbbt/text/corpus/sources/pmid.rb +0 -34
data/lib/rbbt/text/document.rb +0 -39
data/lib/rbbt/text/segment.rb +0 -363
data/lib/rbbt/text/segment/docid.rb +0 -46
data/lib/rbbt/text/segment/relationship.rb +0 -24
data/lib/rbbt/text/segment/token.rb +0 -49
data/test/rbbt/text/corpus/sources/test_pmid.rb +0 -33
data/test/rbbt/text/corpus/test_document.rb +0 -82
data/test/rbbt/text/segment/test_relationship.rb +0 -0
data/test/rbbt/text/segment/test_segmented.rb +0 -23
data/test/rbbt/text/test_corpus.rb +0 -34
data/test/rbbt/text/test_document.rb +0 -58
data/test/rbbt/text/test_segment.rb +0 -100

data/test/rbbt/segment/test_overlaps.rb ADDED

@@ -0,0 +1,69 @@
+require File.join(File.expand_path(File.dirname(__FILE__)), '../..', 'test_helper.rb')
+require 'rbbt/segment'
+require 'rbbt/segment/overlaps'
+class TestOverlaps < Test::Unit::TestCase
+  def setup
+    @text = <<-EOF
+This is a first sentence. More recently, PPAR activators were shown to inhibit the activation of inflammatory response genes (such as IL-2, IL-6, IL-8, TNF alpha and metalloproteases) by negatively interfering with the NF-kappa B, STAT and AP-1 signalling pathways in cells of the vascular wall.
+    EOF
+    @entities = ["PPAR", "IL-2", "IL-6", "IL-8", "TNF", "TNF alpha", "NF-kappa B", "AP-1", "STAT"].collect do |literal|
+      Segment.setup(literal, :offset => @text.index(literal))
+    end
+    @sentences = @text.partition(".").values_at(0, 2).collect do |sentence|
+      Segment.setup sentence, :offset => @text.index(sentence)
+    end
+  end
+  def test_make_relative
+    sentence = @sentences[1]
+    @entities.each do |e|
+      assert_equal e, @text[e.range]
+    end
+    sentence.make_relative @entities do
+      @entities.each do |e|
+        assert_equal e, sentence[e.range]
+      end
+      @entities.each do |e|
+        assert_not_equal e, @text[e.range]
+      end
+    end
+    @entities.each do |e|
+      assert_equal e, @text[e.range]
+    end
+  end
+  def test_range_in
+    sentence = @sentences[1]
+    @entities.each do |e|
+      assert_equal e.range_in(sentence).begin, sentence.index(e)
+      assert_equal e.range.begin - sentence.offset, sentence.index(e)
+    end
+  end
+  def test_includes
+    @entities.each do |e|
+      assert ! @sentences[0].include?(e)
+      assert @sentences[1].include?(e)
+      assert ! e.include?(@sentences[0])
+      assert ! e.include?(@sentences[1])
+    end
+  end
+  def test_overlaps?
+    @entities.each do |e|
+      assert ! @sentences[0].overlaps?(e)
+      assert @sentences[1].overlaps?(e)
+      assert ! e.overlaps?(@sentences[0])
+      assert e.overlaps?(@sentences[1])
+    end
+  end
+end

data/test/rbbt/segment/test_range_index.rb ADDED

@@ -0,0 +1,42 @@
+require File.join(File.expand_path(File.dirname(__FILE__)), '../..', 'test_helper.rb')
+require 'rbbt/document'
+require 'rbbt/document/corpus'
+require 'rbbt/segment'
+require 'rbbt/segment/range_index'
+class TestRangeIndex < Test::Unit::TestCase
+  def test_segment_index
+    text = "This sentence mentions the TP53 gene and the CDK5R1 protein"
+    Document.setup(text, "TEST", "test_doc1", nil)
+    corpus = Document::Corpus.setup({})
+    corpus.add_document(text)
+    gene1 = "TP53"
+    gene1.extend Segment
+    gene1.offset = text.index gene1
+    gene1.docid = text.docid
+    gene2 = "CDK5R1"
+    gene2.extend Segment
+    gene2.offset = text.index gene2
+    gene2.docid = text.docid
+    gene3 = "TP53 gene"
+    gene3.extend Segment
+    gene3.offset = text.index gene1
+    gene3.docid = text.docid
+    index = Segment::RangeIndex.index([gene1, gene2, gene3], corpus)
+    assert_equal "CDK5R1", index[gene2.offset + 1].segment.first
+    TmpFile.with_file do |fwt|
+      index = Segment::RangeIndex.index([gene1, gene2, gene3], corpus, fwt)
+      assert_equal %w(CDK5R1), index[gene2.offset + 1].segment
+      index = Segment::RangeIndex.index([gene1, gene2, gene3], corpus, fwt)
+      assert_equal %w(CDK5R1), index[gene2.offset + 1].segment
+    end
+  end
+end

data/test/rbbt/{text/segment → segment}/test_transformed.rb RENAMED

@@ -1,10 +1,21 @@
-require File.join(File.expand_path(File.dirname(__FILE__)), '../../..', 'test_helper.rb')
-require 'rbbt/text/segment/transformed'
-require 'rbbt/text/segment/named_entity'
+require File.join(File.expand_path(File.dirname(__FILE__)), '../..', 'test_helper.rb')
+require 'rbbt/segment/transformed'
+require 'rbbt/segment/named_entity'
 require 'rexml/document'
-class TestClass < Test::Unit::TestCase
-  def test_sort
+class TestTransformed < Test::Unit::TestCase
+  def setup
+    @text = <<-EOF
+More recently, PPAR activators were shown to inhibit the activation of inflammatory response genes (such as IL-2, IL-6, IL-8, TNF alpha and metalloproteases) by negatively interfering with the NF-kappa B, STAT and AP-1 signalling pathways in cells of the vascular wall.
+    EOF
+    @entities = ["PPAR", "IL-2", "IL-6", "IL-8", "TNF alpha", "NF-kappa B", "AP-1", "STAT"].collect do |literal|
+      NamedEntity.setup(literal, :offset => @text.index(literal))
+    end
+  end
+  def test_transform
     text = <<-EOF
 More recently, PPAR activators were shown to inhibit the activation of inflammatory response genes (such as IL-2, IL-6, IL-8, TNF alpha and metalloproteases) by negatively interfering with the NF-kappa B, STAT and AP-1 signalling pathways in cells of the vascular wall.
     EOF
@@ -13,52 +24,25 @@ More recently, PPAR activators were shown to inhibit the activation of inflammat
       NamedEntity.setup(literal, :offset => text.index(literal))
     end
-    Transformed.with_transform(text, entities, Proc.new{|e| "[" + e.upcase + "]" }) do
-      assert text.include? "such as [IL-2]"
-    end
+    Transformed.transform(text, entities, Proc.new{|e| "[" + e.upcase + "]" })
+    assert text.include? "such as [IL-2]"
   end
-  def ___test_transform
-    a = "This sentence mentions the TP53 gene and the CDK5 protein"
-    original = a.dup
-    gene1 = "TP53"
-    gene1.extend Segment
-    gene1.offset = a.index gene1
-    gene2 = "CDK5"
-    gene2.extend Segment
-    gene2.offset = a.index gene2
-    assert_equal gene1, a[gene1.range]
-    assert_equal gene2, a[gene2.range]
-    c = a.dup
-    c[gene2.range] = "GN"
-    assert_equal c, Transformed.transform(a,[gene2], "GN")
-    c[gene1.range] = "GN"
-    assert_equal c, Transformed.transform(a,[gene1], "GN")
-    iii a.transformation_offset_differences
-    raise
-    assert_equal gene2.offset, a.transformation_offset_differences.first.first.first
-    assert_equal gene1.offset, a.transformation_offset_differences.last.first.first
-    gene3 = "GN gene"
-    gene3.extend Segment
-    gene3.offset = a.index gene3
-    assert_equal gene3, a[gene3.range]
+  def test_with_transform
+    text = <<-EOF
+More recently, PPAR activators were shown to inhibit the activation of inflammatory response genes (such as IL-2, IL-6, IL-8, TNF alpha and metalloproteases) by negatively interfering with the NF-kappa B, STAT and AP-1 signalling pathways in cells of the vascular wall.
+    EOF
-    a.restore([gene3])
-    assert_equal original, a
-    assert_equal "TP53 gene", a[gene3.range]
+    entities = ["PPAR", "IL-2", "IL-6", "IL-8", "TNF alpha", "NF-kappa B", "AP-1", "STAT"].reverse.collect do |literal|
+      NamedEntity.setup(literal, :offset => text.index(literal))
+    end
+    Transformed.with_transform(text, entities, Proc.new{|e| "[" + e.upcase + "]" }) do
+      assert text.include? "such as [IL-2]"
+    end
   end
-  def test_with_transform
+  def test_with_transform_2
     a = "This sentence mentions the TP53 gene and the CDK5R1 protein"
     original = a.dup
@@ -117,18 +101,47 @@ More recently, PPAR activators were shown to inhibit the activation of inflammat
     assert_equal "CDK5R1 protein", exp2
   end
+  def test_with_transform_sentences
+    a = "This first sentence mentions Bread. This sentence mentions the TP53 gene and the CDK5R1 protein"
+    original = a.dup
+    gene1 = "TP53"
+    gene1.extend NamedEntity
+    gene1.offset = a.index gene1
+    gene2 = "CDK5R1"
+    gene2.extend NamedEntity
+    gene2.offset = a.index gene2
+    bread = "Bread"
+    bread.extend NamedEntity
+    bread.offset = a.index bread
+    sentences = Segment.align(a, a.split(". "))
+    Transformed.with_transform(sentences[1], [gene1, gene2, bread], "GN") do
+      assert sentences[1].include?("GN gene and the GN protein")
+    end
+    Transformed.with_transform(sentences[0], [gene1, gene2, bread], "BR") do
+      assert sentences[0].include?("first sentence mentions BR")
+    end
+  end
   def test_html
     a = "This sentence mentions the TP53 gene and the CDK5R1 protein"
     gene1 = "TP53"
     gene1.extend NamedEntity
     gene1.offset = a.index gene1
-    gene1.type = "Gene"
+    gene1.entity_type = "Gene"
     gene2 = "CDK5R1"
     gene2.extend NamedEntity
     gene2.offset = a.index gene2
-    gene2.type = "Protein"
+    gene2.entity_type = "Protein"
     Transformed.with_transform(a, [gene1,gene2], Proc.new{|e| e.html}) do
       assert_equal "This sentence mentions the <span class='Entity' attr-entity-type='Gene'>TP53</span> gene and the <span class='Entity' attr-entity-type='Protein'>CDK5R1</span> protein", a
@@ -143,13 +156,13 @@ More recently, PPAR activators were shown to inhibit the activation of inflammat
     gene1.extend NamedEntity
     gene1.offset = a.index gene1
     gene1.offset += 10
-    gene1.type = "Gene"
+    gene1.entity_type = "Gene"
     gene2 = "CDK5R1"
     gene2.extend NamedEntity
     gene2.offset = a.index gene2
     gene2.offset += 10
-    gene2.type = "Protein"
+    gene2.entity_type = "Protein"
     Transformed.with_transform(a, [gene1,gene2], Proc.new{|e| e.html}) do
       assert_equal "This sentence mentions the <span class='Entity' attr-entity-type='Gene'>TP53</span> gene and the <span class='Entity' attr-entity-type='Protein'>CDK5R1</span> protein", a
@@ -162,12 +175,12 @@ More recently, PPAR activators were shown to inhibit the activation of inflammat
     gene1 = "TP53"
     gene1.extend NamedEntity
     gene1.offset = a.index gene1
-    gene1.type = "Gene"
+    gene1.entity_type = "Gene"
     gene2 = "TP53 gene"
     gene2.extend NamedEntity
     gene2.offset = a.index gene2
-    gene2.type = "Expanded Gene"
+    gene2.entity_type = "Expanded Gene"
     assert_equal [gene1], Segment.overlaps(Segment.sort([gene1,gene2]))
@@ -379,5 +392,46 @@ This is another sentence. Among the nonstructural proteins, the leader protein (
       end
     end
   end
+  def ___test_transform
+    a = "This sentence mentions the TP53 gene and the CDK5 protein"
+    original = a.dup
+    gene1 = "TP53"
+    gene1.extend Segment
+    gene1.offset = a.index gene1
+    gene2 = "CDK5"
+    gene2.extend Segment
+    gene2.offset = a.index gene2
+    assert_equal gene1, a[gene1.range]
+    assert_equal gene2, a[gene2.range]
+    c = a.dup
+    c[gene2.range] = "GN"
+    assert_equal c, Transformed.transform(a,[gene2], "GN")
+    c[gene1.range] = "GN"
+    assert_equal c, Transformed.transform(a,[gene1], "GN")
+    iii a.transformation_offset_differences
+    raise
+    assert_equal gene2.offset, a.transformation_offset_differences.first.first.first
+    assert_equal gene1.offset, a.transformation_offset_differences.last.first.first
+    gene3 = "GN gene"
+    gene3.extend Segment
+    gene3.offset = a.index gene3
+    assert_equal gene3, a[gene3.range]
+    a.restore([gene3])
+    assert_equal original, a
+    assert_equal "TP53 gene", a[gene3.range]
+  end
 end

data/test/rbbt/test_document.rb ADDED

@@ -0,0 +1,14 @@
+require File.join(File.expand_path(File.dirname(__FILE__)), '..', 'test_helper.rb')
+require 'rbbt/document'
+class TestDocument < Test::Unit::TestCase
+  def test_docid
+    text = "This is a document"
+    Document.setup(text, "TEST", "test_doc1", nil)
+    assert_equal ["TEST", "test_doc1", nil, Misc.digest(text)] * ":", text.docid
+  end
+end

data/test/rbbt/test_segment.rb ADDED

@@ -0,0 +1,182 @@
+require File.join(File.expand_path(File.dirname(__FILE__)), '..', 'test_helper.rb')
+require 'rbbt/document'
+require 'rbbt/document/corpus'
+require 'rbbt/segment'
+class TestSegment < Test::Unit::TestCase
+  def test_segment
+    text = "This is a document"
+    Document.setup(text, "TEST", "test_doc1", nil)
+    segment = Segment.setup("is", :offset => text.index("is"), :docid => text.docid)
+    assert_equal text.docid + ":" + segment.offset.to_s + ".." + segment.eend.to_s,  segment.segid
+  end
+  def test_segid
+    text = "This is a document"
+    Document.setup(text, "TEST", "test_doc1", nil)
+    corpus = Document::Corpus.setup({})
+    corpus.add_document(text)
+    segment = Segment.setup("is", :offset => text.index("is"), :docid => text.docid)
+    segid = segment.segid(corpus)
+    segment = segid.segment
+    assert_equal "is", segment
+  end
+  def test_info
+    segment = "test"
+    segment.extend Segment
+    segment.offset = 10
+    assert segment.info.include? :offset
+  end
+  def test_sort
+    text = "This sentence mentions the TP53 gene and the CDK5R1 protein"
+    Document.setup(text, "TEST", "test_doc1", nil)
+    corpus = Document::Corpus.setup({})
+    corpus.add_document(text)
+    gene1 = "TP53"
+    gene1.extend Segment
+    gene1.offset = text.index gene1
+    gene1.docid = text.docid
+    gene2 = "CDK5R1"
+    gene2.extend Segment
+    gene2.offset = text.index gene2
+    gene2.docid = text.docid
+    assert_equal [gene1,gene2], Segment.sort([gene2,gene1])
+    assert_equal [gene1,gene2], Segment.sort([gene2.segid(corpus),gene1.segid(corpus)]).collect{|segid| segid.segment}
+  end
+  def test_clean_sort
+    text = "This sentence mentions the TP53 gene and the CDK5R1 protein"
+    Document.setup(text, "TEST", "test_doc1", nil)
+    corpus = Document::Corpus.setup({})
+    corpus.add_document(text)
+    gene1 = "TP53"
+    gene1.extend Segment
+    gene1.offset = text.index gene1
+    gene1.docid = text.docid
+    gene2 = "CDK5R1"
+    gene2.extend Segment
+    gene2.offset = text.index gene2
+    gene2.docid = text.docid
+    gene3 = "TP53 gene"
+    gene3.extend Segment
+    gene3.offset = text.index gene1
+    gene3.docid = text.docid
+    assert_equal [gene1,gene2], Segment.sort([gene2,gene1])
+    assert_equal [gene3,gene2], Segment.clean_sort([gene2,gene1,gene3])
+  end
+  def test_split
+    text = "This sentence mentions the TP53 gene and the CDK5R1 protein"
+    Document.setup(text, "TEST", "test_doc1", nil)
+    corpus = Document::Corpus.setup({})
+    corpus.add_document(text)
+    gene1 = "TP53"
+    gene1.extend Segment
+    gene1.offset = text.index gene1
+    gene1.docid = text.docid
+    gene2 = "CDK5R1"
+    gene2.extend Segment
+    gene2.offset = text.index gene2
+    gene2.docid = text.docid
+    gene3 = "TP53 gene"
+    gene3.extend Segment
+    gene3.offset = text.index gene1
+    gene3.docid = text.docid
+    assert_equal ["This sentence mentions the ", gene3, " and the ", gene2, " protein"], Segment.split(text, [gene2, gene1, gene3])
+    assert_equal ["This sentence mentions the ", gene3, " and the ", gene2, " protein"], Segment.split(text, [gene2, gene1, gene3].collect{|s| s.segid})
+  end
+  def test_align
+    text =<<-EOF
+Atypical teratoid/rhabdoid tumors (AT/RTs) are highly aggressive brain tumors of early childhood poorly responding to therapy.
+    EOF
+    parts = text.split(/\W/)
+    Segment.align(text, parts)
+    assert_equal "Atypical teratoid/".length, parts.select{|s| s == "rhabdoid"}.first.offset
+    Document.setup(text, "TEST", "test_doc1", nil)
+    parts = text.split(/\W/)
+    Segment.align(text, parts)
+    assert_equal parts.first.docid, text.docid
+  end
+  def test_segment_index
+    text = "This sentence mentions the TP53 gene and the CDK5R1 protein"
+    Document.setup(text, "TEST", "test_doc1", nil)
+    corpus = Document::Corpus.setup({})
+    corpus.add_document(text)
+    gene1 = "TP53"
+    gene1.extend Segment
+    gene1.offset = text.index gene1
+    gene1.docid = text.docid
+    gene2 = "CDK5R1"
+    gene2.extend Segment
+    gene2.offset = text.index gene2
+    gene2.docid = text.docid
+    gene3 = "TP53 gene"
+    gene3.extend Segment
+    gene3.offset = text.index gene1
+    gene3.docid = text.docid
+    index = Segment.index([gene1, gene2, gene3], corpus)
+    assert_equal "CDK5R1", index[gene2.offset + 1].segment.first
+    TmpFile.with_file do |fwt|
+      index = Segment.index([gene1, gene2, gene3], corpus, fwt)
+      assert_equal %w(CDK5R1), index[gene2.offset + 1].segment
+      index = Segment.index([gene1, gene2, gene3], corpus, fwt)
+      assert_equal %w(CDK5R1), index[gene2.offset + 1].segment
+    end
+    index = Segment.index([gene1, gene2, gene3].collect{|s| s.segid}, corpus)
+    assert_equal "CDK5R1", index[gene2.offset + 1].segment.first
+    TmpFile.with_file do |fwt|
+      index = Segment.index([gene1, gene2, gene3].collect{|s| s.segid}, corpus, fwt)
+      assert_equal %w(CDK5R1), index[gene2.offset + 1].segment
+      index = Segment.index([gene1, gene2, gene3].collect{|s| s.segid}, corpus, fwt)
+      assert_equal %w(CDK5R1), index[gene2.offset + 1].segment
+    end
+  end
+end