RubyGems - rbbt-text - Versions diffs - 1.3.4 → 1.3.7 - Mend

rbbt-text 1.3.4 → 1.3.7

Files changed (35) hide show

checksums.yaml +4 -4
data/LICENSE +20 -0
data/lib/rbbt/document/annotation.rb +2 -2
data/lib/rbbt/document/corpus/pubmed.rb +14 -5
data/lib/rbbt/document/corpus.rb +10 -7
data/lib/rbbt/document.rb +7 -3
data/lib/rbbt/ner/abner.rb +3 -2
data/lib/rbbt/ner/banner.rb +3 -1
data/lib/rbbt/ner/brat.rb +1 -1
data/lib/rbbt/ner/linnaeus.rb +2 -1
data/lib/rbbt/ner/oscar3.rb +0 -1
data/lib/rbbt/ner/oscar4.rb +0 -1
data/lib/rbbt/ner/rner.rb +229 -0
data/lib/rbbt/ner/rnorm/tokens.rb +3 -1
data/lib/rbbt/ner/rnorm.rb +5 -1
data/lib/rbbt/ner/token_trieNER.rb +2 -1
data/lib/rbbt/nlp/open_nlp/sentence_splitter.rb +1 -1
data/lib/rbbt/nlp/spaCy.rb +158 -15
data/lib/rbbt/relationship.rb +24 -0
data/lib/rbbt/segment/named_entity.rb +4 -0
data/lib/rbbt/segment/range_index.rb +1 -1
data/lib/rbbt/segment/transformed.rb +9 -1
data/lib/rbbt/segment.rb +3 -0
data/share/install/software/OpenNLP +3 -8
data/share/rner/config.rb +51 -0
data/test/rbbt/document/corpus/test_pubmed.rb +1 -1
data/test/rbbt/document/test_annotation.rb +10 -1
data/test/rbbt/document/test_corpus.rb +14 -0
data/test/rbbt/ner/rnorm/test_tokens.rb +11 -0
data/test/rbbt/ner/test_rner.rb +132 -0
data/test/rbbt/ner/test_rnorm.rb +5 -0
data/test/rbbt/segment/test_named_entity.rb +2 -1
data/test/rbbt/segment/test_transformed.rb +13 -30
data/test/test_spaCy.rb +113 -1
metadata +13 -18

data/test/test_spaCy.rb CHANGED Viewed

@@ -3,7 +3,7 @@ require 'rbbt/nlp/spaCy'
 require 'rbbt/document/corpus'
 class TestSpaCy < Test::Unit::TestCase
-  def _test_tokens
+  def test_tokens
     text = "I tell a story"
     tokens = SpaCy.tokens(text)
@@ -12,6 +12,16 @@ class TestSpaCy < Test::Unit::TestCase
     assert_equal "tell", tokens[1].to_s
   end
+  def test_chunks
+    text = "Miguel Vazquez tell a good story"
+    tokens = SpaCy.chunks(text)
+    assert_equal 2, tokens.length
+    assert_equal "Miguel Vazquez", tokens[0].to_s
+  end
   def test_segments
     text = "I tell a story. It's a very good story."
@@ -28,5 +38,107 @@ class TestSpaCy < Test::Unit::TestCase
       assert_equal segment, segment.segid.tap{|e| e.corpus = corpus}.segment
     end
   end
+  def test_chunk_segments
+    text = "I tell a story. It's a very good story."
+    corpus = Document::Corpus.setup({})
+    Document.setup(text, "TEST", "test_doc1", "simple_sentence")
+    corpus.add_document text
+    text.corpus = corpus
+    segments = SpaCy.chunk_segments(text)
+    segments.each do |segment|
+      assert_equal segment, segment.segid.tap{|e| e.corpus = corpus}.segment
+    end
+  end
+  def test_dep_graph
+    text = "Meanwhile, TF antisense treatment activated the human ASBT promoter 5-fold and not only abrogated interleukin-1beta-mediated repression but led to a paradoxical increase in TG promoter activity"
+    graph = SpaCy.dep_graph(text, true)
+    tokens = SpaCy.segments(text)
+    index = Segment.index tokens
+    tf_s = tokens.select{|t| t == "TF" }.first
+    tg_s = tokens.select{|t| t == "TG" }.first
+    require 'rbbt/network/paths'
+    path = Paths.dijkstra(graph, tf_s.segid, [tg_s.segid])
+    path_tokens = path.collect do |segid|
+      range = Range.new(*segid.split(":").last.split("..").map(&:to_i))
+      text[range]
+    end
+    assert path_tokens.include? 'increase'
+  end
+  def test_chunk_dep_graph
+    text = "Meanwhile, TF antisense treatment activated the human ASBT promoter 5-fold and not only abrogated interleukin-1beta-mediated repression but led to a paradoxical increase in TG promoter activity"
+    graph = SpaCy.chunk_dep_graph(text, true)
+    tokens = SpaCy.chunk_segments(text)
+    index = Segment.index tokens
+    tf_s = tokens.select{|t| t.include? "TF" }.first
+    tg_s = tokens.select{|t| t.include? "TG" }.first
+    require 'rbbt/network/paths'
+    path = Paths.dijkstra(graph, tf_s.segid, [tg_s.segid])
+    path_tokens = path.collect do |segid|
+      range = Range.new(*segid.split(":").last.split("..").map(&:to_i))
+      text[range]
+    end
+    assert path_tokens.include? 'increase'
+  end
+  def test_paths
+    text = "Meanwhile, TF antisense treatment activated the human ASBT promoter 5-fold and not only abrogated interleukin-1beta-mediated repression but led to a paradoxical increase in TG promoter activity"
+    path = SpaCy.paths(text, Segment.setup("TF", :offset => text.index("TF")), Segment.setup("TG",:offset =>  text.index("TG")))
+    path_tokens = path.collect do |segid|
+      range = Range.new(*segid.split(":").last.split("..").map(&:to_i))
+      text[range]
+    end
+    ppp text
+    iii path_tokens
+    assert path_tokens.include? 'increase'
+  end
+  def test_paths2
+    text = "Deletion and domain swap experiments identified small, discreet positive and negative elements in A-Myb and TF that were required for the regulation of specific genes, such as DHRS2, TG, and mim-1"
+    path = SpaCy.paths(text, Segment.setup("TF", :offset => text.index("TF")), Segment.setup("TG",:offset =>  text.index("TG")))
+    path_tokens = path.collect do |segid|
+      range = Range.new(*segid.split(":").last.split("..").map(&:to_i))
+      text[range]
+    end
+    iii path_tokens
+    assert path_tokens.include? 'regulation'
+  end
+  def test_paths3
+    text = "Therefore, we speculate that PEA3 factors may contribute to the up-regulation of COX-2 expression resulting from both APC mutation and Wnt1 expression"
+    path = SpaCy.paths(text, *Segment.align(text,["PEA3", "Wnt1"]))
+    path_tokens = path.collect do |segid|
+      range = Range.new(*segid.split(":").last.split("..").map(&:to_i))
+      text[range]
+    end
+  end
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rbbt-text
 version: !ruby/object:Gem::Version
-  version: 1.3.4
+  version: 1.3.7
 platform: ruby
 authors:
 - Miguel Vazquez
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2020-07-23 00:00:00.000000000 Z
+date: 2022-06-21 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rbbt-util
@@ -38,20 +38,6 @@ dependencies:
     - - ">="
       - !ruby/object:Gem::Version
         version: '0'
-- !ruby/object:Gem::Dependency
-  name: libxml-ruby
-  requirement: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
-  type: :runtime
-  prerelease: false
-  version_requirements: !ruby/object:Gem::Requirement
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        version: '0'
 - !ruby/object:Gem::Dependency
   name: json
   requirement: !ruby/object:Gem::Requirement
@@ -72,8 +58,10 @@ email: miguel.vazquez@fdi.ucm.es
 executables:
 - get_ppis.rb
 extensions: []
-extra_rdoc_files: []
+extra_rdoc_files:
+- LICENSE
 files:
+- LICENSE
 - bin/get_ppis.rb
 - lib/rbbt/bow/bow.rb
 - lib/rbbt/bow/dictionary.rb
@@ -95,6 +83,7 @@ files:
 - lib/rbbt/ner/oscar4.rb
 - lib/rbbt/ner/patterns.rb
 - lib/rbbt/ner/regexpNER.rb
+- lib/rbbt/ner/rner.rb
 - lib/rbbt/ner/rnorm.rb
 - lib/rbbt/ner/rnorm/cue_index.rb
 - lib/rbbt/ner/rnorm/tokens.rb
@@ -103,6 +92,7 @@ files:
 - lib/rbbt/nlp/nlp.rb
 - lib/rbbt/nlp/open_nlp/sentence_splitter.rb
 - lib/rbbt/nlp/spaCy.rb
+- lib/rbbt/relationship.rb
 - lib/rbbt/segment.rb
 - lib/rbbt/segment/annotation.rb
 - lib/rbbt/segment/encoding.rb
@@ -126,6 +116,7 @@ files:
 - share/install/software/OpenNLP
 - share/install/software/StanfordParser
 - share/patterns/drug_induce_disease
+- share/rner/config.rb
 - share/rnorm/cue_default
 - share/rnorm/tokens_default
 - share/wordlists/stopwords
@@ -136,6 +127,7 @@ files:
 - test/rbbt/document/test_annotation.rb
 - test/rbbt/document/test_corpus.rb
 - test/rbbt/entity/test_document.rb
+- test/rbbt/ner/rnorm/test_tokens.rb
 - test/rbbt/ner/test_NER.rb
 - test/rbbt/ner/test_abner.rb
 - test/rbbt/ner/test_banner.rb
@@ -148,6 +140,7 @@ files:
 - test/rbbt/ner/test_oscar4.rb
 - test/rbbt/ner/test_patterns.rb
 - test/rbbt/ner/test_regexpNER.rb
+- test/rbbt/ner/test_rner.rb
 - test/rbbt/ner/test_rnorm.rb
 - test/rbbt/ner/test_token_trieNER.rb
 - test/rbbt/nlp/genia/test_sentence_splitter.rb
@@ -182,7 +175,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
     - !ruby/object:Gem::Version
       version: '0'
 requirements: []
-rubygems_version: 3.0.6
+rubygems_version: 3.1.4
 signing_key:
 specification_version: 4
 summary: Text mining tools for the Ruby Bioinformatics Toolkit (rbbt)
@@ -201,6 +194,7 @@ test_files:
 - test/rbbt/ner/test_patterns.rb
 - test/rbbt/ner/test_NER.rb
 - test/rbbt/ner/test_abner.rb
+- test/rbbt/ner/rnorm/test_tokens.rb
 - test/rbbt/ner/test_rnorm.rb
 - test/rbbt/ner/test_regexpNER.rb
 - test/rbbt/ner/test_ngram_prefix_dictionary.rb
@@ -210,6 +204,7 @@ test_files:
 - test/rbbt/ner/test_banner.rb
 - test/rbbt/ner/test_token_trieNER.rb
 - test/rbbt/ner/test_finder.rb
+- test/rbbt/ner/test_rner.rb
 - test/rbbt/ner/test_linnaeus.rb
 - test/rbbt/ner/test_oscar4.rb
 - test/rbbt/test_segment.rb