RubyGems - rbbt-text - Versions diffs - 0.6.3 → 1.0.0 - Mend

rbbt-text 0.6.3 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (34) hide show

data/lib/rbbt/corpus/document.rb +1 -0
data/lib/rbbt/entity/document.rb +62 -18
data/lib/rbbt/ner/abner.rb +6 -3
data/lib/rbbt/ner/banner.rb +10 -7
data/lib/rbbt/ner/chemical_tagger.rb +5 -3
data/lib/rbbt/ner/finder.rb +60 -0
data/lib/rbbt/ner/linnaeus.rb +38 -0
data/lib/rbbt/ner/ngram_prefix_dictionary.rb +42 -48
data/lib/rbbt/ner/oscar3.rb +9 -6
data/lib/rbbt/ner/oscar4.rb +21 -7
data/lib/rbbt/ner/rnorm.rb +57 -33
data/lib/rbbt/ner/rnorm/cue_index.rb +4 -3
data/lib/rbbt/ner/rnorm/tokens.rb +10 -4
data/lib/rbbt/ner/segment.rb +19 -8
data/lib/rbbt/ner/segment/docid.rb +46 -0
data/lib/rbbt/ner/segment/named_entity.rb +1 -1
data/lib/rbbt/ner/segment/transformed.rb +5 -3
data/lib/rbbt/nlp/genia/sentence_splitter.rb +22 -1
data/lib/rbbt/nlp/open_nlp/sentence_splitter.rb +74 -0
data/share/install/software/Linnaeus +21 -0
data/share/install/software/OpenNLP +12 -0
data/share/rnorm/tokens_default +1 -2
data/test/rbbt/entity/test_document.rb +66 -0
data/test/rbbt/ner/segment/test_transformed.rb +10 -0
data/test/rbbt/ner/test_finder.rb +34 -0
data/test/rbbt/ner/test_linnaeus.rb +16 -0
data/test/rbbt/ner/test_ngram_prefix_dictionary.rb +22 -0
data/test/rbbt/ner/test_oscar4.rb +3 -3
data/test/rbbt/ner/test_rnorm.rb +3 -3
data/test/rbbt/nlp/open_nlp/test_sentence_splitter.rb +45 -0
data/test/test_helper.rb +1 -1
metadata +101 -99
data/test/rbbt/corpus/test_corpus.rb +0 -99
data/test/rbbt/corpus/test_document.rb +0 -236

data/lib/rbbt/nlp/genia/sentence_splitter.rb CHANGED Viewed

@@ -101,7 +101,7 @@ module NLP
           a, b, d, c = $1, $2, $3, $4
           events << eventCount.to_s  << "\t"
           events << returnFeatures(a, b, c)
-          (" " + a + b + "__" + eventCount.to_s + "____" + d + "__" + c + " ")
+          (" " << a << b << "__" << eventCount.to_s << "____" << d << "__" << c << " ")
         }
         eventCount += 1
       end
@@ -111,6 +111,27 @@ module NLP
     [events, marks]
   end
+  def self.event_extraction(text)
+    events = ""
+    marks = ""
+    eventCount = 0
+    pat = / ([^ ]+)([.!\?\)\]\"])( +)([^ ]+) /
+    for line in text.split(/\n/) do
+      while line.match(pat) do
+        a, b, d, c = $1, $2, $3, $4
+        events << eventCount.to_s  << "\t"
+        events << returnFeatures(a, b, c)
+        line = $` + (" " << a << b << "__" << eventCount.to_s << "____" << d << "__" << c << " ") << $'
+        eventCount += 1
+      end
+      marks << line
+    end
+    [events, marks]
+  end
   def self.process_labels(marked_text, labels)
     out = ""

data/lib/rbbt/nlp/open_nlp/sentence_splitter.rb ADDED Viewed

@@ -0,0 +1,74 @@
+require 'rbbt'
+require 'rjb'
+require 'rbbt/ner/segment'
+require 'rbbt/resource'
+module OpenNLP
+  Rbbt.claim Rbbt.software.opt.OpenNLP, :install, Rbbt.share.install.software.OpenNLP.find
+  Rbbt.claim Rbbt.software.opt.OpenNLP.models["da-sent.bin"], :url, "http://opennlp.sourceforge.net/models-1.5/de-sent.bin"
+  MAX = 5
+  @@FileInputStream = Rjb::import('java.io.FileInputStream')
+  @@SentenceModel = Rjb::import('opennlp.tools.sentdetect.SentenceModel')
+  @@SentenceDetectorME = Rjb::import('opennlp.tools.sentdetect.SentenceDetectorME')
+  def self.sentence_split_detector
+    @@sentence_split_detector ||= begin
+                                    modelIn = @@FileInputStream.new(Rbbt.software.opt.OpenNLP.models["da-sent.bin"].produce.find);
+                                    model = @@SentenceModel.new(modelIn);
+                                    modelIn.close()
+                                    model
+                                    @@SentenceDetectorME.new(model)
+                                  end
+  end
+  def self.sentence_splitter(text)
+    return [] if text.nil? or text.empty?
+    last = 0
+    begin
+      sentence_split_detector = self.sentence_split_detector
+      sentences = nil
+      TmpFile.with_file do |tmpfile|
+        start_time = Time.now
+        begin
+          pid = Process.fork do
+            sent = sentence_split_detector.sentDetect(text)
+            Open.write(tmpfile, sent * "#OpenNLP:SENTENCE#")
+          end
+          while not Process.waitpid(pid)
+            if Time.now - start_time > MAX
+              Process.kill(9, pid)
+              raise "Taking to long (> #{MAX} seconds)"
+            end
+            sleep 0.1
+          end
+          begin
+            Process.waitpid(pid)
+          end
+        rescue Errno::ECHILD
+        end
+        sentences = Open.read(tmpfile).split("#OpenNLP:SENTENCE#")
+      end
+      sentences.collect{|sentence|
+        start = text.index(sentence, last)
+        Segment.setup sentence, start
+        last = start + sentence.length - 1
+        sentence
+      }
+    rescue Exception
+      raise $!
+      raise "Sentence splitter raised exception: #{$!.message}"
+    end
+  end
+end

data/share/install/software/Linnaeus ADDED Viewed

@@ -0,0 +1,21 @@
+#!/bin/bash
+name='Linnaeus'
+url="http://sourceforge.net/projects/linnaeus/files/Linnaeus/linnaeus-2.0.tar.gz/download"
+species_url="http://sourceforge.net/projects/linnaeus/files/Entity_packs/species-proxy-1.2.tar.gz/download"
+install_src "$name" "$url"
+ln -s "$OPT_DIR/$name/bin/"*.jar "$OPT_JAR_DIR/$name.jar"
+echo "GET SPECIES"  > /tmp/foo
+get_src "Linnaeus-species-proxy" "$species_url"
+pkg_dir="`opt_dir \"$name\"`"
+build_dir=`build_dir`
+echo $pkg_dir  >> /tmp/foo
+echo $build_dir  >> /tmp/foo
+mv "$build_dir" "$pkg_dir"
+tmp_file="/tmp/species-proxy-properties.tmp"
+cat  "$pkg_dir/species-proxy/properties.conf" |grep -v "^.dir =" >> $tmp_file
+echo "\$dir = $pkg_dir/species-proxy/" > "$pkg_dir/species-proxy/properties.conf"
+cat $tmp_file | grep -v "^#" >>  "$pkg_dir/species-proxy/properties.conf"

data/share/install/software/OpenNLP ADDED Viewed

@@ -0,0 +1,12 @@
+#!/bin/bash
+name='OpenNLP'
+url="http://apache.rediris.es//incubator/opennlp/apache-opennlp-1.5.2-incubating-bin.tar.gz"
+get_src "$name" "$url"
+move_opt "$name"
+ln -sf  "$OPT_DIR/$name/lib/"*.jar  "$OPT_JAR_DIR/"
+clean_build

data/share/rnorm/tokens_default CHANGED Viewed

@@ -1,6 +1,5 @@
 require 'rbbt/util/misc'
 plural = Proc.new do |t| t.sub(/s$/,'') end
 tokens do
@@ -14,7 +13,7 @@ tokens do
   # Some words for removal
   stopword     do |w|  $stopwords.include?( w.downcase_first)  end
-  gene         /genes?/i
+  gene         /genes?/i
   dna
   cdna
   rna

data/test/rbbt/entity/test_document.rb ADDED Viewed

@@ -0,0 +1,66 @@
+require File.join(File.expand_path(File.dirname(__FILE__)), '../../test_helper.rb')
+require 'rbbt/entity'
+require 'rbbt/entity/pmid'
+require 'rbbt/entity/document'
+require 'test/unit'
+require 'rbbt/workflow'
+Workflow.require_workflow "TextMining"
+module Document
+  self.corpus = Persist.open_tokyocabinet("/tmp/corpus", false, :string, "BDB")
+  property :banner => :single do |*args|
+    normalize, organism = args
+    TextMining.job(:gene_mention_recognition, "Factoid", :text => text, :method => :banner, :normalize => normalize, :organism => organism).exec.each{|e| SegmentWithDocid.setup(e, self.docid)}
+  end
+  property :abner => :single do |*args|
+    normalize, organism = args
+    TextMining.job(:gene_mention_recognition, "Factoid", :text => text, :method => :banner, :normalize => normalize, :organism => organism).exec.each{|e| SegmentWithDocid.setup(e, self.docid)}
+  end
+  persist :abner, :annotations, :dir => Rbbt.tmp.test.find(:user).entity_property
+end
+class TestDocument < Test::Unit::TestCase
+  def test_pmid
+    pmid = "21904853"
+    PMID.setup(pmid)
+    assert_match /^PMID/, pmid.id
+    assert_match /TET2/, pmid.text
+  end
+  def test_abner
+    pmid = "21904853"
+    PMID.setup(pmid)
+    genes = pmid.abner.reject{|ne| ne.offset.nil?}
+    genes.each do |ne|
+      orig = ne
+      orig_range = ne.range
+      ne.mask
+      assert ne.masked?
+      assert ne =~ /^MASKED/
+      assert_equal orig_range, ne.range
+      assert_equal ne, ne.unmask
+    end
+    assert pmid.abner.include? "TET2"
+  end
+  def test_free_text
+    text = "Free text including a mention to TET2."
+    Document.setup(text)
+    assert text.abner.include? "TET2"
+    docid = text.docid
+    assert_match /TET2/, Document.setup(docid).text
+    assert Document.setup(docid).abner.include? "TET2"
+  end
+end

data/test/rbbt/ner/segment/test_transformed.rb CHANGED Viewed

@@ -74,6 +74,16 @@ class TestClass < Test::Unit::TestCase
       assert_equal original.gsub(/TP53/, 'GN'), a
     end
+    Transformed.with_transform(a, [gene1], "GN") do
+      Transformed.with_transform(a, [gene2], "LONG_GENE_PLACEHOLDER") do
+        assert_equal original.gsub(/TP53/, 'GN').sub('CDK5R1', "LONG_GENE_PLACEHOLDER"), a
+      end
+      assert_equal original.gsub(/TP53/, 'GN'), a
+    end
+    assert_equal original, a
     assert_equal original, a
     exp1, exp2 = nil, nil

data/test/rbbt/ner/test_finder.rb ADDED Viewed

@@ -0,0 +1,34 @@
+require File.join(File.expand_path(File.dirname(__FILE__)), '../../test_helper.rb')
+require 'rbbt/entity'
+require 'rbbt/ner/finder'
+require 'rbbt/ner/finder'
+require 'rbbt/sources/organism'
+require 'rbbt/sources/kegg'
+require 'rbbt/sources/NCI'
+class TestFinder < Test::Unit::TestCase
+  def _test_namespace_and_format
+    #f = Finder.new(CMD.cmd("head -n 1000", :in => Open.open(Organism.identifiers("Hsa/jun2011").find)))
+    f = Finder.new(KEGG.pathways, :grep => "^hsa")
+    assert_equal "Hsa/jun2011", f.instances.first.namespace
+    assert_equal "Ensembl Gene ID", f.instances.first.format
+  end
+  def _test_find
+    f = Finder.new(Organism.lexicon("Hsa/jun2011"), :grep => ["SF3B1"])
+    assert_equal "ENSG00000115524", f.find("SF3B1").first
+    if defined? Entity
+      ddd f.find("SF3B1").first.info
+      assert_equal "Ensembl Gene ID", f.find("SF3B1").first.format
+    end
+  end
+  def test_find
+    f = Finder.new(Organism.lexicon("Hsa/jun2011"), :grep => ["RASGRF2"])
+    ddd f.find("RAS").collect{|m| m.info}
+  end
+end

data/test/rbbt/ner/test_linnaeus.rb ADDED Viewed

@@ -0,0 +1,16 @@
+require File.join(File.expand_path(File.dirname(__FILE__)), '../../test_helper.rb')
+require 'rbbt/ner/linnaeus'
+require 'test/unit'
+class TestLinnaeus < Test::Unit::TestCase
+  def test_match
+    begin
+      mentions = Linnaeus.match("Human HeLa cells and murine models")
+      ["Human", "HeLa cells", "murine"].each{|mention|
+        assert(mentions.include? mention)
+      }
+    rescue
+    end
+  end
+end

data/test/rbbt/ner/test_ngram_prefix_dictionary.rb CHANGED Viewed

@@ -3,6 +3,7 @@ require 'rbbt/ner/ngram_prefix_dictionary'
 require 'rbbt/util/tmpfile'
 class TestNGramPrefixDictionary < Test::Unit::TestCase
   def test_match
     lexicon =<<-EOF
 C1;aa;AA;bb b
@@ -17,6 +18,27 @@ C2;11;22;3 3;bb
     end
   end
+  def test_case_insensitive_match
+    lexicon =<<-EOF
+C1;aa
+C2;bb
+    EOF
+    TmpFile.with_file(lexicon) do |file|
+      index = NGramPrefixDictionary.new(TSV.open(file, :flat, :sep => ';'), "test", true)
+      matches = index.match('AA oo')
+      assert matches.select{|m| m.code.include? 'C1'}.any?
+      assert matches.include? 'AA'
+      matches = index.match('AA')
+      assert matches.select{|m| m.code.include? 'C1'}.any?
+      assert matches.include? 'AA'
+    end
+  end
   def test_stream
     lexicon =<<-EOF
 C1;aa;AA;bb b

data/test/rbbt/ner/test_oscar4.rb CHANGED Viewed

@@ -8,9 +8,9 @@ class TestOSCAR4 < Test::Unit::TestCase
   def test_match
     begin
       ner = OSCAR4.new
-      str  = "Alternatively, rearrangement of O-(w-haloalkyl)esters 34 of 2-carboethoxy-N-hydroxypyridine-2-selone affords azonianaphthalenium halides 37 in 79% yield"
+      str  = "Alternatively, CO2 rearrangement of O-(w-haloalkyl)esters 34 of 2-carboethoxy-N-hydroxypyridine-2-selone affords azonianaphthalenium halides 37 in 79% yield"
-      mentions = ner.match(str, "CM", false)
+      mentions = ner.match(str, "CM")
       good_mentions = ["2-carboethoxy-N-hydroxypyridine-2-selone", "O-(w-haloalkyl)esters"]
       good_mentions.each{|mention|
@@ -22,7 +22,7 @@ class TestOSCAR4 < Test::Unit::TestCase
     end
   end
-  def test_ranges
+  def _test_ranges
     begin
       ner = OSCAR4.new
       str =<<-EOF

data/test/rbbt/ner/test_rnorm.rb CHANGED Viewed

@@ -25,9 +25,9 @@ S000000376	AAA	GENE1	DDD
   def test_match
      assert_equal(["S000000029"], @norm.match("FUN21"))
-     assert_equal(["S000000030", "S000000029", "S000000031"], @norm.match("FUN"))
-     assert_equal(["S000000030", "S000000029", "S000000031"], @norm.match("FUN 2"))
-     assert_equal(["S000000030", "S000000029", "S000000031"], @norm.match("FUN 21"))
+     assert_equal(["S000000030", "S000000029", "S000000031"].sort, @norm.match("FUN").sort)
+     assert_equal(["S000000030", "S000000029", "S000000031"].sort, @norm.match("FUN 2").sort)
+     assert_equal(["S000000030", "S000000029", "S000000031"].sort, @norm.match("FUN 21").sort)
      assert_equal([], @norm.match("GER4"))
      @norm.match("FUN21")

data/test/rbbt/nlp/open_nlp/test_sentence_splitter.rb ADDED Viewed

@@ -0,0 +1,45 @@
+require File.join(File.expand_path(File.dirname(__FILE__)), '../../..', 'test_helper.rb')
+require 'rbbt/nlp/open_nlp/sentence_splitter'
+require 'rbbt/ner/segment'
+$text=<<-EOF
+Atypical teratoid/rhabdoid tumors (AT/RTs) are highly aggressive brain tumors
+of early childhood poorly responding to therapy. The majority of cases show
+inactivation of SMARCB1 (INI1, hSNF5, BAF47), a core member of the adenosine
+triphosphate (ATP)-dependent SWI/SNF chromatin-remodeling complex. We here
+report the case of a supratentorial AT/RT in a 9-month-old boy, which showed
+retained SMARCB1 staining on immunohistochemistry and lacked genetic
+alterations of SMARCB1. Instead, the tumor showed loss of protein expression of
+another SWI/SNF chromatin-remodeling complex member, the ATPase subunit SMARCA4
+(BRG1) due to a homozygous SMARCA4 mutation [c.2032C>T (p.Q678X)].  Our
+findings highlight the role of SMARCA4 in the pathogenesis of SMARCB1-positive
+AT/RT and the usefulness of antibodies directed against SMARCA4 in this
+diagnostic setting.
+  EOF
+class TestClass < Test::Unit::TestCase
+  def test_sentences
+    text =<<-EOF
+This is a sentence.
+A funky character ™ in a sentence.
+This is a sentence.
+This is a
+sentence. This is
+another sentence.
+    EOF
+    assert_equal 5, OpenNLP.sentence_splitter(text).length
+    assert_equal "This is a \nsentence.", OpenNLP.sentence_splitter(text)[3]
+  end
+  def test_text_sentences
+    Misc.benchmark(100) do
+      OpenNLP.sentence_splitter($text).include? "Our
+findings highlight the role of SMARCA4 in the pathogenesis of SMARCB1-positive
+AT/RT and the usefulness of antibodies directed against SMARCA4 in this
+diagnostic setting."
+    end
+  end
+end

data/test/test_helper.rb CHANGED Viewed

@@ -9,7 +9,7 @@ require 'rbbt/util/log'
 require 'rbbt/corpus/document_repo'
 class Test::Unit::TestCase
-  def test_datafile(file)
+  def get_test_datafile(file)
     File.join(File.dirname(__FILE__), 'data', file)
   end

metadata CHANGED Viewed

@@ -1,103 +1,104 @@
---- !ruby/object:Gem::Specification
+--- !ruby/object:Gem::Specification
 name: rbbt-text
-version: !ruby/object:Gem::Version
-  hash: 1
+version: !ruby/object:Gem::Version
+  version: 1.0.0
   prerelease:
-  segments:
-  - 0
-  - 6
-  - 3
-  version: 0.6.3
 platform: ruby
-authors:
+authors:
 - Miguel Vazquez
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2012-02-09 00:00:00 Z
-dependencies:
-- !ruby/object:Gem::Dependency
+date: 2012-12-21 00:00:00.000000000 Z
+dependencies:
+- !ruby/object:Gem::Dependency
   name: rbbt-util
-  prerelease: false
-  requirement: &id001 !ruby/object:Gem::Requirement
+  requirement: !ruby/object:Gem::Requirement
     none: false
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        hash: 63
-        segments:
-        - 4
-        - 0
-        - 0
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
         version: 4.0.0
   type: :runtime
-  version_requirements: *id001
-- !ruby/object:Gem::Dependency
-  name: stemmer
   prerelease: false
-  requirement: &id002 !ruby/object:Gem::Requirement
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: 4.0.0
+- !ruby/object:Gem::Dependency
+  name: stemmer
+  requirement: !ruby/object:Gem::Requirement
     none: false
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        hash: 3
-        segments:
-        - 0
-        version: "0"
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
   type: :runtime
-  version_requirements: *id002
-- !ruby/object:Gem::Dependency
-  name: libxml-ruby
   prerelease: false
-  requirement: &id003 !ruby/object:Gem::Requirement
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: libxml-ruby
+  requirement: !ruby/object:Gem::Requirement
     none: false
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        hash: 3
-        segments:
-        - 0
-        version: "0"
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
   type: :runtime
-  version_requirements: *id003
-- !ruby/object:Gem::Dependency
-  name: json
   prerelease: false
-  requirement: &id004 !ruby/object:Gem::Requirement
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: json
+  requirement: !ruby/object:Gem::Requirement
     none: false
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        hash: 3
-        segments:
-        - 0
-        version: "0"
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
   type: :runtime
-  version_requirements: *id004
-- !ruby/object:Gem::Dependency
-  name: rjb
   prerelease: false
-  requirement: &id005 !ruby/object:Gem::Requirement
+  version_requirements: !ruby/object:Gem::Requirement
     none: false
-    requirements:
-    - - ">="
-      - !ruby/object:Gem::Version
-        hash: 3
-        segments:
-        - 0
-        version: "0"
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+- !ruby/object:Gem::Dependency
+  name: rjb
+  requirement: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
   type: :runtime
-  version_requirements: *id005
-description: "Text mining tools: named entity recognition and normalization, document classification, bag-of-words, dictionaries, etc"
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    none: false
+    requirements:
+    - - ! '>='
+      - !ruby/object:Gem::Version
+        version: '0'
+description: ! 'Text mining tools: named entity recognition and normalization, document
+  classification, bag-of-words, dictionaries, etc'
 email: miguel.vazquez@fdi.ucm.es
-executables:
+executables:
 - get_ppis.rb
 extensions: []
 extra_rdoc_files: []
-files:
+files:
 - lib/rbbt/bow/bow.rb
 - lib/rbbt/bow/dictionary.rb
 - lib/rbbt/bow/misc.rb
@@ -110,6 +111,8 @@ files:
 - lib/rbbt/ner/abner.rb
 - lib/rbbt/ner/banner.rb
 - lib/rbbt/ner/chemical_tagger.rb
+- lib/rbbt/ner/finder.rb
+- lib/rbbt/ner/linnaeus.rb
 - lib/rbbt/ner/ngram_prefix_dictionary.rb
 - lib/rbbt/ner/oscar3.rb
 - lib/rbbt/ner/oscar4.rb
@@ -119,6 +122,7 @@ files:
 - lib/rbbt/ner/rnorm/cue_index.rb
 - lib/rbbt/ner/rnorm/tokens.rb
 - lib/rbbt/ner/segment.rb
+- lib/rbbt/ner/segment/docid.rb
 - lib/rbbt/ner/segment/named_entity.rb
 - lib/rbbt/ner/segment/relationship.rb
 - lib/rbbt/ner/segment/segmented.rb
@@ -127,13 +131,16 @@ files:
 - lib/rbbt/ner/token_trieNER.rb
 - lib/rbbt/nlp/genia/sentence_splitter.rb
 - lib/rbbt/nlp/nlp.rb
+- lib/rbbt/nlp/open_nlp/sentence_splitter.rb
 - share/install/software/ABNER
 - share/install/software/BANNER
 - share/install/software/ChemicalTagger
 - share/install/software/Gdep
 - share/install/software/Geniass
+- share/install/software/Linnaeus
 - share/install/software/OSCAR3
 - share/install/software/OSCAR4
+- share/install/software/OpenNLP
 - share/install/software/StanfordParser
 - share/patterns/drug_induce_disease
 - share/rnorm/cue_default
@@ -157,44 +164,37 @@ files:
 - test/rbbt/ner/test_oscar4.rb
 - test/rbbt/ner/test_chemical_tagger.rb
 - test/rbbt/ner/test_ngram_prefix_dictionary.rb
+- test/rbbt/ner/test_finder.rb
+- test/rbbt/ner/test_linnaeus.rb
+- test/rbbt/entity/test_document.rb
 - test/rbbt/nlp/test_nlp.rb
-- test/rbbt/corpus/test_corpus.rb
-- test/rbbt/corpus/test_document.rb
+- test/rbbt/nlp/open_nlp/test_sentence_splitter.rb
 - bin/get_ppis.rb
 homepage: http://github.com/mikisvaz/rbbt-util
 licenses: []
 post_install_message:
 rdoc_options: []
-require_paths:
+require_paths:
 - lib
-required_ruby_version: !ruby/object:Gem::Requirement
+required_ruby_version: !ruby/object:Gem::Requirement
   none: false
-  requirements:
-  - - ">="
-    - !ruby/object:Gem::Version
-      hash: 3
-      segments:
-      - 0
-      version: "0"
-required_rubygems_version: !ruby/object:Gem::Requirement
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '0'
+required_rubygems_version: !ruby/object:Gem::Requirement
   none: false
-  requirements:
-  - - ">="
-    - !ruby/object:Gem::Version
-      hash: 3
-      segments:
-      - 0
-      version: "0"
+  requirements:
+  - - ! '>='
+    - !ruby/object:Gem::Version
+      version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 1.8.10
+rubygems_version: 1.8.24
 signing_key:
 specification_version: 3
 summary: Text mining tools for the Ruby Bioinformatics Toolkit (rbbt)
-test_files:
+test_files:
 - test/test_helper.rb
 - test/rbbt/bow/test_bow.rb
 - test/rbbt/bow/test_dictionary.rb
@@ -213,6 +213,8 @@ test_files:
 - test/rbbt/ner/test_oscar4.rb
 - test/rbbt/ner/test_chemical_tagger.rb
 - test/rbbt/ner/test_ngram_prefix_dictionary.rb
+- test/rbbt/ner/test_finder.rb
+- test/rbbt/ner/test_linnaeus.rb
+- test/rbbt/entity/test_document.rb
 - test/rbbt/nlp/test_nlp.rb
-- test/rbbt/corpus/test_corpus.rb
-- test/rbbt/corpus/test_document.rb
+- test/rbbt/nlp/open_nlp/test_sentence_splitter.rb