RubyGems - rbbt-text - Versions diffs - 0.5.0 → 0.6.0 - Mend

rbbt-text 0.5.0 → 0.6.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (39) hide show

data/lib/rbbt/corpus/corpus.rb +15 -6
data/lib/rbbt/corpus/document.rb +100 -127
data/lib/rbbt/corpus/document_repo.rb +72 -51
data/lib/rbbt/ner/NER.rb +4 -4
data/lib/rbbt/ner/abner.rb +5 -4
data/lib/rbbt/ner/banner.rb +3 -3
data/lib/rbbt/ner/chemical_tagger.rb +3 -3
data/lib/rbbt/ner/ngram_prefix_dictionary.rb +45 -10
data/lib/rbbt/ner/oscar3.rb +3 -3
data/lib/rbbt/ner/oscar4.rb +3 -3
data/lib/rbbt/ner/patterns.rb +15 -13
data/lib/rbbt/ner/regexpNER.rb +3 -2
data/lib/rbbt/ner/rnorm.rb +2 -2
data/lib/rbbt/ner/rnorm/cue_index.rb +2 -2
data/lib/rbbt/ner/{annotations.rb → segment.rb} +161 -109
data/lib/rbbt/ner/{annotations → segment}/named_entity.rb +3 -11
data/lib/rbbt/ner/segment/relationship.rb +20 -0
data/lib/rbbt/ner/segment/segmented.rb +13 -0
data/lib/rbbt/ner/segment/token.rb +24 -0
data/lib/rbbt/ner/{annotations → segment}/transformed.rb +10 -10
data/lib/rbbt/ner/token_trieNER.rb +30 -22
data/lib/rbbt/nlp/genia/sentence_splitter.rb +2 -1
data/lib/rbbt/nlp/nlp.rb +23 -37
data/test/rbbt/corpus/test_document.rb +39 -37
data/test/rbbt/ner/segment/test_named_entity.rb +29 -0
data/test/rbbt/ner/segment/test_segmented.rb +23 -0
data/test/rbbt/ner/{annotations → segment}/test_transformed.rb +6 -6
data/test/rbbt/ner/test_ngram_prefix_dictionary.rb +15 -1
data/test/rbbt/ner/test_patterns.rb +11 -12
data/test/rbbt/ner/test_regexpNER.rb +5 -4
data/test/rbbt/ner/test_segment.rb +101 -0
data/test/rbbt/ner/test_token_trieNER.rb +8 -9
data/test/test_helper.rb +6 -6
metadata +40 -22
data/lib/rbbt/ner/annotations/annotated.rb +0 -15
data/lib/rbbt/ner/annotations/relations.rb +0 -25
data/lib/rbbt/ner/annotations/token.rb +0 -28
data/test/rbbt/ner/annotations/test_named_entity.rb +0 -14
data/test/rbbt/ner/test_annotations.rb +0 -70

data/lib/rbbt/ner/annotations/annotated.rb DELETED Viewed

@@ -1,15 +0,0 @@
-require 'rbbt/ner/annotations'
-module Annotated
-  attr_accessor :annotations
-  def self.annotate(string, annotations = nil)
-    string.extend Annotated
-    string.annotations = annotations || []
-    string
-  end
-  def split_segments(skip_segments = false)
-    Segment.split(self, @annotations, skip_segments)
-  end
-end

data/lib/rbbt/ner/annotations/relations.rb DELETED Viewed

@@ -1,25 +0,0 @@
-require 'rbbt/ner/annotations'
-module Relationship
-  attr_accessor :terms, :segment_types
-  include Segment
-  def self.annotate(string, offset = nil, terms = nil)
-    string.extend PPI
-    string.offset = offset unless offset.nil?
-    string.terms = terms unless terms.nil?
-    string
-  end
-  def html
-    text = <<-EOF
-<span class='Relationship'\
->#{ self }</span>
-    EOF
-    text.chomp
-  end
-  def html_with_entities(*types)
-    annotations.values_at(*types).each do |segments|
-    end
-  end
-end

data/lib/rbbt/ner/annotations/token.rb DELETED Viewed

@@ -1,28 +0,0 @@
-require 'rbbt/ner/annotations'
-module Token
-  include Segment
-  attr_accessor :original
-  def self.annotate(string, offset = nil, original = nil)
-    string.extend Token
-    string.offset   = offset unless offset.nil?
-    string.original = original || string.dup
-    string
-  end
-  def self.tokenize(text, split_at = /\s|(\(|\)|[-."':,])/, start = 0)
-    tokens = []
-    while matchdata = text.match(split_at)
-      tokens << Token.annotate(matchdata.pre_match, start) unless matchdata.pre_match.empty?
-      tokens << Token.annotate(matchdata.captures.first, start + matchdata.begin(1)) if matchdata.captures.any? and not matchdata.captures.first.empty?
-      start += matchdata.end(0)
-      text = matchdata.post_match
-    end
-    tokens << Token.annotate(text, start) unless text.empty?
-    tokens
-  end
-end

data/test/rbbt/ner/annotations/test_named_entity.rb DELETED Viewed

@@ -1,14 +0,0 @@
-require File.join(File.expand_path(File.dirname(__FILE__)), '../../..', 'test_helper.rb')
-require 'rbbt/ner/annotations'
-require 'rbbt/ner/annotations/named_entity'
-require 'rbbt/ner/annotations/transformed'
-class TestClass < Test::Unit::TestCase
-  def test_info
-    a = "test"
-    a.extend NamedEntity
-    assert(! a.info.keys.include?("offset"))
-    a.offset = 10
-    assert a.info.keys.include? "offset"
-  end
-end

data/test/rbbt/ner/test_annotations.rb DELETED Viewed

@@ -1,70 +0,0 @@
-require File.join(File.expand_path(File.dirname(__FILE__)), '../..', 'test_helper.rb')
-require 'rbbt/ner/annotations'
-require 'rbbt/ner/annotations/named_entity'
-require 'rbbt/ner/annotations/transformed'
-class TestClass < Test::Unit::TestCase
-  def test_info
-    a = "test"
-    a.extend NamedEntity
-    a.type = "type"
-    assert a.info.keys.include? "type"
-  end
-  def test_segment_type
-    a = "test"
-    a.extend NamedEntity
-    assert a.segment_types.include? "NamedEntity"
-  end
-  def test_align
-    text =<<-EOF
-Atypical teratoid/rhabdoid tumors (AT/RTs) are highly aggressive brain tumors of early childhood poorly responding to therapy.
-    EOF
-    parts = text.split(/\W/)
-    Segment.align(text, parts)
-    assert_equal "Atypical teratoid/".length, parts.select{|s| s == "rhabdoid"}.first.offset
-  end
-  def test_sort
-    a = "This sentence mentions the TP53 gene and the CDK5R1 protein"
-    gene1 = "TP53"
-    gene1.extend NamedEntity
-    gene1.offset = a.index gene1
-    gene1.type = "Gene"
-    gene2 = "CDK5R1"
-    gene2.extend NamedEntity
-    gene2.offset = a.index gene2
-    gene2.type = "Gene"
-    assert_equal [gene1,gene2], Segment.sort([gene2,gene1])
-  end
-  def test_clean_sort
-    a = "This sentence mentions the TP53 gene and the CDK5R1 protein"
-    gene1 = "TP53"
-    gene1.extend NamedEntity
-    gene1.offset = a.index gene1
-    gene1.type = "Gene"
-    gene2 = "CDK5R1"
-    gene2.extend NamedEntity
-    gene2.offset = a.index gene2
-    gene2.type = "Gene"
-    gene3 = "TP53 gene"
-    gene3.extend NamedEntity
-    gene3.offset = a.index gene3
-    gene3.type = "Gene"
-    assert_equal [gene3,gene2], Segment.clean_sort([gene2,gene1,gene3])
-  end
-end