RubyGems - rbbt-text - Versions diffs - 1.2.0 → 1.3.0 - Mend

rbbt-text 1.2.0 → 1.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (70) hide show

checksums.yaml +4 -4
data/lib/rbbt/document.rb +46 -0
data/lib/rbbt/document/annotation.rb +42 -0
data/lib/rbbt/document/corpus.rb +38 -0
data/lib/rbbt/document/corpus/pubmed.rb +33 -0
data/lib/rbbt/ner/NER.rb +3 -3
data/lib/rbbt/ner/abner.rb +1 -1
data/lib/rbbt/ner/banner.rb +1 -1
data/lib/rbbt/ner/brat.rb +1 -1
data/lib/rbbt/ner/chemical_tagger.rb +1 -2
data/lib/rbbt/ner/g_norm_plus.rb +19 -2
data/lib/rbbt/ner/linnaeus.rb +3 -3
data/lib/rbbt/ner/ngram_prefix_dictionary.rb +3 -3
data/lib/rbbt/ner/oscar3.rb +1 -2
data/lib/rbbt/ner/oscar4.rb +3 -3
data/lib/rbbt/ner/patterns.rb +6 -5
data/lib/rbbt/ner/regexpNER.rb +1 -2
data/lib/rbbt/ner/token_trieNER.rb +6 -6
data/lib/rbbt/nlp/genia/sentence_splitter.rb +1 -1
data/lib/rbbt/nlp/nlp.rb +5 -5
data/lib/rbbt/nlp/open_nlp/sentence_splitter.rb +37 -36
data/lib/rbbt/segment.rb +177 -0
data/lib/rbbt/segment/annotation.rb +58 -0
data/lib/rbbt/segment/encoding.rb +18 -0
data/lib/rbbt/{text/segment → segment}/named_entity.rb +11 -11
data/lib/rbbt/segment/overlaps.rb +63 -0
data/lib/rbbt/segment/range_index.rb +35 -0
data/lib/rbbt/{text/segment → segment}/segmented.rb +1 -1
data/lib/rbbt/segment/token.rb +23 -0
data/lib/rbbt/{text/segment → segment}/transformed.rb +7 -9
data/lib/rbbt/segment/tsv.rb +41 -0
data/share/install/software/Linnaeus +1 -1
data/test/rbbt/document/corpus/test_pubmed.rb +15 -0
data/test/rbbt/document/test_annotation.rb +140 -0
data/test/rbbt/document/test_corpus.rb +33 -0
data/test/rbbt/ner/test_finder.rb +3 -3
data/test/rbbt/ner/test_g_norm_plus.rb +11 -1
data/test/rbbt/ner/test_patterns.rb +9 -9
data/test/rbbt/ner/test_regexpNER.rb +14 -14
data/test/rbbt/ner/test_rnorm.rb +3 -4
data/test/rbbt/ner/test_token_trieNER.rb +1 -0
data/test/rbbt/nlp/genia/test_sentence_splitter.rb +13 -3
data/test/rbbt/nlp/open_nlp/test_sentence_splitter.rb +20 -4
data/test/rbbt/segment/test_annotation.rb +40 -0
data/test/rbbt/segment/test_corpus.rb +36 -0
data/test/rbbt/segment/test_encoding.rb +24 -0
data/test/rbbt/{text/segment → segment}/test_named_entity.rb +12 -9
data/test/rbbt/segment/test_overlaps.rb +69 -0
data/test/rbbt/segment/test_range_index.rb +43 -0
data/test/rbbt/{text/segment → segment}/test_transformed.rb +76 -51
data/test/rbbt/test_document.rb +14 -0
data/test/rbbt/test_segment.rb +187 -0
data/test/test_helper.rb +5 -3
metadata +40 -32
data/lib/rbbt/text/corpus.rb +0 -106
data/lib/rbbt/text/corpus/document.rb +0 -383
data/lib/rbbt/text/corpus/document_repo.rb +0 -68
data/lib/rbbt/text/corpus/sources/pmid.rb +0 -34
data/lib/rbbt/text/document.rb +0 -39
data/lib/rbbt/text/segment.rb +0 -363
data/lib/rbbt/text/segment/docid.rb +0 -46
data/lib/rbbt/text/segment/relationship.rb +0 -24
data/lib/rbbt/text/segment/token.rb +0 -49
data/test/rbbt/text/corpus/sources/test_pmid.rb +0 -33
data/test/rbbt/text/corpus/test_document.rb +0 -82
data/test/rbbt/text/segment/test_relationship.rb +0 -0
data/test/rbbt/text/segment/test_segmented.rb +0 -23
data/test/rbbt/text/test_corpus.rb +0 -34
data/test/rbbt/text/test_document.rb +0 -58
data/test/rbbt/text/test_segment.rb +0 -100

data/lib/rbbt/text/corpus/document.rb DELETED

@@ -1,383 +0,0 @@
-require 'rbbt/text/segment'
-require 'rbbt/text/segment/segmented'
-require 'rbbt/text/segment/docid'
-require 'rbbt/tsv'
-require 'rbbt/resource/path'
-require 'rbbt/persist/tsv'
-require 'rbbt/util/misc'
-require 'rbbt/text/document'
-require 'json'
-class Corpus
-  class Document
-    class MultipleEntity < Exception; end
-    attr_accessor :text, :docid, :namespace, :id, :type, :hash, :segments, :segment_indices, :persist_dir, :global_persistence, :corpus
-    attr_accessor :multiple_result
-    def initialize(persist_dir = nil, docid = nil, text = nil, global_persistence = nil, corpus = nil)
-      @segments = {}
-      @segment_indices = {}
-      @corpus = corpus
-      if not persist_dir.nil?
-        @persist_dir = persist_dir
-        @persist_dir = Path.setup(@persist_dir) if not Path == @persist_dir
-      end
-      @global_persistence = global_persistence
-      if not docid.nil?
-        @docid = docid
-        update_docid
-      end
-      @text = text unless text.nil?
-    end
-    def update_docid
-      @namespace, @id, @type, @hash = docid.split(":", -1)
-    end
-    def docid=(docid)
-      @docid = docid
-      update_docid
-    end
-    def self.define(entity, &block)
-      send :define_method, "produce_#{entity}" do
-        segments = self.instance_exec &block
-        segments.each{|s| s.docid = docid }
-      end
-      self.class_eval <<-EOC, __FILE__, __LINE__ + 1
-        def load_#{entity}(raw = false)
-          return if segments.include? "#{ entity }"
-          if self.respond_to?("load_with_persistence_#{entity}") and not @persist_dir.nil?
-            entities = load_with_persistence_#{entity}(raw)
-          else
-            entities = produce_#{entity}
-          end
-          segments["#{ entity }"] = entities
-        end
-        def #{entity}(raw = false)
-          begin
-            entities = segments["#{ entity }"]
-            if entities.nil?
-              load_#{entity}(raw)
-              entities = segments["#{ entity }"]
-            end
-          end
-          entities
-        end
-        def #{entity}_at(pos, persist = false)
-          segment_index("#{ entity }", persist ? File.join(@persist_dir, 'ranges') : nil)[pos]
-        end
-      EOC
-    end
-    def self.define_multiple(entity, &block)
-      send :define_method, "produce_#{entity}" do
-        if self.multiple_result && self.multiple_result[entity]
-          segments = self.multiple_result[entity]
-          return segments.each{|s| s.docid = docid }
-        end
-        raise MultipleEntity, "Entity #{entity} runs with multiple documents, please prepare beforehand with prepare_multiple: #{self.docid}"
-      end
-      name = "multiple_produce_#{entity}"
-      class << self
-        self
-      end.send :define_method, name, &block
-      self.class_eval <<-EOC, __FILE__, __LINE__ + 1
-        def load_#{entity}(raw = false)
-          return if segments.include? "#{ entity }"
-          if self.respond_to?("load_with_persistence_#{entity}") and not @persist_dir.nil?
-            entities = load_with_persistence_#{entity}(raw)
-          else
-            entities = produce_#{entity}
-          end
-          segments["#{ entity }"] = entities
-        end
-        def #{entity}(raw = false)
-          begin
-            entities = segments["#{ entity }"]
-            if entities.nil?
-              load_#{entity}(raw)
-              entities = segments["#{ entity }"]
-            end
-          end
-          entities
-        end
-        def #{entity}_at(pos, persist = false)
-          segment_index("#{ entity }", persist ? File.join(@persist_dir, 'ranges') : nil)[pos]
-        end
-      EOC
-    end
-    def self.prepare_multiple(docs, entity)
-      missing = []
-      docs.each do |doc|
-        begin
-          doc.send(entity)
-        rescue MultipleEntity
-          missing << doc
-        end
-      end
-      res = self.send("multiple_produce_#{entity.to_s}", missing) if missing.any?
-      case res
-      when Array
-        res.each_with_index do |res,i|
-          missing[i].multiple_result ||= {}
-          missing[i].multiple_result[entity] = res
-        end
-      when Hash
-        res.each do |document,res|
-          case document
-          when Corpus::Document
-            document.multiple_result[entity] = res
-          when String
-            document = missing.select{|d| d.docid == document}.first
-            document.multiple_result[entity] = res
-          end
-        end
-      end
-      missing.each{|doc|
-        doc.send entity
-      }
-    end
-    #{{{ PERSISTENCE
-    TSV_REPOS = {}
-    FIELDS_FOR_ENTITY_PERSISTENCE = {}
-    def self.persist(entity, fields = nil)
-      if not fields.nil?
-        fields = [fields] if not Array === fields
-        fields = fields.collect{|f| f.to_s}
-        FIELDS_FOR_ENTITY_PERSISTENCE[entity.to_s] = fields
-      end
-      self.class_eval <<-EOC, __FILE__, __LINE__
-        def load_with_persistence_#{entity}(raw = false)
-          fields = FIELDS_FOR_ENTITY_PERSISTENCE["#{ entity }"]
-          tsv_file = File.join(@persist_dir.find, "#{ entity }")
-          return nil if raw == :check and File.exists? tsv_file
-          annotations = Persist.persist("Entity[#{ entity }]", :tsv, :file => tsv_file) do
-            segments = produce_#{entity}
-            tsv = Segment.tsv(segments, fields)
-          end
-          return annotations if raw
-          annotations.unnamed = true
-          annotations.collect{|id, annotation|
-            Segment.load_tsv_values(text, annotation, annotations.fields)
-          }
-        end
-            EOC
-    end
-    def self.persist_in_tsv(entity, tsv = nil, fields = nil)
-      tsv = TSV.setup(Persist.open_tokyocabinet(tsv, false, :list), :key => "ID", :fields => ["Start", "End", "JSON", "Document ID", "Entity Type"]).tap{|t| t.unnamed = true, t.close} if Path === tsv
-      if ! tsv.nil? && ! tsv.respond_to?(:keys)
-        fields = tsv
-        tsv = nil
-      end
-      TSV_REPOS[entity.to_s] = tsv
-      if ! fields.nil?
-        fields = [fields] if not Array === fields
-        fields = fields.collect{|f| f.to_s}
-        FIELDS_FOR_ENTITY_PERSISTENCE[entity.to_s] = fields unless fields.nil?
-      end
-      self.class_eval <<-EOC, __FILE__, __LINE__ + 1
-        def load_with_persistence_#{entity}(raw = false)
-          repo = TSV_REPOS["#{ entity }"]
-          if repo.nil?
-            raise "No persistence file or persistence dir for persist_in_tsv" if persist_dir.nil?
-            repo = Persist.open_tokyocabinet(persist_dir.annotations_by_type.find, true, :marshal_tsv)
-          end
-          fields = FIELDS_FOR_ENTITY_PERSISTENCE["#{ entity }"]
-          begin
-            if ! repo.include?("#{ entity }")
-              segments = produce_#{entity}
-              repo.write_and_read do
-                repo["#{entity}"] = Segment.tsv(segments, fields) if segments.any?
-              end
-            else
-              if raw == :check
-                repo.close
-                return nil
-              end
-            end
-            annotations = repo["#{entity}"]
-            repo.close
-            return annotations if raw
-            annotations.unnamed = true
-            annotations.collect{|id, annotation|
-              Segment.load_tsv_values(text, annotation, annotations.fields)
-            }
-          ensure
-            repo.close
-          end
-        end
-      EOC
-    end
-    def self.persist_in_global_tsv(entity, tsv = nil, fields = nil, doc_field = nil, entity_field = nil)
-      tsv = TSV.setup(Persist.open_tokyocabinet(tsv, false, :list), :key => "ID", :fields => (fields || ["Start", "End", "JSON", "Document ID", "Entity Type"])).tap{|t| t.unnamed = true, t.close} if Path === tsv
-      doc_field ||= "Document ID"
-      entity_field ||= "Entity Type"
-      TSV_REPOS[entity.to_s] = tsv
-      if not fields.nil?
-        fields = [fields] if not Array === fields
-        fields = fields.collect{|f| f.to_s}
-      else
-        fields = nil
-      end
-      FIELDS_FOR_ENTITY_PERSISTENCE[entity.to_s] = fields
-      self.class_eval <<-EOC, __FILE__, __LINE__ + 1
-        def load_with_persistence_#{entity}(raw = false)
-          fields = FIELDS_FOR_ENTITY_PERSISTENCE["#{ entity }"]
-          data = TSV_REPOS["#{ entity }"] || @global_persistence
-          begin
-            if data.respond_to? :persistence_path and String === data.persistence_path
-              data.filter(data.persistence_path + '.filters')
-            end
-            keys = data.read_and_close do
-              fields = data.fields if fields.nil? and data.respond_to? :fields
-              data.add_filter("field:#{ doc_field }", @docid) if fields.include?("#{doc_field}")
-              data.add_filter("field:#{ entity_field }", "#{ entity }") if fields.include?("#{entity_field}")
-              keys = data.keys
-              data.pop_filter if fields.include?("#{entity_field}")
-              data.pop_filter if fields.include?("#{doc_field}")
-              keys
-            end
-            if keys.empty?
-              segments = produce_#{entity}
-              segments << Segment.setup("No #{entity} found in document " + @docid.to_s, -1) if segments.empty?
-              tsv = Segment.tsv(segments, *fields.reject{|f| ["#{doc_field}", "#{entity_field}", "Start", "End", "annotation_types"].include? f})
-              tsv.add_field "#{ doc_field }" do
-                @docid
-              end
-              tsv.add_field "#{ entity_field }" do
-                "#{ entity }"
-              end
-              keys = data.write_and_close do
-                data.add_filter("field:#{ doc_field }", @docid) if fields.include?("#{doc_field}")
-                data.add_filter("field:#{ entity_field }", "#{ entity }") if fields.include?("#{entity_field}")
-                keys = tsv.collect do |key, value|
-                  data[key] = value
-                  key
-                end
-                data.pop_filter if fields.include?("#{entity_field}")
-                data.pop_filter if fields.include?("#{doc_field}")
-                keys
-              end
-            else
-              return nil if raw == :check
-            end
-            return data.values if raw
-            start_pos = data.identify_field "Start"
-            data.read_and_close do
-              data.chunked_values_at(keys).collect{|annotation|
-                  begin
-                pos = annotation[start_pos]
-                Segment.load_tsv_values(text, annotation, fields) unless [-1, "-1", [-1], ["-1"]].include?(pos)
-                  rescue
-                    Log.exception $!
-                    iif keys
-                    iif [text, annotation]
-                  end
-              }.compact
-            end
-          ensure
-            data.close
-          end
-        end
-        EOC
-    end
-    def segment_index(name, persist_dir = nil)
-      @segment_indices[name] ||= Segment.index(self.send(name), persist_dir.nil? ? :memory : File.join(persist_dir, name + '.range'))
-    end
-    def load_into(segment, *annotations)
-      options = annotations.pop if Hash === annotations.last
-      options ||= {}
-      if options[:persist] and not @persist_dir.nil?
-        persist_dir = File.join(@persist_dir, 'ranges')
-      else
-        persist_dir = nil
-      end
-      Segmented.setup(segment, {})
-      annotations.collect do |name|
-        name = name.to_s
-        index = segment_index(name, persist_dir)
-        annotations = index[segment.range]
-        segment.segments[name] ||= {}
-        segment.segments[name] = annotations
-        class << segment
-          self
-        end.class_eval "def #{ name }; @segments['#{ name }']; end", __FILE__, __LINE__ + 1
-      end
-      segment
-    end
-    def entity
-      Object::Document.setup(self.docid, corpus)
-    end
-  end
-end

data/lib/rbbt/text/corpus/document_repo.rb DELETED

@@ -1,68 +0,0 @@
-require 'rbbt/util/misc'
-require 'tokyocabinet'
-class Corpus
-  module DocumentRepo
-    class OpenError < StandardError;end
-    class KeyFormatError < StandardError;end
-    TC_CONNECTIONS = {}
-    def self.open_tokyocabinet(path, write)
-      database = Persist.open_tokyocabinet(path, write, :single, TokyoCabinet::BDB)
-      database.extend DocumentRepo
-      database
-    end
-    def docid2fields(docid)
-      docid.split(":", -1).values_at 0,1,2,3
-    end
-    def fields2docid(namespace = nil, id = nil, type = nil, hash = nil)
-      [namespace, id, type, hash] * ":"
-    end
-    def docid(docid)
-      get(docid)
-    end
-    def add(text, namespace, id, type, hash)
-      docid = fields2docid(namespace, id, type, hash)
-      return docid if self.include?(docid)
-      write_and_close do
-        self[docid] = text
-      end
-      docid
-    end
-    def find(namespace=nil, id = nil, type = nil, hash = nil)
-      case
-      when namespace.nil?
-        self.keys
-      when id.nil?
-        range_start = [namespace] * ":" + ':'
-        range_end   = [namespace] * ":" + ';'
-        self.range(range_start, true, range_end, false)
-      when (type and hash)
-        [[namespace, id, type, hash] * ":"]
-      when hash
-        [[namespace, id, "", hash] * ":"]
-      when type
-        range_start = [namespace, id, type] * ":" + ':'
-        range_end   = [namespace, id, type] * ":" + ';'
-        self.range(range_start, true, range_end, false)
-      else
-        range_start = [namespace, id] * ":" + ':'
-        range_end   = [namespace, id] * ":" + ';'
-        self.range(range_start, true, range_end, false)
-      end
-    end
-    def find_docid(docid)
-      find(*docid2fields(docid))
-    end
-  end
-end