RubyGems - treat - Versions diffs - 0.1.1 - Mend

treat 0.1.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (147) hide show

data/INSTALL +0 -0
data/LICENSE +28 -0
data/README +0 -0
data/TODO +67 -0
data/bin/INFO +1 -0
data/examples/benchmark.rb +81 -0
data/examples/keywords.rb +60 -0
data/examples/texts/bugged_out.txt +26 -0
data/examples/texts/half_cocked_basel.txt +16 -0
data/examples/texts/hedge_funds.txt +24 -0
data/examples/texts/hose_and_dry.txt +19 -0
data/examples/texts/hungarys_troubles.txt +46 -0
data/examples/texts/indias_slowdown.txt +15 -0
data/examples/texts/merkozy_rides_again.txt +24 -0
data/examples/texts/prada_is_not_walmart.txt +9 -0
data/examples/texts/republican_nomination.txt +26 -0
data/examples/texts/to_infinity_and_beyond.txt +15 -0
data/lib/treat.rb +91 -0
data/lib/treat/buildable.rb +115 -0
data/lib/treat/categories.rb +29 -0
data/lib/treat/category.rb +28 -0
data/lib/treat/delegatable.rb +90 -0
data/lib/treat/detectors.rb +28 -0
data/lib/treat/detectors/encoding/native.rb +12 -0
data/lib/treat/detectors/encoding/r_chardet19.rb +24 -0
data/lib/treat/detectors/format/file.rb +36 -0
data/lib/treat/detectors/language/language_detector.rb +19 -0
data/lib/treat/detectors/language/what_language.rb +29 -0
data/lib/treat/entities.rb +52 -0
data/lib/treat/entities/collection.rb +19 -0
data/lib/treat/entities/constituents.rb +15 -0
data/lib/treat/entities/document.rb +11 -0
data/lib/treat/entities/entity.rb +242 -0
data/lib/treat/entities/sentence.rb +8 -0
data/lib/treat/entities/text.rb +7 -0
data/lib/treat/entities/tokens.rb +37 -0
data/lib/treat/entities/zones.rb +17 -0
data/lib/treat/exception.rb +5 -0
data/lib/treat/extractors.rb +41 -0
data/lib/treat/extractors/key_sentences/topics_frequency.rb +49 -0
data/lib/treat/extractors/named_entity/abner.rb +20 -0
data/lib/treat/extractors/named_entity/stanford.rb +174 -0
data/lib/treat/extractors/statistics/frequency.rb +22 -0
data/lib/treat/extractors/statistics/frequency_of.rb +17 -0
data/lib/treat/extractors/statistics/position_in.rb +13 -0
data/lib/treat/extractors/statistics/transition_matrix.rb +105 -0
data/lib/treat/extractors/statistics/transition_probability.rb +53 -0
data/lib/treat/extractors/time/chronic.rb +12 -0
data/lib/treat/extractors/time/native.rb +12 -0
data/lib/treat/extractors/time/nickel.rb +45 -0
data/lib/treat/extractors/topic_words/lda.rb +71 -0
data/lib/treat/extractors/topic_words/lda/data.dat +46 -0
data/lib/treat/extractors/topic_words/lda/wiki.yml +121 -0
data/lib/treat/extractors/topics/reuters.rb +91 -0
data/lib/treat/extractors/topics/reuters/industry.xml +2717 -0
data/lib/treat/extractors/topics/reuters/region.xml +13585 -0
data/lib/treat/extractors/topics/reuters/topics.xml +17977 -0
data/lib/treat/feature.rb +53 -0
data/lib/treat/formatters.rb +44 -0
data/lib/treat/formatters/cleaners/html.rb +17 -0
data/lib/treat/formatters/readers/autoselect.rb +35 -0
data/lib/treat/formatters/readers/gocr.rb +24 -0
data/lib/treat/formatters/readers/html.rb +13 -0
data/lib/treat/formatters/readers/ocropus.rb +31 -0
data/lib/treat/formatters/readers/pdf.rb +17 -0
data/lib/treat/formatters/readers/txt.rb +15 -0
data/lib/treat/formatters/serializers/xml.rb +48 -0
data/lib/treat/formatters/serializers/yaml.rb +15 -0
data/lib/treat/formatters/serializers/yaml/helper.rb +96 -0
data/lib/treat/formatters/unserializers/autoselect.rb +19 -0
data/lib/treat/formatters/unserializers/xml.rb +79 -0
data/lib/treat/formatters/unserializers/yaml.rb +15 -0
data/lib/treat/formatters/visualizers/dot.rb +73 -0
data/lib/treat/formatters/visualizers/html.rb +12 -0
data/lib/treat/formatters/visualizers/inspect.rb +16 -0
data/lib/treat/formatters/visualizers/short_value.rb +14 -0
data/lib/treat/formatters/visualizers/standoff.rb +41 -0
data/lib/treat/formatters/visualizers/tree.rb +28 -0
data/lib/treat/formatters/visualizers/txt.rb +31 -0
data/lib/treat/group.rb +96 -0
data/lib/treat/inflectors.rb +50 -0
data/lib/treat/inflectors/cardinal_words/linguistics.rb +45 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +30 -0
data/lib/treat/inflectors/declensors/en.rb +18 -0
data/lib/treat/inflectors/declensors/linguistics.rb +30 -0
data/lib/treat/inflectors/lemmatizers/e_lemma.rb +12 -0
data/lib/treat/inflectors/lemmatizers/e_lemma/Makefile +213 -0
data/lib/treat/inflectors/lemmatizers/e_lemma/elemma.c +68 -0
data/lib/treat/inflectors/lemmatizers/e_lemma/extconf.rb +6 -0
data/lib/treat/inflectors/ordinal_words/linguistics.rb +21 -0
data/lib/treat/inflectors/stemmers/porter.rb +158 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +23 -0
data/lib/treat/inflectors/stemmers/uea.rb +30 -0
data/lib/treat/lexicalizers.rb +49 -0
data/lib/treat/lexicalizers/category/from_tag.rb +30 -0
data/lib/treat/lexicalizers/linkages/naive.rb +63 -0
data/lib/treat/lexicalizers/synsets/rita_wn.rb +23 -0
data/lib/treat/lexicalizers/synsets/wordnet.rb +72 -0
data/lib/treat/lexicalizers/tag/brill.rb +101 -0
data/lib/treat/lexicalizers/tag/lingua.rb +114 -0
data/lib/treat/lexicalizers/tag/stanford.rb +86 -0
data/lib/treat/processors.rb +45 -0
data/lib/treat/processors/chunkers/txt.rb +27 -0
data/lib/treat/processors/parsers/enju.rb +214 -0
data/lib/treat/processors/parsers/stanford.rb +60 -0
data/lib/treat/processors/segmenters/punkt.rb +48 -0
data/lib/treat/processors/segmenters/stanford.rb +45 -0
data/lib/treat/processors/segmenters/tactful.rb +34 -0
data/lib/treat/processors/tokenizers/macintyre.rb +76 -0
data/lib/treat/processors/tokenizers/multilingual.rb +31 -0
data/lib/treat/processors/tokenizers/perl.rb +96 -0
data/lib/treat/processors/tokenizers/punkt.rb +42 -0
data/lib/treat/processors/tokenizers/stanford.rb +33 -0
data/lib/treat/processors/tokenizers/tactful.rb +59 -0
data/lib/treat/proxies.rb +66 -0
data/lib/treat/registrable.rb +26 -0
data/lib/treat/resources.rb +10 -0
data/lib/treat/resources/categories.rb +18 -0
data/lib/treat/resources/delegates.rb +96 -0
data/lib/treat/resources/dependencies.rb +0 -0
data/lib/treat/resources/edges.rb +8 -0
data/lib/treat/resources/formats.rb +23 -0
data/lib/treat/resources/languages.rb +86 -0
data/lib/treat/resources/languages.txt +504 -0
data/lib/treat/resources/tags.rb +393 -0
data/lib/treat/sugar.rb +43 -0
data/lib/treat/tree.rb +174 -0
data/lib/treat/utilities.rb +127 -0
data/lib/treat/visitable.rb +27 -0
data/test/profile.rb +2 -0
data/test/tc_detectors.rb +27 -0
data/test/tc_entity.rb +105 -0
data/test/tc_extractors.rb +48 -0
data/test/tc_formatters.rb +46 -0
data/test/tc_inflectors.rb +39 -0
data/test/tc_lexicalizers.rb +39 -0
data/test/tc_processors.rb +36 -0
data/test/tc_resources.rb +27 -0
data/test/tc_treat.rb +64 -0
data/test/tc_tree.rb +60 -0
data/test/tests.rb +19 -0
data/test/texts.rb +20 -0
data/test/texts/english/long.html +24 -0
data/test/texts/english/long.txt +22 -0
data/test/texts/english/medium.txt +5 -0
data/test/texts/english/short.txt +3 -0
metadata +412 -0

data/lib/treat/feature.rb ADDED

@@ -0,0 +1,53 @@
+module Treat
+  class Feature
+    # Undefine all methods, except those that
+    # create any problems (e.g. with serializing).
+    instance_methods.each do |meth|
+      undef_method(meth) if meth !~
+      /^(__|object_id|class|instance_variables|instance_variable_get)/
+    end
+    # Allows to read the probability hash,
+    # the possible values of the feature,
+    # and the best value (with highest P).
+    attr_reader :p_hash, :values, :best
+    # Initialize the feature with a hash
+    # of features => probabilities.
+    def initialize(p_hash)
+      @p_hash = p_hash
+      normalize
+      max = @p_hash.values.max
+      @best = @p_hash.select { |i,j| j == max }.keys.sample
+      @values = @p_hash.keys
+      type = @values[0].class
+      if type == ::Symbol || type == ::NilClass
+        @object = @best
+      else
+        @object = type.new(@best)
+      end
+    end
+    # Normalize the probabilities, so that
+    # the sum of all probabilities is one,
+    # except if the sum of all probabilities
+    # is already below one (in which case we
+    # assume that the feature is intentionally
+    # incomplete).
+    def normalize
+      sum = @p_hash.inject(0.0) { |r, e| r + e[1] }
+      return if sum <= 1.0
+      p = {}
+      @p_hash.each { |k,v| p[k] =  v.to_f/sum.to_f }
+      @p_hash = p
+    end
+    # Find the probability of value x.
+    def probability(x)
+      @p_hash[x] ? @p_hash[x] : 0
+    end
+    # Alias for probability: p(x).
+    alias :p :probability
+    # Catch all other methods than the ones
+    # explicitly defined.
+    def method_missing(sym, *args, &block)
+      @object.send(sym, *args, &block)
+    end
+  end
+end

data/lib/treat/formatters.rb ADDED

@@ -0,0 +1,44 @@
+module Treat
+  # Formatters handle conversion of Entities to and from
+  # external file formats.
+  module Formatters
+    # Readers read a document and create the top-level entity
+    # corresponding to the content of the document.
+    module Readers
+      extend Group
+      self.type = :transformer
+      self.targets = [:collection, :document]
+      self.default = :autoselect
+    end
+    # Unserializers recreate entities from a serialized format.
+    module Unserializers
+      extend Group
+      self.type = :transformer
+      self.targets = [:collection, :document]
+      self.default = :autoselect
+    end
+    # Visualizers transform entities into a visualizable format.
+    module Visualizers
+      extend Group
+      self.type = :computer
+      self.targets = [:entity]
+      self.default = :tree
+    end
+    # Serializers transform entities into a storable format.
+    module Serializers
+      extend Group
+      self.type = :computer
+      self.targets = [:entity]
+      self.default = :yaml
+    end
+    # Serializers transform entities into a storable format.
+    module Cleaners
+      extend Group
+      self.type = :annotator
+      self.targets = [:document]
+      self.default = :html
+    end
+    extend Treat::Category
+  end
+end

data/lib/treat/formatters/cleaners/html.rb ADDED

@@ -0,0 +1,17 @@
+module Treat
+  module Formatters
+    module Cleaners
+      class HTML
+        silently { require 'hpricot' }
+        def self.clean(document, options = {})
+          document.each_text do |text|
+            text.set :html_value, text.value
+            v = Hpricot(text.value).inner_text
+            text.value = v
+          end
+          document
+        end
+      end
+    end
+  end
+end

data/lib/treat/formatters/readers/autoselect.rb ADDED

@@ -0,0 +1,35 @@
+module Treat
+  module Formatters
+    module Readers
+      # This class isn't a wrapper for anything.
+      # It simply delegates the reading task to
+      # the appropriate reader based on the file
+      # extension of the supplied document.
+      class Autoselect
+        # A list of image extensions that should be routed
+        # to the Ocropus OCR engine.
+        ImageExtensions = ['gif', 'jpg', 'jpeg', 'png']
+        # Select the appropriate reader based on the format
+        # of the filename in document.
+        #
+        # Options:
+        # :ocr => :ocropus | :gocr (the OCR engine to use).
+        def self.read(document, options = {:ocr => :ocropus})
+          ext = document.file.split('.')[-1]
+          if ImageExtensions.include?(ext)
+            reader = 'ocropus'
+          else
+            reader = ext
+          end
+          begin
+            r = Treat::Formatters::Readers.const_get(cc(reader))
+          rescue NameError
+            raise Treat::Exception,
+            "Cannot find a default reader for format: '#{ext}'."
+          end
+          document = r.read(document, options)
+        end
+      end
+    end
+  end
+end

data/lib/treat/formatters/readers/gocr.rb ADDED

@@ -0,0 +1,24 @@
+module Treat
+  module Formatters
+    module Readers
+      # A wrapper class for the GOCR engine.
+      #
+      # "GOCR is an OCR (Optical Character Recognition)
+      # program, developed under the GNU Public License.
+      # It converts scanned images of text back to text files."
+      #
+      # Project site: http://jocr.sourceforge.net
+      class GOCR
+        # Read a file using the GOCR reader.
+        def self.read(document, options = {})
+          create_temp_file(:pgm) do |tmp|
+            `convert #{document.file} #{tmp}`
+            f = `gocr #{tmp}`.strip
+            document << Treat::Entities::Entity.from_string(f)
+          end
+          document
+        end
+      end
+    end
+  end
+end

data/lib/treat/formatters/readers/html.rb ADDED

@@ -0,0 +1,13 @@
+module Treat
+  module Formatters
+    module Readers
+      class HTML
+        def self.read(document, options = {})
+          f = File.read(document.file)
+          document << Treat::Entities::Entity.from_string(f)
+          document.clean(:html)
+        end
+      end
+    end
+  end
+end

data/lib/treat/formatters/readers/ocropus.rb ADDED

@@ -0,0 +1,31 @@
+module Treat
+  module Formatters
+    module Readers
+      # This class is a wrapper for the Google Ocropus
+      # optical character recognition (OCR) engine.
+      #
+      # "OCRopus(tm) is a state-of-the-art document
+      # analysis and OCR system, featuring pluggable
+      # layout analysis, pluggable character recognition,
+      # statistical natural language modeling, and multi-
+      # lingual capabilities."
+      #
+      # Original paper:
+      # Breuel, Thomas M. The Ocropus Open Source OCR System.
+      # DFKI and U. Kaiserslautern, Germany.
+      class Ocropus
+        #  Read a file using the Google Ocropus reader.
+        def self.read(document, options = {})
+          create_temp_file(:txt) do |tmp|
+            capture(:stderr) do
+              `ocropus page #{document.file} > #{tmp} -STDIO 2>/dev/null`
+            end
+            f = File.read(tmp)
+            document << Treat::Entities::Entity.from_string(f)
+          end
+          document
+        end
+      end
+    end
+  end
+end

data/lib/treat/formatters/readers/pdf.rb ADDED

@@ -0,0 +1,17 @@
+module Treat
+  module Formatters
+    module Readers
+      class PDF
+        require 'fileutils'
+        # Read a file using the Poppler pdf2text utility.
+        def self.read(document, options = {})
+          create_temp_file(:txt) do |tmp|
+            `pdftotext #{document.file} #{tmp} `.strip
+            document << Treat::Entities::Entity.from_string(File.read(tmp))
+          end
+          document
+        end
+      end
+    end
+  end
+end

data/lib/treat/formatters/readers/txt.rb ADDED

@@ -0,0 +1,15 @@
+module Treat
+  module Formatters
+    module Readers
+      # This class simply reads a plain text file.
+      class Txt
+        # Build an entity from a string in plain text format.
+        def self.read(document, options = {})
+          f = File.read(document.file)
+          document << Treat::Entities::Entity.from_string(f)
+          document
+        end
+      end
+    end
+  end
+end

data/lib/treat/formatters/serializers/xml.rb ADDED

@@ -0,0 +1,48 @@
+module Treat
+  module Formatters
+    module Serializers
+      # This class converts an entity to XML format.
+      class XML
+        # Reauire the Nokogiri XML parser.
+        require 'nokogiri'
+        # Serialize an entity tree in XML format.
+        def self.serialize(entity, options = {})
+          options = {:indent => 0} if options[:indent].nil?
+          if options[:indent] == 0
+            string = '<?xml version="1.0" encoding="UTF-8" standalone="no" ?>'
+          else
+            string = ''
+          end
+          spaces = ''
+          options[:indent].times { spaces << ' ' }
+          attributes = ''
+          if !entity.features.nil? && entity.features.size != 0
+            attributes = ' '
+            entity.features.each_pair do |feature, value|
+              if value.is_a? Entities::Entity
+                attributes << "#{feature}='#{value.id}' "
+              else
+                attributes << "#{feature}='#{value}' "
+              end
+            end
+            entity.edges.each_pair do |id,edge|
+              attributes << "#{edge}='#{id}' "
+            end
+          end
+          tag = entity.class.to_s.split('::')[-1].downcase
+          string += "\n#{spaces}<#{tag}#{attributes[0..-2]}>"
+          if entity.has_children?
+            options[:indent] += 1
+            entity.children.each do |child|
+              string = string + serialize(child, options)
+            end
+            options[:indent] -= 1
+          else
+            string = string + "\n#{spaces}#{entity.value}"
+          end
+          string + "\n#{spaces}</#{tag}>"
+        end
+      end
+    end
+  end
+end

data/lib/treat/formatters/serializers/yaml.rb ADDED

@@ -0,0 +1,15 @@
+module Treat
+  module Formatters
+    module Serializers
+      # Require the Psych YAML serializer.
+      require 'psych'
+      # This class serializes entities in YAML format.
+      class YAML
+        # Serialize an entity in YAML format.
+        def self.serialize(entity, options = {})
+          ::Psych.dump(entity)
+        end
+      end
+    end
+  end
+end

data/lib/treat/formatters/serializers/yaml/helper.rb ADDED

@@ -0,0 +1,96 @@
+require 'yaml'
+require 'set'
+class Class
+  def persist
+    @persist = [] if !@persist
+    @persist
+  end
+  def persist= p
+    @persist = p if p.kind_of?(Array)
+  end
+  def persist_with_parent
+    p = []
+    klass = self;
+    while klass
+      p.concat(klass.persist)
+      klass = klass.superclass
+    end
+    p.uniq
+  end
+end
+class Object
+  def self.persistent *var
+    for i in (0..var.length-1)
+      var[i] = var[i].to_s
+    end
+    self.persist.concat(var)
+    self.persist.uniq!
+  end
+  alias_method :old_to_yaml, :to_yaml
+  def to_yaml ( opts = {} )
+    p = self.class.persist_with_parent
+    if p && p.size > 0
+      yaml_emit opts do |map|
+        p.each do |m|
+          map.add( m, instance_variable_get( '@' + m ) )
+        end
+      end
+    else
+      old_to_yaml opts
+    end
+  end
+private
+  def yaml_emit opts
+    YAML::quick_emit( object_id, opts ) do |out|
+      out.map( taguri, to_yaml_style ) do |map|
+        yield map
+      end
+    end
+  end
+end
+module RHNH
+  module EnumerablePostDeserializeHelper
+    def post_deserialize
+      self.each do |e|
+        YAML.call_post_deserialize(e) if e
+      end
+    end
+  end
+end
+class Array
+  include RHNH::EnumerablePostDeserializeHelper
+end
+class Hash
+  include RHNH::EnumerablePostDeserializeHelper
+end
+module YAML
+  def YAML.call_post_deserialize obj, object_map = ::Set.new
+    if !object_map.include?(obj.object_id)
+      object_map.add(obj.object_id)
+      obj.instance_variables.each do |v|
+        call_post_deserialize obj.instance_variable_get(v), object_map
+      end
+      obj.post_deserialize if obj.respond_to?('post_deserialize')
+    end
+  end
+  def YAML.load( io )
+		yp = parser.load( io )
+		call_post_deserialize yp
+		yp
+	end
+end

data/lib/treat/formatters/unserializers/autoselect.rb ADDED

@@ -0,0 +1,19 @@
+module Treat
+  module Formatters
+    module Unserializers
+      class Autoselect
+        def self.unserialize(document, options = {})
+          ext = document.file.split('.')[-1]
+          if ext == 'yaml' || ext == 'yml'
+            document.unserialize(:yaml)
+          elsif ext == 'xml'
+            document.unserialize(:xml)
+          else
+            raise "File #{document.file} was not recognized"+
+            "as a supported serialized format."
+          end
+        end
+      end
+    end
+  end
+end

data/lib/treat/formatters/unserializers/xml.rb ADDED

@@ -0,0 +1,79 @@
+module Treat
+  module Formatters
+    module Unserializers
+      class XML
+        require 'nokogiri'
+        def self.unserialize(document, options = {})
+          # Read in the XML file.
+          xml = File.read(document.file)
+          xml_reader = Nokogiri::XML::Reader.from_memory(xml)
+          current_element = nil
+          previous_depth = 0
+          # Read the XML file entity by entity.
+          while xml_reader.read
+            # The depth in the XML tree.
+            current_depth = xml_reader.depth
+            # If we are at the end of the children stack, pop up.
+            if previous_depth > current_depth && current_depth != 0
+              current_element = current_element.parent
+            end
+            # If an end element has been reached,
+            # change the depth and pop up on next
+            # iteration.
+            if xml_reader.node_type ==
+              Nokogiri::XML::Reader::TYPE_END_ELEMENT
+              previous_depth = current_depth
+              next
+            end
+            id = nil; value = ''
+            attributes = {}; edges = {}
+            xml_reader.attributes.each_pair do |k,v|
+              if k == 'id'
+                id = v
+              elsif k == 'edges'
+                edges = v
+              elsif k == 'value'
+                value = v
+              else
+                attributes[k.intern] = v
+              end
+            end
+            current_value = ''
+            type = xml_reader.name.intern
+            if Treat::Entities.list.include?(type)
+              if !current_element
+                current_element = self.revive(type, current_value, id)
+              else
+                current_element = current_element <<
+                self.revive(type, current_value, id)
+              end
+              current_element.features = attributes
+              current_element.features = attributes
+              current_element.edges = edges
+            else
+              current_value = xml_reader.value.strip
+              if current_value && current_value != ''
+                current_element.value = current_value
+              end
+            end
+            previous_depth = current_depth
+          end
+          document << current_element
+          document
+        end
+        def self.revive(type, value, id)
+          klass = Treat::Entities.const_get(cc(type))
+          klass.new(value, id)
+        end
+      end
+    end
+  end
+end