RubyGems - treat - Versions diffs - 0.2.5 → 1.0.0 - Mend

treat 0.2.5 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

data/LICENSE +3 -3
data/README.md +33 -0
data/files/INFO +1 -0
data/lib/treat.rb +40 -105
data/lib/treat/ai.rb +12 -0
data/lib/treat/ai/classifiers/id3.rb +27 -0
data/lib/treat/categories.rb +82 -35
data/lib/treat/categorizable.rb +44 -0
data/lib/treat/classification.rb +61 -0
data/lib/treat/configurable.rb +115 -0
data/lib/treat/data_set.rb +42 -0
data/lib/treat/dependencies.rb +24 -0
data/lib/treat/downloader.rb +87 -0
data/lib/treat/entities.rb +68 -66
data/lib/treat/entities/abilities.rb +10 -0
data/lib/treat/entities/abilities/buildable.rb +327 -0
data/lib/treat/entities/abilities/checkable.rb +31 -0
data/lib/treat/entities/abilities/copyable.rb +45 -0
data/lib/treat/entities/abilities/countable.rb +51 -0
data/lib/treat/entities/abilities/debuggable.rb +83 -0
data/lib/treat/entities/abilities/delegatable.rb +123 -0
data/lib/treat/entities/abilities/doable.rb +62 -0
data/lib/treat/entities/abilities/exportable.rb +11 -0
data/lib/treat/entities/abilities/iterable.rb +115 -0
data/lib/treat/entities/abilities/magical.rb +83 -0
data/lib/treat/entities/abilities/registrable.rb +74 -0
data/lib/treat/entities/abilities/stringable.rb +91 -0
data/lib/treat/entities/entities.rb +104 -0
data/lib/treat/entities/entity.rb +122 -245
data/lib/treat/exception.rb +4 -4
data/lib/treat/extractors.rb +77 -80
data/lib/treat/extractors/keywords/tf_idf.rb +56 -22
data/lib/treat/extractors/language/what_language.rb +50 -45
data/lib/treat/extractors/name_tag/stanford.rb +55 -0
data/lib/treat/extractors/tf_idf/native.rb +87 -0
data/lib/treat/extractors/time/chronic.rb +55 -0
data/lib/treat/extractors/time/nickel.rb +86 -62
data/lib/treat/extractors/time/ruby.rb +53 -0
data/lib/treat/extractors/topic_words/lda.rb +67 -58
data/lib/treat/extractors/topics/reuters.rb +100 -87
data/lib/treat/formatters.rb +39 -35
data/lib/treat/formatters/readers/abw.rb +49 -29
data/lib/treat/formatters/readers/autoselect.rb +37 -33
data/lib/treat/formatters/readers/doc.rb +19 -13
data/lib/treat/formatters/readers/html.rb +52 -30
data/lib/treat/formatters/readers/image.rb +41 -40
data/lib/treat/formatters/readers/odt.rb +59 -45
data/lib/treat/formatters/readers/pdf.rb +28 -25
data/lib/treat/formatters/readers/txt.rb +12 -15
data/lib/treat/formatters/readers/xml.rb +73 -36
data/lib/treat/formatters/serializers/xml.rb +80 -79
data/lib/treat/formatters/serializers/yaml.rb +19 -18
data/lib/treat/formatters/unserializers/autoselect.rb +12 -22
data/lib/treat/formatters/unserializers/xml.rb +94 -99
data/lib/treat/formatters/unserializers/yaml.rb +20 -19
data/lib/treat/formatters/visualizers/dot.rb +132 -132
data/lib/treat/formatters/visualizers/standoff.rb +52 -44
data/lib/treat/formatters/visualizers/tree.rb +26 -29
data/lib/treat/groupable.rb +153 -0
data/lib/treat/helpers/decimal_point_escaper.rb +22 -0
data/lib/treat/inflectors.rb +50 -45
data/lib/treat/inflectors/cardinalizers/linguistics.rb +40 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +55 -0
data/lib/treat/inflectors/declensors/active_support.rb +31 -0
data/lib/treat/inflectors/declensors/english.rb +38 -0
data/lib/treat/inflectors/declensors/english/inflect.rb +288 -0
data/lib/treat/inflectors/declensors/linguistics.rb +49 -0
data/lib/treat/inflectors/ordinalizers/linguistics.rb +17 -0
data/lib/treat/inflectors/stemmers/porter.rb +160 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +24 -0
data/lib/treat/inflectors/stemmers/uea.rb +28 -0
data/lib/treat/installer.rb +308 -0
data/lib/treat/kernel.rb +105 -27
data/lib/treat/languages.rb +122 -88
data/lib/treat/languages/arabic.rb +15 -15
data/lib/treat/languages/chinese.rb +15 -15
data/lib/treat/languages/dutch.rb +15 -15
data/lib/treat/languages/english.rb +61 -62
data/lib/treat/languages/french.rb +19 -19
data/lib/treat/languages/german.rb +20 -20
data/lib/treat/languages/greek.rb +15 -15
data/lib/treat/languages/italian.rb +16 -16
data/lib/treat/languages/polish.rb +15 -15
data/lib/treat/languages/portuguese.rb +15 -15
data/lib/treat/languages/russian.rb +15 -15
data/lib/treat/languages/spanish.rb +16 -16
data/lib/treat/languages/swedish.rb +16 -16
data/lib/treat/lexicalizers.rb +34 -55
data/lib/treat/lexicalizers/categorizers/from_tag.rb +54 -0
data/lib/treat/lexicalizers/sensers/wordnet.rb +57 -0
data/lib/treat/lexicalizers/sensers/wordnet/synset.rb +71 -0
data/lib/treat/lexicalizers/taggers/brill.rb +70 -0
data/lib/treat/lexicalizers/taggers/brill/patch.rb +61 -0
data/lib/treat/lexicalizers/taggers/lingua.rb +90 -0
data/lib/treat/lexicalizers/taggers/stanford.rb +97 -0
data/lib/treat/linguistics.rb +9 -0
data/lib/treat/linguistics/categories.rb +11 -0
data/lib/treat/linguistics/tags.rb +422 -0
data/lib/treat/loaders/linguistics.rb +30 -0
data/lib/treat/loaders/stanford.rb +27 -0
data/lib/treat/object.rb +1 -0
data/lib/treat/processors.rb +37 -44
data/lib/treat/processors/chunkers/autoselect.rb +16 -0
data/lib/treat/processors/chunkers/html.rb +71 -0
data/lib/treat/processors/chunkers/txt.rb +18 -24
data/lib/treat/processors/parsers/enju.rb +253 -208
data/lib/treat/processors/parsers/stanford.rb +130 -131
data/lib/treat/processors/segmenters/punkt.rb +79 -45
data/lib/treat/processors/segmenters/stanford.rb +46 -48
data/lib/treat/processors/segmenters/tactful.rb +43 -36
data/lib/treat/processors/tokenizers/perl.rb +124 -92
data/lib/treat/processors/tokenizers/ptb.rb +81 -0
data/lib/treat/processors/tokenizers/punkt.rb +48 -42
data/lib/treat/processors/tokenizers/stanford.rb +39 -38
data/lib/treat/processors/tokenizers/tactful.rb +64 -55
data/lib/treat/proxies.rb +52 -35
data/lib/treat/retrievers.rb +26 -16
data/lib/treat/retrievers/indexers/ferret.rb +47 -26
data/lib/treat/retrievers/searchers/ferret.rb +69 -50
data/lib/treat/tree.rb +241 -183
data/spec/collection.rb +123 -0
data/spec/document.rb +93 -0
data/spec/entity.rb +408 -0
data/spec/languages.rb +25 -0
data/spec/phrase.rb +146 -0
data/spec/samples/mathematicians/archimedes.abw +34 -0
data/spec/samples/mathematicians/euler.html +21 -0
data/spec/samples/mathematicians/gauss.pdf +0 -0
data/spec/samples/mathematicians/leibniz.txt +13 -0
data/spec/samples/mathematicians/newton.doc +0 -0
data/spec/sandbox.rb +5 -0
data/spec/token.rb +109 -0
data/spec/treat.rb +52 -0
data/spec/tree.rb +117 -0
data/spec/word.rb +110 -0
data/spec/zone.rb +66 -0
data/tmp/INFO +1 -1
metadata +100 -201
data/INSTALL +0 -1
data/README +0 -3
data/TODO +0 -28
data/lib/economist/half_cocked_basel.txt +0 -16
data/lib/economist/hungarys_troubles.txt +0 -46
data/lib/economist/indias_slowdown.txt +0 -15
data/lib/economist/merkozy_rides_again.txt +0 -24
data/lib/economist/prada_is_not_walmart.txt +0 -9
data/lib/economist/to_infinity_and_beyond.txt +0 -15
data/lib/ferret/_11.cfs +0 -0
data/lib/ferret/_14.cfs +0 -0
data/lib/ferret/_p.cfs +0 -0
data/lib/ferret/_s.cfs +0 -0
data/lib/ferret/_v.cfs +0 -0
data/lib/ferret/_y.cfs +0 -0
data/lib/ferret/segments +0 -0
data/lib/ferret/segments_15 +0 -0
data/lib/treat/buildable.rb +0 -157
data/lib/treat/category.rb +0 -33
data/lib/treat/delegatable.rb +0 -116
data/lib/treat/doable.rb +0 -45
data/lib/treat/entities/collection.rb +0 -14
data/lib/treat/entities/document.rb +0 -12
data/lib/treat/entities/phrases.rb +0 -17
data/lib/treat/entities/tokens.rb +0 -61
data/lib/treat/entities/zones.rb +0 -41
data/lib/treat/extractors/coreferences/stanford.rb +0 -69
data/lib/treat/extractors/date/chronic.rb +0 -32
data/lib/treat/extractors/date/ruby.rb +0 -25
data/lib/treat/extractors/keywords/topics_tf_idf.rb +0 -48
data/lib/treat/extractors/language/language_extractor.rb +0 -27
data/lib/treat/extractors/named_entity_tag/stanford.rb +0 -53
data/lib/treat/extractors/roles/naive.rb +0 -73
data/lib/treat/extractors/statistics/frequency_in.rb +0 -16
data/lib/treat/extractors/statistics/position_in.rb +0 -14
data/lib/treat/extractors/statistics/tf_idf.rb +0 -104
data/lib/treat/extractors/statistics/transition_matrix.rb +0 -105
data/lib/treat/extractors/statistics/transition_probability.rb +0 -57
data/lib/treat/extractors/topic_words/lda/data.dat +0 -46
data/lib/treat/extractors/topic_words/lda/wiki.yml +0 -121
data/lib/treat/extractors/topics/reuters/industry.xml +0 -2717
data/lib/treat/extractors/topics/reuters/region.xml +0 -13586
data/lib/treat/extractors/topics/reuters/topics.xml +0 -17977
data/lib/treat/feature.rb +0 -58
data/lib/treat/features.rb +0 -7
data/lib/treat/formatters/visualizers/short_value.rb +0 -29
data/lib/treat/formatters/visualizers/txt.rb +0 -45
data/lib/treat/group.rb +0 -106
data/lib/treat/helpers/linguistics_loader.rb +0 -18
data/lib/treat/inflectors/cardinal_words/linguistics.rb +0 -42
data/lib/treat/inflectors/conjugations/linguistics.rb +0 -36
data/lib/treat/inflectors/declensions/english.rb +0 -319
data/lib/treat/inflectors/declensions/linguistics.rb +0 -42
data/lib/treat/inflectors/ordinal_words/linguistics.rb +0 -20
data/lib/treat/inflectors/stem/porter.rb +0 -162
data/lib/treat/inflectors/stem/porter_c.rb +0 -26
data/lib/treat/inflectors/stem/uea.rb +0 -30
data/lib/treat/install.rb +0 -59
data/lib/treat/languages/tags.rb +0 -377
data/lib/treat/lexicalizers/category/from_tag.rb +0 -49
data/lib/treat/lexicalizers/linkages/naive.rb +0 -63
data/lib/treat/lexicalizers/synsets/wordnet.rb +0 -76
data/lib/treat/lexicalizers/tag/brill.rb +0 -91
data/lib/treat/lexicalizers/tag/lingua.rb +0 -123
data/lib/treat/lexicalizers/tag/stanford.rb +0 -70
data/lib/treat/processors/segmenters/punkt/dutch.yaml +0 -9716
data/lib/treat/processors/segmenters/punkt/english.yaml +0 -10340
data/lib/treat/processors/segmenters/punkt/french.yaml +0 -43159
data/lib/treat/processors/segmenters/punkt/german.yaml +0 -9572
data/lib/treat/processors/segmenters/punkt/greek.yaml +0 -6050
data/lib/treat/processors/segmenters/punkt/italian.yaml +0 -14748
data/lib/treat/processors/segmenters/punkt/polish.yaml +0 -9751
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +0 -13662
data/lib/treat/processors/segmenters/punkt/russian.yaml +0 -4237
data/lib/treat/processors/segmenters/punkt/spanish.yaml +0 -24034
data/lib/treat/processors/segmenters/punkt/swedish.yaml +0 -10001
data/lib/treat/processors/tokenizers/macintyre.rb +0 -77
data/lib/treat/processors/tokenizers/multilingual.rb +0 -30
data/lib/treat/registrable.rb +0 -28
data/lib/treat/sugar.rb +0 -50
data/lib/treat/viewable.rb +0 -29
data/lib/treat/visitable.rb +0 -28
data/test/profile.rb +0 -2
data/test/tc_entity.rb +0 -117
data/test/tc_extractors.rb +0 -73
data/test/tc_formatters.rb +0 -41
data/test/tc_inflectors.rb +0 -34
data/test/tc_lexicalizers.rb +0 -32
data/test/tc_processors.rb +0 -50
data/test/tc_resources.rb +0 -22
data/test/tc_treat.rb +0 -60
data/test/tc_tree.rb +0 -60
data/test/tests.rb +0 -20
data/test/texts.rb +0 -19
data/test/texts/english/half_cocked_basel.txt +0 -16
data/test/texts/english/hose_and_dry.doc +0 -0
data/test/texts/english/hungarys_troubles.abw +0 -70
data/test/texts/english/long.html +0 -24
data/test/texts/english/long.txt +0 -22
data/test/texts/english/medium.txt +0 -5
data/test/texts/english/republican_nomination.pdf +0 -0
data/test/texts/english/saving_the_euro.odt +0 -0
data/test/texts/english/short.txt +0 -3
data/test/texts/english/zero_sum.html +0 -111

data/lib/treat/formatters.rb CHANGED Viewed

@@ -1,37 +1,41 @@
-module Treat
-  # Formatters handle conversion of Entities to and from
-  # external file formats.
-  module Formatters
-    # Readers read a document and create the top-level entity
-    # corresponding to the content of the document.
-    module Readers
-      extend Group
-      self.type = :transformer
-      self.targets = [:collection, :document]
-      self.default = :autoselect
-    end
-    # Serializers transform entities into a storable format.
-    module Serializers
-      extend Group
-      self.type = :computer
-      self.targets = [:entity]
-      self.default = :yaml
-    end
-    # Unserializers recreate entities from a serialized format.
-    module Unserializers
-      extend Group
-      self.type = :transformer
-      self.targets = [:collection, :document]
-      self.default = :autoselect
-    end
-    # Visualizers transform entities into a visualizable format.
-    module Visualizers
-      extend Group
-      self.type = :computer
-      self.targets = [:entity]
-      self.default = :tree
-    end
-    extend Treat::Category
+# Formatters handle conversion of Entities to and from
+# external file formats.
+module Treat::Formatters
+  # Readers read a document's content.
+  module Readers
+    extend Treat::Groupable
+    self.type = :computer
+    self.targets = [:document]
   end
+  # Unserializers recreate entities
+  # from a serialized format.
+  module Unserializers
+    extend Treat::Groupable
+    self.type = :computer
+    self.targets = [:entity]
+  end
+  # Serializers transform entities
+  # into a storable format.
+  module Serializers
+    extend Treat::Groupable
+    self.type = :computer
+    self.targets = [:entity]
+    self.default = :yaml
+  end
+  # Visualizers transform entities
+  # into a visualizable format.
+  module Visualizers
+    extend Treat::Groupable
+    self.type = :computer
+    self.targets = [:entity]
+    self.default = :tree
+  end
+  # Make Formatters categorizable.
+  extend Treat::Categorizable
 end

data/lib/treat/formatters/readers/abw.rb CHANGED Viewed

@@ -1,33 +1,53 @@
-module Treat
-  module Formatters
-    module Readers
-      class Abw
-        require 'rexml/document'
-        require 'rexml/streamlistener'
-        def self.read(document, options = {})
-          xml_h = AbiWordXmlHandler.new
-          REXML::Document.parse_stream(IO.read(document.file), xml_h)
-          document << Treat::Entities::Entity.from_string(xml_h.plain_text)
-          document
-        end
-        class AbiWordXmlHandler
-          include REXML::StreamListener
-          attr_reader :plain_text
-          def initialize
-            @plain_text = ""
-          end
-          def text(s)
-            if s != 'AbiWord' && s != 'application/x-abiword'
-              s.strip!
-              if s.length > 0
-                s += ' '
-                s += "\n\n" if s.length < 60
-              end
-              @plain_text << s
-            end
-          end
+# A wrapper for a small utility written
+# by Mark Watson to read AbiWord files.
+# Released under the GPL.
+#
+# Original project website:
+# http://www.markwatson.com/opensource/
+#
+# Todo: reimplement with Nokogiri and use
+# XML node information to better translate
+# the format of the text.
+class Treat::Formatters::Readers::ABW
+  silence_warnings do
+    require 'rexml/document'
+    require 'rexml/streamlistener'
+  end
+  # Extract the readable text from an AbiWord file.
+  #
+  # Options: none.
+  def self.read(document, options = {})
+    xml_h = ABWXmlHandler.new
+    REXML::Document.parse_stream(
+    IO.read(document.file), xml_h)
+    document.value = xml_h.plain_text
+    document.set :format, :abw_word
+    document
+  end
+  # Helper class to parse the AbiWord file.
+  class ABWXmlHandler
+    include REXML::StreamListener
+    attr_reader :plain_text
+    def initialize
+      @plain_text = ""
+    end
+    def text(s)
+      if s != 'AbiWord' && s !=
+        'application/x-abiword'
+        s.strip!
+        if s.length > 0
+          s += ' '
+          s += "\n\n" if s.length < 45
         end
+        @plain_text << s
       end
     end
   end
-end
+end

data/lib/treat/formatters/readers/autoselect.rb CHANGED Viewed

@@ -1,35 +1,39 @@
-module Treat
-  module Formatters
-    module Readers
-      # This class isn't a wrapper for anything.
-      # It simply delegates the reading task to
-      # the appropriate reader based on the file
-      # extension of the supplied document.
-      class Autoselect
-        # A list of image extensions that should be routed to Ocropus.
-        ImageExtensions = ['gif', 'jpg', 'jpeg', 'png']
-        # Select the appropriate reader based on the format
-        # of the filename in document.
-        #
-        # Options:
-        #
-        # - :ocr_engine => :ocropus or :gocr (the OCR engine to use).
-        def self.read(document, options)
-          ext = document.file.split('.')[-1]
-          reader = ImageExtensions.include?(ext) ? 'image' : ext
-          reader = 'html' if reader == 'htm'
-          reader = 'yaml' if reader == 'yml'
-          begin
-            r = Treat::Formatters::Readers.const_get(cc(reader))
-          rescue NameError
-            raise Treat::Exception,
-            "Cannot find a reader for format: '#{ext}'."
-          end
-          document = r.read(document, options)
-          document.set :encoding, document.to_s.encoding.to_s.downcase
-          document
-        end
-      end
-    end
+class Treat::Formatters::Readers::Autoselect
+  ExtensionRegexp = /^.*?\.([a-zA-Z0-9]{2,5})$/
+  ImageExtensions = ['gif', 'jpg', 'jpeg', 'png']
+  DefaultOptions = {
+    :default_to => :txt
+  }
+  # Choose a reader to use.
+  #
+  # Options:
+  #  - (Symbol) :default_to => format to default to.
+  def self.read(document, options = {})
+    options = DefaultOptions.merge(options)
+    document.read(detect_format(document.file, options[:default_to]))
   end
+  def self.detect_format(filename, default_to = DefaultOptions[:default_to])
+    ext = filename.scan(ExtensionRegexp)
+    ext = (ext.is_a?(Array) && ext[0] && ext[0][0]) ?
+    ext[0][0] : ''
+    format =
+    ImageExtensions.include?(ext) ?
+    'image' : ext
+    # Humanize extensions.
+    format = 'html' if format == 'htm'
+    format = 'yaml' if format == 'yml'
+    format = default_to if format == ''
+    format.intern
+  end
 end

data/lib/treat/formatters/readers/doc.rb CHANGED Viewed

@@ -1,15 +1,21 @@
-module Treat
-  module Formatters
-    module Readers
-      class Doc
-        def self.read(document, options = {})
-          f = `antiword #{document.file}`
-          f.gsub!("\n\n", '#keep#')
-          f.gsub!("\n", ' ')
-          f.gsub!('#keep#', "\n\n")
-          document << Treat::Entities::Entity.from_string(f)
-        end
-      end
-    end
+# A wrapper for the 'antiword' command-line utility.
+class Treat::Formatters::Readers::DOC
+  # Extract the readable text from a DOC file
+  # using the antiword command-line utility.
+  #
+  # Options: none.
+  def self.read(document, options = {})
+    f = `antiword #{document.file}`
+    f.gsub!("\n\n", '#keep#')
+    f.gsub!("\n", ' ')
+    f.gsub!('#keep#', "\n\n")
+    document.value = f
+    document.set :format, :doc
+    document
   end
 end

data/lib/treat/formatters/readers/html.rb CHANGED Viewed

@@ -1,33 +1,55 @@
-module Treat
-  module Formatters
-    module Readers
-      # A temporary HTML reader; simply strips the
-      # document of all of its markup.
-      class HTML
-        # Require Hpricot.
-        silence_warnings { require 'hpricot' }
-        # By default, backup the HTML text while cleaning.
-        DefaultOptions = { :clean => true, :backup => false }
-        # Read the HTML document and strip it of its markup.
-        #
-        # Options:
-        #
-        # - (Boolean) :clean => whether to strip HTML markup.
-        # - (Boolean) :backup => whether to backup the HTML
-        #   markup while cleaning.
-        def self.read(document, options = {})
-          options = DefaultOptions.merge(options)
-          f = File.read(document.file)
-          document << Treat::Entities::Entity.from_string(f)
-          if options[:clean]
-            document.each do |section|
-              section.set :html_value, section.value if options[:backup]
-              section.value = Hpricot(section.value).inner_text
-            end
-          end
-          document
-        end
-      end
+# This class is a wrapper for the 'ruby-readability'
+# gem, which extracts the primary readable content
+# of a web page by using set of handwritten rules.
+#
+# Project homepage:
+# https://github.com/iterationlabs/ruby-readability
+class Treat::Formatters::Readers::HTML
+  silence_warnings { require 'ruby-readability' }
+  # By default, don't backup the original HTML
+  DefaultOptions = {
+    :keep_html => false,
+    :tags => %w[p div h1 h2 h3 ul ol dl dt li]
+  }
+  # Read the HTML document and strip it of its markup.
+  #
+  # Options:
+  #
+  #   text when cleaning the document (default: false).
+  # - (Boolean) :remove_empty_nodes => remove <p> tags
+  #   that have no text content
+  # - (String) :encoding => if the page is of a known
+  #   encoding, you can specify it; if left unspecified,
+  #   the encoding will be guessed (only in Ruby 1.9.x)
+  # - (String) :html_headers => in Ruby 1.9.x these will
+  #   be passed to the guess_html_encoding gem to aid with
+  #   guessing the HTML encoding.
+  # - (Array of String) :tags  => the base whitelist of
+  #   tags to sanitize, defaults to %w[div p].
+  #   also removes p tags that contain only images
+  # - (Array of String) :attributes => list allowed attributes
+  # - (Array of String) :ignore_image_format => for use with images.
+  # - (Numeric) :min_image_height => minimum image height for images.
+  # - (Numeric) :min_image_width => minimum image width for images.
+  def self.read(document, options = {})
+    # set encoding with the guess_html_encoding
+    options = DefaultOptions.merge(options)
+    html = File.read(document.file)
+    silence_warnings do
+      # Strip comments
+      html.gsub!(/<!--[^>]*-->/m, '')
+      d = Readability::Document.new(html, options)
+      document.value = "<h1>#{d.title}</h1>\n" + d.content
+      document.set :format, :html
     end
+    document
   end
 end

data/lib/treat/formatters/readers/image.rb CHANGED Viewed

@@ -1,43 +1,44 @@
-module Treat
-  module Formatters
-    module Readers
-      # This class is a wrapper for the Google Ocropus
-      # optical character recognition (OCR) engine.
-      #
-      # "OCRopus(tm) is a state-of-the-art document
-      # analysis and OCR system, featuring pluggable
-      # layout analysis, pluggable character recognition,
-      # statistical natural language modeling, and multi-
-      # lingual capabilities."
-      #
-      # Original paper:
-      # Breuel, Thomas M. The Ocropus Open Source OCR System.
-      # DFKI and U. Kaiserslautern, Germany.
-      class Image
-        #  Read a file using the Google Ocropus reader.
-        #
-        # Options:
-        # - (Boolean) :silent => whether to silence Ocropus.
-        def self.read(document, options = {})
-          read = lambda do |doc|
-            create_temp_dir do |tmp|
-              `ocropus book2pages #{tmp}/out #{doc.file}`
-              `ocropus pages2lines #{tmp}/out`
-              `ocropus lines2fsts #{tmp}/out`
-              `ocropus buildhtml #{tmp}/out > #{tmp}/output.html`
-              f = document.file
-              doc.remove_all!
-              doc.set :file,  "#{tmp}/output.html"
-              doc.read(:html)
-              doc.set :file, f
-            end
-          end
-          options[:silent] ?
-          silence_stdout { read.call(document) } :
-          read.call(document)
-          document
-        end
+# This class is a wrapper for the Google Ocropus
+# optical character recognition (OCR) engine.
+#
+# "OCRopus(tm) is a state-of-the-art document
+# analysis and OCR system, featuring pluggable
+# layout analysis, pluggable character recognition,
+# statistical natural language modeling, and multi-
+# lingual capabilities."
+#
+# Original paper:
+#
+# Breuel, Thomas M. The Ocropus Open Source OCR System.
+# DFKI and U. Kaiserslautern, Germany.
+class Treat::Formatters::Readers::Image
+  #  Read a file using the Google Ocropus reader.
+  #
+  # Options:
+  #
+  # - (Boolean) :silent => whether to silence Ocropus.
+  def self.read(document, options = {})
+    read = lambda do |doc|
+      create_temp_dir do |tmp|
+        `ocropus book2pages #{tmp}/out #{doc.file}`
+        `ocropus pages2lines #{tmp}/out`
+        `ocropus lines2fsts #{tmp}/out`
+        `ocropus buildhtml #{tmp}/out > #{tmp}/output.html`
+        doc.set :file,  "#{tmp}/output.html"
+        doc = doc.read(:html)
+        doc.set :file, f
+        doc.set :format, :image
       end
     end
+    options[:silent] ?
+    silence_stdout { read.call(document) } :
+    read.call(document)
+    document
   end
-end
+end

data/lib/treat/formatters/readers/odt.rb CHANGED Viewed

@@ -1,50 +1,64 @@
-module Treat
-  module Formatters
-    module Readers
-      # A reader for the ODT (Open Office) document format.
-      #
-      # Based on work by Mark Watson, licensed under the GPL.
-      # Original project website: http://www.markwatson.com/opensource/
-      class Odt
-        # Require the 'zip' gem to unarchive the ODT files
-        silence_warnings { require 'zip' }
-        # Build an entity from an ODT file.
-        def self.read(document, options = {})
-          f = nil
-          Zip::ZipFile.open(document.file, Zip::ZipFile::CREATE) do |zipfile|
-            f = zipfile.read('content.xml')
-          end
-          raise "Couldn't unzip dot file #{document.file}!" unless f
-          xml_h = OOXmlHandler.new
-          REXML::Document.parse_stream(f, xml_h)
-          document << Treat::Entities::Entity.from_string(xml_h.plain_text)
-          document
-        end
-        # Xml listener for the parsing of the ODT file.
-        class OOXmlHandler
-          require 'rexml/document'
-          require 'rexml/streamlistener'
-          include REXML::StreamListener
-          attr_reader :plain_text
-          def initialize
-            @plain_text = ""
-            @last_name = ""
-          end
-          def tag_start(name, attrs)
-            @last_name = name
-          end
-          def text(s)
-            if @last_name.index('text')
-              s = s.strip
-              if s.length > 0
-                @plain_text << s
-                @plain_text << "\n\n"
-              end
-            end
-          end
+# A reader for the ODT (Open Office)
+# document format.
+#
+# Based on work by Mark Watson,
+# licensed under the GPL.
+#
+# Original project website:
+# http://www.markwatson.com/opensource/
+#
+# Todo: reimplement with Nokogiri and use
+# XML node information to better translate
+# the format of the text.
+class Treat::Formatters::Readers::ODT
+  # Require the 'zip' gem to unarchive the ODT files
+  silence_warnings { require 'zip' }
+  # Extract the readable text from an ODT file.
+  #
+  # Options: none.
+  def self.read(document, options = {})
+    f = nil
+    Zip::ZipFile.open(document.file,
+    Zip::ZipFile::CREATE) do |zipfile|
+      f = zipfile.read('content.xml')
+    end
+    raise "Couldn't unzip dot file " +
+    "#{document.file}!" unless f
+    xml_h = ODTXmlHandler.new
+    REXML::Document.parse_stream(f, xml_h)
+    document.value = xml_h.plain_text
+    document.set :format, :odt_office
+    document
+  end
+  # Xml listener for the parsing of the ODT file.
+  class ODTXmlHandler
+    silence_warnings do
+      require 'rexml/document'
+      require 'rexml/streamlistener'
+    end
+    include REXML::StreamListener
+    attr_reader :plain_text
+    def initialize
+      @plain_text = ""
+      @last_name = ""
+    end
+    def tag_start(name, attrs)
+      @last_name = name
+    end
+    def text(s)
+      if @last_name.index('text')
+        s = s.strip
+        if s.length > 0
+          @plain_text << s
+          @plain_text << "\n\n"
         end
       end
     end
   end
 end