RubyGems - treat - Versions diffs - 0.2.5 → 1.0.0 - Mend

treat 0.2.5 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

data/LICENSE +3 -3
data/README.md +33 -0
data/files/INFO +1 -0
data/lib/treat.rb +40 -105
data/lib/treat/ai.rb +12 -0
data/lib/treat/ai/classifiers/id3.rb +27 -0
data/lib/treat/categories.rb +82 -35
data/lib/treat/categorizable.rb +44 -0
data/lib/treat/classification.rb +61 -0
data/lib/treat/configurable.rb +115 -0
data/lib/treat/data_set.rb +42 -0
data/lib/treat/dependencies.rb +24 -0
data/lib/treat/downloader.rb +87 -0
data/lib/treat/entities.rb +68 -66
data/lib/treat/entities/abilities.rb +10 -0
data/lib/treat/entities/abilities/buildable.rb +327 -0
data/lib/treat/entities/abilities/checkable.rb +31 -0
data/lib/treat/entities/abilities/copyable.rb +45 -0
data/lib/treat/entities/abilities/countable.rb +51 -0
data/lib/treat/entities/abilities/debuggable.rb +83 -0
data/lib/treat/entities/abilities/delegatable.rb +123 -0
data/lib/treat/entities/abilities/doable.rb +62 -0
data/lib/treat/entities/abilities/exportable.rb +11 -0
data/lib/treat/entities/abilities/iterable.rb +115 -0
data/lib/treat/entities/abilities/magical.rb +83 -0
data/lib/treat/entities/abilities/registrable.rb +74 -0
data/lib/treat/entities/abilities/stringable.rb +91 -0
data/lib/treat/entities/entities.rb +104 -0
data/lib/treat/entities/entity.rb +122 -245
data/lib/treat/exception.rb +4 -4
data/lib/treat/extractors.rb +77 -80
data/lib/treat/extractors/keywords/tf_idf.rb +56 -22
data/lib/treat/extractors/language/what_language.rb +50 -45
data/lib/treat/extractors/name_tag/stanford.rb +55 -0
data/lib/treat/extractors/tf_idf/native.rb +87 -0
data/lib/treat/extractors/time/chronic.rb +55 -0
data/lib/treat/extractors/time/nickel.rb +86 -62
data/lib/treat/extractors/time/ruby.rb +53 -0
data/lib/treat/extractors/topic_words/lda.rb +67 -58
data/lib/treat/extractors/topics/reuters.rb +100 -87
data/lib/treat/formatters.rb +39 -35
data/lib/treat/formatters/readers/abw.rb +49 -29
data/lib/treat/formatters/readers/autoselect.rb +37 -33
data/lib/treat/formatters/readers/doc.rb +19 -13
data/lib/treat/formatters/readers/html.rb +52 -30
data/lib/treat/formatters/readers/image.rb +41 -40
data/lib/treat/formatters/readers/odt.rb +59 -45
data/lib/treat/formatters/readers/pdf.rb +28 -25
data/lib/treat/formatters/readers/txt.rb +12 -15
data/lib/treat/formatters/readers/xml.rb +73 -36
data/lib/treat/formatters/serializers/xml.rb +80 -79
data/lib/treat/formatters/serializers/yaml.rb +19 -18
data/lib/treat/formatters/unserializers/autoselect.rb +12 -22
data/lib/treat/formatters/unserializers/xml.rb +94 -99
data/lib/treat/formatters/unserializers/yaml.rb +20 -19
data/lib/treat/formatters/visualizers/dot.rb +132 -132
data/lib/treat/formatters/visualizers/standoff.rb +52 -44
data/lib/treat/formatters/visualizers/tree.rb +26 -29
data/lib/treat/groupable.rb +153 -0
data/lib/treat/helpers/decimal_point_escaper.rb +22 -0
data/lib/treat/inflectors.rb +50 -45
data/lib/treat/inflectors/cardinalizers/linguistics.rb +40 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +55 -0
data/lib/treat/inflectors/declensors/active_support.rb +31 -0
data/lib/treat/inflectors/declensors/english.rb +38 -0
data/lib/treat/inflectors/declensors/english/inflect.rb +288 -0
data/lib/treat/inflectors/declensors/linguistics.rb +49 -0
data/lib/treat/inflectors/ordinalizers/linguistics.rb +17 -0
data/lib/treat/inflectors/stemmers/porter.rb +160 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +24 -0
data/lib/treat/inflectors/stemmers/uea.rb +28 -0
data/lib/treat/installer.rb +308 -0
data/lib/treat/kernel.rb +105 -27
data/lib/treat/languages.rb +122 -88
data/lib/treat/languages/arabic.rb +15 -15
data/lib/treat/languages/chinese.rb +15 -15
data/lib/treat/languages/dutch.rb +15 -15
data/lib/treat/languages/english.rb +61 -62
data/lib/treat/languages/french.rb +19 -19
data/lib/treat/languages/german.rb +20 -20
data/lib/treat/languages/greek.rb +15 -15
data/lib/treat/languages/italian.rb +16 -16
data/lib/treat/languages/polish.rb +15 -15
data/lib/treat/languages/portuguese.rb +15 -15
data/lib/treat/languages/russian.rb +15 -15
data/lib/treat/languages/spanish.rb +16 -16
data/lib/treat/languages/swedish.rb +16 -16
data/lib/treat/lexicalizers.rb +34 -55
data/lib/treat/lexicalizers/categorizers/from_tag.rb +54 -0
data/lib/treat/lexicalizers/sensers/wordnet.rb +57 -0
data/lib/treat/lexicalizers/sensers/wordnet/synset.rb +71 -0
data/lib/treat/lexicalizers/taggers/brill.rb +70 -0
data/lib/treat/lexicalizers/taggers/brill/patch.rb +61 -0
data/lib/treat/lexicalizers/taggers/lingua.rb +90 -0
data/lib/treat/lexicalizers/taggers/stanford.rb +97 -0
data/lib/treat/linguistics.rb +9 -0
data/lib/treat/linguistics/categories.rb +11 -0
data/lib/treat/linguistics/tags.rb +422 -0
data/lib/treat/loaders/linguistics.rb +30 -0
data/lib/treat/loaders/stanford.rb +27 -0
data/lib/treat/object.rb +1 -0
data/lib/treat/processors.rb +37 -44
data/lib/treat/processors/chunkers/autoselect.rb +16 -0
data/lib/treat/processors/chunkers/html.rb +71 -0
data/lib/treat/processors/chunkers/txt.rb +18 -24
data/lib/treat/processors/parsers/enju.rb +253 -208
data/lib/treat/processors/parsers/stanford.rb +130 -131
data/lib/treat/processors/segmenters/punkt.rb +79 -45
data/lib/treat/processors/segmenters/stanford.rb +46 -48
data/lib/treat/processors/segmenters/tactful.rb +43 -36
data/lib/treat/processors/tokenizers/perl.rb +124 -92
data/lib/treat/processors/tokenizers/ptb.rb +81 -0
data/lib/treat/processors/tokenizers/punkt.rb +48 -42
data/lib/treat/processors/tokenizers/stanford.rb +39 -38
data/lib/treat/processors/tokenizers/tactful.rb +64 -55
data/lib/treat/proxies.rb +52 -35
data/lib/treat/retrievers.rb +26 -16
data/lib/treat/retrievers/indexers/ferret.rb +47 -26
data/lib/treat/retrievers/searchers/ferret.rb +69 -50
data/lib/treat/tree.rb +241 -183
data/spec/collection.rb +123 -0
data/spec/document.rb +93 -0
data/spec/entity.rb +408 -0
data/spec/languages.rb +25 -0
data/spec/phrase.rb +146 -0
data/spec/samples/mathematicians/archimedes.abw +34 -0
data/spec/samples/mathematicians/euler.html +21 -0
data/spec/samples/mathematicians/gauss.pdf +0 -0
data/spec/samples/mathematicians/leibniz.txt +13 -0
data/spec/samples/mathematicians/newton.doc +0 -0
data/spec/sandbox.rb +5 -0
data/spec/token.rb +109 -0
data/spec/treat.rb +52 -0
data/spec/tree.rb +117 -0
data/spec/word.rb +110 -0
data/spec/zone.rb +66 -0
data/tmp/INFO +1 -1
metadata +100 -201
data/INSTALL +0 -1
data/README +0 -3
data/TODO +0 -28
data/lib/economist/half_cocked_basel.txt +0 -16
data/lib/economist/hungarys_troubles.txt +0 -46
data/lib/economist/indias_slowdown.txt +0 -15
data/lib/economist/merkozy_rides_again.txt +0 -24
data/lib/economist/prada_is_not_walmart.txt +0 -9
data/lib/economist/to_infinity_and_beyond.txt +0 -15
data/lib/ferret/_11.cfs +0 -0
data/lib/ferret/_14.cfs +0 -0
data/lib/ferret/_p.cfs +0 -0
data/lib/ferret/_s.cfs +0 -0
data/lib/ferret/_v.cfs +0 -0
data/lib/ferret/_y.cfs +0 -0
data/lib/ferret/segments +0 -0
data/lib/ferret/segments_15 +0 -0
data/lib/treat/buildable.rb +0 -157
data/lib/treat/category.rb +0 -33
data/lib/treat/delegatable.rb +0 -116
data/lib/treat/doable.rb +0 -45
data/lib/treat/entities/collection.rb +0 -14
data/lib/treat/entities/document.rb +0 -12
data/lib/treat/entities/phrases.rb +0 -17
data/lib/treat/entities/tokens.rb +0 -61
data/lib/treat/entities/zones.rb +0 -41
data/lib/treat/extractors/coreferences/stanford.rb +0 -69
data/lib/treat/extractors/date/chronic.rb +0 -32
data/lib/treat/extractors/date/ruby.rb +0 -25
data/lib/treat/extractors/keywords/topics_tf_idf.rb +0 -48
data/lib/treat/extractors/language/language_extractor.rb +0 -27
data/lib/treat/extractors/named_entity_tag/stanford.rb +0 -53
data/lib/treat/extractors/roles/naive.rb +0 -73
data/lib/treat/extractors/statistics/frequency_in.rb +0 -16
data/lib/treat/extractors/statistics/position_in.rb +0 -14
data/lib/treat/extractors/statistics/tf_idf.rb +0 -104
data/lib/treat/extractors/statistics/transition_matrix.rb +0 -105
data/lib/treat/extractors/statistics/transition_probability.rb +0 -57
data/lib/treat/extractors/topic_words/lda/data.dat +0 -46
data/lib/treat/extractors/topic_words/lda/wiki.yml +0 -121
data/lib/treat/extractors/topics/reuters/industry.xml +0 -2717
data/lib/treat/extractors/topics/reuters/region.xml +0 -13586
data/lib/treat/extractors/topics/reuters/topics.xml +0 -17977
data/lib/treat/feature.rb +0 -58
data/lib/treat/features.rb +0 -7
data/lib/treat/formatters/visualizers/short_value.rb +0 -29
data/lib/treat/formatters/visualizers/txt.rb +0 -45
data/lib/treat/group.rb +0 -106
data/lib/treat/helpers/linguistics_loader.rb +0 -18
data/lib/treat/inflectors/cardinal_words/linguistics.rb +0 -42
data/lib/treat/inflectors/conjugations/linguistics.rb +0 -36
data/lib/treat/inflectors/declensions/english.rb +0 -319
data/lib/treat/inflectors/declensions/linguistics.rb +0 -42
data/lib/treat/inflectors/ordinal_words/linguistics.rb +0 -20
data/lib/treat/inflectors/stem/porter.rb +0 -162
data/lib/treat/inflectors/stem/porter_c.rb +0 -26
data/lib/treat/inflectors/stem/uea.rb +0 -30
data/lib/treat/install.rb +0 -59
data/lib/treat/languages/tags.rb +0 -377
data/lib/treat/lexicalizers/category/from_tag.rb +0 -49
data/lib/treat/lexicalizers/linkages/naive.rb +0 -63
data/lib/treat/lexicalizers/synsets/wordnet.rb +0 -76
data/lib/treat/lexicalizers/tag/brill.rb +0 -91
data/lib/treat/lexicalizers/tag/lingua.rb +0 -123
data/lib/treat/lexicalizers/tag/stanford.rb +0 -70
data/lib/treat/processors/segmenters/punkt/dutch.yaml +0 -9716
data/lib/treat/processors/segmenters/punkt/english.yaml +0 -10340
data/lib/treat/processors/segmenters/punkt/french.yaml +0 -43159
data/lib/treat/processors/segmenters/punkt/german.yaml +0 -9572
data/lib/treat/processors/segmenters/punkt/greek.yaml +0 -6050
data/lib/treat/processors/segmenters/punkt/italian.yaml +0 -14748
data/lib/treat/processors/segmenters/punkt/polish.yaml +0 -9751
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +0 -13662
data/lib/treat/processors/segmenters/punkt/russian.yaml +0 -4237
data/lib/treat/processors/segmenters/punkt/spanish.yaml +0 -24034
data/lib/treat/processors/segmenters/punkt/swedish.yaml +0 -10001
data/lib/treat/processors/tokenizers/macintyre.rb +0 -77
data/lib/treat/processors/tokenizers/multilingual.rb +0 -30
data/lib/treat/registrable.rb +0 -28
data/lib/treat/sugar.rb +0 -50
data/lib/treat/viewable.rb +0 -29
data/lib/treat/visitable.rb +0 -28
data/test/profile.rb +0 -2
data/test/tc_entity.rb +0 -117
data/test/tc_extractors.rb +0 -73
data/test/tc_formatters.rb +0 -41
data/test/tc_inflectors.rb +0 -34
data/test/tc_lexicalizers.rb +0 -32
data/test/tc_processors.rb +0 -50
data/test/tc_resources.rb +0 -22
data/test/tc_treat.rb +0 -60
data/test/tc_tree.rb +0 -60
data/test/tests.rb +0 -20
data/test/texts.rb +0 -19
data/test/texts/english/half_cocked_basel.txt +0 -16
data/test/texts/english/hose_and_dry.doc +0 -0
data/test/texts/english/hungarys_troubles.abw +0 -70
data/test/texts/english/long.html +0 -24
data/test/texts/english/long.txt +0 -22
data/test/texts/english/medium.txt +0 -5
data/test/texts/english/republican_nomination.pdf +0 -0
data/test/texts/english/saving_the_euro.odt +0 -0
data/test/texts/english/short.txt +0 -3
data/test/texts/english/zero_sum.html +0 -111

data/lib/treat/formatters/readers/pdf.rb CHANGED Viewed

@@ -1,28 +1,31 @@
 # encoding: utf-8
-module Treat
-  module Formatters
-    module Readers
-      # A wrapper for the Poppler pdf2text utility, which
-      # extracts the text from a PDF file.
-      class PDF
-        # Read a PDF file using the Poppler pdf2text utility.
-        #
-        # Options: none.
-        def self.read(document, options = {})
-          create_temp_file(:txt) do |tmp|
-            `pdftotext #{document.file} #{tmp} `.strip
-            f = File.read(tmp)
-            f.gsub!("\t\r ", '')
-            f.gsub!('-‐', '-')
-            f.gsub!("\n\n", '#keep#')
-            f.gsub!("\n", ' ')
-            f.gsub!(" ", ' ')
-            f.gsub!('#keep#', "\n\n")
-            document << Treat::Entities::Entity.from_string(f)
-          end
-          document
-        end
-      end
+# A wrapper for the Poppler pdf2text utility, which
+# extracts the text from a PDF file.
+module Treat::Formatters::Readers::PDF
+  # Read a PDF file using the Poppler pdf2text utility.
+  #
+  # Options: none.
+  def self.read(document, options = {})
+    create_temp_file(:txt) do |tmp|
+      `pdftotext #{document.file} #{tmp} `.strip
+      f = File.read(tmp)
+      f.gsub!("\t\r ", '')
+      f.gsub!('-‐', '-')
+      f.gsub!("\n\n", '#keep#')
+      f.gsub!("\n", ' ')
+      # Fix for an incompatible space character.
+      f.gsub!(" ", ' ')
+      f.gsub!('#keep#', "\n\n")
+      document.value = f
+      document.set :format, :pdf
+      document
     end
   end
-end
+end

data/lib/treat/formatters/readers/txt.rb CHANGED Viewed

@@ -1,17 +1,14 @@
-module Treat
-  module Formatters
-    module Readers
-      # This class simply reads a plain text file.
-      class Txt
-        # Build an entity from a string in plain text format.
-        #
-        # Options: none.
-        def self.read(document, options = {})
-          f = File.read(document.file)
-          document << Treat::Entities::Entity.from_string(f)
-          document
-        end
-      end
-    end
+# This class simply reads a plain text file.
+class Treat::Formatters::Readers::TXT
+  # Build an entity from a string
+  # in plain text format.
+  #
+  # Options: none.
+  def self.read(document, options = {})
+    document.value = File.read(document.file)
+    document.set :format, :txt
+    document
   end
 end

data/lib/treat/formatters/readers/xml.rb CHANGED Viewed

@@ -1,40 +1,77 @@
-module Treat
-  module Formatters
-    module Readers
-      class XML
-        require 'stanford-core-nlp'
-        require 'cgi'
-        # By default, backup the XML text while cleaning.
-        DefaultOptions = { :clean => true, :backup => false }
-        @@xml_cleaner = nil
-        # Read the XML document and strip it of its markup.
-        # Also splits the text into sentences and tokenizes it?
-        #
-        # Options:
-        #
-        # - (Boolean) :clean => whether to strip XML markup.
-        # - (Boolean) :backup => whether to backup the XML
-        #   markup while cleaning.
-        def self.read(document, options = {})
-          options = DefaultOptions.merge(options)
-          document << Treat::Entities::Entity.from_string(File.read(document.file))
-          if options[:clean]
-            @@xml_cleaner ||= StanfordCoreNLP.load(:tokenize, :ssplit, :cleanxml)
-            document.each do |zone|
-              text = StanfordCoreNLP::Text.new(zone.to_s)
-              @@xml_cleaner.annotate(text)
-              sentences = []
-              text.get(:sentences) do |sentence|
-                sentences << Treat::Entities::Sentence.from_string(sentence.to_s)
-              end
-              val = sentences.join(' ')
-              zone.set :xml_value, CGI.escapeHTML(text.to_s) if options[:backup]
-              zone.value = val
-            end
-          end
-          document
+class Treat::Formatters::Readers::XML
+  require 'treat/loaders/stanford'
+  require 'cgi'
+  # By default, don't backup the XML
+  # document while cleaning it.
+  DefaultOptions = {
+    :keep_html => false
+  }
+  # Hold one instance of the XML cleaner.
+  @@xml_reader = nil
+  # Read the XML document and strip it of its markup.
+  # Also segments and tokenizes the text.
+  #
+  # Options:
+  #
+  # - (Boolean) :keep_xml => whether to backup the XML
+  #   markup while cleaning.
+  def self.read(document, options = {})
+    raise 'Not implemented.'
+    options = DefaultOptions.merge(options)
+    xml = File.read(document.file)
+    @@xml_reader ||= StanfordCoreNLP.load(
+    :tokenize, :ssplit, :cleanxml)
+    text = StanfordCoreNLP::Text.new(xml)
+    @@xml_reader.annotate(text)
+    text.get(:sentences).each do |sentence|
+      s = Treat::Entities::Sentence.
+      from_string(sentence.to_s, true)
+      sentence.get(:tokens).each do |token|
+        val = token.value.to_s.strip.gsub('\/', '/')
+        next if val =~ /^<[^>]+>$/
+        t = Treat::Entities::Token.
+        from_string(val)
+        c = token.get(:xml_context)
+        if c
+          context = []
+          c.each { |tag| context << tag.to_s }
+          t.set :xml_context, context
         end
+        s << t
       end
+      if Treat::Entities::Zone.from_string('')
+        section << s
+      end
+      if options[:backup]
+        document.set :xml_value,
+        CGI.escapeHTML(text.to_s)
+      end
+      document.value = ''
     end
+    document.set :format, :xml
+    document
   end
-end
+end

data/lib/treat/formatters/serializers/xml.rb CHANGED Viewed

@@ -1,85 +1,86 @@
-module Treat
-  module Formatters
-    module Serializers
-      # This class converts an entity to a storable XML format.
-      class XML
-        # Reauire the Nokogiri XML parser.
-        require 'nokogiri'
-        # Serialize an entity tree in XML format.
-        #
-        # Options:
-        # - (String) :file => a file to write to.
-        def self.serialize(entity, options = {})
-          options = options.merge({:indent => 0}) if options[:indent].nil?
-          indent = options[:indent]
-          if options[:indent] == 0
-            enc = entity.to_s.encoding.to_s.downcase
-            string = "<?xml version=\"1.0\" encoding=\"#{enc}\" standalone=\"no\" ?>\n<treat>"
-          else
-            string = ''
-          end
-          spaces = ''
-          options[:indent].times { spaces << ' ' }
-          attributes = " id='#{entity.id}' "
-          if !entity.features.nil? && entity.features.size != 0
-            attributes << ' '
-            entity.features.each_pair do |feature, value|
-              if value.is_a? Entities::Entity
-                attributes << "#{feature}='#{value.id}' "
-              else
-                attributes << "#{feature}='#{escape(value)}' "
-              end
-            end
-            attributes << "dependencies='"
-            a = []
-            entity.dependencies.each do |dependency|
-               a << ("{target: #{dependency.target}, type: #{dependency.type}, " +
-                "directed: #{dependency.directed}, " +
-                "direction: #{dependency.direction}}" )
-            end
-            # Structs.
-            attributes << a.join('--') + "'"
-          end
-          tag = entity.class.to_s.split('::')[-1].downcase
-          unless entity.is_a?(Treat::Entities::Token)
-            string += "\n"
-          end
-          string += "#{spaces}<#{tag}#{attributes}>"
-          if entity.has_children?
-            options[:indent] += 1
-            entity.children.each do |child|
-              string =
-              string +
-              serialize(child, options)
-            end
-            options[:indent] -= 1
-          else
-            string = string + "#{escape(entity.value)}"
-          end
-          unless entity.is_a?(Treat::Entities::Token)
-            string += "\n#{spaces}"
-          end
-          string += "</#{tag}>\n"
-          if indent == 0
-            string += "\n</treat>"
-            if options[:file]
-              File.open(options[:file], 'w') { |f| f.write(string) }
-            end
-            # puts string
-          end
-          string
+# This class converts an entity to a storable XML format.
+class Treat::Formatters::Serializers::XML
+  # Reauire the Nokogiri XML parser.
+  require 'nokogiri'
+  # Serialize an entity tree in XML format.
+  #
+  # Options:
+  # - (String) :file => a file to write to.
+  def self.serialize(entity, options = {})
+    options = options.merge({:indent => 0}) if options[:indent].nil?
+    indent = options[:indent]
+    if options[:indent] == 0
+      enc = entity.to_s.encoding.to_s.downcase
+      string = "<?xml version=\"1.0\" encoding=\"#{enc}\" standalone=\"no\" ?>\n<treat>\n"
+    else
+      string = ''
+    end
+    spaces = ''
+    options[:indent].times { spaces << ' ' }
+    attributes = " id='#{entity.id}'"
+    if !entity.features.nil? && entity.features.size != 0
+      attributes << ' '
+      entity.features.each_pair do |feature, value|
+        if value.is_a? Treat::Entities::Entity
+          attributes << "#{feature}='#{value.id}' "
+        else
+          attributes << "#{feature}='#{escape(value)}' "
+        end
+      end
+      unless entity.dependencies.empty?
+        attributes << "dependencies='"
+        a = []
+        entity.dependencies.each do |dependency|
+          a << ("{target: #{dependency.target}, type: #{dependency.type}, " +
+          "directed: #{dependency.directed}, " +
+          "direction: #{dependency.direction}}" )
         end
-        def self.escape(input)
-          result = input.to_s.dup
-          result.gsub!("&", "&amp;")
-          result.gsub!("<", "&lt;")
-          result.gsub!(">", "&gt;")
-          result.gsub!("'", "&apos;")
-          result.gsub!("\"", "&quot;")
-          result
+        # Structs.
+        attributes << a.join(',') + "'"
+      end
+    end
+    tag = entity.class.to_s.split('::')[-1].downcase
+    string += "#{spaces}<#{tag}#{attributes}>"
+    unless entity.is_a?(Treat::Entities::Token)
+      string += "\n"
+    end
+    if entity.has_children?
+      options[:indent] += 1
+      entity.children.each do |child|
+        string =
+        string +
+        serialize(child, options)
+      end
+      options[:indent] -= 1
+    else
+      string = string + "#{escape(entity.value)}"
+    end
+    unless entity.is_a?(Treat::Entities::Token)
+      string += "#{spaces}"
+    end
+    string += "</#{tag}>\n"
+    if indent == 0
+      string += "\n</treat>"
+      if options[:file]
+        File.open(options[:file], 'w') do |f|
+          f.write(string)
         end
       end
+      # puts string
     end
+    string
+  end
+  def self.escape(input)
+    result = input.to_s.dup
+    result.gsub!("&", "&amp;")
+    result.gsub!("<", "&lt;")
+    result.gsub!(">", "&gt;")
+    result.gsub!("'", "&apos;")
+    result.gsub!("\"", "&quot;")
+    result
   end
 end

data/lib/treat/formatters/serializers/yaml.rb CHANGED Viewed

@@ -1,22 +1,23 @@
-module Treat
-  module Formatters
-    module Serializers
-      # Require the Psych YAML serializer.
-      require 'psych'
-      # This class serializes entities in YAML format.
-      class YAML
-        # Serialize an entity in YAML format.
-        #
-        # Options:
-        # - (String) :file => a file to write to.
-        def self.serialize(entity, options = {})
-          yaml = ::Psych.dump(entity)
-          if options[:file]
-            File.open(options[:file], 'w') { |f| f.write(yaml) }
-          end
-          yaml
-        end
+# This class serializes entities in YAML format.
+class Treat::Formatters::Serializers::YAML
+  silence_warnings do
+    # Require the Psych YAML serializer.
+    require 'psych'
+  end
+  # Serialize an entity in YAML format.
+  #
+  # Options:
+  # - (String) :file => a file to write to.
+  def self.serialize(entity, options = {})
+    yaml = ::Psych.dump(entity)
+    if options[:file]
+      File.open(options[:file], 'w') do |f|
+        f.write(yaml)
       end
     end
+    yaml
   end
 end

data/lib/treat/formatters/unserializers/autoselect.rb CHANGED Viewed

@@ -1,25 +1,15 @@
-module Treat
-  module Formatters
-    module Unserializers
-      # This class doesn't perform any unserializing;
-      # it simply routes the document to an unserializer
-      # based on the file extension of the document.
-      class Autoselect
-        # Unserialize any supported file format.
-        #
-        # Options: none.
-        def self.unserialize(document, options = {})
-          ext = document.file.split('.')[-1]
-          if ext == 'yaml' || ext == 'yml'
-            document.unserialize(:yaml)
-          elsif ext == 'xml'
-            document.unserialize(:xml)
-          else
-            raise "File #{document.file} was not recognized "+
-            "as a supported serialized format."
-          end
-        end
-      end
+class Treat::Formatters::Unserializers::Autoselect
+  def self.unserialize(document, options = {})
+    file = document.file
+    if file.index('yml') || file.index('yaml')
+      document.unserialize(:yaml, options)
+    elsif file.index('xml')
+      document.unserialize(:xml, options)
+    else
+      raise Treat::Exception,
+      "Unreadable serialized format for file #{file}."
     end
   end
 end