RubyGems - treat - Versions diffs - 0.2.5 → 1.0.0 - Mend

treat 0.2.5 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

data/LICENSE +3 -3
data/README.md +33 -0
data/files/INFO +1 -0
data/lib/treat.rb +40 -105
data/lib/treat/ai.rb +12 -0
data/lib/treat/ai/classifiers/id3.rb +27 -0
data/lib/treat/categories.rb +82 -35
data/lib/treat/categorizable.rb +44 -0
data/lib/treat/classification.rb +61 -0
data/lib/treat/configurable.rb +115 -0
data/lib/treat/data_set.rb +42 -0
data/lib/treat/dependencies.rb +24 -0
data/lib/treat/downloader.rb +87 -0
data/lib/treat/entities.rb +68 -66
data/lib/treat/entities/abilities.rb +10 -0
data/lib/treat/entities/abilities/buildable.rb +327 -0
data/lib/treat/entities/abilities/checkable.rb +31 -0
data/lib/treat/entities/abilities/copyable.rb +45 -0
data/lib/treat/entities/abilities/countable.rb +51 -0
data/lib/treat/entities/abilities/debuggable.rb +83 -0
data/lib/treat/entities/abilities/delegatable.rb +123 -0
data/lib/treat/entities/abilities/doable.rb +62 -0
data/lib/treat/entities/abilities/exportable.rb +11 -0
data/lib/treat/entities/abilities/iterable.rb +115 -0
data/lib/treat/entities/abilities/magical.rb +83 -0
data/lib/treat/entities/abilities/registrable.rb +74 -0
data/lib/treat/entities/abilities/stringable.rb +91 -0
data/lib/treat/entities/entities.rb +104 -0
data/lib/treat/entities/entity.rb +122 -245
data/lib/treat/exception.rb +4 -4
data/lib/treat/extractors.rb +77 -80
data/lib/treat/extractors/keywords/tf_idf.rb +56 -22
data/lib/treat/extractors/language/what_language.rb +50 -45
data/lib/treat/extractors/name_tag/stanford.rb +55 -0
data/lib/treat/extractors/tf_idf/native.rb +87 -0
data/lib/treat/extractors/time/chronic.rb +55 -0
data/lib/treat/extractors/time/nickel.rb +86 -62
data/lib/treat/extractors/time/ruby.rb +53 -0
data/lib/treat/extractors/topic_words/lda.rb +67 -58
data/lib/treat/extractors/topics/reuters.rb +100 -87
data/lib/treat/formatters.rb +39 -35
data/lib/treat/formatters/readers/abw.rb +49 -29
data/lib/treat/formatters/readers/autoselect.rb +37 -33
data/lib/treat/formatters/readers/doc.rb +19 -13
data/lib/treat/formatters/readers/html.rb +52 -30
data/lib/treat/formatters/readers/image.rb +41 -40
data/lib/treat/formatters/readers/odt.rb +59 -45
data/lib/treat/formatters/readers/pdf.rb +28 -25
data/lib/treat/formatters/readers/txt.rb +12 -15
data/lib/treat/formatters/readers/xml.rb +73 -36
data/lib/treat/formatters/serializers/xml.rb +80 -79
data/lib/treat/formatters/serializers/yaml.rb +19 -18
data/lib/treat/formatters/unserializers/autoselect.rb +12 -22
data/lib/treat/formatters/unserializers/xml.rb +94 -99
data/lib/treat/formatters/unserializers/yaml.rb +20 -19
data/lib/treat/formatters/visualizers/dot.rb +132 -132
data/lib/treat/formatters/visualizers/standoff.rb +52 -44
data/lib/treat/formatters/visualizers/tree.rb +26 -29
data/lib/treat/groupable.rb +153 -0
data/lib/treat/helpers/decimal_point_escaper.rb +22 -0
data/lib/treat/inflectors.rb +50 -45
data/lib/treat/inflectors/cardinalizers/linguistics.rb +40 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +55 -0
data/lib/treat/inflectors/declensors/active_support.rb +31 -0
data/lib/treat/inflectors/declensors/english.rb +38 -0
data/lib/treat/inflectors/declensors/english/inflect.rb +288 -0
data/lib/treat/inflectors/declensors/linguistics.rb +49 -0
data/lib/treat/inflectors/ordinalizers/linguistics.rb +17 -0
data/lib/treat/inflectors/stemmers/porter.rb +160 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +24 -0
data/lib/treat/inflectors/stemmers/uea.rb +28 -0
data/lib/treat/installer.rb +308 -0
data/lib/treat/kernel.rb +105 -27
data/lib/treat/languages.rb +122 -88
data/lib/treat/languages/arabic.rb +15 -15
data/lib/treat/languages/chinese.rb +15 -15
data/lib/treat/languages/dutch.rb +15 -15
data/lib/treat/languages/english.rb +61 -62
data/lib/treat/languages/french.rb +19 -19
data/lib/treat/languages/german.rb +20 -20
data/lib/treat/languages/greek.rb +15 -15
data/lib/treat/languages/italian.rb +16 -16
data/lib/treat/languages/polish.rb +15 -15
data/lib/treat/languages/portuguese.rb +15 -15
data/lib/treat/languages/russian.rb +15 -15
data/lib/treat/languages/spanish.rb +16 -16
data/lib/treat/languages/swedish.rb +16 -16
data/lib/treat/lexicalizers.rb +34 -55
data/lib/treat/lexicalizers/categorizers/from_tag.rb +54 -0
data/lib/treat/lexicalizers/sensers/wordnet.rb +57 -0
data/lib/treat/lexicalizers/sensers/wordnet/synset.rb +71 -0
data/lib/treat/lexicalizers/taggers/brill.rb +70 -0
data/lib/treat/lexicalizers/taggers/brill/patch.rb +61 -0
data/lib/treat/lexicalizers/taggers/lingua.rb +90 -0
data/lib/treat/lexicalizers/taggers/stanford.rb +97 -0
data/lib/treat/linguistics.rb +9 -0
data/lib/treat/linguistics/categories.rb +11 -0
data/lib/treat/linguistics/tags.rb +422 -0
data/lib/treat/loaders/linguistics.rb +30 -0
data/lib/treat/loaders/stanford.rb +27 -0
data/lib/treat/object.rb +1 -0
data/lib/treat/processors.rb +37 -44
data/lib/treat/processors/chunkers/autoselect.rb +16 -0
data/lib/treat/processors/chunkers/html.rb +71 -0
data/lib/treat/processors/chunkers/txt.rb +18 -24
data/lib/treat/processors/parsers/enju.rb +253 -208
data/lib/treat/processors/parsers/stanford.rb +130 -131
data/lib/treat/processors/segmenters/punkt.rb +79 -45
data/lib/treat/processors/segmenters/stanford.rb +46 -48
data/lib/treat/processors/segmenters/tactful.rb +43 -36
data/lib/treat/processors/tokenizers/perl.rb +124 -92
data/lib/treat/processors/tokenizers/ptb.rb +81 -0
data/lib/treat/processors/tokenizers/punkt.rb +48 -42
data/lib/treat/processors/tokenizers/stanford.rb +39 -38
data/lib/treat/processors/tokenizers/tactful.rb +64 -55
data/lib/treat/proxies.rb +52 -35
data/lib/treat/retrievers.rb +26 -16
data/lib/treat/retrievers/indexers/ferret.rb +47 -26
data/lib/treat/retrievers/searchers/ferret.rb +69 -50
data/lib/treat/tree.rb +241 -183
data/spec/collection.rb +123 -0
data/spec/document.rb +93 -0
data/spec/entity.rb +408 -0
data/spec/languages.rb +25 -0
data/spec/phrase.rb +146 -0
data/spec/samples/mathematicians/archimedes.abw +34 -0
data/spec/samples/mathematicians/euler.html +21 -0
data/spec/samples/mathematicians/gauss.pdf +0 -0
data/spec/samples/mathematicians/leibniz.txt +13 -0
data/spec/samples/mathematicians/newton.doc +0 -0
data/spec/sandbox.rb +5 -0
data/spec/token.rb +109 -0
data/spec/treat.rb +52 -0
data/spec/tree.rb +117 -0
data/spec/word.rb +110 -0
data/spec/zone.rb +66 -0
data/tmp/INFO +1 -1
metadata +100 -201
data/INSTALL +0 -1
data/README +0 -3
data/TODO +0 -28
data/lib/economist/half_cocked_basel.txt +0 -16
data/lib/economist/hungarys_troubles.txt +0 -46
data/lib/economist/indias_slowdown.txt +0 -15
data/lib/economist/merkozy_rides_again.txt +0 -24
data/lib/economist/prada_is_not_walmart.txt +0 -9
data/lib/economist/to_infinity_and_beyond.txt +0 -15
data/lib/ferret/_11.cfs +0 -0
data/lib/ferret/_14.cfs +0 -0
data/lib/ferret/_p.cfs +0 -0
data/lib/ferret/_s.cfs +0 -0
data/lib/ferret/_v.cfs +0 -0
data/lib/ferret/_y.cfs +0 -0
data/lib/ferret/segments +0 -0
data/lib/ferret/segments_15 +0 -0
data/lib/treat/buildable.rb +0 -157
data/lib/treat/category.rb +0 -33
data/lib/treat/delegatable.rb +0 -116
data/lib/treat/doable.rb +0 -45
data/lib/treat/entities/collection.rb +0 -14
data/lib/treat/entities/document.rb +0 -12
data/lib/treat/entities/phrases.rb +0 -17
data/lib/treat/entities/tokens.rb +0 -61
data/lib/treat/entities/zones.rb +0 -41
data/lib/treat/extractors/coreferences/stanford.rb +0 -69
data/lib/treat/extractors/date/chronic.rb +0 -32
data/lib/treat/extractors/date/ruby.rb +0 -25
data/lib/treat/extractors/keywords/topics_tf_idf.rb +0 -48
data/lib/treat/extractors/language/language_extractor.rb +0 -27
data/lib/treat/extractors/named_entity_tag/stanford.rb +0 -53
data/lib/treat/extractors/roles/naive.rb +0 -73
data/lib/treat/extractors/statistics/frequency_in.rb +0 -16
data/lib/treat/extractors/statistics/position_in.rb +0 -14
data/lib/treat/extractors/statistics/tf_idf.rb +0 -104
data/lib/treat/extractors/statistics/transition_matrix.rb +0 -105
data/lib/treat/extractors/statistics/transition_probability.rb +0 -57
data/lib/treat/extractors/topic_words/lda/data.dat +0 -46
data/lib/treat/extractors/topic_words/lda/wiki.yml +0 -121
data/lib/treat/extractors/topics/reuters/industry.xml +0 -2717
data/lib/treat/extractors/topics/reuters/region.xml +0 -13586
data/lib/treat/extractors/topics/reuters/topics.xml +0 -17977
data/lib/treat/feature.rb +0 -58
data/lib/treat/features.rb +0 -7
data/lib/treat/formatters/visualizers/short_value.rb +0 -29
data/lib/treat/formatters/visualizers/txt.rb +0 -45
data/lib/treat/group.rb +0 -106
data/lib/treat/helpers/linguistics_loader.rb +0 -18
data/lib/treat/inflectors/cardinal_words/linguistics.rb +0 -42
data/lib/treat/inflectors/conjugations/linguistics.rb +0 -36
data/lib/treat/inflectors/declensions/english.rb +0 -319
data/lib/treat/inflectors/declensions/linguistics.rb +0 -42
data/lib/treat/inflectors/ordinal_words/linguistics.rb +0 -20
data/lib/treat/inflectors/stem/porter.rb +0 -162
data/lib/treat/inflectors/stem/porter_c.rb +0 -26
data/lib/treat/inflectors/stem/uea.rb +0 -30
data/lib/treat/install.rb +0 -59
data/lib/treat/languages/tags.rb +0 -377
data/lib/treat/lexicalizers/category/from_tag.rb +0 -49
data/lib/treat/lexicalizers/linkages/naive.rb +0 -63
data/lib/treat/lexicalizers/synsets/wordnet.rb +0 -76
data/lib/treat/lexicalizers/tag/brill.rb +0 -91
data/lib/treat/lexicalizers/tag/lingua.rb +0 -123
data/lib/treat/lexicalizers/tag/stanford.rb +0 -70
data/lib/treat/processors/segmenters/punkt/dutch.yaml +0 -9716
data/lib/treat/processors/segmenters/punkt/english.yaml +0 -10340
data/lib/treat/processors/segmenters/punkt/french.yaml +0 -43159
data/lib/treat/processors/segmenters/punkt/german.yaml +0 -9572
data/lib/treat/processors/segmenters/punkt/greek.yaml +0 -6050
data/lib/treat/processors/segmenters/punkt/italian.yaml +0 -14748
data/lib/treat/processors/segmenters/punkt/polish.yaml +0 -9751
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +0 -13662
data/lib/treat/processors/segmenters/punkt/russian.yaml +0 -4237
data/lib/treat/processors/segmenters/punkt/spanish.yaml +0 -24034
data/lib/treat/processors/segmenters/punkt/swedish.yaml +0 -10001
data/lib/treat/processors/tokenizers/macintyre.rb +0 -77
data/lib/treat/processors/tokenizers/multilingual.rb +0 -30
data/lib/treat/registrable.rb +0 -28
data/lib/treat/sugar.rb +0 -50
data/lib/treat/viewable.rb +0 -29
data/lib/treat/visitable.rb +0 -28
data/test/profile.rb +0 -2
data/test/tc_entity.rb +0 -117
data/test/tc_extractors.rb +0 -73
data/test/tc_formatters.rb +0 -41
data/test/tc_inflectors.rb +0 -34
data/test/tc_lexicalizers.rb +0 -32
data/test/tc_processors.rb +0 -50
data/test/tc_resources.rb +0 -22
data/test/tc_treat.rb +0 -60
data/test/tc_tree.rb +0 -60
data/test/tests.rb +0 -20
data/test/texts.rb +0 -19
data/test/texts/english/half_cocked_basel.txt +0 -16
data/test/texts/english/hose_and_dry.doc +0 -0
data/test/texts/english/hungarys_troubles.abw +0 -70
data/test/texts/english/long.html +0 -24
data/test/texts/english/long.txt +0 -22
data/test/texts/english/medium.txt +0 -5
data/test/texts/english/republican_nomination.pdf +0 -0
data/test/texts/english/saving_the_euro.odt +0 -0
data/test/texts/english/short.txt +0 -3
data/test/texts/english/zero_sum.html +0 -111

data/lib/treat/loaders/linguistics.rb ADDED Viewed

@@ -0,0 +1,30 @@
+class Treat::Loaders
+  # A helper class to load a language class
+  # registered with the Linguistics gem.
+  class Linguistics
+    silence_warnings { require 'linguistics' }
+    @@languages = {}
+    def self.load(language)
+      if @@languages[language]
+        return @@languages[language]
+      end
+      begin
+        l = language.to_s.upcase
+        silence_warnings do
+          @@languages[language] =
+          ::Linguistics.const_get(l)
+        end
+      rescue RuntimeError
+        raise "Ruby Linguistics does " +
+        "not have a module installed " +
+        "for the #{language} language."
+      end
+    end
+  end
+end

data/lib/treat/loaders/stanford.rb ADDED Viewed

@@ -0,0 +1,27 @@
+class Treat::Loaders
+  # A helper class to load a language class
+  # registered with the Linguistics gem.
+  class Stanford
+    require 'stanford-core-nlp'
+    StanfordCoreNLP.jar_path =
+    Treat.bin + 'stanford/'
+    StanfordCoreNLP.model_path =
+    Treat.models + 'stanford/'
+    StanfordCoreNLP.use(
+    Treat::Languages.describe(
+    Treat.default_language))
+    StanfordCoreNLP.log_file =
+    NULL_DEVICE if Treat.silence
+    StanfordCoreNLP.init
+    @@loaded = true
+  end
+end

data/lib/treat/object.rb CHANGED Viewed

@@ -1,5 +1,6 @@
 # Make undefining constants publicly available on any object.
 Object.module_eval do
+  # Unset a constant without private access.
   def self.const_unset(const)
     Object.instance_eval { remove_const(const) }
   end

data/lib/treat/processors.rb CHANGED Viewed

@@ -1,45 +1,38 @@
-module Treat
-  # Category for processor groups.
-  #
-  # A processor group is a group of algorithms for the building
-  # of trees representing textual entities.
-  #
-  # The processor groups include:
-  #
-  #   - Chunkers : split a text into zone objects.
-  #   - Segmenters : split a text or zone into sentence objects.
-  #   - Tokenizers : split a sentence into Token objects.
-  #   - Parsers: split a sentence into a tree of phrases
-  #     containing other phrases and Token objects, representing
-  #     the syntactic structure.
-  module Processors
-    # Chunkers split a text into zones.
-    module Chunkers
-      extend Group
-      self.type = :transformer
-      self.targets = [:document, :section]
-    end
-    # Segmenters split a text or zone into sentences.
-    module Segmenters
-      extend Group
-      self.type = :transformer
-      self.targets = [:document, :zone]
-    end
-    # Tokenizers splits a sentence into Token objects.
-    module Tokenizers
-      extend Group
-      self.type = :transformer
-      self.targets = [:document, :zone, :phrase]
-    end
-    # Parsers split a sentence into phrase objects
-    # representing its syntactic structure, with the
-    # Token objects as children of the phrases.
-    module Parsers
-      extend Group
-      self.type = :transformer
-      self.targets = [:document, :zone, :phrase]
-    end
-    # Makes all the groups autoloadable and creates the workers.
-    extend Treat::Category
+# Processors build trees representing textual entities.
+module Treat::Processors
+  # Chunkers split a document into sections and zones.
+  module Chunkers
+    extend Treat::Groupable
+    self.type = :transformer
+    self.targets = [:document]
+    self.default = :autoselect
   end
-end
+  # Segmenters split a document or zone into sentences.
+  module Segmenters
+    extend Treat::Groupable
+    self.type = :transformer
+    self.targets = [:zone]
+  end
+  # Tokenizers splits a sentence into Token objects.
+  module Tokenizers
+    extend Treat::Groupable
+    self.type = :transformer
+    self.targets = [:phrase]
+  end
+  # Parsers split a sentence into phrase objects
+  # representing its syntactic structure, with the
+  # Token objects as children of the phrases.
+  module Parsers
+    extend Treat::Groupable
+    self.type = :transformer
+    self.targets = [:phrase]
+  end
+  # Make Processors categorizable.
+  extend Treat::Categorizable
+end

data/lib/treat/processors/chunkers/autoselect.rb ADDED Viewed

@@ -0,0 +1,16 @@
+class Treat::Processors::Chunkers::Autoselect
+  def self.chunk(entity, options = {})
+    entity.check_has(:format)
+    begin
+      k = Treat::Processors::
+      Chunkers.const_get(cc(entity.format))
+      k.chunk(entity, options)
+    rescue Treat::Exception
+      Treat::Processors::
+      Chunkers::TXT.chunk(entity, options)
+    end
+  end
+end

data/lib/treat/processors/chunkers/html.rb ADDED Viewed

@@ -0,0 +1,71 @@
+class Treat::Processors::Chunkers::HTML
+  require 'nokogiri'
+  def self.chunk(entity, options = {})
+    entity.check_hasnt_children
+    doc = Nokogiri::HTML(entity.value)
+    recurse(entity, doc)
+  end
+  def self.recurse(node, html_node, level = 1)
+    html_node.children.each do |child|
+      next if child.name == 'text'
+      txt = child.inner_text
+      if child.name =~ /^h([0-9]{1})$/ ||
+        (child.name == 'p' && txt.length < 45 &&
+        node.parent && node.parent.type == :section)
+        if $1
+          lvl = $1.to_i
+          if lvl <= level
+            node.ancestors_with_type(:section).
+              each do |s|
+                l = s.has?(:level) ? s.level : 1
+                node = s if l == lvl - 1
+            end
+            node = node <<
+            Treat::Entities::Section.new
+          elsif lvl > level
+            node = node <<
+            Treat::Entities::Section.new
+          end
+          level = lvl
+          node.set :level, level
+        end
+        t = node <<
+        Treat::Entities::Title.new(txt)
+        t.set :level, level
+      elsif child.name == 'p'
+        node << Treat::Entities::Zone.
+        from_string(txt)
+      elsif ['ul', 'ol'].include?(child.name)
+        node = node <<
+        Treat::Entities::List.new
+      elsif ['li'].include?(child.name)
+        n = Treat::Entities::Entity.
+        zone_from_string(txt)
+        node << n
+      end
+      if child.children.size > 0
+        recurse(node, child, level)
+      end
+    end
+  end
+end

data/lib/treat/processors/chunkers/txt.rb CHANGED Viewed

@@ -1,27 +1,21 @@
-module Treat
-  module Processors
-    module Chunkers
-      # This class separates a plain text file into
-      # zones based on an extremely naive analysis of the
-      # file. Suprisingly, this works pretty well.
-      class Txt
-        # Split a document into Zone objects.
-        def self.chunk(text, options = {})
-          zones = text.to_s.split("\n")
-          zones.each do |zone|
-            zone.strip!
-            next if zone == ''
-            if false # fix
-              text << Treat::Entities::List.new(zone)
-            end
-            if zone.length < 60
-              text << Treat::Entities::Title.new(zone)
-            else
-              text << Treat::Entities::Paragraph.new(zone)
-            end
-          end
-        end
-      end
+class Treat::Processors::Chunkers::TXT
+  # Separates a string into
+  # zones on the basis of newlines.
+  #
+  # Options: none.
+  def self.chunk(entity, options = {})
+    entity.check_hasnt_children
+    zones = entity.to_s.split("\n")
+    zones.each do |zone|
+      zone.strip!
+      next if zone == ''
+      entity << Treat::Entities::
+      Zone.from_string(zone)
     end
   end
 end

data/lib/treat/processors/parsers/enju.rb CHANGED Viewed

@@ -1,218 +1,263 @@
-module Treat
-  module Processors
-    module Parsers
-      # The Enju class is a wrapper for the Enju syntactic
-      # parser for English. Given a file or string input,
-      # the parser formats it runs it through Enju, and
-      # parses the XML output by Enju using the Nokogiri
-      # XML reader. It creates wrappers for the sentences,
-      # syntactical phrases and  tokens that Enju identified.
-      #
-      # Original paper:
-      # Takuya Matsuzaki, Yusuke Miyao, and Jun'ichi Tsujii.
-      # 2007. Efficient HPSG Parsing with Supertagging and
-      # CFG-filtering. In Proceedings of IJCAI 2007.
-      class Enju
-        # Require the 'open13' library for interaction
-        # with the background Enju process.
-        require 'open3'
-        @@parsers = []
-        @@i = 0
-        # Require the Nokogiri XML parser.
-        require 'nokogiri'
-        # Return the process running Enju.
-        def self.proc
-          if @@parsers.size < @@options[:processes]
-            @@parsers << ::Open3.popen3("enju -xml -i")
-          end
-          @@i += 1
-          @@i = 0 if @@i == @@parsers.size
-          @@parsers[@@i-1]
-        end
-        # Parse the entity into its syntactical phrases using Enju.
-        # Calls #build to initiate XML parsing.
-        def self.parse(entity, options = {})
-          val = entity.to_s
-          entity.remove_all! if entity.has_children?
-          options[:processes] ||= 1
-          @@options = options
-          @@id_table = {}
-          @@dependencies_table = {}
-          stdin, stdout = proc
-          text, remove_last = valid_text(val)
-          stdin.puts(text + "\n")
-          parsed = build(stdout.gets, remove_last)
-          if not parsed.nil?
-            entity.remove_all!
-            parsed.children.each do |child|
-              entity << child
-            end
-            # Remove the period we added at the end.
-            if remove_last
-              last = entity.punctuations[-1]
-              entity.remove!(last)
-            end
-          else
-            warn "Couldn't parse the text '#{entity.to_s}'."
-          end
-          link_heads(entity)
-          add_dependencies(entity)
-        end
-        # Parses an Enju XML output file using the Nogoriki
-        # XML reader and converts that structure into a tree
-        # of wrappers for textual entities.
-        def self.build(xml, remove_last = false)
-          # Read in the XML file.
-          xml_reader = Nokogiri::XML::Reader.from_memory(xml)
-          current_element = nil
-          previous_depth = 0
-          # Read the XML file entity by entity.
-          while xml_reader.read
-            # The depth in the XML tree.
-            current_depth = xml_reader.depth
-            # If we are at the end of the children stack, pop up.
-            if previous_depth > current_depth
-              current_element = current_element.parent
-            end
-            # If an end element has been reached,
-            # change the depth and pop up on next
-            # iteration.
-            if xml_reader.node_type ==
-              Nokogiri::XML::Reader::TYPE_END_ELEMENT
-              previous_depth = current_depth
-              next
-            end
-            # Get and format attributes and dependencies.
-            attributes = xml_reader.attributes
-            id = attributes.delete('id')
-            new_attributes = {}; dependencies = {}
-            unless attributes.size == 0
-              new_attributes, dependencies =
-              cleanup_attributes(xml_reader.name, attributes)
-            end
-            # Create the appropriate entity for the
-            # element.
-            current_value = ''
-            case xml_reader.name
-            when 'sentence'
-              current_element = Treat::Entities::Sentence.new('')
-              @@id_table[id] = current_element.id
-              @@dependencies_table[current_element.id] = dependencies
-              current_element.features = new_attributes
-            when 'cons'
-              current_element = current_element <<
-              Treat::Entities::Phrase.new('')
-              @@id_table[id] = current_element.id
-              @@dependencies_table[current_element.id] = dependencies
-              current_element.features = new_attributes
-            when 'tok'
-              tmp_attributes = new_attributes
-              tmp_dependencies = dependencies
-            else
-              current_value = xml_reader.value.gsub(/\s+/, "")
-              unless current_value.size == 0
-                current_element = current_element <<
-                Treat::Entities::Token.from_string(current_value)
-                if current_element.is_a?(Treat::Entities::Word)
-                  current_element.features = tmp_attributes
-                  @@id_table[id] = current_element.id
-                  @@dependencies_table[current_element.id] = tmp_dependencies
-                end
-              end
-            end
-            previous_depth = current_depth
-          end
-          current_element
-        end
-        # Validate a text - Enju wants period to parse a sentence.
-        def self.valid_text(val)
-          if val.count('.') == 0
-            remove_last = true
-            text = val + '.'
+# This class is a wrapper for the Enju syntactic
+# parser for English. Given an entity's string value,
+# the parser formats it runs it through Enju, and
+# parses the XML output by Enju using the Nokogiri
+# XML reader. It creates wrappers for the sentences,
+# syntactical phrases and tokens that Enju identified.
+#
+# Original paper:
+#
+# Takuya Matsuzaki, Yusuke Miyao, and Jun'ichi Tsujii.
+# 2007. Efficient HPSG Parsing with Supertagging and
+# CFG-filtering. In Proceedings of IJCAI 2007.
+module Treat::Processors::Parsers::Enju
+  # Require the 'open3' library to connect
+  # with the background Enju process.
+  require 'open3'
+  # Require the Nokogiri XML parser.
+  require 'nokogiri'
+  # Create only one process and hold on to it.
+  @@parser = nil
+  # A hash of Enju cat tags mapped to word categories.
+  Ectc = Treat::Linguistics::Tags::EnjuCatToCategory
+  # A hash of Enju cat/xcat pairs mapped to PTB tags.
+  Ecxtp = Treat::Linguistics::Tags::EnjuCatXcatToPTB
+  # Parse the entity into its syntactical
+  # phrases using Enju.
+  #
+  # Options: none.
+  def self.parse(entity, options = {})
+    entity.check_hasnt_children
+    val = entity.to_s
+    @@id_table = {}
+    @@dependencies_table = {}
+    stdin, stdout = proc
+    text, remove_last = valid_text(val)
+    stdin.puts(text + "\n")
+    parsed = build(stdout.gets, remove_last)
+    if parsed
+      entity.remove_all!
+      parsed.children.each do |child|
+        entity << child
+      end
+      # Remove the period we added at the end.
+      if remove_last
+        last = entity.punctuations[-1]
+        entity.remove!(last)
+      end
+    else
+      warn "Warning - Enju couldn't " +
+      "parse the text '#{entity.short_value}'."
+      return
+    end
+    link_heads(entity)
+    add_dependencies(entity)
+  end
+  # Return the process running Enju.
+  def self.proc
+    begin
+      @@parser = ::Open3.popen3("enju -xml -i")
+    rescue Exception => e
+      raise Treat::Exception,
+      "Couldn't initialize Enju: #{e.message}."
+    end
+    @@parser
+  end
+  # Parses an Enju XML output file using the Nogoriki
+  # XML reader and converts that structure into a tree
+  # of wrappers for textual entities.
+  def self.build(xml, remove_last = false)
+    # Read in the XML file.
+    reader = Nokogiri::XML::Reader.from_memory(xml)
+    entity = nil
+    pd = 0
+    # Read the XML file entity by entity.
+    while reader.read
+      # The depth in the XML tree.
+      cd = reader.depth
+      # If we are at the end of the
+      # children stack, pop up.
+      if pd > cd
+        entity = entity.parent
+      end
+      # If an end element has been reached,
+      # change the depth and pop up on next
+      # iteration.
+      if reader.node_type ==
+        Nokogiri::XML::Reader::TYPE_END_ELEMENT
+        pd = cd
+        next
+      end
+      # Get and format attributes and dependencies.
+      attributes = reader.attributes
+      id = attributes.delete('id')
+      new_attr = {}; dependencies = {}
+      unless attributes.size == 0
+        new_attr, dependencies =
+        cleanup_attributes(reader.name, attributes)
+      end
+      # Create the appropriate entity for the
+      # element.
+      current_value = ''
+      case reader.name
+      when 'sentence'
+        entity = Treat::Entities::Sentence.new('')
+        @@id_table[id] = entity.id
+        @@dependencies_table[entity.id] = dependencies
+        entity.features = new_attr
+      when 'cons'
+        entity = entity <<
+        Treat::Entities::Phrase.new('')
+        @@id_table[id] = entity.id
+        @@dependencies_table[entity.id] = dependencies
+        entity.features = new_attr
+      when 'tok'
+        tmp_attributes = new_attr
+        tmp_dependencies = dependencies
+      else
+        current_value = reader.value.gsub(/\s+/, "")
+        unless current_value.size == 0
+          entity = entity <<
+          Treat::Entities::Token.from_string(current_value)
+          if entity.is_a?(Treat::Entities::Word)
+            entity.features = tmp_attributes
+            @@id_table[id] = entity.id
+            @@dependencies_table[entity.id] = tmp_dependencies
           else
-            remove_last = false
-            text = val.gsub('.', '')
-            text += '.' unless ['!', '?'].include?(text[-1])
-          end
-          return text, remove_last
-        end
-        # Link the head and sem_head to their entities.
-        def self.link_heads(entity)
-          entity.each_phrase do |phrase|
-            if phrase.has?(:head)
-              phrase.link(@@id_table[phrase.head], 'head', true, -1)
-              phrase.unset(:head)
-            end
-            if phrase.has?(:sem_head)
-              phrase.link(@@id_table[phrase.sem_head], 'sem_head', true, -1)
-              phrase.unset(:sem_head)
-            end
+            # Do something useful here
+            entity.set :tag, 'SYM'
           end
         end
-        # Add dependencies a posterior to a parsed entity.
-        def self.add_dependencies(entity2)
-          entity2.each_entity(:word, :phrase) do |entity|
-            @@dependencies_table.each_pair do |id2, dependencies2|
-              # Next if there are no dependencies.
-              next if dependencies2.nil?
-              entity = entity2.root.find(id2)
-              next if entity.nil?
-              dependencies2.each_pair do |argument, type|
-                # Skip this argument if we don't know the target node.
-                next if argument == 'unk'
-                entity.link(@@id_table[argument], type.intern)
-              end
-            end
-          end
+      end
+      pd = cd
+    end
+    entity
+  end
+  # Validate a text - Enju wants period to parse a sentence.
+  def self.valid_text(val)
+    if val.count('.') == 0
+      remove_last = true
+      text = val + '.'
+    else
+      remove_last = false
+      text = val.gsub('.', '')
+      text += '.' unless ['!', '?'].include?(text[-1])
+    end
+    return text, remove_last
+  end
+  # Link the head and sem_head to their entities.
+  def self.link_heads(entity)
+    entity.each_phrase do |phrase|
+      if phrase.has?(:head)
+        phrase.link(
+        @@id_table[phrase.head],
+        'head', true, -1)
+        phrase.unset(:head)
+      end
+      if phrase.has?(:sem_head)
+        phrase.link(
+        @@id_table[phrase.sem_head],
+        'sem_head', true, -1)
+        phrase.unset(:sem_head)
+      end
+    end
+  end
+  # Add dependencies a posteriori to a parsed entity.
+  def self.add_dependencies(entity2)
+    entity2.each_entity(:word, :phrase) do |entity|
+      @@dependencies_table.each_pair do |id, dependencies|
+        next if dependencies.nil?
+        entity = entity2.root.find(id)
+        next if entity.nil?
+        dependencies.each_pair do |argument, type|
+          # Skip this argument if we
+          # don't know the target node.
+          next if argument == 'unk'
+          entity.link(
+            @@id_table[argument],
+            type.intern
+          )
         end
-        # Helper function to convert Enju attributes to Treat attributes.
-        def self.cleanup_attributes(name, attributes)
-          new_attributes = {}
-          dependencies = {}
-          pred = attributes.delete('pred')
-          attributes.each_pair do |attribute2, value|
-            attribute = attribute2.strip
-            if attribute == 'arg1' || attribute == 'arg2'
-              dependencies[value] = pred
-              next
-            end
-            if attribute == 'cat'
-              new_attributes[:cat] = value
-              if name == 'tok'
-                if value.length > 1 && ['P', 'X'].include?(value[-1]) &&
-                  value != 'PN'
-                  new_attributes[:saturated] = (value[-1] == 'P')
-                  value = value[0..-2]
-                end
-                new_attributes[:category] =
-                Treat::Languages::Tags::EnjuCatToCategory[value]
-              else
-                tags = Treat::Languages::Tags::EnjuCatXcatToPTB.select do |m|
-                  m[0] == value && m[1] == attributes['xcat']
-                end
-                tag = (tags.size == 0) ? 'FW' : tags[0][2]
-                new_attributes[:tag] = tag
-              end
-            else
-              new_attributes[:"#{attribute}"] = value
-            end
-          end
-          # Delete after iteration.
-          attributes.delete('arg1')
-          attributes.delete('arg2')
-          # Handle naming conventions.
-          if attributes.has_key?('pos')
-            new_attributes[:tag] = new_attributes[:pos]
-            new_attributes[:tag_set] = :penn
-            new_attributes.delete :pos
+      end
+    end
+  end
+  # Helper function to convert Enju attributes to Treat attributes.
+  def self.cleanup_attributes(name, attributes)
+    new_attr = {}
+    dependencies = {}
+    pred = attributes.delete('pred')
+    attributes.each_pair do |attribute2, value|
+      attribute = attribute2.strip
+      if attribute == 'arg1' ||
+        attribute == 'arg2'
+        dependencies[value] = pred
+        next
+      end
+      if attribute == 'cat'
+        new_attr[:cat] = value
+        if name == 'tok'
+          if value.length > 1 &&
+            ['P', 'X'].include?(value[-1]) &&
+            value != 'PN'
+            new_attr[:saturated] =
+            (value[-1] == 'P')
+            value = value[0..-2]
           end
-          if attributes.has_key?('base')
-            new_attributes[:lemma] = new_attributes[:base]
-            new_attributes.delete :base
+          new_attr[:category] = Ectc[value]
+        else
+          tags = Ecxtp.select do |m|
+            m[0] == value && m[1] ==
+            attributes['xcat']
           end
-          return new_attributes, dependencies
+          tag = (tags.size == 0) ?
+          'FW' : tags[0][2]
+          new_attr[:tag] = tag
         end
+      else
+        new_attr[:"#{attribute}"] = value
       end
+    end
+    # Handle naming conventions.
+    if attributes.has_key?('pos')
+      new_attr[:tag] = new_attr[:pos]
+      new_attr[:tag_set] = :penn
+      new_attr.delete :pos
+    end
+    if attributes.has_key?('base')
+      new_attr[:lemma] = new_attr[:base]
+      new_attr.delete :base
     end
+    return new_attr, dependencies
   end
-end
+end