RubyGems - treat - Versions diffs - 0.1.4 → 0.2.0 - Mend

treat 0.1.4 → 0.2.0

Files changed (160) hide show

data/LICENSE +4 -4
data/TODO +21 -54
data/lib/economist/half_cocked_basel.txt +16 -0
data/lib/economist/hose_and_dry.doc +0 -0
data/lib/economist/hungarys_troubles.abw +70 -0
data/lib/economist/republican_nomination.pdf +0 -0
data/lib/economist/saving_the_euro.odt +0 -0
data/lib/economist/to_infinity_and_beyond.txt +15 -0
data/lib/economist/zero_sum.html +91 -0
data/lib/treat.rb +58 -72
data/lib/treat/buildable.rb +59 -15
data/lib/treat/categories.rb +26 -14
data/lib/treat/category.rb +2 -2
data/lib/treat/delegatable.rb +65 -48
data/lib/treat/doable.rb +44 -0
data/lib/treat/entities.rb +34 -14
data/lib/treat/entities/collection.rb +2 -0
data/lib/treat/entities/document.rb +3 -2
data/lib/treat/entities/entity.rb +105 -90
data/lib/treat/entities/phrases.rb +17 -0
data/lib/treat/entities/tokens.rb +28 -13
data/lib/treat/entities/zones.rb +20 -0
data/lib/treat/extractors.rb +49 -11
data/lib/treat/extractors/coreferences/stanford.rb +68 -0
data/lib/treat/extractors/date/chronic.rb +32 -0
data/lib/treat/extractors/date/ruby.rb +25 -0
data/lib/treat/extractors/keywords/tf_idf.rb +26 -0
data/lib/treat/extractors/keywords/{topics_frequency.rb → topics_tf_idf.rb} +15 -7
data/lib/treat/{detectors/language/language_detector.rb → extractors/language/language_extractor.rb} +5 -2
data/lib/treat/extractors/language/what_language.rb +49 -0
data/lib/treat/extractors/named_entity_tag/stanford.rb +53 -0
data/lib/treat/extractors/roles/naive.rb +73 -0
data/lib/treat/extractors/statistics/frequency_in.rb +6 -13
data/lib/treat/extractors/statistics/{position_in_parent.rb → position_in.rb} +1 -1
data/lib/treat/extractors/statistics/tf_idf.rb +89 -21
data/lib/treat/extractors/statistics/transition_matrix.rb +11 -11
data/lib/treat/extractors/statistics/transition_probability.rb +4 -4
data/lib/treat/extractors/time/nickel.rb +30 -12
data/lib/treat/extractors/topic_words/lda.rb +9 -9
data/lib/treat/extractors/topics/reuters.rb +14 -15
data/lib/treat/extractors/topics/reuters/region.xml +1 -0
data/lib/treat/features.rb +7 -0
data/lib/treat/formatters/readers/abw.rb +6 -1
data/lib/treat/formatters/readers/autoselect.rb +5 -6
data/lib/treat/formatters/readers/doc.rb +3 -1
data/lib/treat/formatters/readers/html.rb +1 -1
data/lib/treat/formatters/readers/image.rb +43 -0
data/lib/treat/formatters/readers/odt.rb +1 -2
data/lib/treat/formatters/readers/pdf.rb +9 -1
data/lib/treat/formatters/readers/xml.rb +40 -0
data/lib/treat/formatters/serializers/xml.rb +50 -14
data/lib/treat/formatters/serializers/yaml.rb +7 -2
data/lib/treat/formatters/unserializers/xml.rb +33 -7
data/lib/treat/formatters/visualizers/dot.rb +90 -20
data/lib/treat/formatters/visualizers/short_value.rb +2 -2
data/lib/treat/formatters/visualizers/standoff.rb +2 -2
data/lib/treat/formatters/visualizers/tree.rb +1 -1
data/lib/treat/formatters/visualizers/txt.rb +13 -4
data/lib/treat/group.rb +16 -10
data/lib/treat/helpers/linguistics_loader.rb +18 -0
data/lib/treat/inflectors.rb +10 -0
data/lib/treat/inflectors/cardinal_words/linguistics.rb +3 -3
data/lib/treat/inflectors/conjugations/linguistics.rb +5 -12
data/lib/treat/inflectors/declensions/english.rb +319 -0
data/lib/treat/inflectors/declensions/linguistics.rb +12 -11
data/lib/treat/inflectors/ordinal_words/linguistics.rb +3 -3
data/lib/treat/install.rb +59 -0
data/lib/treat/kernel.rb +18 -8
data/lib/treat/languages.rb +18 -11
data/lib/treat/languages/arabic.rb +4 -2
data/lib/treat/languages/chinese.rb +6 -2
data/lib/treat/languages/dutch.rb +16 -0
data/lib/treat/languages/english.rb +47 -19
data/lib/treat/languages/french.rb +8 -5
data/lib/treat/languages/german.rb +9 -6
data/lib/treat/languages/greek.rb +16 -0
data/lib/treat/languages/italian.rb +6 -3
data/lib/treat/languages/polish.rb +16 -0
data/lib/treat/languages/portuguese.rb +16 -0
data/lib/treat/languages/russian.rb +16 -0
data/lib/treat/languages/spanish.rb +16 -0
data/lib/treat/languages/swedish.rb +16 -0
data/lib/treat/languages/tags.rb +377 -0
data/lib/treat/lexicalizers.rb +34 -23
data/lib/treat/lexicalizers/category/from_tag.rb +17 -10
data/lib/treat/lexicalizers/linkages/naive.rb +51 -51
data/lib/treat/lexicalizers/synsets/wordnet.rb +5 -1
data/lib/treat/lexicalizers/tag/brill.rb +35 -40
data/lib/treat/lexicalizers/tag/lingua.rb +19 -14
data/lib/treat/lexicalizers/tag/stanford.rb +59 -68
data/lib/treat/lexicalizers/tag/tagger.rb +29 -0
data/lib/treat/processors.rb +8 -8
data/lib/treat/processors/chunkers/txt.rb +4 -4
data/lib/treat/processors/parsers/enju.rb +114 -99
data/lib/treat/processors/parsers/stanford.rb +109 -41
data/lib/treat/processors/segmenters/punkt.rb +17 -18
data/lib/treat/processors/segmenters/punkt/dutch.yaml +9716 -0
data/lib/treat/processors/segmenters/punkt/english.yaml +10340 -0
data/lib/treat/processors/segmenters/punkt/french.yaml +43159 -0
data/lib/treat/processors/segmenters/punkt/german.yaml +9572 -0
data/lib/treat/processors/segmenters/punkt/greek.yaml +6050 -0
data/lib/treat/processors/segmenters/punkt/italian.yaml +14748 -0
data/lib/treat/processors/segmenters/punkt/polish.yaml +9751 -0
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +13662 -0
data/lib/treat/processors/segmenters/punkt/russian.yaml +4237 -0
data/lib/treat/processors/segmenters/punkt/spanish.yaml +24034 -0
data/lib/treat/processors/segmenters/punkt/swedish.yaml +10001 -0
data/lib/treat/processors/segmenters/stanford.rb +38 -37
data/lib/treat/processors/segmenters/tactful.rb +5 -4
data/lib/treat/processors/tokenizers/macintyre.rb +7 -6
data/lib/treat/processors/tokenizers/multilingual.rb +2 -3
data/lib/treat/processors/tokenizers/perl.rb +2 -2
data/lib/treat/processors/tokenizers/punkt.rb +6 -2
data/lib/treat/processors/tokenizers/stanford.rb +25 -24
data/lib/treat/processors/tokenizers/tactful.rb +1 -2
data/lib/treat/proxies.rb +2 -35
data/lib/treat/registrable.rb +17 -22
data/lib/treat/sugar.rb +11 -11
data/lib/treat/tree.rb +27 -17
data/lib/treat/viewable.rb +29 -0
data/lib/treat/visitable.rb +1 -1
data/test/tc_entity.rb +56 -49
data/test/tc_extractors.rb +41 -18
data/test/tc_formatters.rb +7 -8
data/test/tc_inflectors.rb +19 -24
data/test/tc_lexicalizers.rb +12 -19
data/test/tc_processors.rb +26 -12
data/test/tc_resources.rb +2 -7
data/test/tc_treat.rb +20 -22
data/test/tc_tree.rb +4 -4
data/test/tests.rb +3 -5
data/test/texts.rb +13 -14
data/tmp/INFO +1 -0
metadata +78 -158
data/bin/INFO +0 -1
data/examples/benchmark.rb +0 -81
data/examples/keywords.rb +0 -148
data/lib/treat/detectors.rb +0 -31
data/lib/treat/detectors/encoding/r_chardet19.rb +0 -27
data/lib/treat/detectors/format/file.rb +0 -36
data/lib/treat/detectors/language/what_language.rb +0 -29
data/lib/treat/entities/constituents.rb +0 -15
data/lib/treat/entities/sentence.rb +0 -8
data/lib/treat/extractors/named_entity/abner.rb +0 -20
data/lib/treat/extractors/named_entity/stanford.rb +0 -174
data/lib/treat/extractors/statistics/frequency_of.rb +0 -15
data/lib/treat/extractors/time/chronic.rb +0 -20
data/lib/treat/extractors/time/native.rb +0 -18
data/lib/treat/formatters/readers/gocr.rb +0 -26
data/lib/treat/formatters/readers/ocropus.rb +0 -31
data/lib/treat/formatters/visualizers/html.rb +0 -13
data/lib/treat/formatters/visualizers/inspect.rb +0 -20
data/lib/treat/inflectors/declensions/en.rb +0 -18
data/lib/treat/languages/categories.rb +0 -5
data/lib/treat/languages/english/categories.rb +0 -23
data/lib/treat/languages/english/tags.rb +0 -352
data/lib/treat/languages/xinhua.rb +0 -12
data/lib/treat/lexicalizers/synsets/rita_wn.rb +0 -23
data/lib/treat/string.rb +0 -5
data/test/tc_detectors.rb +0 -26

data/lib/treat/extractors/statistics/frequency_of.rb DELETED

@@ -1,15 +0,0 @@
-module Treat
-  module Extractors
-    module Statistics
-      class FrequencyOf
-        # Find the frequency of a given string value.
-        def self.statistics(entity, options = {})
-          w = options[:value]
-          raise Treat::Exception, "Must supply a non-nil value." unless w
-          entity.token_registry[:value][w].nil? ? 0 :
-          entity.token_registry[:value][w].size
-        end
-      end
-    end
-  end
-end

data/lib/treat/extractors/time/chronic.rb DELETED

@@ -1,20 +0,0 @@
-module Treat
-  module Extractors
-    module Time
-      # A wrapper for the 'chronic' gem, which parses
-      # time and date information.
-      #
-      # Project website: http://chronic.rubyforge.org/
-      class Chronic
-        silence_warnings { require 'chronic' }
-        # Return the time information contained within the entity
-        # by parsing it with the 'chronic' gem.
-        #
-        # Options: none.
-        def self.time(entity, options = {})
-          silence_warnings { ::Chronic.parse(entity.to_s, {:guess => true}) }
-        end
-      end
-    end
-  end
-end

data/lib/treat/extractors/time/native.rb DELETED

@@ -1,18 +0,0 @@
-module Treat
-  module Extractors
-    module Time
-      # A wrapper for Ruby's native date/time parsing.
-      module Native
-        require 'date'
-        # Return a DateTime object representing the date/time
-        # contained within the entity, using Ruby's native
-        # date/time parser.
-        #
-        # Options: none.
-        def self.time(entity, options = {})
-          ::DateTime.parse(entity.to_s)
-        end
-      end
-    end
-  end
-end

data/lib/treat/formatters/readers/gocr.rb DELETED

@@ -1,26 +0,0 @@
-module Treat
-  module Formatters
-    module Readers
-      # A wrapper class for the GOCR engine.
-      #
-      # "GOCR is an OCR (Optical Character Recognition)
-      # program, developed under the GNU Public License.
-      # It converts scanned images of text back to text files."
-      #
-      # Project site: http://jocr.sourceforge.net
-      class GOCR
-        # Read a file using the GOCR reader.
-        #
-        # Options: none.
-        def self.read(document, options = {})
-          create_temp_file(:pgm) do |tmp|
-            `convert #{document.file} #{tmp}`
-            f = `gocr #{tmp}`.strip
-            document << Treat::Entities::Entity.from_string(f)
-          end
-          document
-        end
-      end
-    end
-  end
-end

data/lib/treat/formatters/readers/ocropus.rb DELETED

@@ -1,31 +0,0 @@
-module Treat
-  module Formatters
-    module Readers
-      # This class is a wrapper for the Google Ocropus
-      # optical character recognition (OCR) engine.
-      #
-      # "OCRopus(tm) is a state-of-the-art document
-      # analysis and OCR system, featuring pluggable
-      # layout analysis, pluggable character recognition,
-      # statistical natural language modeling, and multi-
-      # lingual capabilities."
-      #
-      # Original paper:
-      # Breuel, Thomas M. The Ocropus Open Source OCR System.
-      # DFKI and U. Kaiserslautern, Germany.
-      class Ocropus
-        #  Read a file using the Google Ocropus reader.
-        #
-        # Options: none.
-        def self.read(document, options = {})
-          create_temp_file(:txt) do |tmp|
-            `ocropus page #{document.file} > #{tmp} -STDIO 2>/dev/null`
-            f = File.read(tmp)
-            document << Treat::Entities::Entity.from_string(f)
-          end
-          document
-        end
-      end
-    end
-  end
-end

data/lib/treat/formatters/visualizers/html.rb DELETED

@@ -1,13 +0,0 @@
-module Treat
-  module Formatters
-    module Visualizers
-      # This class is not implemented yet.
-      class HTML
-        # Not implemented yet.
-        def self.visualize(entity, options = {})
-          raise 'Not implemented yet.'
-        end
-      end
-    end
-  end
-end

data/lib/treat/formatters/visualizers/inspect.rb DELETED

@@ -1,20 +0,0 @@
-module Treat
-  module Formatters
-    module Visualizers
-      # Handles the call to inspect.
-      class Inspect
-        # Return a terminal-friendly visualization of an entity.
-        #
-        # Options: none.
-        def self.visualize(entity, options = {})
-          s = "#{entity.class.to_s.split('::')[-1]} (#{entity.id.to_s})"
-          unless caller_method == :inspect
-            s += "  | #{entity.short_value.inspect}  |  #{entity.features.inspect}" +
-            "  | #{entity.edges.inspect}"
-          end
-          s
-        end
-      end
-    end
-  end
-end

data/lib/treat/inflectors/declensions/en.rb DELETED

@@ -1,18 +0,0 @@
-silence_warnings { require 'english' }
-module Treat
-   module Inflectors
-      module Declensions
-         module En
-            def self.declense(entity, options)
-               string = entity.to_s
-               if options[:count] == :plural
-                 ::English.plural(string)
-               elsif options[:count] == :singular
-                 ::English.singular(string)
-               end
-            end
-         end
-      end
-   end
-end

data/lib/treat/languages/categories.rb DELETED

@@ -1,5 +0,0 @@
-module Treat
-  module Languages
-  end
-end

data/lib/treat/languages/english/categories.rb DELETED

@@ -1,23 +0,0 @@
-module Treat
-  module Languages
-    class English
-      # A list of all possible word categories.
-      Categories = [
-        :adjective, :adverb, :noun, :verb, :interjection,
-        :clitic, :coverb, :conjunction, :determiner, :particle,
-        :preposition, :pronoun, :number, :symbol, :punctuation,
-        :complementizer
-      ]
-      wttc = {}
-      Treat::Languages::English::AlignedWordTags.each_slice(2) do |desc, tags|
-        category = desc.gsub(',', ' ,').split(' ')[0].downcase.intern
-        wttc[tags[0]] ||= {}; wttc[tags[1]] ||= {} ;wttc[tags[2]] ||= {}
-        wttc[tags[0]][:claws_5] = category
-        wttc[tags[1]][:brown] = category
-        wttc[tags[2]][:penn] = category
-      end
-      # A hash converting word tags to word categories.
-      WordTagToCategory = wttc
-    end
-  end
-end

data/lib/treat/languages/english/tags.rb DELETED

@@ -1,352 +0,0 @@
-module Treat
-  module Languages
-    class English
-      ClawsC5 = 0
-      Brown = 1
-      Penn = 2
-      PTBClauseTagDescription = [
-        ['S', 'Simple declarative clause'],
-        ['SBAR', 'Clause introduced by a (possibly empty) subordinating conjunction'],
-        ['SBARQ', 'Direct question introduced by a wh-word or a wh-phrase'],
-        ['SINV', 'Inverted declarative sentence'],
-        ['SQ', 'Inverted yes/no question']
-      ]
-      PTBPhraseTagDescription = [
-        ['ADJP', 'Adjective phrase'],
-        ['ADVP', 'Adverb phrase'],
-        ['CONJP', 'Conjunction phrase'],
-        ['FRAG', 'Fragment'],
-        ['INTJ', 'Interjection'],
-        ['LST', 'List marker'],
-        ['NAC', 'Not a constituent'],
-        ['NP', 'Noun phrase'],
-        ['NX', 'Head of an NP'],
-        ['PP', 'Prepositional phrase'],
-        ['PRN', 'Parenthetical'],
-        ['PRT', 'Particle'],
-        ['QP', 'Quantifier phrase'],
-        ['RRC', 'Reduced relative clause'],
-        ['UCP', 'Unlike coordinated phrase'],
-        ['VP', 'Verb phrase'],
-        ['WHADJP', 'Wh-adjective phrase'],
-        ['WHAVP', 'Wh-adverb phrase'],
-        ['WHNP', 'Wh-noun phrase'],
-        ['WHPP', 'Wh-prepositional phrase'],
-        ['X', 'Unknown, uncertain, or unbracketable']
-      ]
-      PTBWordTagDescription = [
-        ['CC', 'Coordinating conjunction'],
-        ['CD', 'Cardinal number'],
-        ['DT', 'Determiner'],
-        ['EX', 'Existential there'],
-        ['FW', 'Foreign word'],
-        ['IN', 'Preposition or subordinating conjunction'],
-        ['JJ', 'Adjective'],
-        ['JJR', 'Adjective, comparative'],
-        ['JJS', 'Adjective, superlative'],
-        ['LS', 'List item marker'],
-        ['MD', 'Modal'],
-        ['NN', 'Noun, singular or mass'],
-        ['NNS', 'Noun, plural'],
-        ['NNP', 'Proper noun, singular'],
-        ['NNPS', 'Proper noun, plural'],
-        ['PDT', 'Predeterminer'],
-        ['POS', 'Possessive ending'],
-        ['PRP', 'Personal pronoun'],
-        ['PRP$', 'Possessive pronoun (prolog version PRP-S)'],
-        ['RB', 'Adverb'],
-        ['RBR', 'Adverb, comparative'],
-        ['RBS', 'Adverb, superlative'],
-        ['RP', 'Particle'],
-        ['SYM', 'Symbol'],
-        ['TO', 'to'],
-        ['UH', 'Interjection'],
-        ['VB', 'Verb, base form'],
-        ['VBD', 'Verb, past tense'],
-        ['VBG', 'Verb, gerund or present participle'],
-        ['VBN', 'Verb, past participle'],
-        ['VBP', 'Verb, non 3rd person singular present'],
-        ['VBZ', 'Verb, 3rd person singular present'],
-        ['WDT', 'Wh-determiner'],
-        ['WP', 'Wh-pronoun'],
-        ['WP$', 'Possessive wh-pronoun (prolog version WP-S)'],
-        ['WRB', 'Wh-adverb']
-      ]
-      BrownWordTagDescription = [
-        ['.',	'sentence closer	. ; ? !'],
-        ['(',	'left parent']	 ,
-        [')',	'right parent'],
-        ['*',	'not'],
-        ['--',	'dash'],
-        [',',	'comma'],
-        [':',	'colon'],
-        ['ABL', 'pre-qualifier	quite, rather'],
-        ['ABN', 'pre-quantifier	half, all'],
-        ['ABX', 'pre-quantifier	both'],
-        ['AP', 'post-determiner	many, several, next'],
-        ['AT', 'article	a, the, no'],
-        ['BE', 'be	 '],
-        ['BED', 'were	 '],
-        ['BEDZ', 'was	 '],
-        ['BEG', 'being	 '],
-        ['BEM', 'am	 '],
-        ['BEN', 'been	 '],
-        ['BER', 'are, art	 '],
-        ['BEZ', 'is	 '],
-        ['CC', 'coordinating conjunction	and, or'],
-        ['CD', 'cardinal numeral	one, two, 2, etc.'],
-        ['CS', 'subordinating conjunction	if, although'],
-        ['DO', 'do	 '],
-        ['DOD', 'did	 '],
-        ['DOZ', 'does	 '],
-        ['DT', 'singular determiner	this, that'],
-        ['DTI', 'singular or plural determiner/quantifier	some, any'],
-        ['DTS', 'plural determiner	these, those'],
-        ['DTX', 'determiner/double conjunction	either'],
-        ['EX', 'existentil there	 '],
-        ['FW', 'foreign word (hyphenated before regular tag)	 '],
-        ['HL', 'word occurring in headline (hyphenated after regular tag)	 '],
-        ['HV', 'have	 '],
-        ['HVD', 'had (past tense)	 '],
-        ['HVG', 'having	 '],
-        ['HVN', 'had (past participle)	 '],
-        ['HVZ', 'has	 '],
-        ['IN', 'preposition	 '],
-        ['JJ', 'adjective	 '],
-        ['JJR', 'comparative adjective	 '],
-        ['JJS', 'semantically superlative adjective	 chief, top'],
-        ['JJT', 'morphologically superlative adjective	biggest'],
-        ['MD', 'modal auxiliary	can, should, will'],
-        ['NC', 'cited word (hyphenated after regular tag)	 '],
-        ['NN', 'singular or mass noun	 '],
-        ['NN$', 'possessive singular noun	 '],
-        ['NNS', 'plural noun	 '],
-        ['NNS$', 'possessive plural noun	 '],
-        ['NP', 'proper noun or part of name phrase	 '],
-        ['NP$', 'possessive proper noun	 '],
-        ['NPS', 'plural proper noun	 '],
-        ['NPS$', 'possessive plural proper noun	 '],
-        ['NR', 'adverbial noun	home, today, west'],
-        ['NRS', 'plural adverbial noun'],
-        ['OD', 'ordinal numeral	first, 2nd'],
-        ['PN', 'nominal pronoun	everybody, nothing'],
-        ['PN$', 'possessive nominal pronoun	 '],
-        ['PP$', 'possessive personal pronoun	my, our'],
-        ['PP$$', 'second (nominal) possessive pronoun	mine, ours'],
-        ['PPL', 'singular reflexive/intensive personal pronoun	myself'],
-        ['PPLS', 'plural reflexive/intensive personal pronoun	ourselves'],
-        ['PPO', 'objective personal pronoun	me, him, it, them'],
-        ['PPS', '3rd. singular nominative pronoun	he, she, it, one'],
-        ['PPSS', 'other nominative personal pronoun	I, we, they, you'],
-        ['QL', 'qualifier	very, fairly'],
-        ['QLP', 'post-qualifier	enough, indeed'],
-        ['RB', 'adverb	 '],
-        ['RBR', 'comparative adverb	 '],
-        ['RBT', 'superlative adverb	 '],
-        ['RN', 'nominal adverb	here then, indoors	 '],
-        ['RP', 'adverb/particle	about, off, up'],
-        ['TL', 'word occurring in title (hyphenated after regular tag)'],
-        ['TO', 'infinitive marker to	 '],
-        ['UH', 'interjection, exclamation	 '],
-        ['VB', 'verb, base form	 '],
-        ['VBD', 'verb, past tense	 '],
-        ['VBG', 'verb, present participle/gerund	 '],
-        ['VBN', 'verb, past participle	 '],
-        ['VBZ', 'verb, 3rd. singular present	 '],
-        ['WDT', 'wh- determiner	what, which'],
-        ['WP$', 'possessive wh- pronoun	whose'],
-        ['WPO', 'objective wh- pronoun	whom, which, that'],
-        ['WPS', 'nominative wh- pronoun	who, which, that'],
-        ['WQL', 'wh- qualifier	how'],
-        ['WRB', 'wh- adverb	how, where, when']
-      ]
-      # A description of Enju categories.
-      EnjuCatDescription = [
-        ['ADJ',	'Adjective'],
-        ['ADV',	'Adverb'],
-        ['CONJ',	'Coordination conjunction'],
-        ['C',	'Complementizer'],
-        ['D',	'Determiner'],
-        ['N',	'Noun'],
-        ['P',	'Preposition'],
-        ['SC',	'Subordination conjunction'],
-        ['V',	'Verb'],
-        ['COOD',	'Part of coordination'],
-        ['PN',	'Punctuation'],
-        ['PRT',	'Particle'],
-        ['S',	'Sentence']
-      ]
-      # Maps Enju categories to Treat categories.
-      EnjuCatToCategory = {
-        'ADJ' => :adjective,
-        'ADV' => :adverb,
-        'CONJ' => :conjunction,
-        'COOD' => :conjunction,
-        'C' => :complementizer,
-        'D' => :determiner,
-        'N' => :noun,
-        'P' => :preposition,
-        'PN' => :punctuation,
-        'SC' => :conjunction,
-        'V' => :verb,
-        'PRT' => :particle
-      }
-      # Description of the xcat in the Enju output specification.
-      EnjuXCatDescription = [
-        ['COOD',	'Coordinated phrase/clause'],
-        ['IMP',	'Imperative sentence'],
-        ['INV',	'Subject-verb inversion'],
-        ['Q',	'Interrogative sentence with subject-verb inversion'],
-        ['REL',	'A relativizer included'],
-        ['FREL', 'A free relative included'],
-        ['TRACE',	'A trace included'],
-        ['WH', 'A wh-question word included']
-      ]
-      EnjuCatXcatToPTB = [
-        ['ADJP', '', 'ADJP'],
-        ['ADJP', 'REL', 'WHADJP'],
-        ['ADJP', 'FREL', 'WHADJP'],
-        ['ADJP', 'WH', 'WHADJP'],
-        ['ADVP', '', 'ADVP'],
-        ['ADVP', 'REL', 'WHADVP'],
-        ['ADVP', 'FREL', 'WHADVP'],
-        ['ADVP', 'WH', 'WHADVP'],
-        ['CONJP', '', 'CONJP'],
-        ['CP', '', 'SBAR'],
-        ['DP', '', 'NP'],
-        ['NP', '', 'NP'],
-        ['NX', 'NX', 'NAC'],
-        ['NP'	'REL'	'WHNP'],
-        ['NP'	'FREL'	'WHNP'],
-        ['NP'	'WH'	'WHNP'],
-        ['PP', '', 'PP'],
-        ['PP', 'REL', 'WHPP'],
-        ['PP', 'WH', 'WHPP'],
-        ['PRT', '', 'PRT'],
-        ['S', '', 'S'],
-        ['S', 'INV', 'SINV'],
-        ['S', 'Q', 'SQ'],
-        ['S', 'REL', 'SBAR'],
-        ['S', 'FREL', 'SBAR'],
-        ['S', 'WH', 'SBARQ'],
-        ['SCP', '', 'SBAR'],
-        ['VP', '', 'VP'],
-        ['VP', '', 'VP'],
-        ['', '', 'UK']
-      ]
-      # Aligned tags for the Claws C5, Brown and Penn tag sets.
-      # Adapted from Manning, Christopher and Schütze, Hinrich,
-      # 1999. Foundations of Statistical Natural Language
-      # Processing. MIT Press, p. 141-142.
-      AlignedWordTags = [
-        'Adjective', ['AJ0', 'JJ', 'JJ'],
-        'Adjective, ordinal number', ['ORD', 'OD', 'JJ'],
-        'Adjective, comparative', ['AJC', 'JJR', 'JJR'],
-        'Adjective, superlative', ['AJS', 'JJT', 'JJS'],
-        'Adjective, superlative, semantically', ['AJ0', 'JJS', 'JJ'],
-        'Adjective, cardinal number', ['CRD', 'CD', 'CD'],
-        'Adjective, cardinal number, one', ['PNI', 'CD', 'CD'],
-        'Adverb', ['AV0', 'RB', 'RB'],
-        'Adverb, negative', ['XX0', '*', 'RB'],
-        'Adverb, comparative', ['AV0', 'RBR', 'RBR'],
-        'Adverb, superlative', ['AV0', 'RBT', 'RBS'],
-        'Adverb, particle', ['AVP', 'RP', 'RP'],
-        'Adverb, question', ['AVQ', 'WRB', 'WRB'],
-        'Adverb, degree & question', ['AVQ', 'WQL', 'WRB'],
-        'Adverb, degree', ['AV0', 'QL', 'RB'],
-        'Adverb, degree, postposed', ['AV0', 'QLP', 'RB'],
-        'Adverb, nominal', ['AV0', 'RN', 'RB'],
-        'Conjunction, coordination', ['CJC', 'CC', 'CC'],
-        'Conjunction, subordination', ['CJS', 'CS', 'IN'],
-        'Conjunction, complementizer, that', ['CJT', 'CS', 'IN'],
-        'Determiner', ['DT0', 'DT', 'DT'],
-        'Determiner, pronoun', ['DT0', 'DTI', 'DT'],
-        'Determiner, pronoun, plural', ['DT0', 'DTS', 'DT'],
-        'Determiner, prequalifier', ['DT0', 'ABL', 'DT'],
-        'Determiner, prequantifier', ['DT0', 'ABN', 'PDT'],
-        'Determiner, pronoun or double conjunction', ['DT0', 'ABX', 'PDT'],
-        'Determiner, pronoun or double conjunction', ['DT0', 'DTX', 'DT'],
-        'Determiner, article', ['AT0', 'AT', 'DT'],
-        'Determiner, postdeterminer', ['DT0', 'AP', 'JJ'],
-        'Determiner, possessive', ['DPS', 'PP$', 'PRP$'],
-        'Determiner, possessive, second', ['DPS', 'PP$$', 'PRP'],
-        'Determiner, question', ['DTQ', 'WDT', 'WDT'],
-        'Determiner, possessive & question', ['DTQ', 'WP$', 'WP$'],
-        'Noun', ['NN0', 'NN', 'NN'],
-        'Noun, singular', ['NN1', 'NN', 'NN'],
-        'Noun, plural', ['NN2', 'NNS', 'NNS'],
-        'Noun, proper, singular', ['NP0', 'NP', 'NNP'],
-        'Noun, proper, plural', ['NP0', 'NPS', 'NNPS'],
-        'Noun, adverbial', ['NN0', 'NR', 'NN'],
-        'Noun, adverbial, plural', ['NN2', 'NRS', 'NNS'],
-        'Pronoun, nominal (indefinite)', ['PNI', 'PN', 'PRP'],
-        'Pronoun, personal, subject', ['PNP', 'PPSS', 'PRP'],
-        'Pronoun, personal, subject, 3SG', ['PNP', 'PPS', 'PRP'],
-        'Pronoun, personal, object', ['PNP', 'PPO', 'PRP'],
-        'Pronoun, reflexive', ['PNX', 'PPL', 'PRP'],
-        'Pronoun, reflexive, plural', ['PNX', 'PPLS', 'PRP'],
-        'Pronoun, question, subject', ['PNQ', 'WPS', 'WP'],
-        'Pronoun, question, object', ['PNQ', 'WPO', 'WP'],
-        'Pronoun, existential there', ['EX0', 'EX', 'EX'],
-        'Verb, base present form (not infinitive)', ['VVB', 'VB', 'VBP'],
-        'Verb, infinitive', ['VVI', 'VB', 'VB'],
-        'Verb, past tense', ['VVD', 'VBD', 'VBD'],
-        'Verb, present participle', ['VVG', 'VBG', 'VBG'],
-        'Verb, past/passive participle', ['VVN', 'VBN', 'VBN'],
-        'Verb, present, 3SG, -s form', ['VVZ', 'VBZ', 'VBZ'],
-        'Verb, auxiliary do, base', ['VDB', 'DO', 'VBP'],
-        'Verb, auxiliary do, infinitive', ['VDB', 'DO', 'VB'],
-        'Verb, auxiliary do, past', ['VDD', 'DOD', 'VBD'],
-        'Verb, auxiliary do, present participle', ['VDG', 'VBG', 'VBG'],
-        'Verb, auxiliary do, past participle', ['VDN', 'VBN', 'VBN'],
-        'Verb, auxiliary do, present 3SG', ['VDZ', 'DOZ', 'VBZ'],
-        'Verb, auxiliary have, base', ['VHB', 'HV', 'VBP'],
-        'Verb, auxiliary have, infinitive', ['VHI', 'HV', 'VB'],
-        'Verb, auxiliary have, past', ['VHD', 'HVD', 'VBD'],
-        'Verb, auxiliary have, present participle', ['VHG', 'HVG', 'VBG'],
-        'Verb, auxiliary have, past participle', ['VHN', 'HVN', 'VBN'],
-        'Verb, auxiliary have, present 3SG', ['VHZ', 'HVZ', 'VBZ'],
-        'Verb, auxiliary be, infinitive', ['VBI', 'BE', 'VB'],
-        'Verb, auxiliary be, past', ['VBD', 'BED', 'VBD'],
-        'Verb, auxiliary be, past, 3SG', ['VBD', 'BEDZ', 'VBD'],
-        'Verb, auxiliary be, present participle', ['VBG', 'BEG', 'VBG'],
-        'Verb, auxiliary be, past participle', ['VBN', 'BEN', 'VBN'],
-        'Verb, auxiliary be, present, 3SG', ['VBZ', 'BEZ', 'VBZ'],
-        'Verb, auxiliary be, present, 1SG', ['VBB', 'BEM', 'VBP'],
-        'Verb, auxiliary be, present', ['VBB', 'BER', 'VBP'],
-        'Verb, modal', ['VM0', 'MD', 'MD'],
-        'Preposition, to as infinitive marker', ['TO0', 'TO', 'TO'],
-        'Preposition, to', ['PRP', 'IN', 'TO'],
-        'Preposition', ['PRP', 'IN', 'IN'],
-        'Preposition, of', ['PRF', 'IN', 'IN'],
-        'Possessive', ['POS', '$', 'POS'],
-        'Interjection (or other isolate)', ['ITJ', 'UH', 'UH'],
-        'Punctuation, sentence ender', ['PUN', '.', '.'],
-        'Punctuation, semicolon', ['PUN', '.', '.'],
-        'Puncutation, colon or ellipsis', ['PUN', ':', ':'],
-        'Punctuationm, comma', ['PUN', ',', ','],
-        'Punctuation, dash', ['PUN', '-', '-'],
-        'Punctuation, dollar sign', ['PUN', '', '$'],
-        'Punctuation, left bracket', ['PUL', '(', '('],
-        'Punctuation, right bracket', ['PUR', ')', ')'],
-        'Punctuation, quotation mark, left', ['PUQ', '', '``'],
-        'Punctuation, quotation mark, right', ['PUQ', '', '"'],
-        'Unknown, foreign words (not in English lexicon)', ['UNZ', '(FW-)', 'FW'],
-        'Symbol', ['', '', 'SYM'],
-        'Symbol, alphabetical', ['ZZ0', '', ''],
-        'Symbol, list item', ['', '', 'LS']
-      ]
-    end
-  end
-end