RubyGems - treat - Versions diffs - 0.2.5 → 1.0.0 - Mend

treat 0.2.5 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

data/LICENSE +3 -3
data/README.md +33 -0
data/files/INFO +1 -0
data/lib/treat.rb +40 -105
data/lib/treat/ai.rb +12 -0
data/lib/treat/ai/classifiers/id3.rb +27 -0
data/lib/treat/categories.rb +82 -35
data/lib/treat/categorizable.rb +44 -0
data/lib/treat/classification.rb +61 -0
data/lib/treat/configurable.rb +115 -0
data/lib/treat/data_set.rb +42 -0
data/lib/treat/dependencies.rb +24 -0
data/lib/treat/downloader.rb +87 -0
data/lib/treat/entities.rb +68 -66
data/lib/treat/entities/abilities.rb +10 -0
data/lib/treat/entities/abilities/buildable.rb +327 -0
data/lib/treat/entities/abilities/checkable.rb +31 -0
data/lib/treat/entities/abilities/copyable.rb +45 -0
data/lib/treat/entities/abilities/countable.rb +51 -0
data/lib/treat/entities/abilities/debuggable.rb +83 -0
data/lib/treat/entities/abilities/delegatable.rb +123 -0
data/lib/treat/entities/abilities/doable.rb +62 -0
data/lib/treat/entities/abilities/exportable.rb +11 -0
data/lib/treat/entities/abilities/iterable.rb +115 -0
data/lib/treat/entities/abilities/magical.rb +83 -0
data/lib/treat/entities/abilities/registrable.rb +74 -0
data/lib/treat/entities/abilities/stringable.rb +91 -0
data/lib/treat/entities/entities.rb +104 -0
data/lib/treat/entities/entity.rb +122 -245
data/lib/treat/exception.rb +4 -4
data/lib/treat/extractors.rb +77 -80
data/lib/treat/extractors/keywords/tf_idf.rb +56 -22
data/lib/treat/extractors/language/what_language.rb +50 -45
data/lib/treat/extractors/name_tag/stanford.rb +55 -0
data/lib/treat/extractors/tf_idf/native.rb +87 -0
data/lib/treat/extractors/time/chronic.rb +55 -0
data/lib/treat/extractors/time/nickel.rb +86 -62
data/lib/treat/extractors/time/ruby.rb +53 -0
data/lib/treat/extractors/topic_words/lda.rb +67 -58
data/lib/treat/extractors/topics/reuters.rb +100 -87
data/lib/treat/formatters.rb +39 -35
data/lib/treat/formatters/readers/abw.rb +49 -29
data/lib/treat/formatters/readers/autoselect.rb +37 -33
data/lib/treat/formatters/readers/doc.rb +19 -13
data/lib/treat/formatters/readers/html.rb +52 -30
data/lib/treat/formatters/readers/image.rb +41 -40
data/lib/treat/formatters/readers/odt.rb +59 -45
data/lib/treat/formatters/readers/pdf.rb +28 -25
data/lib/treat/formatters/readers/txt.rb +12 -15
data/lib/treat/formatters/readers/xml.rb +73 -36
data/lib/treat/formatters/serializers/xml.rb +80 -79
data/lib/treat/formatters/serializers/yaml.rb +19 -18
data/lib/treat/formatters/unserializers/autoselect.rb +12 -22
data/lib/treat/formatters/unserializers/xml.rb +94 -99
data/lib/treat/formatters/unserializers/yaml.rb +20 -19
data/lib/treat/formatters/visualizers/dot.rb +132 -132
data/lib/treat/formatters/visualizers/standoff.rb +52 -44
data/lib/treat/formatters/visualizers/tree.rb +26 -29
data/lib/treat/groupable.rb +153 -0
data/lib/treat/helpers/decimal_point_escaper.rb +22 -0
data/lib/treat/inflectors.rb +50 -45
data/lib/treat/inflectors/cardinalizers/linguistics.rb +40 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +55 -0
data/lib/treat/inflectors/declensors/active_support.rb +31 -0
data/lib/treat/inflectors/declensors/english.rb +38 -0
data/lib/treat/inflectors/declensors/english/inflect.rb +288 -0
data/lib/treat/inflectors/declensors/linguistics.rb +49 -0
data/lib/treat/inflectors/ordinalizers/linguistics.rb +17 -0
data/lib/treat/inflectors/stemmers/porter.rb +160 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +24 -0
data/lib/treat/inflectors/stemmers/uea.rb +28 -0
data/lib/treat/installer.rb +308 -0
data/lib/treat/kernel.rb +105 -27
data/lib/treat/languages.rb +122 -88
data/lib/treat/languages/arabic.rb +15 -15
data/lib/treat/languages/chinese.rb +15 -15
data/lib/treat/languages/dutch.rb +15 -15
data/lib/treat/languages/english.rb +61 -62
data/lib/treat/languages/french.rb +19 -19
data/lib/treat/languages/german.rb +20 -20
data/lib/treat/languages/greek.rb +15 -15
data/lib/treat/languages/italian.rb +16 -16
data/lib/treat/languages/polish.rb +15 -15
data/lib/treat/languages/portuguese.rb +15 -15
data/lib/treat/languages/russian.rb +15 -15
data/lib/treat/languages/spanish.rb +16 -16
data/lib/treat/languages/swedish.rb +16 -16
data/lib/treat/lexicalizers.rb +34 -55
data/lib/treat/lexicalizers/categorizers/from_tag.rb +54 -0
data/lib/treat/lexicalizers/sensers/wordnet.rb +57 -0
data/lib/treat/lexicalizers/sensers/wordnet/synset.rb +71 -0
data/lib/treat/lexicalizers/taggers/brill.rb +70 -0
data/lib/treat/lexicalizers/taggers/brill/patch.rb +61 -0
data/lib/treat/lexicalizers/taggers/lingua.rb +90 -0
data/lib/treat/lexicalizers/taggers/stanford.rb +97 -0
data/lib/treat/linguistics.rb +9 -0
data/lib/treat/linguistics/categories.rb +11 -0
data/lib/treat/linguistics/tags.rb +422 -0
data/lib/treat/loaders/linguistics.rb +30 -0
data/lib/treat/loaders/stanford.rb +27 -0
data/lib/treat/object.rb +1 -0
data/lib/treat/processors.rb +37 -44
data/lib/treat/processors/chunkers/autoselect.rb +16 -0
data/lib/treat/processors/chunkers/html.rb +71 -0
data/lib/treat/processors/chunkers/txt.rb +18 -24
data/lib/treat/processors/parsers/enju.rb +253 -208
data/lib/treat/processors/parsers/stanford.rb +130 -131
data/lib/treat/processors/segmenters/punkt.rb +79 -45
data/lib/treat/processors/segmenters/stanford.rb +46 -48
data/lib/treat/processors/segmenters/tactful.rb +43 -36
data/lib/treat/processors/tokenizers/perl.rb +124 -92
data/lib/treat/processors/tokenizers/ptb.rb +81 -0
data/lib/treat/processors/tokenizers/punkt.rb +48 -42
data/lib/treat/processors/tokenizers/stanford.rb +39 -38
data/lib/treat/processors/tokenizers/tactful.rb +64 -55
data/lib/treat/proxies.rb +52 -35
data/lib/treat/retrievers.rb +26 -16
data/lib/treat/retrievers/indexers/ferret.rb +47 -26
data/lib/treat/retrievers/searchers/ferret.rb +69 -50
data/lib/treat/tree.rb +241 -183
data/spec/collection.rb +123 -0
data/spec/document.rb +93 -0
data/spec/entity.rb +408 -0
data/spec/languages.rb +25 -0
data/spec/phrase.rb +146 -0
data/spec/samples/mathematicians/archimedes.abw +34 -0
data/spec/samples/mathematicians/euler.html +21 -0
data/spec/samples/mathematicians/gauss.pdf +0 -0
data/spec/samples/mathematicians/leibniz.txt +13 -0
data/spec/samples/mathematicians/newton.doc +0 -0
data/spec/sandbox.rb +5 -0
data/spec/token.rb +109 -0
data/spec/treat.rb +52 -0
data/spec/tree.rb +117 -0
data/spec/word.rb +110 -0
data/spec/zone.rb +66 -0
data/tmp/INFO +1 -1
metadata +100 -201
data/INSTALL +0 -1
data/README +0 -3
data/TODO +0 -28
data/lib/economist/half_cocked_basel.txt +0 -16
data/lib/economist/hungarys_troubles.txt +0 -46
data/lib/economist/indias_slowdown.txt +0 -15
data/lib/economist/merkozy_rides_again.txt +0 -24
data/lib/economist/prada_is_not_walmart.txt +0 -9
data/lib/economist/to_infinity_and_beyond.txt +0 -15
data/lib/ferret/_11.cfs +0 -0
data/lib/ferret/_14.cfs +0 -0
data/lib/ferret/_p.cfs +0 -0
data/lib/ferret/_s.cfs +0 -0
data/lib/ferret/_v.cfs +0 -0
data/lib/ferret/_y.cfs +0 -0
data/lib/ferret/segments +0 -0
data/lib/ferret/segments_15 +0 -0
data/lib/treat/buildable.rb +0 -157
data/lib/treat/category.rb +0 -33
data/lib/treat/delegatable.rb +0 -116
data/lib/treat/doable.rb +0 -45
data/lib/treat/entities/collection.rb +0 -14
data/lib/treat/entities/document.rb +0 -12
data/lib/treat/entities/phrases.rb +0 -17
data/lib/treat/entities/tokens.rb +0 -61
data/lib/treat/entities/zones.rb +0 -41
data/lib/treat/extractors/coreferences/stanford.rb +0 -69
data/lib/treat/extractors/date/chronic.rb +0 -32
data/lib/treat/extractors/date/ruby.rb +0 -25
data/lib/treat/extractors/keywords/topics_tf_idf.rb +0 -48
data/lib/treat/extractors/language/language_extractor.rb +0 -27
data/lib/treat/extractors/named_entity_tag/stanford.rb +0 -53
data/lib/treat/extractors/roles/naive.rb +0 -73
data/lib/treat/extractors/statistics/frequency_in.rb +0 -16
data/lib/treat/extractors/statistics/position_in.rb +0 -14
data/lib/treat/extractors/statistics/tf_idf.rb +0 -104
data/lib/treat/extractors/statistics/transition_matrix.rb +0 -105
data/lib/treat/extractors/statistics/transition_probability.rb +0 -57
data/lib/treat/extractors/topic_words/lda/data.dat +0 -46
data/lib/treat/extractors/topic_words/lda/wiki.yml +0 -121
data/lib/treat/extractors/topics/reuters/industry.xml +0 -2717
data/lib/treat/extractors/topics/reuters/region.xml +0 -13586
data/lib/treat/extractors/topics/reuters/topics.xml +0 -17977
data/lib/treat/feature.rb +0 -58
data/lib/treat/features.rb +0 -7
data/lib/treat/formatters/visualizers/short_value.rb +0 -29
data/lib/treat/formatters/visualizers/txt.rb +0 -45
data/lib/treat/group.rb +0 -106
data/lib/treat/helpers/linguistics_loader.rb +0 -18
data/lib/treat/inflectors/cardinal_words/linguistics.rb +0 -42
data/lib/treat/inflectors/conjugations/linguistics.rb +0 -36
data/lib/treat/inflectors/declensions/english.rb +0 -319
data/lib/treat/inflectors/declensions/linguistics.rb +0 -42
data/lib/treat/inflectors/ordinal_words/linguistics.rb +0 -20
data/lib/treat/inflectors/stem/porter.rb +0 -162
data/lib/treat/inflectors/stem/porter_c.rb +0 -26
data/lib/treat/inflectors/stem/uea.rb +0 -30
data/lib/treat/install.rb +0 -59
data/lib/treat/languages/tags.rb +0 -377
data/lib/treat/lexicalizers/category/from_tag.rb +0 -49
data/lib/treat/lexicalizers/linkages/naive.rb +0 -63
data/lib/treat/lexicalizers/synsets/wordnet.rb +0 -76
data/lib/treat/lexicalizers/tag/brill.rb +0 -91
data/lib/treat/lexicalizers/tag/lingua.rb +0 -123
data/lib/treat/lexicalizers/tag/stanford.rb +0 -70
data/lib/treat/processors/segmenters/punkt/dutch.yaml +0 -9716
data/lib/treat/processors/segmenters/punkt/english.yaml +0 -10340
data/lib/treat/processors/segmenters/punkt/french.yaml +0 -43159
data/lib/treat/processors/segmenters/punkt/german.yaml +0 -9572
data/lib/treat/processors/segmenters/punkt/greek.yaml +0 -6050
data/lib/treat/processors/segmenters/punkt/italian.yaml +0 -14748
data/lib/treat/processors/segmenters/punkt/polish.yaml +0 -9751
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +0 -13662
data/lib/treat/processors/segmenters/punkt/russian.yaml +0 -4237
data/lib/treat/processors/segmenters/punkt/spanish.yaml +0 -24034
data/lib/treat/processors/segmenters/punkt/swedish.yaml +0 -10001
data/lib/treat/processors/tokenizers/macintyre.rb +0 -77
data/lib/treat/processors/tokenizers/multilingual.rb +0 -30
data/lib/treat/registrable.rb +0 -28
data/lib/treat/sugar.rb +0 -50
data/lib/treat/viewable.rb +0 -29
data/lib/treat/visitable.rb +0 -28
data/test/profile.rb +0 -2
data/test/tc_entity.rb +0 -117
data/test/tc_extractors.rb +0 -73
data/test/tc_formatters.rb +0 -41
data/test/tc_inflectors.rb +0 -34
data/test/tc_lexicalizers.rb +0 -32
data/test/tc_processors.rb +0 -50
data/test/tc_resources.rb +0 -22
data/test/tc_treat.rb +0 -60
data/test/tc_tree.rb +0 -60
data/test/tests.rb +0 -20
data/test/texts.rb +0 -19
data/test/texts/english/half_cocked_basel.txt +0 -16
data/test/texts/english/hose_and_dry.doc +0 -0
data/test/texts/english/hungarys_troubles.abw +0 -70
data/test/texts/english/long.html +0 -24
data/test/texts/english/long.txt +0 -22
data/test/texts/english/medium.txt +0 -5
data/test/texts/english/republican_nomination.pdf +0 -0
data/test/texts/english/saving_the_euro.odt +0 -0
data/test/texts/english/short.txt +0 -3
data/test/texts/english/zero_sum.html +0 -111

data/lib/treat/lexicalizers/taggers/stanford.rb ADDED Viewed

@@ -0,0 +1,97 @@
+# Wrapper for the Stanford POS tagger.
+class Treat::Lexicalizers::Taggers::Stanford
+  require 'treat/loaders/stanford'
+  # Hold one tagger per language.
+  @@taggers = {}
+  # Hold the default options.
+  DefaultOptions =  {
+    :tagger_model => nil
+  }
+  # Tag the word using one of the Stanford taggers.
+  def self.tag(entity, options = {})
+    # Tokenize the sentence/phrase.
+    if !entity.has_children? &&
+      !entity.is_a?(Treat::Entities::Token)
+      entity.tokenize(:stanford, options)
+    end
+    # Handle options and initialize the tagger.
+    lang = entity.language
+    options = get_options(options, lang)
+    tokens, list = get_token_list(entity)
+    init_tagger(lang)
+    # Do the tagging.
+    i = 0
+   isolated_token = entity.is_a?(Treat::Entities::Token)
+    @@taggers[lang].apply(list).each do |tok|
+      tokens[i].set :tag, tok.tag
+      tokens[i].set :tag_set,
+      options[:tag_set] if isolated_token
+      return tok.tag if isolated_token
+      i += 1
+    end
+    # Handle tags for sentences and phrases.
+    if entity.is_a?(Treat::Entities::Sentence) ||
+      (entity.is_a?(Treat::Entities::Phrase) &&
+      !entity.parent_sentence)
+        entity.set :tag_set, :penn
+    end
+    if entity.is_a?(Treat::Entities::Sentence)
+      return 'S'
+    elsif entity.is_a?(Treat::Entities::Phrase)
+      return 'P'
+    end
+  end
+  # Initialize the tagger for a language.
+  def self.init_tagger(lang)
+    language = Treat::Languages.describe(lang)
+    model = StanfordCoreNLP::Config::Models[:pos][language]
+    model = Treat.models + 'stanford/' +
+    StanfordCoreNLP::Config::ModelFolders[:pos] + model
+    @@taggers[lang] ||=
+    StanfordCoreNLP::MaxentTagger.new(model)
+  end
+  # Handle the options for the tagger.
+  def self.get_options(options, lang)
+    language = Treat::Languages.describe(lang)
+    options = DefaultOptions.merge(options)
+    options[:tag_set] =
+    StanfordCoreNLP::Config::TagSets[language]
+    if options[:tagger_model]
+      ::StanfordCoreNLP.set_model('pos.model',
+      options[:tagger_model])
+    end
+    options[:tag_set] =
+    StanfordCoreNLP::Config::TagSets[language]
+    options
+  end
+  # Retrieve a Java ArrayList object.
+  def self.get_token_list(entity)
+    list = StanfordCoreNLP::ArrayList.new
+    if entity.is_a?(Treat::Entities::Token)
+      tokens = [entity]
+    else
+      tokens = entity.tokens
+    end
+    tokens.each do |token|
+      list.add(StanfordCoreNLP::Word.new(token.to_s))
+    end
+    return tokens, list
+  end
+end

data/lib/treat/linguistics.rb ADDED Viewed

@@ -0,0 +1,9 @@
+module Treat::Linguistics
+  p = 'treat/linguistics/*.rb'
+  Dir[Treat.lib + p].each do |f|
+    require f
+  end
+end

data/lib/treat/linguistics/categories.rb ADDED Viewed

@@ -0,0 +1,11 @@
+module Treat::Linguistics
+  # A list of all possible word categories.
+  WordCategories = [
+    :adjective, :adverb, :noun, :verb, :interjection,
+    :clitic, :coverb, :conjunction, :determiner, :particle,
+    :preposition, :pronoun, :number, :symbol, :punctuation,
+    :complementizer
+  ]
+end

data/lib/treat/linguistics/tags.rb ADDED Viewed

@@ -0,0 +1,422 @@
+module Treat::Linguistics::Tags
+  ClawsC5 = 0
+  Brown = 1
+  Penn = 2
+  Negra = 3
+  PennChinese = 4
+  Simple = 5
+  PTBClauseTagDescription = [
+    ['S', 'Simple declarative clause'],
+    ['SBAR', 'Clause introduced by a (possibly empty) subordinating conjunction'],
+    ['SBARQ', 'Direct question introduced by a wh-word or a wh-phrase'],
+    ['SINV', 'Inverted declarative sentence'],
+    ['SQ', 'Inverted yes/no question']
+  ]
+  PTBEscapeCharacters = {
+    '(' => '-LRB-',
+    ')' => '-RRB-',
+    '[' => '-LSB-',
+    ']' => '-RSB-',
+    '{' => '-LCB-',
+    '}' => '-RCB-'
+  }
+  AlignedPhraseTags =
+  [
+    'Adjective phrase', ['', '', 'ADJP'],
+    'Adverb phrase', ['', '', 'ADVP'],
+    'Conjunction phrase', ['', '', 'CONJP'],
+    'Fragment', ['', '', 'FRAG'],
+    'Interjection', ['', '', 'INTJ'],
+    'List marker', ['', '', 'LST'],
+    'Not a phrase', ['', '', 'NAC'],
+    'Noun phrase', ['', '', 'NP'],
+    'Head of NP', ['', '', 'NX'],
+    'Prepositional phrase', ['', '', 'PP'],
+    'Parenthetical', ['', '', 'PRN'],
+    'Particle', ['', '', 'PRT'],
+    'Quantifier phrase', ['', '', 'QP'],
+    'Reduced relative clause', ['', '', 'RRC'],
+    'Unlike coordinated phrase', ['', '', 'UCP'],
+    'Verb phrase', ['', '', 'VP'],
+    'Wh adjective phrase', ['', '', 'WHADJP'],
+    'Wh adverb phrase', ['', '', 'WHAVP'],
+    'Wh noun phrase', ['', '', 'WHNP'],
+    'Wh prepositional phrase', ['', '', 'WHPP'],
+    'Unknown', ['', '', 'X'],
+    'Phrase', ['', '', 'P'],
+    'Sentence', ['', '', 'S'],
+    'Phrase', ['', '', 'SBAR'] # Fix
+  ]
+  # A description of Enju categories.
+  EnjuCatDescription = [
+    ['ADJ',	'Adjective'],
+    ['ADV',	'Adverb'],
+    ['CONJ',	'Coordination conjunction'],
+    ['C',	'Complementizer'],
+    ['D',	'Determiner'],
+    ['N',	'Noun'],
+    ['P',	'Preposition'],
+    ['SC',	'Subordination conjunction'],
+    ['V',	'Verb'],
+    ['COOD',	'Part of coordination'],
+    ['PN',	'Punctuation'],
+    ['PRT',	'Particle'],
+    ['S',	'Sentence']
+  ]
+  # Maps Enju categories to Treat categories.
+  EnjuCatToCategory = {
+    'ADJ' => :adjective,
+    'ADV' => :adverb,
+    'CONJ' => :conjunction,
+    'COOD' => :conjunction,
+    'C' => :complementizer,
+    'D' => :determiner,
+    'N' => :noun,
+    'P' => :preposition,
+    'PN' => :punctuation,
+    'SC' => :conjunction,
+    'V' => :verb,
+    'PRT' => :particle
+  }
+  # Description of the xcat in the Enju output specification.
+  EnjuXCatDescription = [
+    ['COOD',	'Coordinated phrase/clause'],
+    ['IMP',	'Imperative sentence'],
+    ['INV',	'Subject-verb inversion'],
+    ['Q',	'Interrogative sentence with subject-verb inversion'],
+    ['REL',	'A relativizer included'],
+    ['FREL', 'A free relative included'],
+    ['TRACE',	'A trace included'],
+    ['WH', 'A wh-question word included']
+  ]
+  EnjuCatXcatToPTB = [
+    ['ADJP', '', 'ADJP'],
+    ['ADJP', 'REL', 'WHADJP'],
+    ['ADJP', 'FREL', 'WHADJP'],
+    ['ADJP', 'WH', 'WHADJP'],
+    ['ADVP', '', 'ADVP'],
+    ['ADVP', 'REL', 'WHADVP'],
+    ['ADVP', 'FREL', 'WHADVP'],
+    ['ADVP', 'WH', 'WHADVP'],
+    ['CONJP', '', 'CONJP'],
+    ['CP', '', 'SBAR'],
+    ['DP', '', 'NP'],
+    ['NP', '', 'NP'],
+    ['NX', 'NX', 'NAC'],
+    ['NP'	'REL'	'WHNP'],
+    ['NP'	'FREL'	'WHNP'],
+    ['NP'	'WH'	'WHNP'],
+    ['PP', '', 'PP'],
+    ['PP', 'REL', 'WHPP'],
+    ['PP', 'WH', 'WHPP'],
+    ['PRT', '', 'PRT'],
+    ['S', '', 'S'],
+    ['S', 'INV', 'SINV'],
+    ['S', 'Q', 'SQ'],
+    ['S', 'REL', 'SBAR'],
+    ['S', 'FREL', 'SBAR'],
+    ['S', 'WH', 'SBARQ'],
+    ['SCP', '', 'SBAR'],
+    ['VP', '', 'VP'],
+    ['VP', '', 'VP'],
+    ['', '', 'UK']
+  ]
+  # Aligned tags for the Claws C5, Brown and Penn tag sets.
+  # Adapted from Manning, Christopher and Schütze, Hinrich,
+  # 1999. Foundations of Statistical Natural Language
+  # Processing. MIT Press, p. 141-142;
+  # http://www.isocat.org/rest/dcs/376;
+  #
+  # JRS?
+  SimpleWordTagToCategory = {
+    'C' => :complementizer,
+    'PN' => :punctuation,
+    'SC' => :conjunction
+  }
+  PunctuationToCategory = {
+    '.' => :period,
+    ',' => :comma,
+    ';' => :semicolon,
+    ':' => :colon,
+    '!' => :exclamation,
+    '?' => :interrogation,
+    '"' => :quote,
+    "'" => :quote,
+    '$' => :dollar,
+    '%' => :percent,
+    '#' => :hash,
+    '*' => :asterisk,
+    '&' => :ampersand,
+    '+' => :plus,
+    '-' => :dash,
+    '/' => :slash,
+    '\\' => :backslash,
+    '^' => :caret,
+    '_' => :underscore,
+    '`' => :tick,
+    '|' => :pipe,
+    '~' => :tilde,
+    '@' => :at,
+    '[' => :bracket,
+    ']' => :bracket,
+    '{' => :brace,
+    '}' => :brace,
+    '(' => :parenthesis,
+    ')' => :parenthesis,
+    '<' => :tag,
+    '>' => :tag
+  }
+  AlignedWordTags = [
+    'Adjective', ['AJ0', 'JJ', 'JJ', '', 'JJ', 'A'],
+    'Adjective', ['AJ0', 'JJ', 'JJ', '', 'JJ', 'ADJ'],
+    'Ajective, adverbial or predicative', ['', '', '', 'ADJD', '', 'ADJ'],
+    'Adjective, attribute', ['', '', '', 'ADJA', 'VA', 'ADJ'],
+    'Adjective, ordinal number', ['ORD', 'OD', 'JJ', '', 'OD', 'ADJ'],
+    'Adjective, comparative', ['AJC', 'JJR', 'JJR', 'KOKOM', '', 'ADJ'],
+    'Adjective, superlative', ['AJS', 'JJT', 'JJS', '', 'JJ', 'ADJ'],
+    'Adjective, superlative, semantically', ['AJ0', 'JJS', 'JJ', '', '', 'ADJ'],
+    'Adjective, cardinal number', ['CRD', 'CD', 'CD', 'CARD', 'CD', 'ADJ'],
+    'Adjective, cardinal number, one', ['PNI', 'CD', 'CD', 'CARD', 'CD', 'ADJ'],
+    'Adverb', ['AV0', 'RB', 'RB', 'ADV', 'AD', 'ADV'],
+    'Adverb, negative', ['XX0', '*', 'RB', 'PTKNEG', '', 'ADV'],
+    'Adverb, comparative', ['AV0', 'RBR', 'RBR', '', 'AD', 'ADV'],
+    'Adverb, superlative', ['AV0', 'RBT', 'RBS', '', 'AD', 'ADV'],
+    'Adverb, particle', ['AVP', 'RP', 'RP', '', '', 'ADV'],
+    'Adverb, question', ['AVQ', 'WRB', 'WRB', '', 'AD', 'ADV'],
+    'Adverb, degree & question', ['AVQ', 'WQL', 'WRB', '', 'ADV'],
+    'Adverb, degree', ['AV0', 'QL', 'RB', '', '', 'ADV'],
+    'Adverb, degree, postposed', ['AV0', 'QLP', 'RB', '', '', 'ADV'],
+    'Adverb, nominal', ['AV0', 'RN', 'RB', 'PROP', '', 'ADV'],
+    'Adverb, pronominal', ['', '', '', '', 'PROP', '', 'ADV'],
+    'Conjunction, coordination', ['CJC', 'CC', 'CC', 'KON', 'CC', 'COOD'],
+    'Conjunction, coordination, and', ['CJC', 'CC', 'CC', 'KON', 'CC', 'ET'],
+    'Conjunction, subordination', ['CJS', 'CS', 'IN', 'KOUS', 'CS', 'CONJ'],
+    'Conjunction, subordination with to and infinitive', ['', '', '', 'KOUI', '', ''],
+    'Conjunction, complementizer, that', ['CJT', 'CS', 'IN', '', '', 'C'],
+    'Determiner', ['DT0', 'DT', 'DT', '', 'DT', 'D'],
+    'Determiner, pronoun', ['DT0', 'DTI', 'DT', '', '', 'D'],
+    'Determiner, pronoun, plural', ['DT0', 'DTS', 'DT', '', '', 'D'],
+    'Determiner, prequalifier', ['DT0', 'ABL', 'DT', '', '', 'D'],
+    'Determiner, prequantifier', ['DT0', 'ABN', 'PDT', '', 'DT', 'D'],
+    'Determiner, pronoun or double conjunction', ['DT0', 'ABX', 'PDT', '', '', 'D'],
+    'Determiner, pronoun or double conjunction', ['DT0', 'DTX', 'DT', '', '', 'D'],
+    'Determiner, article', ['AT0', 'AT', 'DT', 'ART', '', 'D'],
+    'Determiner, postdeterminer', ['DT0', 'AP', 'DT', '', '', 'D'],
+    'Determiner, possessive', ['DPS', 'PP$', 'PRP$', '', '', 'D'],
+    'Determiner, possessive, second', ['DPS', 'PP$', 'PRPS', '', '', 'D'],
+    'Determiner, question', ['DTQ', 'WDT', 'WDT', '', 'DT', 'D'],
+    'Determiner, possessive & question', ['DTQ', 'WP$', 'WP$', '', '', 'D'],
+    'Localizer', ['', '', '', '', 'LC'],
+    'Measure word', ['', '', '', '', 'M'],
+    'Noun, common', ['NN0', 'NN', 'NN', 'N', 'NN', 'NN'],
+    'Noun, singular', ['NN1', 'NN', 'NN', 'NN', 'NN', 'N'],
+    'Noun, plural', ['NN2', 'NNS', 'NNS', 'NN', 'NN', 'N'],
+    'Noun, proper, singular', ['NP0', 'NP', 'NNP', 'NE', 'NR', 'N'],
+    'Noun, proper, plural', ['NP0', 'NPS', 'NNPS', 'NE', 'NR', 'N'],
+    'Noun, adverbial', ['NN0', 'NR', 'NN', 'NE', '', 'N'],
+    'Noun, adverbial, plural', ['NN2', 'NRS', 'NNS', '', 'N'],
+    'Noun, temporal', ['', '', '', '', 'NT', 'N'],
+    'Noun, verbal', ['', '', '', '', 'NN', 'N'],
+    'Pronoun, nominal (indefinite)', ['PNI', 'PN', 'PRP', '', 'PN', 'CL'],
+    'Pronoun, personal, subject', ['PNP', 'PPSS', 'PRP', 'PPER'],
+    'Pronoun, personal, subject, 3SG', ['PNP', 'PPS', 'PRP', 'PPER'],
+    'Pronoun, personal, object', ['PNP', 'PPO', 'PRP', 'PPER'],
+    'Pronoun, reflexive', ['PNX', 'PPL', 'PRP', 'PRF'],
+    'Pronoun, reflexive, plural', ['PNX', 'PPLS', 'PRP', 'PRF'],
+    'Pronoun, question, subject', ['PNQ', 'WPS', 'WP', 'PWAV'],
+    'Pronoun, question, subject', ['PNQ', 'WPS', 'WPS', 'PWAV'],  # Hack
+    'Pronoun, question, object', ['PNQ', 'WPO', 'WP', 'PWAV', 'PWAT'],
+    'Pronoun, existential there', ['EX0', 'EX', 'EX'],
+    'Pronoun, attributive demonstrative', ['', '', '', 'PDAT'],
+    'Prounoun, attributive indefinite without determiner', ['', '', '', 'PIAT'],
+    'Pronoun, attributive possessive', ['', '', '', 'PPOSAT', ''],
+    'Pronoun, substituting demonstrative', ['', '', '', 'PDS'],
+    'Pronoun, substituting possessive', ['', '', '', 'PPOSS', ''],
+    'Prounoun, substituting indefinite', ['', '', '', 'PIS'],
+    'Pronoun, attributive relative', ['', '', '', 'PRELAT', ''],
+    'Pronoun, substituting relative', ['', '', '', 'PRELS', ''],
+    'Pronoun, attributive interrogative', ['', '', '', 'PWAT'],
+    'Pronoun, adverbial interrogative', ['', '', '', 'PWAV'],
+    'Pronoun, substituting interrogative', ['', '', '', 'PWS'],
+    'Verb, main, finite', ['', '', '', 'VVFIN', '', 'V'],
+    'Verb, main, infinitive', ['', '', '', 'VVINF', '', 'V'],
+    'Verb, main, imperative', ['', '', '', 'VVIMP', '', 'V'],
+    'Verb, base present form (not infinitive)', ['VVB', 'VB', 'VBP', '', '', 'V'],
+    'Verb, infinitive', ['VVI', 'VB', 'VB', 'V', '', 'V'],
+    'Verb, past tense', ['VVD', 'VBD', 'VBD', '', '', 'V'],
+    'Verb, present participle', ['VVG', 'VBG', 'VBG', 'VAPP', '', 'V'],
+    'Verb, past/passive participle', ['VVN', 'VBN', 'VBN', 'VVPP', '', 'V'],
+    'Verb, present, 3SG, -s form', ['VVZ', 'VBZ', 'VBZ', '', '', 'V'],
+    'Verb, auxiliary', ['', '', '', 'VAFIN', '', 'V'],
+    'Verb, imperative', ['', '', '', 'VAIMP', '', 'V'],
+    'Verb, imperative infinitive', ['', '', '', 'VAINF', '', 'V'],
+    'Verb, auxiliary do, base', ['VDB', 'DO', 'VBP', '', '', 'V'],
+    'Verb, auxiliary do, infinitive', ['VDB', 'DO', 'VB', '', '', 'V'],
+    'Verb, auxiliary do, past', ['VDD', 'DOD', 'VBD', '', '', 'V'],
+    'Verb, auxiliary do, present participle', ['VDG', 'VBG', 'VBG', '', '', 'V'],
+    'Verb, auxiliary do, past participle', ['VDN', 'VBN', 'VBN', '', '', 'V'],
+    'Verb, auxiliary do, present 3SG', ['VDZ', 'DOZ', 'VBZ', '', '', 'V'],
+    'Verb, auxiliary have, base', ['VHB', 'HV', 'VBP', 'VA', '', 'V'],
+    'Verb, auxiliary have, infinitive', ['VHI', 'HV', 'VB', 'VAINF', '', 'V'],
+    'Verb, auxiliary have, past', ['VHD', 'HVD', 'VBD', 'VA', '', 'V'],
+    'Verb, auxiliary have, present participle', ['VHG', 'HVG', 'VBG', 'VA', '', 'V'],
+    'Verb, auxiliary have, past participle', ['VHN', 'HVN', 'VBN', 'VAPP', '', 'V'],
+    'Verb, auxiliary have, present 3SG', ['VHZ', 'HVZ', 'VBZ', 'VA', '', 'V'],
+    'Verb, auxiliary be, infinitive', ['VBI', 'BE', 'VB', '', '', 'V'],
+    'Verb, auxiliary be, past', ['VBD', 'BED', 'VBD', '', '', 'V'],
+    'Verb, auxiliary be, past, 3SG', ['VBD', 'BEDZ', 'VBD', '', '', 'V'],
+    'Verb, auxiliary be, present participle', ['VBG', 'BEG', 'VBG', '', '', 'V'],
+    'Verb, auxiliary be, past participle', ['VBN', 'BEN', 'VBN', '', '', 'V'],
+    'Verb, auxiliary be, present, 3SG', ['VBZ', 'BEZ', 'VBZ', '', '', 'V'],
+    'Verb, auxiliary be, present, 1SG', ['VBB', 'BEM', 'VBP', '', '', 'V'],
+    'Verb, auxiliary be, present', ['VBB', 'BER', 'VBP', '', '', 'V'],
+    'Verb, modal', ['VM0', 'MD', 'MD', 'VMFIN', 'VV', 'V'],
+    'Verb, modal', ['VM0', 'MD', 'MD', 'VMINF', 'VV', 'V'],
+    'Verb, modal, finite', ['', '', '', '', 'VMFIN', 'V'],
+    'Verb, modal, infinite', ['', '', '', '', 'VMINF', 'V'],
+    'Verb, modal, past participle', ['', '', '', '', 'VMPP', 'V'],
+    'Particle', ['', '', '', '', '', 'PRT'],
+    'Particle, with adverb', ['', '', '', 'PTKA', '', 'PRT'],
+    'Particle, answer', ['', '', '', 'PTKANT', '', 'PRT'],
+    'Particle, negation', ['', '', '', 'PTKNEG', '', 'PRT'],
+    'Particle, separated verb', ['', '', '', 'PTKVZ', '', 'PRT'],
+    'Particle, to as infinitive marker', ['TO0', 'TO', 'TO', 'PTKZU', '', 'PRT'],
+    'Preposition, comparative', ['', '', '', 'KOKOM', '', 'P'],
+    'Preposition, to', ['PRP', 'IN', 'TO', '', '', 'P'],
+    'Preposition', ['PRP', 'IN', 'IN', 'APPR', 'P', 'P'],
+    'Preposition, with aritcle', ['', '', '', 'APPART', '', 'P'],
+    'Preposition, of', ['PRF', 'IN', 'IN', '', '', 'P'],
+    'Possessive', ['POS', '$', 'POS'],
+    'Postposition', ['', '', '', 'APPO'],
+    'Circumposition, right', ['', '', '', 'APZR', ''],
+    'Interjection, onomatopoeia or other isolate', ['ITJ', 'UH', 'UH', 'ITJ', 'IJ'],
+    'Onomatopoeia', ['', '', '', '', 'ON'],
+    'Punctuation', ['', '', '', '', 'PU', 'PN'],
+    'Punctuation, sentence ender', ['PUN', '.', '.', '', '', 'PN'],
+    'Punctuation, semicolon', ['PUN', '.', '.', '', '', 'PN'],
+    'Puncutation, colon or ellipsis', ['PUN', ':', ':'],
+    'Punctuationm, comma', ['PUN', ',', ',', '$,'],
+    'Punctuation, dash', ['PUN', '-', '-'],
+    'Punctuation, dollar sign', ['PUN', '', '$'],
+    'Punctuation, left bracket', ['PUL', '(', '(', '$('],
+    'Punctuation, right bracket', ['PUR', ')', ')'],
+    'Punctuation, quotation mark, left', ['PUQ', '', '``'],
+    'Punctuation, quotation mark, right', ['PUQ', '', '"'],
+    'Punctuation, left bracket', ['PUL', '(', 'PPL'],
+    'Punctuation, right bracket', ['PUR', ')', 'PPR'],
+    'Punctuation, left square bracket', ['PUL', '(', 'LSB'],
+    'Punctuation, right square bracket', ['PUR', ')', 'RSB'],
+    'Punctuation, left curly bracket', ['PUL', '(', 'LCB'],
+    'Punctuation, right curly bracket', ['PUR', ')', 'RCB'],
+    'Unknown, foreign words (not in lexicon)', ['UNZ', '(FW-)', 'FW', '', 'FW'],
+    'Symbol', ['', '', 'SYM', 'XY'],
+    'Symbol, alphabetical', ['ZZ0', '', ''],
+    'Symbol, list item', ['', '', 'LS'],
+    # Not sure about these tags from the Chinese PTB.
+    'Aspect marker', ['', '', '', '', 'AS'],                         # ?
+    'Ba-construction', ['', '', '', '', 'BA'],                       # ?
+    'In relative', ['', '', '', '', 'DEC'],                          # ?
+    'Associative', ['', '', '', '', 'DER'],                          # ?
+    'In V-de or V-de-R construct', ['', '', '', '', 'DER'],          # ?
+    'For words ? ', ['', '', '', '', 'ETC'],                         # ?
+    'In long bei-construct', ['', '', '', '', 'LB'],                 # ?
+    'In short bei-construct', ['', '', '', '', 'SB'],                # ?
+    'Sentence-nal particle', ['', '', '', '', 'SB'],                 # ?
+    'Particle, other', ['', '', '', '', 'MSP'],                      # ?
+    'Before VP', ['', '', '', '', 'DEV'],                            # ?
+    'Verb, ? as main verb', ['', '', '', '', 'VE'],                  # ?
+    'Verb, ????', ['', '', '', '', 'VC']                             # ?
+  ]
+  wttc = {
+  }
+  Treat::Linguistics::Tags::AlignedWordTags.each_slice(2) do |desc, tags|
+    category = desc.gsub(',', ' ,').
+    split(' ')[0].downcase.intern
+    wttc[tags[ClawsC5]] ||= {}
+    wttc[tags[Brown]] ||= {}
+    wttc[tags[Penn]] ||= {}
+    wttc[tags[Negra]] ||= {}
+    wttc[tags[PennChinese]] ||= {}
+    wttc[tags[Simple]] ||= {}
+    wttc[tags[ClawsC5]][:claws_5] = category
+    wttc[tags[Brown]][:brown] = category
+    wttc[tags[Penn]][:penn] = category
+    wttc[tags[Negra]][:negra] = category if tags[Negra]
+    wttc[tags[PennChinese]][:penn_chinese] = category if tags[PennChinese]
+    wttc[tags[Simple]][:simple] = category if tags[Simple]
+  end
+  # A hash converting word tags to word categories.
+  WordTagToCategory = wttc
+  # A hash converting phrase tag to categories.
+  pttc = {}
+  Treat::Linguistics::Tags::AlignedPhraseTags.each_slice(2) do |desc, tags|
+    category = desc.gsub(',', ' ,').gsub(' ', '_').downcase.intern
+    pttc[tags[Penn]] ||= {};
+    # Not yet for other tag sts.
+    #pttc[tags[0]][:claws_5] = category
+    #pttc[tags[1]][:brown] = category
+    pttc[tags[Penn]][:penn] = category
+  end
+  # A hash converting word tags to word categories.
+  PhraseTagToCategory = pttc
+  def self.describe(tag, tag_set)
+    if PhraseTagToCategory[tag] &&
+      PhraseTagToCategory[tag_set] &&
+      WordTagToCategory[tag] &&
+      WordTagToCategory[tag_set]
+    end
+  end
+  def self.convert(tag, from, to)
+  end
+end