RubyGems - treat - Versions diffs - 0.2.5 → 1.0.0 - Mend

treat 0.2.5 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

data/LICENSE +3 -3
data/README.md +33 -0
data/files/INFO +1 -0
data/lib/treat.rb +40 -105
data/lib/treat/ai.rb +12 -0
data/lib/treat/ai/classifiers/id3.rb +27 -0
data/lib/treat/categories.rb +82 -35
data/lib/treat/categorizable.rb +44 -0
data/lib/treat/classification.rb +61 -0
data/lib/treat/configurable.rb +115 -0
data/lib/treat/data_set.rb +42 -0
data/lib/treat/dependencies.rb +24 -0
data/lib/treat/downloader.rb +87 -0
data/lib/treat/entities.rb +68 -66
data/lib/treat/entities/abilities.rb +10 -0
data/lib/treat/entities/abilities/buildable.rb +327 -0
data/lib/treat/entities/abilities/checkable.rb +31 -0
data/lib/treat/entities/abilities/copyable.rb +45 -0
data/lib/treat/entities/abilities/countable.rb +51 -0
data/lib/treat/entities/abilities/debuggable.rb +83 -0
data/lib/treat/entities/abilities/delegatable.rb +123 -0
data/lib/treat/entities/abilities/doable.rb +62 -0
data/lib/treat/entities/abilities/exportable.rb +11 -0
data/lib/treat/entities/abilities/iterable.rb +115 -0
data/lib/treat/entities/abilities/magical.rb +83 -0
data/lib/treat/entities/abilities/registrable.rb +74 -0
data/lib/treat/entities/abilities/stringable.rb +91 -0
data/lib/treat/entities/entities.rb +104 -0
data/lib/treat/entities/entity.rb +122 -245
data/lib/treat/exception.rb +4 -4
data/lib/treat/extractors.rb +77 -80
data/lib/treat/extractors/keywords/tf_idf.rb +56 -22
data/lib/treat/extractors/language/what_language.rb +50 -45
data/lib/treat/extractors/name_tag/stanford.rb +55 -0
data/lib/treat/extractors/tf_idf/native.rb +87 -0
data/lib/treat/extractors/time/chronic.rb +55 -0
data/lib/treat/extractors/time/nickel.rb +86 -62
data/lib/treat/extractors/time/ruby.rb +53 -0
data/lib/treat/extractors/topic_words/lda.rb +67 -58
data/lib/treat/extractors/topics/reuters.rb +100 -87
data/lib/treat/formatters.rb +39 -35
data/lib/treat/formatters/readers/abw.rb +49 -29
data/lib/treat/formatters/readers/autoselect.rb +37 -33
data/lib/treat/formatters/readers/doc.rb +19 -13
data/lib/treat/formatters/readers/html.rb +52 -30
data/lib/treat/formatters/readers/image.rb +41 -40
data/lib/treat/formatters/readers/odt.rb +59 -45
data/lib/treat/formatters/readers/pdf.rb +28 -25
data/lib/treat/formatters/readers/txt.rb +12 -15
data/lib/treat/formatters/readers/xml.rb +73 -36
data/lib/treat/formatters/serializers/xml.rb +80 -79
data/lib/treat/formatters/serializers/yaml.rb +19 -18
data/lib/treat/formatters/unserializers/autoselect.rb +12 -22
data/lib/treat/formatters/unserializers/xml.rb +94 -99
data/lib/treat/formatters/unserializers/yaml.rb +20 -19
data/lib/treat/formatters/visualizers/dot.rb +132 -132
data/lib/treat/formatters/visualizers/standoff.rb +52 -44
data/lib/treat/formatters/visualizers/tree.rb +26 -29
data/lib/treat/groupable.rb +153 -0
data/lib/treat/helpers/decimal_point_escaper.rb +22 -0
data/lib/treat/inflectors.rb +50 -45
data/lib/treat/inflectors/cardinalizers/linguistics.rb +40 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +55 -0
data/lib/treat/inflectors/declensors/active_support.rb +31 -0
data/lib/treat/inflectors/declensors/english.rb +38 -0
data/lib/treat/inflectors/declensors/english/inflect.rb +288 -0
data/lib/treat/inflectors/declensors/linguistics.rb +49 -0
data/lib/treat/inflectors/ordinalizers/linguistics.rb +17 -0
data/lib/treat/inflectors/stemmers/porter.rb +160 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +24 -0
data/lib/treat/inflectors/stemmers/uea.rb +28 -0
data/lib/treat/installer.rb +308 -0
data/lib/treat/kernel.rb +105 -27
data/lib/treat/languages.rb +122 -88
data/lib/treat/languages/arabic.rb +15 -15
data/lib/treat/languages/chinese.rb +15 -15
data/lib/treat/languages/dutch.rb +15 -15
data/lib/treat/languages/english.rb +61 -62
data/lib/treat/languages/french.rb +19 -19
data/lib/treat/languages/german.rb +20 -20
data/lib/treat/languages/greek.rb +15 -15
data/lib/treat/languages/italian.rb +16 -16
data/lib/treat/languages/polish.rb +15 -15
data/lib/treat/languages/portuguese.rb +15 -15
data/lib/treat/languages/russian.rb +15 -15
data/lib/treat/languages/spanish.rb +16 -16
data/lib/treat/languages/swedish.rb +16 -16
data/lib/treat/lexicalizers.rb +34 -55
data/lib/treat/lexicalizers/categorizers/from_tag.rb +54 -0
data/lib/treat/lexicalizers/sensers/wordnet.rb +57 -0
data/lib/treat/lexicalizers/sensers/wordnet/synset.rb +71 -0
data/lib/treat/lexicalizers/taggers/brill.rb +70 -0
data/lib/treat/lexicalizers/taggers/brill/patch.rb +61 -0
data/lib/treat/lexicalizers/taggers/lingua.rb +90 -0
data/lib/treat/lexicalizers/taggers/stanford.rb +97 -0
data/lib/treat/linguistics.rb +9 -0
data/lib/treat/linguistics/categories.rb +11 -0
data/lib/treat/linguistics/tags.rb +422 -0
data/lib/treat/loaders/linguistics.rb +30 -0
data/lib/treat/loaders/stanford.rb +27 -0
data/lib/treat/object.rb +1 -0
data/lib/treat/processors.rb +37 -44
data/lib/treat/processors/chunkers/autoselect.rb +16 -0
data/lib/treat/processors/chunkers/html.rb +71 -0
data/lib/treat/processors/chunkers/txt.rb +18 -24
data/lib/treat/processors/parsers/enju.rb +253 -208
data/lib/treat/processors/parsers/stanford.rb +130 -131
data/lib/treat/processors/segmenters/punkt.rb +79 -45
data/lib/treat/processors/segmenters/stanford.rb +46 -48
data/lib/treat/processors/segmenters/tactful.rb +43 -36
data/lib/treat/processors/tokenizers/perl.rb +124 -92
data/lib/treat/processors/tokenizers/ptb.rb +81 -0
data/lib/treat/processors/tokenizers/punkt.rb +48 -42
data/lib/treat/processors/tokenizers/stanford.rb +39 -38
data/lib/treat/processors/tokenizers/tactful.rb +64 -55
data/lib/treat/proxies.rb +52 -35
data/lib/treat/retrievers.rb +26 -16
data/lib/treat/retrievers/indexers/ferret.rb +47 -26
data/lib/treat/retrievers/searchers/ferret.rb +69 -50
data/lib/treat/tree.rb +241 -183
data/spec/collection.rb +123 -0
data/spec/document.rb +93 -0
data/spec/entity.rb +408 -0
data/spec/languages.rb +25 -0
data/spec/phrase.rb +146 -0
data/spec/samples/mathematicians/archimedes.abw +34 -0
data/spec/samples/mathematicians/euler.html +21 -0
data/spec/samples/mathematicians/gauss.pdf +0 -0
data/spec/samples/mathematicians/leibniz.txt +13 -0
data/spec/samples/mathematicians/newton.doc +0 -0
data/spec/sandbox.rb +5 -0
data/spec/token.rb +109 -0
data/spec/treat.rb +52 -0
data/spec/tree.rb +117 -0
data/spec/word.rb +110 -0
data/spec/zone.rb +66 -0
data/tmp/INFO +1 -1
metadata +100 -201
data/INSTALL +0 -1
data/README +0 -3
data/TODO +0 -28
data/lib/economist/half_cocked_basel.txt +0 -16
data/lib/economist/hungarys_troubles.txt +0 -46
data/lib/economist/indias_slowdown.txt +0 -15
data/lib/economist/merkozy_rides_again.txt +0 -24
data/lib/economist/prada_is_not_walmart.txt +0 -9
data/lib/economist/to_infinity_and_beyond.txt +0 -15
data/lib/ferret/_11.cfs +0 -0
data/lib/ferret/_14.cfs +0 -0
data/lib/ferret/_p.cfs +0 -0
data/lib/ferret/_s.cfs +0 -0
data/lib/ferret/_v.cfs +0 -0
data/lib/ferret/_y.cfs +0 -0
data/lib/ferret/segments +0 -0
data/lib/ferret/segments_15 +0 -0
data/lib/treat/buildable.rb +0 -157
data/lib/treat/category.rb +0 -33
data/lib/treat/delegatable.rb +0 -116
data/lib/treat/doable.rb +0 -45
data/lib/treat/entities/collection.rb +0 -14
data/lib/treat/entities/document.rb +0 -12
data/lib/treat/entities/phrases.rb +0 -17
data/lib/treat/entities/tokens.rb +0 -61
data/lib/treat/entities/zones.rb +0 -41
data/lib/treat/extractors/coreferences/stanford.rb +0 -69
data/lib/treat/extractors/date/chronic.rb +0 -32
data/lib/treat/extractors/date/ruby.rb +0 -25
data/lib/treat/extractors/keywords/topics_tf_idf.rb +0 -48
data/lib/treat/extractors/language/language_extractor.rb +0 -27
data/lib/treat/extractors/named_entity_tag/stanford.rb +0 -53
data/lib/treat/extractors/roles/naive.rb +0 -73
data/lib/treat/extractors/statistics/frequency_in.rb +0 -16
data/lib/treat/extractors/statistics/position_in.rb +0 -14
data/lib/treat/extractors/statistics/tf_idf.rb +0 -104
data/lib/treat/extractors/statistics/transition_matrix.rb +0 -105
data/lib/treat/extractors/statistics/transition_probability.rb +0 -57
data/lib/treat/extractors/topic_words/lda/data.dat +0 -46
data/lib/treat/extractors/topic_words/lda/wiki.yml +0 -121
data/lib/treat/extractors/topics/reuters/industry.xml +0 -2717
data/lib/treat/extractors/topics/reuters/region.xml +0 -13586
data/lib/treat/extractors/topics/reuters/topics.xml +0 -17977
data/lib/treat/feature.rb +0 -58
data/lib/treat/features.rb +0 -7
data/lib/treat/formatters/visualizers/short_value.rb +0 -29
data/lib/treat/formatters/visualizers/txt.rb +0 -45
data/lib/treat/group.rb +0 -106
data/lib/treat/helpers/linguistics_loader.rb +0 -18
data/lib/treat/inflectors/cardinal_words/linguistics.rb +0 -42
data/lib/treat/inflectors/conjugations/linguistics.rb +0 -36
data/lib/treat/inflectors/declensions/english.rb +0 -319
data/lib/treat/inflectors/declensions/linguistics.rb +0 -42
data/lib/treat/inflectors/ordinal_words/linguistics.rb +0 -20
data/lib/treat/inflectors/stem/porter.rb +0 -162
data/lib/treat/inflectors/stem/porter_c.rb +0 -26
data/lib/treat/inflectors/stem/uea.rb +0 -30
data/lib/treat/install.rb +0 -59
data/lib/treat/languages/tags.rb +0 -377
data/lib/treat/lexicalizers/category/from_tag.rb +0 -49
data/lib/treat/lexicalizers/linkages/naive.rb +0 -63
data/lib/treat/lexicalizers/synsets/wordnet.rb +0 -76
data/lib/treat/lexicalizers/tag/brill.rb +0 -91
data/lib/treat/lexicalizers/tag/lingua.rb +0 -123
data/lib/treat/lexicalizers/tag/stanford.rb +0 -70
data/lib/treat/processors/segmenters/punkt/dutch.yaml +0 -9716
data/lib/treat/processors/segmenters/punkt/english.yaml +0 -10340
data/lib/treat/processors/segmenters/punkt/french.yaml +0 -43159
data/lib/treat/processors/segmenters/punkt/german.yaml +0 -9572
data/lib/treat/processors/segmenters/punkt/greek.yaml +0 -6050
data/lib/treat/processors/segmenters/punkt/italian.yaml +0 -14748
data/lib/treat/processors/segmenters/punkt/polish.yaml +0 -9751
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +0 -13662
data/lib/treat/processors/segmenters/punkt/russian.yaml +0 -4237
data/lib/treat/processors/segmenters/punkt/spanish.yaml +0 -24034
data/lib/treat/processors/segmenters/punkt/swedish.yaml +0 -10001
data/lib/treat/processors/tokenizers/macintyre.rb +0 -77
data/lib/treat/processors/tokenizers/multilingual.rb +0 -30
data/lib/treat/registrable.rb +0 -28
data/lib/treat/sugar.rb +0 -50
data/lib/treat/viewable.rb +0 -29
data/lib/treat/visitable.rb +0 -28
data/test/profile.rb +0 -2
data/test/tc_entity.rb +0 -117
data/test/tc_extractors.rb +0 -73
data/test/tc_formatters.rb +0 -41
data/test/tc_inflectors.rb +0 -34
data/test/tc_lexicalizers.rb +0 -32
data/test/tc_processors.rb +0 -50
data/test/tc_resources.rb +0 -22
data/test/tc_treat.rb +0 -60
data/test/tc_tree.rb +0 -60
data/test/tests.rb +0 -20
data/test/texts.rb +0 -19
data/test/texts/english/half_cocked_basel.txt +0 -16
data/test/texts/english/hose_and_dry.doc +0 -0
data/test/texts/english/hungarys_troubles.abw +0 -70
data/test/texts/english/long.html +0 -24
data/test/texts/english/long.txt +0 -22
data/test/texts/english/medium.txt +0 -5
data/test/texts/english/republican_nomination.pdf +0 -0
data/test/texts/english/saving_the_euro.odt +0 -0
data/test/texts/english/short.txt +0 -3
data/test/texts/english/zero_sum.html +0 -111

data/lib/treat/languages/swedish.rb CHANGED Viewed

@@ -1,16 +1,16 @@
-module Treat
-  module Languages
-    class Swedish
-      RequiredDependencies = []
-      OptionalDependencies = []
-      Processors = {
-        :chunkers => [:txt],
-        :segmenters => [:punkt],
-        :tokenizers => [:tactful]
-      }
-      Extractors = {}
-      Inflectors = {}
-      Lexicalizers = {}
-    end
-  end
-end
+class Treat::Languages::Swedish
+  RequiredDependencies = []
+  OptionalDependencies = []
+  Extractors = {}
+  Inflectors = {}
+  Lexicalizers = {}
+  Processors = {
+    :chunkers => [:txt],
+    :segmenters => [:punkt],
+    :tokenizers => [:perl, :tactful]
+  }
+  Retrievers = {}
+end

data/lib/treat/lexicalizers.rb CHANGED Viewed

@@ -1,57 +1,36 @@
-module Treat
-  # Lexicalizers allow the retrieval of lexical information
-  # (part of speech tag, synsets, hypersets, hyposets, etc.)
-  # of an entity.
-  module Lexicalizers
-    # Taggers return the part of speech tag of a word.
-    module Tag
-      extend Group
-      self.type = :annotator
-      self.targets = [:sentence, :phrase, :token]
-    end
-    # Return the general category of a word.
-    module Category
-      extend Group
-      self.type = :annotator
-      self.targets = [:word]
-      self.default = :from_tag
-    end
-    # Lexicons are dictionnaries of semantically linked
-    # word forms.
-    module Synsets
-      extend Group
-      self.type = :annotator
-      self.targets = [:word]
-      self.postprocessors = {
-        :synonyms => lambda do |entity, synsets|
-          synsets.collect { |ss| ss.synonyms }.flatten -
-          [entity.value]
-        end,
-        :antonyms => lambda do |entity, synsets|
-          synsets.collect { |ss| ss.antonyms }.flatten
-        end,
-        :hyponyms => lambda do |entity, synsets|
-          synsets.collect { |ss| ss.hyponyms }.flatten
-        end,
-        :hypernyms => lambda do |entity, synsets|
-          synsets.collect { |ss| ss.hypernyms }.flatten
-        end
-      }
-    end
-    module Linkages
-      extend Group
-      self.type = :annotator
-      self.targets = [:zone]
-      self.presets = {
-        :is_a => {:linkage => :is_a},
-        :synonym_of => {:linkage => :synonym_of},
-        :antonym_of => {:linkage => :antonym_of}
-      }
-    end
-    extend Treat::Category
+# Lexicalizers allow to retrieve lexical information
+# (part of speech tag, general word category, synsets,
+# synonyms, antonyms, hyponyms, hypernyms, lexical
+# relations, grammatical links).
+# of an entity.
+module Treat::Lexicalizers
+  # Taggers return the part of speech tag of a word.
+  module Taggers
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:sentence, :phrase, :token]
   end
+  # Return the general category of a word.
+  module Categorizers
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:token]
+    self.default = :from_tag
+  end
+  # Find the synsets of a word in a lexicon.
+  module Sensers
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:word]
+    self.preset_option = :nym
+    self.presets = [:synonyms, :antonyms,
+                    :hyponyms, :hypernyms]
+  end
+  # Make Lexicalizers categorizable.
+  extend Treat::Categorizable
 end

data/lib/treat/lexicalizers/categorizers/from_tag.rb ADDED Viewed

@@ -0,0 +1,54 @@
+# Finds the general part of speech of an entity
+# (:sentence, :noun_phrase, :verb, :adverb, etc.)
+# from its tag (e.g. 'S', 'NP', 'VBZ', 'ADV', etc.).
+class Treat::Lexicalizers::Categorizers::FromTag
+  Pttc = Treat::Linguistics::Tags::PhraseTagToCategory
+  Wttc = Treat::Linguistics::Tags::WordTagToCategory
+  Ptc = Treat::Linguistics::Tags::PunctuationToCategory
+  # Find the category of the entity from its tag.
+  def self.category(entity, options = {})
+    tag = entity.check_has(:tag)
+    return :unknown if tag.nil? || tag == '' || entity.type == :symbol
+    return :sentence if tag == 'S' || entity.type == :sentence
+    return :number if entity.type == :number
+    return Ptc[entity.to_s] if entity.type == :punctuation
+    if entity.is_a?(Treat::Entities::Phrase)
+      cat = Pttc[tag]
+      cat = Wttc[tag] unless cat
+    else
+      cat = Wttc[tag]
+    end
+    return :unknown if cat == nil
+    ts = nil
+    if entity.has?(:tag_set)
+      ts = entity.get(:tag_set)
+    elsif entity.parent_phrase &&
+      entity.parent_phrase.has?(:tag_set)
+      ts = entity.parent_phrase.get(:tag_set)
+    else
+      raise Treat::Exception,
+      "No information can be found regarding "+
+      "which tag set to use."
+    end
+    if cat[ts]
+      return cat[ts]
+    else
+      raise Treat::Exception,
+      "The specified tag set (#{ts})" +
+      " does not contain the tag #{tag} " +
+      "for token #{entity.to_s}."
+    end
+    :unknown
+  end
+end

data/lib/treat/lexicalizers/sensers/wordnet.rb ADDED Viewed

@@ -0,0 +1,57 @@
+# Obtain lexical information about a word using the
+# ruby 'wordnet' gem.
+class Treat::Lexicalizers::Sensers::Wordnet
+  # Require the 'wordnet' gem.
+  require 'wordnet'
+  # Patch for bug.
+  ::WordNet.module_eval do
+    remove_const(:SynsetType)
+    const_set(:SynsetType,
+    {"n" => "noun", "v" => "verb", "a" => "adj"})
+  end
+  # Require an adaptor for Wordnet synsets.
+  require 'treat/lexicalizers/sensers/wordnet/synset'
+  # Noun, adjective and verb indexes.
+  @@indexes = {}
+  # Obtain lexical information about a word using the
+  # ruby 'wordnet' gem.
+  def self.sense(word, options = nil)
+    category = word.check_has(:category)
+    unless options[:nym]
+      raise Treat::Exception, "You must supply " +
+      "the :nym option (:synonym, :hypernym, etc.)"
+    end
+    unless [:noun, :adjective, :verb].
+      include?(word.category)
+      return []
+    end
+    cat = category.to_s.capitalize
+    @@indexes[cat] ||=
+    ::WordNet.const_get(cat + 'Index').instance
+    lemma = @@indexes[cat].find(word.value.downcase)
+    return [] if lemma.nil?
+    synsets = []
+    lemma.synsets.each do |synset|
+      synsets <<
+      Treat::Lexicalizers::Sensers::Wordnet::Synset.new(synset)
+    end
+    ((synsets.collect do |ss|
+      ss.send(options[:nym])
+    end - [word.value]).flatten).uniq
+  end
+end

data/lib/treat/lexicalizers/sensers/wordnet/synset.rb ADDED Viewed

@@ -0,0 +1,71 @@
+# An adaptor for synsets used by the Wordnet gem.
+class Treat::Lexicalizers::Sensers::Wordnet::Synset
+  # The POS tag of the word.
+  attr_accessor :pos
+  # The definition of the synset.
+  attr_accessor :definition
+  # The examples in the synset.
+  attr_accessor :examples
+  def initialize(synset)
+    @original_synset = synset
+    @pos, @definition, @examples =
+    parse_synset(synset.to_s.split(')'))
+  end
+  def parse_synset(res)
+    pos = res[0][1..-1].strip
+    res2 = res[1].split('(')
+    res3 = res2[1].split(';')
+    1.upto(res3.size-1) do |i|
+      res3[i] = res3[i].strip[1..-2]
+    end
+    definition = res3[0]
+    examples = res3[1..-1]
+    return pos, definition, examples
+  end
+  # The words in the synset.
+  def words
+    @original_synset.words
+  end
+  def synonyms
+    @original_synset.words
+  end
+  # A gloss (short definition with examples)
+  # for the synset.
+  def gloss
+    @original_synset.gloss
+  end
+  # The antonym sets of the synset.
+  def antonyms
+    antonym.collect { |a| a.words }
+  end
+  # The hypernym sets of the synset.
+  def hypernyms
+    h = hypernym
+    return [] unless h
+    h.words
+  end
+  # The hyponym sets of the synset.
+  def hyponyms
+    hyponym.collect { |h| h.words }
+  end
+  # Respond to the missing method event.
+  def method_missing(sym, *args, &block)
+    ret = @original_synset.send(sym)
+    if ret.is_a?(Treat::Lexicalizers::Sensers::Wordnet::Synset)
+      self.new(ret)
+    else
+      ret
+    end
+  end
+end

data/lib/treat/lexicalizers/taggers/brill.rb ADDED Viewed

@@ -0,0 +1,70 @@
+# Adapter class for the 'rbtagger' gem, a port
+# of the Perl Lingua::BrillTagger class, based
+# on the rule-based tagger developped by Eric Brill.
+#
+# Original paper:
+#
+# Eric Brill. 1992. A simple rule-based part of speech tagger.
+# In Proceedings of the third conference on Applied natural
+# language processing (ANLC '92). Association for Computational
+# Linguistics, Stroudsburg, PA, USA, 152-155.
+# DOI=10.3115/974499.974526 http://dx.doi.org/10.3115/974499.974526
+#
+# Project website:
+#
+# http://rbtagger.rubyforge.org/
+module Treat::Lexicalizers::Taggers::Brill
+  require 'rbtagger'
+  require 'treat/lexicalizers/taggers/brill/patch'
+  # Hold one instance of the tagger.
+  @@tagger = nil
+  # Tag words using a native Brill tagger.
+  # Performs own tokenization.
+  #
+  # Options (see the rbtagger gem for more info):
+  #
+  # :lexicon => String (Lexicon file to use)
+  # :lexical_rules => String (Lexical rule file to use)
+  # :contextual_rules => String (Contextual rules file to use)
+  def self.tag(entity, options = {})
+    # Tokenize the sentence/phrase.
+    if !entity.has_children? &&
+      !entity.is_a?(Treat::Entities::Token)
+      entity.tokenize(:perl, options)
+    end
+    # Create the tagger if necessary
+    @@tagger ||= ::Brill::Tagger.new(options[:lexicon],
+    options[:lexical_rules], options[:contextual_rules])
+    isolated_token = entity.is_a?(Treat::Entities::Token)
+    tokens = isolated_token ? [entity] : entity.tokens
+    tokens_s = tokens.map { |t| t.value }
+    tags = @@tagger.tag_tokens( tokens_s )
+    pairs = tokens.zip(tags)
+    pairs.each do |pair|
+      pair[0].set :tag, pair[1]
+      pair[0].set :tag_set, :penn if isolated_token
+      return pair[1] if isolated_token
+    end
+    if entity.is_a?(Treat::Entities::Sentence) ||
+      (entity.is_a?(Treat::Entities::Phrase) &&
+      !entity.parent_sentence)
+        entity.set :tag_set, :penn
+    end
+    return 'S' if entity.is_a?(Treat::Entities::Sentence)
+    return 'P' if entity.is_a?(Treat::Entities::Phrase)
+  end
+end

data/lib/treat/lexicalizers/taggers/brill/patch.rb ADDED Viewed

@@ -0,0 +1,61 @@
+patch = false
+begin
+  # This whole mess is required to deal with
+  # the fact that the 'rbtagger' gem defines
+  # a top-level module called 'Word', which
+  # will clash with the top-level class 'Word'
+  # we define when syntactic sugar is enabled.
+rescue TypeError
+  if Treat.sweetened?
+    patch = true
+    # Unset the class Word for the duration
+    # of loading the tagger.
+    Object.const_unset(:Word); retry
+  else
+    raise Treat::Exception,
+    'Something went wrong due to a name clash with the "rbtagger" gem.' +
+    'Turn off syntactic sugar to resolve this problem.'
+  end
+ensure
+  # Reset the class Word if using syntactic sugar.
+  if Treat.sweetened? && patch
+    Object.const_set(:Word, Treat::Entities::Word)
+  end
+end
+Brill::Tagger.class_eval do
+  def tag_tokens(tokens)
+    tags = Brill::Tagger.tag_start( tokens )
+    @tagger.apply_lexical_rules( tokens, tags, [], 0 )
+    @tagger.default_tag_finish( tokens, tags )
+    # Brill uses these fake "STAART" tags to delimit the start & end of sentence.
+    tokens << "STAART"
+    tokens << "STAART"
+    tokens.unshift "STAART"
+    tokens.unshift "STAART"
+    tags << "STAART"
+    tags << "STAART"
+    tags.unshift "STAART"
+    tags.unshift "STAART"
+    @tagger.apply_contextual_rules( tokens, tags, 1 )
+    tags.shift
+    tags.shift
+    tokens.shift
+    tokens.shift
+    tags.pop
+    tags.pop
+    tokens.pop
+    tokens.pop
+    tags
+  end
+end

data/lib/treat/lexicalizers/taggers/lingua.rb ADDED Viewed

@@ -0,0 +1,90 @@
+# An adapter for the 'engtagger' gem, which
+# is a port of the Perl Lingua::EN::Tagger module.
+#
+# "This module uses part-of-speech statistics from
+# the Penn Treebank to assign POS tags to English text.
+# The tagger applies a bigram (two-word) Hidden Markov
+# Model to guess the appropriate POS tag for a word.
+# That means that the tagger will try to assign a POS
+# tag based on the known POS tags for a given word and
+# the POS tag assigned to its predecessor.
+#
+# Project website: http://engtagger.rubyforge.org/
+# Original Perl module site:
+# http://cpansearch.perl.org/src/ACOBURN/Lingua-EN-Tagger-0.15/
+class Treat::Lexicalizers::Taggers::Lingua
+  # Require the 'engtagger' gem.
+  silence_warnings { require 'engtagger' }
+  # Undefine the porter stemming business.
+  String.class_eval { undef :stem }
+  # Hold one instance of the tagger.
+  @@tagger = nil
+  # Hold the default options.
+  DefaultOptions =  { :relax => false }
+  # Replace punctuation tags used by this gem
+  # to the standard PTB tags.
+  Punctuation = {
+    'pp' => '.',
+    'pps' => ';',
+    'ppc' => ',',
+    'ppd' => '$',
+    'ppl' => 'lrb',
+    'ppr' => 'rrb'
+  }
+  # Tag the word using a probabilistic model taking
+  # into account known words found in a lexicon and
+  # the tag of the previous word.
+  #
+  # Options:
+  #
+  # - (Boolean) :relax => Relax the HMM model -
+  #   this may improve accuracy for uncommon words,
+  #   particularly words used polysemously.
+  def self.tag(entity, options = {})
+    if !entity.has_children? &&
+      !entity.is_a?(Treat::Entities::Token)
+      entity.tokenize
+    end
+    options = DefaultOptions.merge(options)
+    @@tagger ||= ::EngTagger.new(options)
+    left_tag = @@tagger.conf[:current_tag] = 'pp'
+    isolated_token = entity.is_a?(Treat::Entities::Token)
+    tokens = isolated_token ? [entity] : entity.tokens
+    tokens.each do |token|
+      next if token.to_s == ''
+      w = @@tagger.clean_word(token.to_s)
+      t = @@tagger.assign_tag(left_tag, w)
+      t = 'fw' if t.nil? || t == ''
+      @@tagger.conf[:current_tag] = left_tag = t
+      t = 'prp$' if t == 'prps'
+      t = 'dt' if t == 'det'
+      t = Punctuation[t] if Punctuation[t]
+      token.set :tag, t.upcase
+      token.set :tag_set, :penn if isolated_token
+      return t.upcase if isolated_token
+    end
+    if entity.is_a?(Treat::Entities::Sentence) ||
+      (entity.is_a?(Treat::Entities::Phrase) &&
+      !entity.parent_sentence)
+        entity.set :tag_set, :penn
+    end
+    return 'S' if entity.is_a?(Treat::Entities::Sentence)
+    return 'P' if entity.is_a?(Treat::Entities::Phrase)
+  end
+end