RubyGems - treat - Versions diffs - 0.2.5 → 1.0.0 - Mend

treat 0.2.5 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

data/LICENSE +3 -3
data/README.md +33 -0
data/files/INFO +1 -0
data/lib/treat.rb +40 -105
data/lib/treat/ai.rb +12 -0
data/lib/treat/ai/classifiers/id3.rb +27 -0
data/lib/treat/categories.rb +82 -35
data/lib/treat/categorizable.rb +44 -0
data/lib/treat/classification.rb +61 -0
data/lib/treat/configurable.rb +115 -0
data/lib/treat/data_set.rb +42 -0
data/lib/treat/dependencies.rb +24 -0
data/lib/treat/downloader.rb +87 -0
data/lib/treat/entities.rb +68 -66
data/lib/treat/entities/abilities.rb +10 -0
data/lib/treat/entities/abilities/buildable.rb +327 -0
data/lib/treat/entities/abilities/checkable.rb +31 -0
data/lib/treat/entities/abilities/copyable.rb +45 -0
data/lib/treat/entities/abilities/countable.rb +51 -0
data/lib/treat/entities/abilities/debuggable.rb +83 -0
data/lib/treat/entities/abilities/delegatable.rb +123 -0
data/lib/treat/entities/abilities/doable.rb +62 -0
data/lib/treat/entities/abilities/exportable.rb +11 -0
data/lib/treat/entities/abilities/iterable.rb +115 -0
data/lib/treat/entities/abilities/magical.rb +83 -0
data/lib/treat/entities/abilities/registrable.rb +74 -0
data/lib/treat/entities/abilities/stringable.rb +91 -0
data/lib/treat/entities/entities.rb +104 -0
data/lib/treat/entities/entity.rb +122 -245
data/lib/treat/exception.rb +4 -4
data/lib/treat/extractors.rb +77 -80
data/lib/treat/extractors/keywords/tf_idf.rb +56 -22
data/lib/treat/extractors/language/what_language.rb +50 -45
data/lib/treat/extractors/name_tag/stanford.rb +55 -0
data/lib/treat/extractors/tf_idf/native.rb +87 -0
data/lib/treat/extractors/time/chronic.rb +55 -0
data/lib/treat/extractors/time/nickel.rb +86 -62
data/lib/treat/extractors/time/ruby.rb +53 -0
data/lib/treat/extractors/topic_words/lda.rb +67 -58
data/lib/treat/extractors/topics/reuters.rb +100 -87
data/lib/treat/formatters.rb +39 -35
data/lib/treat/formatters/readers/abw.rb +49 -29
data/lib/treat/formatters/readers/autoselect.rb +37 -33
data/lib/treat/formatters/readers/doc.rb +19 -13
data/lib/treat/formatters/readers/html.rb +52 -30
data/lib/treat/formatters/readers/image.rb +41 -40
data/lib/treat/formatters/readers/odt.rb +59 -45
data/lib/treat/formatters/readers/pdf.rb +28 -25
data/lib/treat/formatters/readers/txt.rb +12 -15
data/lib/treat/formatters/readers/xml.rb +73 -36
data/lib/treat/formatters/serializers/xml.rb +80 -79
data/lib/treat/formatters/serializers/yaml.rb +19 -18
data/lib/treat/formatters/unserializers/autoselect.rb +12 -22
data/lib/treat/formatters/unserializers/xml.rb +94 -99
data/lib/treat/formatters/unserializers/yaml.rb +20 -19
data/lib/treat/formatters/visualizers/dot.rb +132 -132
data/lib/treat/formatters/visualizers/standoff.rb +52 -44
data/lib/treat/formatters/visualizers/tree.rb +26 -29
data/lib/treat/groupable.rb +153 -0
data/lib/treat/helpers/decimal_point_escaper.rb +22 -0
data/lib/treat/inflectors.rb +50 -45
data/lib/treat/inflectors/cardinalizers/linguistics.rb +40 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +55 -0
data/lib/treat/inflectors/declensors/active_support.rb +31 -0
data/lib/treat/inflectors/declensors/english.rb +38 -0
data/lib/treat/inflectors/declensors/english/inflect.rb +288 -0
data/lib/treat/inflectors/declensors/linguistics.rb +49 -0
data/lib/treat/inflectors/ordinalizers/linguistics.rb +17 -0
data/lib/treat/inflectors/stemmers/porter.rb +160 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +24 -0
data/lib/treat/inflectors/stemmers/uea.rb +28 -0
data/lib/treat/installer.rb +308 -0
data/lib/treat/kernel.rb +105 -27
data/lib/treat/languages.rb +122 -88
data/lib/treat/languages/arabic.rb +15 -15
data/lib/treat/languages/chinese.rb +15 -15
data/lib/treat/languages/dutch.rb +15 -15
data/lib/treat/languages/english.rb +61 -62
data/lib/treat/languages/french.rb +19 -19
data/lib/treat/languages/german.rb +20 -20
data/lib/treat/languages/greek.rb +15 -15
data/lib/treat/languages/italian.rb +16 -16
data/lib/treat/languages/polish.rb +15 -15
data/lib/treat/languages/portuguese.rb +15 -15
data/lib/treat/languages/russian.rb +15 -15
data/lib/treat/languages/spanish.rb +16 -16
data/lib/treat/languages/swedish.rb +16 -16
data/lib/treat/lexicalizers.rb +34 -55
data/lib/treat/lexicalizers/categorizers/from_tag.rb +54 -0
data/lib/treat/lexicalizers/sensers/wordnet.rb +57 -0
data/lib/treat/lexicalizers/sensers/wordnet/synset.rb +71 -0
data/lib/treat/lexicalizers/taggers/brill.rb +70 -0
data/lib/treat/lexicalizers/taggers/brill/patch.rb +61 -0
data/lib/treat/lexicalizers/taggers/lingua.rb +90 -0
data/lib/treat/lexicalizers/taggers/stanford.rb +97 -0
data/lib/treat/linguistics.rb +9 -0
data/lib/treat/linguistics/categories.rb +11 -0
data/lib/treat/linguistics/tags.rb +422 -0
data/lib/treat/loaders/linguistics.rb +30 -0
data/lib/treat/loaders/stanford.rb +27 -0
data/lib/treat/object.rb +1 -0
data/lib/treat/processors.rb +37 -44
data/lib/treat/processors/chunkers/autoselect.rb +16 -0
data/lib/treat/processors/chunkers/html.rb +71 -0
data/lib/treat/processors/chunkers/txt.rb +18 -24
data/lib/treat/processors/parsers/enju.rb +253 -208
data/lib/treat/processors/parsers/stanford.rb +130 -131
data/lib/treat/processors/segmenters/punkt.rb +79 -45
data/lib/treat/processors/segmenters/stanford.rb +46 -48
data/lib/treat/processors/segmenters/tactful.rb +43 -36
data/lib/treat/processors/tokenizers/perl.rb +124 -92
data/lib/treat/processors/tokenizers/ptb.rb +81 -0
data/lib/treat/processors/tokenizers/punkt.rb +48 -42
data/lib/treat/processors/tokenizers/stanford.rb +39 -38
data/lib/treat/processors/tokenizers/tactful.rb +64 -55
data/lib/treat/proxies.rb +52 -35
data/lib/treat/retrievers.rb +26 -16
data/lib/treat/retrievers/indexers/ferret.rb +47 -26
data/lib/treat/retrievers/searchers/ferret.rb +69 -50
data/lib/treat/tree.rb +241 -183
data/spec/collection.rb +123 -0
data/spec/document.rb +93 -0
data/spec/entity.rb +408 -0
data/spec/languages.rb +25 -0
data/spec/phrase.rb +146 -0
data/spec/samples/mathematicians/archimedes.abw +34 -0
data/spec/samples/mathematicians/euler.html +21 -0
data/spec/samples/mathematicians/gauss.pdf +0 -0
data/spec/samples/mathematicians/leibniz.txt +13 -0
data/spec/samples/mathematicians/newton.doc +0 -0
data/spec/sandbox.rb +5 -0
data/spec/token.rb +109 -0
data/spec/treat.rb +52 -0
data/spec/tree.rb +117 -0
data/spec/word.rb +110 -0
data/spec/zone.rb +66 -0
data/tmp/INFO +1 -1
metadata +100 -201
data/INSTALL +0 -1
data/README +0 -3
data/TODO +0 -28
data/lib/economist/half_cocked_basel.txt +0 -16
data/lib/economist/hungarys_troubles.txt +0 -46
data/lib/economist/indias_slowdown.txt +0 -15
data/lib/economist/merkozy_rides_again.txt +0 -24
data/lib/economist/prada_is_not_walmart.txt +0 -9
data/lib/economist/to_infinity_and_beyond.txt +0 -15
data/lib/ferret/_11.cfs +0 -0
data/lib/ferret/_14.cfs +0 -0
data/lib/ferret/_p.cfs +0 -0
data/lib/ferret/_s.cfs +0 -0
data/lib/ferret/_v.cfs +0 -0
data/lib/ferret/_y.cfs +0 -0
data/lib/ferret/segments +0 -0
data/lib/ferret/segments_15 +0 -0
data/lib/treat/buildable.rb +0 -157
data/lib/treat/category.rb +0 -33
data/lib/treat/delegatable.rb +0 -116
data/lib/treat/doable.rb +0 -45
data/lib/treat/entities/collection.rb +0 -14
data/lib/treat/entities/document.rb +0 -12
data/lib/treat/entities/phrases.rb +0 -17
data/lib/treat/entities/tokens.rb +0 -61
data/lib/treat/entities/zones.rb +0 -41
data/lib/treat/extractors/coreferences/stanford.rb +0 -69
data/lib/treat/extractors/date/chronic.rb +0 -32
data/lib/treat/extractors/date/ruby.rb +0 -25
data/lib/treat/extractors/keywords/topics_tf_idf.rb +0 -48
data/lib/treat/extractors/language/language_extractor.rb +0 -27
data/lib/treat/extractors/named_entity_tag/stanford.rb +0 -53
data/lib/treat/extractors/roles/naive.rb +0 -73
data/lib/treat/extractors/statistics/frequency_in.rb +0 -16
data/lib/treat/extractors/statistics/position_in.rb +0 -14
data/lib/treat/extractors/statistics/tf_idf.rb +0 -104
data/lib/treat/extractors/statistics/transition_matrix.rb +0 -105
data/lib/treat/extractors/statistics/transition_probability.rb +0 -57
data/lib/treat/extractors/topic_words/lda/data.dat +0 -46
data/lib/treat/extractors/topic_words/lda/wiki.yml +0 -121
data/lib/treat/extractors/topics/reuters/industry.xml +0 -2717
data/lib/treat/extractors/topics/reuters/region.xml +0 -13586
data/lib/treat/extractors/topics/reuters/topics.xml +0 -17977
data/lib/treat/feature.rb +0 -58
data/lib/treat/features.rb +0 -7
data/lib/treat/formatters/visualizers/short_value.rb +0 -29
data/lib/treat/formatters/visualizers/txt.rb +0 -45
data/lib/treat/group.rb +0 -106
data/lib/treat/helpers/linguistics_loader.rb +0 -18
data/lib/treat/inflectors/cardinal_words/linguistics.rb +0 -42
data/lib/treat/inflectors/conjugations/linguistics.rb +0 -36
data/lib/treat/inflectors/declensions/english.rb +0 -319
data/lib/treat/inflectors/declensions/linguistics.rb +0 -42
data/lib/treat/inflectors/ordinal_words/linguistics.rb +0 -20
data/lib/treat/inflectors/stem/porter.rb +0 -162
data/lib/treat/inflectors/stem/porter_c.rb +0 -26
data/lib/treat/inflectors/stem/uea.rb +0 -30
data/lib/treat/install.rb +0 -59
data/lib/treat/languages/tags.rb +0 -377
data/lib/treat/lexicalizers/category/from_tag.rb +0 -49
data/lib/treat/lexicalizers/linkages/naive.rb +0 -63
data/lib/treat/lexicalizers/synsets/wordnet.rb +0 -76
data/lib/treat/lexicalizers/tag/brill.rb +0 -91
data/lib/treat/lexicalizers/tag/lingua.rb +0 -123
data/lib/treat/lexicalizers/tag/stanford.rb +0 -70
data/lib/treat/processors/segmenters/punkt/dutch.yaml +0 -9716
data/lib/treat/processors/segmenters/punkt/english.yaml +0 -10340
data/lib/treat/processors/segmenters/punkt/french.yaml +0 -43159
data/lib/treat/processors/segmenters/punkt/german.yaml +0 -9572
data/lib/treat/processors/segmenters/punkt/greek.yaml +0 -6050
data/lib/treat/processors/segmenters/punkt/italian.yaml +0 -14748
data/lib/treat/processors/segmenters/punkt/polish.yaml +0 -9751
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +0 -13662
data/lib/treat/processors/segmenters/punkt/russian.yaml +0 -4237
data/lib/treat/processors/segmenters/punkt/spanish.yaml +0 -24034
data/lib/treat/processors/segmenters/punkt/swedish.yaml +0 -10001
data/lib/treat/processors/tokenizers/macintyre.rb +0 -77
data/lib/treat/processors/tokenizers/multilingual.rb +0 -30
data/lib/treat/registrable.rb +0 -28
data/lib/treat/sugar.rb +0 -50
data/lib/treat/viewable.rb +0 -29
data/lib/treat/visitable.rb +0 -28
data/test/profile.rb +0 -2
data/test/tc_entity.rb +0 -117
data/test/tc_extractors.rb +0 -73
data/test/tc_formatters.rb +0 -41
data/test/tc_inflectors.rb +0 -34
data/test/tc_lexicalizers.rb +0 -32
data/test/tc_processors.rb +0 -50
data/test/tc_resources.rb +0 -22
data/test/tc_treat.rb +0 -60
data/test/tc_tree.rb +0 -60
data/test/tests.rb +0 -20
data/test/texts.rb +0 -19
data/test/texts/english/half_cocked_basel.txt +0 -16
data/test/texts/english/hose_and_dry.doc +0 -0
data/test/texts/english/hungarys_troubles.abw +0 -70
data/test/texts/english/long.html +0 -24
data/test/texts/english/long.txt +0 -22
data/test/texts/english/medium.txt +0 -5
data/test/texts/english/republican_nomination.pdf +0 -0
data/test/texts/english/saving_the_euro.odt +0 -0
data/test/texts/english/short.txt +0 -3
data/test/texts/english/zero_sum.html +0 -111

data/lib/treat/lexicalizers/category/from_tag.rb DELETED Viewed

@@ -1,49 +0,0 @@
-module Treat
-  module Lexicalizers
-    module Category
-      # A class that detects the category of a word from its tag,
-      # using the default tagger for the language of the entity.
-      class FromTag
-        # Find the category of the current entity.
-        #
-        # Options:
-        #
-        # - (Symbol) :tagger => force the use of a tagger.
-        def self.category(entity, options = {})
-          tag = entity.tag(options[:tagger])
-          return :unknown if tag.nil? || tag == ''
-          return :sentence if tag == 'S'
-          if entity.is_a?(Treat::Entities::Phrase)
-            cat = Treat::Languages::Tags::PhraseTagToCategory[tag]
-            unless cat
-              cat = Treat::Languages::Tags::WordTagToCategory[tag]
-            end
-          elsif entity.is_a?(Treat::Entities::Word)
-            cat = Treat::Languages::Tags::WordTagToCategory[tag]
-          end
-          if cat == nil
-            warn "Category not found for tag '#{tag}'."
-            return :unknown
-          else
-            if cat.size == 1
-              return cat[entity.tag_set]
-            else
-              if entity.has?(:tag_set)
-                if cat[entity.tag_set]
-                  return cat[entity.tag_set]
-                else
-                  raise Treat::Exception,
-                  "The specified tag set (#{entity.tag_set})" +
-                  " does not contain the tag #{tag}."
-                end
-              else
-                raise Treat::Exception,
-                "No information can be found regarding which tag set to use."
-              end
-            end
-          end
-        end
-      end
-    end
-  end
-end

data/lib/treat/lexicalizers/linkages/naive.rb DELETED Viewed

@@ -1,63 +0,0 @@
-module Treat
-  module Lexicalizers
-    module Linkages
-      class Naive
-        # Fix - add options for sentences.
-        def self.linkages(entity, options = {})
-          if options[:linkage] == :is_a ||
-            options[:linkage] == :hypernym_of
-            entity.each_word do |w1|
-              hypernyms = []
-              entity.each_word do |w2|
-                next if w1 == w2
-                if w2.hypernyms.include?(w1.value) ||
-                  w1.hyponyms.include?(w2.value)
-                  hypernyms << w1
-                  w2.link(w1, :is_a)
-                  w1.link(w2, :hypernym_of)
-                end
-              end
-              w1.set :hypernyms, hypernyms
-            end
-          elsif options[:linkage] == :synonym_of
-            entity.each_word do |w1|
-              synonyms = []
-              entity.each_word do |w2|
-                next if w1 == w2
-                if w2.synonyms.include?(w1.value)
-                  synonyms << w1
-                  w2.link(w1, :synonym_of)
-                  w1.link(w2, :synonym_of)
-                end
-              end
-              w1.set :synonyms, synonyms
-            end
-          elsif options[:linkage] == :antonym_of
-            entity.each_word do |w1|
-              antonyms = []
-              entity.each_word do |w2|
-                next if w1 == w2
-                if w2.antonyms.include?(w1.value)
-                  antonyms << w1
-                  w2.link(w1, :antonym_of)
-                  w1.link(w2, :antonym_of)
-                end
-              end
-              w1.set :antonyms, antonyms
-            end
-          else
-            raise Treat::Exception,
-            "Invalid linkage option '#{options[:linkage]}'."
-          end
-        end
-      end
-    end
-  end
-end

data/lib/treat/lexicalizers/synsets/wordnet.rb DELETED Viewed

@@ -1,76 +0,0 @@
-module Treat
-  module Lexicalizers
-    module Synsets
-      # Obtain lexical information about a word using the
-      # ruby 'wordnet' gem.
-      class Wordnet
-        # Require the 'wordnet' gem.
-        require 'wordnet'
-        # Obtain lexical information about a word using the
-        # ruby 'wordnet' gem.
-        def self.synsets(word, options = nil)
-          unless [:noun, :adjective, :verb].include?(word.category)
-            return []
-          end
-          cat = word.category.to_s.capitalize
-          index = ::WordNet.const_get(cat + 'Index').instance
-          lemma = index.find(word.value.downcase)
-          return [] if lemma.nil?
-          synsets = []
-          lemma.synsets.each { |synset| synsets << Synset.new(synset) }
-          synsets
-        end
-      end
-    end
-    # An adaptor for synsets used by the Wordnet gem.
-    class Synset
-      # The POS tag of the word.
-      attr_accessor :pos
-      # The definition of the synset.
-      attr_accessor :definition
-      # The examples in the synset.
-      attr_accessor :examples
-      def initialize(synset)
-        @original_synset = synset
-        @pos, @definition, @examples =
-        parse_synset(synset.to_s.split(')'))
-      end
-      def parse_synset(res)
-        pos = res[0][1..-1].strip
-        res2 = res[1].split('(')
-        res3 = res2[1].split(';')
-        1.upto(res3.size-1) do |i|
-          res3[i] = res3[i].strip[1..-2]
-        end
-        definition = res3[0]
-        examples = res3[1..-1]
-        return pos, definition, examples
-      end
-      # The words in the synset.
-      def words; @original_synset.words; end
-      def synonyms; @original_synset.words; end
-      # A gloss (short definition with examples)
-      # for the synset.
-      def gloss; @original_synset.gloss; end
-      # The antonym sets of the synset.
-      def antonyms; antonym.collect { |a| a.words }; end
-      # The hypernym sets of the synset.
-      def hypernyms;
-        h = hypernym
-        return [] unless h
-        h.words
-      end
-      # The hyponym sets of the synset.
-      def hyponyms; hyponym.collect { |h| h.words }; end
-      # Respond to the missing method event.
-      def method_missing(sym, *args, &block)
-        ret = @original_synset.send(sym)
-        if ret.is_a?(::WordNet::Synset)
-          Synset.new(ret)
-        else
-          ret
-        end
-      end
-    end
-  end
-end

data/lib/treat/lexicalizers/tag/brill.rb DELETED Viewed

@@ -1,91 +0,0 @@
-module Treat
-  module Lexicalizers
-    module Tag
-      # Adapter class for the 'rbtagger' gem, a port
-      # of the Perl Lingua::BrillTagger class, based
-      # on the rule-based tagger developped by Eric Brill.
-      #
-      # The Brill tagger is a simple rule-based part of
-      # speech tagger. The main advantages over stochastic
-      # taggers is a vast reduction in information required
-      # and better portability from one tag set, corpus genre
-      # or language to another.
-      #
-      # Original paper:
-      # Eric Brill. 1992. A simple rule-based part of speech tagger.
-      # In Proceedings of the third conference on Applied natural
-      # language processing (ANLC '92). Association for Computational
-      # Linguistics, Stroudsburg, PA, USA, 152-155.
-      # DOI=10.3115/974499.974526 http://dx.doi.org/10.3115/974499.974526
-      # Project website:
-      # http://rbtagger.rubyforge.org/
-      # Original Perl module site:
-      # http://search.cpan.org/~kwilliams/Lingua-BrillTagger-0.02/lib/Lingua/BrillTagger.pm
-      class Brill
-        patch = false
-        # Require the 'rbtagger' gem.
-        require 'rbtagger'
-        begin
-          # This whole mess is required to deal with
-          # the fact that the 'rbtagger' gem defines
-          # a top-level module called 'Word', which
-          # will clash with the top-level class 'Word'
-          # we define when syntactic sugar is enabled.
-        rescue TypeError
-          if Treat.sweetened?
-            patch = true
-            # Unset the class Word for the duration
-            # of loading the tagger.
-            Object.const_unset(:Word); retry
-          else
-            raise Treat::Exception,
-            'Something went wrong due to a name clash with the "rbtagger" gem.' +
-            'Turn off syntactic sugar to resolve this problem.'
-          end
-        ensure
-          # Reset the class Word if using syntactic sugar.
-          if Treat.sweetened? && patch
-            Object.const_set(:Word, Treat::Entities::Word)
-          end
-        end
-        # Hold the tagger.
-        @@tagger = nil
-        # Tag words using a native Brill tagger.
-        # Performs own tokenization.
-        #
-        # Options:
-        #
-        # :lexicon => String (Lexicon file to use)
-        # :lexical_rules => String (Lexical rule file to use)
-        # :contextual_rules => String (Contextual rules file to use)
-        def self.tag(entity, options = {})
-          if entity.has_children?
-            warn "The Brill tagger performs its own tokenization. " +
-                 "Removing all children of #{entity.type} with value #{entity.short_value}."
-            entity.remove_all!
-          end
-          # Create the tagger if necessary
-          @@tagger ||= ::Brill::Tagger.new(options[:lexicon],
-          options[:lexical_rules], options[:contextual_rules])
-          res = @@tagger.tag(entity.to_s)
-          res ||= []
-          isolated_word = entity.is_a?(Treat::Entities::Token)
-          res.each do |info|
-            next if info[1] == ')'
-            token = Treat::Entities::Token.from_string(info[0])
-            token.set :tag_set, :penn
-            token.set :tag, info[1]
-            if isolated_word
-              entity.set :tag_set, :penn
-              return info[1]
-            end
-            entity << token
-          end
-          entity.set :tag_set, :penn
-          return 'P' if entity.is_a?(Treat::Entities::Phrase)
-          return 'S' if entity.is_a?(Treat::Entities::Sentence)
-        end
-      end
-    end
-  end
-end

data/lib/treat/lexicalizers/tag/lingua.rb DELETED Viewed

@@ -1,123 +0,0 @@
-module Treat
-  module Lexicalizers
-    module Tag
-      # An adapter for the 'engtagger' gem, which
-      # is a port of the Perl Lingua::EN::Tagger module.
-      #
-      # "This module uses part-of-speech statistics from
-      # the Penn Treebank to assign POS tags to English text.
-      # The tagger applies a bigram (two-word) Hidden Markov
-      # Model to guess the appropriate POS tag for a word.
-      # That means that the tagger will try to assign a POS
-      # tag based on the known POS tags for a given word and
-      # the POS tag assigned to its predecessor.
-      #
-      # Project website: http://engtagger.rubyforge.org/
-      # Original Perl module site:
-      # http://cpansearch.perl.org/src/ACOBURN/Lingua-EN-Tagger-0.15/
-      class Lingua
-        # Require the 'engtagger' gem.
-        silence_warnings { require 'engtagger' }
-        # Hold the tagger.
-        @@tagger = nil
-        # Hold the user-set options
-        @@options = {}
-        # Hold the default options.
-        DefaultOptions =  {
-          :unknown_word_tag => 'pp',  # Fix unknown word tag
-          :relax => false
-        }
-        # Tag the word using a probabilistic model taking
-        # into account known words found in a lexicon and
-        # the tag of the previous word.
-        #
-        # Options:
-        #
-        # - (Boolean) :relax => Relax the Hidden Markov Model:
-        #   this may improve accuracy for uncommon words,
-        #   particularly words used polysemously.
-        # - (String) :unknown_word_tag => Tag for unknown words.
-        def self.tag(entity, options = {})
-          if !entity.has_children?
-            warn "The Lingua tagger requires prior tokenization."
-            warn "Tokenizing the entity #{entity.short_value}."
-          end
-          options = DefaultOptions.merge(options)
-          # Reinitialize the tagger if the options have changed.
-          if options != @@options
-            @@options = DefaultOptions.merge(options)
-            @@tagger = nil # Reset the tagger
-          end
-          @@tagger ||= ::EngTagger.new(@@options)
-          left_tag = @@tagger.conf[:current_tag] = 'pp'
-          isolated_word = entity.is_a?(Treat::Entities::Token)
-          entity.tokens.each do |token|
-            w = @@tagger.clean_word(token.to_s)
-            t = @@tagger.assign_tag(left_tag, w)
-            t = options[:unknown_word_tag] if t.nil? || t == ''
-            @@tagger.conf[:current_tag] = left_tag = t
-            token.set :tag, t.upcase
-            token.set :tag_set, :penn
-            if isolated_word
-              entity.set :tag_set, :penn
-              return t.upcase
-            end
-          end
-          entity.set :tag_set, :penn
-          return 'P' if entity.is_a?(Treat::Entities::Phrase)
-          return 'S' if entity.is_a?(Treat::Entities::Sentence)
-        end
-      end
-    end
-  end
-end
-=begin
-CC      Conjunction, coordinating               and, or
-CD      Adjective, cardinal number              3, fifteen
-DET     Determiner                              this, each, some
-EX      Pronoun, existential there              there
-FW      Foreign words
-IN      Preposition / Conjunction               for, of, although, that
-JJ      Adjective                               happy, bad
-JJR     Adjective, comparative                  happier, worse
-JJS     Adjective, superlative                  happiest, worst
-LS      Symbol, list item                       A, A.
-MD      Verb, modal                             can, could, 'll
-NN      Noun                                    aircraft, data
-NNP     Noun, proper                            London, Michael
-NNPS    Noun, proper, plural                    Australians, Methodists
-NNS     Noun, plural                            women, books
-PDT     Determiner, prequalifier                quite, all, half
-POS     Possessive                              's, '
-PRP     Determiner, possessive second           mine, yours
-PRPS    Determiner, possessive                  their, your
-RB      Adverb                                  often, not, very, here
-RBR     Adverb, comparative                     faster
-RBS     Adverb, superlative                     fastest
-RP      Adverb, particle                        up, off, out
-SYM     Symbol                                  *
-TO      Preposition                             to
-UH      Interjection                            oh, yes, mmm
-VB      Verb, infinitive                        take, live
-VBD     Verb, past tense                        took, lived
-VBG     Verb, gerund                            taking, living
-VBN     Verb, past/passive participle           taken, lived
-VBP     Verb, base present form                 take, live
-VBZ     Verb, present 3SG -s form               takes, lives
-WDT     Determiner, question                    which, whatever
-WP      Pronoun, question                       who, whoever
-WPS     Determiner, possessive & question       whose
-WRB     Adverb, question                        when, how, however
-PP      Punctuation, sentence ender             ., !, ?
-PPC     Punctuation, comma                      ,
-PPD     Punctuation, dollar sign                $
-PPL     Punctuation, quotation mark left        ``
-PPR     Punctuation, quotation mark right       ''
-PPS     Punctuation, colon, semicolon, elipsis  :, ..., -
-LRB     Punctuation, left bracket               (, {, [
-RRB     Punctuation, right bracket              ), }, ]
-=end

data/lib/treat/lexicalizers/tag/stanford.rb DELETED Viewed

@@ -1,70 +0,0 @@
-module Treat
-  module Lexicalizers
-    module Tag
-      class Stanford
-        require 'stanford-core-nlp'
-        # Hold one tagger per language.
-        @@taggers = {}
-        # Hold the default options.
-        DefaultOptions =  {
-          :tagger_model => nil,
-          :silence => false,
-          :log_to_file => nil
-        }
-        LanguageToTagSet = {
-          :eng => :penn,
-          :ger => :negra,
-          :chi => :penn_chinese,
-          :fre => :simple
-        }
-        # Tag the word using one of the Stanford taggers.
-        def self.tag(entity, options = {})
-          # Handle options and set models.
-          options = DefaultOptions.merge(options)
-          if entity.has_children?
-            warn "The Stanford tagger performs its own tokenization." +
-                 "Removing all children of #{entity.type} with value #{entity.short_value}."
-            entity.remove_all!
-          end
-          # Arrange options.
-          lang = entity.language
-          tag_set = LanguageToTagSet[lang]
-          warn "The tag set for the Stanford tagger you are requiring is not supported." unless tag_set
-          ::StanfordCoreNLP.set_model('pos.model', options[:tagger_model]) if options[:tagger_model]
-          options[:log_to_file] = '/dev/null' if options[:silence]
-          ::StanfordCoreNLP.log_file = options[:log_to_file]  if options[:log_to_file]
-          # Load the tagger.
-          StanfordCoreNLP.use(lang)
-          @@taggers[lang] ||= ::StanfordCoreNLP.load(:tokenize, :ssplit, :pos)
-          # Tag the text.
-          text = ::StanfordCoreNLP::Text.new(entity.to_s)
-          isolated_word = entity.is_a?(Treat::Entities::Token)
-          @@taggers[lang].annotate(text)
-          text.get(:tokens).each do |token|
-            val = token.get(:value).to_s
-            tok = Treat::Entities::Token.from_string(val)
-            tag = token.get(:part_of_speech).to_s
-            tag_s, tag_opt = *tag.split('-')
-            tag_s ||= ''
-            tok.set :tag, tag_s
-            tok.set :tag_opt, tag_opt
-            tok.set :tag_set, tag_set if tag_set
-            if isolated_word
-              entity.set :tag_set, :penn
-              return tag_s
-            end
-            entity << tok
-          end
-          # Handle tags for sentences and phrases.
-          entity.set :tag_set, tag_set if tag_set
-          return 'P' if entity.is_a?(Treat::Entities::Phrase)
-          return 'S' if entity.is_a?(Treat::Entities::Sentence)
-        end
-      end
-    end
-  end
-end