RubyGems - treat - Versions diffs - 0.1.4 → 0.2.0 - Mend

treat 0.1.4 → 0.2.0

Files changed (160) hide show

data/LICENSE +4 -4
data/TODO +21 -54
data/lib/economist/half_cocked_basel.txt +16 -0
data/lib/economist/hose_and_dry.doc +0 -0
data/lib/economist/hungarys_troubles.abw +70 -0
data/lib/economist/republican_nomination.pdf +0 -0
data/lib/economist/saving_the_euro.odt +0 -0
data/lib/economist/to_infinity_and_beyond.txt +15 -0
data/lib/economist/zero_sum.html +91 -0
data/lib/treat.rb +58 -72
data/lib/treat/buildable.rb +59 -15
data/lib/treat/categories.rb +26 -14
data/lib/treat/category.rb +2 -2
data/lib/treat/delegatable.rb +65 -48
data/lib/treat/doable.rb +44 -0
data/lib/treat/entities.rb +34 -14
data/lib/treat/entities/collection.rb +2 -0
data/lib/treat/entities/document.rb +3 -2
data/lib/treat/entities/entity.rb +105 -90
data/lib/treat/entities/phrases.rb +17 -0
data/lib/treat/entities/tokens.rb +28 -13
data/lib/treat/entities/zones.rb +20 -0
data/lib/treat/extractors.rb +49 -11
data/lib/treat/extractors/coreferences/stanford.rb +68 -0
data/lib/treat/extractors/date/chronic.rb +32 -0
data/lib/treat/extractors/date/ruby.rb +25 -0
data/lib/treat/extractors/keywords/tf_idf.rb +26 -0
data/lib/treat/extractors/keywords/{topics_frequency.rb → topics_tf_idf.rb} +15 -7
data/lib/treat/{detectors/language/language_detector.rb → extractors/language/language_extractor.rb} +5 -2
data/lib/treat/extractors/language/what_language.rb +49 -0
data/lib/treat/extractors/named_entity_tag/stanford.rb +53 -0
data/lib/treat/extractors/roles/naive.rb +73 -0
data/lib/treat/extractors/statistics/frequency_in.rb +6 -13
data/lib/treat/extractors/statistics/{position_in_parent.rb → position_in.rb} +1 -1
data/lib/treat/extractors/statistics/tf_idf.rb +89 -21
data/lib/treat/extractors/statistics/transition_matrix.rb +11 -11
data/lib/treat/extractors/statistics/transition_probability.rb +4 -4
data/lib/treat/extractors/time/nickel.rb +30 -12
data/lib/treat/extractors/topic_words/lda.rb +9 -9
data/lib/treat/extractors/topics/reuters.rb +14 -15
data/lib/treat/extractors/topics/reuters/region.xml +1 -0
data/lib/treat/features.rb +7 -0
data/lib/treat/formatters/readers/abw.rb +6 -1
data/lib/treat/formatters/readers/autoselect.rb +5 -6
data/lib/treat/formatters/readers/doc.rb +3 -1
data/lib/treat/formatters/readers/html.rb +1 -1
data/lib/treat/formatters/readers/image.rb +43 -0
data/lib/treat/formatters/readers/odt.rb +1 -2
data/lib/treat/formatters/readers/pdf.rb +9 -1
data/lib/treat/formatters/readers/xml.rb +40 -0
data/lib/treat/formatters/serializers/xml.rb +50 -14
data/lib/treat/formatters/serializers/yaml.rb +7 -2
data/lib/treat/formatters/unserializers/xml.rb +33 -7
data/lib/treat/formatters/visualizers/dot.rb +90 -20
data/lib/treat/formatters/visualizers/short_value.rb +2 -2
data/lib/treat/formatters/visualizers/standoff.rb +2 -2
data/lib/treat/formatters/visualizers/tree.rb +1 -1
data/lib/treat/formatters/visualizers/txt.rb +13 -4
data/lib/treat/group.rb +16 -10
data/lib/treat/helpers/linguistics_loader.rb +18 -0
data/lib/treat/inflectors.rb +10 -0
data/lib/treat/inflectors/cardinal_words/linguistics.rb +3 -3
data/lib/treat/inflectors/conjugations/linguistics.rb +5 -12
data/lib/treat/inflectors/declensions/english.rb +319 -0
data/lib/treat/inflectors/declensions/linguistics.rb +12 -11
data/lib/treat/inflectors/ordinal_words/linguistics.rb +3 -3
data/lib/treat/install.rb +59 -0
data/lib/treat/kernel.rb +18 -8
data/lib/treat/languages.rb +18 -11
data/lib/treat/languages/arabic.rb +4 -2
data/lib/treat/languages/chinese.rb +6 -2
data/lib/treat/languages/dutch.rb +16 -0
data/lib/treat/languages/english.rb +47 -19
data/lib/treat/languages/french.rb +8 -5
data/lib/treat/languages/german.rb +9 -6
data/lib/treat/languages/greek.rb +16 -0
data/lib/treat/languages/italian.rb +6 -3
data/lib/treat/languages/polish.rb +16 -0
data/lib/treat/languages/portuguese.rb +16 -0
data/lib/treat/languages/russian.rb +16 -0
data/lib/treat/languages/spanish.rb +16 -0
data/lib/treat/languages/swedish.rb +16 -0
data/lib/treat/languages/tags.rb +377 -0
data/lib/treat/lexicalizers.rb +34 -23
data/lib/treat/lexicalizers/category/from_tag.rb +17 -10
data/lib/treat/lexicalizers/linkages/naive.rb +51 -51
data/lib/treat/lexicalizers/synsets/wordnet.rb +5 -1
data/lib/treat/lexicalizers/tag/brill.rb +35 -40
data/lib/treat/lexicalizers/tag/lingua.rb +19 -14
data/lib/treat/lexicalizers/tag/stanford.rb +59 -68
data/lib/treat/lexicalizers/tag/tagger.rb +29 -0
data/lib/treat/processors.rb +8 -8
data/lib/treat/processors/chunkers/txt.rb +4 -4
data/lib/treat/processors/parsers/enju.rb +114 -99
data/lib/treat/processors/parsers/stanford.rb +109 -41
data/lib/treat/processors/segmenters/punkt.rb +17 -18
data/lib/treat/processors/segmenters/punkt/dutch.yaml +9716 -0
data/lib/treat/processors/segmenters/punkt/english.yaml +10340 -0
data/lib/treat/processors/segmenters/punkt/french.yaml +43159 -0
data/lib/treat/processors/segmenters/punkt/german.yaml +9572 -0
data/lib/treat/processors/segmenters/punkt/greek.yaml +6050 -0
data/lib/treat/processors/segmenters/punkt/italian.yaml +14748 -0
data/lib/treat/processors/segmenters/punkt/polish.yaml +9751 -0
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +13662 -0
data/lib/treat/processors/segmenters/punkt/russian.yaml +4237 -0
data/lib/treat/processors/segmenters/punkt/spanish.yaml +24034 -0
data/lib/treat/processors/segmenters/punkt/swedish.yaml +10001 -0
data/lib/treat/processors/segmenters/stanford.rb +38 -37
data/lib/treat/processors/segmenters/tactful.rb +5 -4
data/lib/treat/processors/tokenizers/macintyre.rb +7 -6
data/lib/treat/processors/tokenizers/multilingual.rb +2 -3
data/lib/treat/processors/tokenizers/perl.rb +2 -2
data/lib/treat/processors/tokenizers/punkt.rb +6 -2
data/lib/treat/processors/tokenizers/stanford.rb +25 -24
data/lib/treat/processors/tokenizers/tactful.rb +1 -2
data/lib/treat/proxies.rb +2 -35
data/lib/treat/registrable.rb +17 -22
data/lib/treat/sugar.rb +11 -11
data/lib/treat/tree.rb +27 -17
data/lib/treat/viewable.rb +29 -0
data/lib/treat/visitable.rb +1 -1
data/test/tc_entity.rb +56 -49
data/test/tc_extractors.rb +41 -18
data/test/tc_formatters.rb +7 -8
data/test/tc_inflectors.rb +19 -24
data/test/tc_lexicalizers.rb +12 -19
data/test/tc_processors.rb +26 -12
data/test/tc_resources.rb +2 -7
data/test/tc_treat.rb +20 -22
data/test/tc_tree.rb +4 -4
data/test/tests.rb +3 -5
data/test/texts.rb +13 -14
data/tmp/INFO +1 -0
metadata +78 -158
data/bin/INFO +0 -1
data/examples/benchmark.rb +0 -81
data/examples/keywords.rb +0 -148
data/lib/treat/detectors.rb +0 -31
data/lib/treat/detectors/encoding/r_chardet19.rb +0 -27
data/lib/treat/detectors/format/file.rb +0 -36
data/lib/treat/detectors/language/what_language.rb +0 -29
data/lib/treat/entities/constituents.rb +0 -15
data/lib/treat/entities/sentence.rb +0 -8
data/lib/treat/extractors/named_entity/abner.rb +0 -20
data/lib/treat/extractors/named_entity/stanford.rb +0 -174
data/lib/treat/extractors/statistics/frequency_of.rb +0 -15
data/lib/treat/extractors/time/chronic.rb +0 -20
data/lib/treat/extractors/time/native.rb +0 -18
data/lib/treat/formatters/readers/gocr.rb +0 -26
data/lib/treat/formatters/readers/ocropus.rb +0 -31
data/lib/treat/formatters/visualizers/html.rb +0 -13
data/lib/treat/formatters/visualizers/inspect.rb +0 -20
data/lib/treat/inflectors/declensions/en.rb +0 -18
data/lib/treat/languages/categories.rb +0 -5
data/lib/treat/languages/english/categories.rb +0 -23
data/lib/treat/languages/english/tags.rb +0 -352
data/lib/treat/languages/xinhua.rb +0 -12
data/lib/treat/lexicalizers/synsets/rita_wn.rb +0 -23
data/lib/treat/string.rb +0 -5
data/test/tc_detectors.rb +0 -26

data/lib/treat/inflectors/declensions/linguistics.rb CHANGED

@@ -7,31 +7,32 @@ module Treat
       #
       # Project website: http://deveiate.org/projects/Linguistics/
       class Linguistics
-        # Require Ruby Linguistics
-        silence_warnings { require 'linguistics' }
+        require 'treat/helpers/linguistics_loader'
         # Retrieve a declension of a word using the 'linguistics' gem.
         #
         # Options:
         #
         # - (Identifier) :count => :singular, :plural
         def self.declensions(entity, options = {})
-          begin
-            l = entity.language.to_s.upcase
-            delegate = nil
-            silence_warnings { delegate = ::Linguistics.const_get(l) }
-          rescue RuntimeError
-            raise "Ruby Linguistics does not have a module " +
-            " installed for the #{entity.language} language."
+          unless options[:count]
+            raise Treat::Exception,
+            "Must supply option count (:singular or :plural)."
           end
+          klass = Treat::Helpers::LinguisticsLoader.load(entity.language)
           string = entity.to_s
+          if entity.category == :verb
+            raise Treat::Exception,
+            "Cannot retrieve the declensions of a verb. " +
+            "Use #singular_verb and #plural_verb instead."
+          end
           if options[:count] == :plural
             if entity.has?(:category) &&
               [:noun, :adjective, :verb].include?(entity.category)
               silence_warnings do
-                delegate.send(:"plural_#{entity.category}", string)
+                klass.send(:"plural_#{entity.category}", string)
               end
             else
-              silence_warnings { delegate.plural(string) }
+              silence_warnings { klass.plural(string) }
             end
           end
         end

data/lib/treat/inflectors/ordinal_words/linguistics.rb CHANGED

@@ -7,12 +7,12 @@ module Treat
       #
       # Project website: http://deveiate.org/projects/Linguistics/
       class Linguistics
-        # Require Ruby Linguistics.
-        silence_warnings { require 'linguistics' }
+        require 'treat/helpers/linguistics_loader'
         # Desribe a number in words in ordinal form, using the
         # 'linguistics' gem.
         def self.ordinal_words(number, options = {})
-          silence_warnings { ::Linguistics::EN.ordinate(number.to_s) }
+          klass = Treat::Helpers::LinguisticsLoader.load(number.language)
+          klass.ordinate(number.to_s)
         end
       end
     end

data/lib/treat/install.rb ADDED

@@ -0,0 +1,59 @@
+module Treat
+  class Installer
+    require 'rubygems/dependency_installer'
+    # Install required dependencies and optional dependencies
+    # for a specific language.
+    def self.install(language = :english)
+      lang = Treat::Languages.get(language)
+      required = lang::RequiredDependencies
+      optional = lang::OptionalDependencies
+      puts "Treat Installer\n\n"
+      puts "Installing dependencies for the #{language.to_s.capitalize} language.\n\n"
+      flag = false
+      inst = Gem::DependencyInstaller.new
+      required.each do |dependency|
+        puts "Installing required dependency '#{dependency}'..."
+        begin
+          silence_warnings { inst.install(dependency) }
+        rescue
+          flag = true
+          puts "Couldn't install '#{dependency}'. " +
+          "You need install this dependency manually by running: " +
+          "'gem install #{dependency}' or use 'sudo' to run this script."
+        end
+      end
+      optional.each do |dependency|
+        begin
+          puts "Install optional dependency '#{dependency}' (yes/no, <enter> = skip) ?"
+          answer = gets.strip
+          raise Treat::Exception unless ['yes', 'no', ''].include?(answer)
+          if answer == 'yes'
+            silence_warnings { inst.install(dependency) }
+          else
+            puts "Skipped installing '#{dependency}'."
+            next
+          end
+        rescue Treat::Exception
+          puts "Invalid input - valid options are 'yes' or 'no'."
+          retry
+        rescue
+          flag = true
+          puts "Couldn't install '#{dependency}'. " +
+          "You can install this dependency manually by running: " +
+          "'gem install #{dependency}' or use 'sudo' to run this script."
+        end
+      end
+      w = flag ? 'incompletely' : 'normally'
+      puts "\nInstall proceeded #{w}."
+      puts
+    end
+  end
+end

data/lib/treat/kernel.rb CHANGED

@@ -7,7 +7,7 @@ module Kernel
   # A list of acronyms used in class names within
   # the program. These do not CamelCase; they
   # CAMELCase.
-  Acronyms = ['XML', 'HTML', 'YAML', 'UEA', 'LDA', 'PDF', 'GOCR'].join('|')
+  Acronyms = ['XML', 'HTML', 'YAML', 'UEA', 'LDA', 'PDF'].join('|')
   # A cache to optimize camel casing.
   @@cc_cache = {}
   # A cache to optimize un camel casing.
@@ -24,15 +24,17 @@ module Kernel
     $VERBOSE = warn_level
     result
   end
-  # Runs a block of code while blocking
-  # stdout. Currently not implemented.
-  def silence_streams(*streams)
+  # Runs a block of code while blocking stdout.
+  def silence_stdout(log = '/dev/null')
+    old = $stdout.dup
+    $stdout.reopen(File.new(log, 'w'))
     yield
+    $stdout = old
   end
   # Create a temporary file which is deleted
   # after execution of the block.
   def create_temp_file(ext, value = nil, &block)
-    fname = "../tmp/#{Random.rand(10000000).to_s}.#{ext}"
+    fname = "#{Treat.lib}/../tmp/#{Random.rand(10000000).to_s}.#{ext}"
     File.open(fname, 'w') do |f|
       f.write(value) if value
       block.call(f.path)
@@ -40,11 +42,19 @@ module Kernel
   ensure
     File.delete(fname)
   end
+  # Create a temporary directory.
+  def create_temp_dir(&block)
+    dname = "#{Treat.lib}/../tmp/#{Random.rand(10000000).to_s}"
+    Dir.mkdir(dname)
+    block.call(dname)
+  ensure
+    FileUtils.rm_rf(dname)
+  end
   # Convert un_camel_case to CamelCase.
   def camel_case(o_phrase)
     phrase = o_phrase.to_s.dup
     return @@cc_cache[o_phrase] if @@cc_cache[o_phrase]
-    phrase.gsub!(/#{Acronyms.downcase}[^a-z]+/) { |a| a.upcase }
+    phrase.gsub!(/#{Acronyms.downcase}[^a-z]*/) { |a| a.upcase }
     phrase.gsub!(/^[a-z]|_[a-z]/) { |a| a.upcase }
     phrase.gsub!('_', '')
     @@cc_cache[o_phrase] = phrase
@@ -77,7 +87,7 @@ module Kernel
         sugg << element
       end
     end
-    unless sugg.empty?
+    unless sugg.size == 0
       if sugg.size == 1
         msg += " Perhaps you meant '#{sugg[0]}' ?"
       else
@@ -94,7 +104,7 @@ module Kernel
   def caller_method(n = 3)
     at = caller(n).first
     /^(.+?):(\d+)(?::in `(.*)')?/ =~ at
-    :"#{Regexp.last_match[3]}"
+    Regexp.last_match[3].intern
   end
   alias :cm :caller_method
   # Return the levensthein distance between two stringsm

data/lib/treat/languages.rb CHANGED

@@ -12,7 +12,7 @@ module Treat
     # or its full text description in full French or English.
     def self.describe(lang, desc_lang = :en)
       raise "Must provide a non-nil language identifier to describe." if lang.nil?
-      lang = find(lang).to_s
+      lang = code(lang).to_s
       if [:en, :eng, :english, :anglais].include?(desc_lang)
         l = @@english_full.key(lang)
       elsif [:fr, :fra, :french, :french].include?(desc_lang)
@@ -42,22 +42,22 @@ module Treat
     # or full name (in English or French) and return
     # the ISO-639-1 or ISO-639-2 language code as a
     # lowercase identifier.
-    def self.find(lang, rc = ISO639_2)
+    def self.code(lang, rc = ISO639_2)
       raise "Must provide a non-nil language identifier to describe." if lang.nil?
       get_languages
       lang = lang.to_s.downcase
       if @@iso639_1.has_key?(lang)
-        return :"#{lang}" if rc == ISO639_1
-        return :"#{@@iso639_1[lang]}" if rc == ISO639_2
+        return lang.intern if rc == ISO639_1
+        return @@iso639_1[lang].intern if rc == ISO639_2
       elsif @@iso639_2.has_key?(lang)
-        return :"#{lang}" if rc == ISO639_2
-        return :"#{@@iso639_2[lang]}" if rc == ISO639_1
+        return lang.intern if rc == ISO639_2
+        return @@iso639_2[lang].intern if rc == ISO639_1
       elsif @@english_full.has_key?(lang)
-        return :"#{@@english_full[lang]}" if rc == ISO639_2
-        return :"#{@@iso639_2[@@english_full[lang]]}" if rc == ISO639_1
+        return @@english_full[lang].intern if rc == ISO639_2
+        return @@iso639_2[@@english_full[lang]].intern if rc == ISO639_1
       elsif @@french_full.has_key?(lang)
-        return :"#{@@french_full[lang]}" if rc == ISO639_2
-        return :"#{@@iso639_1[@@french_full[lang]]}" if rc == ISO639_2
+        return @@french_full[lang].intern if rc == ISO639_2
+        return @@iso639_1[@@french_full[lang]].intern if rc == ISO639_2
       else
         not_found(lang)
       end
@@ -87,5 +87,12 @@ module Treat
       end
       @@loaded = true
     end
+    # A list of all possible word categories.
+    WordCategories = [
+      :adjective, :adverb, :noun, :verb, :interjection,
+      :clitic, :coverb, :conjunction, :determiner, :particle,
+      :preposition, :pronoun, :number, :symbol, :punctuation,
+      :complementizer
+    ]
   end
-end
+end

data/lib/treat/languages/arabic.rb CHANGED

@@ -1,13 +1,15 @@
 module Treat
   module Languages
     class Arabic
+      RequiredDependencies = []
+      OptionalDependencies = []
       Extractors = {}
       Inflectors = {}
       Lexicalizers = {
-        tag: [:stanford]
+        :tag => [:stanford]
       }
       Processors = {
-        parsers: [:stanford]
+        :parsers => [:stanford]
       }
     end
   end

data/lib/treat/languages/chinese.rb CHANGED

@@ -1,12 +1,16 @@
 module Treat
   module Languages
     class Chinese
+      RequiredDependencies = []
+      OptionalDependencies = []
       Extractors = {}
       Inflectors = {}
       Lexicalizers = {
-        tag: [:stanford]
+        :tag => [:stanford]
+      }
+      Processors = {
+        :parsers => [:stanford]
       }
-      Processors = {}
     end
   end
 end

data/lib/treat/languages/dutch.rb ADDED

@@ -0,0 +1,16 @@
+module Treat
+  module Languages
+    class Dutch
+      RequiredDependencies = []
+      OptionalDependencies = []
+      Processors = {
+        :chunkers => [:txt],
+        :segmenters => [:punkt],
+        :tokenizers => [:tactful]
+      }
+      Extractors = {}
+      Inflectors = {}
+      Lexicalizers = {}
+    end
+  end
+end

data/lib/treat/languages/english.rb CHANGED

@@ -2,34 +2,62 @@ module Treat
   module Languages
     class English
-      require 'treat/languages/english/tags'
-      require 'treat/languages/english/categories'
+      RequiredDependencies = ['rbtagger', 'ruby-stemmer', 'tactful_tokenizer', 'nickel', 'wordnet']
+      OptionalDependencies = ['uea-stemmer', 'tokenizer', 'engtagger']
       Extractors = {
-        time: [:chronic],
-        topics: [:reuters],
-        topic_words: [:lda],
-        key_sentences: [:topics_frequency]
+        :time => [:nickel],
+        :date => [:chronic, :ruby],
+        :topics => [:reuters],
+        :topic_words => [:lda],
+        :keywords => [:tf_idf, :topics_tf_idf],
+        :named_entity_tag => [:stanford],
+        :coreferences => [:stanford],
+        :roles => [:naive]
       }
       Processors = {
-        chunkers: [:txt],
-        parsers: [:stanford, :enju],
-        segmenters: [:tactful, :punkt, :stanford],
-        tokenizers: [:multilingual, :macintyre, :perl, :punkt, :tactful, :stanford]
+        :chunkers => [:txt],
+        :parsers => [:stanford, :enju],
+        :segmenters => [:tactful, :punkt, :stanford],
+        :tokenizers => [:macintyre, :multilingual, :perl, :punkt, :stanford, :tactful]
       }
       Lexicalizers = {
-        category: [:from_tag],
-        linkages: [:naive],
-        synsets: [:wordnet, :rita_wn],
-        tag: [:brill, :lingua, :stanford]
+        :category => [:from_tag],
+        :linkages => [:naive],
+        :synsets => [:wordnet],
+        :tag => [:brill, :lingua, :stanford]
       }
       Inflectors = {
-        conjugations: [:linguistics],
-        declensions: [:linguistics, :english],
-        stem: [:porter_c, :porter, :uea],
-        ordinal_words: [:linguistics],
-        cardinal_words: [:linguistics]
+        :conjugations => [:linguistics],
+        :declensions => [:english, :linguistics],
+        :stem => [:porter, :porter_c, :uea],
+        :ordinal_words => [:linguistics],
+        :cardinal_words => [:linguistics]
       }
+      CommonWords = [
+        'the', 'of', 'and', 'a', 'to', 'in', 'is',
+        'you', 'that', 'it', 'he', 'was', 'for', 'on',
+        'are', 'as', 'with', 'his', 'they', 'I', 'at',
+        'be', 'this', 'have', 'from', 'or', 'one', 'had',
+        'by', 'word', 'but', 'not', 'what', 'all', 'were',
+        'we', 'when', 'your', 'can', 'said', 'there', 'use',
+        'an', 'each', 'which', 'she', 'do', 'how', 'their',
+        'if', 'will', 'up', 'other', 'about', 'out', 'many',
+        'then', 'them', 'these', 'so', 'some', 'her', 'would',
+        'make', 'like', 'him', 'into', 'time', 'has', 'look',
+        'two', 'more', 'write', 'go', 'see', 'number', 'no',
+        'way', 'could', 'people', 'my', 'than', 'first', 'been',
+        'call', 'who', 'its', 'now', 'find', 'long', 'down',
+        'day', 'did', 'get', 'come', 'made', 'may', 'part',
+        'say', 'also', 'new', 'much', 'should', 'still',
+        'such', 'before', 'after', 'other', 'then', 'over',
+        'under', 'therefore', 'nonetheless', 'thereafter',
+        'afterwards', 'here', 'huh', 'hah', "'nt", "'t", 'here'
+      ]
     end
   end

data/lib/treat/languages/french.rb CHANGED

@@ -1,16 +1,19 @@
 module Treat
   module Languages
     class French
+      RequiredDependencies = []
+      OptionalDependencies = []
       Extractors = {}
       Inflectors = {}
       Lexicalizers = {
-        tag: [:stanford]
+        :tag => [:stanford],
+        :category => [:from_tag]
       }
       Processors = {
-        chunkers: [:txt],
-        parsers: [:stanford],
-        segmenters: [:tactful, :punkt, :stanford],
-        tokenizers: [:multilingual, :macintyre, :perl, :punkt, :tactful, :stanford]
+        :chunkers => [:txt],
+        :parsers => [:stanford],
+        :segmenters => [:punkt],
+        :tokenizers => [:tactful]
       }
     end
   end

data/lib/treat/languages/german.rb CHANGED

@@ -1,17 +1,20 @@
 module Treat
   module Languages
     class German
+      RequiredDependencies = []
+      OptionalDependencies = []
       Extractors = {}
       Inflectors = {}
       Lexicalizers = {
-        tag: [:stanford]
+        :tag => [:stanford],
+        :category => [:from_tag]
       }
       Processors = {
-        chunkers: [:txt],
-        parsers: [:stanford],
-        segmenters: [:tactful, :punkt, :stanford],
-        tokenizers: [:multilingual, :macintyre, :perl, :punkt, :tactful, :stanford]
+        :chunkers => [:txt],
+        :parsers => [:stanford],
+        :segmenters => [:punkt],
+        :tokenizers => [:tactful]
       }
     end
   end
-end
+end

data/lib/treat/languages/greek.rb ADDED

@@ -0,0 +1,16 @@
+module Treat
+  module Languages
+    class Greek
+      RequiredDependencies = []
+      OptionalDependencies = []
+      Processors = {
+        :chunkers => [:txt],
+        :segmenters => [:punkt],
+        :tokenizers => [:tactful]
+      }
+      Extractors = {}
+      Inflectors = {}
+      Lexicalizers = {}
+    end
+  end
+end