RubyGems - treat - Versions diffs - 0.2.5 → 1.0.0 - Mend

treat 0.2.5 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

data/LICENSE +3 -3
data/README.md +33 -0
data/files/INFO +1 -0
data/lib/treat.rb +40 -105
data/lib/treat/ai.rb +12 -0
data/lib/treat/ai/classifiers/id3.rb +27 -0
data/lib/treat/categories.rb +82 -35
data/lib/treat/categorizable.rb +44 -0
data/lib/treat/classification.rb +61 -0
data/lib/treat/configurable.rb +115 -0
data/lib/treat/data_set.rb +42 -0
data/lib/treat/dependencies.rb +24 -0
data/lib/treat/downloader.rb +87 -0
data/lib/treat/entities.rb +68 -66
data/lib/treat/entities/abilities.rb +10 -0
data/lib/treat/entities/abilities/buildable.rb +327 -0
data/lib/treat/entities/abilities/checkable.rb +31 -0
data/lib/treat/entities/abilities/copyable.rb +45 -0
data/lib/treat/entities/abilities/countable.rb +51 -0
data/lib/treat/entities/abilities/debuggable.rb +83 -0
data/lib/treat/entities/abilities/delegatable.rb +123 -0
data/lib/treat/entities/abilities/doable.rb +62 -0
data/lib/treat/entities/abilities/exportable.rb +11 -0
data/lib/treat/entities/abilities/iterable.rb +115 -0
data/lib/treat/entities/abilities/magical.rb +83 -0
data/lib/treat/entities/abilities/registrable.rb +74 -0
data/lib/treat/entities/abilities/stringable.rb +91 -0
data/lib/treat/entities/entities.rb +104 -0
data/lib/treat/entities/entity.rb +122 -245
data/lib/treat/exception.rb +4 -4
data/lib/treat/extractors.rb +77 -80
data/lib/treat/extractors/keywords/tf_idf.rb +56 -22
data/lib/treat/extractors/language/what_language.rb +50 -45
data/lib/treat/extractors/name_tag/stanford.rb +55 -0
data/lib/treat/extractors/tf_idf/native.rb +87 -0
data/lib/treat/extractors/time/chronic.rb +55 -0
data/lib/treat/extractors/time/nickel.rb +86 -62
data/lib/treat/extractors/time/ruby.rb +53 -0
data/lib/treat/extractors/topic_words/lda.rb +67 -58
data/lib/treat/extractors/topics/reuters.rb +100 -87
data/lib/treat/formatters.rb +39 -35
data/lib/treat/formatters/readers/abw.rb +49 -29
data/lib/treat/formatters/readers/autoselect.rb +37 -33
data/lib/treat/formatters/readers/doc.rb +19 -13
data/lib/treat/formatters/readers/html.rb +52 -30
data/lib/treat/formatters/readers/image.rb +41 -40
data/lib/treat/formatters/readers/odt.rb +59 -45
data/lib/treat/formatters/readers/pdf.rb +28 -25
data/lib/treat/formatters/readers/txt.rb +12 -15
data/lib/treat/formatters/readers/xml.rb +73 -36
data/lib/treat/formatters/serializers/xml.rb +80 -79
data/lib/treat/formatters/serializers/yaml.rb +19 -18
data/lib/treat/formatters/unserializers/autoselect.rb +12 -22
data/lib/treat/formatters/unserializers/xml.rb +94 -99
data/lib/treat/formatters/unserializers/yaml.rb +20 -19
data/lib/treat/formatters/visualizers/dot.rb +132 -132
data/lib/treat/formatters/visualizers/standoff.rb +52 -44
data/lib/treat/formatters/visualizers/tree.rb +26 -29
data/lib/treat/groupable.rb +153 -0
data/lib/treat/helpers/decimal_point_escaper.rb +22 -0
data/lib/treat/inflectors.rb +50 -45
data/lib/treat/inflectors/cardinalizers/linguistics.rb +40 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +55 -0
data/lib/treat/inflectors/declensors/active_support.rb +31 -0
data/lib/treat/inflectors/declensors/english.rb +38 -0
data/lib/treat/inflectors/declensors/english/inflect.rb +288 -0
data/lib/treat/inflectors/declensors/linguistics.rb +49 -0
data/lib/treat/inflectors/ordinalizers/linguistics.rb +17 -0
data/lib/treat/inflectors/stemmers/porter.rb +160 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +24 -0
data/lib/treat/inflectors/stemmers/uea.rb +28 -0
data/lib/treat/installer.rb +308 -0
data/lib/treat/kernel.rb +105 -27
data/lib/treat/languages.rb +122 -88
data/lib/treat/languages/arabic.rb +15 -15
data/lib/treat/languages/chinese.rb +15 -15
data/lib/treat/languages/dutch.rb +15 -15
data/lib/treat/languages/english.rb +61 -62
data/lib/treat/languages/french.rb +19 -19
data/lib/treat/languages/german.rb +20 -20
data/lib/treat/languages/greek.rb +15 -15
data/lib/treat/languages/italian.rb +16 -16
data/lib/treat/languages/polish.rb +15 -15
data/lib/treat/languages/portuguese.rb +15 -15
data/lib/treat/languages/russian.rb +15 -15
data/lib/treat/languages/spanish.rb +16 -16
data/lib/treat/languages/swedish.rb +16 -16
data/lib/treat/lexicalizers.rb +34 -55
data/lib/treat/lexicalizers/categorizers/from_tag.rb +54 -0
data/lib/treat/lexicalizers/sensers/wordnet.rb +57 -0
data/lib/treat/lexicalizers/sensers/wordnet/synset.rb +71 -0
data/lib/treat/lexicalizers/taggers/brill.rb +70 -0
data/lib/treat/lexicalizers/taggers/brill/patch.rb +61 -0
data/lib/treat/lexicalizers/taggers/lingua.rb +90 -0
data/lib/treat/lexicalizers/taggers/stanford.rb +97 -0
data/lib/treat/linguistics.rb +9 -0
data/lib/treat/linguistics/categories.rb +11 -0
data/lib/treat/linguistics/tags.rb +422 -0
data/lib/treat/loaders/linguistics.rb +30 -0
data/lib/treat/loaders/stanford.rb +27 -0
data/lib/treat/object.rb +1 -0
data/lib/treat/processors.rb +37 -44
data/lib/treat/processors/chunkers/autoselect.rb +16 -0
data/lib/treat/processors/chunkers/html.rb +71 -0
data/lib/treat/processors/chunkers/txt.rb +18 -24
data/lib/treat/processors/parsers/enju.rb +253 -208
data/lib/treat/processors/parsers/stanford.rb +130 -131
data/lib/treat/processors/segmenters/punkt.rb +79 -45
data/lib/treat/processors/segmenters/stanford.rb +46 -48
data/lib/treat/processors/segmenters/tactful.rb +43 -36
data/lib/treat/processors/tokenizers/perl.rb +124 -92
data/lib/treat/processors/tokenizers/ptb.rb +81 -0
data/lib/treat/processors/tokenizers/punkt.rb +48 -42
data/lib/treat/processors/tokenizers/stanford.rb +39 -38
data/lib/treat/processors/tokenizers/tactful.rb +64 -55
data/lib/treat/proxies.rb +52 -35
data/lib/treat/retrievers.rb +26 -16
data/lib/treat/retrievers/indexers/ferret.rb +47 -26
data/lib/treat/retrievers/searchers/ferret.rb +69 -50
data/lib/treat/tree.rb +241 -183
data/spec/collection.rb +123 -0
data/spec/document.rb +93 -0
data/spec/entity.rb +408 -0
data/spec/languages.rb +25 -0
data/spec/phrase.rb +146 -0
data/spec/samples/mathematicians/archimedes.abw +34 -0
data/spec/samples/mathematicians/euler.html +21 -0
data/spec/samples/mathematicians/gauss.pdf +0 -0
data/spec/samples/mathematicians/leibniz.txt +13 -0
data/spec/samples/mathematicians/newton.doc +0 -0
data/spec/sandbox.rb +5 -0
data/spec/token.rb +109 -0
data/spec/treat.rb +52 -0
data/spec/tree.rb +117 -0
data/spec/word.rb +110 -0
data/spec/zone.rb +66 -0
data/tmp/INFO +1 -1
metadata +100 -201
data/INSTALL +0 -1
data/README +0 -3
data/TODO +0 -28
data/lib/economist/half_cocked_basel.txt +0 -16
data/lib/economist/hungarys_troubles.txt +0 -46
data/lib/economist/indias_slowdown.txt +0 -15
data/lib/economist/merkozy_rides_again.txt +0 -24
data/lib/economist/prada_is_not_walmart.txt +0 -9
data/lib/economist/to_infinity_and_beyond.txt +0 -15
data/lib/ferret/_11.cfs +0 -0
data/lib/ferret/_14.cfs +0 -0
data/lib/ferret/_p.cfs +0 -0
data/lib/ferret/_s.cfs +0 -0
data/lib/ferret/_v.cfs +0 -0
data/lib/ferret/_y.cfs +0 -0
data/lib/ferret/segments +0 -0
data/lib/ferret/segments_15 +0 -0
data/lib/treat/buildable.rb +0 -157
data/lib/treat/category.rb +0 -33
data/lib/treat/delegatable.rb +0 -116
data/lib/treat/doable.rb +0 -45
data/lib/treat/entities/collection.rb +0 -14
data/lib/treat/entities/document.rb +0 -12
data/lib/treat/entities/phrases.rb +0 -17
data/lib/treat/entities/tokens.rb +0 -61
data/lib/treat/entities/zones.rb +0 -41
data/lib/treat/extractors/coreferences/stanford.rb +0 -69
data/lib/treat/extractors/date/chronic.rb +0 -32
data/lib/treat/extractors/date/ruby.rb +0 -25
data/lib/treat/extractors/keywords/topics_tf_idf.rb +0 -48
data/lib/treat/extractors/language/language_extractor.rb +0 -27
data/lib/treat/extractors/named_entity_tag/stanford.rb +0 -53
data/lib/treat/extractors/roles/naive.rb +0 -73
data/lib/treat/extractors/statistics/frequency_in.rb +0 -16
data/lib/treat/extractors/statistics/position_in.rb +0 -14
data/lib/treat/extractors/statistics/tf_idf.rb +0 -104
data/lib/treat/extractors/statistics/transition_matrix.rb +0 -105
data/lib/treat/extractors/statistics/transition_probability.rb +0 -57
data/lib/treat/extractors/topic_words/lda/data.dat +0 -46
data/lib/treat/extractors/topic_words/lda/wiki.yml +0 -121
data/lib/treat/extractors/topics/reuters/industry.xml +0 -2717
data/lib/treat/extractors/topics/reuters/region.xml +0 -13586
data/lib/treat/extractors/topics/reuters/topics.xml +0 -17977
data/lib/treat/feature.rb +0 -58
data/lib/treat/features.rb +0 -7
data/lib/treat/formatters/visualizers/short_value.rb +0 -29
data/lib/treat/formatters/visualizers/txt.rb +0 -45
data/lib/treat/group.rb +0 -106
data/lib/treat/helpers/linguistics_loader.rb +0 -18
data/lib/treat/inflectors/cardinal_words/linguistics.rb +0 -42
data/lib/treat/inflectors/conjugations/linguistics.rb +0 -36
data/lib/treat/inflectors/declensions/english.rb +0 -319
data/lib/treat/inflectors/declensions/linguistics.rb +0 -42
data/lib/treat/inflectors/ordinal_words/linguistics.rb +0 -20
data/lib/treat/inflectors/stem/porter.rb +0 -162
data/lib/treat/inflectors/stem/porter_c.rb +0 -26
data/lib/treat/inflectors/stem/uea.rb +0 -30
data/lib/treat/install.rb +0 -59
data/lib/treat/languages/tags.rb +0 -377
data/lib/treat/lexicalizers/category/from_tag.rb +0 -49
data/lib/treat/lexicalizers/linkages/naive.rb +0 -63
data/lib/treat/lexicalizers/synsets/wordnet.rb +0 -76
data/lib/treat/lexicalizers/tag/brill.rb +0 -91
data/lib/treat/lexicalizers/tag/lingua.rb +0 -123
data/lib/treat/lexicalizers/tag/stanford.rb +0 -70
data/lib/treat/processors/segmenters/punkt/dutch.yaml +0 -9716
data/lib/treat/processors/segmenters/punkt/english.yaml +0 -10340
data/lib/treat/processors/segmenters/punkt/french.yaml +0 -43159
data/lib/treat/processors/segmenters/punkt/german.yaml +0 -9572
data/lib/treat/processors/segmenters/punkt/greek.yaml +0 -6050
data/lib/treat/processors/segmenters/punkt/italian.yaml +0 -14748
data/lib/treat/processors/segmenters/punkt/polish.yaml +0 -9751
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +0 -13662
data/lib/treat/processors/segmenters/punkt/russian.yaml +0 -4237
data/lib/treat/processors/segmenters/punkt/spanish.yaml +0 -24034
data/lib/treat/processors/segmenters/punkt/swedish.yaml +0 -10001
data/lib/treat/processors/tokenizers/macintyre.rb +0 -77
data/lib/treat/processors/tokenizers/multilingual.rb +0 -30
data/lib/treat/registrable.rb +0 -28
data/lib/treat/sugar.rb +0 -50
data/lib/treat/viewable.rb +0 -29
data/lib/treat/visitable.rb +0 -28
data/test/profile.rb +0 -2
data/test/tc_entity.rb +0 -117
data/test/tc_extractors.rb +0 -73
data/test/tc_formatters.rb +0 -41
data/test/tc_inflectors.rb +0 -34
data/test/tc_lexicalizers.rb +0 -32
data/test/tc_processors.rb +0 -50
data/test/tc_resources.rb +0 -22
data/test/tc_treat.rb +0 -60
data/test/tc_tree.rb +0 -60
data/test/tests.rb +0 -20
data/test/texts.rb +0 -19
data/test/texts/english/half_cocked_basel.txt +0 -16
data/test/texts/english/hose_and_dry.doc +0 -0
data/test/texts/english/hungarys_troubles.abw +0 -70
data/test/texts/english/long.html +0 -24
data/test/texts/english/long.txt +0 -22
data/test/texts/english/medium.txt +0 -5
data/test/texts/english/republican_nomination.pdf +0 -0
data/test/texts/english/saving_the_euro.odt +0 -0
data/test/texts/english/short.txt +0 -3
data/test/texts/english/zero_sum.html +0 -111

data/lib/treat/kernel.rb CHANGED Viewed

@@ -2,20 +2,22 @@
 # easy access to utility functions used across
 # the library.
 module Kernel
+  # Require file utilities for creating and
+  # deleting temporary files.
   require 'fileutils'
-  require 'tempfile'
   # A list of acronyms used in class names within
   # the program. These do not CamelCase; they
   # CAMELCase.
-  Acronyms = ['XML', 'HTML', 'YAML', 'UEA', 'LDA', 'PDF'].join('|')
+  Acronyms = %w[xml html txt odt abw doc yaml uea lda pdf ptb dot ai id3 svo]
   # A cache to optimize camel casing.
   @@cc_cache = {}
   # A cache to optimize un camel casing.
   @@ucc_cache = {}
-  # Returns the platform we are running on.
-  def platform
-    RUBY_PLATFORM.split("-")[1]
-  end
   # Runs a block of code without warnings.
   def silence_warnings(&block)
     warn_level = $VERBOSE
@@ -24,62 +26,85 @@ module Kernel
     $VERBOSE = warn_level
     result
   end
   # Runs a block of code while blocking stdout.
-  def silence_stdout(log = '/dev/null')
+  def silence_stdout(log = NULL_DEVICE)
+    unless Treat.silence
+      yield; return
+    end
     old = $stdout.dup
     $stdout.reopen(File.new(log, 'w'))
     yield
     $stdout = old
   end
   # Create a temporary file which is deleted
   # after execution of the block.
   def create_temp_file(ext, value = nil, &block)
-    fname = "#{Treat.lib}/../tmp/#{Random.rand(10000000).to_s}.#{ext}"
-    File.open(fname, 'w') do |f|
-      f.write(value) if value
+    fname = Treat.tmp +
+    "#{Random.rand(10000000).to_s}.#{ext}"
+    File.open(fname, 'w') do |f|
+      f.write(value) if value
       block.call(f.path)
     end
   ensure
     File.delete(fname)
   end
-  # Create a temporary directory.
+  # Create a temporary directory, which is
+  # deleted after execution of the block.
   def create_temp_dir(&block)
-    dname = "#{Treat.lib}/../tmp/#{Random.rand(10000000).to_s}"
+    dname = "#{Treat.lib}/../tmp/"+
+    "#{Random.rand(10000000).to_s}"
     Dir.mkdir(dname)
     block.call(dname)
   ensure
     FileUtils.rm_rf(dname)
   end
   # Convert un_camel_case to CamelCase.
   def camel_case(o_phrase)
     phrase = o_phrase.to_s.dup
     return @@cc_cache[o_phrase] if @@cc_cache[o_phrase]
-    phrase.gsub!(/#{Acronyms.downcase}[^a-z]*/) { |a| a.upcase }
-    phrase.gsub!(/^[a-z]|_[a-z]/) { |a| a.upcase }
-    phrase.gsub!('_', '')
+    if Acronyms.include?(phrase)
+      phrase = phrase.upcase
+    else
+      phrase.gsub!(/^[a-z]|_[a-z]/) { |a| a.upcase }
+      phrase.gsub!('_', '')
+    end
     @@cc_cache[o_phrase] = phrase
-    phrase
   end
   alias :cc :camel_case
   # Convert CamelCase to un_camel_case.
   def un_camel_case(o_phrase)
     phrase = o_phrase.to_s.dup
     return @@ucc_cache[o_phrase] if @@ucc_cache[o_phrase]
-    phrase.gsub!(/#{Acronyms}/) { |a| a.downcase.capitalize }
-    phrase.gsub!(/[A-Z]/) { |p| '_' + p.downcase  }
-    phrase = phrase[1..-1] if phrase[0] == '_'
+    if Acronyms.include?(phrase.downcase)
+      phrase = phrase.downcase
+    else
+      phrase.gsub!(/[A-Z]/) { |p| '_' + p.downcase  }
+      phrase = phrase[1..-1] if phrase[0] == '_'
+    end
     @@ucc_cache[o_phrase] = phrase
-    phrase
   end
   alias :ucc :un_camel_case
   # Retrieve the Class from a Module::Class.
   def class_name(n); n.to_s.split('::')[-1]; end
   alias :cl :class_name
   # Search the list to see if there are words similar to #name
-  # in the #list If yes, return a string saying "Did you mean
+  # in the #list If yes, return a string saying "Did you mean
   # ... ?" with the names.
   def did_you_mean?(list, name)
-    msg = ''
+    return '' # Fix
+    list = list.map { |e| e.to_s }
+    name = name.to_s
     sugg = []
     list.each do |element|
       l = levenshtein(element,name)
@@ -91,22 +116,38 @@ module Kernel
       if sugg.size == 1
         msg += " Perhaps you meant '#{sugg[0]}' ?"
       else
-        sugg_quote = sugg[0..-2].map {|x| '\'' + x + '\''}
-        msg += " Perhaps you meant #{sugg_quote.join(', ')}," +
+        sugg_quote = sugg[0..-2].map do
+          |x| '\'' + x + '\''
+        end
+        msg += " Perhaps you meant " +
+        "#{sugg_quote.join(', ')}," +
         " or '#{sugg[-1]}' ?"
       end
     end
     msg
   end
   alias :dym? :did_you_mean?
   # Return the name of the method that called the method
   # that calls this method.
   def caller_method(n = 3)
     at = caller(n).first
     /^(.+?):(\d+)(?::in `(.*)')?/ =~ at
-    Regexp.last_match[3].intern
+    Regexp.last_match[3].gsub('block in ', '').intern
   end
   alias :cm :caller_method
+  # Detect the platform we're running on.
+  def detect_platform
+    p = RUBY_PLATFORM.downcase
+    return :mac if p.include?("darwin")
+    return :windows if p.include?("mswin")
+    return :linux if p.include?("linux")
+    return :unknown
+  end
   # Return the levensthein distance between two stringsm
   # taking into account the costs of insertion, deletion,
   # and substitution. Stolen from:
@@ -116,14 +157,16 @@ module Kernel
     return nil if first.nil? || other.nil?
     dm = []
     dm[0] = (0..first.length).collect { |i| i * ins}
-    fill = [0] * (first.length - 1)
+    fill = [0] * (first.length - 1).abs
     for i in 1..other.length
       dm[i] = [i * del, fill.flatten]
     end
     for i in 1..other.length
       for j in 1..first.length
         dm[i][j] = [
-          dm[i-1][j-1] + (first[i-1] == other[i-1] ? 0 : sub),
+          dm[i-1][j-1] +
+          (first[i-1] ==
+          other[i-1] ? 0 : sub),
           dm[i][j-1] + ins,
           dm[i-1][j] + del
         ].min
@@ -131,4 +174,39 @@ module Kernel
     end
     dm[other.length][first.length]
   end
+  if detect_platform == :windows
+    NULL_DEVICE = 'NUL'
+  else
+    NULL_DEVICE = '/dev/null'
+  end
+  def debug(msg)
+    puts msg if Treat.debug
+  end
+  def prompt(msg, valid_answers)
+    msg = msg
+    n = msg.include?("\n") ? ":\n" : ''
+    q = msg.include?("\n") ? '' : '?'
+    s = "\nPlease enter one of #{valid_answers.join(', ')}: "
+    puts "Do you want to #{n}#{msg}#{q} \n#{s}"
+    begin
+      answer = STDIN.gets.strip
+      unless valid_answers.include?(answer)
+        puts "Invalid input."
+        puts s
+        raise Treat::InvalidInputException
+      end
+      puts
+      answer
+    rescue Treat::InvalidInputException
+      retry
+    end
+  end
 end

data/lib/treat/languages.rb CHANGED Viewed

@@ -1,98 +1,132 @@
-module Treat
-  # This module provides linguistic resources
-  # for the Treat library, including information
-  # about language codes, the functions available
-  # for each language, and the different tags used
-  # to markup that language.
-  module Languages
-    Dir["#{Treat.lib}/treat/languages/*.rb"].each { |file| require file }
-    ISO639_1 = 1
-    ISO639_2 = 2
-    # Describe a language code (ISO-639-1 or ISO-639-2)
-    # or its full text description in full French or English.
-    def self.describe(lang, desc_lang = :en)
-      raise "Must provide a non-nil language identifier to describe." if lang.nil?
-      lang = code(lang).to_s
-      if [:en, :eng, :english, :anglais].include?(desc_lang)
-        l = @@english_full.key(lang)
-      elsif [:fr, :fra, :french, :french].include?(desc_lang)
-        l = @@french_full.key(lang)
-      else
-        raise Treat::Exception,
-        "Unknown language to describe: #{desc_lang}."
-      end
-      not_found(lang) if l.nil?
-      l.intern
+# This module provides linguistic resources
+# for the Treat library, including information
+# about language codes, the functions available
+# for each language, and the different tags used
+# to markup that language.
+module Treat::Languages
+  def self.const_missing(const)
+    lang = const.to_s.downcase
+    f = File.join(File.dirname(__FILE__), "languages", lang)
+    unless File.readable?(f + '.rb')
+      raise Treat::Exception,
+      "Language #{lang} is not supported."
     end
-    # Raise an error message when a language code
-    # or description is not found and suggest
-    # possible misspellings.
-    def self.not_found(lang)
-      msg = "Language '#{lang}' does not exist."
-      all = @@iso639_2.keys + @@iso639_1.keys +
-      @@english_full.keys + @@french_full.keys
-      msg += did_you_mean?(all, lang)
-      raise Treat::Exception, msg
+    require f
+    const_get(const)
+  end
+  # Yield a lowercase symbol for each
+  # defined language.
+  def self.each
+    constants.each do |constant|
+      yield constant.to_s.downcase.intern
     end
-    # Return the class representing a language.
-    def self.get(lang)
-      const_get(Treat::Languages.describe(lang).to_s.capitalize)
+  end
+  # Identifier constants for language codes.
+  ISO639_1 = 1
+  ISO639_2 = 2
+  # Describe a language code (ISO-639-1 or ISO-639-2)
+  # or its full text description in full French or English.
+  def self.describe(lang, desc_lang = :en)
+    raise "Must provide a non-nil language "+
+    "identifier to describe." if lang.nil?
+    lang = code(lang).to_s
+    if [:en, :eng, :english, :anglais].
+      include?(desc_lang)
+      l = @@english_full.key(lang)
+    elsif [:fr, :fra, :french, :french].
+      include?(desc_lang)
+      l = @@french_full.key(lang)
+    else
+      raise Treat::Exception,
+      "Unknown language to describe: #{desc_lang}."
     end
-    # Find a language by ISO-639-1 or ISO-639-2 code
-    # or full name (in English or French) and return
-    # the ISO-639-1 or ISO-639-2 language code as a
-    # lowercase identifier.
-    def self.code(lang, rc = ISO639_2)
-      raise "Must provide a non-nil language identifier to describe." if lang.nil?
-      get_languages
-      lang = lang.to_s.downcase
-      if @@iso639_1.has_key?(lang)
-        return lang.intern if rc == ISO639_1
-        return @@iso639_1[lang].intern if rc == ISO639_2
-      elsif @@iso639_2.has_key?(lang)
-        return lang.intern if rc == ISO639_2
-        return @@iso639_2[lang].intern if rc == ISO639_1
-      elsif @@english_full.has_key?(lang)
-        return @@english_full[lang].intern if rc == ISO639_2
-        return @@iso639_2[@@english_full[lang]].intern if rc == ISO639_1
-      elsif @@french_full.has_key?(lang)
-        return @@french_full[lang].intern if rc == ISO639_2
-        return @@iso639_1[@@french_full[lang]].intern if rc == ISO639_2
-      else
-        not_found(lang)
-      end
+    not_found(lang) if l.nil?
+    l.intern
+  end
+  # Raise an error message when a language code
+  # or description is not found and suggest
+  # possible misspellings.
+  def self.not_found(lang)
+    msg = "Language '#{lang}' does not exist."
+    all = @@iso639_2.keys + @@iso639_1.keys +
+    @@english_full.keys + @@french_full.keys
+    msg += did_you_mean?(all, lang)
+    raise Treat::Exception, msg
+  end
+  # Return the class representing a language.
+  def self.get(lang)
+    lang = Treat::Languages.describe(lang).to_s
+    begin
+      const_get(lang.capitalize)
+    rescue
+      not_found(lang)
+    end
+  end
+  # Find a language by ISO-639-1 or ISO-639-2 code
+  # or full name (in English or French) and return
+  # the ISO-639-1 or ISO-639-2 language code as a
+  # lowercase identifier.
+  def self.code(lang, rc = ISO639_2)
+    raise "Must provide a non-nil language "+
+    "identifier to describe." if lang.nil?
+    get_languages
+    lang = lang.to_s.downcase
+    if @@iso639_1.has_key?(lang)
+      return lang.intern if rc == ISO639_2
+      return @@iso639_1[lang].intern if rc == ISO639_1
+    elsif @@iso639_2.has_key?(lang)
+      return lang.intern if rc == ISO639_2
+      return @@iso639_2[lang].intern if rc == ISO639_1
+    elsif @@english_full.has_key?(lang)
+      return @@english_full[lang].intern if rc == ISO639_2
+      return @@iso639_2[@@english_full[lang]].intern if rc == ISO639_1
+    elsif @@french_full.has_key?(lang)
+      return @@french_full[lang].intern if rc == ISO639_2
+      return @@iso639_2[@@french_full[lang]].intern if rc == ISO639_1
+    else
+      not_found(lang)
     end
-    @@loaded = false
-    # Get the languages from the dictionary.
-    def self.get_languages
-      return if @@loaded
-      @@iso639_1 = {}; @@iso639_2 = {};
-      @@english_full = {}; @@french_full = {}
-      languages = IO.readlines(Treat.lib + '/treat/languages/list.txt')
-      languages.each do |language|
-        iso639_2, iso639_1, english_desc, french_desc =
-        language.split(',')
-        @@iso639_1[iso639_1] = iso639_2
-        @@iso639_2[iso639_2] = iso639_1
-        unless english_desc.nil?
-          english_desc.strip.downcase.split('|').each do |l|
-            @@english_full[l.downcase.strip] = iso639_2
-          end
+  end
+  # Whether the language list has been loaded or not.
+  @@loaded = false
+  # Get the languages from the dictionary.
+  def self.get_languages
+    return if @@loaded
+    @@iso639_1 = {}; @@iso639_2 = {};
+    @@english_full = {}; @@french_full = {}
+    languages = IO.readlines(File.join(
+    File.dirname(__FILE__), "languages", "list.txt"))
+    languages.each do |language|
+      iso639_2, iso639_1, english_desc, french_desc =
+      language.split(',')
+      @@iso639_1[iso639_1] = iso639_2
+      @@iso639_2[iso639_2] = iso639_1
+      unless english_desc.nil?
+        english_desc.strip.downcase.split('|').each do |l|
+          @@english_full[l.downcase.strip] = iso639_2
         end
-        unless french_desc.nil?
-          french_desc.strip.downcase.split('|').each do |l|
-            @@french_full[l.downcase.strip] = iso639_2
-          end
+      end
+      unless french_desc.nil?
+        french_desc.strip.downcase.split('|').each do |l|
+          @@french_full[l.downcase.strip] = iso639_2
         end
       end
-      @@loaded = true
     end
-    # A list of all possible word categories.
-    WordCategories = [
-      :adjective, :adverb, :noun, :verb, :interjection,
-      :clitic, :coverb, :conjunction, :determiner, :particle,
-      :preposition, :pronoun, :number, :symbol, :punctuation,
-      :complementizer
-    ]
+    @@loaded = true
   end
+  # Get the language list.
+  get_languages
 end

data/lib/treat/languages/arabic.rb CHANGED Viewed

@@ -1,16 +1,16 @@
-module Treat
-  module Languages
-    class Arabic
-      RequiredDependencies = []
-      OptionalDependencies = []
-      Extractors = {}
-      Inflectors = {}
-      Lexicalizers = {
-        :tag => [:stanford]
-      }
-      Processors = {
-        :parsers => [:stanford]
-      }
-    end
-  end
+class Treat::Languages::Arabic
+  RequiredDependencies = []
+  OptionalDependencies = []
+  Extractors = {}
+  Inflectors = {}
+  Lexicalizers = {
+    :tag => [:stanford]
+  }
+  Processors = {
+    :parsers => [:stanford]
+  }
+  Retrievers = {}
 end