RubyGems - treat - Versions diffs - 1.0.6 → 1.1.0 - Mend

treat 1.0.6 → 1.1.0

Files changed (210) hide show

data/LICENSE +2 -4
data/README.md +13 -12
data/bin/MANIFEST +1 -0
data/bin/stanford/bridge.jar +0 -0
data/bin/stanford/joda-time.jar +0 -0
data/bin/stanford/stanford-corenlp.jar +0 -0
data/bin/stanford/stanford-parser.jar +0 -0
data/bin/stanford/xom.jar +0 -0
data/files/{www.economist.com/21552208 → 21552208.html} +86 -89
data/files/{guides.rubyonrails.org/3_2_release_notes.html → 3_2_release_notes.html} +0 -0
data/files/{INFO → MANIFEST} +0 -0
data/files/{www.rubyinside.com/nethttp-cheat-sheet-2940.html → nethttp-cheat-sheet-2940.html} +12 -16
data/files/weather-central-canada-heat-wave.html +1370 -0
data/lib/treat/config/core/acronyms.rb +4 -0
data/lib/treat/config/core/encodings.rb +8 -0
data/lib/treat/config/core/entities.rb +2 -0
data/lib/treat/config/core/language.rb +3 -0
data/lib/treat/config/core/paths.rb +8 -0
data/lib/treat/config/core/syntax.rb +1 -0
data/lib/treat/config/core/verbosity.rb +1 -0
data/lib/treat/config/databases/mongo.rb +3 -0
data/lib/treat/config/languages/agnostic.rb +34 -0
data/lib/treat/config/languages/arabic.rb +13 -0
data/lib/treat/config/languages/chinese.rb +13 -0
data/lib/treat/config/languages/dutch.rb +12 -0
data/lib/treat/config/languages/english.rb +60 -0
data/lib/treat/config/languages/french.rb +18 -0
data/lib/treat/config/languages/german.rb +18 -0
data/lib/treat/config/languages/greek.rb +12 -0
data/lib/treat/config/languages/italian.rb +12 -0
data/lib/treat/config/languages/polish.rb +12 -0
data/lib/treat/config/languages/portuguese.rb +12 -0
data/lib/treat/config/languages/russian.rb +12 -0
data/lib/treat/config/languages/spanish.rb +12 -0
data/lib/treat/config/languages/swedish.rb +12 -0
data/lib/treat/config/libraries/stanford.rb +1 -0
data/lib/treat/config/linguistics/categories.rb +4 -0
data/lib/treat/config/linguistics/punctuation.rb +33 -0
data/lib/treat/config/tags/aligned.rb +221 -0
data/lib/treat/config/tags/enju.rb +71 -0
data/lib/treat/config/tags/paris7.rb +17 -0
data/lib/treat/config/tags/ptb.rb +15 -0
data/lib/treat/config/workers/extractors.rb +39 -0
data/lib/treat/config/workers/formatters.rb +20 -0
data/lib/treat/config/workers/inflectors.rb +27 -0
data/lib/treat/config/workers/learners.rb +6 -0
data/lib/treat/config/workers/lexicalizers.rb +18 -0
data/lib/treat/config/workers/list.rb +1 -0
data/lib/treat/config/workers/processors.rb +19 -0
data/lib/treat/config/workers/retrievers.rb +12 -0
data/lib/treat/config.rb +125 -0
data/lib/treat/{classification.rb → core/classification.rb} +1 -1
data/lib/treat/{data_set.rb → core/data_set.rb} +1 -4
data/lib/treat/{tree.rb → core/node.rb} +5 -5
data/lib/treat/core/server.rb +3 -0
data/lib/treat/core.rb +5 -0
data/lib/treat/entities/abilities/buildable.rb +61 -56
data/lib/treat/entities/abilities/checkable.rb +2 -2
data/lib/treat/entities/abilities/comparable.rb +21 -0
data/lib/treat/entities/abilities/copyable.rb +2 -0
data/lib/treat/entities/abilities/countable.rb +1 -1
data/lib/treat/entities/abilities/debuggable.rb +1 -1
data/lib/treat/entities/abilities/delegatable.rb +42 -36
data/lib/treat/entities/abilities/doable.rb +2 -2
data/lib/treat/entities/abilities/exportable.rb +1 -1
data/lib/treat/entities/abilities/iterable.rb +21 -33
data/lib/treat/entities/abilities/magical.rb +8 -8
data/lib/treat/entities/abilities/registrable.rb +0 -38
data/lib/treat/entities/abilities/stringable.rb +19 -19
data/lib/treat/entities/collection.rb +31 -0
data/lib/treat/entities/document.rb +10 -0
data/lib/treat/entities/entity.rb +18 -13
data/lib/treat/entities/group.rb +15 -0
data/lib/treat/entities/section.rb +13 -0
data/lib/treat/entities/token.rb +35 -0
data/lib/treat/entities/zone.rb +11 -0
data/lib/treat/entities.rb +5 -75
data/lib/treat/helpers/didyoumean.rb +57 -0
data/lib/treat/helpers/escaping.rb +15 -0
data/lib/treat/helpers/formatting.rb +41 -0
data/lib/treat/helpers/platform.rb +15 -0
data/lib/treat/helpers/reflection.rb +17 -0
data/lib/treat/helpers/temporary.rb +27 -0
data/lib/treat/helpers/verbosity.rb +19 -0
data/lib/treat/helpers.rb +5 -0
data/lib/treat/installer.rb +46 -165
data/lib/treat/loaders/linguistics.rb +22 -27
data/lib/treat/loaders/stanford.rb +23 -41
data/lib/treat/loaders.rb +10 -0
data/lib/treat/proxies.rb +73 -24
data/lib/treat/version.rb +3 -0
data/lib/treat/{extractors → workers/extractors}/keywords/tf_idf.rb +1 -1
data/lib/treat/{extractors → workers/extractors}/language/what_language.rb +11 -4
data/lib/treat/{extractors → workers/extractors}/name_tag/stanford.rb +3 -4
data/lib/treat/{extractors → workers/extractors}/tf_idf/native.rb +4 -5
data/lib/treat/{extractors → workers/extractors}/time/chronic.rb +1 -1
data/lib/treat/{extractors → workers/extractors}/time/nickel.rb +1 -1
data/lib/treat/{extractors → workers/extractors}/time/ruby.rb +1 -1
data/lib/treat/{extractors → workers/extractors}/topic_words/lda.rb +1 -1
data/lib/treat/{extractors → workers/extractors}/topics/reuters.rb +4 -4
data/lib/treat/{formatters → workers/formatters}/readers/abw.rb +2 -2
data/lib/treat/{formatters → workers/formatters}/readers/autoselect.rb +10 -3
data/lib/treat/{formatters → workers/formatters}/readers/doc.rb +2 -2
data/lib/treat/{formatters → workers/formatters}/readers/html.rb +4 -4
data/lib/treat/{formatters → workers/formatters}/readers/image.rb +2 -2
data/lib/treat/{formatters → workers/formatters}/readers/odt.rb +2 -2
data/lib/treat/{formatters → workers/formatters}/readers/pdf.rb +2 -2
data/lib/treat/{formatters → workers/formatters}/readers/txt.rb +2 -2
data/lib/treat/{formatters → workers/formatters}/readers/xml.rb +2 -2
data/lib/treat/workers/formatters/serializers/mongo.rb +60 -0
data/lib/treat/{formatters → workers/formatters}/serializers/xml.rb +1 -2
data/lib/treat/{formatters → workers/formatters}/serializers/yaml.rb +1 -1
data/lib/treat/{formatters → workers/formatters}/unserializers/autoselect.rb +3 -1
data/lib/treat/workers/formatters/unserializers/mongo.rb +80 -0
data/lib/treat/{formatters → workers/formatters}/unserializers/xml.rb +2 -2
data/lib/treat/{formatters → workers/formatters}/unserializers/yaml.rb +1 -1
data/lib/treat/{formatters → workers/formatters}/visualizers/dot.rb +1 -1
data/lib/treat/{formatters → workers/formatters}/visualizers/standoff.rb +2 -3
data/lib/treat/{formatters → workers/formatters}/visualizers/tree.rb +1 -1
data/lib/treat/{groupable.rb → workers/group.rb} +6 -12
data/lib/treat/{inflectors → workers/inflectors}/cardinalizers/linguistics.rb +7 -2
data/lib/treat/{inflectors → workers/inflectors}/conjugators/linguistics.rb +11 -11
data/lib/treat/{inflectors → workers/inflectors}/declensors/active_support.rb +2 -2
data/lib/treat/{inflectors → workers/inflectors}/declensors/english/inflect.rb +1 -1
data/lib/treat/{inflectors → workers/inflectors}/declensors/english.rb +2 -2
data/lib/treat/{inflectors → workers/inflectors}/declensors/linguistics.rb +4 -4
data/lib/treat/{inflectors → workers/inflectors}/ordinalizers/linguistics.rb +8 -2
data/lib/treat/{inflectors → workers/inflectors}/stemmers/porter.rb +2 -2
data/lib/treat/{inflectors → workers/inflectors}/stemmers/porter_c.rb +1 -1
data/lib/treat/{inflectors → workers/inflectors}/stemmers/uea.rb +1 -1
data/lib/treat/{ai → workers/learners}/classifiers/id3.rb +1 -1
data/lib/treat/{ai → workers/learners}/classifiers/mlp.rb +1 -1
data/lib/treat/{lexicalizers → workers/lexicalizers}/categorizers/from_tag.rb +9 -9
data/lib/treat/{lexicalizers → workers/lexicalizers}/sensers/wordnet/synset.rb +2 -2
data/lib/treat/{lexicalizers → workers/lexicalizers}/sensers/wordnet.rb +4 -4
data/lib/treat/{lexicalizers → workers/lexicalizers}/taggers/brill/patch.rb +2 -2
data/lib/treat/{lexicalizers → workers/lexicalizers}/taggers/brill.rb +2 -8
data/lib/treat/{lexicalizers → workers/lexicalizers}/taggers/lingua.rb +1 -6
data/lib/treat/{lexicalizers → workers/lexicalizers}/taggers/stanford.rb +31 -42
data/lib/treat/workers/processors/chunkers/autoselect.rb +19 -0
data/lib/treat/{processors → workers/processors}/chunkers/html.rb +4 -3
data/lib/treat/workers/processors/chunkers/txt.rb +32 -0
data/lib/treat/{processors → workers/processors}/parsers/enju.rb +3 -3
data/lib/treat/{processors → workers/processors}/parsers/stanford.rb +6 -8
data/lib/treat/{processors → workers/processors}/segmenters/punkt.rb +6 -10
data/lib/treat/{processors → workers/processors}/segmenters/stanford.rb +2 -2
data/lib/treat/{processors → workers/processors}/segmenters/tactful.rb +3 -6
data/lib/treat/{processors → workers/processors}/tokenizers/ptb.rb +6 -5
data/lib/treat/{processors → workers/processors}/tokenizers/punkt.rb +1 -1
data/lib/treat/{processors → workers/processors}/tokenizers/stanford.rb +1 -1
data/lib/treat/{processors → workers/processors}/tokenizers/tactful.rb +3 -5
data/lib/treat/{retrievers → workers/retrievers}/indexers/ferret.rb +1 -1
data/lib/treat/{retrievers → workers/retrievers}/searchers/ferret.rb +1 -1
data/lib/treat/workers.rb +96 -0
data/lib/treat.rb +23 -49
data/spec/collection.rb +4 -4
data/spec/document.rb +5 -5
data/spec/entity.rb +33 -32
data/spec/{tree.rb → node.rb} +5 -5
data/spec/phrase.rb +5 -39
data/spec/sandbox.rb +212 -6
data/spec/token.rb +12 -9
data/spec/treat.rb +12 -9
data/spec/word.rb +10 -9
data/spec/zone.rb +6 -2
data/tmp/{INFO → MANIFEST} +0 -0
data/tmp/english.yaml +10340 -0
metadata +149 -139
data/lib/treat/ai.rb +0 -12
data/lib/treat/categories.rb +0 -90
data/lib/treat/categorizable.rb +0 -44
data/lib/treat/configurable.rb +0 -115
data/lib/treat/dependencies.rb +0 -25
data/lib/treat/downloader.rb +0 -87
data/lib/treat/entities/abilities.rb +0 -10
data/lib/treat/entities/entities.rb +0 -102
data/lib/treat/exception.rb +0 -7
data/lib/treat/extractors.rb +0 -79
data/lib/treat/formatters/serializers/mongo.rb +0 -64
data/lib/treat/formatters.rb +0 -41
data/lib/treat/helpers/decimal_point_escaper.rb +0 -22
data/lib/treat/inflectors.rb +0 -52
data/lib/treat/kernel.rb +0 -208
data/lib/treat/languages/arabic.rb +0 -16
data/lib/treat/languages/chinese.rb +0 -16
data/lib/treat/languages/dutch.rb +0 -16
data/lib/treat/languages/english.rb +0 -63
data/lib/treat/languages/french.rb +0 -20
data/lib/treat/languages/german.rb +0 -20
data/lib/treat/languages/greek.rb +0 -16
data/lib/treat/languages/italian.rb +0 -17
data/lib/treat/languages/language.rb +0 -10
data/lib/treat/languages/list.txt +0 -504
data/lib/treat/languages/polish.rb +0 -16
data/lib/treat/languages/portuguese.rb +0 -16
data/lib/treat/languages/russian.rb +0 -16
data/lib/treat/languages/spanish.rb +0 -16
data/lib/treat/languages/swedish.rb +0 -16
data/lib/treat/languages.rb +0 -132
data/lib/treat/lexicalizers.rb +0 -37
data/lib/treat/object.rb +0 -7
data/lib/treat/processors/chunkers/autoselect.rb +0 -16
data/lib/treat/processors/chunkers/txt.rb +0 -21
data/lib/treat/processors.rb +0 -38
data/lib/treat/retrievers.rb +0 -27
data/lib/treat/server.rb +0 -26
data/lib/treat/universalisation/encodings.rb +0 -12
data/lib/treat/universalisation/tags.rb +0 -453
data/lib/treat/universalisation.rb +0 -9
data/spec/languages.rb +0 -25

data/lib/treat/{processors → workers/processors}/chunkers/html.rb RENAMED Viewed

@@ -1,4 +1,4 @@
-class Treat::Processors::Chunkers::HTML
+class Treat::Workers::Processors::Chunkers::HTML
   require 'nokogiri'
@@ -24,6 +24,7 @@ class Treat::Processors::Chunkers::HTML
         node.parent && node.parent.type == :section)
         if $1
           lvl = $1.to_i
           if lvl <= level
             node.ancestors_with_type(:section).
@@ -41,13 +42,13 @@ class Treat::Processors::Chunkers::HTML
           node.set :level, level
         end
         t = node <<
         Treat::Entities::Title.new(txt)
         t.set :level, level
       elsif child.name == 'p'
         node << Treat::Entities::Zone.
         from_string(txt)

data/lib/treat/workers/processors/chunkers/txt.rb ADDED Viewed

@@ -0,0 +1,32 @@
+class Treat::Workers::Processors::Chunkers::TXT
+  # Separates a string into
+  # zones on the basis of newlines.
+  #
+  # Options: none.
+  def self.chunk(entity, options = {})
+    entity.check_hasnt_children
+    zones = entity.to_s.split("\n")
+    current = entity
+    zones.each do |zone|
+      zone.strip!
+      next if zone == ''
+      c = Treat::Entities::
+      Zone.from_string(zone)
+      if c.type == :title
+        if current.type == :section
+          current = current.parent
+          current = entity << Treat::
+          Entities::Section.new
+        else
+          current = entity << Treat::
+          Entities::Section.new
+        end
+      end
+      current << c
+    end
+  end
+end

data/lib/treat/{processors → workers/processors}/parsers/enju.rb RENAMED Viewed

@@ -10,7 +10,7 @@
 # Takuya Matsuzaki, Yusuke Miyao, and Jun'ichi Tsujii.
 # 2007. Efficient HPSG Parsing with Supertagging and
 # CFG-filtering. In Proceedings of IJCAI 2007.
-module Treat::Processors::Parsers::Enju
+module Treat::Workers::Processors::Parsers::Enju
   # Require the 'open3' library to connect
   # with the background Enju process.
@@ -23,10 +23,10 @@ module Treat::Processors::Parsers::Enju
   @@parser = nil
   # A hash of Enju cat tags mapped to word categories.
-  Ectc = Treat::Universalisation::Tags::EnjuCatToCategory
+  Ectc = Treat.tags.enju.cat_to_category
   # A hash of Enju cat/xcat pairs mapped to PTB tags.
-  Ecxtp = Treat::Universalisation::Tags::EnjuCatXcatToPTB
+  Ecxtp = Treat.tags.enju.xcat_to_ptb
   # Parse the entity into its syntactical
   # phrases using Enju.

data/lib/treat/{processors → workers/processors}/parsers/stanford.rb RENAMED Viewed

@@ -1,8 +1,10 @@
 # A wrapper class for the Stanford parser.
-class Treat::Processors::Parsers::Stanford
+class Treat::Workers::Processors::Parsers::Stanford
   require 'treat/loaders/stanford'
+  Pttc = Treat.tags.aligned.phrase_tags_to_category
   # Hold one instance of the pipeline per language.
   @@parsers = {}
@@ -27,9 +29,7 @@ class Treat::Processors::Parsers::Stanford
     lang = entity.language
     init(lang, options)
-    tag_set =  Treat::Universalisation::Tags::
-               StanfordTagSetForLanguage[
-               Treat::Languages.describe(lang)]
+    tag_set = StanfordCoreNLP::Config::TagSets[language]
     text = ::StanfordCoreNLP::Text.new(val)
     @@parsers[lang].annotate(text)
@@ -58,8 +58,7 @@ class Treat::Processors::Parsers::Stanford
   def self.init(lang, options)
     return if @@parsers[lang]
-    language = Treat::Languages.describe(lang)
-    Treat::Loaders::Stanford.load(language)
+    Treat::Loaders::Stanford.load(lang)
     options = DefaultOptions.merge(options)
     StanfordCoreNLP.use(lang)
@@ -117,8 +116,7 @@ class Treat::Processors::Parsers::Stanford
         tag_s, tag_opt = *tag.split('-')
         tag_s ||= ''
-        if Treat::Universalisation::Tags::PhraseTagToCategory[tag_s] &&
-           Treat::Universalisation::Tags::PhraseTagToCategory[tag_s][tag_set]
+        if Pttc[tag_s] && Pttc[tag_s][tag_set]
           ruby_child = Treat::Entities::Phrase.new
         else
           l = java_child.children[0].to_s

data/lib/treat/{processors → workers/processors}/segmenters/punkt.rb RENAMED Viewed

@@ -5,9 +5,7 @@
 # Original paper: Kiss, Tibor and Strunk, Jan (2006):
 # Unsupervised Multilingual Sentence Boundary Detection.
 # Computational Linguistics 32: 485-525.
-module Treat::Processors::Segmenters::Punkt
-  require 'treat/helpers/decimal_point_escaper'
+module Treat::Workers::Processors::Segmenters::Punkt
   # Require silently the punkt-segmenter gem.
   silence_warnings { require 'punkt-segmenter' }
@@ -41,7 +39,8 @@ module Treat::Processors::Segmenters::Punkt
     # Replace the point in all floating-point numbers
     # by ^^; this is a fix since Punkt trips on decimal
     # numbers.
-    Treat::Helpers::DecimalPointEscaper.escape!(s)
+    escape_floats!(s)
     s.gsub!(/([^\.\?!]\.|\!|\?)([^\s"'])/) { $1 + ' ' + $2 }
     result = @@segmenters[lang].
@@ -50,8 +49,7 @@ module Treat::Processors::Segmenters::Punkt
     result.each do |sentence|
       # Unescape the sentence.
-      Treat::Helpers::DecimalPointEscaper.
-      unescape!(sentence)
+      unescape_floats!(sentence)
       entity << Treat::Entities::Phrase.
         from_string(sentence)
     end
@@ -65,13 +63,11 @@ module Treat::Processors::Segmenters::Punkt
     if options[:model]
       model = options[:model]
     else
-      l = Treat::Languages.describe(lang)
-      model = "#{Treat.models}punkt/#{l}.yaml"
+      model = "#{Treat.paths.models}punkt/#{lang}.yaml"
       unless File.readable?(model)
         raise Treat::Exception,
         "Could not get the language model " +
-        "for the Punkt segmenter for #{l}."
+        "for the Punkt segmenter for #{lang.to_s.capitalize}."
       end
     end

data/lib/treat/{processors → workers/processors}/segmenters/stanford.rb RENAMED Viewed

@@ -1,6 +1,6 @@
 # A wrapper for the sentence splitter supplied by
 # the Stanford parser.
-class Treat::Processors::Segmenters::Stanford
+class Treat::Workers::Processors::Segmenters::Stanford
   require 'treat/loaders/stanford'
   Treat::Loaders::Stanford.load
@@ -41,7 +41,7 @@ class Treat::Processors::Segmenters::Stanford
       from_string(sentence, true)
       entity << s
       if options[:also_tokenize]
-        Treat::Processors::Tokenizers::Stanford.
+        Treat::Workers::Processors::Tokenizers::Stanford.
         add_tokens(s, sentence.get(:tokens))
       end
     end

data/lib/treat/{processors → workers/processors}/segmenters/tactful.rb RENAMED Viewed

@@ -7,7 +7,7 @@
 # Original paper: Dan Gillick. 2009. Sentence Boundary Detection
 # and the Problem with the U.S. University of California, Berkeley.
 # http://dgillick.com/resource/sbd_naacl_2009.pdf
-module Treat::Processors::Segmenters::Tactful
+module Treat::Workers::Processors::Segmenters::Tactful
   # Require the 'tactful_tokenizer' gem.
   silence_warnings { require 'tactful_tokenizer' }
@@ -15,8 +15,6 @@ module Treat::Processors::Segmenters::Tactful
   # Remove function definition 'tactful_tokenizer' by gem.
   String.class_eval { undef :tokenize }
-  require 'treat/helpers/decimal_point_escaper'
   # Keep only one copy of the segmenter.
   @@segmenter = nil
@@ -30,7 +28,7 @@ module Treat::Processors::Segmenters::Tactful
     s = entity.to_s
-    Treat::Helpers::DecimalPointEscaper.escape!(s)
+    escape_floats!(s)
     s.gsub!(/([^\.\?!]\.|\!|\?)([^\s"'])/) { $1 + ' ' + $2 }
@@ -39,8 +37,7 @@ module Treat::Processors::Segmenters::Tactful
     sentences = @@segmenter.tokenize_text(s)
     sentences.each do |sentence|
-      Treat::Helpers::DecimalPointEscaper.unescape!(sentence)
-      puts sentence.to_s if sentence.to_s.include?('staff')
+      unescape_floats!(sentence)
       entity << Treat::Entities::Phrase.from_string(sentence)
     end

data/lib/treat/{processors → workers/processors}/tokenizers/ptb.rb RENAMED Viewed

@@ -11,7 +11,7 @@
 # All rights reserved. This program is free software;
 # you can redistribute it and/or modify it under the
 # same terms as Ruby itself.
-module Treat::Processors::Tokenizers::PTB
+module Treat::Workers::Processors::Tokenizers::PTB
   # Tokenize the entity using a native rule-based algorithm.
   def self.tokenize(entity, options = {})
@@ -35,14 +35,11 @@ module Treat::Processors::Tokenizers::PTB
     s = " " + string + " "
-    # Translate some common extended ascii
-    # characters to quotes
     s.gsub!(/‘/,'`')
     s.gsub!(/’/,"'")
     s.gsub!(/“/,"``")
     s.gsub!(/”/,"''")
     s.gsub!(/\s+/," ")
     s.gsub!(/(\s+)''/,'\1"')
     s.gsub!(/(\s+)``/,'\1"')
@@ -83,6 +80,10 @@ module Treat::Processors::Tokenizers::PTB
     s.gsub!(/\//, ' / ')
     s.gsub!(/\s+/,' ')
     s.strip!
+    s.gsub!(/``/,'"')
+    s.gsub!(/''/,'"')
     s.split(/\s+/)
   end

data/lib/treat/{processors → workers/processors}/tokenizers/punkt.rb RENAMED Viewed

@@ -12,7 +12,7 @@
 # (almost rewrite).
 #
 # Project website: https://github.com/lfcipriani/punkt-segmenter
-class Treat::Processors::Tokenizers::Punkt
+class Treat::Workers::Processors::Tokenizers::Punkt
   SentEndChars = ['.', '?', '!']
   ReSentEndChars = /[.?!]/

data/lib/treat/{processors → workers/processors}/tokenizers/stanford.rb RENAMED Viewed

@@ -1,6 +1,6 @@
 # A wrapper for the Stanford parser's
 # Penn-Treebank style tokenizer.
-class Treat::Processors::Tokenizers::Stanford
+class Treat::Workers::Processors::Tokenizers::Stanford
   require 'treat/loaders/stanford'
   Treat::Loaders::Stanford.load

data/lib/treat/{processors → workers/processors}/tokenizers/tactful.rb RENAMED Viewed

@@ -4,10 +4,8 @@
 # Released under the GNU GPL v3. Modified by Louis Mullie.
 #
 # Project website: https://github.com/SlyShy/Tactful_Tokenizer
-class Treat::Processors::Tokenizers::Tactful
+class Treat::Workers::Processors::Tokenizers::Tactful
-  require 'treat/helpers/decimal_point_escaper'
   ReTokenize = [
     # Uniform Quotes
     [/''|``/, '"'],
@@ -52,7 +50,7 @@ class Treat::Processors::Tokenizers::Tactful
     s = entity.to_s
-    Treat::Helpers::DecimalPointEscaper.escape!(s)
+    escape_floats!(s)
     ReTokenize.each do |rules|
       s.gsub!(rules[0], rules[1])
@@ -60,7 +58,7 @@ class Treat::Processors::Tokenizers::Tactful
     s.split(' ').each do |token|
-      Treat::Helpers::DecimalPointEscaper.unescape!(token)
+      unescape_floats!(token)
       entity << Treat::Entities::Token.
       from_string(token)
     end

data/lib/treat/{retrievers → workers/retrievers}/indexers/ferret.rb RENAMED Viewed

@@ -3,7 +3,7 @@
 #
 # Documentation:
 # http://rubydoc.info/gems/ferret
-class Treat::Retrievers::Indexers::Ferret
+class Treat::Workers::Retrievers::Indexers::Ferret
   # Require Ferret and file utilities.
   silence_warnings { require 'ferret' }

data/lib/treat/{retrievers → workers/retrievers}/searchers/ferret.rb RENAMED Viewed

@@ -4,7 +4,7 @@
 #
 # Documentation:
 # http://rubydoc.info/gems/ferret
-class Treat::Retrievers::Searchers::Ferret
+class Treat::Workers::Retrievers::Searchers::Ferret
   silence_warnings { require 'ferret' }
   require 'find'

data/lib/treat/workers.rb ADDED Viewed

@@ -0,0 +1,96 @@
+# This module creates all the worker categories
+# and the groups within these categories and adds
+# the relevant hooks on the appropriate entities.
+module Treat::Workers
+  require 'treat/workers/group'
+  # A lookup table for entity types.
+  @@lookup = {}
+  # Find a worker group based on method.
+  def self.lookup(method)
+    @@lookup[method]
+  end
+  def self.create_categories
+    Treat.workers.list.each do |cat|
+      create_category(cat.to_s.
+      capitalize.intern,
+      load_category_conf(cat))
+    end
+  end
+  def self.load_category_conf(name)
+    config = Treat.workers[name]
+    if config.nil?
+      raise Treat::Exception,
+      "The configuration file " +
+      "for #{cat_sym} is missing."
+    end
+    config
+  end
+  def self.create_category(name, conf)
+    category = self.const_set(name, Module.new)
+    conf.each_pair do |group, worker|
+      name = group.to_s.capitalize.intern
+      category.module_eval do
+        @@methods = []; def methods;
+        @@methods; end; def groups;
+        self.constants; end
+      end
+      self.create_group(name, worker, category)
+    end
+  end
+  def self.create_group(name, conf, category)
+    group = category.const_set(name, Module.new)
+    self.set_group_options(group, conf)
+    self.bind_group_targets(group)
+    self.register_group_presets(group, conf)
+    @@methods << group.method
+    @@lookup[group.method] = group
+  end
+  def self.bind_group_targets(group)
+    group.targets.each do |entity_type|
+      entity = Treat::Entities.
+      const_get(cc(entity_type))
+      entity.class_eval do
+        add_workers group
+      end
+    end
+  end
+  def self.register_group_presets(group, conf)
+    return unless conf.respond_to? :presets
+    conf.presets.each do |m|
+      @@methods << m
+      @@lookup[m] = group
+    end
+  end
+  def self.set_group_options(group, conf)
+    group.module_eval do
+      extend Treat::Workers::Group
+      self.type = conf.type
+      self.targets = conf.targets
+      if conf.respond_to?(:default)
+        self.default = conf.default
+      end
+      if conf.respond_to?(:preset_option)
+        self.preset_option = conf.preset_option
+      end
+      if conf.respond_to?(:presets)
+        self.presets = conf.presets
+      end
+      if conf.respond_to?(:recursive)
+        self.recursive = conf.recursive
+      end
+    end
+  end
+  self.create_categories
+end

data/lib/treat.rb CHANGED Viewed

@@ -1,62 +1,36 @@
 module Treat
-  # Require custom exception cass.
-  require 'treat/exception'
-  # Treat requires Ruby 1.9 or higher.
-  if RUBY_VERSION <= '1.9'
-    raise Treat::Exception,
-    'Treat requires Ruby 1.9 or higher.'
-  end
-  # The current version of Treat.
-  VERSION = "1.0.6"
-  # Add methods to handle syntactic sugar,
-  # language configuration options, and paths.
-  require 'treat/configurable'
-  extend Treat::Configurable
-  # The folders in the library and descriptions.
-  Paths = {
-    :tmp => 'temporary files',
-    :lib => 'class and module definitions',
-    :bin => 'binary files',
-    :files => 'user-saved files',
-    :data => 'data set files',
-    :models => 'model files',
-    :spec => 'spec test files'
-  }
-  # Add methods to provide access to common paths.
-  class << self
-    Paths.each do |path, _|
-      define_method(path) do
-        (File.dirname(__FILE__).
-        split('/')[0..-2].join('/') +
-        '/' + path.to_s + '/').gsub(
-        'lib/../', '')
-      end
-    end
+  # Treat requires Ruby >= 1.9.2
+  if RUBY_VERSION < '1.9.2'
+    raise "Treat requires Ruby version 1.9.2 " +
+    "or higher, but current is #{RUBY_VERSION}."
   end
-  require 'treat/object'
-  require 'treat/kernel'
-  require 'treat/downloader'
-  require 'treat/languages'
-  require 'treat/universalisation'
+  # Custom exception class.
+  class Exception < ::Exception; end
+  # Load configuration options.
+  require 'treat/config'
+  # Load all workers.
+  require 'treat/helpers'
+  # Require library loaders.
+  require 'treat/loaders'
+  # Require all core classes.
+  require 'treat/core'
+  # Require all entity classes.
   require 'treat/entities'
-  require 'treat/categories'
-  require 'treat/data_set'
+  # Lazy load worker classes.
+  require 'treat/workers'
+  # Require proxies last.
   require 'treat/proxies'
+  # Turn sugar on.
+  Treat::Config.sweeten!
   # Install packages for a given language.
   def self.install(language = :english)
     require 'treat/installer'
     Treat::Installer.install(language)
   end
-  # Enable syntactic sugar by default.
-  Treat.sweeten!
 end

data/spec/collection.rb CHANGED Viewed

@@ -3,7 +3,7 @@ require_relative '../lib/treat'
 describe Treat::Entities::Collection do
   before :all do
-    @file = Treat.spec + 'samples/mathematicians'
+    @file = Treat.paths.spec + 'samples/mathematicians'
   end
   describe "#<<" do
@@ -12,7 +12,7 @@ describe Treat::Entities::Collection do
       it "copies the document to the collection's folder " +
       "and adds the document object to the collection" do
-        f = Treat.spec + 'samples/test'
+        f = Treat.paths.spec + 'samples/test'
         ff = '3_2_release_notes.html'
         u = 'http://guides.rubyonrails.org/' + ff
         c = Treat::Entities::Collection.build(f)
@@ -26,7 +26,7 @@ describe Treat::Entities::Collection do
     context "when supplied with anything else" do
       it "adds the object to the collection" do
-        f = Treat.spec + 'samples/test'
+        f = Treat.paths.spec + 'samples/test'
         c = Treat::Entities::Collection.build(f)
         c << Treat::Entities::Document.new
         c.size.should eql 2
@@ -53,7 +53,7 @@ describe Treat::Entities::Collection do
       context "when supplied a folder name that doesn't exist" do
         it "creates the directory and opens the collection" do
-          f = Treat.spec + 'samples/test'
+          f = Treat.paths.spec + 'samples/test'
           c = Treat::Entities::Collection.build(f)
           FileTest.directory?(f).should eql true
           c.should be_an_instance_of Treat::Entities::Collection

data/spec/document.rb CHANGED Viewed

@@ -8,7 +8,7 @@ describe Treat::Entities::Document do
       it "returns a list of general topics the document belongs to" do
         #doc = Treat::Entities::Document.new(
-        #Treat.spec + 'samples/mathematicians/archimedes.abw').read(:abw)
+        #Treat.paths.spec + 'samples/mathematicians/archimedes.abw').read(:abw)
         #doc.do(:chunk, :segment, :tokenize)
         #puts doc.topics.inspect
       end
@@ -24,7 +24,7 @@ describe Treat::Entities::Document do
       context "when supplied with a readable file name" do
         it "opens the file and reads its " +
         "content into a document" do
-          f = Treat.spec + 'samples/mathematicians/leibniz.txt'
+          f = Treat.paths.spec + 'samples/mathematicians/leibniz.txt'
           d = Treat::Entities::Document.build(f)
           d.should be_an_instance_of Treat::Entities::Document
           d.to_s.index('Gottfried Leibniz').should_not eql nil
@@ -36,7 +36,7 @@ describe Treat::Entities::Document do
         "a document with the contents of the file" do
           url = 'http://www.rubyinside.com/nethttp-cheat-sheet-2940.html'
           d = Treat::Entities::Document.build(url)
-          d.format.should eql :html
+          d.format.should eql 'html'
           d.print_tree
           d.should be_an_instance_of Treat::Entities::Document
           d.to_s.index('Rubyist').should_not eql nil
@@ -75,7 +75,7 @@ describe Treat::Entities::Document do
       context "when called on an HTML document" do
         doc = Treat::Entities::Document.new(
-        Treat.spec + 'samples/mathematicians/euler.html').read(:html)
+        Treat.paths.spec + 'samples/mathematicians/euler.html').read(:html)
         it "splits the HTML document into sections, " +
         "titles, paragraphs and lists" do
           doc.chunk
@@ -88,7 +88,7 @@ describe Treat::Entities::Document do
       context "when called on a text document" do
-        doc = Treat::Entities::Document.new(Treat.spec +
+        doc = Treat::Entities::Document.new(Treat.paths.spec +
         'samples/mathematicians/leibniz.txt').read(:txt)
         it "splits the document into titles and paragraphs" do
           doc.chunk