RubyGems - treat - Versions diffs - 0.2.5 → 1.0.0 - Mend

treat 0.2.5 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

data/LICENSE +3 -3
data/README.md +33 -0
data/files/INFO +1 -0
data/lib/treat.rb +40 -105
data/lib/treat/ai.rb +12 -0
data/lib/treat/ai/classifiers/id3.rb +27 -0
data/lib/treat/categories.rb +82 -35
data/lib/treat/categorizable.rb +44 -0
data/lib/treat/classification.rb +61 -0
data/lib/treat/configurable.rb +115 -0
data/lib/treat/data_set.rb +42 -0
data/lib/treat/dependencies.rb +24 -0
data/lib/treat/downloader.rb +87 -0
data/lib/treat/entities.rb +68 -66
data/lib/treat/entities/abilities.rb +10 -0
data/lib/treat/entities/abilities/buildable.rb +327 -0
data/lib/treat/entities/abilities/checkable.rb +31 -0
data/lib/treat/entities/abilities/copyable.rb +45 -0
data/lib/treat/entities/abilities/countable.rb +51 -0
data/lib/treat/entities/abilities/debuggable.rb +83 -0
data/lib/treat/entities/abilities/delegatable.rb +123 -0
data/lib/treat/entities/abilities/doable.rb +62 -0
data/lib/treat/entities/abilities/exportable.rb +11 -0
data/lib/treat/entities/abilities/iterable.rb +115 -0
data/lib/treat/entities/abilities/magical.rb +83 -0
data/lib/treat/entities/abilities/registrable.rb +74 -0
data/lib/treat/entities/abilities/stringable.rb +91 -0
data/lib/treat/entities/entities.rb +104 -0
data/lib/treat/entities/entity.rb +122 -245
data/lib/treat/exception.rb +4 -4
data/lib/treat/extractors.rb +77 -80
data/lib/treat/extractors/keywords/tf_idf.rb +56 -22
data/lib/treat/extractors/language/what_language.rb +50 -45
data/lib/treat/extractors/name_tag/stanford.rb +55 -0
data/lib/treat/extractors/tf_idf/native.rb +87 -0
data/lib/treat/extractors/time/chronic.rb +55 -0
data/lib/treat/extractors/time/nickel.rb +86 -62
data/lib/treat/extractors/time/ruby.rb +53 -0
data/lib/treat/extractors/topic_words/lda.rb +67 -58
data/lib/treat/extractors/topics/reuters.rb +100 -87
data/lib/treat/formatters.rb +39 -35
data/lib/treat/formatters/readers/abw.rb +49 -29
data/lib/treat/formatters/readers/autoselect.rb +37 -33
data/lib/treat/formatters/readers/doc.rb +19 -13
data/lib/treat/formatters/readers/html.rb +52 -30
data/lib/treat/formatters/readers/image.rb +41 -40
data/lib/treat/formatters/readers/odt.rb +59 -45
data/lib/treat/formatters/readers/pdf.rb +28 -25
data/lib/treat/formatters/readers/txt.rb +12 -15
data/lib/treat/formatters/readers/xml.rb +73 -36
data/lib/treat/formatters/serializers/xml.rb +80 -79
data/lib/treat/formatters/serializers/yaml.rb +19 -18
data/lib/treat/formatters/unserializers/autoselect.rb +12 -22
data/lib/treat/formatters/unserializers/xml.rb +94 -99
data/lib/treat/formatters/unserializers/yaml.rb +20 -19
data/lib/treat/formatters/visualizers/dot.rb +132 -132
data/lib/treat/formatters/visualizers/standoff.rb +52 -44
data/lib/treat/formatters/visualizers/tree.rb +26 -29
data/lib/treat/groupable.rb +153 -0
data/lib/treat/helpers/decimal_point_escaper.rb +22 -0
data/lib/treat/inflectors.rb +50 -45
data/lib/treat/inflectors/cardinalizers/linguistics.rb +40 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +55 -0
data/lib/treat/inflectors/declensors/active_support.rb +31 -0
data/lib/treat/inflectors/declensors/english.rb +38 -0
data/lib/treat/inflectors/declensors/english/inflect.rb +288 -0
data/lib/treat/inflectors/declensors/linguistics.rb +49 -0
data/lib/treat/inflectors/ordinalizers/linguistics.rb +17 -0
data/lib/treat/inflectors/stemmers/porter.rb +160 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +24 -0
data/lib/treat/inflectors/stemmers/uea.rb +28 -0
data/lib/treat/installer.rb +308 -0
data/lib/treat/kernel.rb +105 -27
data/lib/treat/languages.rb +122 -88
data/lib/treat/languages/arabic.rb +15 -15
data/lib/treat/languages/chinese.rb +15 -15
data/lib/treat/languages/dutch.rb +15 -15
data/lib/treat/languages/english.rb +61 -62
data/lib/treat/languages/french.rb +19 -19
data/lib/treat/languages/german.rb +20 -20
data/lib/treat/languages/greek.rb +15 -15
data/lib/treat/languages/italian.rb +16 -16
data/lib/treat/languages/polish.rb +15 -15
data/lib/treat/languages/portuguese.rb +15 -15
data/lib/treat/languages/russian.rb +15 -15
data/lib/treat/languages/spanish.rb +16 -16
data/lib/treat/languages/swedish.rb +16 -16
data/lib/treat/lexicalizers.rb +34 -55
data/lib/treat/lexicalizers/categorizers/from_tag.rb +54 -0
data/lib/treat/lexicalizers/sensers/wordnet.rb +57 -0
data/lib/treat/lexicalizers/sensers/wordnet/synset.rb +71 -0
data/lib/treat/lexicalizers/taggers/brill.rb +70 -0
data/lib/treat/lexicalizers/taggers/brill/patch.rb +61 -0
data/lib/treat/lexicalizers/taggers/lingua.rb +90 -0
data/lib/treat/lexicalizers/taggers/stanford.rb +97 -0
data/lib/treat/linguistics.rb +9 -0
data/lib/treat/linguistics/categories.rb +11 -0
data/lib/treat/linguistics/tags.rb +422 -0
data/lib/treat/loaders/linguistics.rb +30 -0
data/lib/treat/loaders/stanford.rb +27 -0
data/lib/treat/object.rb +1 -0
data/lib/treat/processors.rb +37 -44
data/lib/treat/processors/chunkers/autoselect.rb +16 -0
data/lib/treat/processors/chunkers/html.rb +71 -0
data/lib/treat/processors/chunkers/txt.rb +18 -24
data/lib/treat/processors/parsers/enju.rb +253 -208
data/lib/treat/processors/parsers/stanford.rb +130 -131
data/lib/treat/processors/segmenters/punkt.rb +79 -45
data/lib/treat/processors/segmenters/stanford.rb +46 -48
data/lib/treat/processors/segmenters/tactful.rb +43 -36
data/lib/treat/processors/tokenizers/perl.rb +124 -92
data/lib/treat/processors/tokenizers/ptb.rb +81 -0
data/lib/treat/processors/tokenizers/punkt.rb +48 -42
data/lib/treat/processors/tokenizers/stanford.rb +39 -38
data/lib/treat/processors/tokenizers/tactful.rb +64 -55
data/lib/treat/proxies.rb +52 -35
data/lib/treat/retrievers.rb +26 -16
data/lib/treat/retrievers/indexers/ferret.rb +47 -26
data/lib/treat/retrievers/searchers/ferret.rb +69 -50
data/lib/treat/tree.rb +241 -183
data/spec/collection.rb +123 -0
data/spec/document.rb +93 -0
data/spec/entity.rb +408 -0
data/spec/languages.rb +25 -0
data/spec/phrase.rb +146 -0
data/spec/samples/mathematicians/archimedes.abw +34 -0
data/spec/samples/mathematicians/euler.html +21 -0
data/spec/samples/mathematicians/gauss.pdf +0 -0
data/spec/samples/mathematicians/leibniz.txt +13 -0
data/spec/samples/mathematicians/newton.doc +0 -0
data/spec/sandbox.rb +5 -0
data/spec/token.rb +109 -0
data/spec/treat.rb +52 -0
data/spec/tree.rb +117 -0
data/spec/word.rb +110 -0
data/spec/zone.rb +66 -0
data/tmp/INFO +1 -1
metadata +100 -201
data/INSTALL +0 -1
data/README +0 -3
data/TODO +0 -28
data/lib/economist/half_cocked_basel.txt +0 -16
data/lib/economist/hungarys_troubles.txt +0 -46
data/lib/economist/indias_slowdown.txt +0 -15
data/lib/economist/merkozy_rides_again.txt +0 -24
data/lib/economist/prada_is_not_walmart.txt +0 -9
data/lib/economist/to_infinity_and_beyond.txt +0 -15
data/lib/ferret/_11.cfs +0 -0
data/lib/ferret/_14.cfs +0 -0
data/lib/ferret/_p.cfs +0 -0
data/lib/ferret/_s.cfs +0 -0
data/lib/ferret/_v.cfs +0 -0
data/lib/ferret/_y.cfs +0 -0
data/lib/ferret/segments +0 -0
data/lib/ferret/segments_15 +0 -0
data/lib/treat/buildable.rb +0 -157
data/lib/treat/category.rb +0 -33
data/lib/treat/delegatable.rb +0 -116
data/lib/treat/doable.rb +0 -45
data/lib/treat/entities/collection.rb +0 -14
data/lib/treat/entities/document.rb +0 -12
data/lib/treat/entities/phrases.rb +0 -17
data/lib/treat/entities/tokens.rb +0 -61
data/lib/treat/entities/zones.rb +0 -41
data/lib/treat/extractors/coreferences/stanford.rb +0 -69
data/lib/treat/extractors/date/chronic.rb +0 -32
data/lib/treat/extractors/date/ruby.rb +0 -25
data/lib/treat/extractors/keywords/topics_tf_idf.rb +0 -48
data/lib/treat/extractors/language/language_extractor.rb +0 -27
data/lib/treat/extractors/named_entity_tag/stanford.rb +0 -53
data/lib/treat/extractors/roles/naive.rb +0 -73
data/lib/treat/extractors/statistics/frequency_in.rb +0 -16
data/lib/treat/extractors/statistics/position_in.rb +0 -14
data/lib/treat/extractors/statistics/tf_idf.rb +0 -104
data/lib/treat/extractors/statistics/transition_matrix.rb +0 -105
data/lib/treat/extractors/statistics/transition_probability.rb +0 -57
data/lib/treat/extractors/topic_words/lda/data.dat +0 -46
data/lib/treat/extractors/topic_words/lda/wiki.yml +0 -121
data/lib/treat/extractors/topics/reuters/industry.xml +0 -2717
data/lib/treat/extractors/topics/reuters/region.xml +0 -13586
data/lib/treat/extractors/topics/reuters/topics.xml +0 -17977
data/lib/treat/feature.rb +0 -58
data/lib/treat/features.rb +0 -7
data/lib/treat/formatters/visualizers/short_value.rb +0 -29
data/lib/treat/formatters/visualizers/txt.rb +0 -45
data/lib/treat/group.rb +0 -106
data/lib/treat/helpers/linguistics_loader.rb +0 -18
data/lib/treat/inflectors/cardinal_words/linguistics.rb +0 -42
data/lib/treat/inflectors/conjugations/linguistics.rb +0 -36
data/lib/treat/inflectors/declensions/english.rb +0 -319
data/lib/treat/inflectors/declensions/linguistics.rb +0 -42
data/lib/treat/inflectors/ordinal_words/linguistics.rb +0 -20
data/lib/treat/inflectors/stem/porter.rb +0 -162
data/lib/treat/inflectors/stem/porter_c.rb +0 -26
data/lib/treat/inflectors/stem/uea.rb +0 -30
data/lib/treat/install.rb +0 -59
data/lib/treat/languages/tags.rb +0 -377
data/lib/treat/lexicalizers/category/from_tag.rb +0 -49
data/lib/treat/lexicalizers/linkages/naive.rb +0 -63
data/lib/treat/lexicalizers/synsets/wordnet.rb +0 -76
data/lib/treat/lexicalizers/tag/brill.rb +0 -91
data/lib/treat/lexicalizers/tag/lingua.rb +0 -123
data/lib/treat/lexicalizers/tag/stanford.rb +0 -70
data/lib/treat/processors/segmenters/punkt/dutch.yaml +0 -9716
data/lib/treat/processors/segmenters/punkt/english.yaml +0 -10340
data/lib/treat/processors/segmenters/punkt/french.yaml +0 -43159
data/lib/treat/processors/segmenters/punkt/german.yaml +0 -9572
data/lib/treat/processors/segmenters/punkt/greek.yaml +0 -6050
data/lib/treat/processors/segmenters/punkt/italian.yaml +0 -14748
data/lib/treat/processors/segmenters/punkt/polish.yaml +0 -9751
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +0 -13662
data/lib/treat/processors/segmenters/punkt/russian.yaml +0 -4237
data/lib/treat/processors/segmenters/punkt/spanish.yaml +0 -24034
data/lib/treat/processors/segmenters/punkt/swedish.yaml +0 -10001
data/lib/treat/processors/tokenizers/macintyre.rb +0 -77
data/lib/treat/processors/tokenizers/multilingual.rb +0 -30
data/lib/treat/registrable.rb +0 -28
data/lib/treat/sugar.rb +0 -50
data/lib/treat/viewable.rb +0 -29
data/lib/treat/visitable.rb +0 -28
data/test/profile.rb +0 -2
data/test/tc_entity.rb +0 -117
data/test/tc_extractors.rb +0 -73
data/test/tc_formatters.rb +0 -41
data/test/tc_inflectors.rb +0 -34
data/test/tc_lexicalizers.rb +0 -32
data/test/tc_processors.rb +0 -50
data/test/tc_resources.rb +0 -22
data/test/tc_treat.rb +0 -60
data/test/tc_tree.rb +0 -60
data/test/tests.rb +0 -20
data/test/texts.rb +0 -19
data/test/texts/english/half_cocked_basel.txt +0 -16
data/test/texts/english/hose_and_dry.doc +0 -0
data/test/texts/english/hungarys_troubles.abw +0 -70
data/test/texts/english/long.html +0 -24
data/test/texts/english/long.txt +0 -22
data/test/texts/english/medium.txt +0 -5
data/test/texts/english/republican_nomination.pdf +0 -0
data/test/texts/english/saving_the_euro.odt +0 -0
data/test/texts/english/short.txt +0 -3
data/test/texts/english/zero_sum.html +0 -111

data/lib/treat/processors/tokenizers/stanford.rb CHANGED Viewed

@@ -1,40 +1,41 @@
-module Treat
-  module Processors
-    module Tokenizers
-      # A wrapper for the Stanford parser's Penn-Treebank
-      # style tokenizer.
-      class Stanford
-        require 'stanford-core-nlp'
-        DefaultOptions = {
-          :silence => false,
-          :log_to_file => nil
-        }
-        @@tokenizer = nil
-        # Tokenize the entity using a Penn-Treebank style tokenizer
-        # included with the Stanford Parser.
-        #
-        # Options:
-        # - (String) :log_to_file => a filename to log output to
-        # instead of displaying it.
-        def self.tokenize(entity, options = {})
-          options = DefaultOptions.merge(options)
-          options[:log_to_file] = '/dev/null' if options[:silence]
-          if options[:log_to_file]
-            ::StanfordCoreNLP.log_file = options[:log_to_file]
-          end
-          @@tokenizer ||= ::StanfordCoreNLP.load(:tokenize)
-          text = ::StanfordCoreNLP::Text.new(entity.to_s)
-          @@tokenizer.annotate(text)
-          text.get(:tokens).each do |token|
-            t = Treat::Entities::Token.from_string(token.value)
-            entity << t
-            t.set :character_offset_begin,
-            token.get(:character_offset_begin)
-            t.set :character_offset_end,
-            token.get(:character_offset_end)
-          end
-        end
-      end
+# A wrapper for the Stanford parser's
+# Penn-Treebank style tokenizer.
+class Treat::Processors::Tokenizers::Stanford
+  require 'treat/loaders/stanford'
+  @@tokenizer = nil
+  # Tokenize the entity using a Penn-Treebank
+  # style tokenizer.
+  #
+  # Options: none.
+  def self.tokenize(entity, options = {})
+    entity.check_hasnt_children
+    s = entity.to_s
+    @@tokenizer ||=
+    ::StanfordCoreNLP.load(:tokenize)
+    text =
+    ::StanfordCoreNLP::Text.new(s)
+    @@tokenizer.annotate(text)
+    add_tokens(entity, text.get(:tokens))
+  end
+  # Add the tokens to the entity.
+  def self.add_tokens(entity, tokens)
+    tokens.each do |token|
+      val = token.value
+      val = '(' if val == '-LRB-'     # Fix for other special chars
+      val = ')' if val == '-RRB'
+      t = Treat::Entities::Token.
+      from_string(token.value)
+      entity << t
     end
   end
-end
+end

data/lib/treat/processors/tokenizers/tactful.rb CHANGED Viewed

@@ -1,58 +1,67 @@
-module Treat
-  module Processors
-    module Tokenizers
-      # A tokenizer class lifted from the 'tactful-tokenizer' gem.
-      #
-      # Copyright © 2010 Matthew Bunday. All rights reserved.
-      # Released under the GNU GPL v3. Modified by Louis Mullie.
-      #
-      # Project website: https://github.com/SlyShy/Tactful_Tokenizer
-      class Tactful
-        ReTokenize = [
-          # Uniform Quotes
-          [/''|``/, '"'],
-          # Separate punctuation from words.
-          [/(^|\s)(')/, '\1\2'],
-          [/(?=[\("`{\[:;&#*@\.])(.)/, '\1 '],
-          [/(.)(?=[?!\)";}\]*:@\.'])|(?=[\)}\]])(.)|(.)(?=[({\[])|((^|\s)-)(?=[^-])/, '\1 '],
-          # Treat double-hyphen as a single token.
-          [/([^-])(--+)([^-])/, '\1 \2 \3'],
-          [/(\s|^)(,)(?=(\S))/, '\1\2 '],
-          # Only separate a comma if a space follows.
-          [/(.)(,)(\s|$)/, '\1 \2\3'],
-          # Combine dots separated by whitespace to be a single token.
-          [/\.\s\.\s\./, '...'],
-          # Separate "No.6"
-          [/([\W]\.)(\d+)/, '\1 \2'],
-          # Separate words from ellipses
-          [/([^\.]|^)(\.{2,})(.?)/, '\1 \2 \3'],
-          [/(^|\s)(\.{2,})([^\.\s])/, '\1\2 \3'],
-          [/(^|\s)(\.{2,})([^\.\s])/, '\1 \2\3'],
-          ##### Some additional fixes.
-          # Fix %, $, &
-          [/(\d)%/, '\1 %'],
-          [/\$(\.?\d)/, '$ \1'],
-          [/(\W)& (\W)/, '\1&\2'],
-          [/(\W\W+)&(\W\W+)/, '\1 & \2'],
-          # Fix (n 't) -> ( n't)
-          [/n 't( |$)/, " n't\\1"],
-          [/N 'T( |$)/, " N'T\\1"],
-          # Treebank tokenizer special words
-          [/([Cc])annot/, '\1an not']
-        ]
-        # Tokenize the entity using a rule-based algorithm
-        # that has been lifted from the 'tactful-tokenizer'
-        # gem.
-        def self.tokenize(entity, options = {})
-          s = entity.to_s
-          ReTokenize.each do |rules|
-            s.gsub!(rules[0], rules[1])
-          end
-          s.split(' ').each do |token|
-            entity << Entities::Token.from_string(token)
-          end
-        end
-      end
+# A tokenizer class lifted from the 'tactful-tokenizer' gem.
+#
+# Copyright © 2010 Matthew Bunday. All rights reserved.
+# Released under the GNU GPL v3. Modified by Louis Mullie.
+#
+# Project website: https://github.com/SlyShy/Tactful_Tokenizer
+class Treat::Processors::Tokenizers::Tactful
+  require 'treat/helpers/decimal_point_escaper'
+  ReTokenize = [
+    # Uniform Quotes
+    [/''|``/, '"'],
+    # Separate punctuation from words.
+    [/(^|\s)(')/, '\1\2'],
+    [/(?=[\("`{\[:;&#*@\.])(.)/, '\1 '],
+    [/(.)(?=[?!\)";}\]*:@\.'])|(?=[\)}\]])(.)|(.)(?=[({\[])|((^|\s)-)(?=[^-])/, '\1 '],
+    # Treat double-hyphen as a single token.
+    [/([^-])(--+)([^-])/, '\1 \2 \3'],
+    [/(\s|^)(,)(?=(\S))/, '\1\2 '],
+    # Only separate a comma if a space follows.
+    [/(.)(,)(\s|$)/, '\1 \2\3'],
+    # Combine dots separated by whitespace to be a single token.
+    [/\.\s\.\s\./, '...'],
+    # Separate "No.6"
+    [/([\W]\.)(\d+)/, '\1 \2'],
+    # Separate words from ellipses
+    [/([^\.]|^)(\.{2,})(.?)/, '\1 \2 \3'],
+    [/(^|\s)(\.{2,})([^\.\s])/, '\1\2 \3'],
+    [/(^|\s)(\.{2,})([^\.\s])/, '\1 \2\3'],
+    ##### Some additional fixes.
+    # Fix %, $, &
+    [/(\d)%/, '\1 %'],
+    [/\$(\.?\d)/, '$ \1'],
+    [/(\W)& (\W)/, '\1&\2'],
+    [/(\W\W+)&(\W\W+)/, '\1 & \2'],
+    # Fix (n 't) -> ( n't)
+    [/n 't( |$)/, " n't\\1"],
+    [/N 'T( |$)/, " N'T\\1"],
+    # Treebank tokenizer special words
+    [/([Cc])annot/, '\1an not']
+  ]
+  # Tokenize the entity using a rule-based algorithm
+  # that has been lifted from the 'tactful-tokenizer'
+  # gem.
+  def self.tokenize(entity, options = {})
+    entity.check_hasnt_children
+    s = entity.to_s
+    Treat::Helpers::DecimalPointEscaper.escape!(s)
+    ReTokenize.each do |rules|
+      s.gsub!(rules[0], rules[1])
     end
+    s.split(' ').each do |token|
+      entity << Treat::Entities::Token.
+      from_string(token)
+    end
   end
 end

data/lib/treat/proxies.rb CHANGED Viewed

@@ -1,40 +1,57 @@
-module Treat
-  # Proxies install Treat functions on core Ruby classes.
-  module Proxies
-    # The module proxy provides functionanaty common
-    # to the different types of proxies.
-    module Proxy
-      # Build the entity corresponding to the proxied
-      # object and send the method call to the entity.
-      def method_missing(sym, *args, &block)
-        if sym == :do || Treat::Categories.lookup(sym)
-          to_entity.send(sym, *args)
-        else
-          super(sym, *args, &block)
-        end
-      end
-      def to_entity(builder = nil)
-        Treat::Entities::Unknown(self.to_s)
+# Proxies install builders on core Ruby objects,
+# so that methods called on them may be passed
+# to the entity that can be built from the core
+# class instance.
+module Treat::Proxies
+  # Provides a base functionality for proxies.
+  module Proxy
+    # Build the entity corresponding to the proxied
+    # object and send the method call to the entity.
+    def method_missing(sym, *args, &block)
+      if sym == :do || Treat::Categories.lookup(sym)
+        to_entity.send(sym, *args)
+      else
+        super(sym, *args, &block)
       end
     end
-    # Install Treat functions on String objects.
-    module String
-      include Treat::Proxies::Proxy
-      # Return the entity corresponding to the string.
-      def to_entity
-        Treat::Entities::Entity.from_string(self.to_s)
-      end
+    # Create an unknown type of entity by default.
+    def to_entity(builder = nil)
+      Treat::Entities::Unknown(self.to_s)
     end
-    # Install Treat functions on Numeric objects.
-    module Numeric
-      include Treat::Proxies::Proxy
-      # Return the entity corresponding to the number.
-      def to_entity(builder = nil)
-        Treat::Entities::Number.from_numeric(self)
-      end
+  end
+  # Install Treat functions on String objects.
+  module String
+    # Include base proxy functionality.
+    include Treat::Proxies::Proxy
+    # Return the entity corresponding to the string.
+    def to_entity
+      Treat::Entities::Entity.from_string(self.to_s)
+    end
+  end
+  # Install Treat functions on Numeric objects.
+  module Numeric
+    # Include base proxy functionality.
+    include Treat::Proxies::Proxy
+    # Return the entity corresponding to the number.
+    def to_entity(builder = nil)
+      Treat::Entities::Number.from_numeric(self)
     end
-    # Include the proxies in the core classes.
-    ::String.class_eval { include Treat::Proxies::String }
-    ::Numeric.class_eval { include Treat::Proxies::Numeric }
   end
-end
+  # Include the proxies in the core classes.
+  ::String.class_eval { include Treat::Proxies::String }
+  ::Numeric.class_eval { include Treat::Proxies::Numeric }
+end

data/lib/treat/retrievers.rb CHANGED Viewed

@@ -1,17 +1,27 @@
-module Treat
-  module Retrievers
-    module Indexers
-      extend Group
-      self.type = :annotator
-      self.targets = [:collection]
-      self.default = :ferret
-    end
-    module Searchers
-      extend Group
-      self.type = :computer
-      self.targets = [:entity]
-      self.default = :ferret
-    end
-    extend Treat::Category
+# Retrievers find documents in collections.
+module Treat::Retrievers
+  # Indexers create an index of words used
+  # in the documents within a collection.
+  module Indexers
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:collection]
+    self.default = :ferret
   end
-end
+  # Searchers perform full-text search
+  # on indexed collections in order
+  # to retrieve documents matching
+  # a query.
+  module Searchers
+    extend Treat::Groupable
+    self.type = :computer
+    self.targets = [:collection]
+    self.default = :ferret
+  end
+  # Make Retrievers categorizable.
+  extend Treat::Categorizable
+end

data/lib/treat/retrievers/indexers/ferret.rb CHANGED Viewed

@@ -1,28 +1,49 @@
-module Treat
-  module Retrievers
-    module Indexers
-      class Ferret
-        silence_warnings { require 'ferret' }
-        require 'find'
-        require 'fileutils'
-        # Create a Ferret index for the collection and
-        # store the path to the index under "folder."
-        def self.index(collection, options = {})
-          path = "#{collection.folder}/.index"
-          FileUtils.mkdir(path) unless File.readable?(path)
-          index = ::Ferret::Index::Index.new(
-            :default_field => 'content',
-            :path => path
-          )
-          collection.each_document do |doc|
-            index.add_document(
-              :file => doc.file,
-              :content => doc.to_s
-            )
-          end
-          path
-        end
-      end
+# A wrapper for the indexing functions of Ferret,
+# a port of the Java Lucene search engine.
+#
+# Documentation:
+# http://rubydoc.info/gems/ferret
+class Treat::Retrievers::Indexers::Ferret
+  # Require Ferret and file utilities.
+  silence_warnings { require 'ferret' }
+  require 'find'
+  require 'fileutils'
+  # Create a Ferret index for the collection and
+  # store the index in the collection, under the
+  # path collection-folder/.index
+  #
+  # Annotates the collection with the path to the
+  # index for future use (e.g. in searching).
+  def self.index(collection, options = {})
+    path = "#{collection.folder}/.index"
+    return path if FileTest.directory?(path)
+    begin
+      FileUtils.mkdir(path)
+    rescue Exception => e
+      raise Treat::Exception,
+      "Could not create folder for index " +
+      "under the collection's folder. " +
+      "(#{e.message})."
     end
+    index = ::Ferret::Index::Index.new(
+      :default_field => 'content',
+      :path => path
+    )
+    collection.each_document do |doc|
+      index.add_document(
+        :file => doc.file,
+        :content => doc.to_s
+      )
+    end
+    path
   end
-end
+end

data/lib/treat/retrievers/searchers/ferret.rb CHANGED Viewed

@@ -1,53 +1,72 @@
-module Treat
-  module Retrievers
-    module Searchers
-      class Ferret
-        silence_warnings { require 'ferret' }
-        require 'find'
-        DefaultOptions = {
-          :q => nil,
-          :limit => :all,
-          :callback => nil
-        }
-        # Returns an array of retrieved documents.
-        #
-        # Options:
-        #
-        # - (String) :q => a search query.
-        # - (Symbol) :limit => number of documents.
-        def self.search(collection, options = {})
-          options = DefaultOptions.merge(options)
-          unless collection.has?(:index) && collection.index
-            raise Treat::Exception, 'This collection has not been indexed.'
-          end
-          unless options[:q]
-            raise Treat::Exception,
-            'You must set a query by using the :q option.'
-          end
-          path = "#{collection.folder}/.index"
-          unless File.readable?(path)
-            raise Treat::Exception, "The index at location #{path} cannot be found."
-          end
-          index = ::Ferret::Index::Index.new(
-            :default_field => 'content',
-            :path => path
-          )
-          query = options.delete(:q)
-          files = {}
-          index.search_each(query, options) do |doc, score|
-            files[index[doc]['file']] = score
-          end
-          docs = []
-          files.each do |doc, score|
-            doc2 = collection.document_with_file(doc)
-            if options[:callback]
-              options[:callback].call(doc2, score)
-            end
-            docs << doc2
-          end
-          docs
-        end
+# A simple interface to the Ferret information
+# retrieval library, which performs full-text
+# search within documents of a collection.
+#
+# Documentation:
+# http://rubydoc.info/gems/ferret
+class Treat::Retrievers::Searchers::Ferret
+  silence_warnings { require 'ferret' }
+  require 'find'
+  DefaultOptions = {
+    :q => nil,
+    :limit => :all,
+    :callback => nil
+  }
+  # Returns an array of retrieved documents.
+  #
+  # Options:
+  #
+  # - (String) :q => a search query.
+  # - (Symbol) :limit => number of documents.
+  def self.search(collection, options = {})
+    options = DefaultOptions.merge(options)
+    unless collection.has?(:index)
+      raise Treat::Exception,
+      "This collection must be indexed to be searchable."
+    end
+    unless options[:q]
+      raise Treat::Exception,
+      'You must set a query by using the :q option.'
+    end
+    path = collection.index
+    unless FileTest.directory?(path)
+      raise Treat::Exception,
+      "The index at location #{path} cannot be found."
+    end
+    index = ::Ferret::Index::Index.new(
+      :default_field => 'content',
+      :path => path
+    )
+    query = options.delete(:q)
+    files = {}
+    index.search_each(query, options) do |doc, score|
+      files[index[doc]['file']] = score
+    end
+    docs = []
+    files.each do |doc, score|
+      doc2 = collection.document_with_file(doc)
+      unless doc2
+        raise Treat::Exception,
+        "Couldn't retrieve indexed " +
+        "document with filename #{doc}."
+      end
+      if options[:callback]
+        options[:callback].call(doc2, score)
       end
+      docs << doc2
     end
+    docs
   end
-end
+end