RubyGems - treat - Versions diffs - 0.2.5 → 1.0.0 - Mend

treat 0.2.5 → 1.0.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (242) hide show

data/LICENSE +3 -3
data/README.md +33 -0
data/files/INFO +1 -0
data/lib/treat.rb +40 -105
data/lib/treat/ai.rb +12 -0
data/lib/treat/ai/classifiers/id3.rb +27 -0
data/lib/treat/categories.rb +82 -35
data/lib/treat/categorizable.rb +44 -0
data/lib/treat/classification.rb +61 -0
data/lib/treat/configurable.rb +115 -0
data/lib/treat/data_set.rb +42 -0
data/lib/treat/dependencies.rb +24 -0
data/lib/treat/downloader.rb +87 -0
data/lib/treat/entities.rb +68 -66
data/lib/treat/entities/abilities.rb +10 -0
data/lib/treat/entities/abilities/buildable.rb +327 -0
data/lib/treat/entities/abilities/checkable.rb +31 -0
data/lib/treat/entities/abilities/copyable.rb +45 -0
data/lib/treat/entities/abilities/countable.rb +51 -0
data/lib/treat/entities/abilities/debuggable.rb +83 -0
data/lib/treat/entities/abilities/delegatable.rb +123 -0
data/lib/treat/entities/abilities/doable.rb +62 -0
data/lib/treat/entities/abilities/exportable.rb +11 -0
data/lib/treat/entities/abilities/iterable.rb +115 -0
data/lib/treat/entities/abilities/magical.rb +83 -0
data/lib/treat/entities/abilities/registrable.rb +74 -0
data/lib/treat/entities/abilities/stringable.rb +91 -0
data/lib/treat/entities/entities.rb +104 -0
data/lib/treat/entities/entity.rb +122 -245
data/lib/treat/exception.rb +4 -4
data/lib/treat/extractors.rb +77 -80
data/lib/treat/extractors/keywords/tf_idf.rb +56 -22
data/lib/treat/extractors/language/what_language.rb +50 -45
data/lib/treat/extractors/name_tag/stanford.rb +55 -0
data/lib/treat/extractors/tf_idf/native.rb +87 -0
data/lib/treat/extractors/time/chronic.rb +55 -0
data/lib/treat/extractors/time/nickel.rb +86 -62
data/lib/treat/extractors/time/ruby.rb +53 -0
data/lib/treat/extractors/topic_words/lda.rb +67 -58
data/lib/treat/extractors/topics/reuters.rb +100 -87
data/lib/treat/formatters.rb +39 -35
data/lib/treat/formatters/readers/abw.rb +49 -29
data/lib/treat/formatters/readers/autoselect.rb +37 -33
data/lib/treat/formatters/readers/doc.rb +19 -13
data/lib/treat/formatters/readers/html.rb +52 -30
data/lib/treat/formatters/readers/image.rb +41 -40
data/lib/treat/formatters/readers/odt.rb +59 -45
data/lib/treat/formatters/readers/pdf.rb +28 -25
data/lib/treat/formatters/readers/txt.rb +12 -15
data/lib/treat/formatters/readers/xml.rb +73 -36
data/lib/treat/formatters/serializers/xml.rb +80 -79
data/lib/treat/formatters/serializers/yaml.rb +19 -18
data/lib/treat/formatters/unserializers/autoselect.rb +12 -22
data/lib/treat/formatters/unserializers/xml.rb +94 -99
data/lib/treat/formatters/unserializers/yaml.rb +20 -19
data/lib/treat/formatters/visualizers/dot.rb +132 -132
data/lib/treat/formatters/visualizers/standoff.rb +52 -44
data/lib/treat/formatters/visualizers/tree.rb +26 -29
data/lib/treat/groupable.rb +153 -0
data/lib/treat/helpers/decimal_point_escaper.rb +22 -0
data/lib/treat/inflectors.rb +50 -45
data/lib/treat/inflectors/cardinalizers/linguistics.rb +40 -0
data/lib/treat/inflectors/conjugators/linguistics.rb +55 -0
data/lib/treat/inflectors/declensors/active_support.rb +31 -0
data/lib/treat/inflectors/declensors/english.rb +38 -0
data/lib/treat/inflectors/declensors/english/inflect.rb +288 -0
data/lib/treat/inflectors/declensors/linguistics.rb +49 -0
data/lib/treat/inflectors/ordinalizers/linguistics.rb +17 -0
data/lib/treat/inflectors/stemmers/porter.rb +160 -0
data/lib/treat/inflectors/stemmers/porter_c.rb +24 -0
data/lib/treat/inflectors/stemmers/uea.rb +28 -0
data/lib/treat/installer.rb +308 -0
data/lib/treat/kernel.rb +105 -27
data/lib/treat/languages.rb +122 -88
data/lib/treat/languages/arabic.rb +15 -15
data/lib/treat/languages/chinese.rb +15 -15
data/lib/treat/languages/dutch.rb +15 -15
data/lib/treat/languages/english.rb +61 -62
data/lib/treat/languages/french.rb +19 -19
data/lib/treat/languages/german.rb +20 -20
data/lib/treat/languages/greek.rb +15 -15
data/lib/treat/languages/italian.rb +16 -16
data/lib/treat/languages/polish.rb +15 -15
data/lib/treat/languages/portuguese.rb +15 -15
data/lib/treat/languages/russian.rb +15 -15
data/lib/treat/languages/spanish.rb +16 -16
data/lib/treat/languages/swedish.rb +16 -16
data/lib/treat/lexicalizers.rb +34 -55
data/lib/treat/lexicalizers/categorizers/from_tag.rb +54 -0
data/lib/treat/lexicalizers/sensers/wordnet.rb +57 -0
data/lib/treat/lexicalizers/sensers/wordnet/synset.rb +71 -0
data/lib/treat/lexicalizers/taggers/brill.rb +70 -0
data/lib/treat/lexicalizers/taggers/brill/patch.rb +61 -0
data/lib/treat/lexicalizers/taggers/lingua.rb +90 -0
data/lib/treat/lexicalizers/taggers/stanford.rb +97 -0
data/lib/treat/linguistics.rb +9 -0
data/lib/treat/linguistics/categories.rb +11 -0
data/lib/treat/linguistics/tags.rb +422 -0
data/lib/treat/loaders/linguistics.rb +30 -0
data/lib/treat/loaders/stanford.rb +27 -0
data/lib/treat/object.rb +1 -0
data/lib/treat/processors.rb +37 -44
data/lib/treat/processors/chunkers/autoselect.rb +16 -0
data/lib/treat/processors/chunkers/html.rb +71 -0
data/lib/treat/processors/chunkers/txt.rb +18 -24
data/lib/treat/processors/parsers/enju.rb +253 -208
data/lib/treat/processors/parsers/stanford.rb +130 -131
data/lib/treat/processors/segmenters/punkt.rb +79 -45
data/lib/treat/processors/segmenters/stanford.rb +46 -48
data/lib/treat/processors/segmenters/tactful.rb +43 -36
data/lib/treat/processors/tokenizers/perl.rb +124 -92
data/lib/treat/processors/tokenizers/ptb.rb +81 -0
data/lib/treat/processors/tokenizers/punkt.rb +48 -42
data/lib/treat/processors/tokenizers/stanford.rb +39 -38
data/lib/treat/processors/tokenizers/tactful.rb +64 -55
data/lib/treat/proxies.rb +52 -35
data/lib/treat/retrievers.rb +26 -16
data/lib/treat/retrievers/indexers/ferret.rb +47 -26
data/lib/treat/retrievers/searchers/ferret.rb +69 -50
data/lib/treat/tree.rb +241 -183
data/spec/collection.rb +123 -0
data/spec/document.rb +93 -0
data/spec/entity.rb +408 -0
data/spec/languages.rb +25 -0
data/spec/phrase.rb +146 -0
data/spec/samples/mathematicians/archimedes.abw +34 -0
data/spec/samples/mathematicians/euler.html +21 -0
data/spec/samples/mathematicians/gauss.pdf +0 -0
data/spec/samples/mathematicians/leibniz.txt +13 -0
data/spec/samples/mathematicians/newton.doc +0 -0
data/spec/sandbox.rb +5 -0
data/spec/token.rb +109 -0
data/spec/treat.rb +52 -0
data/spec/tree.rb +117 -0
data/spec/word.rb +110 -0
data/spec/zone.rb +66 -0
data/tmp/INFO +1 -1
metadata +100 -201
data/INSTALL +0 -1
data/README +0 -3
data/TODO +0 -28
data/lib/economist/half_cocked_basel.txt +0 -16
data/lib/economist/hungarys_troubles.txt +0 -46
data/lib/economist/indias_slowdown.txt +0 -15
data/lib/economist/merkozy_rides_again.txt +0 -24
data/lib/economist/prada_is_not_walmart.txt +0 -9
data/lib/economist/to_infinity_and_beyond.txt +0 -15
data/lib/ferret/_11.cfs +0 -0
data/lib/ferret/_14.cfs +0 -0
data/lib/ferret/_p.cfs +0 -0
data/lib/ferret/_s.cfs +0 -0
data/lib/ferret/_v.cfs +0 -0
data/lib/ferret/_y.cfs +0 -0
data/lib/ferret/segments +0 -0
data/lib/ferret/segments_15 +0 -0
data/lib/treat/buildable.rb +0 -157
data/lib/treat/category.rb +0 -33
data/lib/treat/delegatable.rb +0 -116
data/lib/treat/doable.rb +0 -45
data/lib/treat/entities/collection.rb +0 -14
data/lib/treat/entities/document.rb +0 -12
data/lib/treat/entities/phrases.rb +0 -17
data/lib/treat/entities/tokens.rb +0 -61
data/lib/treat/entities/zones.rb +0 -41
data/lib/treat/extractors/coreferences/stanford.rb +0 -69
data/lib/treat/extractors/date/chronic.rb +0 -32
data/lib/treat/extractors/date/ruby.rb +0 -25
data/lib/treat/extractors/keywords/topics_tf_idf.rb +0 -48
data/lib/treat/extractors/language/language_extractor.rb +0 -27
data/lib/treat/extractors/named_entity_tag/stanford.rb +0 -53
data/lib/treat/extractors/roles/naive.rb +0 -73
data/lib/treat/extractors/statistics/frequency_in.rb +0 -16
data/lib/treat/extractors/statistics/position_in.rb +0 -14
data/lib/treat/extractors/statistics/tf_idf.rb +0 -104
data/lib/treat/extractors/statistics/transition_matrix.rb +0 -105
data/lib/treat/extractors/statistics/transition_probability.rb +0 -57
data/lib/treat/extractors/topic_words/lda/data.dat +0 -46
data/lib/treat/extractors/topic_words/lda/wiki.yml +0 -121
data/lib/treat/extractors/topics/reuters/industry.xml +0 -2717
data/lib/treat/extractors/topics/reuters/region.xml +0 -13586
data/lib/treat/extractors/topics/reuters/topics.xml +0 -17977
data/lib/treat/feature.rb +0 -58
data/lib/treat/features.rb +0 -7
data/lib/treat/formatters/visualizers/short_value.rb +0 -29
data/lib/treat/formatters/visualizers/txt.rb +0 -45
data/lib/treat/group.rb +0 -106
data/lib/treat/helpers/linguistics_loader.rb +0 -18
data/lib/treat/inflectors/cardinal_words/linguistics.rb +0 -42
data/lib/treat/inflectors/conjugations/linguistics.rb +0 -36
data/lib/treat/inflectors/declensions/english.rb +0 -319
data/lib/treat/inflectors/declensions/linguistics.rb +0 -42
data/lib/treat/inflectors/ordinal_words/linguistics.rb +0 -20
data/lib/treat/inflectors/stem/porter.rb +0 -162
data/lib/treat/inflectors/stem/porter_c.rb +0 -26
data/lib/treat/inflectors/stem/uea.rb +0 -30
data/lib/treat/install.rb +0 -59
data/lib/treat/languages/tags.rb +0 -377
data/lib/treat/lexicalizers/category/from_tag.rb +0 -49
data/lib/treat/lexicalizers/linkages/naive.rb +0 -63
data/lib/treat/lexicalizers/synsets/wordnet.rb +0 -76
data/lib/treat/lexicalizers/tag/brill.rb +0 -91
data/lib/treat/lexicalizers/tag/lingua.rb +0 -123
data/lib/treat/lexicalizers/tag/stanford.rb +0 -70
data/lib/treat/processors/segmenters/punkt/dutch.yaml +0 -9716
data/lib/treat/processors/segmenters/punkt/english.yaml +0 -10340
data/lib/treat/processors/segmenters/punkt/french.yaml +0 -43159
data/lib/treat/processors/segmenters/punkt/german.yaml +0 -9572
data/lib/treat/processors/segmenters/punkt/greek.yaml +0 -6050
data/lib/treat/processors/segmenters/punkt/italian.yaml +0 -14748
data/lib/treat/processors/segmenters/punkt/polish.yaml +0 -9751
data/lib/treat/processors/segmenters/punkt/portuguese.yaml +0 -13662
data/lib/treat/processors/segmenters/punkt/russian.yaml +0 -4237
data/lib/treat/processors/segmenters/punkt/spanish.yaml +0 -24034
data/lib/treat/processors/segmenters/punkt/swedish.yaml +0 -10001
data/lib/treat/processors/tokenizers/macintyre.rb +0 -77
data/lib/treat/processors/tokenizers/multilingual.rb +0 -30
data/lib/treat/registrable.rb +0 -28
data/lib/treat/sugar.rb +0 -50
data/lib/treat/viewable.rb +0 -29
data/lib/treat/visitable.rb +0 -28
data/test/profile.rb +0 -2
data/test/tc_entity.rb +0 -117
data/test/tc_extractors.rb +0 -73
data/test/tc_formatters.rb +0 -41
data/test/tc_inflectors.rb +0 -34
data/test/tc_lexicalizers.rb +0 -32
data/test/tc_processors.rb +0 -50
data/test/tc_resources.rb +0 -22
data/test/tc_treat.rb +0 -60
data/test/tc_tree.rb +0 -60
data/test/tests.rb +0 -20
data/test/texts.rb +0 -19
data/test/texts/english/half_cocked_basel.txt +0 -16
data/test/texts/english/hose_and_dry.doc +0 -0
data/test/texts/english/hungarys_troubles.abw +0 -70
data/test/texts/english/long.html +0 -24
data/test/texts/english/long.txt +0 -22
data/test/texts/english/medium.txt +0 -5
data/test/texts/english/republican_nomination.pdf +0 -0
data/test/texts/english/saving_the_euro.odt +0 -0
data/test/texts/english/short.txt +0 -3
data/test/texts/english/zero_sum.html +0 -111

data/LICENSE CHANGED Viewed

@@ -1,4 +1,4 @@
-Treat - Text Retrieval and Annotation Toolkit
+Treat - Text Retrieval, Extraction and Annotation Toolkit
 This program is free software: you can redistribute it and/or modify
 it under the terms of the GNU General Public License as published by
@@ -11,9 +11,9 @@ MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
 GNU General Public License for more details.
 You should have received a copy of the GNU General Public License
-along with this program.  If not, see <http://www.gnu.org/licenses/>.
+along with this program. If not, see <http://www.gnu.org/licenses/>.
-Author: Louis-Antoine Mullie (louis.mullie@gmail.com). Copyright 2012.
+Author: Louis-Antoine Mullie (louis.mullie@gmail.com). Copyright 2011-12.
 Non-trivial amount of code has been incorporated and modified from other libraries:

data/README.md ADDED Viewed

@@ -0,0 +1,33 @@
+![Build Status](https://secure.travis-ci.org/louismullie/treat.png) ![Dependency Status](https://gemnasium.com/louismullie/treat.png)
+Treat is a toolkit for natural language processing and computational linguistics in Ruby. It provides a common API for a number of gems and external libraries for document retrieval, parsing, annotation, and information extraction.
+**Current features**
+* Text extractors for PDF, HTML, XML, Word, AbiWord, OpenOffice and image formats (Ocropus)
+* Text retrieval with indexation and full-text search (Ferret)
+* Text chunkers, sentence segmenters, tokenizers, and parsers for several languages (Stanford & Enju)
+* Word inflectors, including stemmers, conjugators, declensors, and number inflection
+* Lexical resources (WordNet interface, several POS taggers for English, Stanford taggers for several languages)
+* Language, date/time, topic words (LDA) and keyword (TF*IDF) extraction.
+* Simple text statistics (frequency, TF*IDF)
+* Serialization of annotated entities to YAML or XML format
+* Visualization in ASCII tree, directed graph (DOT) and tag-bracketed (standoff) formats
+* Linguistic resources, including full ISO-639-1 and ISO-639-2 support, and tag alignments for several treebanks
+<br>
+**Resources**
+* Read the [latest documentation](http://rubydoc.info/github/louismullie/treat/master/frames).
+* See how to [install Treat](https://github.com/louismullie/treat/wiki/Installing-Treat).
+* Learn how to [use Treat](https://github.com/louismullie/treat/wiki/Using-Treat).
+* Help out by [contributing to the project](https://github.com/louismullie/treat/wiki/Contributing-to-Treat).
+* View a list of [papers](https://github.com/louismullie/treat/wiki/Papers) about tools included in this toolkit.
+* Open an [issue](https://github.com/louismullie/treat/issues).
+<br>
+**License**
+This software is released under the [GPL License](https://github.com/louismullie/treat/wiki/License-Information) and includes software released under the GPL, Ruby, Apache 2.0 and MIT licenses.

data/files/INFO ADDED Viewed

	@@ -0,0 +1 @@
1	+ This is a folder containing the files downloaded by Treat.

data/lib/treat.rb CHANGED Viewed

@@ -1,127 +1,62 @@
-# Main namespace for Treat modules.
-#
-# === Entities
-#
-# Entities are Tree structures that represent textual entities
-# (from a collection of texts down to an individual word), with
-# a value, features, children and dependencies linking it to other
-# textual entities.
-#
-# Here are some example of how to create entities:
-#
-#     Treat.sweeten!
-#
-#     c = Collection 'folder_with_documents'
-#     d = Document 'filename.txt'
-#     p = Paragraph 'A short story. The end.'
-#     s = Sentence 'That is not a sentence.'
-#     w = Word 'fox'
-#
-# Here is a list of entities and their description:
-#
-# - A Collection represents a folder with different textual documents.
-# - A Document represents a file with a textual content.
-# - A Zone can be a Section, Title, a Paragraph or a List and represents an intra-section division of content.
-# - A Sentence represents just that.
-# - A Phrase is a group of words; a Sentence is a Phrase with a sentence ender (.!?)
-# - A Token can be a Word, a Number, a Punctuation or a Symbol (non-punctuation, non-alphanumeric character).
-#
-# === Functions
-#
-# A worker class is defined for each implemented algorithm performing a given
-# task. These classes are clustered into workers performing the same given task
-# differently (Group), and the groups are clustered into Categories
-# of groups of workers that perform related tasks.
-#
-# Here are the different Categories and their description:
-#
-# - Processors perform the building of tree of entities representing texts (chunking, segmenting, tokenizing, parsing).
-# - Lexicalizers give lexical information about words (synsets, semantic relationships, tag, word category).
-# - Extractors extract semantic information about an entity (topic, date, time, named entity).
-# - Inflectors allow to retrieve the different inflections of a word (declensors, conjugators, stemmers, lemmatizers).
-# - Formatters handle the conversion of entities to and from different formats (readers, serializers, unserializers, visualizers).
-# - Retrievers allow to index and search collections of documents.
-#
-# === Linguistic Resources
-#
-# The Languages module contains linguistic information about
-# languages (full ISO-639-1 and 2 language list, tag alignments
-# for three treebanks, word categories, etc.)
-#
-# === Exception Class.
-#
-# Treat::Exception defines a custom exception class for the Treat module.
-#
 module Treat
+  # Require custom exception cass.
+  require 'treat/exception'
-  # Make sure that we are running on Ruby 1.9 or higher.
+  # Treat requires Ruby 1.9 or higher.
   if RUBY_VERSION <= '1.9'
-    raise 'Treat requires Ruby 1.9 or higher.'
+    raise Treat::Exception,
+    'Treat requires Ruby 1.9 or higher.'
   end
   # The current version of Treat.
-  VERSION = "0.2.5"
-  #$LOAD_PATH << '/ruby/gems/treat/lib/' # Remove for release
-  # Create class variables for the Treat module.
+  VERSION = "1.0.0"
+  # Add methods to handle syntactic sugar,
+  # language configuration options, and paths.
+  require 'treat/configurable'
+  extend Treat::Configurable
+  # The folders in the library and descriptions.
+  Paths = {
+    :tmp => 'temporary files',
+    :lib => 'class and module definitions',
+    :bin => 'binary files',
+    :files => 'user-saved files',
+    :data => 'data set files',
+    :models => 'model files',
+    :spec => 'spec test files'
+  }
+  # Add methods to provide access to common paths.
   class << self
-    # Boolean - output debug information.
-    attr_accessor :debug
-    # Symbol - default language to use when detect_language is false.
-    attr_accessor :default_language
-    # Symbol - default encoding to use.
-    attr_accessor :default_encoding
-    # Boolean - detect language or use default?
-    attr_accessor :detect_language
-    # Symbol - the ideal entity level to detect language at
-    # (e.g., :entity, :sentence, :zone, :section, :document)
-    attr_accessor :language_detection_level
-    # String - folder of this file.
-    attr_accessor :lib
-    # String - folder for tests.
-    attr_accessor :test
+    Paths.each do |path, _|
+      define_method(path) do
+        (File.dirname(__FILE__).
+        split('/')[0..-2].join('/') +
+        '/' + path.to_s + '/').gsub(
+        'lib/../', '')
+      end
+    end
   end
-  # Turn off debug by default.
-  self.debug = false
-  # Set the default language to english.
-  self.default_language = :eng
-  # Set the default encoding to utf-8.
-  self.default_encoding = :utf_8
-  # Turn language detection off by default.
-  self.detect_language = false
-  # Detect the language once per text by default.
-  self.language_detection_level = :zone
-  # Set the lib path to that of this file.
-  self.lib = File.dirname(__FILE__)
-  # Set the paths to the test folder.
-  self.test = self.lib + '/../test'
-  # Require inline C
-  # require 'inline'
-  # Require modified core classes.
   require 'treat/object'
   require 'treat/kernel'
-  # Require all files for the Treat library.
-  require 'treat/exception'
+  require 'treat/downloader'
   require 'treat/languages'
+  require 'treat/linguistics'
   require 'treat/entities'
   require 'treat/categories'
+  require 'treat/data_set'
   require 'treat/proxies'
-  require 'treat/sugar'
-  # Make sugar available when needed.
-  extend Treat::Sugar
   # Install packages for a given language.
   def self.install(language = :english)
-    require 'treat/install'
+    require 'treat/installer'
     Treat::Installer.install(language)
   end
-  # Turn on detect language.
-  def self.detect!; self.detect_language = true; end
+  # Enable syntactic sugar by default.
+  Treat.sweeten!
 end

data/lib/treat/ai.rb ADDED Viewed

@@ -0,0 +1,12 @@
+module Treat::AI
+  module Classifiers
+    extend Treat::Groupable
+    self.type = :annotator
+    self.targets = [:entity]
+    self.default = :id3
+  end
+  extend Treat::Categorizable
+end

data/lib/treat/ai/classifiers/id3.rb ADDED Viewed

@@ -0,0 +1,27 @@
+class Treat::AI::Classifiers::ID3
+  require 'decisiontree'
+  @@classifiers = {}
+  def self.classify(entity, options = {})
+    set = options[:training]
+    cl = set.classification
+    if !@@classifiers[cl]
+      dec_tree = DecisionTree::ID3Tree.new(
+      set.labels, set.items,
+      cl.default, :continuous)
+      dec_tree.train
+    else
+      dec_tree = @@classifiers[cl]
+    end
+    dec_tree.predict(
+      cl.export_item(entity, false)
+    )[0]
+  end
+end

data/lib/treat/categories.rb CHANGED Viewed

@@ -1,43 +1,90 @@
-module Treat
-  # This module keeps track of all categories that
-  # exist and the methods they implement.
-  module Categories
-    class << self
-      # A list of all categories.
-      attr_accessor :list
+# This module keeps track of all the Treat::Categorizable
+# modules that exist and the methods they define.
+#
+#
+# - Processors perform the building of tree of
+#   entities representing texts (chunking,
+#   segmenting, tokenizing, parsing).
+# - Lexicalizers give lexical information about
+#   words (synsets, semantic relationships,
+#   tag, word category).
+# - Extractors extract semantic information about
+#   an entity (language, topic, date, time, named
+#   entity, coreferences).
+# - Inflectors allow to retrieve the different
+#   inflections of a word (declensors, conjugators,
+#   stemmers, lemmatizers).
+# - Formatters handle the conversion of entities to
+#   and from different formats(readers, serializers,
+#   unserializers, visualizers).
+# - Retrievers allow to index and search collections
+#   of documents.
+module Treat::Categories
+  class << self
+    # A list of all categories.
+    attr_accessor :list
+  end
+  # Array - list of all categories.
+  self.list = []
+  # A lookup table for entity types.
+  @@lookup = {}
+  # Require all categories.
+  require 'treat/categorizable'
+  require 'treat/formatters'
+  require 'treat/processors'
+  require 'treat/lexicalizers'
+  require 'treat/inflectors'
+  require 'treat/extractors'
+  require 'treat/retrievers'
+  require 'treat/ai'
+  # Create the lookup table.
+  self.list.each do |category|
+    category.groups.each do |group|
+      group = category.const_get(group)
+      @@lookup[group.method] = group
+      group.presets.each do |x,y|
+        @@lookup[x] = group
+      end if group.presets
     end
-    # Array - list of all categories.
-    self.list = []
-    @@lookup = nil
-    # Find the class of a group given its method.
-    def self.lookup(method)
-      return @@lookup[method] if @@lookup
-      @@lookup = {}
+  end
+  # Find the class of a group given its method.
+  def self.lookup(method)
+    @@lookup[method]
+  end
+  # Fix -- This must be moved urgently.
+  Treat::Entities::Entity.class_eval do
+    alias :true_language :language
+    def language(extractor = nil, options = {})
-      self.list.each do |category|
-        category.groups.each do |group|
-          group = category.const_get(group)
-          @@lookup[group.method] = group
-          methods = group.presets.merge(
-            group.preprocessors.merge(
-              group.postprocessors
-            )
-          )
-          methods.each do |x,y|
-            @@lookup[x] = group
-          end
+      if is_a?(Treat::Entities::Symbol) ||
+        is_a?(Treat::Entities::Number)
+        return Treat.default_language
+      end
+      if !Treat.detect_language
+        return Treat.default_language
+      else
+        dlvl = Treat.language_detection_level
+        if (Treat::Entities.rank(type) <
+          Treat::Entities.rank(dlvl)) &&
+          has_parent?
+          anc = ancestor_with_type(dlvl)
+          return anc.language if anc
         end
       end
-      @@lookup[method]
+      true_language(extractor, options)
     end
-    # Require all categories.
-    require 'treat/category'
-    require 'treat/formatters'
-    require 'treat/processors'
-    require 'treat/lexicalizers'
-    require 'treat/inflectors'
-    require 'treat/extractors'
-    require 'treat/retrievers'
   end
 end

data/lib/treat/categorizable.rb ADDED Viewed

@@ -0,0 +1,44 @@
+# A categorizable module brings together groups
+# of algorithms that perform similar functions.
+module Treat::Categorizable
+  # The contents of each categorizable
+  # module are groupable.
+  require 'treat/groupable'
+  # Add workers to the Entities based on the
+  # configuration for a given category.
+  def self.extended(category)
+    Treat::Categories.list << category
+    category.module_eval do
+      groups.each do |group|
+        group = const_get(group)
+        group.targets.each do |entity_type|
+          entity = Treat::Entities.
+          const_get(cc(entity_type))
+          entity.class_eval do
+            add_workers group
+          end
+        end
+      end
+    end
+  end
+  # Get the list of groups defined
+  # under this module.
+  @@groups = self.constants
+  # Populate a list of methods.
+  @@methods = []
+  @@groups.each do |group|
+    @@methods << const_get(group).method
+  end
+  # Provide a list of methods implemented in
+  # the groups contained within this category.
+  def methods; @@methods; end
+  # Provides a list of groups within this category.
+  def groups; self.constants; end
+end

data/lib/treat/classification.rb ADDED Viewed

@@ -0,0 +1,61 @@
+class Treat::Classification
+  attr_reader :types
+  attr_reader :features
+  attr_reader :question
+  attr_reader :labels
+  attr_reader :default
+  def initialize(type_or_types, feature_or_features, question, default = false)
+    @types, @features,
+    @question, @default =
+    [*type_or_types],
+    [*feature_or_features],
+    question, default
+    @labels = []
+    @features.each do |cmd|
+      if cmd.is_a?(Array)
+        @labels << cmd[0]
+      else
+        @labels << cmd
+      end
+    end
+  end
+  def export_item(e, include_question = true)
+    line = []
+    @features.each do |cmd|
+      begin
+        if cmd.is_a?(Array)
+          line << cmd[1].call(e)
+        else
+          line << e.send(cmd)
+        end
+      rescue Treat::Exception
+        dflt = (
+        (cmd.is_a?(Array) && cmd[2]) ?
+        cmd[2] : nil
+        )
+        line << dflt
+      end
+    end
+    begin
+      if include_question
+        line << e.send(@question)
+      end
+    rescue Treat::Exception
+      line << @default
+    end
+    line[-1] = '' if line[-1].nil?
+    line
+  end
+end