RubyGems - treat - Versions diffs - 1.2.0 → 2.0.0rc1 - Mend

treat 1.2.0 → 2.0.0rc1

Files changed (217) hide show

data/LICENSE +2 -2
data/README.md +12 -21
data/lib/treat/autoload.rb +44 -0
data/lib/treat/config/config.rb +38 -0
data/lib/treat/config/configurable.rb +51 -0
data/lib/treat/config/data/config.rb +50 -0
data/lib/treat/config/data/core.rb +52 -0
data/lib/treat/config/data/databases.rb +10 -0
data/lib/treat/config/data/entities.rb +15 -0
data/lib/treat/config/data/languages/agnostic.rb +31 -0
data/lib/treat/config/{languages → data/languages}/arabic.rb +0 -0
data/lib/treat/config/{languages → data/languages}/chinese.rb +0 -0
data/lib/treat/config/{languages → data/languages}/dutch.rb +1 -1
data/lib/treat/config/data/languages/english.rb +95 -0
data/lib/treat/config/data/languages/french.rb +148 -0
data/lib/treat/config/data/languages/german.rb +135 -0
data/lib/treat/config/{languages → data/languages}/greek.rb +1 -1
data/lib/treat/config/data/languages/italian.rb +162 -0
data/lib/treat/config/data/languages/polish.rb +11 -0
data/lib/treat/config/{languages → data/languages}/portuguese.rb +1 -1
data/lib/treat/config/{languages → data/languages}/russian.rb +1 -1
data/lib/treat/config/data/languages/spanish.rb +291 -0
data/lib/treat/config/data/languages/swedish.rb +289 -0
data/lib/treat/config/data/libraries.rb +12 -0
data/lib/treat/config/data/linguistics.rb +44 -0
data/lib/treat/config/data/tags.rb +328 -0
data/lib/treat/config/{workers → data/workers}/extractors.rb +2 -10
data/lib/treat/config/{workers → data/workers}/formatters.rb +0 -0
data/lib/treat/config/{workers → data/workers}/inflectors.rb +0 -0
data/lib/treat/config/{workers → data/workers}/learners.rb +0 -0
data/lib/treat/config/{workers → data/workers}/lexicalizers.rb +4 -3
data/lib/treat/config/{workers → data/workers}/processors.rb +3 -3
data/lib/treat/config/{workers → data/workers}/retrievers.rb +0 -0
data/lib/treat/config/importable.rb +31 -0
data/lib/treat/config/paths.rb +23 -0
data/lib/treat/config/tags.rb +37 -0
data/lib/treat/core/dsl.rb +55 -0
data/lib/treat/{installer.rb → core/installer.rb} +10 -12
data/lib/treat/core/server.rb +40 -0
data/lib/treat/entities/entities.rb +101 -0
data/lib/treat/entities/{abilities/doable.rb → entity/applicable.rb} +5 -3
data/lib/treat/entities/{abilities → entity}/buildable.rb +118 -63
data/lib/treat/entities/{abilities → entity}/checkable.rb +2 -2
data/lib/treat/entities/{abilities → entity}/comparable.rb +6 -6
data/lib/treat/entities/{abilities → entity}/countable.rb +2 -1
data/lib/treat/entities/entity/debuggable.rb +86 -0
data/lib/treat/entities/{abilities → entity}/delegatable.rb +16 -26
data/lib/treat/entities/{abilities → entity}/exportable.rb +2 -2
data/lib/treat/entities/{abilities → entity}/iterable.rb +4 -16
data/lib/treat/entities/{abilities → entity}/magical.rb +22 -17
data/lib/treat/entities/entity/registrable.rb +36 -0
data/lib/treat/entities/{abilities → entity}/stringable.rb +18 -15
data/lib/treat/entities/entity.rb +86 -77
data/lib/treat/exception.rb +3 -0
data/lib/treat/helpers/hash.rb +29 -0
data/lib/treat/helpers/help.rb +35 -0
data/lib/treat/helpers/object.rb +55 -0
data/lib/treat/helpers/string.rb +124 -0
data/lib/treat/{core → learning}/data_set.rb +11 -11
data/lib/treat/{core → learning}/export.rb +3 -3
data/lib/treat/{core → learning}/problem.rb +26 -16
data/lib/treat/{core → learning}/question.rb +5 -9
data/lib/treat/loaders/linguistics.rb +8 -9
data/lib/treat/loaders/stanford.rb +5 -11
data/lib/treat/modules.rb +33 -0
data/lib/treat/proxies/array.rb +27 -0
data/lib/treat/proxies/language.rb +47 -0
data/lib/treat/proxies/number.rb +18 -0
data/lib/treat/proxies/proxy.rb +25 -0
data/lib/treat/proxies/string.rb +18 -0
data/lib/treat/version.rb +10 -1
data/lib/treat/{workers.rb → workers/categorizable.rb} +18 -19
data/lib/treat/workers/extractors/keywords/tf_idf.rb +11 -11
data/lib/treat/workers/extractors/language/what_language.rb +8 -6
data/lib/treat/workers/extractors/name_tag/stanford.rb +10 -4
data/lib/treat/workers/extractors/similarity/levenshtein.rb +36 -0
data/lib/treat/workers/extractors/similarity/tf_idf.rb +27 -0
data/lib/treat/workers/extractors/tf_idf/native.rb +4 -4
data/lib/treat/workers/extractors/time/chronic.rb +2 -4
data/lib/treat/workers/extractors/time/nickel.rb +19 -20
data/lib/treat/workers/extractors/time/ruby.rb +2 -1
data/lib/treat/workers/extractors/topic_words/lda.rb +12 -12
data/lib/treat/workers/extractors/topics/reuters.rb +9 -13
data/lib/treat/workers/formatters/readers/autoselect.rb +1 -1
data/lib/treat/workers/formatters/readers/image.rb +19 -9
data/lib/treat/workers/formatters/readers/odt.rb +2 -1
data/lib/treat/workers/formatters/readers/pdf.rb +20 -3
data/lib/treat/workers/formatters/readers/xml.rb +0 -1
data/lib/treat/workers/formatters/serializers/mongo.rb +10 -20
data/lib/treat/workers/formatters/serializers/xml.rb +17 -26
data/lib/treat/workers/formatters/serializers/yaml.rb +5 -4
data/lib/treat/workers/formatters/unserializers/mongo.rb +4 -4
data/lib/treat/workers/formatters/unserializers/xml.rb +3 -4
data/lib/treat/workers/formatters/unserializers/yaml.rb +3 -4
data/lib/treat/workers/formatters/visualizers/dot.rb +1 -0
data/lib/treat/workers/formatters/visualizers/standoff.rb +2 -3
data/lib/treat/workers/formatters/visualizers/tree.rb +2 -3
data/lib/treat/workers/{group.rb → groupable.rb} +9 -9
data/lib/treat/workers/inflectors/cardinalizers/linguistics.rb +1 -3
data/lib/treat/workers/inflectors/conjugators/linguistics.rb +5 -7
data/lib/treat/workers/inflectors/declensors/english.rb +13 -20
data/lib/treat/workers/inflectors/declensors/linguistics.rb +29 -28
data/lib/treat/workers/inflectors/ordinalizers/linguistics.rb +0 -2
data/lib/treat/workers/inflectors/stemmers/porter.rb +8 -10
data/lib/treat/workers/inflectors/stemmers/porter_c.rb +7 -7
data/lib/treat/workers/inflectors/stemmers/uea.rb +3 -8
data/lib/treat/workers/learners/classifiers/id3.rb +17 -14
data/lib/treat/workers/learners/classifiers/linear.rb +15 -27
data/lib/treat/workers/learners/classifiers/mlp.rb +32 -19
data/lib/treat/workers/learners/classifiers/svm.rb +28 -21
data/lib/treat/workers/lexicalizers/categorizers/from_tag.rb +19 -3
data/lib/treat/workers/lexicalizers/sensers/wordnet.rb +15 -7
data/lib/treat/workers/lexicalizers/taggers/brill/patch.rb +4 -1
data/lib/treat/workers/lexicalizers/taggers/brill.rb +8 -19
data/lib/treat/workers/lexicalizers/taggers/lingua.rb +4 -15
data/lib/treat/workers/lexicalizers/taggers/stanford.rb +22 -13
data/lib/treat/workers/processors/chunkers/autoselect.rb +2 -3
data/lib/treat/workers/processors/chunkers/html.rb +1 -6
data/lib/treat/workers/processors/parsers/enju.rb +2 -4
data/lib/treat/workers/processors/parsers/stanford.rb +13 -7
data/lib/treat/workers/processors/segmenters/punkt.rb +25 -11
data/lib/treat/workers/processors/segmenters/scalpel.rb +20 -0
data/lib/treat/workers/processors/segmenters/srx.rb +42 -0
data/lib/treat/workers/processors/segmenters/stanford.rb +5 -5
data/lib/treat/workers/processors/segmenters/tactful.rb +21 -11
data/lib/treat/workers/processors/tokenizers/ptb.rb +40 -30
data/lib/treat/workers/processors/tokenizers/punkt.rb +14 -19
data/lib/treat/workers/processors/tokenizers/stanford.rb +38 -22
data/lib/treat/workers/retrievers/indexers/ferret.rb +6 -3
data/lib/treat/workers/retrievers/searchers/ferret.rb +2 -2
data/lib/treat/workers/workers.rb +6 -0
data/lib/treat.rb +18 -32
data/models/MANIFEST +1 -0
data/spec/core/data_set.rb +174 -0
data/spec/core/export.rb +52 -0
data/spec/core/problem.rb +144 -0
data/spec/core/question.rb +52 -0
data/spec/{collection.rb → entities/collection.rb} +20 -35
data/spec/{document.rb → entities/document.rb} +3 -54
data/spec/{entity.rb → entities/entity.rb} +10 -9
data/spec/entities/phrase.rb +33 -0
data/spec/{token.rb → entities/token.rb} +0 -57
data/spec/entities/word.rb +3 -0
data/spec/{zone.rb → entities/zone.rb} +0 -26
data/spec/helper.rb +116 -32
data/spec/sandbox.rb +258 -25
data/spec/treat.rb +26 -34
data/spec/workers/agnostic.rb +137 -0
data/spec/workers/english.rb +194 -0
data/spec/workers/examples/english/economist/hungarys_troubles.txt +46 -0
data/spec/workers/examples/english/economist/saving_the_euro.odt +0 -0
data/spec/{samples → workers/examples/english}/mathematicians/archimedes.abw +0 -0
data/spec/{samples → workers/examples/english}/mathematicians/euler.html +0 -0
data/spec/{samples → workers/examples/english}/mathematicians/gauss.pdf +0 -0
data/spec/{samples → workers/examples/english}/mathematicians/leibniz.txt +0 -0
data/spec/{samples → workers/examples/english}/mathematicians/newton.doc +0 -0
data/spec/workers/examples/english/phrase.xml +5 -0
data/spec/workers/examples/english/test.txt +1 -0
data/spec/workers/language.rb +280 -0
data/spec/workers.rb +28 -0
metadata +122 -105
data/lib/treat/config/core/acronyms.rb +0 -5
data/lib/treat/config/core/encodings.rb +0 -8
data/lib/treat/config/core/entities.rb +0 -2
data/lib/treat/config/core/language.rb +0 -3
data/lib/treat/config/core/paths.rb +0 -8
data/lib/treat/config/core/syntax.rb +0 -1
data/lib/treat/config/core/verbosity.rb +0 -1
data/lib/treat/config/databases/default.rb +0 -1
data/lib/treat/config/databases/mongo.rb +0 -1
data/lib/treat/config/languages/agnostic.rb +0 -34
data/lib/treat/config/languages/english.rb +0 -60
data/lib/treat/config/languages/french.rb +0 -18
data/lib/treat/config/languages/german.rb +0 -18
data/lib/treat/config/languages/italian.rb +0 -12
data/lib/treat/config/languages/polish.rb +0 -12
data/lib/treat/config/languages/spanish.rb +0 -12
data/lib/treat/config/languages/swedish.rb +0 -12
data/lib/treat/config/libraries/punkt.rb +0 -1
data/lib/treat/config/libraries/reuters.rb +0 -1
data/lib/treat/config/libraries/stanford.rb +0 -1
data/lib/treat/config/linguistics/categories.rb +0 -4
data/lib/treat/config/linguistics/punctuation.rb +0 -33
data/lib/treat/config/tags/aligned.rb +0 -221
data/lib/treat/config/tags/enju.rb +0 -71
data/lib/treat/config/tags/paris7.rb +0 -17
data/lib/treat/config/tags/ptb.rb +0 -15
data/lib/treat/config/workers/list.rb +0 -1
data/lib/treat/config.rb +0 -135
data/lib/treat/core.rb +0 -5
data/lib/treat/entities/abilities/copyable.rb +0 -47
data/lib/treat/entities/abilities/debuggable.rb +0 -83
data/lib/treat/entities/abilities/registrable.rb +0 -46
data/lib/treat/entities/collection.rb +0 -40
data/lib/treat/entities/document.rb +0 -10
data/lib/treat/entities/group.rb +0 -18
data/lib/treat/entities/section.rb +0 -13
data/lib/treat/entities/token.rb +0 -47
data/lib/treat/entities/zone.rb +0 -12
data/lib/treat/entities.rb +0 -6
data/lib/treat/helpers/didyoumean.rb +0 -57
data/lib/treat/helpers/escaping.rb +0 -15
data/lib/treat/helpers/formatting.rb +0 -41
data/lib/treat/helpers/objtohash.rb +0 -8
data/lib/treat/helpers/platform.rb +0 -15
data/lib/treat/helpers/reflection.rb +0 -17
data/lib/treat/helpers/temporary.rb +0 -27
data/lib/treat/helpers/verbosity.rb +0 -19
data/lib/treat/helpers.rb +0 -5
data/lib/treat/loaders.rb +0 -10
data/lib/treat/proxies.rb +0 -106
data/lib/treat/workers/formatters/unserializers/autoselect.rb +0 -17
data/lib/treat/workers/inflectors/declensors/active_support.rb +0 -31
data/lib/treat/workers/processors/tokenizers/tactful.rb +0 -68
data/spec/core.rb +0 -441
data/spec/phrase.rb +0 -112
data/spec/word.rb +0 -111

data/LICENSE CHANGED Viewed

@@ -1,4 +1,4 @@
-Treat - Text Retrieval, Extraction and Annotation Toolkit, v. 1.1.2
+Treat - Text Retrieval, Extraction and Annotation Toolkit, v. 2.0.0rc1
 This program is free software: you can redistribute it and/or modify
 it under the terms of the GNU General Public License as published by
@@ -15,7 +15,7 @@ along with this program. If not, see <http://www.gnu.org/licenses/>.
 Author: Louis-Antoine Mullie (louis.mullie@gmail.com). Copyright 2011-12.
-Non-trivial amount of code has been incorporated and modified from other libraries:
+A non-trivial amount of code has been incorporated and modified from other libraries:
 - formatters/readers/odt.rb - Mark Watson (GPL license)
 - processors/tokenizers/tactful.rb - Matthew Bunday (GPL license)

data/README.md CHANGED Viewed

@@ -1,33 +1,24 @@
 [![Build Status](https://secure.travis-ci.org/louismullie/treat.png)](http://travis-ci.org/#!/louismullie/treat)
-[![Dependency Status](https://gemnasium.com/louismullie/treat.png)](https://gemnasium.com/louismullie/treat)
-Treat is a framework for natural language processing and computational linguistics in Ruby. It provides a common API for a number of gems and external libraries for document retrieval, parsing, annotation, and information extraction.
+[![Code Climate](https://codeclimate.com/badge.png)](https://codeclimate.com/github/louismullie/treat)
-**Current features**
+Treat is a toolkit for natural language processing and computational linguistics in Ruby. The Treat project aims to build a language- and algorithm- agnostic NLP framework for Ruby with support for tasks such as document retrieval, text chunking, segmentation and tokenization, natural language parsing, part-of-speech tagging, keyword extraction and named entity recognition. Learn more by taking a [quick tour](https://github.com/louismullie/treat/wiki/Quick-Tour) or by reading the [manual](https://github.com/louismullie/treat/wiki/Manual).
+**Features**
 * Text extractors for PDF, HTML, XML, Word, AbiWord, OpenOffice and image formats (Ocropus).
-* Text retrieval with indexation and full-text search (Ferret).
-* Text chunkers, sentence segmenters, tokenizers, and parsers for several languages (Stanford & Enju).
-* Word inflectors, including stemmers, conjugators, declensors, and number inflection.
-* Lexical resources (WordNet interface, several POS taggers for English, Stanford taggers for several languages).
+* Text chunkers, sentence segmenters, tokenizers, and parsers (Stanford & Enju).
+* Lexical resources (WordNet interface, several POS taggers for English).
 * Language, date/time, topic words (LDA) and keyword (TF*IDF) extraction.
-* Serialization of annotated entities to YAML, XML formats or to MongoDB.
+* Word inflectors, including stemmers, conjugators, declensors, and number inflection.
+* Serialization of annotated entities to YAML, XML or to MongoDB.
 * Visualization in ASCII tree, directed graph (DOT) and tag-bracketed (standoff) formats.
 * Linguistic resources, including language detection and tag alignments for several treebanks.
-* Decision tree and multilayer perceptron classification (liblinear coming soon!)
-<br>
+* Machine learning (decision tree, multilayer perceptron, LIBLINEAR, LIBSVM).
+* Text retrieval with indexation and full-text search (Ferret).
-**Resources**
+**Contributing**
-* Read the [latest documentation](http://rubydoc.info/github/louismullie/treat/frames).
-* See how to [install Treat](https://github.com/louismullie/treat/wiki/Installation).
-* Learn how to [use Treat](https://github.com/louismullie/treat/wiki/Manual).
-* Help out by [contributing to the project](https://github.com/louismullie/treat/wiki/Contributing).
-* View a list of [papers](https://github.com/louismullie/treat/wiki/Papers) about tools included in this toolkit.
-* Open an [issue](https://github.com/louismullie/treat/issues).
-<br>
+I am actively seeking developers that can help maintain and expand this project. You can find a list of ideas for contributing to the project [here](https://github.com/louismullie/treat/wiki/Contributing).
 **License**

data/lib/treat/autoload.rb ADDED Viewed

@@ -0,0 +1,44 @@
+# Basic mixin for all the main modules;
+# takes care of requiring the right files
+# in the right order for each one.
+#
+# If a module's folder (e.g. /entities)
+# contains a file with a corresponding
+# singular name (e.g. /entity), that
+# base class is required first. Then,
+# all the files that are found directly
+# under that folder are required (but
+# not those found in sub-folders).
+module Treat::Autoload
+  # Loads all the files for the base
+  # module in the appropriate order.
+  def self.included(base)
+    m = self.get_module_name(base)
+    d = self.get_module_path(m)
+    n = self.singularize(m) + '.rb'
+    f, p = File.join(d, n), "#{d}/*.rb"
+    require f if File.readable?(f)
+    Dir.glob(p).each { |f| require f }
+  end
+  # Returns the path to a module's dir.
+  def self.get_module_path(name)
+    file = File.expand_path(__FILE__)
+    dirs = File.dirname(file).split('/')
+    File.join(*dirs[0..-1], name)
+  end
+  # Return the downcased form of the
+  # module's last name (e.g. "entities").
+  def self.get_module_name(mod)
+    mod.to_s.split('::')[-1].downcase
+  end
+  # Helper method to singularize words.
+  def self.singularize(w)
+    if w[-3..-1] == 'ies'; w[0..-4] +  'y'
+    else; (w[-1] == 's' ? w[0..-2] : w); end
+  end
+end

data/lib/treat/config/config.rb ADDED Viewed

@@ -0,0 +1,38 @@
+# This module uses structs to represent the
+# configuration options that are stored in
+# the /config folder.
+module Treat::Config
+  # Require configurable mix in.
+  require_relative 'importable'
+  # Make all configuration importable.
+  extend Treat::Config::Importable
+  # Core configuration options for entities.
+  class Treat::Config::Entities; end
+  # Configuration for paths to models, binaries,
+  # temporary storage and file downloads.
+  class Treat::Config::Paths; end
+  # Configuration for all Treat workers.
+  class Treat::Config::Workers; end
+  # Helpful linguistic options.
+  class Treat::Config::Linguistics; end
+  # Supported workers for each language.
+  class Treat::Config::Languages; end
+  # Configuration options for external libraries.
+  class Treat::Config::Libraries; end
+  # Configuration options for database
+  # connectivity (host, port, etc.)
+  class Treat::Config::Databases; end
+  # Configuration options for Treat core.
+  class Treat::Config::Core; end
+end

data/lib/treat/config/configurable.rb ADDED Viewed

@@ -0,0 +1,51 @@
+# Provide default functionality to load configuration
+# options from flat files into their respective modules.
+module Treat::Config::Configurable
+  # When extended, add the .config property to
+  # the class that is being operated on.
+  def self.extended(base)
+    class << base; attr_accessor :config; end
+    base.class_eval { self.config = {} }
+  end
+  # Provide base functionality to configure
+  # all modules. The behaviour is as follows:
+  #
+  # 1 - Check if a file named data/$CLASS$.rb
+  # exists; if so, load that file as the base
+  # configuration, i.e. "Treat.$CLASS$"; e.g.
+  # "Treat.core"
+  #
+  # 2 - Check if a folder named data/$CLASS$
+  # exists; if so, load each file in that folder
+  # as a suboption of the main configuration,
+  # i.e. "Treat.$CLASS$.$FILE$"; e.g. "Treat.workers"
+  #
+  # (where $CLASS$ is the lowercase name of
+  # the concrete class being extended by this.)
+  def configure!
+    path = File.dirname(File.expand_path(         # FIXME
+    __FILE__)).split('/')[0..-4].join('/') + '/'
+    main_dir = path + 'lib/treat/config/data/'
+    mod_name = self.name.split('::')[-1].downcase
+    conf_dir = main_dir + mod_name
+    base_file = main_dir + mod_name + '.rb'
+    if File.readable?(base_file)
+      self.config = eval(File.read(base_file))
+    elsif FileTest.directory?(conf_dir)
+      self.config = self.from_dir(conf_dir)
+    else; raise Treat::Exception,
+      "No config file found for #{mod_name}."
+    end
+  end
+  # * Helper methods for configuraton * #
+  def from_dir(conf_dir)
+    Hash[Dir[conf_dir + '/*'].map do |path|
+      name = File.basename(path, '.*').intern
+      [name, eval(File.read(path))]
+    end]
+  end
+end

data/lib/treat/config/data/config.rb ADDED Viewed

@@ -0,0 +1,50 @@
+{acronyms:
+  ['xml', 'html', 'txt', 'odt',
+  'abw', 'doc', 'yaml', 'uea',
+  'lda', 'pdf', 'ptb', 'dot',
+  'ai', 'id3', 'svo', 'mlp',
+  'svm', 'srx'],
+encodings:
+  {language_to_code: {
+    arabic: 'UTF-8',
+    chinese: 'GB18030',
+    english: 'UTF-8',
+    french: 'UTF-8',
+    german: 'UTF-8',
+    hebrew: 'UTF-8'
+}},
+entities:
+    {list:
+      [:entity, :unknown, :email,
+       :url, :symbol, :sentence,
+       :punctuation, :number,
+       :enclitic, :word, :token,
+       :fragment, :phrase, :paragraph,
+       :title, :zone, :list, :block,
+       :page, :section, :collection,
+       :document],
+    order:
+      [:token, :fragment, :phrase,
+       :sentence, :zone, :section,
+       :document, :collection]},
+    language: {
+      default: :english,
+      detect: false,
+      detect_at: :document
+    },
+    paths: {
+      description: {
+        tmp: 'temporary files',
+        lib: 'class and module definitions',
+        bin: 'binary files',
+        files: 'user-saved files',
+        models: 'model files',
+        spec: 'spec test files'
+      }
+    },
+syntax: { sweetened: false },
+verbosity: { debug: false, silence: true}}

data/lib/treat/config/data/core.rb ADDED Viewed

@@ -0,0 +1,52 @@
+{
+  acronyms:
+    ['xml', 'html', 'txt', 'odt',
+    'abw', 'doc', 'yaml', 'uea',
+    'lda', 'pdf', 'ptb', 'dot',
+    'ai', 'id3', 'svo', 'mlp',
+    'svm', 'srx'],
+  encodings:
+    {language_to_code: {
+      arabic: 'UTF-8',
+      chinese: 'GB18030',
+      english: 'UTF-8',
+      french: 'ISO_8859-1',
+      ferman: 'ISO_8859-1',
+      hebrew: 'UTF-8'
+  }},
+  entities:
+      {list:
+        [:entity, :unknown, :email,
+         :url, :symbol, :sentence,
+         :punctuation, :number,
+         :enclitic, :word, :token, :group,
+         :fragment, :phrase, :paragraph,
+         :title, :zone, :list, :block,
+         :page, :section, :collection,
+         :document],
+      order:
+        [:token, :fragment, :group,
+         :sentence, :zone, :section,
+         :document, :collection]},
+      language: {
+        default: :english,
+        detect: false,
+        detect_at: :document
+      },
+      paths: {
+        description: {
+          tmp: 'temporary files',
+          lib: 'class and module definitions',
+          bin: 'binary files',
+          files: 'user-saved files',
+          models: 'model files',
+          spec: 'spec test files'
+        }
+      },
+  syntax: { sweetened: false },
+  verbosity: { debug: false, silence: true}
+}

data/lib/treat/config/data/databases.rb ADDED Viewed

@@ -0,0 +1,10 @@
+{
+  default: {
+    adapter: :mongo
+  },
+  mongo: {
+    host: 'localhost',
+    port: '27017',
+    db: nil
+  }
+}

data/lib/treat/config/data/entities.rb ADDED Viewed

@@ -0,0 +1,15 @@
+{
+  list:
+    [:entity, :unknown, :email,
+      :url, :symbol, :sentence,
+      :punctuation, :number,
+      :enclitic, :word, :token,
+      :fragment, :phrase, :paragraph,
+      :title, :zone, :list, :block,
+      :page, :section, :collection,
+    :document],
+  order:
+    [:token, :fragment, :phrase,
+      :sentence, :zone, :section,
+    :document, :collection]
+}

data/lib/treat/config/data/languages/agnostic.rb ADDED Viewed

@@ -0,0 +1,31 @@
+{
+  dependencies: [
+    'nokogiri', 'ferret',
+    'bson_ext', 'mongo', 'lda-ruby',
+    'stanford-core-nlp', 'linguistics',
+    'ruby-readability', 'whatlanguage',
+    'chronic', 'nickel', 'decisiontree',
+    'rb-libsvm', 'ruby-fann', 'zip',
+    'tf-idf-similarity', 'narray'
+  ],
+  workers: {
+    learners: {
+      classifiers: [:id3, :linear, :mlp, :svm]
+    },
+    extractors: {
+      keywords: [:tf_idf],
+      language: [:what_language],
+      topic_words: [:lda],
+      tf_idf: [:native]
+    },
+    formatters: {
+      serializers: [:xml, :yaml, :mongo],
+      unserializers: [:xml, :yaml, :mongo],
+      visualizers: [:dot, :standoff, :tree]
+    },
+    retrievers: {
+      searchers: [:ferret],
+      indexers: [:ferret]
+    }
+  }
+}

data/lib/treat/config/{languages → data/languages}/arabic.rb RENAMED Viewed

File without changes

data/lib/treat/config/{languages → data/languages}/chinese.rb RENAMED Viewed

File without changes

data/lib/treat/config/{languages → data/languages}/dutch.rb RENAMED Viewed

@@ -6,7 +6,7 @@
   workers: {
     processors: {
       segmenters: [:punkt],
-      tokenizers: [:tactful]
+      tokenizers: []
     }
   }
 }

data/lib/treat/config/data/languages/english.rb ADDED Viewed

@@ -0,0 +1,95 @@
+{
+  dependencies: [
+    'rbtagger',
+    'ruby-stemmer',
+    'punkt-segmenter',
+    'tactful_tokenizer',
+    'nickel',
+    'rwordnet',
+    'uea-stemmer',
+    'engtagger',
+    'activesupport',
+    'srx-english',
+    'scalpel'
+  ],
+  workers: {
+    extractors: {
+      time: [:chronic, :ruby, :nickel],
+      topics: [:reuters],
+      name_tag: [:stanford]
+    },
+    inflectors: {
+      conjugators: [:linguistics],
+      declensors: [:english, :linguistics],
+      stemmers: [:porter, :porter_c, :uea],
+      ordinalizers:  [:linguistics],
+      cardinalizers:  [:linguistics]
+    },
+    lexicalizers: {
+      taggers: [:lingua, :brill, :stanford],
+      sensers: [:wordnet],
+      categorizers: [:from_tag]
+    },
+    processors: {
+      parsers: [:stanford],
+      segmenters: [:scalpel, :srx, :tactful, :punkt, :stanford],
+      tokenizers: [:ptb, :stanford, :punkt]
+    }
+  },
+  stop_words:
+    [
+      "about",
+      "also",
+      "are",
+      "away",
+      "because",
+      "been",
+      "beside",
+      "besides",
+      "between",
+      "but",
+      "cannot",
+      "could",
+      "did",
+      "etc",
+      "even",
+      "ever",
+      "every",
+      "for",
+      "had",
+      "have",
+      "how",
+      "into",
+      "isn",
+      "maybe",
+      "non",
+      "nor",
+      "now",
+      "should",
+      "such",
+      "than",
+      "that",
+      "then",
+      "these",
+      "this",
+      "those",
+      "though",
+      "too",
+      "was",
+      "wasn",
+      "were",
+      "what",
+      "when",
+      "where",
+      "which",
+      "while",
+      "who",
+      "whom",
+      "whose",
+      "will",
+      "with",
+      "would",
+      "wouldn",
+      "yes"
+    ]
+}

data/lib/treat/config/data/languages/french.rb ADDED Viewed

@@ -0,0 +1,148 @@
+{
+  dependencies: [
+    'punkt-segmenter',
+    'tactful_tokenizer',
+    'stanford-core-nlp'
+  ],
+  workers: {
+    processors: {
+      segmenters: [:scalpel],
+      tokenizers: [:ptb,:stanford],
+      parsers: [:stanford]
+    },
+    lexicalizers: {
+      taggers: [:stanford],
+      categorizers: [:from_tag]
+    }
+  },
+  stop_words:
+    [
+      "ailleurs",
+      "ainsi",
+      "alors",
+      "aucun",
+      "aucune",
+      "auquel",
+      "aurai",
+      "auras",
+      "aurez",
+      "aurons",
+      "auront",
+      "aussi",
+      "autre",
+      "autres",
+      "aux",
+      "auxquelles",
+      "auxquels",
+      "avaient",
+      "avais",
+      "avait",
+      "avec",
+      "avez",
+      "aviez",
+      "avoir",
+      "avons",
+      "celui",
+      "cependant",
+      "certaine",
+      "certaines",
+      "certains",
+      "ces",
+      "cet",
+      "cette",
+      "ceux",
+      "chacun",
+      "chacune",
+      "chaque",
+      "comme",
+      "constamment",
+      "davantage",
+      "depuis",
+      "des",
+      "desquelles",
+      "desquels",
+      "dessous",
+      "dessus",
+      "donc",
+      "dont",
+      "duquel",
+      "egalement",
+      "elles",
+      "encore",
+      "enfin",
+      "ensuite",
+      "etaient",
+      "etais",
+      "etait",
+      "etes",
+      "etiez",
+      "etions",
+      "etre",
+      "eux",
+      "guere",
+      "ici",
+      "ils",
+      "jamais",
+      "jusqu",
+      "laquelle",
+      "legerement",
+      "lequel",
+      "les",
+      "lesquelles",
+      "lesquels",
+      "leur",
+      "leurs",
+      "lors",
+      "lui",
+      "maintenant",
+      "mais",
+      "malgre",
+      "moi",
+      "moins",
+      "notamment",
+      "parce",
+      "plupart",
+      "pourtant",
+      "presentement",
+      "presque",
+      "puis",
+      "puisque",
+      "quand",
+      "quant",
+      "que",
+      "quel",
+      "quelqu",
+      "quelque",
+      "quelques",
+      "qui",
+      "quoi",
+      "quoique",
+      "rien",
+      "selon",
+      "serai",
+      "seras",
+      "serez",
+      "serons",
+      "seront",
+      "soient",
+      "soit",
+      "sommes",
+      "sont",
+      "sous",
+      "suis",
+      "telle",
+      "telles",
+      "tels",
+      "toi",
+      "toujours",
+      "tout",
+      "toutes",
+      "tres",
+      "trop",
+      "une",
+      "vos",
+      "votre",
+      "vous"
+    ]
+}