RubyGems - treat - Versions diffs - 1.0.2 → 1.0.3 - Mend

treat 1.0.2 → 1.0.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

data/lib/treat/classification.rb +1 -1
data/lib/treat/dependencies.rb +4 -4
data/lib/treat/entities/abilities/buildable.rb +4 -3
data/lib/treat/entities/abilities/iterable.rb +1 -1
data/lib/treat/entities/abilities/stringable.rb +1 -1
data/lib/treat/entities/entities.rb +1 -1
data/lib/treat/extractors/name_tag/stanford.rb +5 -3
data/lib/treat/formatters/readers/xml.rb +1 -0
data/lib/treat/formatters/serializers/mongo.rb +1 -1
data/lib/treat/lexicalizers/taggers/stanford.rb +3 -3
data/lib/treat/loaders/linguistics.rb +23 -19
data/lib/treat/loaders/stanford.rb +40 -22
data/lib/treat/processors/parsers/stanford.rb +5 -1
data/lib/treat/processors/segmenters/stanford.rb +2 -1
data/lib/treat/processors/tokenizers/stanford.rb +2 -1
data/lib/treat/server.rb +26 -0
data/lib/treat/tree.rb +2 -0
data/lib/treat.rb +2 -2
data/spec/sandbox.rb +0 -24
metadata +6 -3

data/lib/treat/classification.rb CHANGED Viewed

@@ -60,4 +60,4 @@ class Treat::Classification
     line
   end
-end
+end

data/lib/treat/dependencies.rb CHANGED Viewed

@@ -1,12 +1,12 @@
 class Treat::Dependencies
   Gem = [
-    ['psych', '1.2.2', '(un)serialize annotated entities to YAML format'],
-    ['nokogiri', '>= 1.4.0', 'read and parse XML and HTML formats'],
+    ['psych', '>= 1.2.2', '(un)serialize annotated entities to YAML format'],
+    ['nokogiri', '>= 1.5.2', 'read and parse XML and HTML formats'],
     ['sdsykes-ferret', '>= 0.11.6.19', 'perform full-text search in collections'],
     ['lda-ruby', '>= 0.3.8', 'extract topic words from documents and collections'],
-    ['ruby-readability', '>= 0.5.0', 'extract the readable content from HTML pages'],
-    ['stanford-core-nlp', '>= 0.1.8', 'tokenize, segment, parse texts and perform named entity recognition'],
+    ['ruby-readability', '>= 0.5.2', 'extract the readable content from HTML pages'],
+    ['stanford-core-nlp', '>= 0.3.0', 'tokenize, segment, parse texts and perform named entity recognition'],
     ['whatlanguage', '>= 1.0.0', 'detect the language of text'],
     ['linguistics', '>= 1.0.9', 'retrieve the inflection of nouns, verbs and numbers in English'],
     ['punkt-segmenter', '>= 0.9.1', 'segment texts into sentences'],

data/lib/treat/entities/abilities/buildable.rb CHANGED Viewed

@@ -13,7 +13,8 @@ module Treat::Entities::Abilities::Buildable
   PunctRegexp = /^[[:punct:]\$]+$/
   UriRegexp = /^(http|https):\/\/[a-z0-9]+([\-\.]{1}[a-z0-9]+)*\.[a-z]{2,5}(([0-9]{1,5})?\/.*)?$/ix
   EmailRegexp = /.+\@.+\..+/
+  Enclitics = %w['ll 'm 're 's 't 've]
   # Reserved folder names
   Reserved = ['.index']
@@ -264,8 +265,8 @@ module Treat::Entities::Abilities::Buildable
   def token_from_string(string)
     check_encoding(string)
-    if string == "'s" || string == "'S"
-      Treat::Entities::Clitic.new(string)
+    if Enclitics.include?(string.downcase)
+      Treat::Entities::Enclitic.new(string)
     elsif string =~ WordRegexp &&
       string.count(' ') == 0 &&
       string != '-'

data/lib/treat/entities/abilities/iterable.rb CHANGED Viewed

@@ -30,7 +30,7 @@ module Treat::Entities::Abilities::Iterable
     a = []
     type = :entity unless type
     each_entity(type) do |e|
-      r = e.send(feature)
+      r = e.get(feature)
       a << e if r == value
     end
     a

data/lib/treat/entities/abilities/stringable.rb CHANGED Viewed

@@ -69,7 +69,7 @@ module Treat::Entities::Abilities::Stringable
       if child.is_a?(Treat::Entities::Token) || child.value != ''
         if child.is_a?(Treat::Entities::Punctuation) ||
-          child.is_a?(Treat::Entities::Clitic)
+          child.is_a?(Treat::Entities::Enclitic)
           value.strip!
         end
         value += child.to_s + ' '

data/lib/treat/entities/entities.rb CHANGED Viewed

@@ -76,7 +76,7 @@ module Treat::Entities
   end
   # Represents a clitic ('s).
-  class Clitic < Token; end
+  class Enclitic < Token; end
   # Represents a number.
   class Number < Token

data/lib/treat/extractors/name_tag/stanford.rb CHANGED Viewed

@@ -4,7 +4,8 @@
 class Treat::Extractors::NameTag::Stanford
   require 'treat/loaders/stanford'
+  Treat::Loaders::Stanford.load
   @@classifiers = {}
   def self.name_tag(entity, options = {})
@@ -12,9 +13,10 @@ class Treat::Extractors::NameTag::Stanford
     pp = nil
     lang = entity.language
     language = Treat::Languages.describe(lang)
+    Treat::Loaders::Stanford.load(language)
     isolated_token = entity.is_a?(Treat::Entities::Token)
     tokens = isolated_token ? [entity] : entity.tokens

data/lib/treat/formatters/readers/xml.rb CHANGED Viewed

@@ -1,6 +1,7 @@
 class Treat::Formatters::Readers::XML
   require 'treat/loaders/stanford'
+  Treat::Loaders::Stanford.load
   require 'cgi'
   # By default, don't backup the XML

data/lib/treat/formatters/serializers/mongo.rb CHANGED Viewed

@@ -32,7 +32,7 @@ class Treat::Formatters::Serializers::Mongo
       coll = @@db[type_id[0]][type_id[1]]
     end
-    # Store path
+    # Store path
     Treat::Entities.list.each do |type|

data/lib/treat/lexicalizers/taggers/stanford.rb CHANGED Viewed

@@ -22,6 +22,7 @@ class Treat::Lexicalizers::Taggers::Stanford
     # Handle options and initialize the tagger.
     lang = entity.language
     options = get_options(options, lang)
     tokens, list = get_token_list(entity)
     init_tagger(lang)
@@ -55,14 +56,13 @@ class Treat::Lexicalizers::Taggers::Stanford
   # Initialize the tagger for a language.
   def self.init_tagger(lang)
     language = Treat::Languages.describe(lang)
+    Treat::Loaders::Stanford.load(language)
     model = StanfordCoreNLP::Config::Models[:pos][language]
-    model = Treat.models + 'stanford/' +
+    model = Treat::Loaders::Stanford.model_path +
     StanfordCoreNLP::Config::ModelFolders[:pos] + model
     @@taggers[lang] ||=
     StanfordCoreNLP::MaxentTagger.new(model)
   end
   # Handle the options for the tagger.

data/lib/treat/loaders/linguistics.rb CHANGED Viewed

@@ -1,26 +1,30 @@
-class Treat::Loaders
+module Treat
-  # A helper class to load a language class
-  # registered with the Linguistics gem.
-  class Linguistics
+  module Loaders
-    silence_warnings { require 'linguistics' }
-    @@languages = {}
+    # A helper class to load a language class
+    # registered with the Linguistics gem.
+    class Linguistics
-    def self.load(language)
-      if @@languages[language]
-        return @@languages[language]
-      end
-      begin
-        l = language.to_s.upcase
-        silence_warnings do
-          @@languages[language] =
-          ::Linguistics.const_get(l)
+      silence_warnings { require 'linguistics' }
+      @@languages = {}
+      def self.load(language)
+        if @@languages[language]
+          return @@languages[language]
         end
-      rescue RuntimeError
-        raise "Ruby Linguistics does " +
-        "not have a module installed " +
-        "for the #{language} language."
+        begin
+          l = language.to_s.upcase
+          silence_warnings do
+            @@languages[language] =
+            ::Linguistics.const_get(l)
+          end
+        rescue RuntimeError
+          raise "Ruby Linguistics does " +
+          "not have a module installed " +
+          "for the #{language} language."
+        end
       end
     end

data/lib/treat/loaders/stanford.rb CHANGED Viewed

@@ -1,27 +1,45 @@
-class Treat::Loaders
+module Treat
+  module Loaders
-  # A helper class to load a language class
-  # registered with the Linguistics gem.
-  class Stanford
+    class Stanford
-    require 'stanford-core-nlp'
-    StanfordCoreNLP.jar_path =
-    Treat.bin + 'stanford/'
-    StanfordCoreNLP.model_path =
-    Treat.models + 'stanford/'
-    StanfordCoreNLP.use(
-    Treat::Languages.describe(
-    Treat.default_language))
+      require 'stanford-core-nlp'
-    StanfordCoreNLP.log_file =
-    NULL_DEVICE if Treat.silence
-    StanfordCoreNLP.bind
-    @@loaded = true
+      class << self
+        attr_accessor :jar_path
+        attr_accessor :model_path
+        attr_accessor :loaded
+      end
+      self.jar_path = Treat.bin + 'stanford/'
+      self.model_path = Treat.models + 'stanford/'
+      self.loaded = false
+      def self.load(language = nil)
+        return if self.loaded
+        language ||=
+        Treat::Languages.describe(
+        Treat.default_language)
+        StanfordCoreNLP.jar_path = self.jar_path
+        StanfordCoreNLP.model_path = self.model_path
+        StanfordCoreNLP.use(language)
+        StanfordCoreNLP.log_file =
+        NULL_DEVICE if Treat.silence
+        StanfordCoreNLP.bind
+        self.loaded = true
+      end
+    end
   end
-end
+end

data/lib/treat/processors/parsers/stanford.rb CHANGED Viewed

@@ -26,7 +26,7 @@ class Treat::Processors::Parsers::Stanford
     val = entity.to_s
     lang = entity.language
     init(lang, options)
     text = ::StanfordCoreNLP::Text.new(val)
     @@parsers[lang].annotate(text)
@@ -52,6 +52,10 @@ class Treat::Processors::Parsers::Stanford
   def self.init(lang, options)
     return if @@parsers[lang]
+    language = Treat::Languages.describe(lang)
+    Treat::Loaders::Stanford.load(language)
     options = DefaultOptions.merge(options)
     StanfordCoreNLP.use(lang)
     if options[:tagger_model]

data/lib/treat/processors/segmenters/stanford.rb CHANGED Viewed

@@ -3,7 +3,8 @@
 class Treat::Processors::Segmenters::Stanford
   require 'treat/loaders/stanford'
+  Treat::Loaders::Stanford.load
   DefaultOptions = {
     :also_tokenize => false
   }

data/lib/treat/processors/tokenizers/stanford.rb CHANGED Viewed

@@ -3,7 +3,8 @@
 class Treat::Processors::Tokenizers::Stanford
   require 'treat/loaders/stanford'
+  Treat::Loaders::Stanford.load
   @@tokenizer = nil
   # Tokenize the entity using a Penn-Treebank

data/lib/treat/server.rb ADDED Viewed

@@ -0,0 +1,26 @@
+class Treat::Server
+  require 'thin'
+  def self.start
+    app = proc do |env|
+      #!/usr/bin/env ruby -w
+      # simple_service.rb
+      # A simple DRb service
+      # load DRb
+      require 'drb'
+      # start up the DRb service
+      DRb.start_service nil, []
+      # We need the uri of the service to connect a client
+      puts DRb.uri
+      # wait for the DRb service to finish before exiting
+      DRb.thread.join
+    end
+    run app
+  end
+end

data/lib/treat/tree.rb CHANGED Viewed

@@ -175,6 +175,8 @@ module Treat::Tree
     # Return a feature.
     def get(feature)
+      return @value if feature == :value
+      return @id if feature == :id
       @features[feature]
     end

data/lib/treat.rb CHANGED Viewed

@@ -10,7 +10,7 @@ module Treat
   end
   # The current version of Treat.
-  VERSION = "1.0.2"
+  VERSION = "1.0.3"
   # Add methods to handle syntactic sugar,
   # language configuration options, and paths.
@@ -49,7 +49,7 @@ module Treat
   require 'treat/categories'
   require 'treat/data_set'
   require 'treat/proxies'
   # Install packages for a given language.
   def self.install(language = :english)
     require 'treat/installer'

data/spec/sandbox.rb CHANGED Viewed

@@ -1,24 +0,0 @@
-require_relative '../lib/treat'
-s = Sentence "Barack Obama was killed last night."
-s.tokenize
-puts s.word_with_position(2).inspect
-s.word_with_position(2).set :highlighted, 1
-cl = Treat::Classification.new(
-  :word,
-  [[:position, 0]],
-  :highlighted,
-  0
-)
-data_set = s.export(cl)
-s2 = Sentence ''
-w = Word 'Hello'
-s2 << w
-w.set :position, 2
-puts w.classify(:mlp, :training => data_set).inspect

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: treat
 version: !ruby/object:Gem::Version
-  version: 1.0.2
+  version: 1.0.3
   prerelease:
 platform: ruby
 authors:
@@ -9,7 +9,7 @@ authors:
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2012-04-14 00:00:00.000000000 Z
+date: 2012-04-20 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rubyzip
@@ -200,6 +200,7 @@ files:
 - lib/treat/retrievers/indexers/ferret.rb
 - lib/treat/retrievers/searchers/ferret.rb
 - lib/treat/retrievers.rb
+- lib/treat/server.rb
 - lib/treat/tree.rb
 - lib/treat.rb
 - spec/collection.rb
@@ -224,7 +225,9 @@ files:
 - LICENSE
 homepage: https://github.com/louismullie/treat
 licenses: []
-post_install_message:
+post_install_message: ! "********************************************************************************\n\nThank
+  you for installing Treat!\n\nComplete the installation by running:\n\n    require
+  'treat'\n    Treat.install\n\ninside IRB or a Ruby script.\n\n********************************************************************************\n\n"
 rdoc_options: []
 require_paths:
 - lib