RubyGems - treat - Versions diffs - 1.1.2 → 1.2.0 - Mend

treat 1.1.2 → 1.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (45) hide show

data/LICENSE +1 -1
data/lib/treat/config/core/acronyms.rb +2 -1
data/lib/treat/config/libraries/punkt.rb +1 -0
data/lib/treat/config/libraries/reuters.rb +1 -0
data/lib/treat/core/data_set.rb +125 -66
data/lib/treat/core/export.rb +59 -0
data/lib/treat/core/problem.rb +101 -18
data/lib/treat/core/question.rb +23 -7
data/lib/treat/entities/abilities/iterable.rb +7 -3
data/lib/treat/entities/abilities/stringable.rb +5 -5
data/lib/treat/entities/collection.rb +10 -6
data/lib/treat/entities/entity.rb +1 -1
data/lib/treat/helpers/objtohash.rb +8 -0
data/lib/treat/loaders/stanford.rb +10 -8
data/lib/treat/version.rb +1 -1
data/lib/treat/workers/formatters/serializers/mongo.rb +2 -2
data/lib/treat/workers/formatters/serializers/xml.rb +7 -7
data/lib/treat/workers/formatters/unserializers/mongo.rb +16 -8
data/lib/treat/workers/formatters/unserializers/xml.rb +5 -5
data/lib/treat/workers/formatters/visualizers/dot.rb +7 -7
data/lib/treat/workers/learners/classifiers/id3.rb +4 -3
data/lib/treat/workers/learners/classifiers/linear.rb +53 -0
data/lib/treat/workers/learners/classifiers/mlp.rb +5 -5
data/lib/treat/workers/learners/classifiers/svm.rb +31 -0
data/lib/treat/workers/lexicalizers/taggers/stanford.rb +4 -2
data/lib/treat/workers/processors/parsers/enju.rb +17 -17
data/lib/treat/workers/processors/segmenters/punkt.rb +3 -1
data/spec/collection.rb +3 -3
data/spec/core.rb +430 -21
data/spec/document.rb +1 -1
data/spec/entity.rb +2 -8
data/spec/helper.rb +34 -0
data/spec/phrase.rb +1 -1
data/spec/sandbox.rb +31 -8
data/spec/token.rb +1 -1
data/spec/treat.rb +1 -1
data/spec/word.rb +1 -1
data/spec/zone.rb +1 -1
metadata +9 -8
data/files/3_2_release_notes.html +0 -766
data/files/bc-monty-robinson-sentencing.html +0 -1569
data/files/syria-aleppo-clashes.html +0 -1376
data/lib/treat/core/feature.rb +0 -42
data/lib/treat/core/node.rb +0 -251
data/spec/node.rb +0 -117

data/lib/treat/workers/formatters/serializers/xml.rb CHANGED Viewed

@@ -33,14 +33,14 @@ class Treat::Workers::Formatters::Serializers::XML
         end
       end
       ############ To be refactored
-      unless entity.dependencies.empty?
-        attributes << "dependencies='"
+      unless entity.edges.empty?
+        attributes << "edges='"
         a = []
-        entity.dependencies.each do |dependency|
-          a << ("{target: #{dependency.target}, "+
-          "type: #{dependency.type}, " +
-          "directed: #{dependency.directed}, " +
-          "direction: #{dependency.direction}}" )
+        entity.edges.each do |edge|
+          a << ("{target: #{edge.target}, "+
+          "type: #{edge.type}, " +
+          "directed: #{edge.directed}, " +
+          "direction: #{edge.direction}}" )
         end
         # Structs.
         attributes << a.join(',') + "'"

data/lib/treat/workers/formatters/unserializers/mongo.rb CHANGED Viewed

@@ -22,7 +22,7 @@ module Treat::Workers::Formatters::Unserializers::Mongo
     entity.type.to_s.capitalize.intern).superclass).downcase
     supertype = entity.type.to_s if supertype == 'entity'
     supertypes = supertype + 's'
+    supertypes = 'documents' if entity.type == :collection
     coll = @@database.collection(supertypes)
     records = coll.find(selector).to_a
@@ -30,16 +30,24 @@ module Treat::Workers::Formatters::Unserializers::Mongo
       raise Treat::Exception,
       "Couldn't find any records using " +
       "selector #{selector.inspect}."
-    elsif records.size == 1
-      self.do_unserialize(
-      records.first, options)
-    else
-      matches = []
+    end
+    if entity.type == :document
+      if records.size == 1
+        self.do_unserialize(
+        records.first, options)
+      else
+        raise Treat::Exception,
+        "More than one document matched" +
+        "your selector #{selector.inspect}."
+      end
+    elsif entity.type == :collection
+      collection = Treat::Entities::Collection.new
       records.each do |record|
-        matches << self.
+        collection << self.
         do_unserialize(record, options)
       end
-      matches
+      collection
     end
   end

data/lib/treat/workers/formatters/unserializers/xml.rb CHANGED Viewed

@@ -35,13 +35,13 @@ module Treat::Workers::Formatters::Unserializers::XML
       id = nil; value = ''
       attributes = {}
-      dependencies = []
+      edges = []
       unless xml_reader.attributes.size == 0
         xml_reader.attributes.each_pair do |k,v|
           if k == 'id'
             id = v.to_i
-          elsif k == 'dependencies'
+          elsif k == 'edges'
             a = v.split('--')
             a.each do |b|
               c = b.split(';')
@@ -54,7 +54,7 @@ module Treat::Workers::Formatters::Unserializers::XML
                 end
                 target, type, directed, direction = *vals
-                dependencies << [
+                edges << [
                   target.to_i,
                   type,
                   (directed == 'true' ? true : false),
@@ -87,8 +87,8 @@ module Treat::Workers::Formatters::Unserializers::XML
         end
         current_element.features = attributes
         current_element.features = attributes
-        dependencies.each do |dependency|
-          target, type, directed, direction = *dependency
+        edges.each do |edge|
+          target, type, directed, direction = *edge
           current_element.link(target, type, directed, direction)
         end
       else

data/lib/treat/workers/formatters/visualizers/dot.rb CHANGED Viewed

@@ -106,18 +106,18 @@ class Treat::Workers::Formatters::Visualizers::DOT
         string << "\n#{entity.parent.id} -- #{entity.id};"
       end
     end
-    # Dependencies.
-    if entity.has_dependencies?
-      entity.dependencies.each do |dependency|
+    # edges.
+    if entity.has_edges?
+      entity.edges.each do |edge|
         dir = ''
-        if dependency.directed == true
-          dir = dependency.direction == 1 ? 'forward' : 'back'
+        if edge.directed == true
+          dir = edge.direction == 1 ? 'forward' : 'back'
           dir = ",dir=#{dir}"
         else
           dir = ",dir=both"
         end
-        string << "\n#{entity.id} -- #{dependency.target}"
-        string << "[label=#{dependency.type}#{dir}]"
+        string << "\n#{entity.id} -- #{edge.target}"
+        string << "[label=#{edge.type}#{dir}]"
       end
     end
     # Recurse.

data/lib/treat/workers/learners/classifiers/id3.rb CHANGED Viewed

@@ -11,8 +11,9 @@ class Treat::Workers::Learners::Classifiers::ID3
     if !@@classifiers[cl]
       dec_tree = DecisionTree::ID3Tree.new(
-      cl.labels.map { |l| l.to_s }, set.items, cl.question.default,
-      cl.question.type)
+      cl.feature_labels.map { |l| l.to_s },
+      set.items.map { |i| i[:features]},
+      cl.question.default, cl.question.type)
       dec_tree.train
       @@classifiers[cl] = dec_tree
     else
@@ -20,7 +21,7 @@ class Treat::Workers::Learners::Classifiers::ID3
       dec_tree.graph('testingbitch')
     end
     dec_tree.predict(
-      cl.export_item(entity, false)
+      cl.export_features(entity, false)
     )
   end

data/lib/treat/workers/learners/classifiers/linear.rb ADDED Viewed

@@ -0,0 +1,53 @@
+class Treat::Workers::Learners::Classifiers::Linear
+  require 'linear'
+  @@classifiers = {}
+  DefaultOptions = {
+    bias: 1,
+    eps: 0.1,
+    solver_type: MCSVM_CS
+  }
+  def self.classify(entity, options = {})
+    options = DefaultOptions.merge(options)
+    set = options[:training]
+    problem = set.problem
+    if !@@classifiers[problem]
+      labels = problem.question.labels
+      unless labels
+        raise Treat::Exception,
+        "LibLinear requires that you provide the possible " +
+        "labels to assign to classification items when " +
+        "specifying the question."
+      end
+      param = LParameter.new
+      param.solver_type = options[:solver_type]
+      param.eps = options[:eps]
+      bias = options[:bias]
+      data = set.items.map do |item|
+        self.array_to_hash(item[:features])
+      end
+      prob = LProblem.new(labels, data, bias)
+      @@classifiers[problem] =
+      LModel.new(prob, param)
+    end
+    @@classifiers[problem].predict(
+    self.array_to_hash(problem.
+    export_features(entity, false)))
+  end
+  def self.array_to_hash(array)
+    hash = {}
+    0.upto(array.length - 1) do |i|
+      hash[i] = array[i]
+    end
+    hash
+  end
+end

data/lib/treat/workers/learners/classifiers/mlp.rb CHANGED Viewed

@@ -11,11 +11,11 @@ class Treat::Workers::Learners::Classifiers::MLP
     cl = set.problem
     if !@@mlps[cl]
-      net = Ai4r::NeuralNetwork::
-      Backpropagation.new([cl.labels.size, 3, 1])
+      net = Ai4r::NeuralNetwork::Backpropagation.new(
+      [cl.feature_labels.size, 3, 1])
       set.items.each do |item|
-        inputs = item[0..-2]
-        outputs = [item[-1]]
+        inputs = item[:features][0..-2]
+        outputs = [item[:features][-1]]
         net.train(inputs, outputs)
       end
       @@mlps[cl] = net
@@ -23,7 +23,7 @@ class Treat::Workers::Learners::Classifiers::MLP
       net = @@mlps[cl]
     end
-    net.eval(cl.export_item(entity, false))[0]
+    net.eval(cl.export_features(entity, false))[0]
   end

data/lib/treat/workers/learners/classifiers/svm.rb ADDED Viewed

@@ -0,0 +1,31 @@
+class Treat::Workers::Learners::Classifiers::SVM
+  require 'svm'
+  @@classifiers = {}
+  def self.classify(entity, options = {})
+    set = options[:training]
+    problem = set.problem
+    if !@@classifiers[problem]
+      labels = problem.question.labels
+      unless labels
+        raise Treat::Exception,
+        "LibSVM requires that you provide the possible " +
+        "labels to assign to classification items when " +
+        "specifying the question."
+      end
+      data = set.items.map  { |item| item[:features] }
+      prob = Problem.new(labels, data)
+      param = Parameter.new(:kernel_type => LINEAR, :C => 10)
+      @@classifiers[problem] = Model.new(prob, param)
+    end
+    @@classifiers[problem].predict_probability(
+    problem.export_features(entity, false))[0]
+  end
+end

data/lib/treat/workers/lexicalizers/taggers/stanford.rb CHANGED Viewed

@@ -53,8 +53,10 @@ class Treat::Workers::Lexicalizers::Taggers::Stanford
   def self.init_tagger(language)
     Treat::Loaders::Stanford.load(language)
     model = StanfordCoreNLP::Config::Models[:pos][language]
-    model = Treat.paths.models + 'stanford/' +
-    StanfordCoreNLP::Config::ModelFolders[:pos] + model
+    model_path = Treat.libraries.stanford.model_path ||
+    Treat.paths.models + 'stanford/'
+    model = model_path + StanfordCoreNLP::
+    Config::ModelFolders[:pos] + model
     @@taggers[language] ||=
     StanfordCoreNLP::MaxentTagger.new(model)
   end

data/lib/treat/workers/processors/parsers/enju.rb CHANGED Viewed

@@ -38,7 +38,7 @@ module Treat::Workers::Processors::Parsers::Enju
     val = entity.to_s
     @@id_table = {}
-    @@dependencies_table = {}
+    @@edges_table = {}
     stdin, stdout = proc
     text, remove_last = valid_text(val)
@@ -63,7 +63,7 @@ module Treat::Workers::Processors::Parsers::Enju
     end
     link_heads(entity)
-    add_dependencies(entity)
+    add_edges(entity)
   end
   # Return the process running Enju.
@@ -102,12 +102,12 @@ module Treat::Workers::Processors::Parsers::Enju
         pd = cd
         next
       end
-      # Get and format attributes and dependencies.
+      # Get and format attributes and edges.
       attributes = reader.attributes
       id = attributes.delete('id')
-      new_attr = {}; dependencies = {}
+      new_attr = {}; edges = {}
       unless attributes.size == 0
-        new_attr, dependencies =
+        new_attr, edges =
         cleanup_attributes(reader.name, attributes)
       end
       # Create the appropriate entity for the
@@ -117,17 +117,17 @@ module Treat::Workers::Processors::Parsers::Enju
       when 'sentence'
         entity = Treat::Entities::Sentence.new('')
         @@id_table[id] = entity.id
-        @@dependencies_table[entity.id] = dependencies
+        @@edges_table[entity.id] = edges
         entity.features = new_attr
       when 'cons'
         entity = entity <<
         Treat::Entities::Phrase.new('')
         @@id_table[id] = entity.id
-        @@dependencies_table[entity.id] = dependencies
+        @@edges_table[entity.id] = edges
         entity.features = new_attr
       when 'tok'
         tmp_attributes = new_attr
-        tmp_dependencies = dependencies
+        tmp_edges = edges
       else
         current_value = reader.value.gsub(/\s+/, "")
         unless current_value.size == 0
@@ -136,7 +136,7 @@ module Treat::Workers::Processors::Parsers::Enju
           if entity.is_a?(Treat::Entities::Word)
             entity.features = tmp_attributes
             @@id_table[id] = entity.id
-            @@dependencies_table[entity.id] = tmp_dependencies
+            @@edges_table[entity.id] = tmp_edges
           else
             # Do something useful here
             entity.set :tag, 'SYM'
@@ -179,15 +179,15 @@ module Treat::Workers::Processors::Parsers::Enju
     end
   end
-  # Add dependencies a posteriori to a parsed entity.
-  def self.add_dependencies(entity2)
+  # Add edges a posteriori to a parsed entity.
+  def self.add_edges(entity2)
     entity2.each_entity(:word, :phrase) do |entity|
-      @@dependencies_table.each_pair do |id, dependencies|
-        next if dependencies.nil?
+      @@edges_table.each_pair do |id, edges|
+        next if edges.nil?
         entity = entity2.root.find(id)
         next if entity.nil?
-        dependencies.each_pair do |argument, type|
+        edges.each_pair do |argument, type|
           # Skip this argument if we
           # don't know the target node.
           next if argument == 'unk'
@@ -205,7 +205,7 @@ module Treat::Workers::Processors::Parsers::Enju
   def self.cleanup_attributes(name, attributes)
     new_attr = {}
-    dependencies = {}
+    edges = {}
     pred = attributes.delete('pred')
     attributes.each_pair do |attribute2, value|
@@ -214,7 +214,7 @@ module Treat::Workers::Processors::Parsers::Enju
       if attribute == 'arg1' ||
         attribute == 'arg2'
-        dependencies[value] = pred
+        edges[value] = pred
         next
       end
@@ -256,7 +256,7 @@ module Treat::Workers::Processors::Parsers::Enju
       new_attr.delete :base
     end
-    return new_attr, dependencies
+    return new_attr, edges
   end

data/lib/treat/workers/processors/segmenters/punkt.rb CHANGED Viewed

@@ -63,7 +63,9 @@ module Treat::Workers::Processors::Segmenters::Punkt
     if options[:model]
       model = options[:model]
     else
-      model = "#{Treat.paths.models}punkt/#{lang}.yaml"
+      model_path = Treat.libraries.punkt.model_path ||
+      Treat.paths.models + 'punkt/'
+      model = model_path + "#{lang}.yaml"
       unless File.readable?(model)
         raise Treat::Exception,
         "Could not get the language model " +

data/spec/collection.rb CHANGED Viewed

@@ -1,4 +1,4 @@
-require_relative '../lib/treat'
+require_relative 'helper'
 describe Treat::Entities::Collection do
@@ -29,7 +29,7 @@ describe Treat::Entities::Collection do
         f = Treat.paths.spec + 'samples/test'
         c = Treat::Entities::Collection.build(f)
         c << Treat::Entities::Document.new
-        c.size.should eql 2
+        c.size.should eql 1
         FileUtils.rm_rf(f)
       end
     end
@@ -45,7 +45,7 @@ describe Treat::Entities::Collection do
         it "recursively searches the folder for " +
         "files and opens them into a collection of documents" do
           collection = Treat::Entities::Collection.build(@file)
-          collection.size.should eql 6
+          collection.size.should eql 5
         end
       end