RubyGems - thera - Versions diffs - 0.0.2 → 0.0.3 - Mend

thera 0.0.2 → 0.0.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (11) hide show

data/ext/quarry/quarry_toolkit.cpp +4 -1
data/lib/quarry/src/classifier/naive_bayes/naive_bayes_classifier.cpp +3 -2
data/lib/quarry/src/model/model.cpp +9 -0
data/lib/quarry/src/model/model.h +2 -0
data/lib/quarry/src/storage/binary.cpp +0 -1
data/lib/quarry_rb/data_set/data_set.rb +3 -3
data/lib/quarry_rb/data_set/example.rb +1 -2
data/lib/quarry_rb/model/model.rb +12 -2
data/lib/quarry_rb/text_pipeline.rb +1 -1
data/thera.gemspec +1 -1
metadata +3 -3

data/ext/quarry/quarry_toolkit.cpp CHANGED Viewed

@@ -60,7 +60,7 @@ extern "C" {
     rb_mText.define_module_function("standard_pipeline", &Preprocessing::Text::StandardPipeline);
     Data_Type<Preprocessing::Text::TextPipeline> rb_cTextPipeline = define_class_under<Preprocessing::Text::TextPipeline>(rb_mQuarry, "ImplTextPipeline")
       .define_constructor(Constructor<Preprocessing::Text::TextPipeline>());
-//      .define_method("process_text", &Preprocessing::Text::TextPipeline::process_text);
+      //.define_method("process_text", &Preprocessing::Text::TextPipeline::process_text);
     // storage
     Data_Type<Storage::Storage> rb_cStorage = define_class_under<Storage::Storage>(rb_mQuarry, "ImplStorage");
@@ -90,6 +90,8 @@ extern "C" {
       .define_method("train_text", &Model::Model::train_text)
       .define_method("classify", &Model::Model::classify)
       .define_method("classify_text", &Model::Model::classify_text)
+      .define_method("process_text", &Model::Model::process_text)
+      .define_method("add_text_example", &Model::Model::add_text_example)
       .define_method("set_data_set", &Model::Model::set_data_set)
       .define_method("get_data_set", &Model::Model::get_data_set)
       .define_method("set_classifier", &Model::Model::set_classifier)
@@ -110,6 +112,7 @@ extern "C" {
     Data_Type<DataSet::Example> rb_cDataSetExample = define_class_under<DataSet::Example>(rb_mDataSet, "ImplExample")
       .define_method("category_index", &DataSet::Example::category_index)
+      .define_method("set_category_index", &DataSet::Example::set_category_index)
       .define_method("get_value", &DataSet::Example::get_value)
       .define_method("set_value", &DataSet::Example::set_value)
       .define_constructor(Constructor<DataSet::Example, int>());

data/lib/quarry/src/classifier/naive_bayes/naive_bayes_classifier.cpp CHANGED Viewed

@@ -21,6 +21,7 @@ void Classifier::NaiveBayesClassifier::prepare() {
     feature_caches[i].resize(features_size);
     for(int j = 0; j < features_size; j++) {
+      // FIXME: need to wipe numeric_features[j] here in case category j was, now isn't numeric on a second call to prepare
       if(!numeric_features[j])
         continue;
       feature = (DataSet::NumericFeature *) data_set->features[j];
@@ -62,12 +63,12 @@ double Classifier::NaiveBayesClassifier::score(int category, DataSet::Example *e
 }
 void Classifier::NaiveBayesClassifier::write_binary(Storage::Binary *file) {
-  int category_count = feature_caches.size();
+  int category_count = feature_caches.size() - 1;
   file->write_int(category_count);
   file->write_vector<double>(&category_probabilities);
   for(int i = 1; i <= category_count; i++)
-    file->write_vector<NumericFeatureCache>(&feature_caches[i]);
+    file->write_vector<NumericFeatureCache>(&(feature_caches[i]));
 }
 void Classifier::NaiveBayesClassifier::read_binary(Storage::Binary *file) {

data/lib/quarry/src/model/model.cpp CHANGED Viewed

@@ -6,6 +6,15 @@ void Model::Model::train(DataSet::Example *example) {
 void Model::Model::train_text(string text) {
 }
+DataSet::Example *Model::Model::process_text(string text, bool create_features) {
+  return text_pipeline->process_text((DataSet::SparseDataSet *)data_set, (char *)text.c_str(), create_features);
+}
+void Model::Model::add_text_example(string text, string category) {
+  DataSet::Example *example = text_pipeline->process_text((DataSet::SparseDataSet *)data_set, (char *)text.c_str(), true);
+  example->set_category_index(data_set, data_set->category_feature()->value_index(category));
+}
 int Model::Model::classify(DataSet::Example *example) {
   return classifier->classify(example);
 }

data/lib/quarry/src/model/model.h CHANGED Viewed

@@ -16,6 +16,8 @@ namespace Model {
     void train(DataSet::Example *example);
     void train_text(string text);
+    DataSet::Example *process_text(string text, bool create_features);
+    void add_text_example(string text, string category);
     int classify(DataSet::Example *example);
     int classify_text(string text);
     vector<Classifier::Score> *rank(DataSet::Example *example);

data/lib/quarry/src/storage/binary.cpp CHANGED Viewed

@@ -448,7 +448,6 @@ Model::Model *Storage::Binary::read_model() {
 void Storage::Binary::write_model(Model::Model *model) {
   open_for_writing();
-  // write the 3 model components
   write_data_set(model->data_set);
   write_classifier(model->classifier);
   write_text_pipeline(model->text_pipeline);

data/lib/quarry_rb/data_set/data_set.rb CHANGED Viewed

@@ -15,15 +15,15 @@ module Quarry
       end
       def examples
-        @examples ||= EnumerableHelper.new(self, @data_set, Example, :examples_size, :get_example_by_index)
+        @examples ||= EnumerableHelper.new(self, @data_set, ::Quarry::DataSet::Example, :examples_size, :get_example_by_index)
       end
       def categories
-        @categories ||= EnumerableHelper.new(self, @data_set, Category, :categories_size, :get_category_by_index)
+        @categories ||= EnumerableHelper.new(self, @data_set, ::Quarry::DataSet::Category, :categories_size, :get_category_by_index)
       end
       def features
-        @features ||= EnumerableHelper.new(self, @data_set, Feature, :features_size, :get_feature_by_index)
+        @features ||= EnumerableHelper.new(self, @data_set, ::Quarry::DataSet::Feature, :features_size, :get_feature_by_index)
       end
       def stratify(classifier, folds, skip_fold)

data/lib/quarry_rb/data_set/example.rb CHANGED Viewed

@@ -25,8 +25,7 @@ module Quarry
       end
       def category=(new_category)
-        raise "new_category must be an instance of Quarry::DataSet::Category" unless new_category.is_a?(Category)
-        @example.set_category(new_category.category)
+        @example.set_category_index(@data_set.data_set, new_category)
       end
     end
   end

data/lib/quarry_rb/model/model.rb CHANGED Viewed

@@ -6,11 +6,12 @@ module Quarry
     end
     def data_set
-      Quarry::DataSet::DataSet.new(@model.get_data_set)
+      @data_set ||= Quarry::DataSet::DataSet.new(@model.get_data_set)
     end
     def data_set=(ds)
       @model.set_data_set(ds.data_set)
+      @data_set = ds
     end
     # def classifier
@@ -22,11 +23,12 @@ module Quarry
     end
     def text_pipeline
-      TextPipeline.new(@model.get_text_pipeline)
+      @text_pipeline ||= TextPipeline.new(@model.get_text_pipeline)
     end
     def text_pipeline=(t)
       @model.set_text_pipeline(t.text_pipeline)
+      @text_pipeline = t
     end
     def train(example)
@@ -45,6 +47,14 @@ module Quarry
       @model.classify_text(text)
     end
+    def process_text(text, create_features = true)
+      DataSet::Example.new(@model.process_text(text, create_features), data_set)
+    end
+    def add_text_example(text, category_name)
+      @model.add_text_example(text, category_name)
+    end
     def rank(example)
       @model.rank(example)
     end

data/lib/quarry_rb/text_pipeline.rb CHANGED Viewed

@@ -6,7 +6,7 @@ module Quarry
     end
     def process_text(data_set, text, create_features = false)
-      Example.new(@text_pipeline.process_text(data_set, text, create_features))
+      ::Quarry::DataSet::Example.new(@text_pipeline.process_text(data_set.data_set, text, create_features))
     end
     def self.standard_pipeline

data/thera.gemspec CHANGED Viewed

@@ -9,7 +9,7 @@ Gem::Specification.new do |s|
   s.description = "C++ Data Mining Library for Ruby"
   s.email = "me@willcannings.com"
   s.authors = ["Will Cannings"]
-  s.version = '0.0.2'
+  s.version = '0.0.3'
   s.extensions = ["ext/extconf.rb"]
   s.files         = `git ls-files`.split("\n")

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: thera
 version: !ruby/object:Gem::Version
-  version: 0.0.2
+  version: 0.0.3
   prerelease:
 platform: ruby
 authors:
@@ -13,7 +13,7 @@ date: 2011-12-07 00:00:00.000000000Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rice
-  requirement: &70171050802120 !ruby/object:Gem::Requirement
+  requirement: &70129254365400 !ruby/object:Gem::Requirement
     none: false
     requirements:
     - - ! '>='
@@ -21,7 +21,7 @@ dependencies:
         version: '0'
   type: :runtime
   prerelease: false
-  version_requirements: *70171050802120
+  version_requirements: *70129254365400
 description: C++ Data Mining Library for Ruby
 email: me@willcannings.com
 executables: []