RubyGems - known_item_search_classifier - Versions diffs - 0.1.0 → 0.2.0 - Mend

known_item_search_classifier 0.1.0 → 0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

checksums.yaml +4 -4
data/lib/known_item_search_classifier/classifier.rb +5 -3
data/lib/known_item_search_classifier/default_training_set.rb +13 -11
data/lib/known_item_search_classifier/feature_extractor.rb +6 -1
metadata +2 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: df03a8dc0661439a41c7d3366a49573f463a176f
-  data.tar.gz: 58713a770bba4a173adc4e88bb507f256b4eafc5
+  metadata.gz: 9723eb411c5aac044ace45f88b1529d56b5cbfb2
+  data.tar.gz: 34757a78f9268eb5b88d1fdb0bea1a9c1569e32d
 SHA512:
-  metadata.gz: 470565b3b2932df41a0d02b99048746b5f5e97de476b273a9648d473d63d7e73e44d038ff2b35ffd1f0bbd413960d35df5ca1ad8e8b8902038aedb57d64225f8
-  data.tar.gz: 7e81f8262925a653ab33c12844947f9df40b5510cf3e43d801d6a31cab7f3bf3a3de58dc9693ecbd71283ff309dc9bdb6490d1a6be25fe436726ffc09fea28e0
+  metadata.gz: 961dc70c84bfcb5c2ddfaa866c489c149d84e09ce0bdbb72dd170c7ebdbf0c800cff8dd22d45ab486a84c48a1cfdde91104f5d1cff7828875885d805db058848
+  data.tar.gz: 7b4ca3cd5cb83a9380da7509a2758eb3a6b7e1f414ee44e2a58f809ebfab68cace4ce8d6c3c94b2c0bb6676285633d91f9f9517a489168b2847e854d3b4e2160

data/lib/known_item_search_classifier/classifier.rb CHANGED Viewed

@@ -1,8 +1,10 @@
 # Classifies search strings as either known-item searches or unknown-item searches
+require 'csv'
 require 'gaussian_naive_bayes'
 module KnownItemSearchClassifier
     class Classifier
+        attr_accessor :custom_training_set
         def initialize
             set = DefaultTrainingSet.new
             @default_training_set = GaussianNaiveBayes::Classifier.new set.categories_summaries, set.categories_probabilities
@@ -11,7 +13,7 @@ module KnownItemSearchClassifier
             return classify query_string
         end
         def train training_set
-            if defined? @custom_training_set
+            unless defined? @custom_training_set
                 @custom_training_set = GaussianNaiveBayes::Learner.new
             end
             training_set.each do |query|
@@ -19,10 +21,10 @@ module KnownItemSearchClassifier
             end
         end
         def train_from_csv filename
-            if defined? @custom_training_set
+            unless defined? @custom_training_set
                 @custom_training_set = GaussianNaiveBayes::Learner.new
             end
-            csv = CSV.read(filename)
+            csv = ::CSV.read(filename)
             csv.each do |line|
                 submit_vector line
             end

data/lib/known_item_search_classifier/default_training_set.rb CHANGED Viewed

@@ -2,20 +2,22 @@ module KnownItemSearchClassifier
     class DefaultTrainingSet
         attr_reader :categories_probabilities, :categories_summaries
         def initialize
-            @categories_probabilities={:unknown=>0.78, :known=>0.22}
+            @categories_probabilities={:unknown=>0.835, :known=>0.165}
             @categories_summaries= {
                 :unknown=>{
-                    0=>{:mean=>0.2564102564102564, :standard_deviation=>0.4394771815921655},
-                    1=>{:mean=>0.03418803418803419, :standard_deviation=>0.11344969312798027},
-                    2=>{:mean=>0.002564102564102564, :standard_deviation=>0.0226455406828919},
-                    3=>{:mean=>0.12991452991452992, :standard_deviation=>0.26648206508636013},
-                    4=>{:mean=>2.7948717948717947, :standard_deviation=>2.053561836691609}},
+                    0=>{:mean=>0.32335329341317365, :standard_deviation=>0.4691630728112455},
+                    1=>{:mean=>0.01867693185058454, :standard_deviation=>0.0856521002382124},
+                    2=>{:mean=>0.0024950099800399197, :standard_deviation=>0.02318575984424029},
+                    3=>{:mean=>0.18252067293983462, :standard_deviation=>0.32649287803592736},
+                    4=>{:mean=>2.2634730538922154, :standard_deviation=>1.3497147972472143},
+                    5=>{:mean=>0.20958083832335328, :standard_deviation=>1.2933208182456999}},
                 :known=>{
-                    0=>{:mean=>0.5454545454545454, :standard_deviation=>0.5096471914376255},
-                    1=>{:mean=>0.051659451659451655, :standard_deviation=>0.07957404805575267},
-                    2=>{:mean=>0.021248196248196245, :standard_deviation=>0.04412470821426937},
-                    3=>{:mean=>0.22550505050505054, :standard_deviation=>0.2520704609787127},
-                    4=>{:mean=>7.590909090909091, :standard_deviation=>5.770690236086651}}}
+                    0=>{:mean=>0.3333333333333333, :standard_deviation=>0.478713553878169},
+                    1=>{:mean=>0.034283854046699896, :standard_deviation=>0.07844034834013752},
+                    2=>{:mean=>0.06397250092902267, :standard_deviation=>0.10673099909054994},
+                    3=>{:mean=>0.06715805055726004, :standard_deviation=>0.1488979015655406},
+                    4=>{:mean=>4.696969696969697, :standard_deviation=>4.9591131294116515},
+                    5=>{:mean=>3.9393939393939394, :standard_deviation=>5.606577576491037}}}
         end
     end
 end

data/lib/known_item_search_classifier/feature_extractor.rb CHANGED Viewed

@@ -12,13 +12,14 @@ module KnownItemSearchClassifier
             @punctuation_ratio = punctuation_ratio
             @determiner_ratio = determiner_ratio
             @proper_noun_ratio = proper_noun_ratio
+            @numeric_count = numeric_count
             #@num_keywords = count_keywords
             #@refers_to_an_item_that_is_known = check_against_known_titles
         end
         def feature_array
-            return [@mixed_case, @punctuation_ratio, @determiner_ratio, @proper_noun_ratio, @num_words]
+            return [@mixed_case, @punctuation_ratio, @determiner_ratio, @proper_noun_ratio, @num_words, @numeric_count]
         end
         private
         def is_mixed_case?
@@ -35,6 +36,9 @@ module KnownItemSearchClassifier
             num_det = @tagged.scan(/\/DET/).size.to_f
             return num_det / @num_words
         end
+        def numeric_count
+            return @string.scan(/[0-9]/).length
+        end
         def proper_noun_ratio
             num_prop_noun = @tagged.scan(/\/NNP/).size.to_f
             return num_prop_noun / @num_words
@@ -55,6 +59,7 @@ module KnownItemSearchClassifier
         end
         def check_against_known_titles
            known_titles = [
+               'fountainhead',
                'salt sugar fat',
            ]
            if known_titles.include? @query_string.downcase

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: known_item_search_classifier
 version: !ruby/object:Gem::Version
-  version: 0.1.0
+  version: 0.2.0
 platform: ruby
 authors:
 - Jane Sandberg
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2016-11-13 00:00:00.000000000 Z
+date: 2017-03-25 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: engtagger