RubyGems - omnicat - Versions diffs - 0.1.2 → 0.1.3 - Mend

omnicat 0.1.2 → 0.1.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

checksums.yaml +4 -4
data/CHANGELOG.txt +3 -0
data/README.md +1 -1
data/lib/omnicat/classifiers/bayes.rb +68 -34
data/lib/omnicat/classifiers/bayes_internals/category.rb +2 -1
data/lib/omnicat/version.rb +1 -1
data/lib/test/unit/hash_test.rb +1 -1
metadata +1 -1

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 5d04e29b0e2e16e019592553041b62eb9b759d3d
-  data.tar.gz: 1a4614e75aef06179e7c9589a73bf9c0b3552d20
+  metadata.gz: ea920e881bd63f956dd1237f666d008f893668af
+  data.tar.gz: f9d1ec2fe73eb047c5ac661c42600cff033fd35f
 SHA512:
-  metadata.gz: d30317305905b877570cc2626665b74b56d3d4278422398ed05bb836d2316b2cb3fe4faee1cb0e26e1068121151fb0ba49b1eac61b79541fd2e44c23c6d19c03
-  data.tar.gz: bc998d7a815212af3881fb81bfa18bda74d1f68df1a273f9c17fdbf76340579de26953a384eb30edbdfac51409ddb7279e6195bac1e86d51f6e11bde48e5029e
+  metadata.gz: 4c65cec9bf29fc07b9b0f0eee51da3bfc40f2ba8e443daf287b3e76f499b9084e8526baeb7b7319acd7eeda826ff9a892a0e761848d23e52af2e4545cfbd60ff
+  data.tar.gz: 3f153307273e1c94bea62399a1d1f8d039b4c17956187779f08726429329a84acbce2ede51c7ade3c2ef2b1a778f37da664ae9855144f07a2c906f23d0ee5d80

data/CHANGELOG.txt CHANGED

@@ -1,3 +1,6 @@
+0.1.3
+# refactoring at bayes algorithm
 0.1.2
 # fix the bayes algorithm (so important changes!)

data/README.md CHANGED

@@ -1,6 +1,6 @@
 # OmniCat
-[![Build Status](https://travis-ci.org/mustafaturan/omnicat.png)](https://travis-ci.org/mustafaturan/omnicat)
+[![Build Status](https://travis-ci.org/mustafaturan/omnicat.png)](https://travis-ci.org/mustafaturan/omnicat) [![Code Climate](https://codeclimate.com/github/mustafaturan/omnicat.png)](https://codeclimate.com/github/mustafaturan/omnicat)
 A generalized framework for text classifications. For now, it only supports Naive Bayes algorithm for text classification.

data/lib/omnicat/classifiers/bayes.rb CHANGED

@@ -2,8 +2,12 @@ module OmniCat
   module Classifiers
     class Bayes < ::OmniCat::Classifiers::Base
-      attr_accessor :categories, :category_count, :doc_count, :token_count, :uniq_token_count
-      attr_accessor :k_value # helper val for skipping some Bayes theorem errors
+      attr_accessor :categories # ::OmniCat::Hash - Hash of categories
+      attr_accessor :category_count # Integer - Total category count
+      attr_accessor :doc_count # Integer - Total token count
+      attr_accessor :token_count # Integer - Total token count
+      attr_accessor :uniq_token_count # Integer - Total uniq token count
+      attr_accessor :k_value # Integer - Helper value for skipping some Bayes algorithm errors
       def initialize(bayes_hash = {})
         self.categories = ::OmniCat::Hash.new
@@ -56,20 +60,11 @@ module OmniCat
       #   bayes.train("neutral", "how is the management gui")
       def train(category_name, doc)
         if category_exists?(category_name)
-          self.doc_count += 1
-          categories[category_name].doc_count += 1
+          increment_doc_counts(category_name)
+          update_priors
           doc.tokenize_with_counts.each do |token, count|
-            uniq_token_addition = 0
-            categories.each do |name, category|
-               if category.tokens.has_key?(token)
-                 uniq_token_addition = 1
-                 break
-               end
-            end
-            self.uniq_token_count += 1 if uniq_token_addition == 0
-            self.token_count += count
+            increment_token_counts(category_name, token, count)
             self.categories[category_name].tokens[token] = self.categories[category_name].tokens[token].to_i + count
-            self.categories[category_name].token_count += count
           end
         else
           raise StandardError,
@@ -99,27 +94,13 @@ module OmniCat
         end
         score = -1000000
         result = ::OmniCat::Result.new
-        categories.each do |name, category|
-          prior = category.doc_count / doc_count.to_f
-          result.scores[name] = k_value
-          doc.tokenize_with_counts.each do |token, count|
-            if category.tokens[token].to_i == 0
-              result.scores[name] *= k_value / token_count
-            else
-              result.scores[name] *= (
-                count * (
-                  (category.tokens[token].to_i + k_value) /
-                  (category.token_count + uniq_token_count)
-                )
-              )
-            end
+        self.categories.each do |category_name, category|
+          result.scores[category_name] = doc_probability(category, doc)
+          if result.scores[category_name] > score
+            result.category[:name] = category_name
+            score = result.scores[category_name]
           end
-          result.scores[name] = prior * result.scores[name]
-          if result.scores[name] > score
-            result.category[:name] = name;
-            score = result.scores[name];
-          end
-          result.total_score += result.scores[name]
+          result.total_score += result.scores[category_name]
         end
         result.total_score = 1 if result.total_score == 0
         result.category[:percentage] = (
@@ -135,6 +116,59 @@ module OmniCat
           categories.has_key?(category_name)
         end
+        # nodoc
+        def increment_doc_counts(category_name)
+          self.doc_count += 1
+          self.categories[category_name].doc_count += 1
+        end
+        # nodoc
+        def update_priors
+          self.categories.each do |_, category|
+            category.prior = category.doc_count / doc_count.to_f
+          end
+        end
+        # nodoc
+        def increment_token_counts(category_name, token, count)
+          increment_uniq_token_count(token)
+          self.token_count += count
+          self.categories[category_name].token_count += count
+        end
+        # nodoc
+        def increment_uniq_token_count(token)
+          uniq_token_addition = 0
+          categories.each do |_, category|
+             if category.tokens.has_key?(token)
+               uniq_token_addition = 1
+               break
+             end
+          end
+          self.uniq_token_count += 1 if uniq_token_addition == 0
+        end
+        # nodoc
+        def doc_probability(category, doc)
+          score = k_value
+          doc.tokenize_with_counts.each do |token, count|
+            score *= token_probability(category, token, count)
+          end
+          category.prior * score
+        end
+        # nodoc
+        def token_probability(category, token, count)
+          if category.tokens[token].to_i == 0
+            k_value / token_count
+          else
+            count * (
+              (category.tokens[token].to_i + k_value) /
+              (category.token_count + uniq_token_count)
+            )
+          end
+        end
     end
   end
 end

data/lib/omnicat/classifiers/bayes_internals/category.rb CHANGED

@@ -2,10 +2,11 @@ module OmniCat
   module Classifiers
     module BayesInternals
       class Category < ::OmniCat::Base
-        attr_accessor :doc_count, :tokens, :token_count
+        attr_accessor :doc_count, :prior, :tokens, :token_count
         def initialize(category_hash = {})
           self.doc_count = category_hash[:doc_count].to_i
+          self.prior = category_hash[:prior].to_f
           self.tokens = category_hash[:tokens] || {}
           self.token_count = category_hash[:token_count].to_i
         end

data/lib/omnicat/version.rb CHANGED

@@ -1,3 +1,3 @@
 module OmniCat
-  VERSION = "0.1.2"
+  VERSION = "0.1.3"
 end

data/lib/test/unit/hash_test.rb CHANGED

@@ -2,7 +2,7 @@ require File.expand_path(File.join(File.dirname(__FILE__), '..', 'test_helper'))
 class TestHash < Test::Unit::TestCase
   def test_to_hash
-    categories_hash = { "pos" => { doc_count: 0, tokens: {}, token_count: 0 } }
+    categories_hash = { "pos" => { doc_count: 0, prior: 0.0, tokens: {}, token_count: 0 } }
     categories = OmniCat::Hash.new
     categories["pos"] = OmniCat::Classifiers::BayesInternals::Category.new(categories_hash["pos"])
     assert_equal(categories_hash, categories.to_hash)

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: omnicat
 version: !ruby/object:Gem::Version
-  version: 0.1.2
+  version: 0.1.3
 platform: ruby
 authors:
 - Mustafa Turan