RubyGems - omnicat - Versions diffs - 0.1.2 → 0.1.3 - Mend

omnicat 0.1.2 → 0.1.3

Files changed (8) hide show

checksums.yaml +4 -4
data/CHANGELOG.txt +3 -0
data/README.md +1 -1
data/lib/omnicat/classifiers/bayes.rb +68 -34
data/lib/omnicat/classifiers/bayes_internals/category.rb +2 -1
data/lib/omnicat/version.rb +1 -1
data/lib/test/unit/hash_test.rb +1 -1
metadata +1 -1

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 5d04e29b0e2e16e019592553041b62eb9b759d3d
-  data.tar.gz: 1a4614e75aef06179e7c9589a73bf9c0b3552d20
+  metadata.gz: ea920e881bd63f956dd1237f666d008f893668af
+  data.tar.gz: f9d1ec2fe73eb047c5ac661c42600cff033fd35f
 SHA512:
-  metadata.gz: d30317305905b877570cc2626665b74b56d3d4278422398ed05bb836d2316b2cb3fe4faee1cb0e26e1068121151fb0ba49b1eac61b79541fd2e44c23c6d19c03
-  data.tar.gz: bc998d7a815212af3881fb81bfa18bda74d1f68df1a273f9c17fdbf76340579de26953a384eb30edbdfac51409ddb7279e6195bac1e86d51f6e11bde48e5029e
+  metadata.gz: 4c65cec9bf29fc07b9b0f0eee51da3bfc40f2ba8e443daf287b3e76f499b9084e8526baeb7b7319acd7eeda826ff9a892a0e761848d23e52af2e4545cfbd60ff
+  data.tar.gz: 3f153307273e1c94bea62399a1d1f8d039b4c17956187779f08726429329a84acbce2ede51c7ade3c2ef2b1a778f37da664ae9855144f07a2c906f23d0ee5d80

data/CHANGELOG.txt CHANGED

@@ -1,3 +1,6 @@
+0.1.3
+# refactoring at bayes algorithm
 0.1.2
 # fix the bayes algorithm (so important changes!)

data/README.md CHANGED

@@ -1,6 +1,6 @@
 # OmniCat
-[![Build Status](https://travis-ci.org/mustafaturan/omnicat.png)](https://travis-ci.org/mustafaturan/omnicat)
+[![Build Status](https://travis-ci.org/mustafaturan/omnicat.png)](https://travis-ci.org/mustafaturan/omnicat) [![Code Climate](https://codeclimate.com/github/mustafaturan/omnicat.png)](https://codeclimate.com/github/mustafaturan/omnicat)
 A generalized framework for text classifications. For now, it only supports Naive Bayes algorithm for text classification.

data/lib/omnicat/classifiers/bayes.rb CHANGED

@@ -2,8 +2,12 @@ module OmniCat
   module Classifiers
     class Bayes < ::OmniCat::Classifiers::Base
-      attr_accessor :categories, :category_count, :doc_count, :token_count, :uniq_token_count
-      attr_accessor :k_value # helper val for skipping some Bayes theorem errors
+      attr_accessor :categories # ::OmniCat::Hash - Hash of categories
+      attr_accessor :category_count # Integer - Total category count
+      attr_accessor :doc_count # Integer - Total token count
+      attr_accessor :token_count # Integer - Total token count
+      attr_accessor :uniq_token_count # Integer - Total uniq token count
+      attr_accessor :k_value # Integer - Helper value for skipping some Bayes algorithm errors
       def initialize(bayes_hash = {})
         self.categories = ::OmniCat::Hash.new
@@ -56,20 +60,11 @@ module OmniCat
       #   bayes.train("neutral", "how is the management gui")
       def train(category_name, doc)
         if category_exists?(category_name)
-          self.doc_count += 1
-          categories[category_name].doc_count += 1
+          increment_doc_counts(category_name)
+          update_priors
           doc.tokenize_with_counts.each do |token, count|
-            uniq_token_addition = 0
-            categories.each do |name, category|
-               if category.tokens.has_key?(token)
-                 uniq_token_addition = 1
-                 break
-               end
-            end
-            self.uniq_token_count += 1 if uniq_token_addition == 0
-            self.token_count += count
+            increment_token_counts(category_name, token, count)
             self.categories[category_name].tokens[token] = self.categories[category_name].tokens[token].to_i + count
-            self.categories[category_name].token_count += count
           end
         else
           raise StandardError,
@@ -99,27 +94,13 @@ module OmniCat
         end
         score = -1000000
         result = ::OmniCat::Result.new
-        categories.each do |name, category|
-          prior = category.doc_count / doc_count.to_f
-          result.scores[name] = k_value
-          doc.tokenize_with_counts.each do |token, count|
-            if category.tokens[token].to_i == 0
-              result.scores[name] *= k_value / token_count
-            else
-              result.scores[name] *= (
-                count * (
-                  (category.tokens[token].to_i + k_value) /
-                  (category.token_count + uniq_token_count)
-                )
-              )
-            end
+        self.categories.each do |category_name, category|
+          result.scores[category_name] = doc_probability(category, doc)
+          if result.scores[category_name] > score
+            result.category[:name] = category_name
+            score = result.scores[category_name]
           end
-          result.scores[name] = prior * result.scores[name]
-          if result.scores[name] > score
-            result.category[:name] = name;
-            score = result.scores[name];
-          end
-          result.total_score += result.scores[name]
+          result.total_score += result.scores[category_name]
         end
         result.total_score = 1 if result.total_score == 0
         result.category[:percentage] = (
@@ -135,6 +116,59 @@ module OmniCat
           categories.has_key?(category_name)
         end
+        # nodoc
+        def increment_doc_counts(category_name)
+          self.doc_count += 1
+          self.categories[category_name].doc_count += 1
+        end
+        # nodoc
+        def update_priors
+          self.categories.each do |_, category|
+            category.prior = category.doc_count / doc_count.to_f
+          end
+        end
+        # nodoc
+        def increment_token_counts(category_name, token, count)
+          increment_uniq_token_count(token)
+          self.token_count += count
+          self.categories[category_name].token_count += count
+        end
+        # nodoc
+        def increment_uniq_token_count(token)
+          uniq_token_addition = 0
+          categories.each do |_, category|
+             if category.tokens.has_key?(token)
+               uniq_token_addition = 1
+               break
+             end
+          end
+          self.uniq_token_count += 1 if uniq_token_addition == 0
+        end
+        # nodoc
+        def doc_probability(category, doc)
+          score = k_value
+          doc.tokenize_with_counts.each do |token, count|
+            score *= token_probability(category, token, count)
+          end
+          category.prior * score
+        end
+        # nodoc
+        def token_probability(category, token, count)
+          if category.tokens[token].to_i == 0
+            k_value / token_count
+          else
+            count * (
+              (category.tokens[token].to_i + k_value) /
+              (category.token_count + uniq_token_count)
+            )
+          end
+        end
     end
   end
 end

data/lib/omnicat/classifiers/bayes_internals/category.rb CHANGED

@@ -2,10 +2,11 @@ module OmniCat
   module Classifiers
     module BayesInternals
       class Category < ::OmniCat::Base
-        attr_accessor :doc_count, :tokens, :token_count
+        attr_accessor :doc_count, :prior, :tokens, :token_count
         def initialize(category_hash = {})
           self.doc_count = category_hash[:doc_count].to_i
+          self.prior = category_hash[:prior].to_f
           self.tokens = category_hash[:tokens] || {}
           self.token_count = category_hash[:token_count].to_i
         end

data/lib/omnicat/version.rb CHANGED

@@ -1,3 +1,3 @@
 module OmniCat
-  VERSION = "0.1.2"
+  VERSION = "0.1.3"
 end

data/lib/test/unit/hash_test.rb CHANGED

@@ -2,7 +2,7 @@ require File.expand_path(File.join(File.dirname(__FILE__), '..', 'test_helper'))
 class TestHash < Test::Unit::TestCase
   def test_to_hash
-    categories_hash = { "pos" => { doc_count: 0, tokens: {}, token_count: 0 } }
+    categories_hash = { "pos" => { doc_count: 0, prior: 0.0, tokens: {}, token_count: 0 } }
     categories = OmniCat::Hash.new
     categories["pos"] = OmniCat::Classifiers::BayesInternals::Category.new(categories_hash["pos"])
     assert_equal(categories_hash, categories.to_hash)

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: omnicat
 version: !ruby/object:Gem::Version
-  version: 0.1.2
+  version: 0.1.3
 platform: ruby
 authors:
 - Mustafa Turan