RubyGems - disco - Versions diffs - 0.2.5 → 0.2.6 - Mend

disco 0.2.5 → 0.2.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA256:
-  metadata.gz: 8fbecb858b316ed39a9cb726263e182561cba6df498e6253d88c79ebec5cab05
-  data.tar.gz: 42eb38a6e4e0b3fc5a9452deae5a48676ae9a53e78eeb6197718a0c94bd02b6b
+  metadata.gz: a7823dbe0e68967c39a59f8cdc2fe577f4366b492e0559487606b74a7de1cc84
+  data.tar.gz: ba40e46b203e424eccb811c6b042c9a283356c42585b7e00123b4bb2f232b1e2
 SHA512:
-  metadata.gz: d0250346d75fba75064a29578f6bfd39f09ecf712ba2e505b97a4952b5ff8b31af307eb1b912e9b25cc3dc28dee0d096bea44b47bb2ef268859bb4171f0ef8b2
-  data.tar.gz: 7b341328c12885efd0ffece4201036bb9457caee80a48a99ba110af9a81bcf832bbc1e8f8f5f14e7fddffef2dd3f4643837e0d569c997ab0c2d9ae85e12422f7
+  metadata.gz: ee43326933ac019b0bae631631ba79a7b1e03d1e9669361ef7722aa5a43b7bf2a2f49ccf8b098ab23539392fd09b83224c3cb9d340b80483179fabb45d62ee30
+  data.tar.gz: 9733820cc4e81b22cca51dbf89a02aa87e96cbbc1add753b2799878b5b50b549f2a27886dcfae387ad4cc158ce4bd651354f8bbd2514460ac07a60560ad5c455

data/CHANGELOG.md CHANGED Viewed

@@ -1,3 +1,10 @@
+## 0.2.6 (2021-02-24)
+- Improved performance
+- Improved `inspect` method
+- Fixed issue with `similar_users` and `item_recs` returning the original user/item
+- Fixed error with `fit` after loading
 ## 0.2.5 (2021-02-20)
 - Added `top_items` method

data/README.md CHANGED Viewed

@@ -44,7 +44,7 @@ recommender.fit([
 ])
 ```
-> Use `value` instead of rating for implicit feedback
+> Use `value` instead of `rating` for implicit feedback
 Get user-based recommendations - “users like you also liked”
@@ -247,7 +247,7 @@ recommender.fit(data)
 recommender.top_items
 ```
-This uses [Wilson score](https://www.evanmiller.org/how-not-to-sort-by-average-rating.html) for explicit feedback (add [wilson_score](https://github.com/instacart/wilson_score) your application’s Gemfile) and item frequency for implicit feedback.
+This uses [Wilson score](https://www.evanmiller.org/how-not-to-sort-by-average-rating.html) for explicit feedback (add [wilson_score](https://github.com/instacart/wilson_score) to your application’s Gemfile) and item frequency for implicit feedback.
 ## Data
@@ -269,7 +269,7 @@ Or a Daru data frame
 Daru::DataFrame.from_csv("ratings.csv")
 ```
-## Performance [master]
+## Performance
 If you have a large number of users or items, you can use an approximate nearest neighbors library like [Faiss](https://github.com/ankane/faiss) to improve the performance of certain methods.

data/lib/disco/recommender.rb CHANGED Viewed

@@ -17,24 +17,28 @@ module Disco
       check_training_set(train_set)
+      # TODO option to set in initializer to avoid pass
+      # could also just check first few values
+      # but may be confusing if they are all missing and later ones aren't
       @implicit = !train_set.any? { |v| v[:rating] }
+      # TODO improve performance
+      # (catch exception instead of checking ahead of time)
       unless @implicit
         check_ratings(train_set)
-        @min_rating, @max_rating = train_set.minmax_by { |o| o[:rating] }.map { |o| o[:rating] }
         if validation_set
           check_ratings(validation_set)
         end
       end
-      update_maps(train_set)
       @rated = Hash.new { |hash, key| hash[key] = {} }
       input = []
       value_key = @implicit ? :value : :rating
       train_set.each do |v|
-        u = @user_map[v[:user_id]]
-        i = @item_map[v[:item_id]]
+        # update maps and build matrix in single pass
+        u = (@user_map[v[:user_id]] ||= @user_map.size)
+        i = (@item_map[v[:item_id]] ||= @item_map.size)
         @rated[u][i] = true
         # explicit will always have a value due to check_ratings
@@ -42,6 +46,15 @@ module Disco
       end
       @rated.default = nil
+      # much more efficient than checking every value in another pass
+      raise ArgumentError, "Missing user_id" if @user_map.key?(nil)
+      raise ArgumentError, "Missing item_id" if @item_map.key?(nil)
+      # TODO improve performance
+      unless @implicit
+        @min_rating, @max_rating = train_set.minmax_by { |o| o[:rating] }.map { |o| o[:rating] }
+      end
       if @top_items
         @item_count = [0] * @item_map.size
         @item_sum = [0.0] * @item_map.size
@@ -78,6 +91,9 @@ module Disco
       @user_factors = model.p_factors(format: :numo)
       @item_factors = model.q_factors(format: :numo)
+      @normalized_user_factors = nil
+      @normalized_item_factors = nil
       @user_recs_index = nil
       @similar_users_index = nil
       @similar_items_index = nil
@@ -149,13 +165,13 @@ module Disco
     def similar_items(item_id, count: 5)
       check_fit
-      similar(item_id, @item_map, item_norms, count, @similar_items_index)
+      similar(item_id, @item_map, normalized_item_factors, count, @similar_items_index)
     end
     alias_method :item_recs, :similar_items
     def similar_users(user_id, count: 5)
       check_fit
-      similar(user_id, @user_map, user_norms, count, @similar_users_index)
+      similar(user_id, @user_map, normalized_user_factors, count, @similar_users_index)
     end
     def top_items(count: 5)
@@ -212,13 +228,17 @@ module Disco
     def optimize_similar_items(library: nil)
       check_fit
-      @similar_items_index = create_index(item_norms, library: library)
+      @similar_items_index = create_index(normalized_item_factors, library: library)
     end
     alias_method :optimize_item_recs, :optimize_similar_items
     def optimize_similar_users(library: nil)
       check_fit
-      @similar_users_index = create_index(user_norms, library: library)
+      @similar_users_index = create_index(normalized_user_factors, library: library)
+    end
+    def inspect
+      to_s # for now
     end
     private
@@ -251,7 +271,7 @@ module Disco
         # https://github.com/yahoojapan/NGT/issues/36
         index = Ngt::Index.new(factors.shape[1], distance_type: "Cosine")
-        # NGT normalizes so could call create_index with factors instead of norms
+        # NGT normalizes so could call create_index without normalized factors
         # but keep code simple for now
         ids = index.batch_insert(factors)
         raise "Unexpected ids. Please report a bug." if ids.first != 1 || ids.last != factors.shape[0]
@@ -262,15 +282,15 @@ module Disco
       end
     end
-    def user_norms
-      @user_norms ||= norms(@user_factors)
+    def normalized_user_factors
+      @normalized_user_factors ||= normalize(@user_factors)
     end
-    def item_norms
-      @item_norms ||= norms(@item_factors)
+    def normalized_item_factors
+      @normalized_item_factors ||= normalize(@item_factors)
     end
-    def norms(factors)
+    def normalize(factors)
       norms = Numo::SFloat::Math.sqrt((factors * factors).sum(axis: 1))
       norms[norms.eq(0)] = 1e-10 # no zeros
       factors / norms.expand_dims(1)
@@ -303,30 +323,26 @@ module Disco
         # TODO use user_id for similar_users in 0.3.0
         key = :item_id
-        (1...ids.size).map do |i|
-          {key => keys[ids[i]], score: predictions[i]}
+        result = []
+        # items can have the same score
+        # so original item may not be at index 0
+        ids.each_with_index do |id, j|
+          next if id == i
+          result << {key => keys[id], score: predictions[j]}
         end
+        result
       else
         []
       end
     end
-    def update_maps(train_set)
-      raise ArgumentError, "Missing user_id" if train_set.any? { |v| v[:user_id].nil? }
-      raise ArgumentError, "Missing item_id" if train_set.any? { |v| v[:item_id].nil? }
-      train_set.each do |v|
-        @user_map[v[:user_id]] ||= @user_map.size
-        @item_map[v[:item_id]] ||= @item_map.size
-      end
-    end
     def check_ratings(ratings)
       unless ratings.all? { |r| !r[:rating].nil? }
-        raise ArgumentError, "Missing ratings"
+        raise ArgumentError, "Missing rating"
       end
       unless ratings.all? { |r| r[:rating].is_a?(Numeric) }
-        raise ArgumentError, "Ratings must be numeric"
+        raise ArgumentError, "Rating must be numeric"
       end
     end
@@ -365,7 +381,10 @@ module Disco
         rated: @rated,
         global_mean: @global_mean,
         user_factors: @user_factors,
-        item_factors: @item_factors
+        item_factors: @item_factors,
+        factors: @factors,
+        epochs: @epochs,
+        verbose: @verbose
       }
       unless @implicit
@@ -389,6 +408,9 @@ module Disco
       @global_mean = obj[:global_mean]
       @user_factors = obj[:user_factors]
       @item_factors = obj[:item_factors]
+      @factors = obj[:factors]
+      @epochs = obj[:epochs]
+      @verbose = obj[:verbose]
       unless @implicit
         @min_rating = obj[:min_rating]

data/lib/disco/version.rb CHANGED Viewed

@@ -1,3 +1,3 @@
 module Disco
-  VERSION = "0.2.5"
+  VERSION = "0.2.6"
 end

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: disco
 version: !ruby/object:Gem::Version
-  version: 0.2.5
+  version: 0.2.6
 platform: ruby
 authors:
 - Andrew Kane
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2021-02-20 00:00:00.000000000 Z
+date: 2021-02-24 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: libmf