PyPI - replay-rec - Versions diffs - 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl - Mend

replay-rec 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (110) hide show

replay/__init__.py +1 -1
replay/data/__init__.py +1 -1
replay/data/dataset.py +45 -42
replay/data/dataset_utils/dataset_label_encoder.py +6 -7
replay/data/nn/__init__.py +1 -1
replay/data/nn/schema.py +20 -33
replay/data/nn/sequence_tokenizer.py +217 -87
replay/data/nn/sequential_dataset.py +6 -22
replay/data/nn/torch_sequential_dataset.py +20 -11
replay/data/nn/utils.py +7 -9
replay/data/schema.py +17 -17
replay/data/spark_schema.py +0 -1
replay/metrics/base_metric.py +38 -79
replay/metrics/categorical_diversity.py +24 -58
replay/metrics/coverage.py +25 -49
replay/metrics/descriptors.py +4 -13
replay/metrics/experiment.py +3 -8
replay/metrics/hitrate.py +3 -6
replay/metrics/map.py +3 -6
replay/metrics/mrr.py +1 -4
replay/metrics/ndcg.py +4 -7
replay/metrics/novelty.py +10 -29
replay/metrics/offline_metrics.py +26 -61
replay/metrics/precision.py +3 -6
replay/metrics/recall.py +3 -6
replay/metrics/rocauc.py +7 -10
replay/metrics/surprisal.py +13 -30
replay/metrics/torch_metrics_builder.py +0 -4
replay/metrics/unexpectedness.py +15 -20
replay/models/__init__.py +1 -2
replay/models/als.py +7 -15
replay/models/association_rules.py +12 -28
replay/models/base_neighbour_rec.py +21 -36
replay/models/base_rec.py +92 -215
replay/models/cat_pop_rec.py +9 -22
replay/models/cluster.py +17 -28
replay/models/extensions/ann/ann_mixin.py +7 -12
replay/models/extensions/ann/entities/base_hnsw_param.py +1 -1
replay/models/extensions/ann/entities/hnswlib_param.py +0 -6
replay/models/extensions/ann/entities/nmslib_hnsw_param.py +0 -6
replay/models/extensions/ann/index_builders/driver_hnswlib_index_builder.py +4 -10
replay/models/extensions/ann/index_builders/driver_nmslib_index_builder.py +7 -11
replay/models/extensions/ann/index_builders/executor_hnswlib_index_builder.py +5 -12
replay/models/extensions/ann/index_builders/executor_nmslib_index_builder.py +11 -18
replay/models/extensions/ann/index_builders/nmslib_index_builder_mixin.py +1 -4
replay/models/extensions/ann/index_inferers/base_inferer.py +3 -10
replay/models/extensions/ann/index_inferers/hnswlib_filter_index_inferer.py +7 -17
replay/models/extensions/ann/index_inferers/hnswlib_index_inferer.py +6 -14
replay/models/extensions/ann/index_inferers/nmslib_filter_index_inferer.py +14 -28
replay/models/extensions/ann/index_inferers/nmslib_index_inferer.py +15 -25
replay/models/extensions/ann/index_inferers/utils.py +2 -9
replay/models/extensions/ann/index_stores/hdfs_index_store.py +4 -9
replay/models/extensions/ann/index_stores/shared_disk_index_store.py +2 -6
replay/models/extensions/ann/index_stores/spark_files_index_store.py +8 -14
replay/models/extensions/ann/index_stores/utils.py +5 -2
replay/models/extensions/ann/utils.py +3 -5
replay/models/kl_ucb.py +16 -22
replay/models/knn.py +37 -59
replay/models/nn/optimizer_utils/__init__.py +1 -6
replay/models/nn/optimizer_utils/optimizer_factory.py +3 -6
replay/models/nn/sequential/bert4rec/__init__.py +1 -1
replay/models/nn/sequential/bert4rec/dataset.py +6 -7
replay/models/nn/sequential/bert4rec/lightning.py +53 -56
replay/models/nn/sequential/bert4rec/model.py +12 -25
replay/models/nn/sequential/callbacks/__init__.py +1 -1
replay/models/nn/sequential/callbacks/prediction_callbacks.py +23 -25
replay/models/nn/sequential/callbacks/validation_callback.py +27 -30
replay/models/nn/sequential/postprocessors/postprocessors.py +1 -1
replay/models/nn/sequential/sasrec/dataset.py +8 -7
replay/models/nn/sequential/sasrec/lightning.py +53 -48
replay/models/nn/sequential/sasrec/model.py +4 -17
replay/models/pop_rec.py +9 -10
replay/models/query_pop_rec.py +7 -15
replay/models/random_rec.py +10 -18
replay/models/slim.py +8 -13
replay/models/thompson_sampling.py +13 -14
replay/models/ucb.py +11 -22
replay/models/wilson.py +5 -14
replay/models/word2vec.py +24 -69
replay/optimization/optuna_objective.py +13 -27
replay/preprocessing/__init__.py +1 -2
replay/preprocessing/converter.py +2 -7
replay/preprocessing/filters.py +67 -142
replay/preprocessing/history_based_fp.py +44 -116
replay/preprocessing/label_encoder.py +106 -68
replay/preprocessing/sessionizer.py +1 -11
replay/scenarios/fallback.py +3 -8
replay/splitters/base_splitter.py +43 -15
replay/splitters/cold_user_random_splitter.py +18 -31
replay/splitters/k_folds.py +14 -24
replay/splitters/last_n_splitter.py +33 -43
replay/splitters/new_users_splitter.py +31 -55
replay/splitters/random_splitter.py +16 -23
replay/splitters/ratio_splitter.py +30 -54
replay/splitters/time_splitter.py +13 -18
replay/splitters/two_stage_splitter.py +44 -79
replay/utils/__init__.py +1 -1
replay/utils/common.py +65 -0
replay/utils/dataframe_bucketizer.py +25 -31
replay/utils/distributions.py +3 -15
replay/utils/model_handler.py +36 -33
replay/utils/session_handler.py +11 -15
replay/utils/spark_utils.py +51 -85
replay/utils/time.py +8 -22
replay/utils/types.py +1 -3
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/METADATA +2 -2
replay_rec-0.17.0.dist-info/RECORD +127 -0
replay_rec-0.16.0.dist-info/RECORD +0 -126
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/LICENSE +0 -0
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/WHEEL +0 -0

replay/models/association_rules.py CHANGED Viewed

@@ -3,16 +3,16 @@ from typing import Any, Dict, Iterable, List, Optional, Union
 import numpy as np
 from replay.data import Dataset
+from replay.utils import PYSPARK_AVAILABLE, SparkDataFrame
 from .base_neighbour_rec import NeighbourRec
 from .extensions.ann.index_builders.base_index_builder import IndexBuilder
-from replay.utils import PYSPARK_AVAILABLE, SparkDataFrame
 if PYSPARK_AVAILABLE:
     import pyspark.sql.functions as sf
     from pyspark.sql.window import Window
-# pylint: disable=too-many-ancestors, too-many-instance-attributes
 class AssociationRulesItemRec(NeighbourRec):
     """
     Item-to-item recommender based on association rules.
@@ -117,7 +117,6 @@ class AssociationRulesItemRec(NeighbourRec):
         },
     }
-    # pylint: disable=too-many-arguments,
     def __init__(
         self,
         session_column: str,
@@ -204,14 +203,11 @@ class AssociationRulesItemRec(NeighbourRec):
             frequent_items_interactions.withColumnRenamed(self.item_column, "antecedent")
             .withColumnRenamed(self.rating_column, "antecedent_rel")
             .join(
-                frequent_items_interactions.withColumnRenamed(
-                    self.session_column, self.session_column + "_cons"
-                )
+                frequent_items_interactions.withColumnRenamed(self.session_column, self.session_column + "_cons")
                 .withColumnRenamed(self.item_column, "consequent")
                 .withColumnRenamed(self.rating_column, "consequent_rel"),
                 on=[
-                    sf.col(self.session_column)
-                    == sf.col(self.session_column + "_cons"),
+                    sf.col(self.session_column) == sf.col(self.session_column + "_cons"),
                     sf.col("antecedent") < sf.col("consequent"),
                 ],
             )
@@ -220,9 +216,7 @@ class AssociationRulesItemRec(NeighbourRec):
                 self.rating_column,
                 sf.least(sf.col("consequent_rel"), sf.col("antecedent_rel")),
             )
-            .drop(
-                self.session_column + "_cons", "consequent_rel", "antecedent_rel"
-            )
+            .drop(self.session_column + "_cons", "consequent_rel", "antecedent_rel")
         )
         pairs_count = (
@@ -243,16 +237,12 @@ class AssociationRulesItemRec(NeighbourRec):
         )
         pairs_metrics = pairs_metrics.join(
-            frequent_items_cached.withColumnRenamed(
-                "item_rating", "antecedent_rating"
-            ),
+            frequent_items_cached.withColumnRenamed("item_rating", "antecedent_rating"),
             on=[sf.col("antecedent") == sf.col(self.item_column)],
         ).drop(self.item_column)
         pairs_metrics = pairs_metrics.join(
-            frequent_items_cached.withColumnRenamed(
-                "item_rating", "consequent_rating"
-            ),
+            frequent_items_cached.withColumnRenamed("item_rating", "consequent_rating"),
             on=[sf.col("consequent") == sf.col(self.item_column)],
         ).drop(self.item_column)
@@ -261,9 +251,7 @@ class AssociationRulesItemRec(NeighbourRec):
             sf.col("pair_rating") / sf.col("antecedent_rating"),
         ).withColumn(
             "lift",
-            num_sessions
-            * sf.col("confidence")
-            / sf.col("consequent_rating"),
+            num_sessions * sf.col("confidence") / sf.col("consequent_rating"),
         )
         if self.num_neighbours is not None:
@@ -331,10 +319,8 @@ class AssociationRulesItemRec(NeighbourRec):
             spark-dataframe with columns ``[item_id, neighbour_item_id, similarity]``
         """
         if metric not in self.item_to_item_metrics:
-            raise ValueError(
-                f"Select one of the valid distance metrics: "
-                f"{self.item_to_item_metrics}"
-            )
+            msg = f"Select one of the valid distance metrics: {self.item_to_item_metrics}"
+            raise ValueError(msg)
         return self._get_nearest_items_wrap(
             items=items,
@@ -346,7 +332,7 @@ class AssociationRulesItemRec(NeighbourRec):
     def _get_nearest_items(
         self,
         items: SparkDataFrame,
-        metric: Optional[str] = None,
+        metric: Optional[str] = None,  # noqa: ARG002
         candidates: Optional[SparkDataFrame] = None,
     ) -> SparkDataFrame:
         """
@@ -361,9 +347,7 @@ class AssociationRulesItemRec(NeighbourRec):
         pairs_to_consider = self.similarity
         if candidates is not None:
             pairs_to_consider = self.similarity.join(
-                sf.broadcast(
-                    candidates.withColumnRenamed(self.item_column, "item_idx_two")
-                ),
+                sf.broadcast(candidates.withColumnRenamed(self.item_column, "item_idx_two")),
                 on="item_idx_two",
             )

replay/models/base_neighbour_rec.py CHANGED Viewed

@@ -1,4 +1,3 @@
-# pylint: disable=too-many-lines
 """
 NeighbourRec - base class that requires interactions at prediction time.
 Part of set of abstract classes (from base_rec.py)
@@ -8,9 +7,10 @@ from abc import ABC
 from typing import Any, Dict, Iterable, Optional, Union
 from replay.data.dataset import Dataset
+from replay.utils import PYSPARK_AVAILABLE, MissingImportType, SparkDataFrame
 from .base_rec import Recommender
 from .extensions.ann.ann_mixin import ANNMixin
-from replay.utils import PYSPARK_AVAILABLE, MissingImportType, SparkDataFrame
 if PYSPARK_AVAILABLE:
     from pyspark.sql import functions as sf
@@ -37,7 +37,6 @@ class NeighbourRec(Recommender, ANNMixin, ABC):
         if hasattr(self, "similarity"):
             self.similarity.unpersist()
-    # pylint: disable=missing-function-docstring
     @property
     def similarity_metric(self):
         return self._similarity_metric
@@ -45,14 +44,11 @@ class NeighbourRec(Recommender, ANNMixin, ABC):
     @similarity_metric.setter
     def similarity_metric(self, value):
         if not self.can_change_metric:
-            raise ValueError(
-                "This class does not support changing similarity metrics"
-            )
+            msg = "This class does not support changing similarity metrics"
+            raise ValueError(msg)
         if value not in self.item_to_item_metrics:
-            raise ValueError(
-                f"Select one of the valid metrics for predict: "
-                f"{self.item_to_item_metrics}"
-            )
+            msg = f"Select one of the valid metrics for predict: {self.item_to_item_metrics}"
+            raise ValueError(msg)
         self._similarity_metric = value
     def _predict_pairs_inner(
@@ -76,9 +72,8 @@ class NeighbourRec(Recommender, ANNMixin, ABC):
         :return: SparkDataFrame ``[user_id, item_id, rating]``
         """
         if dataset is None:
-            raise ValueError(
-                "interactions is not provided, but it is required for prediction"
-            )
+            msg = "interactions is not provided, but it is required for prediction"
+            raise ValueError(msg)
         recs = (
             dataset.interactions.join(queries, how="inner", on=self.query_column)
@@ -98,16 +93,14 @@ class NeighbourRec(Recommender, ANNMixin, ABC):
         )
         return recs
-    # pylint: disable=too-many-arguments
     def _predict(
         self,
         dataset: Dataset,
-        k: int,
+        k: int,  # noqa: ARG002
         queries: SparkDataFrame,
         items: SparkDataFrame,
-        filter_seen_items: bool = True,
+        filter_seen_items: bool = True,  # noqa: ARG002
     ) -> SparkDataFrame:
         return self._predict_pairs_inner(
             dataset=dataset,
             filter_df=items.withColumnRenamed(self.item_column, "item_idx_filter"),
@@ -120,13 +113,12 @@ class NeighbourRec(Recommender, ANNMixin, ABC):
         pairs: SparkDataFrame,
         dataset: Optional[Dataset] = None,
     ) -> SparkDataFrame:
         return self._predict_pairs_inner(
             dataset=dataset,
             filter_df=(
-                pairs.withColumnRenamed(
-                    self.query_column, "user_idx_filter"
-                ).withColumnRenamed(self.item_column, "item_idx_filter")
+                pairs.withColumnRenamed(self.query_column, "user_idx_filter").withColumnRenamed(
+                    self.item_column, "item_idx_filter"
+                )
             ),
             condition=(sf.col(self.query_column) == sf.col("user_idx_filter"))
             & (sf.col("item_idx_two") == sf.col("item_idx_filter")),
@@ -157,10 +149,8 @@ class NeighbourRec(Recommender, ANNMixin, ABC):
         if metric is not None:
             if metric not in self.item_to_item_metrics:
-                raise ValueError(
-                    f"Select one of the valid distance metrics: "
-                    f"{self.item_to_item_metrics}"
-                )
+                msg = f"Select one of the valid distance metrics: {self.item_to_item_metrics}"
+                raise ValueError(msg)
             self.logger.debug(
                 "Metric is not used to determine nearest items in %s model",
@@ -180,7 +170,6 @@ class NeighbourRec(Recommender, ANNMixin, ABC):
         metric: Optional[str] = None,
         candidates: Optional[SparkDataFrame] = None,
     ) -> SparkDataFrame:
         similarity_filtered = self.similarity.join(
             items.withColumnRenamed(self.item_column, "item_idx_one"),
             on="item_idx_one",
@@ -204,20 +193,16 @@ class NeighbourRec(Recommender, ANNMixin, ABC):
             "features_col": None,
         }
-    def _get_vectors_to_build_ann(self, interactions: SparkDataFrame) -> SparkDataFrame:
-        similarity_df = self.similarity.select(
-            "similarity", "item_idx_one", "item_idx_two"
-        )
+    def _get_vectors_to_build_ann(self, interactions: SparkDataFrame) -> SparkDataFrame:  # noqa: ARG002
+        similarity_df = self.similarity.select("similarity", "item_idx_one", "item_idx_two")
         return similarity_df
     def _get_vectors_to_infer_ann_inner(
-            self, interactions: SparkDataFrame, queries: SparkDataFrame
+        self, interactions: SparkDataFrame, queries: SparkDataFrame  # noqa: ARG002
     ) -> SparkDataFrame:
-        user_vectors = (
-            interactions.groupBy(self.query_column).agg(
-                sf.collect_list(self.item_column).alias("vector_items"),
-                sf.collect_list(self.rating_column).alias("vector_ratings"))
+        user_vectors = interactions.groupBy(self.query_column).agg(
+            sf.collect_list(self.item_column).alias("vector_items"),
+            sf.collect_list(self.rating_column).alias("vector_ratings"),
         )
         return user_vectors

replay-rec 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl

replay-rec 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl