PyPI - replay-rec - Versions diffs - 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl - Mend

replay-rec 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (110) hide show

replay/__init__.py +1 -1
replay/data/__init__.py +1 -1
replay/data/dataset.py +45 -42
replay/data/dataset_utils/dataset_label_encoder.py +6 -7
replay/data/nn/__init__.py +1 -1
replay/data/nn/schema.py +20 -33
replay/data/nn/sequence_tokenizer.py +217 -87
replay/data/nn/sequential_dataset.py +6 -22
replay/data/nn/torch_sequential_dataset.py +20 -11
replay/data/nn/utils.py +7 -9
replay/data/schema.py +17 -17
replay/data/spark_schema.py +0 -1
replay/metrics/base_metric.py +38 -79
replay/metrics/categorical_diversity.py +24 -58
replay/metrics/coverage.py +25 -49
replay/metrics/descriptors.py +4 -13
replay/metrics/experiment.py +3 -8
replay/metrics/hitrate.py +3 -6
replay/metrics/map.py +3 -6
replay/metrics/mrr.py +1 -4
replay/metrics/ndcg.py +4 -7
replay/metrics/novelty.py +10 -29
replay/metrics/offline_metrics.py +26 -61
replay/metrics/precision.py +3 -6
replay/metrics/recall.py +3 -6
replay/metrics/rocauc.py +7 -10
replay/metrics/surprisal.py +13 -30
replay/metrics/torch_metrics_builder.py +0 -4
replay/metrics/unexpectedness.py +15 -20
replay/models/__init__.py +1 -2
replay/models/als.py +7 -15
replay/models/association_rules.py +12 -28
replay/models/base_neighbour_rec.py +21 -36
replay/models/base_rec.py +92 -215
replay/models/cat_pop_rec.py +9 -22
replay/models/cluster.py +17 -28
replay/models/extensions/ann/ann_mixin.py +7 -12
replay/models/extensions/ann/entities/base_hnsw_param.py +1 -1
replay/models/extensions/ann/entities/hnswlib_param.py +0 -6
replay/models/extensions/ann/entities/nmslib_hnsw_param.py +0 -6
replay/models/extensions/ann/index_builders/driver_hnswlib_index_builder.py +4 -10
replay/models/extensions/ann/index_builders/driver_nmslib_index_builder.py +7 -11
replay/models/extensions/ann/index_builders/executor_hnswlib_index_builder.py +5 -12
replay/models/extensions/ann/index_builders/executor_nmslib_index_builder.py +11 -18
replay/models/extensions/ann/index_builders/nmslib_index_builder_mixin.py +1 -4
replay/models/extensions/ann/index_inferers/base_inferer.py +3 -10
replay/models/extensions/ann/index_inferers/hnswlib_filter_index_inferer.py +7 -17
replay/models/extensions/ann/index_inferers/hnswlib_index_inferer.py +6 -14
replay/models/extensions/ann/index_inferers/nmslib_filter_index_inferer.py +14 -28
replay/models/extensions/ann/index_inferers/nmslib_index_inferer.py +15 -25
replay/models/extensions/ann/index_inferers/utils.py +2 -9
replay/models/extensions/ann/index_stores/hdfs_index_store.py +4 -9
replay/models/extensions/ann/index_stores/shared_disk_index_store.py +2 -6
replay/models/extensions/ann/index_stores/spark_files_index_store.py +8 -14
replay/models/extensions/ann/index_stores/utils.py +5 -2
replay/models/extensions/ann/utils.py +3 -5
replay/models/kl_ucb.py +16 -22
replay/models/knn.py +37 -59
replay/models/nn/optimizer_utils/__init__.py +1 -6
replay/models/nn/optimizer_utils/optimizer_factory.py +3 -6
replay/models/nn/sequential/bert4rec/__init__.py +1 -1
replay/models/nn/sequential/bert4rec/dataset.py +6 -7
replay/models/nn/sequential/bert4rec/lightning.py +53 -56
replay/models/nn/sequential/bert4rec/model.py +12 -25
replay/models/nn/sequential/callbacks/__init__.py +1 -1
replay/models/nn/sequential/callbacks/prediction_callbacks.py +23 -25
replay/models/nn/sequential/callbacks/validation_callback.py +27 -30
replay/models/nn/sequential/postprocessors/postprocessors.py +1 -1
replay/models/nn/sequential/sasrec/dataset.py +8 -7
replay/models/nn/sequential/sasrec/lightning.py +53 -48
replay/models/nn/sequential/sasrec/model.py +4 -17
replay/models/pop_rec.py +9 -10
replay/models/query_pop_rec.py +7 -15
replay/models/random_rec.py +10 -18
replay/models/slim.py +8 -13
replay/models/thompson_sampling.py +13 -14
replay/models/ucb.py +11 -22
replay/models/wilson.py +5 -14
replay/models/word2vec.py +24 -69
replay/optimization/optuna_objective.py +13 -27
replay/preprocessing/__init__.py +1 -2
replay/preprocessing/converter.py +2 -7
replay/preprocessing/filters.py +67 -142
replay/preprocessing/history_based_fp.py +44 -116
replay/preprocessing/label_encoder.py +106 -68
replay/preprocessing/sessionizer.py +1 -11
replay/scenarios/fallback.py +3 -8
replay/splitters/base_splitter.py +43 -15
replay/splitters/cold_user_random_splitter.py +18 -31
replay/splitters/k_folds.py +14 -24
replay/splitters/last_n_splitter.py +33 -43
replay/splitters/new_users_splitter.py +31 -55
replay/splitters/random_splitter.py +16 -23
replay/splitters/ratio_splitter.py +30 -54
replay/splitters/time_splitter.py +13 -18
replay/splitters/two_stage_splitter.py +44 -79
replay/utils/__init__.py +1 -1
replay/utils/common.py +65 -0
replay/utils/dataframe_bucketizer.py +25 -31
replay/utils/distributions.py +3 -15
replay/utils/model_handler.py +36 -33
replay/utils/session_handler.py +11 -15
replay/utils/spark_utils.py +51 -85
replay/utils/time.py +8 -22
replay/utils/types.py +1 -3
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/METADATA +2 -2
replay_rec-0.17.0.dist-info/RECORD +127 -0
replay_rec-0.16.0.dist-info/RECORD +0 -126
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/LICENSE +0 -0
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/WHEEL +0 -0

replay/metrics/offline_metrics.py CHANGED Viewed

@@ -1,7 +1,7 @@
 import warnings
 from typing import Dict, List, Optional, Tuple, Union
-from replay.utils import PandasDataFrame, SparkDataFrame, PolarsDataFrame
+from replay.utils import PandasDataFrame, PolarsDataFrame, SparkDataFrame
 from .base_metric import Metric, MetricsDataFrameLike, MetricsReturnType
 from .coverage import Coverage
@@ -10,7 +10,6 @@ from .recall import Recall
 from .surprisal import Surprisal
-# pylint: disable=too-few-public-methods
 class OfflineMetrics:
     """
     Designed for efficient calculation of offline metrics provided by the RePlay.
@@ -146,7 +145,6 @@ class OfflineMetrics:
         "Recall": ["ground_truth"],
     }
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         metrics: List[Metric],
@@ -220,15 +218,11 @@ class OfflineMetrics:
             default_metric._check_duplicates_polars(recommendations)
         unchanged_recs = recommendations
-        # pylint: disable=too-many-function-args
-        result_dict["default"] = default_metric._get_enriched_recommendations(
-            recommendations, ground_truth
-        )
+        result_dict["default"] = default_metric._get_enriched_recommendations(recommendations, ground_truth)
         for metric in self.metrics:
             # find Coverage
             if metric.__class__.__name__ == "Coverage":
-                # pylint: disable=protected-access
                 result_dict["Coverage"] = Coverage(
                     topk=2,
                     query_column=query_column,
@@ -244,9 +238,7 @@ class OfflineMetrics:
                     item_column=item_column,
                     rating_column=rating_column,
                 )
-                cur_recs = novelty_metric._get_enriched_recommendations(
-                    unchanged_recs, train
-                )
+                cur_recs = novelty_metric._get_enriched_recommendations(unchanged_recs, train)
                 if is_spark:
                     cur_recs = cur_recs.withColumnRenamed("ground_truth", "train")
                 else:
@@ -265,12 +257,10 @@ class OfflineMetrics:
         return result_dict, train
-    # pylint: disable=no-self-use
     def _cache_dataframes(self, dataframes: Dict[str, SparkDataFrame]) -> None:
         for data in dataframes.values():
             data.cache()
-    # pylint: disable=no-self-use
     def _unpersist_dataframes(self, dataframes: Dict[str, SparkDataFrame]) -> None:
         for data in dataframes.values():
             data.unpersist()
@@ -294,22 +284,18 @@ class OfflineMetrics:
             else:
                 metric_args["recs"] = enriched_recs_dict["default"]
-            # pylint: disable=protected-access
             if is_spark:
                 result.update(metric._spark_compute(**metric_args))
             else:
                 result.update(metric._polars_compute(**metric_args))
         return result
-    # pylint: disable=no-self-use
     def _check_dataframes_types(
         self,
         recommendations: MetricsDataFrameLike,
         ground_truth: MetricsDataFrameLike,
         train: Optional[MetricsDataFrameLike],
-        base_recommendations: Optional[
-            Union[MetricsDataFrameLike, Dict[str, MetricsDataFrameLike]]
-        ],
+        base_recommendations: Optional[Union[MetricsDataFrameLike, Dict[str, MetricsDataFrameLike]]],
     ) -> None:
         types = set()
         types.add(type(recommendations))
@@ -317,7 +303,7 @@ class OfflineMetrics:
         if train is not None:
             types.add(type(train))
         if isinstance(base_recommendations, dict):
-            for _, df in base_recommendations.items():
+            for df in base_recommendations.values():
                 if not isinstance(df, list):
                     types.add(type(df))
                 else:
@@ -327,7 +313,8 @@ class OfflineMetrics:
             types.add(type(base_recommendations))
         if len(types) != 1:
-            raise ValueError("All given data frames must have the same type")
+            msg = "All given data frames must have the same type"
+            raise ValueError(msg)
     def _check_query_column_present(
         self,
@@ -350,7 +337,8 @@ class OfflineMetrics:
             dataset_names = dataset.columns
         if not isinstance(dataset, dict) and query_column not in dataset_names:
-            raise KeyError(f"Query column {query_column} is not present in {dataset_name} dataframe")
+            msg = f"Query column {query_column} is not present in {dataset_name} dataframe"
+            raise KeyError(msg)
     def _get_unique_queries(
         self,
@@ -386,14 +374,12 @@ class OfflineMetrics:
         if queries.issubset(other_queries) is False:
             warnings.warn(f"{dataset_name} contains queries that are not presented in recommendations")
-    def __call__(  # pylint: disable=too-many-branches, too-many-locals, too-many-statements
+    def __call__(  # noqa: C901
         self,
         recommendations: MetricsDataFrameLike,
         ground_truth: MetricsDataFrameLike,
         train: Optional[MetricsDataFrameLike] = None,
-        base_recommendations: Optional[
-            Union[MetricsDataFrameLike, Dict[str, MetricsDataFrameLike]]
-        ] = None,
+        base_recommendations: Optional[Union[MetricsDataFrameLike, Dict[str, MetricsDataFrameLike]]] = None,
     ) -> Dict[str, float]:
         """
         Compute metrics.
@@ -424,9 +410,7 @@ class OfflineMetrics:
         :return: metric values
         """
-        self._check_dataframes_types(
-            recommendations, ground_truth, train, base_recommendations
-        )
+        self._check_dataframes_types(recommendations, ground_truth, train, base_recommendations)
         if len(self.main_metrics) > 0:
             query_column = self.main_metrics[0].query_column
@@ -443,31 +427,22 @@ class OfflineMetrics:
         if train is not None:
             self._check_query_column_present(train, query_column, "train")
-            self._check_contains(
-                recs_queries,
-                self._get_unique_queries(train, query_column),
-                "train"
-            )
+            self._check_contains(recs_queries, self._get_unique_queries(train, query_column), "train")
         if base_recommendations is not None:
-            if (not isinstance(base_recommendations, dict)
-                    or isinstance(next(iter(base_recommendations.values())), list)):
+            if not isinstance(base_recommendations, dict) or isinstance(
+                next(iter(base_recommendations.values())), list
+            ):
                 base_recommendations = {"base_recommendations": base_recommendations}
             for name, dataset in base_recommendations.items():
                 self._check_query_column_present(dataset, query_column, name)
-                self._check_contains(
-                    recs_queries,
-                    self._get_unique_queries(dataset, query_column),
-                    name
-                )
+                self._check_contains(recs_queries, self._get_unique_queries(dataset, query_column), name)
         result = {}
         if isinstance(recommendations, (SparkDataFrame, PolarsDataFrame)):
             is_spark = isinstance(recommendations, SparkDataFrame)
             assert isinstance(ground_truth, type(recommendations))
             assert train is None or isinstance(train, type(recommendations))
-            enriched_recs_dict, train = self._get_enriched_recommendations(
-                recommendations, ground_truth, train
-            )
+            enriched_recs_dict, train = self._get_enriched_recommendations(recommendations, ground_truth, train)
             if is_spark and self._allow_caching:
                 self._cache_dataframes(enriched_recs_dict)
@@ -480,12 +455,8 @@ class OfflineMetrics:
                 "train": train,
             }
             for metric in self.metrics:
-                args_to_call: Dict[str, Union[PandasDataFrame, Dict]] = {
-                    "recommendations": recommendations
-                }
-                for data_name in self._metrics_call_requirement_map[
-                    str(metric.__class__.__name__)
-                ]:
+                args_to_call: Dict[str, Union[PandasDataFrame, Dict]] = {"recommendations": recommendations}
+                for data_name in self._metrics_call_requirement_map[str(metric.__class__.__name__)]:
                     args_to_call[data_name] = current_map[data_name]
                 result.update(metric(**args_to_call))
         unexpectedness_result = {}
@@ -493,23 +464,17 @@ class OfflineMetrics:
         if len(self.unexpectedness_metric) != 0:
             if base_recommendations is None:
-                raise ValueError(
-                    "Can not calculate Unexpectedness because base_recommendations is None"
-                )
-            if isinstance(base_recommendations, dict) and not isinstance(
-                list(base_recommendations.values())[0], list
-            ):
+                msg = "Can not calculate Unexpectedness because base_recommendations is None"
+                raise ValueError(msg)
+            first_element = next(iter(base_recommendations.values()))
+            if isinstance(base_recommendations, dict) and not isinstance(first_element, list):
                 for unexp in self.unexpectedness_metric:
                     for model_name in base_recommendations:
-                        cur_result = unexp(
-                            recommendations, base_recommendations[model_name]
-                        )
+                        cur_result = unexp(recommendations, base_recommendations[model_name])
                         for metric_name in cur_result:
                             splitted = metric_name.split("@")
                             splitted[0] += "_" + model_name
-                            unexpectedness_result["@".join(splitted)] = cur_result[
-                                metric_name
-                            ]
+                            unexpectedness_result["@".join(splitted)] = cur_result[metric_name]
         if len(self.diversity_metric) != 0:
             for diversity in self.diversity_metric:

replay/metrics/precision.py CHANGED Viewed

@@ -3,16 +3,15 @@ from typing import List
 from .base_metric import Metric
-# pylint: disable=too-few-public-methods
 class Precision(Metric):
     """
     Mean percentage of relevant items among top ``K`` recommendations.
     .. math::
-        Precision@K(i) = \\frac {\sum_{j=1}^{K}\mathbb{1}_{r_{ij}}}{K}
+        Precision@K(i) = \\frac {\\sum_{j=1}^{K}\\mathbb{1}_{r_{ij}}}{K}
     .. math::
-        Precision@K = \\frac {\sum_{i=1}^{N}Precision@K(i)}{N}
+        Precision@K = \\frac {\\sum_{i=1}^{N}Precision@K(i)}{N}
     :math:`\\mathbb{1}_{r_{ij}}` -- indicator function showing that user :math:`i` interacted with item :math:`j`
@@ -62,9 +61,7 @@ class Precision(Metric):
     """
     @staticmethod
-    def _get_metric_value_by_user(  # pylint: disable=arguments-differ
-        ks: List[int], ground_truth: List, pred: List
-    ) -> List[float]:
+    def _get_metric_value_by_user(ks: List[int], ground_truth: List, pred: List) -> List[float]:
         if not ground_truth or not pred:
             return [0.0 for _ in ks]
         set_gt = set(ground_truth)

replay/metrics/recall.py CHANGED Viewed

@@ -3,7 +3,6 @@ from typing import List
 from .base_metric import Metric
-# pylint: disable=too-few-public-methods
 class Recall(Metric):
     """
     Recall measures the coverage of the recommended items, and is defined as:
@@ -11,10 +10,10 @@ class Recall(Metric):
     Mean percentage of relevant items, that was shown among top ``K`` recommendations.
     .. math::
-        Recall@K(i) = \\frac {\sum_{j=1}^{K}\mathbb{1}_{r_{ij}}}{|Rel_i|}
+        Recall@K(i) = \\frac {\\sum_{j=1}^{K}\\mathbb{1}_{r_{ij}}}{|Rel_i|}
     .. math::
-        Recall@K = \\frac {\sum_{i=1}^{N}Recall@K(i)}{N}
+        Recall@K = \\frac {\\sum_{i=1}^{N}Recall@K(i)}{N}
     :math:`\\mathbb{1}_{r_{ij}}` -- indicator function showing that user :math:`i` interacted with item :math:`j`
@@ -66,9 +65,7 @@ class Recall(Metric):
     """
     @staticmethod
-    def _get_metric_value_by_user(  # pylint: disable=arguments-differ
-        ks: List[int], ground_truth: List, pred: List
-    ) -> List[float]:
+    def _get_metric_value_by_user(ks: List[int], ground_truth: List, pred: List) -> List[float]:
         if not ground_truth or not pred:
             return [0.0 for _ in ks]
         set_gt = set(ground_truth)

replay/metrics/rocauc.py CHANGED Viewed

@@ -3,7 +3,6 @@ from typing import List
 from .base_metric import Metric
-# pylint: disable=too-few-public-methods
 class RocAuc(Metric):
     """
     Receiver Operating Characteristic/Area Under the Curve is the aggregated performance measure,
@@ -13,21 +12,21 @@ class RocAuc(Metric):
     The bigger the value of AUC, the better the classification model.
     .. math::
-        ROCAUC@K(i) = \\frac {\sum_{s=1}^{K}\sum_{t=1}^{K}
-        \mathbb{1}_{r_{si}<r_{ti}}
-        \mathbb{1}_{gt_{si}<gt_{ti}}}
-        {\sum_{s=1}^{K}\sum_{t=1}^{K} \mathbb{1}_{gt_{si}<gt_{tj}}}
+        ROCAUC@K(i) = \\frac {\\sum_{s=1}^{K}\\sum_{t=1}^{K}
+        \\mathbb{1}_{r_{si}<r_{ti}}
+        \\mathbb{1}_{gt_{si}<gt_{ti}}}
+        {\\sum_{s=1}^{K}\\sum_{t=1}^{K} \\mathbb{1}_{gt_{si}<gt_{tj}}}
     :math:`\\mathbb{1}_{r_{si}<r_{ti}}` -- indicator function showing that recommendation score for
     user :math:`i` for item :math:`s` is bigger than for item :math:`t`
-    :math:`\mathbb{1}_{gt_{si}<gt_{ti}}` --  indicator function showing that
+    :math:`\\mathbb{1}_{gt_{si}<gt_{ti}}` --  indicator function showing that
     user :math:`i` values item :math:`s` more than item :math:`t`.
     Metric is averaged by all users.
     .. math::
-        ROCAUC@K = \\frac {\sum_{i=1}^{N}ROCAUC@K(i)}{N}
+        ROCAUC@K = \\frac {\\sum_{i=1}^{N}ROCAUC@K(i)}{N}
     >>> recommendations
        query_id  item_id  rating
@@ -75,9 +74,7 @@ class RocAuc(Metric):
     """
     @staticmethod
-    def _get_metric_value_by_user(  # pylint: disable=arguments-differ
-        ks: List[int], ground_truth: List, pred: List
-    ) -> List[float]:
+    def _get_metric_value_by_user(ks: List[int], ground_truth: List, pred: List) -> List[float]:
         if not ground_truth or not pred:
             return [0.0 for _ in ks]
         set_gt = set(ground_truth)

replay/metrics/surprisal.py CHANGED Viewed

@@ -4,7 +4,7 @@ from typing import Dict, List, Union
 import numpy as np
 import polars as pl
-from replay.utils import PYSPARK_AVAILABLE, PandasDataFrame, SparkDataFrame, PolarsDataFrame
+from replay.utils import PYSPARK_AVAILABLE, PandasDataFrame, PolarsDataFrame, SparkDataFrame
 from .base_metric import Metric, MetricsDataFrameLike, MetricsReturnType
@@ -12,13 +12,12 @@ if PYSPARK_AVAILABLE:
     from pyspark.sql import functions as sf
-# pylint: disable=too-few-public-methods
 class Surprisal(Metric):
     """
     Measures how many surprising rare items are present in recommendations.
     .. math::
-        \\textit{Self-Information}(j)= -\log_2 \\frac {u_j}{N}
+        \\textit{Self-Information}(j)= -\\log_2 \\frac {u_j}{N}
     :math:`u_j` -- number of users that interacted with item :math:`j`.
     Cold items are treated as if they were rated by 1 user.
@@ -32,12 +31,12 @@ class Surprisal(Metric):
     Recommendation list surprisal is the average surprisal of items in it.
     .. math::
-        Surprisal@K(i) = \\frac {\sum_{j=1}^{K}Surprisal(j)} {K}
+        Surprisal@K(i) = \\frac {\\sum_{j=1}^{K}Surprisal(j)} {K}
     Final metric is averaged by users.
     .. math::
-        Surprisal@K = \\frac {\sum_{i=1}^{N}Surprisal@K(i)}{N}
+        Surprisal@K = \\frac {\\sum_{i=1}^{N}Surprisal@K(i)}{N}
     :math:`N` -- the number of users.
@@ -83,7 +82,6 @@ class Surprisal(Metric):
     <BLANKLINE>
     """
-    # pylint: disable=no-self-use
     def _get_weights(self, train: Dict) -> Dict:
         n_users = len(train.keys())
         items_counter = defaultdict(set)
@@ -102,7 +100,6 @@ class Surprisal(Metric):
             recs_with_weights[user] = [weights.get(i, 1) for i in items]
         return recs_with_weights
-    # pylint: disable=arguments-renamed
     def _get_enriched_recommendations(
         self,
         recommendations: Union[PolarsDataFrame, SparkDataFrame],
@@ -113,38 +110,28 @@ class Surprisal(Metric):
         else:
             return self._get_enriched_recommendations_polars(recommendations, train)
-    def _get_enriched_recommendations_spark(  # pylint: disable=arguments-renamed
+    def _get_enriched_recommendations_spark(
         self, recommendations: SparkDataFrame, train: SparkDataFrame
     ) -> SparkDataFrame:
         n_users = train.select(self.query_column).distinct().count()
         item_weights = train.groupby(self.item_column).agg(
-            (
-                sf.log2(n_users / sf.countDistinct(self.query_column)) / np.log2(n_users)
-            ).alias("weight")
+            (sf.log2(n_users / sf.countDistinct(self.query_column)) / np.log2(n_users)).alias("weight")
         )
-        recommendations = recommendations.join(
-            item_weights, on=self.item_column, how="left"
-        ).fillna(1.0)
+        recommendations = recommendations.join(item_weights, on=self.item_column, how="left").fillna(1.0)
-        sorted_by_score_recommendations = self._get_items_list_per_user(
-            recommendations, "weight"
-        )
+        sorted_by_score_recommendations = self._get_items_list_per_user(recommendations, "weight")
         return self._rearrange_columns(sorted_by_score_recommendations)
-    def _get_enriched_recommendations_polars(  # pylint: disable=arguments-renamed
+    def _get_enriched_recommendations_polars(
         self, recommendations: PolarsDataFrame, train: PolarsDataFrame
     ) -> PolarsDataFrame:
         n_users = train.select(self.query_column).n_unique()
         item_weights = train.group_by(self.item_column).agg(
             (np.log2(n_users / pl.col(self.query_column).n_unique()) / np.log2(n_users)).alias("weight")
         )
-        recommendations = recommendations.join(
-            item_weights, on=self.item_column, how="left"
-        ).fill_nan(1.0)
+        recommendations = recommendations.join(item_weights, on=self.item_column, how="left").fill_nan(1.0)
-        sorted_by_score_recommendations = self._get_items_list_per_user(
-            recommendations, "weight"
-        )
+        sorted_by_score_recommendations = self._get_items_list_per_user(recommendations, "weight")
         return self._rearrange_columns(sorted_by_score_recommendations)
     def __call__(
@@ -183,9 +170,7 @@ class Surprisal(Metric):
             else self._convert_dict_to_dict_with_score(recommendations)
         )
         self._check_duplicates_dict(recommendations)
-        train = (
-            self._convert_pandas_to_dict_without_score(train) if is_pandas else train
-        )
+        train = self._convert_pandas_to_dict_without_score(train) if is_pandas else train
         assert isinstance(train, dict)
         weights = self._get_recommendation_weights(recommendations, train)
@@ -196,9 +181,7 @@ class Surprisal(Metric):
         )
     @staticmethod
-    def _get_metric_value_by_user(  # pylint: disable=arguments-differ
-        ks: List[int], pred_item_ids: List, pred_weights: List
-    ) -> List[float]:
+    def _get_metric_value_by_user(ks: List[int], pred_item_ids: List, pred_weights: List) -> List[float]:
         if not pred_item_ids:
             return [0.0 for _ in ks]
         res = []

replay/metrics/torch_metrics_builder.py CHANGED Viewed

@@ -28,7 +28,6 @@ DEFAULT_METRICS: List[MetricName] = [
 DEFAULT_KS: List[int] = [1, 5, 10, 20]
-# pylint: disable=too-many-instance-attributes
 @dataclass
 class _MetricRequirements:
     """
@@ -113,7 +112,6 @@ class _CoverageHelper:
         self._train_hist = torch.zeros(self.item_count)
         self._pred_hist: Dict[int, torch.Tensor] = {k: torch.zeros(self.item_count) for k in self._top_k}
-    # pylint: disable=attribute-defined-outside-init
     def _ensure_hists_on_device(self, device: torch.device) -> None:
         self._train_hist = self._train_hist.to(device)
         for k in self._top_k:
@@ -192,13 +190,11 @@ class _MetricBuilder(abc.ABC):
         """
-# pylint: disable=too-many-instance-attributes
 class TorchMetricsBuilder(_MetricBuilder):
     """
     Computes specified metrics over multiple batches
     """
-    # pylint: disable=dangerous-default-value
     def __init__(
         self,
         metrics: List[MetricName] = DEFAULT_METRICS,

replay/metrics/unexpectedness.py CHANGED Viewed

@@ -1,11 +1,10 @@
 from typing import List, Optional, Union
-from replay.utils import PandasDataFrame, SparkDataFrame, PolarsDataFrame
+from replay.utils import PandasDataFrame, PolarsDataFrame, SparkDataFrame
 from .base_metric import Metric, MetricsDataFrameLike, MetricsReturnType
-# pylint: disable=too-few-public-methods
 class Unexpectedness(Metric):
     """
     Fraction of recommended items that are not present in some baseline\
@@ -13,11 +12,12 @@ class Unexpectedness(Metric):
     .. math::
         Unexpectedness@K(i) = 1 -
-            \\frac {\parallel R^{i}_{1..\min(K, \parallel R^{i} \parallel)} \cap BR^{i}_{1..\min(K, \parallel BR^{i} \parallel)} \parallel}
+            \\frac {\\parallel R^{i}_{1..\\min(K, \\parallel R^{i} \\parallel)}
+            \\cap BR^{i}_{1..\\min(K, \\parallel BR^{i} \\parallel)} \\parallel}
             {K}
     .. math::
-        Unexpectedness@K = \\frac {1}{N}\sum_{i=1}^{N}Unexpectedness@K(i)
+        Unexpectedness@K = \\frac {1}{N}\\sum_{i=1}^{N}Unexpectedness@K(i)
     :math:`R_{1..j}^{i}` -- the first :math:`j` recommendations for the :math:`i`-th user.
@@ -61,7 +61,7 @@ class Unexpectedness(Metric):
      'Unexpectedness-ConfidenceInterval@4': 0.0}
     <BLANKLINE>
     """
-    # pylint: disable=arguments-renamed
     def _get_enriched_recommendations(
         self,
         recommendations: Union[PolarsDataFrame, SparkDataFrame],
@@ -72,14 +72,14 @@ class Unexpectedness(Metric):
         else:
             return self._get_enriched_recommendations_polars(recommendations, base_recommendations)
-    def _get_enriched_recommendations_spark(  # pylint: disable=arguments-renamed
+    def _get_enriched_recommendations_spark(
         self, recommendations: SparkDataFrame, base_recommendations: SparkDataFrame
     ) -> SparkDataFrame:
         sorted_by_score_recommendations = self._get_items_list_per_user(recommendations)
-        sorted_by_score_base_recommendations = self._get_items_list_per_user(
-            base_recommendations
-        ).withColumnRenamed("pred_item_id", "base_pred_item_id")
+        sorted_by_score_base_recommendations = self._get_items_list_per_user(base_recommendations).withColumnRenamed(
+            "pred_item_id", "base_pred_item_id"
+        )
         enriched_recommendations = sorted_by_score_recommendations.join(
             sorted_by_score_base_recommendations, how="left", on=self.query_column
@@ -87,14 +87,14 @@ class Unexpectedness(Metric):
         return self._rearrange_columns(enriched_recommendations)
-    def _get_enriched_recommendations_polars(  # pylint: disable=arguments-renamed
+    def _get_enriched_recommendations_polars(
         self, recommendations: PolarsDataFrame, base_recommendations: PolarsDataFrame
     ) -> PolarsDataFrame:
         sorted_by_score_recommendations = self._get_items_list_per_user(recommendations)
-        sorted_by_score_base_recommendations = self._get_items_list_per_user(
-            base_recommendations
-        ).rename({"pred_item_id": "base_pred_item_id"})
+        sorted_by_score_base_recommendations = self._get_items_list_per_user(base_recommendations).rename(
+            {"pred_item_id": "base_pred_item_id"}
+        )
         enriched_recommendations = sorted_by_score_recommendations.join(
             sorted_by_score_base_recommendations, how="left", on=self.query_column
@@ -152,12 +152,7 @@ class Unexpectedness(Metric):
         )
     @staticmethod
-    def _get_metric_value_by_user(  # pylint: disable=arguments-differ
-        ks: List[int], base_recs: Optional[List], recs: Optional[List]
-    ) -> List[float]:
+    def _get_metric_value_by_user(ks: List[int], base_recs: Optional[List], recs: Optional[List]) -> List[float]:
         if not base_recs or not recs:
             return [0.0 for _ in ks]
-        res = []
-        for k in ks:
-            res.append(1.0 - len(set(recs[:k]) & set(base_recs[:k])) / k)
-        return res
+        return [1.0 - len(set(recs[:k]) & set(base_recs[:k])) / k for k in ks]

replay/models/__init__.py CHANGED Viewed

@@ -12,6 +12,7 @@ from .association_rules import AssociationRulesItemRec
 from .base_rec import Recommender
 from .cat_pop_rec import CatPopRec
 from .cluster import ClusterRec
+from .kl_ucb import KLUCB
 from .knn import ItemKNN
 from .pop_rec import PopRec
 from .query_pop_rec import QueryPopRec
@@ -19,7 +20,5 @@ from .random_rec import RandomRec
 from .slim import SLIM
 from .thompson_sampling import ThompsonSampling
 from .ucb import UCB
-# pylint: disable=cyclic-import
-from .kl_ucb import KLUCB
 from .wilson import Wilson
 from .word2vec import Word2VecRec

replay/models/als.py CHANGED Viewed

@@ -2,9 +2,10 @@ from os.path import join
 from typing import Optional, Tuple
 from replay.data import Dataset
-from .base_rec import ItemVectorModel, Recommender
 from replay.utils import PYSPARK_AVAILABLE, SparkDataFrame
+from .base_rec import ItemVectorModel, Recommender
 if PYSPARK_AVAILABLE:
     import pyspark.sql.functions as sf
     from pyspark.ml.recommendation import ALS, ALSModel
@@ -13,7 +14,6 @@ if PYSPARK_AVAILABLE:
     from replay.utils.spark_utils import list_to_vector_udf
-# pylint: disable=too-many-instance-attributes
 class ALSWrap(Recommender, ItemVectorModel):
     """Wrapper for `Spark ALS
     <https://spark.apache.org/docs/latest/api/python/pyspark.mllib.html#pyspark.mllib.recommendation.ALS>`_.
@@ -24,7 +24,6 @@ class ALSWrap(Recommender, ItemVectorModel):
         "rank": {"type": "loguniform_int", "args": [8, 256]},
     }
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         rank: int = 10,
@@ -98,7 +97,6 @@ class ALSWrap(Recommender, ItemVectorModel):
             self.model.itemFactors.unpersist()
             self.model.userFactors.unpersist()
-    # pylint: disable=too-many-arguments
     def _predict(
         self,
         dataset: Optional[Dataset],
@@ -107,10 +105,8 @@ class ALSWrap(Recommender, ItemVectorModel):
         items: SparkDataFrame,
         filter_seen_items: bool = True,
     ) -> SparkDataFrame:
         if (items.count() == self.fit_items.count()) and (
-            items.join(self.fit_items, on=self.item_column, how="inner").count()
-            == self.fit_items.count()
+            items.join(self.fit_items, on=self.item_column, how="inner").count() == self.fit_items.count()
         ):
             max_seen = 0
             if filter_seen_items and dataset is not None:
@@ -125,9 +121,7 @@ class ALSWrap(Recommender, ItemVectorModel):
             recs_als = self.model.recommendForUserSubset(queries, k + max_seen)
             return (
-                recs_als.withColumn(
-                    "recommendations", sf.explode("recommendations")
-                )
+                recs_als.withColumn("recommendations", sf.explode("recommendations"))
                 .withColumn(self.item_column, sf.col(f"recommendations.{self.item_column}"))
                 .withColumn(
                     self.rating_column,
@@ -144,7 +138,7 @@ class ALSWrap(Recommender, ItemVectorModel):
     def _predict_pairs(
         self,
         pairs: SparkDataFrame,
-        dataset: Optional[Dataset] = None,
+        dataset: Optional[Dataset] = None,  # noqa: ARG002
     ) -> SparkDataFrame:
         return (
             self.model.transform(pairs)
@@ -153,15 +147,13 @@ class ALSWrap(Recommender, ItemVectorModel):
         )
     def _get_features(
-        self, ids: SparkDataFrame, features: Optional[SparkDataFrame]
+        self, ids: SparkDataFrame, features: Optional[SparkDataFrame]  # noqa: ARG002
     ) -> Tuple[Optional[SparkDataFrame], Optional[int]]:
         entity = "user" if self.query_column in ids.columns else "item"
         entity_col = self.query_column if self.query_column in ids.columns else self.item_column
         als_factors = getattr(self.model, f"{entity}Factors")
-        als_factors = als_factors.withColumnRenamed(
-            "id", entity_col
-        ).withColumnRenamed("features", f"{entity}_factors")
+        als_factors = als_factors.withColumnRenamed("id", entity_col).withColumnRenamed("features", f"{entity}_factors")
         return (
             als_factors.join(ids, how="right", on=entity_col),
             self.model.rank,

replay-rec 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl

replay-rec 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl