PyPI - replay-rec - Versions diffs - 0.16.0rc0__py3-none-any.whl → 0.17.0__py3-none-any.whl - Mend

replay-rec 0.16.0rc0py3-none-any.whl → 0.17.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (162) hide show

replay/__init__.py +1 -1
replay/data/__init__.py +1 -1
replay/data/dataset.py +45 -42
replay/data/dataset_utils/dataset_label_encoder.py +6 -7
replay/data/nn/__init__.py +1 -1
replay/data/nn/schema.py +20 -33
replay/data/nn/sequence_tokenizer.py +217 -87
replay/data/nn/sequential_dataset.py +6 -22
replay/data/nn/torch_sequential_dataset.py +20 -11
replay/data/nn/utils.py +7 -9
replay/data/schema.py +17 -17
replay/data/spark_schema.py +0 -1
replay/metrics/base_metric.py +38 -79
replay/metrics/categorical_diversity.py +24 -58
replay/metrics/coverage.py +25 -49
replay/metrics/descriptors.py +4 -13
replay/metrics/experiment.py +3 -8
replay/metrics/hitrate.py +3 -6
replay/metrics/map.py +3 -6
replay/metrics/mrr.py +1 -4
replay/metrics/ndcg.py +4 -7
replay/metrics/novelty.py +10 -29
replay/metrics/offline_metrics.py +26 -61
replay/metrics/precision.py +3 -6
replay/metrics/recall.py +3 -6
replay/metrics/rocauc.py +7 -10
replay/metrics/surprisal.py +13 -30
replay/metrics/torch_metrics_builder.py +0 -4
replay/metrics/unexpectedness.py +15 -20
replay/models/__init__.py +1 -2
replay/models/als.py +7 -15
replay/models/association_rules.py +12 -28
replay/models/base_neighbour_rec.py +21 -36
replay/models/base_rec.py +92 -215
replay/models/cat_pop_rec.py +9 -22
replay/models/cluster.py +17 -28
replay/models/extensions/ann/ann_mixin.py +7 -12
replay/models/extensions/ann/entities/base_hnsw_param.py +1 -1
replay/models/extensions/ann/entities/hnswlib_param.py +0 -6
replay/models/extensions/ann/entities/nmslib_hnsw_param.py +0 -6
replay/models/extensions/ann/index_builders/driver_hnswlib_index_builder.py +4 -10
replay/models/extensions/ann/index_builders/driver_nmslib_index_builder.py +7 -11
replay/models/extensions/ann/index_builders/executor_hnswlib_index_builder.py +5 -12
replay/models/extensions/ann/index_builders/executor_nmslib_index_builder.py +11 -18
replay/models/extensions/ann/index_builders/nmslib_index_builder_mixin.py +1 -4
replay/models/extensions/ann/index_inferers/base_inferer.py +3 -10
replay/models/extensions/ann/index_inferers/hnswlib_filter_index_inferer.py +7 -17
replay/models/extensions/ann/index_inferers/hnswlib_index_inferer.py +6 -14
replay/models/extensions/ann/index_inferers/nmslib_filter_index_inferer.py +14 -28
replay/models/extensions/ann/index_inferers/nmslib_index_inferer.py +15 -25
replay/models/extensions/ann/index_inferers/utils.py +2 -9
replay/models/extensions/ann/index_stores/hdfs_index_store.py +4 -9
replay/models/extensions/ann/index_stores/shared_disk_index_store.py +2 -6
replay/models/extensions/ann/index_stores/spark_files_index_store.py +8 -14
replay/models/extensions/ann/index_stores/utils.py +5 -2
replay/models/extensions/ann/utils.py +3 -5
replay/models/kl_ucb.py +16 -22
replay/models/knn.py +37 -59
replay/models/nn/optimizer_utils/__init__.py +1 -6
replay/models/nn/optimizer_utils/optimizer_factory.py +3 -6
replay/models/nn/sequential/bert4rec/__init__.py +1 -1
replay/models/nn/sequential/bert4rec/dataset.py +6 -7
replay/models/nn/sequential/bert4rec/lightning.py +53 -56
replay/models/nn/sequential/bert4rec/model.py +12 -25
replay/models/nn/sequential/callbacks/__init__.py +1 -1
replay/models/nn/sequential/callbacks/prediction_callbacks.py +23 -25
replay/models/nn/sequential/callbacks/validation_callback.py +27 -30
replay/models/nn/sequential/postprocessors/postprocessors.py +1 -1
replay/models/nn/sequential/sasrec/dataset.py +8 -7
replay/models/nn/sequential/sasrec/lightning.py +53 -48
replay/models/nn/sequential/sasrec/model.py +4 -17
replay/models/pop_rec.py +9 -10
replay/models/query_pop_rec.py +7 -15
replay/models/random_rec.py +10 -18
replay/models/slim.py +8 -13
replay/models/thompson_sampling.py +13 -14
replay/models/ucb.py +11 -22
replay/models/wilson.py +5 -14
replay/models/word2vec.py +24 -69
replay/optimization/optuna_objective.py +13 -27
replay/preprocessing/__init__.py +1 -2
replay/preprocessing/converter.py +2 -7
replay/preprocessing/filters.py +67 -142
replay/preprocessing/history_based_fp.py +44 -116
replay/preprocessing/label_encoder.py +106 -68
replay/preprocessing/sessionizer.py +1 -11
replay/scenarios/fallback.py +3 -8
replay/splitters/base_splitter.py +43 -15
replay/splitters/cold_user_random_splitter.py +18 -31
replay/splitters/k_folds.py +14 -24
replay/splitters/last_n_splitter.py +33 -43
replay/splitters/new_users_splitter.py +31 -55
replay/splitters/random_splitter.py +16 -23
replay/splitters/ratio_splitter.py +30 -54
replay/splitters/time_splitter.py +13 -18
replay/splitters/two_stage_splitter.py +44 -79
replay/utils/__init__.py +1 -1
replay/utils/common.py +65 -0
replay/utils/dataframe_bucketizer.py +25 -31
replay/utils/distributions.py +3 -15
replay/utils/model_handler.py +36 -33
replay/utils/session_handler.py +11 -15
replay/utils/spark_utils.py +51 -85
replay/utils/time.py +8 -22
replay/utils/types.py +1 -3
{replay_rec-0.16.0rc0.dist-info → replay_rec-0.17.0.dist-info}/METADATA +2 -10
replay_rec-0.17.0.dist-info/RECORD +127 -0
{replay_rec-0.16.0rc0.dist-info → replay_rec-0.17.0.dist-info}/WHEEL +1 -1
replay/experimental/__init__.py +0 -0
replay/experimental/metrics/__init__.py +0 -61
replay/experimental/metrics/base_metric.py +0 -661
replay/experimental/metrics/coverage.py +0 -117
replay/experimental/metrics/experiment.py +0 -200
replay/experimental/metrics/hitrate.py +0 -27
replay/experimental/metrics/map.py +0 -31
replay/experimental/metrics/mrr.py +0 -19
replay/experimental/metrics/ncis_precision.py +0 -32
replay/experimental/metrics/ndcg.py +0 -50
replay/experimental/metrics/precision.py +0 -23
replay/experimental/metrics/recall.py +0 -26
replay/experimental/metrics/rocauc.py +0 -50
replay/experimental/metrics/surprisal.py +0 -102
replay/experimental/metrics/unexpectedness.py +0 -74
replay/experimental/models/__init__.py +0 -10
replay/experimental/models/admm_slim.py +0 -216
replay/experimental/models/base_neighbour_rec.py +0 -222
replay/experimental/models/base_rec.py +0 -1361
replay/experimental/models/base_torch_rec.py +0 -247
replay/experimental/models/cql.py +0 -468
replay/experimental/models/ddpg.py +0 -1007
replay/experimental/models/dt4rec/__init__.py +0 -0
replay/experimental/models/dt4rec/dt4rec.py +0 -193
replay/experimental/models/dt4rec/gpt1.py +0 -411
replay/experimental/models/dt4rec/trainer.py +0 -128
replay/experimental/models/dt4rec/utils.py +0 -274
replay/experimental/models/extensions/spark_custom_models/__init__.py +0 -0
replay/experimental/models/extensions/spark_custom_models/als_extension.py +0 -733
replay/experimental/models/implicit_wrap.py +0 -138
replay/experimental/models/lightfm_wrap.py +0 -327
replay/experimental/models/mult_vae.py +0 -374
replay/experimental/models/neuromf.py +0 -462
replay/experimental/models/scala_als.py +0 -311
replay/experimental/nn/data/__init__.py +0 -1
replay/experimental/nn/data/schema_builder.py +0 -58
replay/experimental/preprocessing/__init__.py +0 -3
replay/experimental/preprocessing/data_preparator.py +0 -929
replay/experimental/preprocessing/padder.py +0 -231
replay/experimental/preprocessing/sequence_generator.py +0 -218
replay/experimental/scenarios/__init__.py +0 -1
replay/experimental/scenarios/obp_wrapper/__init__.py +0 -8
replay/experimental/scenarios/obp_wrapper/obp_optuna_objective.py +0 -86
replay/experimental/scenarios/obp_wrapper/replay_offline.py +0 -271
replay/experimental/scenarios/obp_wrapper/utils.py +0 -88
replay/experimental/scenarios/two_stages/reranker.py +0 -116
replay/experimental/scenarios/two_stages/two_stages_scenario.py +0 -843
replay/experimental/utils/__init__.py +0 -0
replay/experimental/utils/logger.py +0 -24
replay/experimental/utils/model_handler.py +0 -213
replay/experimental/utils/session_handler.py +0 -47
replay_rec-0.16.0rc0.dist-info/NOTICE +0 -41
replay_rec-0.16.0rc0.dist-info/RECORD +0 -178
{replay_rec-0.16.0rc0.dist-info → replay_rec-0.17.0.dist-info}/LICENSE +0 -0

replay/data/nn/utils.py CHANGED Viewed

@@ -2,11 +2,11 @@ from typing import Optional
 import polars as pl
-from replay.utils.spark_utils import spark_to_pandas
 from replay.utils import PYSPARK_AVAILABLE, DataFrameLike, PandasDataFrame, PolarsDataFrame
+from replay.utils.spark_utils import spark_to_pandas
 if PYSPARK_AVAILABLE:  # pragma: no cover
-    import pyspark.sql.functions as F
+    import pyspark.sql.functions as sf
 def groupby_sequences(events: DataFrameLike, groupby_col: str, sort_col: Optional[str] = None) -> DataFrameLike:
@@ -38,9 +38,7 @@ def groupby_sequences(events: DataFrameLike, groupby_col: str, sort_col: Optiona
             event_cols_without_groupby.insert(0, sort_col)
             events = events.sort(event_cols_without_groupby)
-        grouped_sequences = events.group_by(groupby_col).agg(
-            *[pl.col(x) for x in event_cols_without_groupby]
-        )
+        grouped_sequences = events.group_by(groupby_col).agg(*[pl.col(x) for x in event_cols_without_groupby])
     else:
         event_cols_without_groupby = events.columns.copy()
         event_cols_without_groupby.remove(groupby_col)
@@ -49,16 +47,16 @@ def groupby_sequences(events: DataFrameLike, groupby_col: str, sort_col: Optiona
             event_cols_without_groupby.remove(sort_col)
             event_cols_without_groupby.insert(0, sort_col)
-        all_cols_struct = F.struct(event_cols_without_groupby)  # type: ignore
+        all_cols_struct = sf.struct(event_cols_without_groupby)
-        collect_fn = F.collect_list(all_cols_struct)
+        collect_fn = sf.collect_list(all_cols_struct)
         if sort_col:
-            collect_fn = F.sort_array(collect_fn)
+            collect_fn = sf.sort_array(collect_fn)
         grouped_sequences = (
             events.groupby(groupby_col)
             .agg(collect_fn.alias("_"))
-            .select([F.col(groupby_col)] + [F.col(f"_.{col}").alias(col) for col in event_cols_without_groupby])
+            .select([sf.col(groupby_col)] + [sf.col(f"_.{col}").alias(col) for col in event_cols_without_groupby])
             .drop("_")
         )

replay/data/schema.py CHANGED Viewed

@@ -45,7 +45,6 @@ class FeatureInfo:
     Information about a feature.
     """
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         column: str,
@@ -72,7 +71,8 @@ class FeatureInfo:
         self._feature_hint = feature_hint
         if feature_type == FeatureType.NUMERICAL and cardinality:
-            raise ValueError("Cardinality is needed only with categorical feature_type.")
+            msg = "Cardinality is needed only with categorical feature_type."
+            raise ValueError(msg)
         self._cardinality = cardinality
     @property
@@ -112,14 +112,12 @@ class FeatureInfo:
         :returns: cardinality of the feature.
         """
         if self.feature_type != FeatureType.CATEGORICAL:
-            raise RuntimeError(
-                f"Can not get cardinality because feature_type of {self.column} column is not categorical."
-            )
+            msg = f"Can not get cardinality because feature_type of {self.column} column is not categorical."
+            raise RuntimeError(msg)
         if hasattr(self, "_cardinality_callback") and self._cardinality is None:
             self._cardinality = self._cardinality_callback(self._column)
         return self._cardinality
-    # pylint: disable=attribute-defined-outside-init
     def _set_cardinality_callback(self, callback: Callable) -> None:
         self._cardinality_callback = callback
@@ -130,7 +128,6 @@ class FeatureInfo:
         self._cardinality = None
-# pylint: disable=too-many-public-methods
 class FeatureSchema(Mapping[str, FeatureInfo]):
     """
     Key-value like collection with information about all dataset features.
@@ -174,8 +171,9 @@ class FeatureSchema(Mapping[str, FeatureInfo]):
         :returns: extract a feature information from a schema.
         """
         if len(self._features_schema) > 1:
-            raise ValueError("Only one element feature schema can be converted to single feature")
-        return list(self._features_schema.values())[0]
+            msg = "Only one element feature schema can be converted to single feature"
+            raise ValueError(msg)
+        return next(iter(self._features_schema.values()))
     def items(self) -> ItemsView[str, FeatureInfo]:
         return self._features_schema.items()
@@ -186,7 +184,7 @@ class FeatureSchema(Mapping[str, FeatureInfo]):
     def values(self) -> ValuesView[FeatureInfo]:
         return self._features_schema.values()
-    def get(  # type: ignore
+    def get(
         self,
         key: str,
         default: Optional[FeatureInfo] = None,
@@ -358,7 +356,7 @@ class FeatureSchema(Mapping[str, FeatureInfo]):
         for filtration_func, filtration_param in zip(filter_functions, filter_parameters):
             filtered_features = list(
                 filter(
-                    lambda x: filtration_func(x, filtration_param),  # type: ignore  # pylint: disable=W0640
+                    lambda x: filtration_func(x, filtration_param),
                     filtered_features,
                 )
             )
@@ -391,7 +389,7 @@ class FeatureSchema(Mapping[str, FeatureInfo]):
         for filtration_func, filtration_param in zip(filter_functions, filter_parameters):
             filtered_features = list(
                 filter(
-                    lambda x: filtration_func(x, filtration_param),  # type: ignore  # pylint: disable=W0640
+                    lambda x: filtration_func(x, filtration_param),
                     filtered_features,
                 )
             )
@@ -426,7 +424,6 @@ class FeatureSchema(Mapping[str, FeatureInfo]):
     def _type_drop(value: FeatureInfo, feature_type: FeatureType) -> bool:
         return value.feature_type != feature_type if feature_type else True
-    # pylint: disable=no-self-use
     @staticmethod
     def _hint_drop(value: FeatureInfo, feature_hint: FeatureHint) -> bool:
         return value.feature_hint != feature_hint if feature_hint else True
@@ -451,13 +448,16 @@ class FeatureSchema(Mapping[str, FeatureInfo]):
                 item_query_names[feature.feature_hint] += [feature.column]
         if len(duplicates) > 0:
-            raise ValueError(
+            msg = (
                 "Features column names should be unique, exept ITEM_ID and QUERY_ID columns. "
-                + f"{duplicates} columns are not unique."
+                f"{duplicates} columns are not unique."
             )
+            raise ValueError(msg)
         if len(item_query_names[FeatureHint.ITEM_ID]) > 1:
-            raise ValueError(f"ITEM_ID must be present only once. Rename {item_query_names[FeatureHint.ITEM_ID]}")
+            msg = f"ITEM_ID must be present only once. Rename {item_query_names[FeatureHint.ITEM_ID]}"
+            raise ValueError(msg)
         if len(item_query_names[FeatureHint.QUERY_ID]) > 1:
-            raise ValueError(f"QUERY_ID must be present only once. Rename {item_query_names[FeatureHint.QUERY_ID]}")
+            msg = f"QUERY_ID must be present only once. Rename {item_query_names[FeatureHint.QUERY_ID]}"
+            raise ValueError(msg)

replay/data/spark_schema.py CHANGED Viewed

@@ -4,7 +4,6 @@ if PYSPARK_AVAILABLE:
     from pyspark.sql.types import DoubleType, IntegerType, StructField, StructType, TimestampType
-# pylint: disable=too-many-arguments
 def get_schema(
     query_column: str = "query_id",
     item_column: str = "item_id",

replay/metrics/base_metric.py CHANGED Viewed

@@ -1,11 +1,11 @@
 import warnings
 from abc import ABC, abstractmethod
-from typing import Any, Dict, List, Mapping, Union
+from typing import Any, Dict, List, Mapping, Optional, Union
 import numpy as np
 import polars as pl
-from replay.utils import PYSPARK_AVAILABLE, DataFrameLike, PandasDataFrame, SparkDataFrame, PolarsDataFrame
+from replay.utils import PYSPARK_AVAILABLE, DataFrameLike, PandasDataFrame, PolarsDataFrame, SparkDataFrame
 from .descriptors import CalculationDescriptor, Mean
@@ -27,7 +27,7 @@ class MetricDuplicatesWarning(Warning):
 class Metric(ABC):
     """Base metric class"""
-    def __init__(  # pylint: disable=too-many-arguments
+    def __init__(
         self,
         topk: Union[List[int], int],
         query_column: str = "query_id",
@@ -46,11 +46,13 @@ class Metric(ABC):
         if isinstance(topk, list):
             for item in topk:
                 if not isinstance(item, int):
-                    raise ValueError(f"{item} is not int")
+                    msg = f"{item} is not int"
+                    raise ValueError(msg)
         elif isinstance(topk, int):
             topk = [topk]
         else:
-            raise ValueError("topk not list or int")
+            msg = "topk not list or int"
+            raise ValueError(msg)
         self.topk = sorted(topk)
         self.query_column = query_column
         self.item_column = item_column
@@ -60,11 +62,8 @@ class Metric(ABC):
     @property
     def __name__(self) -> str:
         mode_name = self._mode.__name__
-        return str(type(self).__name__) + (
-            f"-{mode_name}" if mode_name != "Mean" else ""
-        )
+        return str(type(self).__name__) + (f"-{mode_name}" if mode_name != "Mean" else "")
-    # pylint: disable=no-self-use
     def _check_dataframes_equal_types(
         self,
         recommendations: MetricsDataFrameLike,
@@ -74,39 +73,31 @@ class Metric(ABC):
         Types of all data frames must be the same.
         """
         if not isinstance(recommendations, type(ground_truth)):
-            raise ValueError("All given data frames must have the same type")
+            msg = "All given data frames must have the same type"
+            raise ValueError(msg)
     def _duplicate_warn(self):
         warnings.warn(
-            "The recommendations contain duplicated users and items."
-            "The metrics may be higher than the actual ones.",
+            "The recommendations contain duplicated users and items.The metrics may be higher than the actual ones.",
             MetricDuplicatesWarning,
         )
     def _check_duplicates_spark(self, recommendations: SparkDataFrame) -> None:
         duplicates_count = (
-            recommendations.groupBy(self.query_column, self.item_column)
-            .count()
-            .filter("count >= 2")
-            .count()
+            recommendations.groupBy(self.query_column, self.item_column).count().filter("count >= 2").count()
         )
         if duplicates_count:
             self._duplicate_warn()
     def _check_duplicates_dict(self, recommendations: Dict) -> None:
-        for _, items in recommendations.items():
+        for items in recommendations.values():
             items_set = set(items)
             if len(items) != len(items_set):
                 self._duplicate_warn()
                 return
     def _check_duplicates_polars(self, recommendations: PolarsDataFrame) -> None:
-        duplicates_count = (
-            recommendations
-            .group_by(self.query_column, self.item_column)
-            .len()
-            .filter(pl.col("len") > 1)
-        )
+        duplicates_count = recommendations.group_by(self.query_column, self.item_column).len().filter(pl.col("len") > 1)
         if not duplicates_count.is_empty():
             self._duplicate_warn()
@@ -144,11 +135,7 @@ class Metric(ABC):
             else self._convert_dict_to_dict_with_score(recommendations)
         )
         self._check_duplicates_dict(recommendations)
-        ground_truth = (
-            self._convert_pandas_to_dict_without_score(ground_truth)
-            if is_pandas
-            else ground_truth
-        )
+        ground_truth = self._convert_pandas_to_dict_without_score(ground_truth) if is_pandas else ground_truth
         assert isinstance(ground_truth, dict)
         return self._dict_call(
             list(ground_truth),
@@ -164,7 +151,6 @@ class Metric(ABC):
             .to_dict()
         )
-    # pylint: disable=no-self-use
     def _convert_dict_to_dict_with_score(self, data: Dict) -> Dict:
         converted_data = {}
         for user, items in data.items():
@@ -191,31 +177,21 @@ class Metric(ABC):
         distribution_per_user = {}
         for user in users:
             args = [kwargs[key].get(user, None) for key in keys_list]
-            distribution_per_user[user] = self._get_metric_value_by_user(
-                self.topk, *args
-            )  # pylint: disable=protected-access
+            distribution_per_user[user] = self._get_metric_value_by_user(self.topk, *args)
         if self._mode.__name__ == "PerUser":
             return self._aggregate_results_per_user(distribution_per_user)
         distribution = np.stack(list(distribution_per_user.values()))
         assert distribution.shape[1] == len(self.topk)
-        metrics = []
-        for k in range(distribution.shape[1]):
-            metrics.append(self._mode.cpu(distribution[:, k]))
+        metrics = [self._mode.cpu(distribution[:, k]) for k in range(distribution.shape[1])]
         return self._aggregate_results(metrics)
     def _get_items_list_per_user_spark(
-        self, recommendations: SparkDataFrame, extra_column: str = None
+        self, recommendations: SparkDataFrame, extra_column: Optional[str] = None
     ) -> SparkDataFrame:
         recommendations = recommendations.groupby(self.query_column).agg(
             sf.sort_array(
                 sf.collect_list(
-                    sf.struct(
-                        *[
-                            c
-                            for c in [self.rating_column, self.item_column, extra_column]
-                            if c is not None
-                        ]
-                    )
+                    sf.struct(*[c for c in [self.rating_column, self.item_column, extra_column] if c is not None])
                 ),
                 False,
             ).alias("pred")
@@ -231,7 +207,7 @@ class Metric(ABC):
         return recommendations
     def _get_items_list_per_user_polars(
-        self, recommendations: PolarsDataFrame, extra_column: str = None
+        self, recommendations: PolarsDataFrame, extra_column: Optional[str] = None
     ) -> PolarsDataFrame:
         selection = [self.query_column, "pred_item_id"]
         sorting = [self.rating_column, self.item_column]
@@ -242,8 +218,7 @@ class Metric(ABC):
             selection.append(extra_column)
         recommendations = (
-            recommendations
-            .sort(sorting, descending=True)
+            recommendations.sort(sorting, descending=True)
             .group_by(self.query_column)
             .agg(*agg)
             .rename({self.item_column: "pred_item_id"})
@@ -253,7 +228,7 @@ class Metric(ABC):
         return recommendations
     def _get_items_list_per_user(
-        self, recommendations: Union[SparkDataFrame, PolarsDataFrame], extra_column: str = None
+        self, recommendations: Union[SparkDataFrame, PolarsDataFrame], extra_column: Optional[str] = None
     ) -> Union[SparkDataFrame, PolarsDataFrame]:
         if isinstance(recommendations, SparkDataFrame):
             return self._get_items_list_per_user_spark(recommendations, extra_column)
@@ -265,7 +240,7 @@ class Metric(ABC):
     ) -> Union[SparkDataFrame, PolarsDataFrame]:
         cols = data.columns
         cols.remove(self.query_column)
-        cols = [self.query_column] + sorted(cols)
+        cols = [self.query_column, *sorted(cols)]
         return data.select(*cols)
     def _get_enriched_recommendations(
@@ -300,8 +275,7 @@ class Metric(ABC):
         ground_truth: PolarsDataFrame,
     ) -> PolarsDataFrame:
         true_items_by_users = (
-            ground_truth
-            .group_by(self.query_column)
+            ground_truth.group_by(self.query_column)
             .agg(pl.col(self.item_column))
             .rename({self.item_column: "ground_truth"})
         )
@@ -313,9 +287,7 @@ class Metric(ABC):
         )
         return self._rearrange_columns(enriched_recommendations)
-    def _aggregate_results_per_user(
-        self, distribution_per_user: Dict[Any, List[float]]
-    ) -> MetricsPerUserReturnType:
+    def _aggregate_results_per_user(self, distribution_per_user: Dict[Any, List[float]]) -> MetricsPerUserReturnType:
         res: MetricsPerUserReturnType = {}
         for index, val in enumerate(self.topk):
             metric_name = f"{self.__name__}@{val}"
@@ -335,18 +307,12 @@ class Metric(ABC):
         """
         Calculating metrics for PySpark DataFrame.
         """
-        recs_with_topk_list = recs.withColumn(
-            "k", sf.array(*[sf.lit(x) for x in self.topk])
-        )
+        recs_with_topk_list = recs.withColumn("k", sf.array(*[sf.lit(x) for x in self.topk]))
         distribution = self._get_metric_distribution(recs_with_topk_list)
         if self._mode.__name__ == "PerUser":
             return self._aggregate_results_per_user(distribution.rdd.collectAsMap())
         metrics = [
-            self._mode.spark(
-                distribution.select(sf.col("value").getItem(i)).withColumnRenamed(
-                    f"value[{i}]", "val"
-                )
-            )
+            self._mode.spark(distribution.select(sf.col("value").getItem(i)).withColumnRenamed(f"value[{i}]", "val"))
             for i in range(len(self.topk))
         ]
         return self._aggregate_results(metrics)
@@ -355,27 +321,23 @@ class Metric(ABC):
         distribution = self._get_metric_distribution(recs)
         if self._mode.__name__ == "PerUser":
             return self._aggregate_results_per_user(
-                dict(distribution.select(
-                    self.query_column,
-                    value=pl.concat_list(pl.exclude(self.query_column))
-                ).iter_rows())
+                dict(
+                    distribution.select(
+                        self.query_column, value=pl.concat_list(pl.exclude(self.query_column))
+                    ).iter_rows()
+                )
             )
-        metrics = [self._mode.cpu(distribution.select(column))
-                   for column in distribution.columns[1:]]
+        metrics = [self._mode.cpu(distribution.select(column)) for column in distribution.columns[1:]]
         return self._aggregate_results(metrics)
-    def _spark_call(
-        self, recommendations: SparkDataFrame, ground_truth: SparkDataFrame
-    ) -> MetricsReturnType:
+    def _spark_call(self, recommendations: SparkDataFrame, ground_truth: SparkDataFrame) -> MetricsReturnType:
         """
         Implementation for PySpark DataFrame.
         """
         recs = self._get_enriched_recommendations(recommendations, ground_truth)
         return self._spark_compute(recs)
-    def _polars_call(
-        self, recommendations: PolarsDataFrame, ground_truth: PolarsDataFrame
-    ) -> MetricsReturnType:
+    def _polars_call(self, recommendations: PolarsDataFrame, ground_truth: PolarsDataFrame) -> MetricsReturnType:
         """
         Implementation for Polars DataFrame.
         """
@@ -383,7 +345,7 @@ class Metric(ABC):
         return self._polars_compute(recs)
     def _get_metric_distribution(
-            self, recs: Union[PolarsDataFrame, SparkDataFrame]
+        self, recs: Union[PolarsDataFrame, SparkDataFrame]
     ) -> Union[PolarsDataFrame, SparkDataFrame]:
         if isinstance(recs, SparkDataFrame):
             return self._get_metric_distribution_spark(recs)
@@ -406,16 +368,13 @@ class Metric(ABC):
         distribution = recs.map_rows(lambda x: (x[0], *cur_class._get_metric_value_by_user(self.topk, *x[1:])))
         distribution = distribution.rename({"column_0": self.query_column})
         distribution = distribution.rename(
-            {distribution.columns[x + 1]: f"value_{self.topk[x]}"
-             for x in range(len(self.topk))}
+            {distribution.columns[x + 1]: f"value_{self.topk[x]}" for x in range(len(self.topk))}
         )
         return distribution
     @staticmethod
     @abstractmethod
-    def _get_metric_value_by_user(  # pylint: disable=invalid-name
-        ks: List[int], *args: List
-    ) -> List[float]:  # pragma: no cover
+    def _get_metric_value_by_user(ks: List[int], *args: List) -> List[float]:  # pragma: no cover
         """
         Metric calculation for one user.

replay/metrics/categorical_diversity.py CHANGED Viewed

@@ -4,7 +4,7 @@ from typing import Dict, List, Union
 import numpy as np
 import polars as pl
-from replay.utils import PYSPARK_AVAILABLE, PandasDataFrame, SparkDataFrame, PolarsDataFrame
+from replay.utils import PYSPARK_AVAILABLE, PandasDataFrame, PolarsDataFrame, SparkDataFrame
 from .base_metric import (
     Metric,
@@ -16,11 +16,12 @@ from .base_metric import (
 from .descriptors import CalculationDescriptor, Mean
 if PYSPARK_AVAILABLE:
-    from pyspark.sql import Window
-    from pyspark.sql import functions as F
+    from pyspark.sql import (
+        Window,
+        functions as sf,
+    )
-# pylint: disable=too-few-public-methods
 class CategoricalDiversity(Metric):
     """
     Metric calculation is as follows:
@@ -59,7 +60,6 @@ class CategoricalDiversity(Metric):
     <BLANKLINE>
     """
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         topk: Union[List, int],
@@ -108,31 +108,21 @@ class CategoricalDiversity(Metric):
         precalculated_answer = self._precalculate_unique_cats(recommendations)
         return self._dict_call(precalculated_answer)
-    # pylint: disable=arguments-differ
     def _get_enriched_recommendations(
-        self, recommendations: Union[PolarsDataFrame, SparkDataFrame],
+        self,
+        recommendations: Union[PolarsDataFrame, SparkDataFrame],
     ) -> Union[PolarsDataFrame, SparkDataFrame]:
         if isinstance(recommendations, SparkDataFrame):
             return self._get_enriched_recommendations_spark(recommendations)
         else:
             return self._get_enriched_recommendations_polars(recommendations)
-    # pylint: disable=arguments-differ
-    def _get_enriched_recommendations_spark(
-        self, recommendations: SparkDataFrame
-    ) -> SparkDataFrame:
-        window = Window.partitionBy(self.query_column).orderBy(
-            F.col(self.rating_column).desc()
-        )
-        sorted_by_score_recommendations = recommendations.withColumn(
-            "rank", F.row_number().over(window)
-        )
+    def _get_enriched_recommendations_spark(self, recommendations: SparkDataFrame) -> SparkDataFrame:
+        window = Window.partitionBy(self.query_column).orderBy(sf.col(self.rating_column).desc())
+        sorted_by_score_recommendations = recommendations.withColumn("rank", sf.row_number().over(window))
         return sorted_by_score_recommendations
-    # pylint: disable=arguments-differ
-    def _get_enriched_recommendations_polars(
-        self, recommendations: PolarsDataFrame
-    ) -> PolarsDataFrame:
+    def _get_enriched_recommendations_polars(self, recommendations: PolarsDataFrame) -> PolarsDataFrame:
         sorted_by_score_recommendations = recommendations.select(
             pl.all().sort_by(self.rating_column, descending=True).over(self.query_column)
         )
@@ -146,13 +136,9 @@ class CategoricalDiversity(Metric):
     def _spark_compute_per_user(self, recs: SparkDataFrame) -> MetricsPerUserReturnType:
         distribution_per_user = defaultdict(list)
         for k in self.topk:
-            filtered_recs = recs.filter(F.col("rank") <= k)
-            aggreagated_by_user = filtered_recs.groupBy(self.query_column).agg(
-                F.countDistinct(self.category_column)
-            )
-            aggreagated_by_user_dict = (
-                aggreagated_by_user.rdd.collectAsMap()
-            )  # type:ignore
+            filtered_recs = recs.filter(sf.col("rank") <= k)
+            aggreagated_by_user = filtered_recs.groupBy(self.query_column).agg(sf.countDistinct(self.category_column))
+            aggreagated_by_user_dict = aggreagated_by_user.rdd.collectAsMap()
             for user, metric in aggreagated_by_user_dict.items():
                 distribution_per_user[user].append(metric / k)
         return self._aggregate_results_per_user(dict(distribution_per_user))
@@ -161,12 +147,8 @@ class CategoricalDiversity(Metric):
         distribution_per_user = defaultdict(list)
         for k in self.topk:
             filtered_recs = recs.filter(pl.col("rank") <= k)
-            aggreagated_by_user = filtered_recs.group_by(self.query_column).agg(
-                pl.col(self.category_column).n_unique()
-            )
-            aggreagated_by_user_dict = (
-                dict(aggreagated_by_user.iter_rows())
-            )  # type:ignore
+            aggreagated_by_user = filtered_recs.group_by(self.query_column).agg(pl.col(self.category_column).n_unique())
+            aggreagated_by_user_dict = dict(aggreagated_by_user.iter_rows())
             for user, metric in aggreagated_by_user_dict.items():
                 distribution_per_user[user].append(metric / k)
         return self._aggregate_results_per_user(dict(distribution_per_user))
@@ -174,10 +156,10 @@ class CategoricalDiversity(Metric):
     def _spark_compute_agg(self, recs: SparkDataFrame) -> MetricsMeanReturnType:
         metrics = []
         for k in self.topk:
-            filtered_recs = recs.filter(F.col("rank") <= k)
+            filtered_recs = recs.filter(sf.col("rank") <= k)
             aggregated_by_user = (
                 filtered_recs.groupBy(self.query_column)
-                .agg(F.countDistinct(self.category_column))
+                .agg(sf.countDistinct(self.category_column))
                 .drop(self.query_column)
             )
             metrics.append(self._mode.spark(aggregated_by_user) / k)
@@ -195,7 +177,6 @@ class CategoricalDiversity(Metric):
             metrics.append(self._mode.cpu(aggregated_by_user) / k)
         return self._aggregate_results(metrics)
-    # pylint: disable=arguments-differ
     def _spark_call(self, recommendations: SparkDataFrame) -> MetricsReturnType:
         """
         Implementation for Pyspark DataFrame.
@@ -205,7 +186,6 @@ class CategoricalDiversity(Metric):
             return self._spark_compute_per_user(recs)
         return self._spark_compute_agg(recs)
-    # pylint: disable=arguments-differ
     def _polars_call(self, recommendations: PolarsDataFrame) -> MetricsReturnType:
         """
         Implementation for Polars DataFrame.
@@ -223,7 +203,6 @@ class CategoricalDiversity(Metric):
             .to_dict()
         )
-    # pylint: disable=no-self-use
     def _precalculate_unique_cats(self, recommendations: Dict) -> Dict:
         """
         Precalculate unique categories for each prefix for each user.
@@ -238,24 +217,16 @@ class CategoricalDiversity(Metric):
             answer[user] = unique_len
         return answer
-    # pylint: disable=arguments-renamed,arguments-differ
-    def _dict_compute_per_user(
-        self, precalculated_answer: Dict
-    ) -> MetricsPerUserReturnType:  # type:ignore
+    def _dict_compute_per_user(self, precalculated_answer: Dict) -> MetricsPerUserReturnType:
         distribution_per_user = defaultdict(list)
         for k in self.topk:
             for user, unique_cats in precalculated_answer.items():
-                distribution_per_user[user].append(
-                    unique_cats[min(len(unique_cats), k) - 1] / k
-                )
+                distribution_per_user[user].append(unique_cats[min(len(unique_cats), k) - 1] / k)
         return self._aggregate_results_per_user(distribution_per_user)
-    # pylint: disable=arguments-renamed
-    def _dict_compute_mean(
-        self, precalculated_answer: Dict
-    ) -> MetricsMeanReturnType:  # type:ignore
+    def _dict_compute_mean(self, precalculated_answer: Dict) -> MetricsMeanReturnType:
         distribution_list = []
-        for _, unique_cats in precalculated_answer.items():
+        for unique_cats in precalculated_answer.values():
             metrics_per_user = []
             for k in self.topk:
                 metric = unique_cats[min(len(unique_cats), k) - 1] / k
@@ -264,12 +235,9 @@ class CategoricalDiversity(Metric):
         distribution = np.stack(distribution_list)
         assert distribution.shape[1] == len(self.topk)
-        metrics = []
-        for k in range(distribution.shape[1]):
-            metrics.append(self._mode.cpu(distribution[:, k]))
+        metrics = [self._mode.cpu(distribution[:, k]) for k in range(distribution.shape[1])]
         return self._aggregate_results(metrics)
-    # pylint: disable=arguments-differ
     def _dict_call(self, precalculated_answer: Dict) -> MetricsReturnType:
         """
         Calculating metrics in dict format.
@@ -279,7 +247,5 @@ class CategoricalDiversity(Metric):
         return self._dict_compute_mean(precalculated_answer)
     @staticmethod
-    def _get_metric_value_by_user(
-        ks: List[int], *args: List
-    ) -> List[float]:  # pragma: no cover
+    def _get_metric_value_by_user(ks: List[int], *args: List) -> List[float]:  # pragma: no cover
         pass

replay-rec 0.16.0rc0__py3-none-any.whl → 0.17.0__py3-none-any.whl

replay-rec 0.16.0rc0py3-none-any.whl → 0.17.0py3-none-any.whl