PyPI - replay-rec - Versions diffs - 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl - Mend

replay-rec 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (110) hide show

replay/__init__.py +1 -1
replay/data/__init__.py +1 -1
replay/data/dataset.py +45 -42
replay/data/dataset_utils/dataset_label_encoder.py +6 -7
replay/data/nn/__init__.py +1 -1
replay/data/nn/schema.py +20 -33
replay/data/nn/sequence_tokenizer.py +217 -87
replay/data/nn/sequential_dataset.py +6 -22
replay/data/nn/torch_sequential_dataset.py +20 -11
replay/data/nn/utils.py +7 -9
replay/data/schema.py +17 -17
replay/data/spark_schema.py +0 -1
replay/metrics/base_metric.py +38 -79
replay/metrics/categorical_diversity.py +24 -58
replay/metrics/coverage.py +25 -49
replay/metrics/descriptors.py +4 -13
replay/metrics/experiment.py +3 -8
replay/metrics/hitrate.py +3 -6
replay/metrics/map.py +3 -6
replay/metrics/mrr.py +1 -4
replay/metrics/ndcg.py +4 -7
replay/metrics/novelty.py +10 -29
replay/metrics/offline_metrics.py +26 -61
replay/metrics/precision.py +3 -6
replay/metrics/recall.py +3 -6
replay/metrics/rocauc.py +7 -10
replay/metrics/surprisal.py +13 -30
replay/metrics/torch_metrics_builder.py +0 -4
replay/metrics/unexpectedness.py +15 -20
replay/models/__init__.py +1 -2
replay/models/als.py +7 -15
replay/models/association_rules.py +12 -28
replay/models/base_neighbour_rec.py +21 -36
replay/models/base_rec.py +92 -215
replay/models/cat_pop_rec.py +9 -22
replay/models/cluster.py +17 -28
replay/models/extensions/ann/ann_mixin.py +7 -12
replay/models/extensions/ann/entities/base_hnsw_param.py +1 -1
replay/models/extensions/ann/entities/hnswlib_param.py +0 -6
replay/models/extensions/ann/entities/nmslib_hnsw_param.py +0 -6
replay/models/extensions/ann/index_builders/driver_hnswlib_index_builder.py +4 -10
replay/models/extensions/ann/index_builders/driver_nmslib_index_builder.py +7 -11
replay/models/extensions/ann/index_builders/executor_hnswlib_index_builder.py +5 -12
replay/models/extensions/ann/index_builders/executor_nmslib_index_builder.py +11 -18
replay/models/extensions/ann/index_builders/nmslib_index_builder_mixin.py +1 -4
replay/models/extensions/ann/index_inferers/base_inferer.py +3 -10
replay/models/extensions/ann/index_inferers/hnswlib_filter_index_inferer.py +7 -17
replay/models/extensions/ann/index_inferers/hnswlib_index_inferer.py +6 -14
replay/models/extensions/ann/index_inferers/nmslib_filter_index_inferer.py +14 -28
replay/models/extensions/ann/index_inferers/nmslib_index_inferer.py +15 -25
replay/models/extensions/ann/index_inferers/utils.py +2 -9
replay/models/extensions/ann/index_stores/hdfs_index_store.py +4 -9
replay/models/extensions/ann/index_stores/shared_disk_index_store.py +2 -6
replay/models/extensions/ann/index_stores/spark_files_index_store.py +8 -14
replay/models/extensions/ann/index_stores/utils.py +5 -2
replay/models/extensions/ann/utils.py +3 -5
replay/models/kl_ucb.py +16 -22
replay/models/knn.py +37 -59
replay/models/nn/optimizer_utils/__init__.py +1 -6
replay/models/nn/optimizer_utils/optimizer_factory.py +3 -6
replay/models/nn/sequential/bert4rec/__init__.py +1 -1
replay/models/nn/sequential/bert4rec/dataset.py +6 -7
replay/models/nn/sequential/bert4rec/lightning.py +53 -56
replay/models/nn/sequential/bert4rec/model.py +12 -25
replay/models/nn/sequential/callbacks/__init__.py +1 -1
replay/models/nn/sequential/callbacks/prediction_callbacks.py +23 -25
replay/models/nn/sequential/callbacks/validation_callback.py +27 -30
replay/models/nn/sequential/postprocessors/postprocessors.py +1 -1
replay/models/nn/sequential/sasrec/dataset.py +8 -7
replay/models/nn/sequential/sasrec/lightning.py +53 -48
replay/models/nn/sequential/sasrec/model.py +4 -17
replay/models/pop_rec.py +9 -10
replay/models/query_pop_rec.py +7 -15
replay/models/random_rec.py +10 -18
replay/models/slim.py +8 -13
replay/models/thompson_sampling.py +13 -14
replay/models/ucb.py +11 -22
replay/models/wilson.py +5 -14
replay/models/word2vec.py +24 -69
replay/optimization/optuna_objective.py +13 -27
replay/preprocessing/__init__.py +1 -2
replay/preprocessing/converter.py +2 -7
replay/preprocessing/filters.py +67 -142
replay/preprocessing/history_based_fp.py +44 -116
replay/preprocessing/label_encoder.py +106 -68
replay/preprocessing/sessionizer.py +1 -11
replay/scenarios/fallback.py +3 -8
replay/splitters/base_splitter.py +43 -15
replay/splitters/cold_user_random_splitter.py +18 -31
replay/splitters/k_folds.py +14 -24
replay/splitters/last_n_splitter.py +33 -43
replay/splitters/new_users_splitter.py +31 -55
replay/splitters/random_splitter.py +16 -23
replay/splitters/ratio_splitter.py +30 -54
replay/splitters/time_splitter.py +13 -18
replay/splitters/two_stage_splitter.py +44 -79
replay/utils/__init__.py +1 -1
replay/utils/common.py +65 -0
replay/utils/dataframe_bucketizer.py +25 -31
replay/utils/distributions.py +3 -15
replay/utils/model_handler.py +36 -33
replay/utils/session_handler.py +11 -15
replay/utils/spark_utils.py +51 -85
replay/utils/time.py +8 -22
replay/utils/types.py +1 -3
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/METADATA +2 -2
replay_rec-0.17.0.dist-info/RECORD +127 -0
replay_rec-0.16.0.dist-info/RECORD +0 -126
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/LICENSE +0 -0
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/WHEEL +0 -0

replay/preprocessing/history_based_fp.py CHANGED Viewed

@@ -29,7 +29,6 @@ class EmptyFeatureProcessor:
         :param features: DataFrame with ``user_idx/item_idx`` and feature columns
         """
-    # pylint: disable=no-self-use
     def transform(self, log: SparkDataFrame) -> SparkDataFrame:
         """
         Return log without any transformations
@@ -74,26 +73,16 @@ class LogStatFeaturesProcessor(EmptyFeatureProcessor):
         """
         prefix = agg_col[:1]
-        aggregates = [
-            sf.log(sf.count(sf.col("relevance"))).alias(
-                f"{prefix}_log_num_interact"
-            )
-        ]
+        aggregates = [sf.log(sf.count(sf.col("relevance"))).alias(f"{prefix}_log_num_interact")]
         if self.calc_timestamp_based:
             aggregates.extend(
                 [
-                    sf.log(
-                        sf.countDistinct(
-                            sf.date_trunc("dd", sf.col("timestamp"))
-                        )
-                    ).alias(f"{prefix}_log_interact_days_count"),
-                    sf.min(sf.col("timestamp")).alias(
-                        f"{prefix}_min_interact_date"
-                    ),
-                    sf.max(sf.col("timestamp")).alias(
-                        f"{prefix}_max_interact_date"
+                    sf.log(sf.countDistinct(sf.date_trunc("dd", sf.col("timestamp")))).alias(
+                        f"{prefix}_log_interact_days_count"
                     ),
+                    sf.min(sf.col("timestamp")).alias(f"{prefix}_min_interact_date"),
+                    sf.max(sf.col("timestamp")).alias(f"{prefix}_max_interact_date"),
                 ]
             )
@@ -102,8 +91,7 @@ class LogStatFeaturesProcessor(EmptyFeatureProcessor):
                 [
                     (
                         sf.when(
-                            sf.stddev(sf.col("relevance")).isNull()
-                            | sf.isnan(sf.stddev(sf.col("relevance"))),
+                            sf.stddev(sf.col("relevance")).isNull() | sf.isnan(sf.stddev(sf.col("relevance"))),
                             0,
                         )
                         .otherwise(sf.stddev(sf.col("relevance")))
@@ -112,19 +100,15 @@ class LogStatFeaturesProcessor(EmptyFeatureProcessor):
                     sf.mean(sf.col("relevance")).alias(f"{prefix}_mean"),
                 ]
             )
-            for percentile in [0.05, 0.5, 0.95]:
-                aggregates.append(
-                    sf.expr(
-                        f"percentile_approx(relevance, {percentile})"
-                    ).alias(f"{prefix}_quantile_{str(percentile)[2:]}")
-                )
+            aggregates.extend(
+                sf.expr(f"percentile_approx(relevance, {percentile})").alias(f"{prefix}_quantile_{str(percentile)[2:]}")
+                for percentile in [0.05, 0.5, 0.95]
+            )
         return aggregates
     @staticmethod
-    def _add_ts_based(
-        features: SparkDataFrame, max_log_date: datetime, prefix: str
-    ) -> SparkDataFrame:
+    def _add_ts_based(features: SparkDataFrame, max_log_date: datetime, prefix: str) -> SparkDataFrame:
         """
         Add history length (max - min timestamp) and difference in days between
         last date in log and last interaction of the user/item
@@ -142,15 +126,11 @@ class LogStatFeaturesProcessor(EmptyFeatureProcessor):
             ),
         ).withColumn(
             f"{prefix}_last_interaction_gap_days",
-            sf.datediff(
-                sf.lit(max_log_date), sf.col(f"{prefix}_max_interact_date")
-            ),
+            sf.datediff(sf.lit(max_log_date), sf.col(f"{prefix}_max_interact_date")),
         )
     @staticmethod
-    def _cals_cross_interactions_count(
-        log: SparkDataFrame, features: SparkDataFrame
-    ) -> SparkDataFrame:
+    def _cals_cross_interactions_count(log: SparkDataFrame, features: SparkDataFrame) -> SparkDataFrame:
         """
         Calculate difference between the log number of interactions by the user
         and average log number of interactions users interacted with the item has.
@@ -165,9 +145,7 @@ class LogStatFeaturesProcessor(EmptyFeatureProcessor):
             new_feature_entity, calc_by_entity = "user_idx", "item_idx"
         mean_log_num_interact = log.join(
-            features.select(
-                calc_by_entity, f"{calc_by_entity[0]}_log_num_interact"
-            ),
+            features.select(calc_by_entity, f"{calc_by_entity[0]}_log_num_interact"),
             on=calc_by_entity,
             how="left",
         )
@@ -178,9 +156,7 @@ class LogStatFeaturesProcessor(EmptyFeatureProcessor):
         )
     @staticmethod
-    def _calc_abnormality(
-        log: SparkDataFrame, item_features: SparkDataFrame
-    ) -> SparkDataFrame:
+    def _calc_abnormality(log: SparkDataFrame, item_features: SparkDataFrame) -> SparkDataFrame:
         """
         Calculate  discrepancy between a rating on a resource
         and the average rating of this resource (Abnormality) and
@@ -198,13 +174,9 @@ class LogStatFeaturesProcessor(EmptyFeatureProcessor):
             on_col_name="item_idx",
             how="left",
         )
-        abnormality_df = abnormality_df.withColumn(
-            "abnormality", sf.abs(sf.col("relevance") - sf.col("i_mean"))
-        )
+        abnormality_df = abnormality_df.withColumn("abnormality", sf.abs(sf.col("relevance") - sf.col("i_mean")))
-        abnormality_aggs = [
-            sf.mean(sf.col("abnormality")).alias("abnormality")
-        ]
+        abnormality_aggs = [sf.mean(sf.col("abnormality")).alias("abnormality")]
         # Abnormality CR:
         max_std = item_features.select(sf.max("i_std")).collect()[0][0]
@@ -212,80 +184,53 @@ class LogStatFeaturesProcessor(EmptyFeatureProcessor):
         if max_std - min_std != 0:
             abnormality_df = abnormality_df.withColumn(
                 "controversy",
-                1
-                - (sf.col("i_std") - sf.lit(min_std))
-                / (sf.lit(max_std - min_std)),
+                1 - (sf.col("i_std") - sf.lit(min_std)) / (sf.lit(max_std - min_std)),
             )
             abnormality_df = abnormality_df.withColumn(
                 "abnormalityCR",
                 (sf.col("abnormality") * sf.col("controversy")) ** 2,
             )
-            abnormality_aggs.append(
-                sf.mean(sf.col("abnormalityCR")).alias("abnormalityCR")
-            )
+            abnormality_aggs.append(sf.mean(sf.col("abnormalityCR")).alias("abnormalityCR"))
         return abnormality_df.groupBy("user_idx").agg(*abnormality_aggs)
-    def fit(
-        self, log: SparkDataFrame, features: Optional[SparkDataFrame] = None
-    ) -> None:
+    def fit(self, log: SparkDataFrame, features: Optional[SparkDataFrame] = None) -> None:  # noqa: ARG002
         """
         Calculate log-based features for users and items
          :param log: input SparkDataFrame ``[user_idx, item_idx, timestamp, relevance]``
-         :param features: not required
         """
-        self.calc_timestamp_based = (
-            isinstance(log.schema["timestamp"].dataType, TimestampType)
-        ) & (
-            log.select(sf.countDistinct(sf.col("timestamp"))).collect()[0][0]
-            > 1
-        )
-        self.calc_relevance_based = (
-            log.select(sf.countDistinct(sf.col("relevance"))).collect()[0][0]
-            > 1
+        self.calc_timestamp_based = (isinstance(log.schema["timestamp"].dataType, TimestampType)) & (
+            log.select(sf.countDistinct(sf.col("timestamp"))).collect()[0][0] > 1
         )
+        self.calc_relevance_based = log.select(sf.countDistinct(sf.col("relevance"))).collect()[0][0] > 1
-        user_log_features = log.groupBy("user_idx").agg(
-            *self._create_log_aggregates(agg_col="user_idx")
-        )
-        item_log_features = log.groupBy("item_idx").agg(
-            *self._create_log_aggregates(agg_col="item_idx")
-        )
+        user_log_features = log.groupBy("user_idx").agg(*self._create_log_aggregates(agg_col="user_idx"))
+        item_log_features = log.groupBy("item_idx").agg(*self._create_log_aggregates(agg_col="item_idx"))
         if self.calc_timestamp_based:
             last_date = log.select(sf.max("timestamp")).collect()[0][0]
-            user_log_features = self._add_ts_based(
-                features=user_log_features, max_log_date=last_date, prefix="u"
-            )
+            user_log_features = self._add_ts_based(features=user_log_features, max_log_date=last_date, prefix="u")
-            item_log_features = self._add_ts_based(
-                features=item_log_features, max_log_date=last_date, prefix="i"
-            )
+            item_log_features = self._add_ts_based(features=item_log_features, max_log_date=last_date, prefix="i")
         if self.calc_relevance_based:
             user_log_features = user_log_features.join(
-                self._calc_abnormality(
-                    log=log, item_features=item_log_features
-                ),
+                self._calc_abnormality(log=log, item_features=item_log_features),
                 on="user_idx",
                 how="left",
             ).cache()
         self.user_log_features = join_with_col_renaming(
             left=user_log_features,
-            right=self._cals_cross_interactions_count(
-                log=log, features=item_log_features
-            ),
+            right=self._cals_cross_interactions_count(log=log, features=item_log_features),
             on_col_name="user_idx",
             how="left",
         ).cache()
         self.item_log_features = join_with_col_renaming(
             left=item_log_features,
-            right=self._cals_cross_interactions_count(
-                log=log, features=user_log_features
-            ),
+            right=self._cals_cross_interactions_count(log=log, features=user_log_features),
             on_col_name="item_idx",
             how="left",
         ).cache()
@@ -311,25 +256,15 @@ class LogStatFeaturesProcessor(EmptyFeatureProcessor):
             )
             .withColumn(
                 "na_u_log_features",
-                sf.when(sf.col("u_log_num_interact").isNull(), 1.0).otherwise(
-                    0.0
-                ),
+                sf.when(sf.col("u_log_num_interact").isNull(), 1.0).otherwise(0.0),
             )
             .withColumn(
                 "na_i_log_features",
-                sf.when(sf.col("i_log_num_interact").isNull(), 1.0).otherwise(
-                    0.0
-                ),
+                sf.when(sf.col("i_log_num_interact").isNull(), 1.0).otherwise(0.0),
             )
             # TO DO std и date diff заменяем на inf, date features - будут ли работать корректно?
             # если не заменять, будет ли работать корректно?
-            .fillna(
-                {
-                    col_name: 0
-                    for col_name in self.user_log_features.columns
-                    + self.item_log_features.columns
-                }
-            )
+            .fillna({col_name: 0 for col_name in self.user_log_features.columns + self.item_log_features.columns})
         )
         joined = joined.withColumn(
@@ -375,19 +310,16 @@ class ConditionalPopularityProcessor(EmptyFeatureProcessor):
         :param log: input SparkDataFrame ``[user_idx, item_idx, timestamp, relevance]``
         :param features: SparkDataFrame with ``user_idx/item_idx`` and feature columns
         """
-        if len(
-            set(self.cat_features_list).intersection(features.columns)
-        ) != len(self.cat_features_list):
-            raise ValueError(
+        if len(set(self.cat_features_list).intersection(features.columns)) != len(self.cat_features_list):
+            msg = (
                 f"Columns {set(self.cat_features_list).difference(features.columns)} "
                 f"defined in `cat_features_list` are absent in features. "
                 f"features columns are: {features.columns}."
             )
+            raise ValueError(msg)
         join_col, self.entity_name = (
-            ("item_idx", "user_idx")
-            if "item_idx" in features.columns
-            else ("user_idx", "item_idx")
+            ("item_idx", "user_idx") if "item_idx" in features.columns else ("user_idx", "item_idx")
         )
         self.conditional_pop_dict = {}
@@ -400,9 +332,9 @@ class ConditionalPopularityProcessor(EmptyFeatureProcessor):
         for cat_col in self.cat_features_list:
             col_name = f"{self.entity_name[0]}_pop_by_{cat_col}"
-            intermediate_df = log_with_features.groupBy(
-                self.entity_name, cat_col
-            ).agg(sf.count("relevance").alias(col_name))
+            intermediate_df = log_with_features.groupBy(self.entity_name, cat_col).agg(
+                sf.count("relevance").alias(col_name)
+            )
             intermediate_df = intermediate_df.join(
                 sf.broadcast(count_by_entity_col),
                 on=self.entity_name,
@@ -447,7 +379,6 @@ class ConditionalPopularityProcessor(EmptyFeatureProcessor):
             unpersist_if_exists(df)
-# pylint: disable=too-many-instance-attributes, too-many-arguments
 class HistoryBasedFeaturesProcessor:
     """
     Calculate user and item features based on interactions history (log).
@@ -484,13 +415,9 @@ class HistoryBasedFeaturesProcessor:
         if use_conditional_popularity and user_cat_features_list:
             if user_cat_features_list:
-                self.user_cond_pop_proc = ConditionalPopularityProcessor(
-                    cat_features_list=user_cat_features_list
-                )
+                self.user_cond_pop_proc = ConditionalPopularityProcessor(cat_features_list=user_cat_features_list)
             if item_cat_features_list:
-                self.item_cond_pop_proc = ConditionalPopularityProcessor(
-                    cat_features_list=item_cat_features_list
-                )
+                self.item_cond_pop_proc = ConditionalPopularityProcessor(cat_features_list=item_cat_features_list)
         self.fitted: bool = False
     def fit(
@@ -524,7 +451,8 @@ class HistoryBasedFeaturesProcessor:
         :return: augmented SparkDataFrame
         """
         if not self.fitted:
-            raise AttributeError("Call fit before running transform")
+            msg = "Call fit before running transform"
+            raise AttributeError(msg)
         joined = self.log_processor.transform(log)
         joined = self.user_cond_pop_proc.transform(joined)
         joined = self.item_cond_pop_proc.transform(joined)

replay-rec 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl

replay-rec 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl