PyPI - replay-rec - Versions diffs - 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl - Mend

replay-rec 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (110) hide show

replay/__init__.py +1 -1
replay/data/__init__.py +1 -1
replay/data/dataset.py +45 -42
replay/data/dataset_utils/dataset_label_encoder.py +6 -7
replay/data/nn/__init__.py +1 -1
replay/data/nn/schema.py +20 -33
replay/data/nn/sequence_tokenizer.py +217 -87
replay/data/nn/sequential_dataset.py +6 -22
replay/data/nn/torch_sequential_dataset.py +20 -11
replay/data/nn/utils.py +7 -9
replay/data/schema.py +17 -17
replay/data/spark_schema.py +0 -1
replay/metrics/base_metric.py +38 -79
replay/metrics/categorical_diversity.py +24 -58
replay/metrics/coverage.py +25 -49
replay/metrics/descriptors.py +4 -13
replay/metrics/experiment.py +3 -8
replay/metrics/hitrate.py +3 -6
replay/metrics/map.py +3 -6
replay/metrics/mrr.py +1 -4
replay/metrics/ndcg.py +4 -7
replay/metrics/novelty.py +10 -29
replay/metrics/offline_metrics.py +26 -61
replay/metrics/precision.py +3 -6
replay/metrics/recall.py +3 -6
replay/metrics/rocauc.py +7 -10
replay/metrics/surprisal.py +13 -30
replay/metrics/torch_metrics_builder.py +0 -4
replay/metrics/unexpectedness.py +15 -20
replay/models/__init__.py +1 -2
replay/models/als.py +7 -15
replay/models/association_rules.py +12 -28
replay/models/base_neighbour_rec.py +21 -36
replay/models/base_rec.py +92 -215
replay/models/cat_pop_rec.py +9 -22
replay/models/cluster.py +17 -28
replay/models/extensions/ann/ann_mixin.py +7 -12
replay/models/extensions/ann/entities/base_hnsw_param.py +1 -1
replay/models/extensions/ann/entities/hnswlib_param.py +0 -6
replay/models/extensions/ann/entities/nmslib_hnsw_param.py +0 -6
replay/models/extensions/ann/index_builders/driver_hnswlib_index_builder.py +4 -10
replay/models/extensions/ann/index_builders/driver_nmslib_index_builder.py +7 -11
replay/models/extensions/ann/index_builders/executor_hnswlib_index_builder.py +5 -12
replay/models/extensions/ann/index_builders/executor_nmslib_index_builder.py +11 -18
replay/models/extensions/ann/index_builders/nmslib_index_builder_mixin.py +1 -4
replay/models/extensions/ann/index_inferers/base_inferer.py +3 -10
replay/models/extensions/ann/index_inferers/hnswlib_filter_index_inferer.py +7 -17
replay/models/extensions/ann/index_inferers/hnswlib_index_inferer.py +6 -14
replay/models/extensions/ann/index_inferers/nmslib_filter_index_inferer.py +14 -28
replay/models/extensions/ann/index_inferers/nmslib_index_inferer.py +15 -25
replay/models/extensions/ann/index_inferers/utils.py +2 -9
replay/models/extensions/ann/index_stores/hdfs_index_store.py +4 -9
replay/models/extensions/ann/index_stores/shared_disk_index_store.py +2 -6
replay/models/extensions/ann/index_stores/spark_files_index_store.py +8 -14
replay/models/extensions/ann/index_stores/utils.py +5 -2
replay/models/extensions/ann/utils.py +3 -5
replay/models/kl_ucb.py +16 -22
replay/models/knn.py +37 -59
replay/models/nn/optimizer_utils/__init__.py +1 -6
replay/models/nn/optimizer_utils/optimizer_factory.py +3 -6
replay/models/nn/sequential/bert4rec/__init__.py +1 -1
replay/models/nn/sequential/bert4rec/dataset.py +6 -7
replay/models/nn/sequential/bert4rec/lightning.py +53 -56
replay/models/nn/sequential/bert4rec/model.py +12 -25
replay/models/nn/sequential/callbacks/__init__.py +1 -1
replay/models/nn/sequential/callbacks/prediction_callbacks.py +23 -25
replay/models/nn/sequential/callbacks/validation_callback.py +27 -30
replay/models/nn/sequential/postprocessors/postprocessors.py +1 -1
replay/models/nn/sequential/sasrec/dataset.py +8 -7
replay/models/nn/sequential/sasrec/lightning.py +53 -48
replay/models/nn/sequential/sasrec/model.py +4 -17
replay/models/pop_rec.py +9 -10
replay/models/query_pop_rec.py +7 -15
replay/models/random_rec.py +10 -18
replay/models/slim.py +8 -13
replay/models/thompson_sampling.py +13 -14
replay/models/ucb.py +11 -22
replay/models/wilson.py +5 -14
replay/models/word2vec.py +24 -69
replay/optimization/optuna_objective.py +13 -27
replay/preprocessing/__init__.py +1 -2
replay/preprocessing/converter.py +2 -7
replay/preprocessing/filters.py +67 -142
replay/preprocessing/history_based_fp.py +44 -116
replay/preprocessing/label_encoder.py +106 -68
replay/preprocessing/sessionizer.py +1 -11
replay/scenarios/fallback.py +3 -8
replay/splitters/base_splitter.py +43 -15
replay/splitters/cold_user_random_splitter.py +18 -31
replay/splitters/k_folds.py +14 -24
replay/splitters/last_n_splitter.py +33 -43
replay/splitters/new_users_splitter.py +31 -55
replay/splitters/random_splitter.py +16 -23
replay/splitters/ratio_splitter.py +30 -54
replay/splitters/time_splitter.py +13 -18
replay/splitters/two_stage_splitter.py +44 -79
replay/utils/__init__.py +1 -1
replay/utils/common.py +65 -0
replay/utils/dataframe_bucketizer.py +25 -31
replay/utils/distributions.py +3 -15
replay/utils/model_handler.py +36 -33
replay/utils/session_handler.py +11 -15
replay/utils/spark_utils.py +51 -85
replay/utils/time.py +8 -22
replay/utils/types.py +1 -3
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/METADATA +2 -2
replay_rec-0.17.0.dist-info/RECORD +127 -0
replay_rec-0.16.0.dist-info/RECORD +0 -126
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/LICENSE +0 -0
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/WHEEL +0 -0

replay/preprocessing/converter.py CHANGED Viewed

@@ -3,13 +3,12 @@ from typing import Optional
 import numpy as np
 from scipy.sparse import csr_matrix
-from replay.utils import DataFrameLike, SparkDataFrame, PYSPARK_AVAILABLE
+from replay.utils import PYSPARK_AVAILABLE, DataFrameLike, SparkDataFrame
 if PYSPARK_AVAILABLE:
     from replay.utils.spark_utils import spark_to_pandas
-# pylint: disable=too-few-public-methods
 class CSRConverter:
     """
     Convert input data to csr sparse matrix.
@@ -47,7 +46,6 @@ class CSRConverter:
     <BLANKLINE>
     """
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         first_dim_column: str,
@@ -96,10 +94,7 @@ class CSRConverter:
         rows_data = data[self.first_dim_column].values
         cols_data = data[self.second_dim_column].values
-        if self.data_column is not None:
-            data = data[self.data_column].values
-        else:
-            data = np.ones(data.shape[0])
+        data = data[self.data_column].values if self.data_column is not None else np.ones(data.shape[0])
         def _get_max(data: np.ndarray) -> int:
             return np.max(data) if data.shape[0] > 0 else 0

replay/preprocessing/filters.py CHANGED Viewed

@@ -1,22 +1,23 @@
 """
 Select or remove data by some criteria
 """
-import polars as pl
 from abc import ABC, abstractmethod
 from datetime import datetime, timedelta
-from typing import Callable, Optional, Union, Tuple
+from typing import Callable, Optional, Tuple, Union
-from replay.utils import PYSPARK_AVAILABLE, DataFrameLike, PandasDataFrame, SparkDataFrame, PolarsDataFrame
+import polars as pl
+from replay.utils import PYSPARK_AVAILABLE, DataFrameLike, PandasDataFrame, PolarsDataFrame, SparkDataFrame
 if PYSPARK_AVAILABLE:
-    from pyspark.sql import Window
-    from pyspark.sql import functions as sf
+    from pyspark.sql import (
+        Window,
+        functions as sf,
+    )
     from pyspark.sql.functions import col
     from pyspark.sql.types import TimestampType
-# pylint: disable=too-few-public-methods
 class _BaseFilter(ABC):
     def transform(self, interactions: DataFrameLike) -> DataFrameLike:
         r"""Filter interactions.
@@ -32,7 +33,8 @@ class _BaseFilter(ABC):
         elif isinstance(interactions, PolarsDataFrame):
             return self._filter_polars(interactions)
         else:
-            raise NotImplementedError(f"{self.__class__.__name__} is not implemented for {type(interactions)}")
+            msg = f"{self.__class__.__name__} is not implemented for {type(interactions)}"
+            raise NotImplementedError(msg)
     @abstractmethod
     def _filter_spark(self, interactions: SparkDataFrame):  # pragma: no cover
@@ -47,7 +49,6 @@ class _BaseFilter(ABC):
         pass
-# pylint: disable=too-few-public-methods, too-many-instance-attributes
 class InteractionEntriesFilter(_BaseFilter):
     """
     Remove interactions less than minimum constraint value and greater
@@ -81,7 +82,6 @@ class InteractionEntriesFilter(_BaseFilter):
     <BLANKLINE>
     """
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         query_column: str = "user_id",
@@ -166,11 +166,10 @@ class InteractionEntriesFilter(_BaseFilter):
                     interactions, interaction_count, agg_column, non_agg_column, min_inter, max_inter
                 )
             is_dropped_user_item[current_index] = bool(dropped_interact)
-            current_index = (current_index + 1) % 2     # current_index only in (0, 1)
+            current_index = (current_index + 1) % 2  # current_index only in (0, 1)
         return interactions
-    # pylint: disable=no-self-use
     def _filter_column_pandas(
         self,
         interactions: PandasDataFrame,
@@ -196,7 +195,6 @@ class InteractionEntriesFilter(_BaseFilter):
         return filtered_interactions, different_len, end_len_dataframe
-    # pylint: disable=no-self-use
     def _filter_column_spark(
         self,
         interactions: SparkDataFrame,
@@ -223,7 +221,6 @@ class InteractionEntriesFilter(_BaseFilter):
         return filtered_interactions, different_len, end_len_dataframe
-    # pylint: disable=no-self-use
     def _filter_column_polars(
         self,
         interactions: PolarsDataFrame,
@@ -234,8 +231,7 @@ class InteractionEntriesFilter(_BaseFilter):
         max_inter: Optional[int] = None,
     ) -> Tuple[PolarsDataFrame, int, int]:
         filtered_interactions = interactions.with_columns(
-            pl.col(non_agg_column).count().over(pl.col(agg_column))
-            .alias("count")
+            pl.col(non_agg_column).count().over(pl.col(agg_column)).alias("count")
         )
         if min_inter:
             filtered_interactions = filtered_interactions.filter(pl.col("count") >= min_inter)
@@ -294,32 +290,20 @@ class MinCountFilter(_BaseFilter):
     def _filter_pandas(self, interactions: PandasDataFrame) -> PandasDataFrame:
         filtered_interactions = interactions.copy(deep=True)
-        filtered_interactions["count"] = (
-            filtered_interactions
-            .groupby(self.groupby_column)[self.groupby_column]
-            .transform(len)
-        )
-        return (
-            filtered_interactions[filtered_interactions["count"] >= self.num_entries]
-            .drop(columns=["count"])
-        )
+        filtered_interactions["count"] = filtered_interactions.groupby(self.groupby_column)[
+            self.groupby_column
+        ].transform(len)
+        return filtered_interactions[filtered_interactions["count"] >= self.num_entries].drop(columns=["count"])
     def _filter_polars(self, interactions: PolarsDataFrame) -> PolarsDataFrame:
         filtered_interactions = interactions.clone()
         count_by_group = (
-            filtered_interactions
-            .group_by(self.groupby_column)
-            .agg(
-                pl.col(self.groupby_column).count().alias(f"{self.groupby_column}_temp_count")
-            )
-            .filter(
-                pl.col(f"{self.groupby_column}_temp_count") >= self.num_entries
-            )
+            filtered_interactions.group_by(self.groupby_column)
+            .agg(pl.col(self.groupby_column).count().alias(f"{self.groupby_column}_temp_count"))
+            .filter(pl.col(f"{self.groupby_column}_temp_count") >= self.num_entries)
         )
-        return (
-            filtered_interactions
-            .join(count_by_group, on=self.groupby_column)
-            .drop(f"{self.groupby_column}_temp_count")
+        return filtered_interactions.join(count_by_group, on=self.groupby_column).drop(
+            f"{self.groupby_column}_temp_count"
         )
@@ -423,7 +407,6 @@ class NumInteractionsFilter(_BaseFilter):
     <BLANKLINE>
     """
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         num_interactions: int = 10,
@@ -480,14 +463,12 @@ class NumInteractionsFilter(_BaseFilter):
         ascending = [self.first] * len(sorting_columns)
         filtered_interactions["temp_rank"] = (
-            filtered_interactions
-            .sort_values(sorting_columns, ascending=ascending)
+            filtered_interactions.sort_values(sorting_columns, ascending=ascending)
             .groupby(self.query_column)
             .cumcount()
         )
-        return (
-            filtered_interactions[filtered_interactions["temp_rank"] < self.num_interactions]
-            .drop(columns=["temp_rank"])
+        return filtered_interactions[filtered_interactions["temp_rank"] < self.num_interactions].drop(
+            columns=["temp_rank"]
         )
     def _filter_polars(self, interactions: PolarsDataFrame) -> PolarsDataFrame:
@@ -498,15 +479,10 @@ class NumInteractionsFilter(_BaseFilter):
         descending = not self.first
         return (
-            interactions
-            .sort(sorting_columns, descending=descending)
-            .with_columns(
-                pl.col(self.query_column)
-                .cumcount()
-                .over(self.query_column)
-                .alias("temp_rank")
-            )
-            .filter(pl.col("temp_rank") <= self.num_interactions).drop("temp_rank")
+            interactions.sort(sorting_columns, descending=descending)
+            .with_columns(pl.col(self.query_column).cumcount().over(self.query_column).alias("temp_rank"))
+            .filter(pl.col("temp_rank") <= self.num_interactions)
+            .drop("temp_rank")
         )
@@ -598,18 +574,13 @@ class EntityDaysFilter(_BaseFilter):
         if self.first:
             filtered_interactions = (
                 interactions.withColumn("min_date", sf.min(col(self.timestamp_column)).over(window))
-                .filter(
-                    col(self.timestamp_column)
-                    < col("min_date") + sf.expr(f"INTERVAL {self.days} days")
-                )
+                .filter(col(self.timestamp_column) < col("min_date") + sf.expr(f"INTERVAL {self.days} days"))
                 .drop("min_date")
             )
         else:
             filtered_interactions = (
                 interactions.withColumn("max_date", sf.max(col(self.timestamp_column)).over(window))
-                .filter(
-                    col(self.timestamp_column) > col("max_date") - sf.expr(f"INTERVAL {self.days} days")
-                )
+                .filter(col(self.timestamp_column) > col("max_date") - sf.expr(f"INTERVAL {self.days} days"))
                 .drop("max_date")
             )
         return filtered_interactions
@@ -618,57 +589,36 @@ class EntityDaysFilter(_BaseFilter):
         filtered_interactions = interactions.copy(deep=True)
         if self.first:
-            filtered_interactions["min_date"] = (
-                filtered_interactions
-                .groupby(self.entity_column)[self.timestamp_column]
-                .transform(min)
-            )
-            return (
-                filtered_interactions[
-                    (
-                        filtered_interactions[self.timestamp_column]
-                        - filtered_interactions["min_date"]
-                    ).dt.days < self.days
-                ]
-                .drop(columns=["min_date"])
-            )
-        filtered_interactions["max_date"] = (
-            filtered_interactions
-            .groupby(self.entity_column)[self.timestamp_column]
-            .transform(max)
-        )
-        return (
-            filtered_interactions[
-                (
-                    filtered_interactions["max_date"]
-                    - filtered_interactions[self.timestamp_column]
-                ).dt.days < self.days
-            ]
-            .drop(columns=["max_date"])
-        )
+            filtered_interactions["min_date"] = filtered_interactions.groupby(self.entity_column)[
+                self.timestamp_column
+            ].transform(min)
+            return filtered_interactions[
+                (filtered_interactions[self.timestamp_column] - filtered_interactions["min_date"]).dt.days < self.days
+            ].drop(columns=["min_date"])
+        filtered_interactions["max_date"] = filtered_interactions.groupby(self.entity_column)[
+            self.timestamp_column
+        ].transform(max)
+        return filtered_interactions[
+            (filtered_interactions["max_date"] - filtered_interactions[self.timestamp_column]).dt.days < self.days
+        ].drop(columns=["max_date"])
     def _filter_polars(self, interactions: PolarsDataFrame) -> PolarsDataFrame:
         if self.first:
             return (
-                interactions
-                .with_columns(
+                interactions.with_columns(
                     (
-                        pl.col(self.timestamp_column)
-                        .min().over(pl.col(self.entity_column)) + pl.duration(days=self.days)
-                    )
-                    .alias("min_date")
+                        pl.col(self.timestamp_column).min().over(pl.col(self.entity_column))
+                        + pl.duration(days=self.days)
+                    ).alias("min_date")
                 )
                 .filter(pl.col(self.timestamp_column) < pl.col("min_date"))
                 .drop("min_date")
             )
         return (
-            interactions
-            .with_columns(
+            interactions.with_columns(
                 (
-                    pl.col(self.timestamp_column)
-                    .max().over(pl.col(self.entity_column)) - pl.duration(days=self.days)
-                )
-                .alias("max_date")
+                    pl.col(self.timestamp_column).max().over(pl.col(self.entity_column)) - pl.duration(days=self.days)
+                ).alias("max_date")
             )
             .filter(pl.col(self.timestamp_column) > pl.col("max_date"))
             .drop("max_date")
@@ -749,15 +699,11 @@ class GlobalDaysFilter(_BaseFilter):
     def _filter_spark(self, interactions: SparkDataFrame) -> SparkDataFrame:
         if self.first:
             start_date = interactions.agg(sf.min(self.timestamp_column)).first()[0]
-            end_date = sf.lit(start_date).cast(TimestampType()) + sf.expr(
-                f"INTERVAL {self.days} days"
-            )
+            end_date = sf.lit(start_date).cast(TimestampType()) + sf.expr(f"INTERVAL {self.days} days")
             return interactions.filter(col(self.timestamp_column) < end_date)
         end_date = interactions.agg(sf.max(self.timestamp_column)).first()[0]
-        start_date = sf.lit(end_date).cast(TimestampType()) - sf.expr(
-            f"INTERVAL {self.days} days"
-        )
+        start_date = sf.lit(end_date).cast(TimestampType()) - sf.expr(f"INTERVAL {self.days} days")
         return interactions.filter(col(self.timestamp_column) > start_date)
     def _filter_pandas(self, interactions: PandasDataFrame) -> PandasDataFrame:
@@ -765,33 +711,19 @@ class GlobalDaysFilter(_BaseFilter):
         if self.first:
             start_date = filtered_interactions[self.timestamp_column].min()
-            return (
-                filtered_interactions[
-                    (filtered_interactions[self.timestamp_column] - start_date).dt.days < self.days
-                ]
-            )
-        end_date = filtered_interactions[self.timestamp_column].max()
-        return (
-            filtered_interactions[
-                (end_date - filtered_interactions[self.timestamp_column]).dt.days < self.days
+            return filtered_interactions[
+                (filtered_interactions[self.timestamp_column] - start_date).dt.days < self.days
             ]
-        )
+        end_date = filtered_interactions[self.timestamp_column].max()
+        return filtered_interactions[(end_date - filtered_interactions[self.timestamp_column]).dt.days < self.days]
     def _filter_polars(self, interactions: PolarsDataFrame) -> PolarsDataFrame:
         if self.first:
-            return (
-                interactions
-                .filter(
-                    pl.col(self.timestamp_column)
-                    < (pl.col(self.timestamp_column).min() + pl.duration(days=self.days))
-                )
-            )
-        return (
-            interactions
-            .filter(
-                pl.col(self.timestamp_column)
-                > (pl.col(self.timestamp_column).max() - pl.duration(days=self.days))
+            return interactions.filter(
+                pl.col(self.timestamp_column) < (pl.col(self.timestamp_column).min() + pl.duration(days=self.days))
             )
+        return interactions.filter(
+            pl.col(self.timestamp_column) > (pl.col(self.timestamp_column).max() - pl.duration(days=self.days))
         )
@@ -823,7 +755,10 @@ class TimePeriodFilter(_BaseFilter):
     +-------+-------+------+-------------------+
     <BLANKLINE>
-    >>> TimePeriodFilter(start_date="2020-01-01 14:00:00", end_date=datetime(2020, 1, 3, 0, 0, 0)).transform(log_sp).show()
+    >>> TimePeriodFilter(
+    ...    start_date="2020-01-01 14:00:00",
+    ...    end_date=datetime(2020, 1, 3, 0, 0, 0)
+    ... ).transform(log_sp).show()
     +-------+-------+------+-------------------+
     |user_id|item_id|rating|          timestamp|
     +-------+-------+------+-------------------+
@@ -861,9 +796,7 @@ class TimePeriodFilter(_BaseFilter):
         if self.start_date is None:
             self.start_date = interactions.agg(sf.min(self.timestamp_column)).first()[0]
         if self.end_date is None:
-            self.end_date = interactions.agg(sf.max(self.timestamp_column)).first()[0] + timedelta(
-                seconds=1
-            )
+            self.end_date = interactions.agg(sf.max(self.timestamp_column)).first()[0] + timedelta(seconds=1)
         return interactions.filter(
             (col(self.timestamp_column) >= sf.lit(self.start_date))
@@ -874,9 +807,7 @@ class TimePeriodFilter(_BaseFilter):
         if self.start_date is None:
             self.start_date = interactions[self.timestamp_column].min()
         if self.end_date is None:
-            self.end_date = interactions[self.timestamp_column].max() + timedelta(
-                seconds=1
-            )
+            self.end_date = interactions[self.timestamp_column].max() + timedelta(seconds=1)
         return interactions[
             (interactions[self.timestamp_column] >= self.start_date)
@@ -887,14 +818,8 @@ class TimePeriodFilter(_BaseFilter):
         if self.start_date is None:
             self.start_date = interactions.select(self.timestamp_column).min()[0, 0]
         if self.end_date is None:
-            self.end_date = interactions.select(self.timestamp_column).max()[0, 0] + pl.duration(
-                seconds=1
-            )
+            self.end_date = interactions.select(self.timestamp_column).max()[0, 0] + pl.duration(seconds=1)
-        return (
-            interactions
-            .filter(
-                pl.col(self.timestamp_column)
-                .is_between(self.start_date, self.end_date, closed="left")
-            )
+        return interactions.filter(
+            pl.col(self.timestamp_column).is_between(self.start_date, self.end_date, closed="left")
         )

replay-rec 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl

replay-rec 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl