PyPI - replay-rec - Versions diffs - 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl - Mend

replay-rec 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (110) hide show

replay/__init__.py +1 -1
replay/data/__init__.py +1 -1
replay/data/dataset.py +45 -42
replay/data/dataset_utils/dataset_label_encoder.py +6 -7
replay/data/nn/__init__.py +1 -1
replay/data/nn/schema.py +20 -33
replay/data/nn/sequence_tokenizer.py +217 -87
replay/data/nn/sequential_dataset.py +6 -22
replay/data/nn/torch_sequential_dataset.py +20 -11
replay/data/nn/utils.py +7 -9
replay/data/schema.py +17 -17
replay/data/spark_schema.py +0 -1
replay/metrics/base_metric.py +38 -79
replay/metrics/categorical_diversity.py +24 -58
replay/metrics/coverage.py +25 -49
replay/metrics/descriptors.py +4 -13
replay/metrics/experiment.py +3 -8
replay/metrics/hitrate.py +3 -6
replay/metrics/map.py +3 -6
replay/metrics/mrr.py +1 -4
replay/metrics/ndcg.py +4 -7
replay/metrics/novelty.py +10 -29
replay/metrics/offline_metrics.py +26 -61
replay/metrics/precision.py +3 -6
replay/metrics/recall.py +3 -6
replay/metrics/rocauc.py +7 -10
replay/metrics/surprisal.py +13 -30
replay/metrics/torch_metrics_builder.py +0 -4
replay/metrics/unexpectedness.py +15 -20
replay/models/__init__.py +1 -2
replay/models/als.py +7 -15
replay/models/association_rules.py +12 -28
replay/models/base_neighbour_rec.py +21 -36
replay/models/base_rec.py +92 -215
replay/models/cat_pop_rec.py +9 -22
replay/models/cluster.py +17 -28
replay/models/extensions/ann/ann_mixin.py +7 -12
replay/models/extensions/ann/entities/base_hnsw_param.py +1 -1
replay/models/extensions/ann/entities/hnswlib_param.py +0 -6
replay/models/extensions/ann/entities/nmslib_hnsw_param.py +0 -6
replay/models/extensions/ann/index_builders/driver_hnswlib_index_builder.py +4 -10
replay/models/extensions/ann/index_builders/driver_nmslib_index_builder.py +7 -11
replay/models/extensions/ann/index_builders/executor_hnswlib_index_builder.py +5 -12
replay/models/extensions/ann/index_builders/executor_nmslib_index_builder.py +11 -18
replay/models/extensions/ann/index_builders/nmslib_index_builder_mixin.py +1 -4
replay/models/extensions/ann/index_inferers/base_inferer.py +3 -10
replay/models/extensions/ann/index_inferers/hnswlib_filter_index_inferer.py +7 -17
replay/models/extensions/ann/index_inferers/hnswlib_index_inferer.py +6 -14
replay/models/extensions/ann/index_inferers/nmslib_filter_index_inferer.py +14 -28
replay/models/extensions/ann/index_inferers/nmslib_index_inferer.py +15 -25
replay/models/extensions/ann/index_inferers/utils.py +2 -9
replay/models/extensions/ann/index_stores/hdfs_index_store.py +4 -9
replay/models/extensions/ann/index_stores/shared_disk_index_store.py +2 -6
replay/models/extensions/ann/index_stores/spark_files_index_store.py +8 -14
replay/models/extensions/ann/index_stores/utils.py +5 -2
replay/models/extensions/ann/utils.py +3 -5
replay/models/kl_ucb.py +16 -22
replay/models/knn.py +37 -59
replay/models/nn/optimizer_utils/__init__.py +1 -6
replay/models/nn/optimizer_utils/optimizer_factory.py +3 -6
replay/models/nn/sequential/bert4rec/__init__.py +1 -1
replay/models/nn/sequential/bert4rec/dataset.py +6 -7
replay/models/nn/sequential/bert4rec/lightning.py +53 -56
replay/models/nn/sequential/bert4rec/model.py +12 -25
replay/models/nn/sequential/callbacks/__init__.py +1 -1
replay/models/nn/sequential/callbacks/prediction_callbacks.py +23 -25
replay/models/nn/sequential/callbacks/validation_callback.py +27 -30
replay/models/nn/sequential/postprocessors/postprocessors.py +1 -1
replay/models/nn/sequential/sasrec/dataset.py +8 -7
replay/models/nn/sequential/sasrec/lightning.py +53 -48
replay/models/nn/sequential/sasrec/model.py +4 -17
replay/models/pop_rec.py +9 -10
replay/models/query_pop_rec.py +7 -15
replay/models/random_rec.py +10 -18
replay/models/slim.py +8 -13
replay/models/thompson_sampling.py +13 -14
replay/models/ucb.py +11 -22
replay/models/wilson.py +5 -14
replay/models/word2vec.py +24 -69
replay/optimization/optuna_objective.py +13 -27
replay/preprocessing/__init__.py +1 -2
replay/preprocessing/converter.py +2 -7
replay/preprocessing/filters.py +67 -142
replay/preprocessing/history_based_fp.py +44 -116
replay/preprocessing/label_encoder.py +106 -68
replay/preprocessing/sessionizer.py +1 -11
replay/scenarios/fallback.py +3 -8
replay/splitters/base_splitter.py +43 -15
replay/splitters/cold_user_random_splitter.py +18 -31
replay/splitters/k_folds.py +14 -24
replay/splitters/last_n_splitter.py +33 -43
replay/splitters/new_users_splitter.py +31 -55
replay/splitters/random_splitter.py +16 -23
replay/splitters/ratio_splitter.py +30 -54
replay/splitters/time_splitter.py +13 -18
replay/splitters/two_stage_splitter.py +44 -79
replay/utils/__init__.py +1 -1
replay/utils/common.py +65 -0
replay/utils/dataframe_bucketizer.py +25 -31
replay/utils/distributions.py +3 -15
replay/utils/model_handler.py +36 -33
replay/utils/session_handler.py +11 -15
replay/utils/spark_utils.py +51 -85
replay/utils/time.py +8 -22
replay/utils/types.py +1 -3
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/METADATA +2 -2
replay_rec-0.17.0.dist-info/RECORD +127 -0
replay_rec-0.16.0.dist-info/RECORD +0 -126
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/LICENSE +0 -0
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/WHEEL +0 -0

replay/splitters/cold_user_random_splitter.py CHANGED Viewed

@@ -1,7 +1,7 @@
-from typing import Optional, Union
+from typing import Optional, Tuple
 import polars as pl
-from .base_splitter import Splitter, SplitterReturnType
 from replay.utils import (
     PYSPARK_AVAILABLE,
     DataFrameLike,
@@ -10,11 +10,12 @@ from replay.utils import (
     SparkDataFrame,
 )
+from .base_splitter import Splitter, SplitterReturnType
 if PYSPARK_AVAILABLE:
     import pyspark.sql.functions as sf
-# pylint: disable=too-few-public-methods, duplicate-code
 class ColdUserRandomSplitter(Splitter):
     """
     Test set consists of all actions of randomly chosen users.
@@ -28,7 +29,6 @@ class ColdUserRandomSplitter(Splitter):
         "item_column",
     ]
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         test_size: float,
@@ -52,14 +52,13 @@ class ColdUserRandomSplitter(Splitter):
         )
         self.seed = seed
         if test_size <= 0 or test_size >= 1:
-            raise ValueError("test_size must between 0 and 1")
+            msg = "test_size must between 0 and 1"
+            raise ValueError(msg)
         self.test_size = test_size
     def _core_split_pandas(
-        self,
-        interactions: PandasDataFrame,
-        threshold: float
-    ) -> Union[PandasDataFrame, PandasDataFrame]:
+        self, interactions: PandasDataFrame, threshold: float
+    ) -> Tuple[PandasDataFrame, PandasDataFrame]:
         users = PandasDataFrame(interactions[self.query_column].unique(), columns=[self.query_column])
         train_users = users.sample(frac=(1 - threshold), random_state=self.seed)
         train_users["is_test"] = False
@@ -74,19 +73,15 @@ class ColdUserRandomSplitter(Splitter):
         return train, test
     def _core_split_spark(
-        self,
-        interactions: SparkDataFrame,
-        threshold: float
-    ) -> Union[SparkDataFrame, SparkDataFrame]:
+        self, interactions: SparkDataFrame, threshold: float
+    ) -> Tuple[SparkDataFrame, SparkDataFrame]:
         users = interactions.select(self.query_column).distinct()
         train_users, _ = users.randomSplit(
             [1 - threshold, threshold],
             seed=self.seed,
         )
         interactions = interactions.join(
-            train_users.withColumn("is_test", sf.lit(False)),
-            on=self.query_column,
-            how="left"
+            train_users.withColumn("is_test", sf.lit(False)), on=self.query_column, how="left"
         ).na.fill({"is_test": True})
         train = interactions.filter(~sf.col("is_test")).drop("is_test")
@@ -95,27 +90,18 @@ class ColdUserRandomSplitter(Splitter):
         return train, test
     def _core_split_polars(
-        self,
-        interactions: PolarsDataFrame,
-        threshold: float
-    ) -> Union[PolarsDataFrame, PolarsDataFrame]:
+        self, interactions: PolarsDataFrame, threshold: float
+    ) -> Tuple[PolarsDataFrame, PolarsDataFrame]:
         train_users = (
-            interactions
-            .select(self.query_column)
+            interactions.select(self.query_column)
             .unique()
             .sample(fraction=(1 - threshold), seed=self.seed)
             .with_columns(pl.lit(False).alias("is_test"))
         )
-        interactions = (
-            interactions
-            .join(
-                train_users,
-                on=self.query_column, how="left")
-            .fill_null(True)
-        )
+        interactions = interactions.join(train_users, on=self.query_column, how="left").fill_null(True)
-        train = interactions.filter(~pl.col("is_test")).drop("is_test")  # pylint: disable=invalid-unary-operand-type
+        train = interactions.filter(~pl.col("is_test")).drop("is_test")
         test = interactions.filter(pl.col("is_test")).drop("is_test")
         return train, test
@@ -127,4 +113,5 @@ class ColdUserRandomSplitter(Splitter):
         if isinstance(interactions, PolarsDataFrame):
             return self._core_split_polars(interactions, self.test_size)
-        raise NotImplementedError(f"{self} is not implemented for {type(interactions)}")
+        msg = f"{self} is not implemented for {type(interactions)}"
+        raise NotImplementedError(msg)

replay/splitters/k_folds.py CHANGED Viewed

@@ -1,9 +1,11 @@
 from typing import Literal, Optional, Tuple
 import polars as pl
-from .base_splitter import Splitter, SplitterReturnType
 from replay.utils import PYSPARK_AVAILABLE, DataFrameLike, PandasDataFrame, PolarsDataFrame, SparkDataFrame
+from .base_splitter import Splitter, SplitterReturnType
 if PYSPARK_AVAILABLE:
     import pyspark.sql.functions as sf
     from pyspark.sql import Window
@@ -11,11 +13,11 @@ if PYSPARK_AVAILABLE:
 StrategyName = Literal["query"]
-# pylint: disable=too-few-public-methods
 class KFolds(Splitter):
     """
     Splits interactions inside each query into folds at random.
     """
     _init_arg_names = [
         "n_folds",
         "strategy",
@@ -29,7 +31,6 @@ class KFolds(Splitter):
         "session_id_processing_strategy",
     ]
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         n_folds: Optional[int] = 5,
@@ -64,11 +65,12 @@ class KFolds(Splitter):
             item_column=item_column,
             timestamp_column=timestamp_column,
             session_id_column=session_id_column,
-            session_id_processing_strategy=session_id_processing_strategy
+            session_id_processing_strategy=session_id_processing_strategy,
         )
         self.n_folds = n_folds
         if strategy not in {"query"}:
-            raise ValueError(f"Wrong splitter parameter: {strategy}")
+            msg = f"Wrong splitter parameter: {strategy}"
+            raise ValueError(msg)
         self.strategy = strategy
         self.seed = seed
@@ -85,16 +87,10 @@ class KFolds(Splitter):
         dataframe = interactions.withColumn("_rand", sf.rand(self.seed))
         dataframe = dataframe.withColumn(
             "fold",
-            sf.row_number().over(
-                Window.partitionBy(self.query_column).orderBy("_rand")
-            )
-            % self.n_folds,
+            sf.row_number().over(Window.partitionBy(self.query_column).orderBy("_rand")) % self.n_folds,
         ).drop("_rand")
         for i in range(self.n_folds):
-            dataframe = dataframe.withColumn(
-                "is_test",
-                sf.when(sf.col("fold") == i, True).otherwise(False)
-            )
+            dataframe = dataframe.withColumn("is_test", sf.when(sf.col("fold") == i, True).otherwise(False))
             if self.session_id_column:
                 dataframe = self._recalculate_with_session_id_column(dataframe)
@@ -122,28 +118,21 @@ class KFolds(Splitter):
     def _query_split_polars(self, interactions: PolarsDataFrame) -> Tuple[PolarsDataFrame, PolarsDataFrame]:
         dataframe = interactions.sample(fraction=1, shuffle=True, seed=self.seed).sort(self.query_column)
         dataframe = dataframe.with_columns(
-            (pl.cum_count(self.query_column).over(self.query_column) % self.n_folds)
-            .alias("fold")
+            (pl.cum_count(self.query_column).over(self.query_column) % self.n_folds).alias("fold")
         )
         for i in range(self.n_folds):
             dataframe = dataframe.with_columns(
-                pl.when(
-                    pl.col("fold") == i
-                )
-                .then(True)
-                .otherwise(False)
-                .alias("is_test")
+                pl.when(pl.col("fold") == i).then(True).otherwise(False).alias("is_test")
             )
             if self.session_id_column:
                 dataframe = self._recalculate_with_session_id_column(dataframe)
-            train = dataframe.filter(~pl.col("is_test")).drop("is_test", "fold")  # pylint: disable=invalid-unary-operand-type
+            train = dataframe.filter(~pl.col("is_test")).drop("is_test", "fold")
             test = dataframe.filter(pl.col("is_test")).drop("is_test", "fold")
             test = self._drop_cold_items_and_users(train, test)
             yield train, test
-    # pylint: disable=inconsistent-return-statements
     def _core_split(self, interactions: DataFrameLike) -> SplitterReturnType:
         if self.strategy == "query":
             if isinstance(interactions, SparkDataFrame):
@@ -153,4 +142,5 @@ class KFolds(Splitter):
             if isinstance(interactions, PolarsDataFrame):
                 return self._query_split_polars(interactions)
-            raise NotImplementedError(f"{self} is not implemented for {type(interactions)}")
+            msg = f"{self} is not implemented for {type(interactions)}"
+            raise NotImplementedError(msg)

replay/splitters/last_n_splitter.py CHANGED Viewed

@@ -4,9 +4,10 @@ import numpy as np
 import pandas as pd
 import polars as pl
-from .base_splitter import Splitter
 from replay.utils import PYSPARK_AVAILABLE, DataFrameLike, PandasDataFrame, PolarsDataFrame, SparkDataFrame
+from .base_splitter import Splitter
 if PYSPARK_AVAILABLE:
     import pyspark.sql.functions as sf
     from pyspark.sql import Window
@@ -14,7 +15,6 @@ if PYSPARK_AVAILABLE:
 StrategyName = Literal["interactions", "timedelta"]
-# pylint: disable=too-few-public-methods
 class LastNSplitter(Splitter):
     """
     Split interactions by last N interactions/timedelta per user.
@@ -88,10 +88,11 @@ class LastNSplitter(Splitter):
     14        3        2 2020-01-05
     <BLANKLINE>
     """
     _init_arg_names = [
         "N",
         "divide_column",
-        "timestamp_col_format",
+        "time_column_format",
         "strategy",
         "drop_cold_users",
         "drop_cold_items",
@@ -102,10 +103,9 @@ class LastNSplitter(Splitter):
         "session_id_processing_strategy",
     ]
-    # pylint: disable=invalid-name, too-many-arguments
     def __init__(
         self,
-        N: int,
+        N: int,  # noqa: N803
         divide_column: str = "query_id",
         time_column_format: str = "yyyy-MM-dd HH:mm:ss",
         strategy: StrategyName = "interactions",
@@ -147,7 +147,8 @@ class LastNSplitter(Splitter):
             default: ``test``.
         """
         if strategy not in ["interactions", "timedelta"]:
-            raise ValueError("strategy must be equal 'interactions' or 'timedelta'")
+            msg = "strategy must be equal 'interactions' or 'timedelta'"
+            raise ValueError(msg)
         super().__init__(
             drop_cold_users=drop_cold_users,
             drop_cold_items=drop_cold_items,
@@ -160,9 +161,9 @@ class LastNSplitter(Splitter):
         self.N = N
         self.strategy = strategy
         self.divide_column = divide_column
-        self.timestamp_col_format = None
+        self.time_column_format = None
         if self.strategy == "timedelta":
-            self.timestamp_col_format = time_column_format
+            self.time_column_format = time_column_format
     def _add_time_partition(self, interactions: DataFrameLike) -> DataFrameLike:
         if isinstance(interactions, SparkDataFrame):
@@ -172,7 +173,8 @@ class LastNSplitter(Splitter):
         if isinstance(interactions, PolarsDataFrame):
             return self._add_time_partition_to_polars(interactions)
-        raise NotImplementedError(f"{self} is not implemented for {type(interactions)}")
+        msg = f"{self} is not implemented for {type(interactions)}"
+        raise NotImplementedError(msg)
     def _add_time_partition_to_pandas(self, interactions: PandasDataFrame) -> PandasDataFrame:
         res = interactions.copy(deep=True)
@@ -191,8 +193,7 @@ class LastNSplitter(Splitter):
     def _add_time_partition_to_polars(self, interactions: PolarsDataFrame) -> PolarsDataFrame:
         res = interactions.sort(self.timestamp_column).with_columns(
-            pl.col(self.divide_column).cumcount().over(pl.col(self.divide_column))
-            .alias("row_num")
+            pl.col(self.divide_column).cumcount().over(pl.col(self.divide_column)).alias("row_num")
         )
         return res
@@ -205,7 +206,8 @@ class LastNSplitter(Splitter):
         if isinstance(interactions, PolarsDataFrame):
             return self._to_unix_timestamp_polars(interactions)
-        raise NotImplementedError(f"{self} is not implemented for {type(interactions)}")
+        msg = f"{self} is not implemented for {type(interactions)}"
+        raise NotImplementedError(msg)
     def _to_unix_timestamp_pandas(self, interactions: PandasDataFrame) -> PandasDataFrame:
         time_column_type = dict(interactions.dtypes)[self.timestamp_column]
@@ -221,7 +223,7 @@ class LastNSplitter(Splitter):
         time_column_type = dict(interactions.dtypes)[self.timestamp_column]
         if time_column_type == "date":
             interactions = interactions.withColumn(
-                self.timestamp_column, sf.unix_timestamp(self.timestamp_column, self.timestamp_col_format)
+                self.timestamp_column, sf.unix_timestamp(self.timestamp_column, self.time_column_format)
             )
         return interactions
@@ -233,20 +235,19 @@ class LastNSplitter(Splitter):
         return interactions
-    # pylint: disable=invalid-name
-    def _partial_split_interactions(self, interactions: DataFrameLike, N: int) -> Tuple[DataFrameLike, DataFrameLike]:
+    def _partial_split_interactions(self, interactions: DataFrameLike, n: int) -> Tuple[DataFrameLike, DataFrameLike]:
         res = self._add_time_partition(interactions)
         if isinstance(interactions, SparkDataFrame):
-            return self._partial_split_interactions_spark(res, N)
+            return self._partial_split_interactions_spark(res, n)
         if isinstance(interactions, PandasDataFrame):
-            return self._partial_split_interactions_pandas(res, N)
-        return self._partial_split_interactions_polars(res, N)
+            return self._partial_split_interactions_pandas(res, n)
+        return self._partial_split_interactions_polars(res, n)
     def _partial_split_interactions_pandas(
-        self, interactions: PandasDataFrame, N: int
+        self, interactions: PandasDataFrame, n: int
     ) -> Tuple[PandasDataFrame, PandasDataFrame]:
         interactions["count"] = interactions.groupby(self.divide_column, sort=False)[self.divide_column].transform(len)
-        interactions["is_test"] = interactions["row_num"] > (interactions["count"] - float(N))
+        interactions["is_test"] = interactions["row_num"] > (interactions["count"] - float(n))
         if self.session_id_column:
             interactions = self._recalculate_with_session_id_column(interactions)
@@ -256,14 +257,14 @@ class LastNSplitter(Splitter):
         return train, test
     def _partial_split_interactions_spark(
-        self, interactions: SparkDataFrame, N: int
+        self, interactions: SparkDataFrame, n: int
     ) -> Tuple[SparkDataFrame, SparkDataFrame]:
         interactions = interactions.withColumn(
             "count", sf.count(self.timestamp_column).over(Window.partitionBy(self.divide_column))
         )
         # float(n) - because DataFrame.filter is changing order
         # of sorted DataFrame to descending
-        interactions = interactions.withColumn("is_test", sf.col("row_num") > sf.col("count") - sf.lit(float(N)))
+        interactions = interactions.withColumn("is_test", sf.col("row_num") > sf.col("count") - sf.lit(float(n)))
         if self.session_id_column:
             interactions = self._recalculate_with_session_id_column(interactions)
@@ -273,27 +274,22 @@ class LastNSplitter(Splitter):
         return train, test
     def _partial_split_interactions_polars(
-        self, interactions: PolarsDataFrame, N: int
+        self, interactions: PolarsDataFrame, n: int
     ) -> Tuple[PolarsDataFrame, PolarsDataFrame]:
         interactions = interactions.with_columns(
-            pl.col(self.timestamp_column).count().over(self.divide_column)
-            .alias("count")
-        )
-        interactions = interactions.with_columns(
-            (pl.col("row_num") > (pl.col("count") - N))
-            .alias("is_test")
+            pl.col(self.timestamp_column).count().over(self.divide_column).alias("count")
         )
+        interactions = interactions.with_columns((pl.col("row_num") > (pl.col("count") - n)).alias("is_test"))
         if self.session_id_column:
             interactions = self._recalculate_with_session_id_column(interactions)
-        train = interactions.filter(~pl.col("is_test")).drop("row_num", "count", "is_test")  # pylint: disable=invalid-unary-operand-type
+        train = interactions.filter(~pl.col("is_test")).drop("row_num", "count", "is_test")
         test = interactions.filter(pl.col("is_test")).drop("row_num", "count", "is_test")
         return train, test
     def _partial_split_timedelta(
-        self,
-        interactions: DataFrameLike, timedelta: int
+        self, interactions: DataFrameLike, timedelta: int
     ) -> Tuple[DataFrameLike, DataFrameLike]:
         if isinstance(interactions, SparkDataFrame):
             return self._partial_split_timedelta_spark(interactions, timedelta)
@@ -341,22 +337,16 @@ class LastNSplitter(Splitter):
     def _partial_split_timedelta_polars(
         self, interactions: PolarsDataFrame, timedelta: int
     ) -> Tuple[PolarsDataFrame, PolarsDataFrame]:
-        res = (
-            interactions
-            .with_columns(
-                (pl.col(self.timestamp_column).max().over(self.divide_column) - pl.col(self.timestamp_column))
-                .alias("diff_timestamp")
+        res = interactions.with_columns(
+            (pl.col(self.timestamp_column).max().over(self.divide_column) - pl.col(self.timestamp_column)).alias(
+                "diff_timestamp"
             )
-            .with_columns(
-                (pl.col("diff_timestamp") < timedelta)
-                .alias("is_test")
-            )
-        )
+        ).with_columns((pl.col("diff_timestamp") < timedelta).alias("is_test"))
         if self.session_id_column:
             res = self._recalculate_with_session_id_column(res)
-        train = res.filter(~pl.col("is_test")).drop("diff_timestamp", "is_test")  # pylint: disable=invalid-unary-operand-type
+        train = res.filter(~pl.col("is_test")).drop("diff_timestamp", "is_test")
         test = res.filter(pl.col("is_test")).drop("diff_timestamp", "is_test")
         return train, test

replay/splitters/new_users_splitter.py CHANGED Viewed

@@ -1,15 +1,16 @@
-from typing import Optional, Union
+from typing import Optional, Tuple
 import polars as pl
-from .base_splitter import Splitter, SplitterReturnType
 from replay.utils import PYSPARK_AVAILABLE, DataFrameLike, PandasDataFrame, PolarsDataFrame, SparkDataFrame
+from .base_splitter import Splitter, SplitterReturnType
 if PYSPARK_AVAILABLE:
     import pyspark.sql.functions as sf
     from pyspark.sql import Window
-# pylint: disable=too-few-public-methods, duplicate-code
 class NewUsersSplitter(Splitter):
     """
     Only new users will be assigned to test set.
@@ -63,7 +64,6 @@ class NewUsersSplitter(Splitter):
         "session_id_processing_strategy",
     ]
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         test_size: float,
@@ -91,24 +91,23 @@ class NewUsersSplitter(Splitter):
             item_column=item_column,
             timestamp_column=timestamp_column,
             session_id_column=session_id_column,
-            session_id_processing_strategy=session_id_processing_strategy
+            session_id_processing_strategy=session_id_processing_strategy,
         )
         if test_size < 0 or test_size > 1:
-            raise ValueError("test_size must between 0 and 1")
+            msg = "test_size must between 0 and 1"
+            raise ValueError(msg)
         self.test_size = test_size
     def _core_split_pandas(
-        self,
-        interactions: PandasDataFrame,
-        threshold: float
-    ) -> Union[PandasDataFrame, PandasDataFrame]:
-        start_date_by_user = interactions.groupby(self.query_column).agg(
-            _start_dt_by_user=(self.timestamp_column, "min")
-        ).reset_index()
+        self, interactions: PandasDataFrame, threshold: float
+    ) -> Tuple[PandasDataFrame, PandasDataFrame]:
+        start_date_by_user = (
+            interactions.groupby(self.query_column).agg(_start_dt_by_user=(self.timestamp_column, "min")).reset_index()
+        )
         test_start_date = (
-            start_date_by_user
-            .groupby("_start_dt_by_user")
-            .agg(_num_users_by_start_date=(self.query_column, "count")).reset_index()
+            start_date_by_user.groupby("_start_dt_by_user")
+            .agg(_num_users_by_start_date=(self.query_column, "count"))
+            .reset_index()
             .sort_values(by="_start_dt_by_user", ascending=False)
         )
         test_start_date["_cum_num_users_to_dt"] = test_start_date["_num_users_by_start_date"].cumsum()
@@ -120,9 +119,7 @@ class NewUsersSplitter(Splitter):
         train = interactions[interactions[self.timestamp_column] < test_start]
         test = interactions.merge(
-            start_date_by_user[start_date_by_user["_start_dt_by_user"] >= test_start],
-            how="inner",
-            on=self.query_column
+            start_date_by_user[start_date_by_user["_start_dt_by_user"] >= test_start], how="inner", on=self.query_column
         ).drop(columns=["_start_dt_by_user"])
         if self.session_id_column:
@@ -136,10 +133,8 @@ class NewUsersSplitter(Splitter):
         return train, test
     def _core_split_spark(
-        self,
-        interactions: SparkDataFrame,
-        threshold: float
-    ) -> Union[SparkDataFrame, SparkDataFrame]:
+        self, interactions: SparkDataFrame, threshold: float
+    ) -> Tuple[SparkDataFrame, SparkDataFrame]:
         start_date_by_user = interactions.groupby(self.query_column).agg(
             sf.min(self.timestamp_column).alias("_start_dt_by_user")
         )
@@ -175,53 +170,33 @@ class NewUsersSplitter(Splitter):
         return train, test
     def _core_split_polars(
-        self,
-        interactions: PolarsDataFrame,
-        threshold: float
-    ) -> Union[PolarsDataFrame, PolarsDataFrame]:
-        start_date_by_user = (
-            interactions
-            .group_by(self.query_column).agg(
-                pl.col(self.timestamp_column).min()
-                .alias("_start_dt_by_user")
-            )
+        self, interactions: PolarsDataFrame, threshold: float
+    ) -> Tuple[PolarsDataFrame, PolarsDataFrame]:
+        start_date_by_user = interactions.group_by(self.query_column).agg(
+            pl.col(self.timestamp_column).min().alias("_start_dt_by_user")
         )
         test_start_date = (
-            start_date_by_user
-            .group_by("_start_dt_by_user").agg(
-                pl.col(self.query_column).count()
-                .alias("_num_users_by_start_date")
-            )
+            start_date_by_user.group_by("_start_dt_by_user")
+            .agg(pl.col(self.query_column).count().alias("_num_users_by_start_date"))
             .sort("_start_dt_by_user", descending=True)
             .with_columns(
-                pl.col("_num_users_by_start_date").cum_sum()
-                .alias("cum_sum_users"),
+                pl.col("_num_users_by_start_date").cum_sum().alias("cum_sum_users"),
             )
-            .filter(
-                pl.col("cum_sum_users") >= pl.col("cum_sum_users").max() * threshold
-            )
-            ["_start_dt_by_user"]
+            .filter(pl.col("cum_sum_users") >= pl.col("cum_sum_users").max() * threshold)["_start_dt_by_user"]
             .max()
         )
         train = interactions.filter(pl.col(self.timestamp_column) < test_start_date)
         test = interactions.join(
-            start_date_by_user.filter(pl.col("_start_dt_by_user") >= test_start_date),
-            on=self.query_column,
-            how="inner"
+            start_date_by_user.filter(pl.col("_start_dt_by_user") >= test_start_date), on=self.query_column, how="inner"
         ).drop("_start_dt_by_user")
         if self.session_id_column:
             interactions = interactions.with_columns(
-                pl.when(
-                    pl.col(self.timestamp_column) < test_start_date
-                )
-                .then(False)
-                .otherwise(True)
-                .alias("is_test")
+                pl.when(pl.col(self.timestamp_column) < test_start_date).then(False).otherwise(True).alias("is_test")
             )
             interactions = self._recalculate_with_session_id_column(interactions)
-            train = interactions.filter(~pl.col("is_test")).drop("is_test")  # pylint: disable=invalid-unary-operand-type
+            train = interactions.filter(~pl.col("is_test")).drop("is_test")
             test = interactions.filter(pl.col("is_test")).drop("is_test")
         return train, test
@@ -234,4 +209,5 @@ class NewUsersSplitter(Splitter):
         if isinstance(interactions, PolarsDataFrame):
             return self._core_split_polars(interactions, self.test_size)
-        raise NotImplementedError(f"{self} is not implemented for {type(interactions)}")
+        msg = f"{self} is not implemented for {type(interactions)}"
+        raise NotImplementedError(msg)

replay/splitters/random_splitter.py CHANGED Viewed

@@ -1,10 +1,10 @@
-from typing import Optional, Union
+from typing import Optional, Tuple
-from .base_splitter import Splitter, SplitterReturnType
 from replay.utils import DataFrameLike, PandasDataFrame, PolarsDataFrame, SparkDataFrame
+from .base_splitter import Splitter, SplitterReturnType
-# pylint: disable=too-few-public-methods, duplicate-code
 class RandomSplitter(Splitter):
     """Assign records into train and test at random."""
@@ -17,7 +17,6 @@ class RandomSplitter(Splitter):
         "item_column",
     ]
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         test_size: float,
@@ -25,7 +24,7 @@ class RandomSplitter(Splitter):
         drop_cold_users: bool = False,
         seed: Optional[int] = None,
         query_column: str = "query_id",
-        item_column: str = "item_id"
+        item_column: str = "item_id",
     ):
         """
         :param test_size: test size 0 to 1
@@ -39,37 +38,30 @@ class RandomSplitter(Splitter):
             drop_cold_items=drop_cold_items,
             drop_cold_users=drop_cold_users,
             query_column=query_column,
-            item_column=item_column
+            item_column=item_column,
         )
         self.seed = seed
         if test_size < 0 or test_size > 1:
-            raise ValueError("test_size must between 0 and 1")
+            msg = "test_size must between 0 and 1"
+            raise ValueError(msg)
         self.test_size = test_size
     def _random_split_spark(
-        self,
-        interactions: SparkDataFrame,
-        threshold: float
-    ) -> Union[SparkDataFrame, SparkDataFrame]:
-        train, test = interactions.randomSplit(
-            [1 - threshold, threshold], self.seed
-        )
+        self, interactions: SparkDataFrame, threshold: float
+    ) -> Tuple[SparkDataFrame, SparkDataFrame]:
+        train, test = interactions.randomSplit([1 - threshold, threshold], self.seed)
         return train, test
     def _random_split_pandas(
-        self,
-        interactions: PandasDataFrame,
-        threshold: float
-    ) -> Union[PandasDataFrame, PandasDataFrame]:
+        self, interactions: PandasDataFrame, threshold: float
+    ) -> Tuple[PandasDataFrame, PandasDataFrame]:
         train = interactions.sample(frac=(1 - threshold), random_state=self.seed)
         test = interactions.drop(train.index)
         return train, test
     def _random_split_polars(
-        self,
-        interactions: PolarsDataFrame,
-        threshold: float
-    ) -> Union[PolarsDataFrame, PolarsDataFrame]:
+        self, interactions: PolarsDataFrame, threshold: float
+    ) -> Tuple[PolarsDataFrame, PolarsDataFrame]:
         train_size = int(len(interactions) * (1 - threshold)) + 1
         shuffled_interactions = interactions.sample(fraction=1, shuffle=True, seed=self.seed)
         train = shuffled_interactions[:train_size]
@@ -84,4 +76,5 @@ class RandomSplitter(Splitter):
         if isinstance(interactions, PolarsDataFrame):
             return self._random_split_polars(interactions, self.test_size)
-        raise NotImplementedError(f"{self} is not implemented for {type(interactions)}")
+        msg = f"{self} is not implemented for {type(interactions)}"
+        raise NotImplementedError(msg)

replay-rec 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl

replay-rec 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl