PyPI - replay-rec - Versions diffs - 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl - Mend

replay-rec 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (110) hide show

replay/__init__.py +1 -1
replay/data/__init__.py +1 -1
replay/data/dataset.py +45 -42
replay/data/dataset_utils/dataset_label_encoder.py +6 -7
replay/data/nn/__init__.py +1 -1
replay/data/nn/schema.py +20 -33
replay/data/nn/sequence_tokenizer.py +217 -87
replay/data/nn/sequential_dataset.py +6 -22
replay/data/nn/torch_sequential_dataset.py +20 -11
replay/data/nn/utils.py +7 -9
replay/data/schema.py +17 -17
replay/data/spark_schema.py +0 -1
replay/metrics/base_metric.py +38 -79
replay/metrics/categorical_diversity.py +24 -58
replay/metrics/coverage.py +25 -49
replay/metrics/descriptors.py +4 -13
replay/metrics/experiment.py +3 -8
replay/metrics/hitrate.py +3 -6
replay/metrics/map.py +3 -6
replay/metrics/mrr.py +1 -4
replay/metrics/ndcg.py +4 -7
replay/metrics/novelty.py +10 -29
replay/metrics/offline_metrics.py +26 -61
replay/metrics/precision.py +3 -6
replay/metrics/recall.py +3 -6
replay/metrics/rocauc.py +7 -10
replay/metrics/surprisal.py +13 -30
replay/metrics/torch_metrics_builder.py +0 -4
replay/metrics/unexpectedness.py +15 -20
replay/models/__init__.py +1 -2
replay/models/als.py +7 -15
replay/models/association_rules.py +12 -28
replay/models/base_neighbour_rec.py +21 -36
replay/models/base_rec.py +92 -215
replay/models/cat_pop_rec.py +9 -22
replay/models/cluster.py +17 -28
replay/models/extensions/ann/ann_mixin.py +7 -12
replay/models/extensions/ann/entities/base_hnsw_param.py +1 -1
replay/models/extensions/ann/entities/hnswlib_param.py +0 -6
replay/models/extensions/ann/entities/nmslib_hnsw_param.py +0 -6
replay/models/extensions/ann/index_builders/driver_hnswlib_index_builder.py +4 -10
replay/models/extensions/ann/index_builders/driver_nmslib_index_builder.py +7 -11
replay/models/extensions/ann/index_builders/executor_hnswlib_index_builder.py +5 -12
replay/models/extensions/ann/index_builders/executor_nmslib_index_builder.py +11 -18
replay/models/extensions/ann/index_builders/nmslib_index_builder_mixin.py +1 -4
replay/models/extensions/ann/index_inferers/base_inferer.py +3 -10
replay/models/extensions/ann/index_inferers/hnswlib_filter_index_inferer.py +7 -17
replay/models/extensions/ann/index_inferers/hnswlib_index_inferer.py +6 -14
replay/models/extensions/ann/index_inferers/nmslib_filter_index_inferer.py +14 -28
replay/models/extensions/ann/index_inferers/nmslib_index_inferer.py +15 -25
replay/models/extensions/ann/index_inferers/utils.py +2 -9
replay/models/extensions/ann/index_stores/hdfs_index_store.py +4 -9
replay/models/extensions/ann/index_stores/shared_disk_index_store.py +2 -6
replay/models/extensions/ann/index_stores/spark_files_index_store.py +8 -14
replay/models/extensions/ann/index_stores/utils.py +5 -2
replay/models/extensions/ann/utils.py +3 -5
replay/models/kl_ucb.py +16 -22
replay/models/knn.py +37 -59
replay/models/nn/optimizer_utils/__init__.py +1 -6
replay/models/nn/optimizer_utils/optimizer_factory.py +3 -6
replay/models/nn/sequential/bert4rec/__init__.py +1 -1
replay/models/nn/sequential/bert4rec/dataset.py +6 -7
replay/models/nn/sequential/bert4rec/lightning.py +53 -56
replay/models/nn/sequential/bert4rec/model.py +12 -25
replay/models/nn/sequential/callbacks/__init__.py +1 -1
replay/models/nn/sequential/callbacks/prediction_callbacks.py +23 -25
replay/models/nn/sequential/callbacks/validation_callback.py +27 -30
replay/models/nn/sequential/postprocessors/postprocessors.py +1 -1
replay/models/nn/sequential/sasrec/dataset.py +8 -7
replay/models/nn/sequential/sasrec/lightning.py +53 -48
replay/models/nn/sequential/sasrec/model.py +4 -17
replay/models/pop_rec.py +9 -10
replay/models/query_pop_rec.py +7 -15
replay/models/random_rec.py +10 -18
replay/models/slim.py +8 -13
replay/models/thompson_sampling.py +13 -14
replay/models/ucb.py +11 -22
replay/models/wilson.py +5 -14
replay/models/word2vec.py +24 -69
replay/optimization/optuna_objective.py +13 -27
replay/preprocessing/__init__.py +1 -2
replay/preprocessing/converter.py +2 -7
replay/preprocessing/filters.py +67 -142
replay/preprocessing/history_based_fp.py +44 -116
replay/preprocessing/label_encoder.py +106 -68
replay/preprocessing/sessionizer.py +1 -11
replay/scenarios/fallback.py +3 -8
replay/splitters/base_splitter.py +43 -15
replay/splitters/cold_user_random_splitter.py +18 -31
replay/splitters/k_folds.py +14 -24
replay/splitters/last_n_splitter.py +33 -43
replay/splitters/new_users_splitter.py +31 -55
replay/splitters/random_splitter.py +16 -23
replay/splitters/ratio_splitter.py +30 -54
replay/splitters/time_splitter.py +13 -18
replay/splitters/two_stage_splitter.py +44 -79
replay/utils/__init__.py +1 -1
replay/utils/common.py +65 -0
replay/utils/dataframe_bucketizer.py +25 -31
replay/utils/distributions.py +3 -15
replay/utils/model_handler.py +36 -33
replay/utils/session_handler.py +11 -15
replay/utils/spark_utils.py +51 -85
replay/utils/time.py +8 -22
replay/utils/types.py +1 -3
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/METADATA +2 -2
replay_rec-0.17.0.dist-info/RECORD +127 -0
replay_rec-0.16.0.dist-info/RECORD +0 -126
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/LICENSE +0 -0
{replay_rec-0.16.0.dist-info → replay_rec-0.17.0.dist-info}/WHEEL +0 -0

replay/splitters/ratio_splitter.py CHANGED Viewed

@@ -1,16 +1,17 @@
-import polars as pl
 from typing import List, Optional, Tuple
-from .base_splitter import Splitter
+import polars as pl
 from replay.utils import PYSPARK_AVAILABLE, DataFrameLike, PandasDataFrame, PolarsDataFrame, SparkDataFrame
+from .base_splitter import Splitter
 if PYSPARK_AVAILABLE:
     import pyspark.sql.functions as sf
     from pyspark.sql import Window
     from pyspark.sql.types import IntegerType
-# pylint: disable=too-few-public-methods, too-many-instance-attributes
 class RatioSplitter(Splitter):
     """
     Split interactions into train and test by ratio. Split is made for each user separately.
@@ -82,6 +83,7 @@ class RatioSplitter(Splitter):
     14        3        2 2020-01-05
     <BLANKLINE>
     """
     _init_arg_names = [
         "test_size",
         "divide_column",
@@ -96,7 +98,6 @@ class RatioSplitter(Splitter):
         "session_id_processing_strategy",
     ]
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         test_size: float,
@@ -160,7 +161,8 @@ class RatioSplitter(Splitter):
         self.min_interactions_per_group = min_interactions_per_group
         self.split_by_fractions = split_by_fractions
         if test_size < 0 or test_size > 1:
-            raise ValueError("test_size must between 0 and 1")
+            msg = "test_size must between 0 and 1"
+            raise ValueError(msg)
         self.test_size = test_size
     def _add_time_partition(self, interactions: DataFrameLike) -> DataFrameLike:
@@ -171,7 +173,8 @@ class RatioSplitter(Splitter):
         if isinstance(interactions, PolarsDataFrame):
             return self._add_time_partition_to_polars(interactions)
-        raise NotImplementedError(f"{self} is not implemented for {type(interactions)}")
+        msg = f"{self} is not implemented for {type(interactions)}"
+        raise NotImplementedError(msg)
     def _add_time_partition_to_pandas(self, interactions: PandasDataFrame) -> PandasDataFrame:
         res = interactions.copy(deep=True)
@@ -189,14 +192,8 @@ class RatioSplitter(Splitter):
         return res
     def _add_time_partition_to_polars(self, interactions: PolarsDataFrame) -> PolarsDataFrame:
-        res = (
-            interactions
-            .sort(self.timestamp_column)
-            .with_columns(
-                pl.cum_count(self.divide_column)
-                .over(self.divide_column)
-                .alias("row_num")
-            )
+        res = interactions.sort(self.timestamp_column).with_columns(
+            pl.cum_count(self.divide_column).over(self.divide_column).alias("row_num")
         )
         return res
@@ -262,8 +259,7 @@ class RatioSplitter(Splitter):
         self, interactions: PolarsDataFrame, train_size: float
     ) -> Tuple[PolarsDataFrame, PolarsDataFrame]:
         interactions = interactions.with_columns(
-            pl.count(self.timestamp_column).over(pl.col(self.divide_column))
-            .alias("count")
+            pl.count(self.timestamp_column).over(pl.col(self.divide_column)).alias("count")
         )
         if self.min_interactions_per_group is not None:
             interactions = interactions.with_columns(
@@ -274,18 +270,14 @@ class RatioSplitter(Splitter):
             )
         else:
             interactions = interactions.with_columns(
-                (pl.col("row_num") / pl.col("count")).round(self._precision)
-                .alias("frac")
+                (pl.col("row_num") / pl.col("count")).round(self._precision).alias("frac")
             )
-        interactions = interactions.with_columns(
-            (pl.col("frac") > train_size)
-            .alias("is_test")
-        )
+        interactions = interactions.with_columns((pl.col("frac") > train_size).alias("is_test"))
         if self.session_id_column:
             interactions = self._recalculate_with_session_id_column(interactions)
-        train = interactions.filter(~pl.col("is_test")).drop("row_num", "count", "frac", "is_test")  # pylint: disable=invalid-unary-operand-type
+        train = interactions.filter(~pl.col("is_test")).drop("row_num", "count", "frac", "is_test")
         test = interactions.filter(pl.col("is_test")).drop("row_num", "count", "frac", "is_test")
         return train, test
@@ -316,7 +308,7 @@ class RatioSplitter(Splitter):
                 "train_size",
             ] = (
                 interactions["train_size"] - 1
-            )  # pylint: disable=C0325
+            )
         interactions["is_test"] = interactions["row_num"] > interactions["train_size"]
         if self.session_id_column:
@@ -327,9 +319,7 @@ class RatioSplitter(Splitter):
         return train, test
-    def _partial_split_spark(
-        self, interactions: SparkDataFrame, ratio: float
-    ) -> Tuple[SparkDataFrame, SparkDataFrame]:
+    def _partial_split_spark(self, interactions: SparkDataFrame, ratio: float) -> Tuple[SparkDataFrame, SparkDataFrame]:
         interactions = interactions.withColumn(
             "count", sf.count(self.timestamp_column).over(Window.partitionBy(self.divide_column))
         )
@@ -364,51 +354,37 @@ class RatioSplitter(Splitter):
         self, interactions: PolarsDataFrame, ratio: float
     ) -> Tuple[PolarsDataFrame, PolarsDataFrame]:
         interactions = interactions.with_columns(
-            pl.count(self.timestamp_column).over(self.divide_column)
-            .alias("count")
+            pl.count(self.timestamp_column).over(self.divide_column).alias("count")
         )
         if self.min_interactions_per_group is not None:
             interactions = interactions.with_columns(
-                pl.when(
-                    pl.col("count") >= self.min_interactions_per_group
-                )
-                .then(
-                    pl.col("count") - (pl.col("count") * ratio).cast(interactions.get_column("count").dtype)
-                )
+                pl.when(pl.col("count") >= self.min_interactions_per_group)
+                .then(pl.col("count") - (pl.col("count") * ratio).cast(interactions.get_column("count").dtype))
                 .otherwise(pl.col("count"))
                 .alias("train_size")
             )
         else:
-            interactions = (
-                interactions
-                .with_columns(
-                    (pl.col("count") - (pl.col("count") * ratio).cast(interactions.get_column("count").dtype))
-                    .alias("train_size")
-                )
-                .with_columns(
-                    pl.when(
-                        (pl.col("count") * ratio > 0) & (pl.col("count") * ratio < 1) & (pl.col("train_size") > 1)
-                    )
-                    .then(pl.col("train_size") - 1)
-                    .otherwise(pl.col("train_size"))
-                    .alias("train_size")
+            interactions = interactions.with_columns(
+                (pl.col("count") - (pl.col("count") * ratio).cast(interactions.get_column("count").dtype)).alias(
+                    "train_size"
                 )
+            ).with_columns(
+                pl.when((pl.col("count") * ratio > 0) & (pl.col("count") * ratio < 1) & (pl.col("train_size") > 1))
+                .then(pl.col("train_size") - 1)
+                .otherwise(pl.col("train_size"))
+                .alias("train_size")
             )
-        interactions = interactions.with_columns(
-            (pl.col("row_num") > pl.col("train_size"))
-            .alias("is_test")
-        )
+        interactions = interactions.with_columns((pl.col("row_num") > pl.col("train_size")).alias("is_test"))
         if self.session_id_column:
             interactions = self._recalculate_with_session_id_column(interactions)
-        train = interactions.filter(~pl.col("is_test")).drop("row_num", "count", "train_size", "is_test")  # pylint: disable=invalid-unary-operand-type
+        train = interactions.filter(~pl.col("is_test")).drop("row_num", "count", "train_size", "is_test")
         test = interactions.filter(pl.col("is_test")).drop("row_num", "count", "train_size", "is_test")
         return train, test
-    # pylint: disable=invalid-name
     def _core_split(self, interactions: DataFrameLike) -> List[DataFrameLike]:
         if self.split_by_fractions:
             return self._partial_split_fractions(interactions, self.test_size)

replay/splitters/time_splitter.py CHANGED Viewed

@@ -3,21 +3,21 @@ from typing import List, Optional, Tuple, Union
 import polars as pl
-from .base_splitter import Splitter
 from replay.utils import (
     PYSPARK_AVAILABLE,
     DataFrameLike,
     PandasDataFrame,
-    SparkDataFrame,
     PolarsDataFrame,
+    SparkDataFrame,
 )
+from .base_splitter import Splitter
 if PYSPARK_AVAILABLE:
     import pyspark.sql.functions as sf
     from pyspark.sql import Window
-# pylint: disable=too-few-public-methods
 class TimeSplitter(Splitter):
     """
     Split interactions by time.
@@ -85,6 +85,7 @@ class TimeSplitter(Splitter):
     14        3        2 2020-01-05
     <BLANKLINE>
     """
     _init_arg_names = [
         "time_threshold",
         "drop_cold_users",
@@ -97,10 +98,9 @@ class TimeSplitter(Splitter):
         "time_column_format",
     ]
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
-        time_threshold: Union[datetime, str, int, float],
+        time_threshold: Union[datetime, str, float],
         query_column: str = "query_id",
         drop_cold_users: bool = False,
         drop_cold_items: bool = False,
@@ -144,7 +144,8 @@ class TimeSplitter(Splitter):
         self._precision = 3
         self.time_column_format = time_column_format
         if isinstance(time_threshold, float) and (time_threshold < 0 or time_threshold > 1):
-            raise ValueError("time_threshold must be between 0 and 1")
+            msg = "time_threshold must be between 0 and 1"
+            raise ValueError(msg)
         self.time_threshold = time_threshold
     def _partial_split(
@@ -160,7 +161,8 @@ class TimeSplitter(Splitter):
         if isinstance(interactions, PolarsDataFrame):
             return self._partial_split_polars(interactions, threshold)
-        raise NotImplementedError(f"{self} is not implemented for {type(interactions)}")
+        msg = f"{self} is not implemented for {type(interactions)}"
+        raise NotImplementedError(msg)
     def _partial_split_pandas(
         self, interactions: PandasDataFrame, threshold: Union[datetime, str, int]
@@ -191,9 +193,7 @@ class TimeSplitter(Splitter):
             )
             test_start = int(dates.count() * (1 - threshold)) + 1
             test_start = (
-                dates.filter(sf.col("_row_number_by_ts") == test_start)
-                .select(self.timestamp_column)
-                .collect()[0][0]
+                dates.filter(sf.col("_row_number_by_ts") == test_start).select(self.timestamp_column).collect()[0][0]
             )
             res = interactions.withColumn("is_test", sf.col(self.timestamp_column) >= test_start)
         else:
@@ -212,20 +212,15 @@ class TimeSplitter(Splitter):
         if isinstance(threshold, float):
             test_start = int(len(interactions) * (1 - threshold)) + 1
-            res = (
-                interactions
-                .sort(self.timestamp_column)
-                .with_columns(
-                    (pl.col(self.timestamp_column).cum_count() >= test_start)
-                    .alias("is_test")
-                )
+            res = interactions.sort(self.timestamp_column).with_columns(
+                (pl.col(self.timestamp_column).cum_count() >= test_start).alias("is_test")
             )
         else:
             res = interactions.with_columns((pl.col(self.timestamp_column) >= threshold).alias("is_test"))
         if self.session_id_column:
             res = self._recalculate_with_session_id_column(res)
-        train = res.filter(~pl.col("is_test")).drop("is_test")  # pylint: disable=invalid-unary-operand-type
+        train = res.filter(~pl.col("is_test")).drop("is_test")
         test = res.filter("is_test").drop("is_test")
         return train, test

replay/splitters/two_stage_splitter.py CHANGED Viewed

@@ -1,18 +1,19 @@
 """
 This splitter split data by two columns.
 """
-from typing import Optional, Union
+from typing import Optional, Tuple
 import polars as pl
-from .base_splitter import Splitter, SplitterReturnType
 from replay.utils import PYSPARK_AVAILABLE, DataFrameLike, PandasDataFrame, PolarsDataFrame, SparkDataFrame
+from .base_splitter import Splitter, SplitterReturnType
 if PYSPARK_AVAILABLE:
     import pyspark.sql.functions as sf
     from pyspark.sql import Window
-# pylint: disable=too-few-public-methods
 class TwoStageSplitter(Splitter):
     """
     Split data by two columns.
@@ -73,11 +74,10 @@ class TwoStageSplitter(Splitter):
         "timestamp_column",
     ]
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
-        first_divide_size: Union[float, int],
-        second_divide_size: Union[float, int],
+        first_divide_size: float,
+        second_divide_size: float,
         first_divide_column: str = "query_id",
         second_divide_column: str = "item_id",
         shuffle=False,
@@ -147,17 +147,12 @@ class TwoStageSplitter(Splitter):
             else:
                 value_error = True
         if value_error:
-            raise ValueError(
-                f"""
-            Invalid value for user_test_size: {self.first_divide_size}
-            """
-            )
+            msg = f"Invalid value for user_test_size: {self.first_divide_size}"
+            raise ValueError(msg)
         if isinstance(interactions, SparkDataFrame):
             test_users = (
                 all_values.withColumn("_rand", sf.rand(self.seed))
-                .withColumn(
-                    "_row_num", sf.row_number().over(Window.orderBy("_rand"))
-                )
+                .withColumn("_row_num", sf.row_number().over(Window.orderBy("_rand")))
                 .filter(f"_row_num <= {test_user_count}")
                 .drop("_rand", "_row_num")
             )
@@ -168,11 +163,9 @@ class TwoStageSplitter(Splitter):
         return test_users
-    def _split_proportion_spark(self, interactions: SparkDataFrame) -> Union[SparkDataFrame, SparkDataFrame]:
+    def _split_proportion_spark(self, interactions: SparkDataFrame) -> Tuple[SparkDataFrame, SparkDataFrame]:
         counts = interactions.groupBy(self.first_divide_column).count()
-        test_users = self._get_test_values(interactions).withColumn(
-            "is_test", sf.lit(True)
-        )
+        test_users = self._get_test_values(interactions).withColumn("is_test", sf.lit(True))
         if self.shuffle:
             res = self._add_random_partition_spark(
                 interactions.join(test_users, how="left", on=self.first_divide_column)
@@ -202,10 +195,10 @@ class TwoStageSplitter(Splitter):
         return train, test
-    def _split_proportion_pandas(self, interactions: PandasDataFrame) -> Union[PandasDataFrame, PandasDataFrame]:
-        counts = interactions.groupby(self.first_divide_column).agg(
-            count=(self.first_divide_column, "count")
-        ).reset_index()
+    def _split_proportion_pandas(self, interactions: PandasDataFrame) -> Tuple[PandasDataFrame, PandasDataFrame]:
+        counts = (
+            interactions.groupby(self.first_divide_column).agg(count=(self.first_divide_column, "count")).reset_index()
+        )
         test_users = self._get_test_values(interactions)
         test_users["is_test"] = True
         if self.shuffle:
@@ -229,11 +222,9 @@ class TwoStageSplitter(Splitter):
         return train, test
-    def _split_proportion_polars(self, interactions: PolarsDataFrame) -> Union[PolarsDataFrame, PolarsDataFrame]:
+    def _split_proportion_polars(self, interactions: PolarsDataFrame) -> Tuple[PolarsDataFrame, PolarsDataFrame]:
         counts = interactions.group_by(self.first_divide_column).count()
-        test_users = self._get_test_values(interactions).with_columns(
-            pl.lit(True).alias("is_test")
-        )
+        test_users = self._get_test_values(interactions).with_columns(pl.lit(True).alias("is_test"))
         if self.shuffle:
             res = self._add_random_partition_polars(
                 interactions.join(test_users, how="left", on=self.first_divide_column)
@@ -245,18 +236,15 @@ class TwoStageSplitter(Splitter):
             )
         res = res.join(counts, on=self.first_divide_column, how="left")
-        res = res.with_columns(
-            (pl.col("_row_num") / pl.col("count"))
-            .alias("_frac")
-        )
+        res = res.with_columns((pl.col("_row_num") / pl.col("count")).alias("_frac"))
         res = res.fill_null(False)
-        train = res.filter(
-            (pl.col("_frac") > self.second_divide_size) | (~pl.col("is_test"))  # pylint: disable=invalid-unary-operand-type
-        ).drop("_rand", "_row_num", "count", "_frac", "is_test")
-        test = res.filter(
-            (pl.col("_frac") <= self.second_divide_size) & pl.col("is_test")
-        ).drop("_rand", "_row_num", "count", "_frac", "is_test")
+        train = res.filter((pl.col("_frac") > self.second_divide_size) | (~pl.col("is_test"))).drop(
+            "_rand", "_row_num", "count", "_frac", "is_test"
+        )
+        test = res.filter((pl.col("_frac") <= self.second_divide_size) & pl.col("is_test")).drop(
+            "_rand", "_row_num", "count", "_frac", "is_test"
+        )
         return train, test
@@ -274,12 +262,11 @@ class TwoStageSplitter(Splitter):
         if isinstance(interactions, PolarsDataFrame):
             return self._split_proportion_polars(interactions)
-        raise NotImplementedError(f"{self} is not implemented for {type(interactions)}")
+        msg = f"{self} is not implemented for {type(interactions)}"
+        raise NotImplementedError(msg)
     def _split_quantity_spark(self, interactions: SparkDataFrame) -> SparkDataFrame:
-        test_users = self._get_test_values(interactions).withColumn(
-            "is_test", sf.lit(True)
-        )
+        test_users = self._get_test_values(interactions).withColumn("is_test", sf.lit(True))
         if self.shuffle:
             res = self._add_random_partition_spark(
                 interactions.join(test_users, how="left", on=self.first_divide_column)
@@ -328,9 +315,7 @@ class TwoStageSplitter(Splitter):
         return train, test
     def _split_quantity_polars(self, interactions: PolarsDataFrame) -> PolarsDataFrame:
-        test_users = self._get_test_values(interactions).with_columns(
-            pl.lit(True).alias("is_test")
-        )
+        test_users = self._get_test_values(interactions).with_columns(pl.lit(True).alias("is_test"))
         if self.shuffle:
             res = self._add_random_partition_polars(
                 interactions.join(test_users, how="left", on=self.first_divide_column)
@@ -342,12 +327,12 @@ class TwoStageSplitter(Splitter):
             )
         res = res.fill_null(False)
-        train = res.filter(
-            (pl.col("_row_num") > self.second_divide_size) | (~pl.col("is_test"))  # pylint: disable=invalid-unary-operand-type
-        ).drop("_row_num", "is_test")
-        test = res.filter(
-            (pl.col("_row_num") <= self.second_divide_size) & pl.col("is_test")
-        ).drop("_row_num", "is_test")
+        train = res.filter((pl.col("_row_num") > self.second_divide_size) | (~pl.col("is_test"))).drop(
+            "_row_num", "is_test"
+        )
+        test = res.filter((pl.col("_row_num") <= self.second_divide_size) & pl.col("is_test")).drop(
+            "_row_num", "is_test"
+        )
         return train, test
@@ -365,7 +350,8 @@ class TwoStageSplitter(Splitter):
         if isinstance(interactions, PolarsDataFrame):
             return self._split_quantity_polars(interactions)
-        raise NotImplementedError(f"{self} is not implemented for {type(interactions)}")
+        msg = f"{self} is not implemented for {type(interactions)}"
+        raise NotImplementedError(msg)
     def _core_split(self, interactions: DataFrameLike) -> SplitterReturnType:
         if 0 <= self.second_divide_size < 1.0:
@@ -373,11 +359,8 @@ class TwoStageSplitter(Splitter):
         elif self.second_divide_size >= 1 and isinstance(self.second_divide_size, int):
             train, test = self._split_quantity(interactions)
         else:
-            raise ValueError(
-                "`test_size` value must be [0, 1) or "
-                "a positive integer; "
-                f"test_size={self.second_divide_size}"
-            )
+            msg = f"`test_size` value must be [0, 1) or a positive integer; test_size={self.second_divide_size}"
+            raise ValueError(msg)
         return train, test
@@ -391,9 +374,7 @@ class TwoStageSplitter(Splitter):
         dataframe = dataframe.withColumn("_rand", sf.rand(self.seed))
         dataframe = dataframe.withColumn(
             "_row_num",
-            sf.row_number().over(
-                Window.partitionBy(self.first_divide_column).orderBy("_rand")
-            ),
+            sf.row_number().over(Window.partitionBy(self.first_divide_column).orderBy("_rand")),
         )
         return dataframe
@@ -404,14 +385,8 @@ class TwoStageSplitter(Splitter):
         return res
     def _add_random_partition_polars(self, dataframe: PolarsDataFrame) -> PolarsDataFrame:
-        res = (
-            dataframe
-            .sample(fraction=1, shuffle=True, seed=self.seed)
-            .with_columns(
-                pl.cum_count(self.first_divide_column)
-                .over(self.first_divide_column)
-                .alias("_row_num")
-            )
+        res = dataframe.sample(fraction=1, shuffle=True, seed=self.seed).with_columns(
+            pl.cum_count(self.first_divide_column).over(self.first_divide_column).alias("_row_num")
         )
         return res
@@ -431,11 +406,7 @@ class TwoStageSplitter(Splitter):
         """
         res = dataframe.withColumn(
             "_row_num",
-            sf.row_number().over(
-                Window.partitionBy(query_column).orderBy(
-                    sf.col(date_column).desc()
-                )
-            ),
+            sf.row_number().over(Window.partitionBy(query_column).orderBy(sf.col(date_column).desc())),
         )
         return res
@@ -456,13 +427,7 @@ class TwoStageSplitter(Splitter):
         query_column: str = "query_id",
         date_column: str = "timestamp",
     ) -> PolarsDataFrame:
-        res = (
-            dataframe
-            .sort(date_column, descending=True)
-            .with_columns(
-                pl.cum_count(query_column)
-                .over(query_column)
-                .alias("_row_num")
-            )
+        res = dataframe.sort(date_column, descending=True).with_columns(
+            pl.cum_count(query_column).over(query_column).alias("_row_num")
         )
         return res

replay/utils/__init__.py CHANGED Viewed

@@ -7,6 +7,6 @@ from .types import (
     MissingImportType,
     NumType,
     PandasDataFrame,
-    SparkDataFrame,
     PolarsDataFrame,
+    SparkDataFrame,
 )

replay/utils/common.py ADDED Viewed

@@ -0,0 +1,65 @@
+import json
+from pathlib import Path
+from typing import Union
+from replay.splitters import (
+    ColdUserRandomSplitter,
+    KFolds,
+    LastNSplitter,
+    NewUsersSplitter,
+    RandomSplitter,
+    RatioSplitter,
+    TimeSplitter,
+    TwoStageSplitter,
+)
+from replay.utils import TORCH_AVAILABLE
+SavableObject = Union[
+    ColdUserRandomSplitter,
+    KFolds,
+    LastNSplitter,
+    NewUsersSplitter,
+    RandomSplitter,
+    RatioSplitter,
+    TimeSplitter,
+    TwoStageSplitter,
+]
+if TORCH_AVAILABLE:
+    from replay.data.nn import SequenceTokenizer
+    SavableObject = Union[
+        ColdUserRandomSplitter,
+        KFolds,
+        LastNSplitter,
+        NewUsersSplitter,
+        RandomSplitter,
+        RatioSplitter,
+        TimeSplitter,
+        TwoStageSplitter,
+        SequenceTokenizer,
+    ]
+def save_to_replay(obj: SavableObject, path: Union[str, Path]) -> None:
+    """
+    General function to save RePlay models, splitters and tokenizer.
+    :param path: Path to save the object.
+    """
+    obj.save(path)
+def load_from_replay(path: Union[str, Path]) -> SavableObject:
+    """
+    General function to load RePlay models, splitters and tokenizer.
+    :param path: Path to save the object.
+    """
+    path = Path(path).with_suffix(".replay").resolve()
+    with open(path / "init_args.json", "r") as file:
+        class_name = json.loads(file.read())["_class_name"]
+    obj_type = globals()[class_name]
+    obj = obj_type.load(path)
+    return obj

replay-rec 0.16.0__py3-none-any.whl → 0.17.0__py3-none-any.whl

replay-rec 0.16.0py3-none-any.whl → 0.17.0py3-none-any.whl