PyPI - replay-rec - Versions diffs - 0.16.0rc0__py3-none-any.whl → 0.17.0__py3-none-any.whl - Mend

replay-rec 0.16.0rc0py3-none-any.whl → 0.17.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (162) hide show

replay/__init__.py +1 -1
replay/data/__init__.py +1 -1
replay/data/dataset.py +45 -42
replay/data/dataset_utils/dataset_label_encoder.py +6 -7
replay/data/nn/__init__.py +1 -1
replay/data/nn/schema.py +20 -33
replay/data/nn/sequence_tokenizer.py +217 -87
replay/data/nn/sequential_dataset.py +6 -22
replay/data/nn/torch_sequential_dataset.py +20 -11
replay/data/nn/utils.py +7 -9
replay/data/schema.py +17 -17
replay/data/spark_schema.py +0 -1
replay/metrics/base_metric.py +38 -79
replay/metrics/categorical_diversity.py +24 -58
replay/metrics/coverage.py +25 -49
replay/metrics/descriptors.py +4 -13
replay/metrics/experiment.py +3 -8
replay/metrics/hitrate.py +3 -6
replay/metrics/map.py +3 -6
replay/metrics/mrr.py +1 -4
replay/metrics/ndcg.py +4 -7
replay/metrics/novelty.py +10 -29
replay/metrics/offline_metrics.py +26 -61
replay/metrics/precision.py +3 -6
replay/metrics/recall.py +3 -6
replay/metrics/rocauc.py +7 -10
replay/metrics/surprisal.py +13 -30
replay/metrics/torch_metrics_builder.py +0 -4
replay/metrics/unexpectedness.py +15 -20
replay/models/__init__.py +1 -2
replay/models/als.py +7 -15
replay/models/association_rules.py +12 -28
replay/models/base_neighbour_rec.py +21 -36
replay/models/base_rec.py +92 -215
replay/models/cat_pop_rec.py +9 -22
replay/models/cluster.py +17 -28
replay/models/extensions/ann/ann_mixin.py +7 -12
replay/models/extensions/ann/entities/base_hnsw_param.py +1 -1
replay/models/extensions/ann/entities/hnswlib_param.py +0 -6
replay/models/extensions/ann/entities/nmslib_hnsw_param.py +0 -6
replay/models/extensions/ann/index_builders/driver_hnswlib_index_builder.py +4 -10
replay/models/extensions/ann/index_builders/driver_nmslib_index_builder.py +7 -11
replay/models/extensions/ann/index_builders/executor_hnswlib_index_builder.py +5 -12
replay/models/extensions/ann/index_builders/executor_nmslib_index_builder.py +11 -18
replay/models/extensions/ann/index_builders/nmslib_index_builder_mixin.py +1 -4
replay/models/extensions/ann/index_inferers/base_inferer.py +3 -10
replay/models/extensions/ann/index_inferers/hnswlib_filter_index_inferer.py +7 -17
replay/models/extensions/ann/index_inferers/hnswlib_index_inferer.py +6 -14
replay/models/extensions/ann/index_inferers/nmslib_filter_index_inferer.py +14 -28
replay/models/extensions/ann/index_inferers/nmslib_index_inferer.py +15 -25
replay/models/extensions/ann/index_inferers/utils.py +2 -9
replay/models/extensions/ann/index_stores/hdfs_index_store.py +4 -9
replay/models/extensions/ann/index_stores/shared_disk_index_store.py +2 -6
replay/models/extensions/ann/index_stores/spark_files_index_store.py +8 -14
replay/models/extensions/ann/index_stores/utils.py +5 -2
replay/models/extensions/ann/utils.py +3 -5
replay/models/kl_ucb.py +16 -22
replay/models/knn.py +37 -59
replay/models/nn/optimizer_utils/__init__.py +1 -6
replay/models/nn/optimizer_utils/optimizer_factory.py +3 -6
replay/models/nn/sequential/bert4rec/__init__.py +1 -1
replay/models/nn/sequential/bert4rec/dataset.py +6 -7
replay/models/nn/sequential/bert4rec/lightning.py +53 -56
replay/models/nn/sequential/bert4rec/model.py +12 -25
replay/models/nn/sequential/callbacks/__init__.py +1 -1
replay/models/nn/sequential/callbacks/prediction_callbacks.py +23 -25
replay/models/nn/sequential/callbacks/validation_callback.py +27 -30
replay/models/nn/sequential/postprocessors/postprocessors.py +1 -1
replay/models/nn/sequential/sasrec/dataset.py +8 -7
replay/models/nn/sequential/sasrec/lightning.py +53 -48
replay/models/nn/sequential/sasrec/model.py +4 -17
replay/models/pop_rec.py +9 -10
replay/models/query_pop_rec.py +7 -15
replay/models/random_rec.py +10 -18
replay/models/slim.py +8 -13
replay/models/thompson_sampling.py +13 -14
replay/models/ucb.py +11 -22
replay/models/wilson.py +5 -14
replay/models/word2vec.py +24 -69
replay/optimization/optuna_objective.py +13 -27
replay/preprocessing/__init__.py +1 -2
replay/preprocessing/converter.py +2 -7
replay/preprocessing/filters.py +67 -142
replay/preprocessing/history_based_fp.py +44 -116
replay/preprocessing/label_encoder.py +106 -68
replay/preprocessing/sessionizer.py +1 -11
replay/scenarios/fallback.py +3 -8
replay/splitters/base_splitter.py +43 -15
replay/splitters/cold_user_random_splitter.py +18 -31
replay/splitters/k_folds.py +14 -24
replay/splitters/last_n_splitter.py +33 -43
replay/splitters/new_users_splitter.py +31 -55
replay/splitters/random_splitter.py +16 -23
replay/splitters/ratio_splitter.py +30 -54
replay/splitters/time_splitter.py +13 -18
replay/splitters/two_stage_splitter.py +44 -79
replay/utils/__init__.py +1 -1
replay/utils/common.py +65 -0
replay/utils/dataframe_bucketizer.py +25 -31
replay/utils/distributions.py +3 -15
replay/utils/model_handler.py +36 -33
replay/utils/session_handler.py +11 -15
replay/utils/spark_utils.py +51 -85
replay/utils/time.py +8 -22
replay/utils/types.py +1 -3
{replay_rec-0.16.0rc0.dist-info → replay_rec-0.17.0.dist-info}/METADATA +2 -10
replay_rec-0.17.0.dist-info/RECORD +127 -0
{replay_rec-0.16.0rc0.dist-info → replay_rec-0.17.0.dist-info}/WHEEL +1 -1
replay/experimental/__init__.py +0 -0
replay/experimental/metrics/__init__.py +0 -61
replay/experimental/metrics/base_metric.py +0 -661
replay/experimental/metrics/coverage.py +0 -117
replay/experimental/metrics/experiment.py +0 -200
replay/experimental/metrics/hitrate.py +0 -27
replay/experimental/metrics/map.py +0 -31
replay/experimental/metrics/mrr.py +0 -19
replay/experimental/metrics/ncis_precision.py +0 -32
replay/experimental/metrics/ndcg.py +0 -50
replay/experimental/metrics/precision.py +0 -23
replay/experimental/metrics/recall.py +0 -26
replay/experimental/metrics/rocauc.py +0 -50
replay/experimental/metrics/surprisal.py +0 -102
replay/experimental/metrics/unexpectedness.py +0 -74
replay/experimental/models/__init__.py +0 -10
replay/experimental/models/admm_slim.py +0 -216
replay/experimental/models/base_neighbour_rec.py +0 -222
replay/experimental/models/base_rec.py +0 -1361
replay/experimental/models/base_torch_rec.py +0 -247
replay/experimental/models/cql.py +0 -468
replay/experimental/models/ddpg.py +0 -1007
replay/experimental/models/dt4rec/__init__.py +0 -0
replay/experimental/models/dt4rec/dt4rec.py +0 -193
replay/experimental/models/dt4rec/gpt1.py +0 -411
replay/experimental/models/dt4rec/trainer.py +0 -128
replay/experimental/models/dt4rec/utils.py +0 -274
replay/experimental/models/extensions/spark_custom_models/__init__.py +0 -0
replay/experimental/models/extensions/spark_custom_models/als_extension.py +0 -733
replay/experimental/models/implicit_wrap.py +0 -138
replay/experimental/models/lightfm_wrap.py +0 -327
replay/experimental/models/mult_vae.py +0 -374
replay/experimental/models/neuromf.py +0 -462
replay/experimental/models/scala_als.py +0 -311
replay/experimental/nn/data/__init__.py +0 -1
replay/experimental/nn/data/schema_builder.py +0 -58
replay/experimental/preprocessing/__init__.py +0 -3
replay/experimental/preprocessing/data_preparator.py +0 -929
replay/experimental/preprocessing/padder.py +0 -231
replay/experimental/preprocessing/sequence_generator.py +0 -218
replay/experimental/scenarios/__init__.py +0 -1
replay/experimental/scenarios/obp_wrapper/__init__.py +0 -8
replay/experimental/scenarios/obp_wrapper/obp_optuna_objective.py +0 -86
replay/experimental/scenarios/obp_wrapper/replay_offline.py +0 -271
replay/experimental/scenarios/obp_wrapper/utils.py +0 -88
replay/experimental/scenarios/two_stages/reranker.py +0 -116
replay/experimental/scenarios/two_stages/two_stages_scenario.py +0 -843
replay/experimental/utils/__init__.py +0 -0
replay/experimental/utils/logger.py +0 -24
replay/experimental/utils/model_handler.py +0 -213
replay/experimental/utils/session_handler.py +0 -47
replay_rec-0.16.0rc0.dist-info/NOTICE +0 -41
replay_rec-0.16.0rc0.dist-info/RECORD +0 -178
{replay_rec-0.16.0rc0.dist-info → replay_rec-0.17.0.dist-info}/LICENSE +0 -0

replay/experimental/models/base_torch_rec.py DELETED Viewed

@@ -1,247 +0,0 @@
-from abc import abstractmethod
-from typing import Any, Dict, Optional
-import numpy as np
-import torch
-from torch import nn
-from torch.optim.lr_scheduler import ReduceLROnPlateau
-from torch.optim.optimizer import Optimizer
-from torch.utils.data import DataLoader
-from replay.data import get_schema
-from replay.experimental.models.base_rec import Recommender
-from replay.experimental.utils.session_handler import State
-from replay.utils import PYSPARK_AVAILABLE, PandasDataFrame, SparkDataFrame
-if PYSPARK_AVAILABLE:
-    from pyspark.sql import functions as sf
-class TorchRecommender(Recommender):
-    """Base class for neural recommenders"""
-    model: Any
-    device: torch.device
-    def __init__(self):
-        self.logger.info(
-            "The model is neural network with non-distributed training"
-        )
-        self.checkpoint_path = State().session.conf.get("spark.local.dir")
-        self.device = State().device
-    def _run_train_step(self, batch, optimizer):
-        self.model.train()
-        optimizer.zero_grad()
-        model_result = self._batch_pass(batch, self.model)
-        loss = self._loss(**model_result)
-        loss.backward()
-        optimizer.step()
-        return loss.item()
-    def _run_validation(
-        self, valid_data_loader: DataLoader, epoch: int
-    ) -> float:
-        self.model.eval()
-        valid_loss = 0
-        with torch.no_grad():
-            for batch in valid_data_loader:
-                model_result = self._batch_pass(batch, self.model)
-                valid_loss += self._loss(**model_result)
-            valid_loss /= len(valid_data_loader)
-            valid_debug_message = f"""Epoch[{epoch}] validation
-                                    average loss: {valid_loss:.5f}"""
-            self.logger.debug(valid_debug_message)
-        return valid_loss.item()
-    # pylint: disable=too-many-arguments
-    def train(
-        self,
-        train_data_loader: DataLoader,
-        valid_data_loader: DataLoader,
-        optimizer: Optimizer,
-        lr_scheduler: ReduceLROnPlateau,
-        epochs: int,
-        model_name: str,
-    ) -> None:
-        """
-        Run training loop
-        :param train_data_loader: data loader for training
-        :param valid_data_loader: data loader for validation
-        :param optimizer: optimizer
-        :param lr_scheduler: scheduler used to decrease learning rate
-        :param lr_scheduler: scheduler used to decrease learning rate
-        :param epochs: num training epochs
-        :param model_name: model name for checkpoint saving
-        :return:
-        """
-        best_valid_loss = np.inf
-        for epoch in range(epochs):
-            for batch in train_data_loader:
-                train_loss = self._run_train_step(batch, optimizer)
-            train_debug_message = f"""Epoch[{epoch}] current loss:
-                                    {train_loss:.5f}"""
-            self.logger.debug(train_debug_message)
-            valid_loss = self._run_validation(valid_data_loader, epoch)
-            lr_scheduler.step(valid_loss)
-            if valid_loss < best_valid_loss:
-                best_checkpoint = "/".join(
-                    [
-                        self.checkpoint_path,
-                        f"/best_{model_name}_{epoch+1}_loss={valid_loss}.pt",
-                    ]
-                )
-                self._save_model(best_checkpoint)
-                best_valid_loss = valid_loss
-        self._load_model(best_checkpoint)
-    @abstractmethod
-    def _batch_pass(self, batch, model) -> Dict[str, Any]:
-        """
-        Apply model to a single batch.
-        :param batch: data batch
-        :param model: model object
-        :return: dictionary used to calculate loss.
-        """
-    @abstractmethod
-    def _loss(self, **kwargs) -> torch.Tensor:
-        """
-        Returns loss value
-        :param **kwargs: dictionary used to calculate loss
-        :return: 1x1 tensor
-        """
-    # pylint: disable=too-many-arguments
-    # pylint: disable=too-many-locals
-    def _predict(
-        self,
-        log: SparkDataFrame,
-        k: int,
-        users: SparkDataFrame,
-        items: SparkDataFrame,
-        user_features: Optional[SparkDataFrame] = None,
-        item_features: Optional[SparkDataFrame] = None,
-        filter_seen_items: bool = True,
-    ) -> SparkDataFrame:
-        items_consider_in_pred = items.toPandas()["item_idx"].values
-        items_count = self._item_dim
-        model = self.model.cpu()
-        agg_fn = self._predict_by_user
-        def grouped_map(pandas_df: PandasDataFrame) -> PandasDataFrame:
-            return agg_fn(
-                pandas_df, model, items_consider_in_pred, k, items_count
-            )[["user_idx", "item_idx", "relevance"]]
-        self.logger.debug("Predict started")
-        # do not apply map on cold users for MultVAE predict
-        join_type = "inner" if str(self) == "MultVAE" else "left"
-        rec_schema = get_schema(
-            query_column="user_idx",
-            item_column="item_idx",
-            rating_column="relevance",
-            has_timestamp=False,
-        )
-        recs = (
-            users.join(log, how=join_type, on="user_idx")
-            .select("user_idx", "item_idx")
-            .groupby("user_idx")
-            .applyInPandas(grouped_map, rec_schema)
-        )
-        return recs
-    def _predict_pairs(
-        self,
-        pairs: SparkDataFrame,
-        log: Optional[SparkDataFrame] = None,
-        user_features: Optional[SparkDataFrame] = None,
-        item_features: Optional[SparkDataFrame] = None,
-    ) -> SparkDataFrame:
-        items_count = self._item_dim
-        model = self.model.cpu()
-        agg_fn = self._predict_by_user_pairs
-        users = pairs.select("user_idx").distinct()
-        def grouped_map(pandas_df: PandasDataFrame) -> PandasDataFrame:
-            return agg_fn(pandas_df, model, items_count)[
-                ["user_idx", "item_idx", "relevance"]
-            ]
-        self.logger.debug("Calculate relevance for user-item pairs")
-        user_history = (
-            users.join(log, how="inner", on="user_idx")
-            .groupBy("user_idx")
-            .agg(sf.collect_list("item_idx").alias("item_idx_history"))
-        )
-        user_pairs = pairs.groupBy("user_idx").agg(
-            sf.collect_list("item_idx").alias("item_idx_to_pred")
-        )
-        full_df = user_pairs.join(user_history, on="user_idx", how="inner")
-        rec_schema = get_schema(
-            query_column="user_idx",
-            item_column="item_idx",
-            rating_column="relevance",
-            has_timestamp=False,
-        )
-        recs = full_df.groupby("user_idx").applyInPandas(
-            grouped_map, rec_schema
-        )
-        return recs
-    @staticmethod
-    @abstractmethod
-    def _predict_by_user(
-        pandas_df: PandasDataFrame,
-        model: nn.Module,
-        items_np: np.ndarray,
-        k: int,
-        item_count: int,
-    ) -> PandasDataFrame:
-        """
-        Calculate predictions.
-        :param pandas_df: DataFrame with user-item interactions ``[user_idx, item_idx]``
-        :param model: trained model
-        :param items_np: items available for recommendations
-        :param k: length of recommendation list
-        :param item_count: total number of items
-        :return: DataFrame ``[user_idx , item_idx , relevance]``
-        """
-    @staticmethod
-    @abstractmethod
-    def _predict_by_user_pairs(
-        pandas_df: PandasDataFrame,
-        model: nn.Module,
-        item_count: int,
-    ) -> PandasDataFrame:
-        """
-        Get relevance for provided pairs
-        :param pandas_df: DataFrame with rated items and items that need prediction
-            ``[user_idx, item_idx_history, item_idx_to_pred]``
-        :param model: trained model
-        :param item_count: total number of items
-        :return: DataFrame ``[user_idx , item_idx , relevance]``
-        """
-    def load_model(self, path: str) -> None:
-        """
-        Load model from file
-        :param path: path to model
-        :return:
-        """
-        self.logger.debug("-- Loading model from file")
-        self.model.load_state_dict(torch.load(path))
-    def _save_model(self, path: str) -> None:
-        torch.save(self.model.state_dict(), path)

replay-rec 0.16.0rc0__py3-none-any.whl → 0.17.0__py3-none-any.whl

replay-rec 0.16.0rc0py3-none-any.whl → 0.17.0py3-none-any.whl