PyPI - replay-rec - Versions diffs - 0.18.0rc0__py3-none-any.whl → 0.18.1__py3-none-any.whl - Mend

replay-rec 0.18.0rc0py3-none-any.whl → 0.18.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (90) hide show

replay/__init__.py +1 -1
replay/data/dataset.py +27 -1
replay/data/dataset_utils/dataset_label_encoder.py +6 -3
replay/data/nn/schema.py +37 -16
replay/data/nn/sequence_tokenizer.py +313 -165
replay/data/nn/torch_sequential_dataset.py +17 -8
replay/data/nn/utils.py +14 -7
replay/data/schema.py +10 -6
replay/metrics/offline_metrics.py +2 -2
replay/models/__init__.py +1 -0
replay/models/base_rec.py +18 -21
replay/models/lin_ucb.py +407 -0
replay/models/nn/sequential/bert4rec/dataset.py +17 -4
replay/models/nn/sequential/bert4rec/lightning.py +121 -54
replay/models/nn/sequential/bert4rec/model.py +21 -0
replay/models/nn/sequential/callbacks/prediction_callbacks.py +5 -1
replay/models/nn/sequential/compiled/__init__.py +5 -0
replay/models/nn/sequential/compiled/base_compiled_model.py +261 -0
replay/models/nn/sequential/compiled/bert4rec_compiled.py +152 -0
replay/models/nn/sequential/compiled/sasrec_compiled.py +145 -0
replay/models/nn/sequential/postprocessors/postprocessors.py +27 -1
replay/models/nn/sequential/sasrec/dataset.py +17 -1
replay/models/nn/sequential/sasrec/lightning.py +126 -50
replay/models/nn/sequential/sasrec/model.py +3 -4
replay/preprocessing/__init__.py +7 -1
replay/preprocessing/discretizer.py +719 -0
replay/preprocessing/label_encoder.py +384 -52
replay/splitters/cold_user_random_splitter.py +1 -1
replay/utils/__init__.py +1 -0
replay/utils/common.py +7 -8
replay/utils/session_handler.py +3 -4
replay/utils/spark_utils.py +15 -1
replay/utils/types.py +8 -0
{replay_rec-0.18.0rc0.dist-info → replay_rec-0.18.1.dist-info}/METADATA +75 -70
{replay_rec-0.18.0rc0.dist-info → replay_rec-0.18.1.dist-info}/RECORD +37 -84
{replay_rec-0.18.0rc0.dist-info → replay_rec-0.18.1.dist-info}/WHEEL +1 -1
replay/experimental/__init__.py +0 -0
replay/experimental/metrics/__init__.py +0 -62
replay/experimental/metrics/base_metric.py +0 -602
replay/experimental/metrics/coverage.py +0 -97
replay/experimental/metrics/experiment.py +0 -175
replay/experimental/metrics/hitrate.py +0 -26
replay/experimental/metrics/map.py +0 -30
replay/experimental/metrics/mrr.py +0 -18
replay/experimental/metrics/ncis_precision.py +0 -31
replay/experimental/metrics/ndcg.py +0 -49
replay/experimental/metrics/precision.py +0 -22
replay/experimental/metrics/recall.py +0 -25
replay/experimental/metrics/rocauc.py +0 -49
replay/experimental/metrics/surprisal.py +0 -90
replay/experimental/metrics/unexpectedness.py +0 -76
replay/experimental/models/__init__.py +0 -10
replay/experimental/models/admm_slim.py +0 -205
replay/experimental/models/base_neighbour_rec.py +0 -204
replay/experimental/models/base_rec.py +0 -1271
replay/experimental/models/base_torch_rec.py +0 -234
replay/experimental/models/cql.py +0 -454
replay/experimental/models/ddpg.py +0 -923
replay/experimental/models/dt4rec/__init__.py +0 -0
replay/experimental/models/dt4rec/dt4rec.py +0 -189
replay/experimental/models/dt4rec/gpt1.py +0 -401
replay/experimental/models/dt4rec/trainer.py +0 -127
replay/experimental/models/dt4rec/utils.py +0 -265
replay/experimental/models/extensions/spark_custom_models/__init__.py +0 -0
replay/experimental/models/extensions/spark_custom_models/als_extension.py +0 -792
replay/experimental/models/implicit_wrap.py +0 -131
replay/experimental/models/lightfm_wrap.py +0 -302
replay/experimental/models/mult_vae.py +0 -332
replay/experimental/models/neuromf.py +0 -406
replay/experimental/models/scala_als.py +0 -296
replay/experimental/nn/data/__init__.py +0 -1
replay/experimental/nn/data/schema_builder.py +0 -55
replay/experimental/preprocessing/__init__.py +0 -3
replay/experimental/preprocessing/data_preparator.py +0 -839
replay/experimental/preprocessing/padder.py +0 -229
replay/experimental/preprocessing/sequence_generator.py +0 -208
replay/experimental/scenarios/__init__.py +0 -1
replay/experimental/scenarios/obp_wrapper/__init__.py +0 -8
replay/experimental/scenarios/obp_wrapper/obp_optuna_objective.py +0 -74
replay/experimental/scenarios/obp_wrapper/replay_offline.py +0 -248
replay/experimental/scenarios/obp_wrapper/utils.py +0 -87
replay/experimental/scenarios/two_stages/__init__.py +0 -0
replay/experimental/scenarios/two_stages/reranker.py +0 -117
replay/experimental/scenarios/two_stages/two_stages_scenario.py +0 -757
replay/experimental/utils/__init__.py +0 -0
replay/experimental/utils/logger.py +0 -24
replay/experimental/utils/model_handler.py +0 -186
replay/experimental/utils/session_handler.py +0 -44
replay_rec-0.18.0rc0.dist-info/NOTICE +0 -41
{replay_rec-0.18.0rc0.dist-info → replay_rec-0.18.1.dist-info}/LICENSE +0 -0

replay/experimental/models/mult_vae.py DELETED Viewed

@@ -1,332 +0,0 @@
-"""
-MultVAE implementation
-(Variational Autoencoders for Collaborative Filtering)
-"""
-from typing import Optional, Tuple
-import numpy as np
-import torch
-import torch.nn.functional as sf
-from scipy.sparse import csr_matrix
-from sklearn.model_selection import GroupShuffleSplit
-from torch import nn
-from torch.optim import Adam
-from torch.optim.lr_scheduler import ReduceLROnPlateau
-from torch.utils.data import DataLoader, TensorDataset
-from replay.experimental.models.base_torch_rec import TorchRecommender
-from replay.utils import PandasDataFrame, SparkDataFrame
-class VAE(nn.Module):
-    """Base variational autoencoder"""
-    def __init__(
-        self,
-        item_count: int,
-        latent_dim: int,
-        hidden_dim: int = 600,
-        dropout: float = 0.3,
-    ):
-        """
-        :param item_count: number of items
-        :param latent_dim: latent dimension size
-        :param hidden_dim: hidden dimension size for encoder and decoder
-        :param dropout: dropout coefficient
-        """
-        super().__init__()
-        self.latent_dim = latent_dim
-        self.encoder_dims = [item_count, hidden_dim, latent_dim * 2]
-        self.decoder_dims = [latent_dim, hidden_dim, item_count]
-        self.encoder = nn.ModuleList(
-            [nn.Linear(d_in, d_out) for d_in, d_out in zip(self.encoder_dims[:-1], self.encoder_dims[1:])]
-        )
-        self.decoder = nn.ModuleList(
-            [nn.Linear(d_in, d_out) for d_in, d_out in zip(self.decoder_dims[:-1], self.decoder_dims[1:])]
-        )
-        self.dropout = nn.Dropout(dropout)
-        self.activation = torch.nn.ReLU()
-        for layer in self.encoder:
-            self.weight_init(layer)
-        for layer in self.decoder:
-            self.weight_init(layer)
-    def encode(self, batch: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor]:
-        """Encode"""
-        hidden = sf.normalize(batch, p=2, dim=1)
-        hidden = self.dropout(hidden)
-        for layer in self.encoder[:-1]:
-            hidden = layer(hidden)
-            hidden = self.activation(hidden)
-        hidden = self.encoder[-1](hidden)
-        mu_latent = hidden[:, : self.latent_dim]
-        logvar_latent = hidden[:, self.latent_dim :]
-        return mu_latent, logvar_latent
-    def reparameterize(self, mu_latent: torch.Tensor, logvar_latent: torch.Tensor) -> torch.Tensor:
-        """Reparametrization trick"""
-        if self.training:
-            std = torch.exp(0.5 * logvar_latent)
-            eps = torch.randn_like(std)
-            return eps * std + mu_latent
-        return mu_latent
-    def decode(self, z_latent: torch.Tensor) -> torch.Tensor:
-        """Decode"""
-        hidden = z_latent
-        for layer in self.decoder[:-1]:
-            hidden = layer(hidden)
-            hidden = self.activation(hidden)
-        return self.decoder[-1](hidden)
-    def forward(self, batch: torch.Tensor) -> Tuple[torch.Tensor, torch.Tensor, torch.Tensor]:
-        """
-        :param batch: user batch
-        :return: output, expectation and logarithm of variation
-        """
-        mu_latent, logvar_latent = self.encode(batch)
-        z_latent = self.reparameterize(mu_latent, logvar_latent)
-        return self.decode(z_latent), mu_latent, logvar_latent
-    @staticmethod
-    def weight_init(layer: nn.Module):
-        """
-        Xavier initialization
-        :param layer: layer of a model
-        """
-        if isinstance(layer, nn.Linear):
-            nn.init.xavier_normal_(layer.weight.data)
-            layer.bias.data.normal_(0.0, 0.001)
-class MultVAE(TorchRecommender):
-    """`Variational Autoencoders for Collaborative Filtering
-    <https://arxiv.org/pdf/1802.05814.pdf>`_"""
-    num_workers: int = 0
-    batch_size_users: int = 5000
-    patience: int = 10
-    n_saved: int = 2
-    valid_split_size: float = 0.1
-    seed: int = 42
-    can_predict_cold_users = True
-    train_user_batch: csr_matrix
-    valid_user_batch: csr_matrix
-    _search_space = {
-        "learning_rate": {"type": "loguniform", "args": [0.0001, 0.5]},
-        "epochs": {"type": "int", "args": [100, 100]},
-        "latent_dim": {"type": "int", "args": [200, 200]},
-        "hidden_dim": {"type": "int", "args": [600, 600]},
-        "dropout": {"type": "uniform", "args": [0, 0.5]},
-        "anneal": {"type": "uniform", "args": [0.2, 1]},
-        "l2_reg": {"type": "loguniform", "args": [1e-9, 5]},
-        "factor": {"type": "uniform", "args": [0.2, 0.2]},
-        "patience": {"type": "int", "args": [3, 3]},
-    }
-    def __init__(
-        self,
-        learning_rate: float = 0.01,
-        epochs: int = 100,
-        latent_dim: int = 200,
-        hidden_dim: int = 600,
-        dropout: float = 0.3,
-        anneal: float = 0.1,
-        l2_reg: float = 0,
-        factor: float = 0.2,
-        patience: int = 3,
-    ):
-        """
-        :param learning_rate: learning rate
-        :param epochs: number of epochs to train model
-        :param latent_dim: latent dimension size for user vectors
-        :param hidden_dim: hidden dimension size for encoder and decoder
-        :param dropout: dropout coefficient
-        :param anneal: anneal coefficient [0,1]
-        :param l2_reg: l2 regularization term
-        :param factor: ReduceLROnPlateau reducing factor. new_lr = lr * factor
-        :param patience: number of non-improved epochs before reducing lr
-        """
-        super().__init__()
-        self.learning_rate = learning_rate
-        self.epochs = epochs
-        self.latent_dim = latent_dim
-        self.hidden_dim = hidden_dim
-        self.dropout = dropout
-        self.anneal = anneal
-        self.l2_reg = l2_reg
-        self.factor = factor
-        self.patience = patience
-    @property
-    def _init_args(self):
-        return {
-            "learning_rate": self.learning_rate,
-            "epochs": self.epochs,
-            "latent_dim": self.latent_dim,
-            "hidden_dim": self.hidden_dim,
-            "dropout": self.dropout,
-            "anneal": self.anneal,
-            "l2_reg": self.l2_reg,
-            "factor": self.factor,
-            "patience": self.patience,
-        }
-    def _get_data_loader(
-        self, data: PandasDataFrame, shuffle: bool = True
-    ) -> Tuple[csr_matrix, DataLoader, np.ndarray]:
-        """get data loader and matrix with data"""
-        users_count = data["user_idx"].value_counts().count()
-        user_idx = data["user_idx"].astype("category").cat
-        user_batch = csr_matrix(
-            (
-                np.ones(len(data["user_idx"])),
-                ([user_idx.codes.values, data["item_idx"].values]),
-            ),
-            shape=(users_count, self._item_dim),
-        )
-        data_loader = DataLoader(
-            TensorDataset(torch.arange(users_count).long()),
-            batch_size=self.batch_size_users,
-            shuffle=shuffle,
-            num_workers=self.num_workers,
-        )
-        return user_batch, data_loader, user_idx.categories.values
-    def _fit(
-        self,
-        log: SparkDataFrame,
-        user_features: Optional[SparkDataFrame] = None,  # noqa: ARG002
-        item_features: Optional[SparkDataFrame] = None,  # noqa: ARG002
-    ) -> None:
-        self.logger.debug("Creating batch")
-        data = log.select("user_idx", "item_idx").toPandas()
-        splitter = GroupShuffleSplit(n_splits=1, test_size=self.valid_split_size, random_state=self.seed)
-        train_idx, valid_idx = next(splitter.split(data, groups=data["user_idx"]))
-        train_data, valid_data = data.iloc[train_idx], data.iloc[valid_idx]
-        self.train_user_batch, train_data_loader, _ = self._get_data_loader(train_data)
-        self.valid_user_batch, valid_data_loader, _ = self._get_data_loader(valid_data, False)
-        self.logger.debug("Training VAE")
-        self.model = VAE(
-            item_count=self._item_dim,
-            latent_dim=self.latent_dim,
-            hidden_dim=self.hidden_dim,
-            dropout=self.dropout,
-        ).to(self.device)
-        optimizer = Adam(
-            self.model.parameters(),
-            lr=self.learning_rate,
-            weight_decay=self.l2_reg / self.batch_size_users,
-        )
-        lr_scheduler = ReduceLROnPlateau(optimizer, factor=self.factor, patience=self.patience)
-        self.train(
-            train_data_loader,
-            valid_data_loader,
-            optimizer,
-            lr_scheduler,
-            self.epochs,
-            "multvae",
-        )
-    def _loss(self, y_pred, y_true, mu_latent, logvar_latent):
-        log_softmax_var = sf.log_softmax(y_pred, dim=1)
-        bce = -(log_softmax_var * y_true).sum(dim=1).mean()
-        kld = (
-            -0.5
-            * torch.sum(
-                1 + logvar_latent - mu_latent.pow(2) - logvar_latent.exp(),
-                dim=1,
-            ).mean()
-        )
-        return bce + self.anneal * kld
-    def _batch_pass(self, batch, model):
-        full_batch = self.train_user_batch if model.training else self.valid_user_batch
-        user_batch = torch.FloatTensor(full_batch[batch[0]].toarray()).to(self.device)
-        pred_user_batch, latent_mu, latent_logvar = self.model.forward(user_batch)
-        return {
-            "y_pred": pred_user_batch,
-            "y_true": user_batch,
-            "mu_latent": latent_mu,
-            "logvar_latent": latent_logvar,
-        }
-    @staticmethod
-    def _predict_pairs_inner(
-        model: nn.Module,
-        user_idx: int,
-        items_np_history: np.ndarray,
-        items_np_to_pred: np.ndarray,
-        item_count: int,
-        cnt: Optional[int] = None,
-    ) -> SparkDataFrame:
-        model.eval()
-        with torch.no_grad():
-            user_batch = torch.zeros((1, item_count))
-            user_batch[0, items_np_history] = 1
-            user_recs = sf.softmax(model(user_batch)[0][0].detach(), dim=0)
-            if cnt is not None:
-                best_item_idx = (torch.argsort(user_recs[items_np_to_pred], descending=True)[:cnt]).numpy()
-                items_np_to_pred = items_np_to_pred[best_item_idx]
-            return PandasDataFrame(
-                {
-                    "user_idx": np.array(items_np_to_pred.shape[0] * [user_idx]),
-                    "item_idx": items_np_to_pred,
-                    "relevance": user_recs[items_np_to_pred],
-                }
-            )
-    @staticmethod
-    def _predict_by_user(
-        pandas_df: PandasDataFrame,
-        model: nn.Module,
-        items_np: np.ndarray,
-        k: int,
-        item_count: int,
-    ) -> PandasDataFrame:
-        return MultVAE._predict_pairs_inner(
-            model=model,
-            user_idx=pandas_df["user_idx"][0],
-            items_np_history=pandas_df["item_idx"].values,
-            items_np_to_pred=items_np,
-            item_count=item_count,
-            cnt=min(len(pandas_df) + k, len(items_np)),
-        )
-    @staticmethod
-    def _predict_by_user_pairs(
-        pandas_df: PandasDataFrame,
-        model: nn.Module,
-        item_count: int,
-    ) -> PandasDataFrame:
-        return MultVAE._predict_pairs_inner(
-            model=model,
-            user_idx=pandas_df["user_idx"][0],
-            items_np_history=np.array(pandas_df["item_idx_history"][0]),
-            items_np_to_pred=np.array(pandas_df["item_idx_to_pred"][0]),
-            item_count=item_count,
-            cnt=None,
-        )
-    def _load_model(self, path: str):
-        self.model = VAE(
-            item_count=self._item_dim,
-            latent_dim=self.latent_dim,
-            hidden_dim=self.hidden_dim,
-            dropout=self.dropout,
-        ).to(self.device)
-        self.model.load_state_dict(torch.load(path))
-        self.model.eval()

replay-rec 0.18.0rc0__py3-none-any.whl → 0.18.1__py3-none-any.whl

replay-rec 0.18.0rc0py3-none-any.whl → 0.18.1py3-none-any.whl