PyPI - replay-rec - Versions diffs - 0.16.0rc0__py3-none-any.whl → 0.17.0__py3-none-any.whl - Mend

replay-rec 0.16.0rc0py3-none-any.whl → 0.17.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (162) hide show

replay/__init__.py +1 -1
replay/data/__init__.py +1 -1
replay/data/dataset.py +45 -42
replay/data/dataset_utils/dataset_label_encoder.py +6 -7
replay/data/nn/__init__.py +1 -1
replay/data/nn/schema.py +20 -33
replay/data/nn/sequence_tokenizer.py +217 -87
replay/data/nn/sequential_dataset.py +6 -22
replay/data/nn/torch_sequential_dataset.py +20 -11
replay/data/nn/utils.py +7 -9
replay/data/schema.py +17 -17
replay/data/spark_schema.py +0 -1
replay/metrics/base_metric.py +38 -79
replay/metrics/categorical_diversity.py +24 -58
replay/metrics/coverage.py +25 -49
replay/metrics/descriptors.py +4 -13
replay/metrics/experiment.py +3 -8
replay/metrics/hitrate.py +3 -6
replay/metrics/map.py +3 -6
replay/metrics/mrr.py +1 -4
replay/metrics/ndcg.py +4 -7
replay/metrics/novelty.py +10 -29
replay/metrics/offline_metrics.py +26 -61
replay/metrics/precision.py +3 -6
replay/metrics/recall.py +3 -6
replay/metrics/rocauc.py +7 -10
replay/metrics/surprisal.py +13 -30
replay/metrics/torch_metrics_builder.py +0 -4
replay/metrics/unexpectedness.py +15 -20
replay/models/__init__.py +1 -2
replay/models/als.py +7 -15
replay/models/association_rules.py +12 -28
replay/models/base_neighbour_rec.py +21 -36
replay/models/base_rec.py +92 -215
replay/models/cat_pop_rec.py +9 -22
replay/models/cluster.py +17 -28
replay/models/extensions/ann/ann_mixin.py +7 -12
replay/models/extensions/ann/entities/base_hnsw_param.py +1 -1
replay/models/extensions/ann/entities/hnswlib_param.py +0 -6
replay/models/extensions/ann/entities/nmslib_hnsw_param.py +0 -6
replay/models/extensions/ann/index_builders/driver_hnswlib_index_builder.py +4 -10
replay/models/extensions/ann/index_builders/driver_nmslib_index_builder.py +7 -11
replay/models/extensions/ann/index_builders/executor_hnswlib_index_builder.py +5 -12
replay/models/extensions/ann/index_builders/executor_nmslib_index_builder.py +11 -18
replay/models/extensions/ann/index_builders/nmslib_index_builder_mixin.py +1 -4
replay/models/extensions/ann/index_inferers/base_inferer.py +3 -10
replay/models/extensions/ann/index_inferers/hnswlib_filter_index_inferer.py +7 -17
replay/models/extensions/ann/index_inferers/hnswlib_index_inferer.py +6 -14
replay/models/extensions/ann/index_inferers/nmslib_filter_index_inferer.py +14 -28
replay/models/extensions/ann/index_inferers/nmslib_index_inferer.py +15 -25
replay/models/extensions/ann/index_inferers/utils.py +2 -9
replay/models/extensions/ann/index_stores/hdfs_index_store.py +4 -9
replay/models/extensions/ann/index_stores/shared_disk_index_store.py +2 -6
replay/models/extensions/ann/index_stores/spark_files_index_store.py +8 -14
replay/models/extensions/ann/index_stores/utils.py +5 -2
replay/models/extensions/ann/utils.py +3 -5
replay/models/kl_ucb.py +16 -22
replay/models/knn.py +37 -59
replay/models/nn/optimizer_utils/__init__.py +1 -6
replay/models/nn/optimizer_utils/optimizer_factory.py +3 -6
replay/models/nn/sequential/bert4rec/__init__.py +1 -1
replay/models/nn/sequential/bert4rec/dataset.py +6 -7
replay/models/nn/sequential/bert4rec/lightning.py +53 -56
replay/models/nn/sequential/bert4rec/model.py +12 -25
replay/models/nn/sequential/callbacks/__init__.py +1 -1
replay/models/nn/sequential/callbacks/prediction_callbacks.py +23 -25
replay/models/nn/sequential/callbacks/validation_callback.py +27 -30
replay/models/nn/sequential/postprocessors/postprocessors.py +1 -1
replay/models/nn/sequential/sasrec/dataset.py +8 -7
replay/models/nn/sequential/sasrec/lightning.py +53 -48
replay/models/nn/sequential/sasrec/model.py +4 -17
replay/models/pop_rec.py +9 -10
replay/models/query_pop_rec.py +7 -15
replay/models/random_rec.py +10 -18
replay/models/slim.py +8 -13
replay/models/thompson_sampling.py +13 -14
replay/models/ucb.py +11 -22
replay/models/wilson.py +5 -14
replay/models/word2vec.py +24 -69
replay/optimization/optuna_objective.py +13 -27
replay/preprocessing/__init__.py +1 -2
replay/preprocessing/converter.py +2 -7
replay/preprocessing/filters.py +67 -142
replay/preprocessing/history_based_fp.py +44 -116
replay/preprocessing/label_encoder.py +106 -68
replay/preprocessing/sessionizer.py +1 -11
replay/scenarios/fallback.py +3 -8
replay/splitters/base_splitter.py +43 -15
replay/splitters/cold_user_random_splitter.py +18 -31
replay/splitters/k_folds.py +14 -24
replay/splitters/last_n_splitter.py +33 -43
replay/splitters/new_users_splitter.py +31 -55
replay/splitters/random_splitter.py +16 -23
replay/splitters/ratio_splitter.py +30 -54
replay/splitters/time_splitter.py +13 -18
replay/splitters/two_stage_splitter.py +44 -79
replay/utils/__init__.py +1 -1
replay/utils/common.py +65 -0
replay/utils/dataframe_bucketizer.py +25 -31
replay/utils/distributions.py +3 -15
replay/utils/model_handler.py +36 -33
replay/utils/session_handler.py +11 -15
replay/utils/spark_utils.py +51 -85
replay/utils/time.py +8 -22
replay/utils/types.py +1 -3
{replay_rec-0.16.0rc0.dist-info → replay_rec-0.17.0.dist-info}/METADATA +2 -10
replay_rec-0.17.0.dist-info/RECORD +127 -0
{replay_rec-0.16.0rc0.dist-info → replay_rec-0.17.0.dist-info}/WHEEL +1 -1
replay/experimental/__init__.py +0 -0
replay/experimental/metrics/__init__.py +0 -61
replay/experimental/metrics/base_metric.py +0 -661
replay/experimental/metrics/coverage.py +0 -117
replay/experimental/metrics/experiment.py +0 -200
replay/experimental/metrics/hitrate.py +0 -27
replay/experimental/metrics/map.py +0 -31
replay/experimental/metrics/mrr.py +0 -19
replay/experimental/metrics/ncis_precision.py +0 -32
replay/experimental/metrics/ndcg.py +0 -50
replay/experimental/metrics/precision.py +0 -23
replay/experimental/metrics/recall.py +0 -26
replay/experimental/metrics/rocauc.py +0 -50
replay/experimental/metrics/surprisal.py +0 -102
replay/experimental/metrics/unexpectedness.py +0 -74
replay/experimental/models/__init__.py +0 -10
replay/experimental/models/admm_slim.py +0 -216
replay/experimental/models/base_neighbour_rec.py +0 -222
replay/experimental/models/base_rec.py +0 -1361
replay/experimental/models/base_torch_rec.py +0 -247
replay/experimental/models/cql.py +0 -468
replay/experimental/models/ddpg.py +0 -1007
replay/experimental/models/dt4rec/__init__.py +0 -0
replay/experimental/models/dt4rec/dt4rec.py +0 -193
replay/experimental/models/dt4rec/gpt1.py +0 -411
replay/experimental/models/dt4rec/trainer.py +0 -128
replay/experimental/models/dt4rec/utils.py +0 -274
replay/experimental/models/extensions/spark_custom_models/__init__.py +0 -0
replay/experimental/models/extensions/spark_custom_models/als_extension.py +0 -733
replay/experimental/models/implicit_wrap.py +0 -138
replay/experimental/models/lightfm_wrap.py +0 -327
replay/experimental/models/mult_vae.py +0 -374
replay/experimental/models/neuromf.py +0 -462
replay/experimental/models/scala_als.py +0 -311
replay/experimental/nn/data/__init__.py +0 -1
replay/experimental/nn/data/schema_builder.py +0 -58
replay/experimental/preprocessing/__init__.py +0 -3
replay/experimental/preprocessing/data_preparator.py +0 -929
replay/experimental/preprocessing/padder.py +0 -231
replay/experimental/preprocessing/sequence_generator.py +0 -218
replay/experimental/scenarios/__init__.py +0 -1
replay/experimental/scenarios/obp_wrapper/__init__.py +0 -8
replay/experimental/scenarios/obp_wrapper/obp_optuna_objective.py +0 -86
replay/experimental/scenarios/obp_wrapper/replay_offline.py +0 -271
replay/experimental/scenarios/obp_wrapper/utils.py +0 -88
replay/experimental/scenarios/two_stages/reranker.py +0 -116
replay/experimental/scenarios/two_stages/two_stages_scenario.py +0 -843
replay/experimental/utils/__init__.py +0 -0
replay/experimental/utils/logger.py +0 -24
replay/experimental/utils/model_handler.py +0 -213
replay/experimental/utils/session_handler.py +0 -47
replay_rec-0.16.0rc0.dist-info/NOTICE +0 -41
replay_rec-0.16.0rc0.dist-info/RECORD +0 -178
{replay_rec-0.16.0rc0.dist-info → replay_rec-0.17.0.dist-info}/LICENSE +0 -0

replay/experimental/models/dt4rec/trainer.py DELETED Viewed

@@ -1,128 +0,0 @@
-import logging
-from .utils import matrix2df
-import pandas as pd
-from tqdm import tqdm
-from replay.utils import TORCH_AVAILABLE
-if TORCH_AVAILABLE:
-    import torch
-    from torch.nn import functional as F
-logger = logging.getLogger(__name__)
-# pylint: disable=too-few-public-methods
-class TrainerConfig:
-    """
-    Config holder for trainer
-    """
-    epochs = 1
-    lr_scheduler = None
-    def __init__(self, **kwargs):
-        for key, value in kwargs.items():
-            setattr(self, key, value)
-    def update(self, **kwargs):
-        """
-        Arguments setter
-        """
-        for key, value in kwargs.items():
-            setattr(self, key, value)
-# pylint: disable=too-many-instance-attributes
-class Trainer:
-    """
-    Trainer for DT4Rec
-    """
-    grad_norm_clip = 1.0
-    # pylint: disable=too-many-arguments
-    def __init__(
-        self,
-        model,
-        train_dataloader,
-        tconf,
-        val_dataloader=None,
-        experiment=None,
-        use_cuda=True,
-    ):
-        self.model = model
-        self.train_dataloader = train_dataloader
-        self.optimizer = tconf.optimizer
-        self.epochs = tconf.epochs
-        self.lr_scheduler = tconf.lr_scheduler
-        assert (val_dataloader is None) == (experiment is None)
-        self.val_dataloader = val_dataloader
-        self.experiment = experiment
-        # take over whatever gpus are on the system
-        self.device = "cpu"
-        if use_cuda and torch.cuda.is_available():
-            self.device = torch.cuda.current_device()
-            self.model = torch.nn.DataParallel(self.model).to(self.device)
-    def _move_batch(self, batch):
-        return [elem.to(self.device) for elem in batch]
-    def _train_epoch(self, epoch):
-        self.model.train()
-        losses = []
-        pbar = tqdm(
-            enumerate(self.train_dataloader),
-            total=len(self.train_dataloader),
-        )
-        for iter_, batch in pbar:
-            # place data on the correct device
-            states, actions, rtgs, timesteps, users = self._move_batch(batch)
-            targets = actions
-            # forward the model
-            logits = self.model(states, actions, rtgs, timesteps, users)
-            loss = F.cross_entropy(logits.reshape(-1, logits.size(-1)), targets.reshape(-1)).mean()
-            losses.append(loss.item())
-            # backprop and update the parametersx
-            self.model.zero_grad()
-            loss.backward()
-            torch.nn.utils.clip_grad_norm_(self.model.parameters(), self.grad_norm_clip)
-            self.optimizer.step()
-            if self.lr_scheduler is not None:
-                self.lr_scheduler.step()
-            # report progress
-            if self.lr_scheduler is not None:
-                current_lr = self.lr_scheduler.get_lr()
-            else:
-                current_lr = self.optimizer.param_groups[-1]["lr"]
-            pbar.set_description(f"epoch {epoch+1} iter {iter_}: train loss {loss.item():.5f}, lr {current_lr}")
-    def _evaluation_epoch(self, epoch):
-        self.model.eval()
-        ans_df = pd.DataFrame(columns=["user_idx", "item_idx", "relevance"])
-        val_items = self.val_dataloader.dataset.val_items
-        with torch.no_grad():
-            for batch in tqdm(self.val_dataloader):
-                states, actions, rtgs, timesteps, users = self._move_batch(batch)
-                logits = self.model(states, actions, rtgs, timesteps, users)
-                items_relevances = logits[:, -1, :][:, val_items]
-                ans_df = ans_df.append(matrix2df(items_relevances, users.squeeze(), val_items))
-            self.experiment.add_result(f"epoch: {epoch}", ans_df)
-            self.experiment.results.to_csv("results.csv")
-    def train(self):
-        """
-        Run training loop
-        """
-        for epoch in range(self.epochs):
-            self._train_epoch(epoch)
-            if self.experiment is not None:
-                self._evaluation_epoch(epoch)

replay/experimental/models/dt4rec/utils.py DELETED Viewed

@@ -1,274 +0,0 @@
-# pylint: disable=invalid-name
-import bisect
-import random
-from typing import List, Union
-import numpy as np
-import pandas as pd
-from tqdm import tqdm
-from replay.utils import TORCH_AVAILABLE
-if TORCH_AVAILABLE:
-    import torch
-    from torch.optim import Optimizer
-    from torch.optim.lr_scheduler import _LRScheduler
-    from torch.utils.data import Dataset
-def set_seed(seed):
-    """
-    Set random seed in all dependicies
-    """
-    random.seed(seed)
-    np.random.seed(seed)
-    torch.manual_seed(seed)
-    torch.cuda.manual_seed_all(seed)
-class StateActionReturnDataset(Dataset):
-    """
-    Create Dataset from user trajectories
-    """
-    def __init__(self, user_trajectory, trajectory_len):
-        self.user_trajectory = user_trajectory
-        self.trajectory_len = trajectory_len
-        self.len = 0
-        self.prefix_lens = [0]
-        for trajectory in self.user_trajectory:
-            # print(f'{trajectory=}')
-            self.len += max(1, len(trajectory["actions"]) - 30 + 1)
-            self.prefix_lens.append(self.len)
-    def __len__(self):
-        return self.len
-    def __getitem__(self, idx):
-        user_num = bisect.bisect_right(self.prefix_lens, idx) - 1
-        start = idx - self.prefix_lens[user_num]
-        user = self.user_trajectory[user_num]
-        end = min(len(user["actions"]), start + self.trajectory_len)
-        states = torch.tensor(np.array(user["states"][start:end]), dtype=torch.float32)
-        actions = torch.tensor(user["actions"][start:end], dtype=torch.long)
-        rtgs = torch.tensor(user["rtgs"][start:end], dtype=torch.float32)
-        # strange logic but work
-        timesteps = start
-        return states, actions, rtgs, timesteps, user_num
-class ValidateDataset(Dataset):
-    """
-    Dataset for Validation
-    """
-    def __init__(self, user_trajectory, max_context_len, val_users, val_items):
-        self.user_trajectory = user_trajectory
-        self.max_context_len = max_context_len
-        self.val_users = val_users
-        self.val_items = val_items
-    def __len__(self):
-        return len(self.val_users)
-    def __getitem__(self, idx):
-        user_idx = self.val_users[idx]
-        user = self.user_trajectory[user_idx]
-        if len(user["actions"]) <= self.max_context_len:
-            start = 0
-            end = -1
-        else:
-            end = -1
-            start = end - self.max_context_len
-        states = torch.tensor(
-            np.array(user["states"][start - (start < 0) : end]),
-            dtype=torch.float32,
-        )
-        actions = torch.tensor(user["actions"][start:end], dtype=torch.long)
-        rtgs = torch.zeros((end - start + 1 if start < 0 else len(user["actions"])))
-        rtgs[start:end] = torch.tensor(user["rtgs"][start:end], dtype=torch.float32)
-        rtgs[end] = 10
-        timesteps = len(user["actions"]) + start if start < 0 else 0
-        return states, actions, rtgs, timesteps, user_idx
-def pad_sequence(
-    sequences: Union[torch.Tensor, List[torch.Tensor]],
-    batch_first: bool = False,
-    padding_value: float = 0.0,
-    pos: str = "right",
-) -> torch.Tensor:
-    """
-    Pad sequence
-    """
-    if pos == "right":
-        padded_sequence = torch.nn.utils.rnn.pad_sequence(sequences, batch_first, padding_value)
-    elif pos == "left":
-        sequences = tuple(map(lambda s: s.flip(0), sequences))
-        padded_sequence = torch.nn.utils.rnn.pad_sequence(sequences, batch_first, padding_value)
-        _seq_dim = padded_sequence.dim()
-        padded_sequence = padded_sequence.flip(-_seq_dim + batch_first)
-    else:
-        raise ValueError(f"pos should be either 'right' or 'left', but got {pos}")
-    return padded_sequence
-# pylint: disable=too-few-public-methods
-class Collator:
-    """
-    Callable class to merge several items to one batch
-    """
-    def __init__(self, item_pad):
-        self.item_pad = item_pad
-    def __call__(self, batch):
-        states, actions, rtgs, timesteps, users_num = zip(*batch)
-        return (
-            pad_sequence(
-                states,
-                batch_first=True,
-                padding_value=self.item_pad,
-                pos="left",
-            ),
-            pad_sequence(
-                actions,
-                batch_first=True,
-                padding_value=self.item_pad,
-                pos="left",
-            ).unsqueeze(-1),
-            pad_sequence(rtgs, batch_first=True, padding_value=0, pos="left").unsqueeze(-1),
-            torch.tensor(timesteps).unsqueeze(-1).unsqueeze(-1),
-            torch.tensor(users_num).unsqueeze(-1),
-        )
-def matrix2df(matrix, users=None, items=None):
-    """
-    Creata DataFrame from matrix
-    """
-    HEADER = ["user_idx", "item_idx", "relevance"]
-    if users is None:
-        users = np.arange(matrix.shape[0])
-    else:
-        users = np.array(users.cpu())
-    if items is None:
-        items = np.arange(matrix.shape[1])
-    x1 = np.repeat(users, len(items))
-    x2 = np.tile(items, len(users))
-    x3 = np.array(matrix.cpu()).flatten()
-    return pd.DataFrame(np.array([x1, x2, x3]).T, columns=HEADER)
-class WarmUpScheduler(_LRScheduler):
-    """
-    Implementation of WarmUp
-    """
-    # pylint: disable=too-many-arguments
-    def __init__(
-        self,
-        optimizer: Optimizer,
-        dim_embed: int,
-        warmup_steps: int,
-        last_epoch: int = -1,
-        verbose: bool = False,
-    ) -> None:
-        self.dim_embed = dim_embed
-        self.warmup_steps = warmup_steps
-        self.num_param_groups = len(optimizer.param_groups)
-        super().__init__(optimizer, last_epoch, verbose)
-    def get_lr(self) -> float:
-        lr = calc_lr(self._step_count, self.dim_embed, self.warmup_steps)
-        return [lr] * self.num_param_groups
-def calc_lr(step, dim_embed, warmup_steps):
-    """
-    Learning rate calculation
-    """
-    return dim_embed ** (-0.5) * min(step ** (-0.5), step * warmup_steps ** (-1.5))
-# pylint: disable=too-many-arguments
-def create_dataset(
-    df, user_num, item_pad, time_col="timestamp", user_col="user_idx", item_col="item_idx", relevance_col="relevance"
-):
-    """
-    Create dataset from DataFrame
-    """
-    user_trajectory = [{} for _ in range(user_num)]
-    df = df.sort_values(by=time_col)
-    for user_idx in tqdm(range(user_num)):
-        user_trajectory[user_idx]["states"] = [[item_pad, item_pad, item_pad]]
-        user_trajectory[user_idx]["actions"] = []
-        user_trajectory[user_idx]["rewards"] = []
-        user = user_trajectory[user_idx]
-        user_df = df[df[user_col] == user_idx]
-        for _, row in user_df.iterrows():
-            action = row[item_col]
-            user["actions"].append(action)
-            if row[relevance_col] > 3:
-                user["rewards"].append(1)
-                user["states"].append([user["states"][-1][1], user["states"][-1][2], action])
-            else:
-                user["rewards"].append(0)
-                user["states"].append(user["states"][-1])
-        user["rtgs"] = np.cumsum(user["rewards"][::-1])[::-1]
-        for key in user:
-            user[key] = np.array(user[key])
-    return user_trajectory
-# For debug
-# pylint: disable=too-many-locals
-def fast_create_dataset(
-    df,
-    user_num,
-    item_pad,
-    time_field="timestamp",
-    user_field="user_idx",
-    item_field="item_idx",
-    relevance_field="relevance",
-):
-    """
-    Create dataset from DataFrame
-    """
-    user_trajectory = [{} for _ in range(user_num)]
-    df = df.sort_values(by=time_field)
-    for user_idx in tqdm(range(user_num)):
-        user_trajectory[user_idx]["states"] = [[item_pad, item_pad, item_pad]]
-        user_trajectory[user_idx]["actions"] = []
-        user_trajectory[user_idx]["rewards"] = []
-        user = user_trajectory[user_idx]
-        user_df = df[df[user_field] == user_idx]
-        for idx, (_, row) in enumerate(user_df.iterrows()):
-            if idx >= 35:
-                break
-            action = row[item_field]
-            user["actions"].append(action)
-            if row[relevance_field] > 3:
-                user["rewards"].append(1)
-                user["states"].append([user["states"][-1][1], user["states"][-1][2], action])
-            else:
-                user["rewards"].append(0)
-                user["states"].append(user["states"][-1])
-        user["rtgs"] = np.cumsum(user["rewards"][::-1])[::-1]
-        for key in user:
-            user[key] = np.array(user[key])
-    return user_trajectory

replay/experimental/models/extensions/spark_custom_models/__init__.py DELETED Viewed

File without changes

replay-rec 0.16.0rc0__py3-none-any.whl → 0.17.0__py3-none-any.whl

replay-rec 0.16.0rc0py3-none-any.whl → 0.17.0py3-none-any.whl