PyPI - replay-rec - Versions diffs - 0.20.3rc0__py3-none-any.whl → 0.21.0__py3-none-any.whl - Mend

replay-rec 0.20.3rc0py3-none-any.whl → 0.21.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (169) hide show

replay/__init__.py +1 -1
replay/data/dataset.py +11 -0
replay/data/nn/__init__.py +3 -0
replay/data/nn/parquet/__init__.py +22 -0
replay/data/nn/parquet/collate.py +29 -0
replay/data/nn/parquet/constants/batches.py +8 -0
replay/data/nn/parquet/constants/device.py +3 -0
replay/data/nn/parquet/constants/filesystem.py +3 -0
replay/data/nn/parquet/constants/metadata.py +5 -0
replay/data/nn/parquet/fixed_batch_dataset.py +157 -0
replay/data/nn/parquet/impl/array_1d_column.py +140 -0
replay/data/nn/parquet/impl/array_2d_column.py +160 -0
replay/data/nn/parquet/impl/column_protocol.py +17 -0
replay/data/nn/parquet/impl/indexing.py +123 -0
replay/data/nn/parquet/impl/masking.py +20 -0
replay/data/nn/parquet/impl/named_columns.py +100 -0
replay/data/nn/parquet/impl/numeric_column.py +110 -0
replay/data/nn/parquet/impl/utils.py +17 -0
replay/data/nn/parquet/info/distributed_info.py +40 -0
replay/data/nn/parquet/info/partitioning.py +132 -0
replay/data/nn/parquet/info/replicas.py +67 -0
replay/data/nn/parquet/info/worker_info.py +43 -0
replay/data/nn/parquet/iterable_dataset.py +119 -0
replay/data/nn/parquet/iterator.py +61 -0
replay/data/nn/parquet/metadata/__init__.py +19 -0
replay/data/nn/parquet/metadata/metadata.py +116 -0
replay/data/nn/parquet/parquet_dataset.py +176 -0
replay/data/nn/parquet/parquet_module.py +178 -0
replay/data/nn/parquet/partitioned_iterable_dataset.py +56 -0
replay/data/nn/parquet/utils/compute_length.py +66 -0
replay/data/nn/schema.py +12 -14
replay/data/nn/sequence_tokenizer.py +5 -0
replay/data/nn/sequential_dataset.py +4 -0
replay/data/nn/torch_sequential_dataset.py +5 -0
replay/data/utils/batching.py +69 -0
replay/data/utils/typing/__init__.py +0 -0
replay/data/utils/typing/dtype.py +65 -0
replay/metrics/torch_metrics_builder.py +20 -14
replay/models/nn/loss/sce.py +2 -7
replay/models/nn/optimizer_utils/__init__.py +6 -1
replay/models/nn/optimizer_utils/optimizer_factory.py +15 -0
replay/models/nn/sequential/bert4rec/dataset.py +70 -29
replay/models/nn/sequential/bert4rec/lightning.py +97 -36
replay/models/nn/sequential/bert4rec/model.py +11 -11
replay/models/nn/sequential/callbacks/prediction_callbacks.py +50 -8
replay/models/nn/sequential/callbacks/validation_callback.py +23 -6
replay/models/nn/sequential/compiled/base_compiled_model.py +12 -4
replay/models/nn/sequential/compiled/bert4rec_compiled.py +15 -5
replay/models/nn/sequential/compiled/sasrec_compiled.py +16 -7
replay/models/nn/sequential/postprocessors/_base.py +5 -0
replay/models/nn/sequential/postprocessors/postprocessors.py +4 -0
replay/models/nn/sequential/sasrec/dataset.py +81 -26
replay/models/nn/sequential/sasrec/lightning.py +86 -24
replay/models/nn/sequential/sasrec/model.py +14 -9
replay/nn/__init__.py +8 -0
replay/nn/agg.py +109 -0
replay/nn/attention.py +158 -0
replay/nn/embedding.py +283 -0
replay/nn/ffn.py +135 -0
replay/nn/head.py +49 -0
replay/nn/lightning/__init__.py +1 -0
replay/nn/lightning/callback/__init__.py +9 -0
replay/nn/lightning/callback/metrics_callback.py +183 -0
replay/nn/lightning/callback/predictions_callback.py +314 -0
replay/nn/lightning/module.py +123 -0
replay/nn/lightning/optimizer.py +60 -0
replay/nn/lightning/postprocessor/__init__.py +2 -0
replay/nn/lightning/postprocessor/_base.py +51 -0
replay/nn/lightning/postprocessor/seen_items.py +83 -0
replay/nn/lightning/scheduler.py +91 -0
replay/nn/loss/__init__.py +22 -0
replay/nn/loss/base.py +197 -0
replay/nn/loss/bce.py +216 -0
replay/nn/loss/ce.py +317 -0
replay/nn/loss/login_ce.py +373 -0
replay/nn/loss/logout_ce.py +230 -0
replay/nn/mask.py +87 -0
replay/nn/normalization.py +9 -0
replay/nn/output.py +37 -0
replay/nn/sequential/__init__.py +9 -0
replay/nn/sequential/sasrec/__init__.py +7 -0
replay/nn/sequential/sasrec/agg.py +53 -0
replay/nn/sequential/sasrec/diff_transformer.py +125 -0
replay/nn/sequential/sasrec/model.py +377 -0
replay/nn/sequential/sasrec/transformer.py +107 -0
replay/nn/sequential/twotower/__init__.py +2 -0
replay/nn/sequential/twotower/model.py +674 -0
replay/nn/sequential/twotower/reader.py +89 -0
replay/nn/transform/__init__.py +22 -0
replay/nn/transform/copy.py +38 -0
replay/nn/transform/grouping.py +39 -0
replay/nn/transform/negative_sampling.py +182 -0
replay/nn/transform/next_token.py +100 -0
replay/nn/transform/rename.py +33 -0
replay/nn/transform/reshape.py +41 -0
replay/nn/transform/sequence_roll.py +48 -0
replay/nn/transform/template/__init__.py +2 -0
replay/nn/transform/template/sasrec.py +53 -0
replay/nn/transform/template/twotower.py +22 -0
replay/nn/transform/token_mask.py +69 -0
replay/nn/transform/trim.py +51 -0
replay/nn/utils.py +28 -0
replay/preprocessing/filters.py +128 -0
replay/preprocessing/label_encoder.py +36 -33
replay/preprocessing/utils.py +209 -0
replay/splitters/__init__.py +1 -0
replay/splitters/random_next_n_splitter.py +224 -0
replay/utils/common.py +10 -4
{replay_rec-0.20.3rc0.dist-info → replay_rec-0.21.0.dist-info}/METADATA +18 -12
replay_rec-0.21.0.dist-info/RECORD +223 -0
replay/experimental/metrics/__init__.py +0 -62
replay/experimental/metrics/base_metric.py +0 -603
replay/experimental/metrics/coverage.py +0 -97
replay/experimental/metrics/experiment.py +0 -175
replay/experimental/metrics/hitrate.py +0 -26
replay/experimental/metrics/map.py +0 -30
replay/experimental/metrics/mrr.py +0 -18
replay/experimental/metrics/ncis_precision.py +0 -31
replay/experimental/metrics/ndcg.py +0 -49
replay/experimental/metrics/precision.py +0 -22
replay/experimental/metrics/recall.py +0 -25
replay/experimental/metrics/rocauc.py +0 -49
replay/experimental/metrics/surprisal.py +0 -90
replay/experimental/metrics/unexpectedness.py +0 -76
replay/experimental/models/__init__.py +0 -50
replay/experimental/models/admm_slim.py +0 -257
replay/experimental/models/base_neighbour_rec.py +0 -200
replay/experimental/models/base_rec.py +0 -1386
replay/experimental/models/base_torch_rec.py +0 -234
replay/experimental/models/cql.py +0 -454
replay/experimental/models/ddpg.py +0 -932
replay/experimental/models/dt4rec/dt4rec.py +0 -189
replay/experimental/models/dt4rec/gpt1.py +0 -401
replay/experimental/models/dt4rec/trainer.py +0 -127
replay/experimental/models/dt4rec/utils.py +0 -264
replay/experimental/models/extensions/spark_custom_models/als_extension.py +0 -792
replay/experimental/models/hierarchical_recommender.py +0 -331
replay/experimental/models/implicit_wrap.py +0 -131
replay/experimental/models/lightfm_wrap.py +0 -303
replay/experimental/models/mult_vae.py +0 -332
replay/experimental/models/neural_ts.py +0 -986
replay/experimental/models/neuromf.py +0 -406
replay/experimental/models/scala_als.py +0 -293
replay/experimental/models/u_lin_ucb.py +0 -115
replay/experimental/nn/data/__init__.py +0 -1
replay/experimental/nn/data/schema_builder.py +0 -102
replay/experimental/preprocessing/__init__.py +0 -3
replay/experimental/preprocessing/data_preparator.py +0 -839
replay/experimental/preprocessing/padder.py +0 -229
replay/experimental/preprocessing/sequence_generator.py +0 -208
replay/experimental/scenarios/__init__.py +0 -1
replay/experimental/scenarios/obp_wrapper/__init__.py +0 -8
replay/experimental/scenarios/obp_wrapper/obp_optuna_objective.py +0 -74
replay/experimental/scenarios/obp_wrapper/replay_offline.py +0 -261
replay/experimental/scenarios/obp_wrapper/utils.py +0 -85
replay/experimental/scenarios/two_stages/reranker.py +0 -117
replay/experimental/scenarios/two_stages/two_stages_scenario.py +0 -757
replay/experimental/utils/logger.py +0 -24
replay/experimental/utils/model_handler.py +0 -186
replay/experimental/utils/session_handler.py +0 -44
replay_rec-0.20.3rc0.dist-info/RECORD +0 -193
/replay/{experimental → data/nn/parquet/constants}/__init__.py +0 -0
/replay/{experimental/models/dt4rec → data/nn/parquet/impl}/__init__.py +0 -0
/replay/{experimental/models/extensions/spark_custom_models → data/nn/parquet/info}/__init__.py +0 -0
/replay/{experimental/scenarios/two_stages → data/nn/parquet/utils}/__init__.py +0 -0
/replay/{experimental → data}/utils/__init__.py +0 -0
{replay_rec-0.20.3rc0.dist-info → replay_rec-0.21.0.dist-info}/WHEEL +0 -0
{replay_rec-0.20.3rc0.dist-info → replay_rec-0.21.0.dist-info}/licenses/LICENSE +0 -0
{replay_rec-0.20.3rc0.dist-info → replay_rec-0.21.0.dist-info}/licenses/NOTICE +0 -0

replay/data/nn/parquet/partitioned_iterable_dataset.py ADDED Viewed

@@ -0,0 +1,56 @@
+from collections.abc import Iterable, Iterator
+from typing import Optional
+import torch
+import torch.utils.data as data
+from replay.data.nn.parquet import DEFAULT_REPLICAS_INFO
+from .impl.named_columns import NamedColumns
+from .info.replicas import ReplicasInfoProtocol
+from .iterable_dataset import IterableDataset
+Batch = dict[str, torch.Tensor]
+class PartitionedIterableDataset(data.IterableDataset):
+    """
+    A dataset that implements iteration over partitioned data.
+    This implementation allows large amounts of data to be processed in batch-wise mode,
+    which is especially useful when used in distributed training.
+    """
+    def __init__(
+        self,
+        iterable: Iterable[NamedColumns],
+        batch_size: int,
+        generator: Optional[torch.Generator] = None,
+        replicas_info: ReplicasInfoProtocol = DEFAULT_REPLICAS_INFO,
+    ) -> None:
+        """
+        :param iterable: An iterable object that returns data partitions.
+        :param batch_size: Batch size.
+        :param generator: Random number generator for batch shuffling.
+            If ``None``, shuffling will be disabled. Default: ``None``.
+        :param replicas_info: A connector object capable of fetching total replica count and replica id during runtime.
+            Default: value of ``DEFAULT_REPLICAS_INFO`` - a pre-built connector which assumes standard Torch DDP mode.
+        """
+        super().__init__()
+        self.iterable = iterable
+        self.batch_size = batch_size
+        self.generator = generator
+        self.replicas_info = replicas_info
+    def __iter__(self) -> Iterator[Batch]:
+        for partition in iter(self.iterable):
+            iterable = IterableDataset(
+                named_columns=partition,
+                generator=self.generator,
+                batch_size=self.batch_size,
+                replicas_info=self.replicas_info,
+            )
+            yield from iter(iterable)

replay/data/nn/parquet/utils/compute_length.py ADDED Viewed

@@ -0,0 +1,66 @@
+import warnings
+from collections.abc import Iterable
+from typing import Protocol
+from replay.data.nn.parquet.info.partitioning import partitioning_per_replica
+from replay.data.nn.parquet.iterator import BatchesIterator
+class HasLengthProtocol(Protocol):
+    def __len__(self) -> int: ...
+def compute_fixed_size_generic_length_from_sizes(
+    partition_sizes: Iterable[int], batch_size: int, num_replicas: int
+) -> int:
+    residue = 0
+    batch_counter = 0
+    for partition_size in partition_sizes:
+        per_replica = partitioning_per_replica(partition_size, num_replicas)
+        batch_count = per_replica // batch_size
+        residue += per_replica % batch_size
+        if batch_size < residue:
+            batch_count += residue // batch_size
+            residue = residue % batch_size
+        batch_counter += batch_count
+    batch_counter += residue > 0
+    return batch_counter
+def compute_fixed_size_batches_length(iterable: BatchesIterator, batch_size: int, num_replicas: int) -> int:
+    assert isinstance(iterable, BatchesIterator)
+    partition_size = iterable.batch_size
+    def default_partitions(fragment_size: int) -> list[int]:
+        full_partitions_count = fragment_size // partition_size
+        result = [partition_size] * full_partitions_count
+        if (residue := (fragment_size % partition_size)) > 0:
+            result.append(residue)
+        return result
+    partition_sizes = []
+    for fragment in iterable.dataset.get_fragments():
+        fragment_size = fragment.count_rows()
+        partitions = default_partitions(fragment_size)
+        partition_sizes.extend(partitions)
+    result = compute_fixed_size_generic_length_from_sizes(
+        partition_sizes=partition_sizes,
+        num_replicas=num_replicas,
+        batch_size=batch_size,
+    )
+    return result
+def compute_fixed_size_generic_length(iterable: Iterable[HasLengthProtocol], batch_size: int, num_replicas: int) -> int:
+    warnings.warn("Generic length computation. This may cause performance issues.", UserWarning, stacklevel=2)
+    return compute_fixed_size_generic_length_from_sizes(map(len, iterable), batch_size, num_replicas)
+def compute_fixed_size_length(iterable: Iterable[HasLengthProtocol], batch_size: int, num_replicas: int) -> int:
+    if isinstance(iterable, BatchesIterator):
+        return compute_fixed_size_batches_length(iterable, batch_size, num_replicas)
+    else:
+        return compute_fixed_size_generic_length(iterable, batch_size, num_replicas)

replay/data/nn/schema.py CHANGED Viewed

@@ -86,12 +86,14 @@ class TensorFeatureInfo:
             default: ``None``.
         :param feature_sources: columns names and DataFrames feature came from,
             default: ``None``.
-        :param cardinality: cardinality of categorical feature, required for ids columns,
-            optional for others,
-            default: ``None``.
-        :param padding_value: value to pad sequences to desired length
-        :param embedding_dim: embedding dimensions of categorical feature,
-            default: ``None``.
+        :param cardinality: cardinality of categorical feature.
+            number of unique items in vocabulary (catalog).
+            The specified cardinality value must not take into account the padding value.
+            Default: ``None``.
+        :param padding_value: value to pad sequences to desired length.
+            It is recommended to set the padding value for categorical features in the `cardinality` value.
+        :param embedding_dim: embedding dimensions of the feature.
+            Default: ``None`` - it means will be used value of ``DEFAULT_EMBEDDING_DIM``.
         :param tensor_dim: tensor dimensions of numerical feature,
             default: ``None``.
         """
@@ -106,8 +108,8 @@ class TensorFeatureInfo:
             raise ValueError(msg)
         self._feature_type = feature_type
-        if feature_type in [FeatureType.NUMERICAL, FeatureType.NUMERICAL_LIST] and (cardinality or embedding_dim):
-            msg = "Cardinality and embedding dimensions are needed only with categorical feature type."
+        if feature_type in [FeatureType.NUMERICAL, FeatureType.NUMERICAL_LIST] and cardinality is not None:
+            msg = "Cardinality is needed only with categorical feature type."
             raise ValueError(msg)
         self._cardinality = cardinality
@@ -115,9 +117,8 @@ class TensorFeatureInfo:
             msg = "Tensor dimensions is needed only with numerical feature type."
             raise ValueError(msg)
-        if feature_type in [FeatureType.CATEGORICAL, FeatureType.CATEGORICAL_LIST]:
-            self._embedding_dim = embedding_dim or self.DEFAULT_EMBEDDING_DIM
-        else:
+        self._embedding_dim = embedding_dim or self.DEFAULT_EMBEDDING_DIM
+        if feature_type in [FeatureType.NUMERICAL, FeatureType.NUMERICAL_LIST]:
             self._tensor_dim = tensor_dim
     @property
@@ -236,9 +237,6 @@ class TensorFeatureInfo:
         """
         :returns: Embedding dimensions of the feature.
         """
-        if not self.is_cat:
-            msg = f"Can not get embedding dimensions because feature type of {self.name} feature is not categorical."
-            raise RuntimeError(msg)
         return self._embedding_dim
     def _set_embedding_dim(self, embedding_dim: int) -> None:

replay/data/nn/sequence_tokenizer.py CHANGED Viewed

@@ -10,6 +10,7 @@ import numpy as np
 import polars as pl
 from pandas import DataFrame as PandasDataFrame
 from polars import DataFrame as PolarsDataFrame
+from typing_extensions import deprecated
 from replay.data import Dataset, FeatureHint, FeatureSchema, FeatureSource, FeatureType
 from replay.data.dataset_utils import DatasetLabelEncoder
@@ -24,6 +25,7 @@ SequenceDataFrameLike = Union[PandasDataFrame, PolarsDataFrame]
 _T = TypeVar("_T")
+@deprecated("`SequenceTokenizer` class is deprecated.")
 class SequenceTokenizer:
     """
     Data tokenizer for transformers;
@@ -507,6 +509,7 @@ class SequenceTokenizer:
                 pickle.dump(self, file)
+@deprecated("`_BaseSequenceProcessor` class is deprecated.", stacklevel=2)
 class _BaseSequenceProcessor(Generic[_T]):
     """
     Base class for sequence processing
@@ -600,6 +603,7 @@ class _BaseSequenceProcessor(Generic[_T]):
         pass
+@deprecated("`_PandasSequenceProcessor` class is deprecated.", stacklevel=2)
 class _PandasSequenceProcessor(_BaseSequenceProcessor[PandasDataFrame]):
     """
     Class to process sequences of different categorical and numerical features.
@@ -780,6 +784,7 @@ class _PandasSequenceProcessor(_BaseSequenceProcessor[PandasDataFrame]):
         return values
+@deprecated("`_PolarsSequenceProcessor` class is deprecated.", stacklevel=2)
 class _PolarsSequenceProcessor(_BaseSequenceProcessor[PolarsDataFrame]):
     """
     Class to process sequences of different categorical and numerical features.

replay/data/nn/sequential_dataset.py CHANGED Viewed

@@ -8,11 +8,13 @@ import pandas as pd
 import polars as pl
 from pandas import DataFrame as PandasDataFrame
 from polars import DataFrame as PolarsDataFrame
+from typing_extensions import deprecated
 if TYPE_CHECKING:
     from .schema import TensorSchema
+@deprecated("`SequentialDataset` class is deprecated.", stacklevel=2)
 class SequentialDataset(abc.ABC):
     """
     Abstract base class for sequential dataset
@@ -138,6 +140,7 @@ class SequentialDataset(abc.ABC):
         return df_converted
+@deprecated("`PandasSequentialDataset` class is deprecated.")
 class PandasSequentialDataset(SequentialDataset):
     """
     Sequential dataset that stores sequences in PandasDataFrame format.
@@ -234,6 +237,7 @@ class PandasSequentialDataset(SequentialDataset):
         return dataset
+@deprecated("`PolarsSequentialDataset` class is deprecated.")
 class PolarsSequentialDataset(PandasSequentialDataset):
     """
     Sequential dataset that stores sequences in PolarsDataFrame format.

replay/data/nn/torch_sequential_dataset.py CHANGED Viewed

@@ -5,6 +5,7 @@ from typing import TYPE_CHECKING, NamedTuple, Optional, Union, cast
 import numpy as np
 import torch
 from torch.utils.data import Dataset as TorchDataset
+from typing_extensions import deprecated
 if TYPE_CHECKING:
     from .schema import TensorFeatureInfo, TensorMap, TensorSchema
@@ -13,6 +14,7 @@ if TYPE_CHECKING:
 # We do not use dataclasses as PyTorch default collate
 # function in dataloader supports only namedtuple
+@deprecated("`TorchSequentialBatch` class is deprecated.", stacklevel=2)
 class TorchSequentialBatch(NamedTuple):
     """
     Batch of TorchSequentialDataset
@@ -23,6 +25,7 @@ class TorchSequentialBatch(NamedTuple):
     features: "TensorMap"
+@deprecated("`TorchSequentialDataset` class is deprecated.")
 class TorchSequentialDataset(TorchDataset):
     """
     Torch dataset for sequential recommender models
@@ -160,6 +163,7 @@ class TorchSequentialDataset(TorchDataset):
                 yield (i, offset_from_seq_beginning)
+@deprecated("`TorchSequentialValidationBatch` class is deprecated.", stacklevel=2)
 class TorchSequentialValidationBatch(NamedTuple):
     """
     Batch of TorchSequentialValidationDataset
@@ -176,6 +180,7 @@ DEFAULT_GROUND_TRUTH_PADDING_VALUE = -1
 DEFAULT_TRAIN_PADDING_VALUE = -2
+@deprecated("`TorchSequentialValidationDataset` class is deprecated.")
 class TorchSequentialValidationDataset(TorchDataset):
     """
     Torch dataset for sequential recommender models that additionally stores ground truth

replay/data/utils/batching.py ADDED Viewed

@@ -0,0 +1,69 @@
+from functools import lru_cache
+from typing import Iterator, Tuple
+def validate_length(length: int) -> int:
+    if length < 1:
+        msg: str = f"Length is invalid. Got {length}."
+        raise ValueError(msg)
+    return length
+def validate_batch_size(batch_size: int) -> int:
+    if batch_size < 1:
+        msg: str = f"Batch Size is invalid. Got {batch_size}."
+        raise ValueError(msg)
+    return batch_size
+def validate_input(length: int, batch_size: int) -> Tuple[int, int]:
+    length = validate_length(length)
+    batch_size = validate_batch_size(batch_size)
+    return (length, batch_size)
+def uniform_batch_count(length: int, batch_size: int) -> int:
+    @lru_cache
+    def _uniform_batch_count(length: int, batch_size: int) -> int:
+        length, batch_size = validate_input(length, batch_size)
+        batch_count: int = length // batch_size
+        batch_count = batch_count + bool(length % batch_size)
+        assert batch_count >= 1
+        assert length <= batch_count * batch_size
+        assert (batch_count - 1) * batch_size < length
+        return batch_count
+    return _uniform_batch_count(length, batch_size)
+class UniformBatching:
+    def __init__(self, length: int, batch_size: int) -> None:
+        length, batch_size = validate_input(length, batch_size)
+        self.length: int = length
+        self.batch_size: int = batch_size
+    @property
+    def batch_count(self) -> int:
+        return uniform_batch_count(self.length, self.batch_size)
+    def __len__(self) -> int:
+        return self.batch_count
+    def get_limits(self, index: int) -> Tuple[int, int]:
+        if (index < 0) or (self.batch_count <= index):
+            msg: str = f"Batching Index is invalid. Got {index}."
+            raise IndexError(msg)
+        first: int = index * self.batch_size
+        last: int = min(self.length, first + self.batch_size)
+        assert (first >= 0) and (first < self.length)
+        assert (first < last) and (last <= self.length)
+        return (first, last)
+    def __getitem__(self, index: int) -> Tuple[int, int]:
+        return self.get_limits(index)
+    def __iter__(self) -> Iterator[Tuple[int, int]]:
+        index: int
+        for index in range(self.batch_count):
+            yield self.get_limits(index)

replay/data/utils/typing/__init__.py ADDED Viewed

File without changes

replay/data/utils/typing/dtype.py ADDED Viewed

@@ -0,0 +1,65 @@
+from functools import lru_cache
+import numpy as np
+import pyarrow as pa
+import torch
+@lru_cache
+def _torch_to_numpy(dtype: torch.dtype) -> np.dtype:
+    exemplar: torch.Tensor = torch.asarray([0], dtype=dtype)
+    return exemplar.numpy().dtype
+def torch_to_numpy(dtype: torch.dtype) -> np.dtype:
+    return _torch_to_numpy(dtype)
+@lru_cache
+def _numpy_to_torch(dtype: np.dtype) -> torch.dtype:
+    exemplar: np.ndarray = np.asarray([0], dtype=dtype)
+    return torch.from_numpy(exemplar).dtype
+def numpy_to_torch(dtype: np.dtype) -> torch.dtype:
+    return _numpy_to_torch(dtype)
+@lru_cache
+def _pyarrow_to_numpy(dtype: pa.DataType) -> np.dtype:
+    exemplar: pa.Array = pa.array([0], type=dtype)
+    return exemplar.to_numpy().dtype
+def pyarrow_to_numpy(dtype: pa.DataType) -> np.dtype:
+    return _pyarrow_to_numpy(dtype)
+@lru_cache
+def _numpy_to_pyarrow(dtype: np.dtype) -> pa.DataType:
+    exemplar: np.ndarray = np.asarray([0], dtype=dtype)
+    return pa.array(exemplar).type
+def numpy_to_pyarrow(dtype: np.dtype) -> pa.DataType:
+    return _numpy_to_pyarrow(dtype)
+@lru_cache
+def _torch_to_pyarrow(dtype: torch.dtype) -> pa.DataType:
+    np_dtype: np.dtype = torch_to_numpy(dtype)
+    return numpy_to_pyarrow(np_dtype)
+def torch_to_pyarrow(dtype: torch.dtype) -> pa.DataType:
+    return _torch_to_pyarrow(dtype)
+@lru_cache
+def _pyarrow_to_torch(dtype: pa.DataType) -> torch.dtype:
+    np_dtype: np.dtype = pyarrow_to_numpy(dtype)
+    return numpy_to_torch(np_dtype)
+def pyarrow_to_torch(dtype: pa.DataType) -> torch.dtype:
+    return _pyarrow_to_torch(dtype)

replay/metrics/torch_metrics_builder.py CHANGED Viewed

@@ -139,7 +139,9 @@ class _CoverageHelper:
         """
         self._ensure_hists_on_device(train.device)
         flatten_train = train.flatten()
-        filtered_train = torch.masked_select(flatten_train, flatten_train != -2)
+        filtered_train = torch.masked_select(
+            flatten_train, ((flatten_train >= 0) & (flatten_train <= self.item_count - 1))
+        )
         self._train_hist += torch.histc(filtered_train.float(), bins=self.item_count, min=0, max=self.item_count - 1)
     def get_metrics(self) -> Mapping[str, float]:
@@ -193,7 +195,7 @@ class _MetricBuilder(abc.ABC):
 class TorchMetricsBuilder(_MetricBuilder):
     """
-    Computes specified metrics over multiple batches
+    Computes specified metrics over multiple batches.
     """
     def __init__(
@@ -203,12 +205,12 @@ class TorchMetricsBuilder(_MetricBuilder):
         item_count: Optional[int] = None,
     ) -> None:
         """
-        :param metrics: (list[MetricName]): Names of metrics to calculate.
-            Default: `["map", "ndcg", "recall"]`.
-        :param top_k: (list): Consider the highest k scores in the ranking.
-            Default: `[1, 5, 10, 20]`.
-        :param item_count: (optional, int): the total number of items in the dataset.
-            You can omit this parameter if you don't need to calculate the Coverage metric.
+        :param metrics: Names of metrics to calculate.
+            Default: ``["map", "ndcg", "recall"]``.
+        :param top_k: Consider the highest k scores in the ranking.
+            Default: ``[1, 5, 10, 20]``.
+        :param item_count: the total number of items in the dataset.
+            You can omit this parameter if you don't need to calculate the ``Coverage`` metric.
         """
         self._mr = _MetricRequirements.from_metrics(
             set(metrics),
@@ -272,12 +274,16 @@ class TorchMetricsBuilder(_MetricBuilder):
         """
         Add a batch with predictions, ground truth and train set to calculate the metrics.
-        :param predictions: (torch.LongTensor): A batch with the same number of recommendations for each user.
-        :param ground_truth: (torch.LongTensor): A batch corresponding to the test set for each user.
-            If users have a test set of different sizes then you need to do the padding using -1.
-        :param train: (optional, int): A batch corresponding to the train set for each user.
-            If users have a train set of different sizes then you need to do the padding using -2.
-            You can omit this parameter if you don't need to calculate the coverage or novelty metrics.
+        :param predictions: A batch with the same number of recommendations for each user.
+        :param ground_truth: A batch corresponding to the test set for each user.
+            If users have a test set of different sizes then you need to do
+            the padding using a value that is not found in the item ID's.
+            For example, these can be negative values.
+        :param train: A batch corresponding to the train set for each user.
+            If users have a train set of different sizes then you need to do
+            the padding using a value that is not found in the item ID's and ``ground_truth``.
+            For example, these can be negative values.
+            You can omit this parameter if you don't need to calculate the ``coverage`` or ``novelty`` metrics.
         """
         self._ensure_constants_on_device(predictions.device)
         metrics_sum = np.array(self._compute_metrics_sum(predictions, ground_truth, train), dtype=np.float64)

replay/models/nn/loss/sce.py CHANGED Viewed

@@ -6,9 +6,9 @@ import torch
 @dataclass(frozen=True)
 class SCEParams:
-    """Set of parameters for ScalableCrossEntropyLoss.
+    """
+    Set of parameters for ScalableCrossEntropyLoss.
-    Constructor arguments:
     :param n_buckets: Number of buckets into which samples will be distributed.
     :param bucket_size_x: Number of item hidden representations that will be in each bucket.
     :param bucket_size_y: Number of item embeddings that will be in each bucket.
@@ -33,11 +33,6 @@ class ScalableCrossEntropyLoss:
         :param SCEParams: Dataclass with ScalableCrossEntropyLoss parameters.
             Dataclass contains following values:
-                :param n_buckets: Number of buckets into which samples will be distributed.
-                :param bucket_size_x: Number of item hidden representations that will be in each bucket.
-                :param bucket_size_y: Number of item embeddings that will be in each bucket.
-                :param mix_x: Whether a randomly generated matrix will be multiplied by the model output matrix or not.
-                    Default: ``False``.
         """
         assert all(
             param is not None for param in sce_params._get_not_none_params()

replay/models/nn/optimizer_utils/__init__.py CHANGED Viewed

@@ -1,4 +1,9 @@
 from replay.utils import TORCH_AVAILABLE
 if TORCH_AVAILABLE:
-    from .optimizer_factory import FatLRSchedulerFactory, FatOptimizerFactory, LRSchedulerFactory, OptimizerFactory
+    from .optimizer_factory import (
+        FatLRSchedulerFactory,
+        FatOptimizerFactory,
+        LRSchedulerFactory,
+        OptimizerFactory,
+    )

replay/models/nn/optimizer_utils/optimizer_factory.py CHANGED Viewed

@@ -2,8 +2,13 @@ import abc
 from collections.abc import Iterator
 import torch
+from typing_extensions import deprecated
+@deprecated(
+    "`OptimizerFactory` class is deprecated. Use `replay.nn.lightning.optimizer.BaseOptimizerFactory` instead.",
+    stacklevel=2,
+)
 class OptimizerFactory(abc.ABC):
     """
     Interface for optimizer factory
@@ -20,6 +25,10 @@ class OptimizerFactory(abc.ABC):
         """
+@deprecated(
+    "`LRSchedulerFactory` class is deprecated. Use `replay.nn.lightning.scheduler.BaseLRSchedulerFactory` instead.",
+    stacklevel=2,
+)
 class LRSchedulerFactory(abc.ABC):
     """
     Interface for learning rate scheduler factory
@@ -36,6 +45,9 @@ class LRSchedulerFactory(abc.ABC):
         """
+@deprecated(
+    "`FatOptimizerFactory` class is deprecated. Use `replay.nn.lightning.optimizer.OptimizerFactory` instead.",
+)
 class FatOptimizerFactory(OptimizerFactory):
     """
     Factory that creates optimizer depending on passed parameters
@@ -75,6 +87,9 @@ class FatOptimizerFactory(OptimizerFactory):
         raise ValueError(msg)
+@deprecated(
+    "`FatLRSchedulerFactory` class is deprecated. Use `replay.nn.lightning.scheduler.LRSchedulerFactory` instead.",
+)
 class FatLRSchedulerFactory(LRSchedulerFactory):
     """
     Factory that creates learning rate schedule depending on passed parameters

replay-rec 0.20.3rc0__py3-none-any.whl → 0.21.0__py3-none-any.whl

replay-rec 0.20.3rc0py3-none-any.whl → 0.21.0py3-none-any.whl