PyPI - replay-rec - Versions diffs - 0.20.0__tar.gz → 0.20.0rc0__tar.gz - Mend

replay-rec 0.20.0tar.gz → 0.20.0rc0tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (194) hide show

{replay_rec-0.20.0 → replay_rec-0.20.0rc0}/PKG-INFO RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: replay-rec
-Version: 0.20.0
+Version: 0.20.0rc0
 Summary: RecSys Library
 License-Expression: Apache-2.0
 License-File: LICENSE
@@ -14,29 +14,23 @@ Classifier: Intended Audience :: Developers
 Classifier: Intended Audience :: Science/Research
 Classifier: Natural Language :: English
 Classifier: Topic :: Scientific/Engineering :: Artificial Intelligence
-Provides-Extra: spark
-Provides-Extra: torch
-Provides-Extra: torch-cpu
-Requires-Dist: lightning (<2.6.0) ; extra == "torch" or extra == "torch-cpu"
-Requires-Dist: lightning ; extra == "torch"
-Requires-Dist: lightning ; extra == "torch-cpu"
+Requires-Dist: d3rlpy (>=2.8.1,<2.9)
+Requires-Dist: implicit (>=0.7.2,<0.8)
+Requires-Dist: lightautoml (>=0.4.1,<0.5)
+Requires-Dist: lightning (>=2.0.2,<=2.4.0)
+Requires-Dist: numba (>=0.50,<1)
 Requires-Dist: numpy (>=1.20.0,<2)
 Requires-Dist: pandas (>=1.3.5,<2.4.0)
 Requires-Dist: polars (<2.0)
-Requires-Dist: psutil (<=7.0.0) ; extra == "spark"
-Requires-Dist: psutil ; extra == "spark"
+Requires-Dist: psutil (<=7.0.0)
 Requires-Dist: pyarrow (<22.0)
-Requires-Dist: pyspark (>=3.0,<3.5) ; extra == "spark"
-Requires-Dist: pyspark ; extra == "spark"
-Requires-Dist: pytorch-optimizer (>=3.8.0,<3.9.0) ; extra == "torch" or extra == "torch-cpu"
-Requires-Dist: pytorch-optimizer ; extra == "torch"
-Requires-Dist: pytorch-optimizer ; extra == "torch-cpu"
+Requires-Dist: pyspark (>=3.0,<3.5)
+Requires-Dist: pytorch-optimizer (>=3.8.0,<4)
+Requires-Dist: sb-obp (>=0.5.10,<0.6)
 Requires-Dist: scikit-learn (>=1.6.1,<1.7.0)
 Requires-Dist: scipy (>=1.13.1,<1.14)
 Requires-Dist: setuptools
-Requires-Dist: torch (>=1.8,<3.0.0) ; extra == "torch" or extra == "torch-cpu"
-Requires-Dist: torch ; extra == "torch"
-Requires-Dist: torch ; extra == "torch-cpu"
+Requires-Dist: torch (>=1.8,<3.0.0)
 Requires-Dist: tqdm (>=4.67,<5)
 Project-URL: Homepage, https://sb-ai-lab.github.io/RePlay/
 Project-URL: Repository, https://github.com/sb-ai-lab/RePlay
@@ -245,6 +239,12 @@ pip install openvino onnx
 pip install hnswlib fixed-install-nmslib
 ```
+4) (Experimental) LightFM model support:
+```bash
+pip install ligfhtfm
+```
+> **_NOTE_** : LightFM is not officially supported for Python 3.12 due to discontinued maintenance of the library. If you wish to install it locally, you'll have to use a patched fork of LightFM, such as the [one used internally](https://github.com/daviddavo/lightfm).
 <a name="examples"></a>
 ## 📑  Resources

{replay_rec-0.20.0 → replay_rec-0.20.0rc0}/README.md RENAMED Viewed

@@ -201,6 +201,12 @@ pip install openvino onnx
 pip install hnswlib fixed-install-nmslib
 ```
+4) (Experimental) LightFM model support:
+```bash
+pip install ligfhtfm
+```
+> **_NOTE_** : LightFM is not officially supported for Python 3.12 due to discontinued maintenance of the library. If you wish to install it locally, you'll have to use a patched fork of LightFM, such as the [one used internally](https://github.com/daviddavo/lightfm).
 <a name="examples"></a>
 ## 📑  Resources

{replay_rec-0.20.0 → replay_rec-0.20.0rc0}/pyproject.toml RENAMED Viewed

@@ -40,19 +40,19 @@ dependencies = [
     "scikit-learn (>=1.6.1,<1.7.0)",
     "pyarrow (<22.0)",
     "tqdm (>=4.67,<5)",
-    "pyspark (>=3.0,<3.5); extra == 'spark'",
-    "psutil (<=7.0.0); extra == 'spark'",
-    "torch (>=1.8, <3.0.0); extra == 'torch' or extra == 'torch-cpu'",
-    "pytorch-optimizer (>=3.8.0,<3.9.0); extra == 'torch' or extra == 'torch-cpu'",
-    "lightning (<2.6.0); extra == 'torch' or extra == 'torch-cpu'",
+    "torch (>=1.8,<3.0.0)",
+    "lightning (>=2.0.2,<=2.4.0)",
+    "pytorch-optimizer (>=3.8.0,<4)",
+    "lightautoml (>=0.4.1,<0.5)",
+    "numba (>=0.50,<1)",
+    "sb-obp (>=0.5.10,<0.6)",
+    "d3rlpy (>=2.8.1,<2.9)",
+    "implicit (>=0.7.2,<0.8)",
+    "pyspark (>=3.0,<3.5)",
+    "psutil (<=7.0.0)",
 ]
 dynamic = ["dependencies"]
-version = "0.20.0"
-[project.optional-dependencies]
-spark = ["pyspark", "psutil"]
-torch = ["torch", "pytorch-optimizer", "lightning"]
-torch-cpu = ["torch", "pytorch-optimizer", "lightning"]
+version = "0.20.0.preview"
 [project.urls]
 homepage = "https://sb-ai-lab.github.io/RePlay/"
@@ -66,13 +66,6 @@ target-version = ["py39", "py310", "py311", "py312"]
 packages = [{include = "replay"}]
 exclude = [
     "replay/conftest.py",
-    "replay/experimental",
-]
-[tool.poetry.dependencies]
-torch = [
-    {markers = "extra == 'torch-cpu' and extra !='torch'", source = "torch-cpu-mirror"},
-    {markers = "extra == 'torch' and extra !='torch-cpu'", source = "PyPI"},
 ]
 [tool.poetry.group.dev.dependencies]
@@ -95,11 +88,6 @@ docutils = "0.16"
 data-science-types = "0.2.23"
 filelock = "~3.14.0"
-[[tool.poetry.source]]
-name = "torch-cpu-mirror"
-url = "https://download.pytorch.org/whl/cpu"
-priority = "explicit"
 [tool.poetry-dynamic-versioning]
 enable = false
 format-jinja = """0.20.0{{ env['PACKAGE_SUFFIX'] }}"""

{replay_rec-0.20.0 → replay_rec-0.20.0rc0}/replay/__init__.py RENAMED Viewed

@@ -4,4 +4,4 @@
 # functionality removed in Python 3.12 is used in downstream packages (like lightfm)
 import setuptools as _
-__version__ = "0.20.0"
+__version__ = "0.20.0.preview"

{replay_rec-0.20.0 → replay_rec-0.20.0rc0}/replay/data/dataset.py RENAMED Viewed

@@ -5,8 +5,9 @@
 from __future__ import annotations
 import json
+from collections.abc import Iterable, Sequence
 from pathlib import Path
-from typing import Callable, Dict, Iterable, List, Optional, Sequence, Union
+from typing import Callable, Optional, Union
 import numpy as np
 from pandas import read_parquet as pd_read_parquet
@@ -315,7 +316,7 @@ class Dataset:
         :returns: Loaded Dataset.
         """
         base_path = Path(path).with_suffix(".replay").resolve()
-        with open(base_path / "init_args.json", "r") as file:
+        with open(base_path / "init_args.json") as file:
             dataset_dict = json.loads(file.read())
         if dataframe_type not in ["pandas", "spark", "polars", None]:
@@ -436,14 +437,14 @@ class Dataset:
         )
     def _get_feature_source_map(self):
-        self._feature_source_map: Dict[FeatureSource, DataFrameLike] = {
+        self._feature_source_map: dict[FeatureSource, DataFrameLike] = {
             FeatureSource.INTERACTIONS: self.interactions,
             FeatureSource.QUERY_FEATURES: self.query_features,
             FeatureSource.ITEM_FEATURES: self.item_features,
         }
     def _get_ids_source_map(self):
-        self._ids_feature_map: Dict[FeatureHint, DataFrameLike] = {
+        self._ids_feature_map: dict[FeatureHint, DataFrameLike] = {
             FeatureHint.QUERY_ID: self.query_features if self.query_features is not None else self.interactions,
             FeatureHint.ITEM_ID: self.item_features if self.item_features is not None else self.interactions,
         }
@@ -499,10 +500,10 @@ class Dataset:
             )
         return FeatureSchema(features_list=features_list + filled_features)
-    def _fill_unlabeled_features_sources(self, feature_schema: FeatureSchema) -> List[FeatureInfo]:
+    def _fill_unlabeled_features_sources(self, feature_schema: FeatureSchema) -> list[FeatureInfo]:
         features_list = list(feature_schema.all_features)
-        source_mapping: Dict[str, FeatureSource] = {}
+        source_mapping: dict[str, FeatureSource] = {}
         for source in FeatureSource:
             dataframe = self._feature_source_map[source]
             if dataframe is not None:
@@ -524,7 +525,7 @@ class Dataset:
         self._set_cardinality(features_list=features_list)
         return features_list
-    def _get_unlabeled_columns(self, source: FeatureSource, feature_schema: FeatureSchema) -> List[FeatureInfo]:
+    def _get_unlabeled_columns(self, source: FeatureSource, feature_schema: FeatureSchema) -> list[FeatureInfo]:
         set_source_dataframe_columns = set(self._feature_source_map[source].columns)
         set_labeled_dataframe_columns = set(feature_schema.columns)
         unlabeled_columns = set_source_dataframe_columns - set_labeled_dataframe_columns
@@ -534,13 +535,13 @@ class Dataset:
         ]
         return unlabeled_features_list
-    def _fill_unlabeled_features(self, source: FeatureSource, feature_schema: FeatureSchema) -> List[FeatureInfo]:
+    def _fill_unlabeled_features(self, source: FeatureSource, feature_schema: FeatureSchema) -> list[FeatureInfo]:
         unlabeled_columns = self._get_unlabeled_columns(source=source, feature_schema=feature_schema)
         self._set_features_source(feature_list=unlabeled_columns, source=source)
         self._set_cardinality(features_list=unlabeled_columns)
         return unlabeled_columns
-    def _set_features_source(self, feature_list: List[FeatureInfo], source: FeatureSource) -> None:
+    def _set_features_source(self, feature_list: list[FeatureInfo], source: FeatureSource) -> None:
         for feature in feature_list:
             feature._set_feature_source(source)

{replay_rec-0.20.0 → replay_rec-0.20.0rc0}/replay/data/dataset_utils/dataset_label_encoder.py RENAMED Viewed

@@ -6,7 +6,8 @@ Contains classes for encoding categorical data
 """
 import warnings
-from typing import Dict, Iterable, Iterator, Optional, Sequence, Set, Union
+from collections.abc import Iterable, Iterator, Sequence
+from typing import Optional, Union
 from replay.data import Dataset, FeatureHint, FeatureSchema, FeatureSource, FeatureType
 from replay.preprocessing import LabelEncoder, LabelEncodingRule, SequenceEncodingRule
@@ -45,9 +46,9 @@ class DatasetLabelEncoder:
         """
         self._handle_unknown_rule = handle_unknown_rule
         self._default_value_rule = default_value_rule
-        self._encoding_rules: Dict[str, LabelEncodingRule] = {}
+        self._encoding_rules: dict[str, LabelEncodingRule] = {}
-        self._features_columns: Dict[Union[FeatureHint, FeatureSource], Sequence[str]] = {}
+        self._features_columns: dict[Union[FeatureHint, FeatureSource], Sequence[str]] = {}
     def fit(self, dataset: Dataset) -> "DatasetLabelEncoder":
         """
@@ -161,7 +162,7 @@ class DatasetLabelEncoder:
         """
         self._check_if_initialized()
-        columns_set: Set[str]
+        columns_set: set[str]
         columns_set = {columns} if isinstance(columns, str) else {*columns}
         def get_encoding_rules() -> Iterator[LabelEncodingRule]:

{replay_rec-0.20.0 → replay_rec-0.20.0rc0}/replay/data/nn/schema.py RENAMED Viewed

@@ -1,17 +1,8 @@
+from collections import OrderedDict
+from collections.abc import ItemsView, Iterable, Iterator, KeysView, Mapping, Sequence, ValuesView
 from typing import (
-    Dict,
-    ItemsView,
-    Iterable,
-    Iterator,
-    KeysView,
-    List,
-    Mapping,
     Optional,
-    OrderedDict,
-    Sequence,
-    Set,
     Union,
-    ValuesView,
 )
 import torch
@@ -20,7 +11,7 @@ from replay.data import FeatureHint, FeatureSource, FeatureType
 # Alias
 TensorMap = Mapping[str, torch.Tensor]
-MutableTensorMap = Dict[str, torch.Tensor]
+MutableTensorMap = dict[str, torch.Tensor]
 class TensorFeatureSource:
@@ -79,7 +70,7 @@ class TensorFeatureInfo:
         feature_type: FeatureType,
         is_seq: bool = False,
         feature_hint: Optional[FeatureHint] = None,
-        feature_sources: Optional[List[TensorFeatureSource]] = None,
+        feature_sources: Optional[list[TensorFeatureSource]] = None,
         cardinality: Optional[int] = None,
         padding_value: int = 0,
         embedding_dim: Optional[int] = None,
@@ -154,13 +145,13 @@ class TensorFeatureInfo:
         self._feature_hint = hint
     @property
-    def feature_sources(self) -> Optional[List[TensorFeatureSource]]:
+    def feature_sources(self) -> Optional[list[TensorFeatureSource]]:
         """
         :returns: List of sources feature came from.
         """
         return self._feature_sources
-    def _set_feature_sources(self, sources: List[TensorFeatureSource]) -> None:
+    def _set_feature_sources(self, sources: list[TensorFeatureSource]) -> None:
         self._feature_sources = sources
     @property
@@ -276,7 +267,7 @@ class TensorSchema(Mapping[str, TensorFeatureInfo]):
         :returns: New tensor schema of given features.
         """
-        features: Set[TensorFeatureInfo] = set()
+        features: set[TensorFeatureInfo] = set()
         for feature_name in features_to_keep:
             features.add(self._tensor_schema[feature_name])
         return TensorSchema(list(features))
@@ -432,7 +423,7 @@ class TensorSchema(Mapping[str, TensorFeatureInfo]):
             return None
         return rating_features.item().name
-    def _get_object_args(self) -> Dict:
+    def _get_object_args(self) -> dict:
         """
         Returns list of features represented as dictionaries.
         """
@@ -456,7 +447,7 @@ class TensorSchema(Mapping[str, TensorFeatureInfo]):
         return features
     @classmethod
-    def _create_object_by_args(cls, args: Dict) -> "TensorSchema":
+    def _create_object_by_args(cls, args: dict) -> "TensorSchema":
         features_list = []
         for feature_data in args:
             feature_data["feature_sources"] = (

{replay_rec-0.20.0 → replay_rec-0.20.0rc0}/replay/data/nn/sequence_tokenizer.py RENAMED Viewed

@@ -2,8 +2,9 @@ import abc
 import json
 import pickle
 import warnings
+from collections.abc import Sequence
 from pathlib import Path
-from typing import TYPE_CHECKING, Dict, Generic, List, Optional, Sequence, Set, Tuple, TypeVar, Union
+from typing import TYPE_CHECKING, Generic, Optional, TypeVar, Union
 import numpy as np
 import polars as pl
@@ -187,7 +188,7 @@ class SequenceTokenizer:
     def _group_dataset(
         self,
         dataset: Dataset,
-    ) -> Tuple[SequenceDataFrameLike, Optional[SequenceDataFrameLike], Optional[SequenceDataFrameLike]]:
+    ) -> tuple[SequenceDataFrameLike, Optional[SequenceDataFrameLike], Optional[SequenceDataFrameLike]]:
         from replay.data.nn.utils import ensure_pandas, groupby_sequences
         grouped_interactions = groupby_sequences(
@@ -268,13 +269,13 @@ class SequenceTokenizer:
         tensor_schema: "TensorSchema",
         query_id_column: str,
         item_id_column: str,
-    ) -> Set[str]:
+    ) -> set[str]:
         # We need only features, which related to tensor schema, otherwise feature should
         # be ignored for efficiency reasons. The code below does feature filtering, and
         # keeps features used as a source in tensor schema.
         # Query and item IDs are always needed
-        features_subset: List[str] = [
+        features_subset: list[str] = [
             query_id_column,
             item_id_column,
         ]
@@ -303,7 +304,7 @@ class SequenceTokenizer:
                 msg = "All tensor features must have sources defined"
                 raise ValueError(msg)
-            source_tables: List[FeatureSource] = [s.source for s in feature_sources]
+            source_tables: list[FeatureSource] = [s.source for s in feature_sources]
             unexpected_tables = list(filter(lambda x: not isinstance(x, FeatureSource), source_tables))
             if len(unexpected_tables) > 0:
@@ -327,7 +328,7 @@ class SequenceTokenizer:
         tensor_features_to_keep: Optional[Sequence[str]] = None,
     ) -> None:
         # Check if all source columns specified in tensor schema exist in provided data frames
-        sources_for_tensors: List["TensorFeatureSource"] = []
+        sources_for_tensors: list["TensorFeatureSource"] = []
         for tensor_feature_name, tensor_feature in tensor_schema.items():
             if tensor_features_to_keep is not None and tensor_feature_name not in tensor_features_to_keep:
                 continue
@@ -421,7 +422,7 @@ class SequenceTokenizer:
         if not use_pickle:
             base_path = Path(path).with_suffix(".replay").resolve()
-            with open(base_path / "init_args.json", "r") as file:
+            with open(base_path / "init_args.json") as file:
                 tokenizer_dict = json.loads(file.read())
             # load tensor_schema, tensor_features
@@ -625,7 +626,7 @@ class _PandasSequenceProcessor(_BaseSequenceProcessor[PandasDataFrame]):
         """
         :returns: processed Pandas DataFrame with all features from tensor schema.
         """
-        all_features: Dict[str, Union[np.ndarray, List[np.ndarray]]] = {}
+        all_features: dict[str, Union[np.ndarray, list[np.ndarray]]] = {}
         all_features[self._query_id_column] = self._grouped_interactions[self._query_id_column].values
         for tensor_feature_name in self._tensor_schema:
@@ -635,7 +636,7 @@ class _PandasSequenceProcessor(_BaseSequenceProcessor[PandasDataFrame]):
     def _process_num_interaction_feature(
         self, tensor_feature: "TensorFeatureInfo"
-    ) -> Union[List[np.ndarray], List[List]]:
+    ) -> Union[list[np.ndarray], list[list]]:
         """
         Process numerical interaction feature.
@@ -656,7 +657,7 @@ class _PandasSequenceProcessor(_BaseSequenceProcessor[PandasDataFrame]):
                 values.append(np.array(sequence))
         return values
-    def _process_num_item_feature(self, tensor_feature: "TensorFeatureInfo") -> Union[List[np.ndarray], List[List]]:
+    def _process_num_item_feature(self, tensor_feature: "TensorFeatureInfo") -> Union[list[np.ndarray], list[list]]:
         """
         Process numerical feature from item features dataset.
@@ -682,7 +683,7 @@ class _PandasSequenceProcessor(_BaseSequenceProcessor[PandasDataFrame]):
         return values
-    def _process_num_query_feature(self, tensor_feature: "TensorFeatureInfo") -> List[np.ndarray]:
+    def _process_num_query_feature(self, tensor_feature: "TensorFeatureInfo") -> list[np.ndarray]:
         """
         Process numerical feature from query features dataset.
@@ -694,7 +695,7 @@ class _PandasSequenceProcessor(_BaseSequenceProcessor[PandasDataFrame]):
     def _process_cat_interaction_feature(
         self, tensor_feature: "TensorFeatureInfo"
-    ) -> Union[List[np.ndarray], List[List]]:
+    ) -> Union[list[np.ndarray], list[list]]:
         """
         Process categorical interaction feature.
@@ -715,7 +716,7 @@ class _PandasSequenceProcessor(_BaseSequenceProcessor[PandasDataFrame]):
                 values.append(np.array(sequence))
         return values
-    def _process_cat_query_feature(self, tensor_feature: "TensorFeatureInfo") -> List[np.ndarray]:
+    def _process_cat_query_feature(self, tensor_feature: "TensorFeatureInfo") -> list[np.ndarray]:
         """
         Process categorical feature from query features dataset.
@@ -744,7 +745,7 @@ class _PandasSequenceProcessor(_BaseSequenceProcessor[PandasDataFrame]):
                 ]
         return [np.array([query_feature[i]]).reshape(-1) for i in range(len(self._grouped_interactions))]
-    def _process_cat_item_feature(self, tensor_feature: "TensorFeatureInfo") -> Union[List[np.ndarray], List[List]]:
+    def _process_cat_item_feature(self, tensor_feature: "TensorFeatureInfo") -> Union[list[np.ndarray], list[list]]:
         """
         Process categorical feature from item features dataset.
@@ -760,7 +761,7 @@ class _PandasSequenceProcessor(_BaseSequenceProcessor[PandasDataFrame]):
         assert source is not None
         item_feature = self._item_features[source.column]
-        values: List[np.ndarray] = []
+        values: list[np.ndarray] = []
         for item_id_sequence in self._grouped_interactions[self._item_id_column]:
             feature_sequence = item_feature.loc[item_id_sequence].values

{replay_rec-0.20.0 → replay_rec-0.20.0rc0}/replay/data/nn/sequential_dataset.py RENAMED Viewed

@@ -1,7 +1,7 @@
 import abc
 import json
 from pathlib import Path
-from typing import TYPE_CHECKING, Tuple, Union
+from typing import TYPE_CHECKING, Union
 import numpy as np
 import pandas as pd
@@ -90,7 +90,7 @@ class SequentialDataset(abc.ABC):
     @staticmethod
     def keep_common_query_ids(
         lhs: "SequentialDataset", rhs: "SequentialDataset"
-    ) -> Tuple["SequentialDataset", "SequentialDataset"]:
+    ) -> tuple["SequentialDataset", "SequentialDataset"]:
         """
         Returns `SequentialDatasets` that contain query ids from both datasets.
@@ -203,7 +203,7 @@ class PandasSequentialDataset(SequentialDataset):
         from replay.data.nn import TensorSchema
         base_path = Path(path).with_suffix(".replay").resolve()
-        with open(base_path / "init_args.json", "r") as file:
+        with open(base_path / "init_args.json") as file:
             sequential_dict = json.loads(file.read())
         sequences = pd.read_json(base_path / sequential_dict["init_args"]["sequences_path"])
@@ -287,7 +287,7 @@ class PolarsSequentialDataset(PandasSequentialDataset):
         from replay.data.nn import TensorSchema
         base_path = Path(path).with_suffix(".replay").resolve()
-        with open(base_path / "init_args.json", "r") as file:
+        with open(base_path / "init_args.json") as file:
             sequential_dict = json.loads(file.read())
         sequences = pl.DataFrame(pd.read_json(base_path / sequential_dict["init_args"]["sequences_path"]))

{replay_rec-0.20.0 → replay_rec-0.20.0rc0}/replay/data/nn/torch_sequential_dataset.py RENAMED Viewed

@@ -1,4 +1,5 @@
-from typing import TYPE_CHECKING, Generator, NamedTuple, Optional, Sequence, Tuple, Union, cast
+from collections.abc import Generator, Sequence
+from typing import TYPE_CHECKING, NamedTuple, Optional, Union, cast
 import numpy as np
 import torch
@@ -110,7 +111,7 @@ class TorchSequentialDataset(TorchDataset):
             return sequence
         # form shape for padded_sequence. Now supported one and two-dimentions features
-        padded_sequence_shape: Union[Tuple[int, int], Tuple[int]]
+        padded_sequence_shape: Union[tuple[int, int], tuple[int]]
         if len(sequence.shape) == 1:
             padded_sequence_shape = (self._max_sequence_length,)
         elif len(sequence.shape) == 2:
@@ -134,10 +135,10 @@ class TorchSequentialDataset(TorchDataset):
             return torch.float32
         assert False, "Unknown tensor feature type"
-    def _build_index2sequence_map(self) -> Sequence[Tuple[int, int]]:
+    def _build_index2sequence_map(self) -> Sequence[tuple[int, int]]:
         return list(self._iter_with_window())
-    def _iter_with_window(self) -> Generator[Tuple[int, int], None, None]:
+    def _iter_with_window(self) -> Generator[tuple[int, int], None, None]:
         for i in range(len(self._sequential)):
             actual_seq_len = self._sequential.get_sequence_length(i)
             left_seq_len = actual_seq_len - self._max_sequence_length

{replay_rec-0.20.0 → replay_rec-0.20.0rc0}/replay/data/nn/utils.py RENAMED Viewed

@@ -1,4 +1,5 @@
-from typing import Iterable, Optional
+from collections.abc import Iterable
+from typing import Optional
 import polars as pl

{replay_rec-0.20.0 → replay_rec-0.20.0rc0}/replay/data/schema.py RENAMED Viewed

@@ -1,18 +1,9 @@
+from collections.abc import ItemsView, Iterable, Iterator, KeysView, Mapping, Sequence, ValuesView
 from enum import Enum
 from typing import (
     Callable,
-    Dict,
-    ItemsView,
-    Iterable,
-    Iterator,
-    KeysView,
-    List,
-    Mapping,
     Optional,
-    Sequence,
-    Set,
     Union,
-    ValuesView,
 )
@@ -162,7 +153,7 @@ class FeatureSchema(Mapping[str, FeatureInfo]):
             in original schema to keep in subset.
         :returns: new feature schema of given features.
         """
-        features: Set[FeatureInfo] = set()
+        features: set[FeatureInfo] = set()
         for feature_column in features_to_keep:
             if feature_column in self._features_schema:
                 features.add(self._features_schema[feature_column])
@@ -438,7 +429,7 @@ class FeatureSchema(Mapping[str, FeatureInfo]):
         """
         unique_columns = set()
         duplicates = set()
-        item_query_names: Dict[FeatureHint, List[str]] = {
+        item_query_names: dict[FeatureHint, list[str]] = {
             FeatureHint.ITEM_ID: [],
             FeatureHint.QUERY_ID: [],
         }

replay_rec-0.20.0rc0/replay/experimental/metrics/__init__.py ADDED Viewed

@@ -0,0 +1,62 @@
+"""
+Most metrics require dataframe with recommendations
+and dataframe with ground truth values —
+which objects each user interacted with.
+- recommendations (Union[pandas.DataFrame, spark.DataFrame]):
+    predictions of a recommender system,
+    DataFrame with columns ``[user_id, item_id, relevance]``
+- ground_truth (Union[pandas.DataFrame, spark.DataFrame]):
+    test data, DataFrame with columns
+    ``[user_id, item_id, timestamp, relevance]``
+Metric is calculated for all users, presented in ``ground_truth``
+for accurate metric calculation in case when the recommender system generated
+recommendation not for all users.  It is assumed, that all users,
+we want to calculate metric for, have positive interactions.
+But if we have users, who observed the recommendations, but have not responded,
+those users will be ignored and metric will be overestimated.
+For such case we propose additional optional parameter ``ground_truth_users``,
+the dataframe with all users, which should be considered during the metric calculation.
+- ground_truth_users (Optional[Union[pandas.DataFrame, spark.DataFrame]]):
+    full list of users to calculate metric for, DataFrame with ``user_id`` column
+Every metric is calculated using top ``K`` items for each user.
+It is also possible to calculate metrics
+using multiple values for ``K`` simultaneously.
+In this case the result will be a dictionary and not a number.
+Make sure your recommendations do not contain user-item duplicates
+as duplicates could lead to the wrong calculation results.
+- k (Union[Iterable[int], int]):
+    a single number or a list, specifying the
+    truncation length for recommendation list for each user
+By default, metrics are averaged by users,
+but you can alternatively use method ``metric.median``.
+Also, you can get the lower bound
+of ``conf_interval`` for a given ``alpha``.
+Diversity metrics require extra parameters on initialization stage,
+but do not use ``ground_truth`` parameter.
+For each metric, a formula for its calculation is given, because this is
+important for the correct comparison of algorithms, as mentioned in our
+`article <https://arxiv.org/abs/2206.12858>`_.
+"""
+from replay.experimental.metrics.base_metric import Metric, NCISMetric
+from replay.experimental.metrics.coverage import Coverage
+from replay.experimental.metrics.hitrate import HitRate
+from replay.experimental.metrics.map import MAP
+from replay.experimental.metrics.mrr import MRR
+from replay.experimental.metrics.ncis_precision import NCISPrecision
+from replay.experimental.metrics.ndcg import NDCG
+from replay.experimental.metrics.precision import Precision
+from replay.experimental.metrics.recall import Recall
+from replay.experimental.metrics.rocauc import RocAuc
+from replay.experimental.metrics.surprisal import Surprisal
+from replay.experimental.metrics.unexpectedness import Unexpectedness

replay-rec 0.20.0__tar.gz → 0.20.0rc0__tar.gz

replay-rec 0.20.0tar.gz → 0.20.0rc0tar.gz