PyPI - replay-rec - Versions diffs - 0.16.0rc0__py3-none-any.whl → 0.17.0__py3-none-any.whl - Mend

replay-rec 0.16.0rc0py3-none-any.whl → 0.17.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (162) hide show

replay/__init__.py +1 -1
replay/data/__init__.py +1 -1
replay/data/dataset.py +45 -42
replay/data/dataset_utils/dataset_label_encoder.py +6 -7
replay/data/nn/__init__.py +1 -1
replay/data/nn/schema.py +20 -33
replay/data/nn/sequence_tokenizer.py +217 -87
replay/data/nn/sequential_dataset.py +6 -22
replay/data/nn/torch_sequential_dataset.py +20 -11
replay/data/nn/utils.py +7 -9
replay/data/schema.py +17 -17
replay/data/spark_schema.py +0 -1
replay/metrics/base_metric.py +38 -79
replay/metrics/categorical_diversity.py +24 -58
replay/metrics/coverage.py +25 -49
replay/metrics/descriptors.py +4 -13
replay/metrics/experiment.py +3 -8
replay/metrics/hitrate.py +3 -6
replay/metrics/map.py +3 -6
replay/metrics/mrr.py +1 -4
replay/metrics/ndcg.py +4 -7
replay/metrics/novelty.py +10 -29
replay/metrics/offline_metrics.py +26 -61
replay/metrics/precision.py +3 -6
replay/metrics/recall.py +3 -6
replay/metrics/rocauc.py +7 -10
replay/metrics/surprisal.py +13 -30
replay/metrics/torch_metrics_builder.py +0 -4
replay/metrics/unexpectedness.py +15 -20
replay/models/__init__.py +1 -2
replay/models/als.py +7 -15
replay/models/association_rules.py +12 -28
replay/models/base_neighbour_rec.py +21 -36
replay/models/base_rec.py +92 -215
replay/models/cat_pop_rec.py +9 -22
replay/models/cluster.py +17 -28
replay/models/extensions/ann/ann_mixin.py +7 -12
replay/models/extensions/ann/entities/base_hnsw_param.py +1 -1
replay/models/extensions/ann/entities/hnswlib_param.py +0 -6
replay/models/extensions/ann/entities/nmslib_hnsw_param.py +0 -6
replay/models/extensions/ann/index_builders/driver_hnswlib_index_builder.py +4 -10
replay/models/extensions/ann/index_builders/driver_nmslib_index_builder.py +7 -11
replay/models/extensions/ann/index_builders/executor_hnswlib_index_builder.py +5 -12
replay/models/extensions/ann/index_builders/executor_nmslib_index_builder.py +11 -18
replay/models/extensions/ann/index_builders/nmslib_index_builder_mixin.py +1 -4
replay/models/extensions/ann/index_inferers/base_inferer.py +3 -10
replay/models/extensions/ann/index_inferers/hnswlib_filter_index_inferer.py +7 -17
replay/models/extensions/ann/index_inferers/hnswlib_index_inferer.py +6 -14
replay/models/extensions/ann/index_inferers/nmslib_filter_index_inferer.py +14 -28
replay/models/extensions/ann/index_inferers/nmslib_index_inferer.py +15 -25
replay/models/extensions/ann/index_inferers/utils.py +2 -9
replay/models/extensions/ann/index_stores/hdfs_index_store.py +4 -9
replay/models/extensions/ann/index_stores/shared_disk_index_store.py +2 -6
replay/models/extensions/ann/index_stores/spark_files_index_store.py +8 -14
replay/models/extensions/ann/index_stores/utils.py +5 -2
replay/models/extensions/ann/utils.py +3 -5
replay/models/kl_ucb.py +16 -22
replay/models/knn.py +37 -59
replay/models/nn/optimizer_utils/__init__.py +1 -6
replay/models/nn/optimizer_utils/optimizer_factory.py +3 -6
replay/models/nn/sequential/bert4rec/__init__.py +1 -1
replay/models/nn/sequential/bert4rec/dataset.py +6 -7
replay/models/nn/sequential/bert4rec/lightning.py +53 -56
replay/models/nn/sequential/bert4rec/model.py +12 -25
replay/models/nn/sequential/callbacks/__init__.py +1 -1
replay/models/nn/sequential/callbacks/prediction_callbacks.py +23 -25
replay/models/nn/sequential/callbacks/validation_callback.py +27 -30
replay/models/nn/sequential/postprocessors/postprocessors.py +1 -1
replay/models/nn/sequential/sasrec/dataset.py +8 -7
replay/models/nn/sequential/sasrec/lightning.py +53 -48
replay/models/nn/sequential/sasrec/model.py +4 -17
replay/models/pop_rec.py +9 -10
replay/models/query_pop_rec.py +7 -15
replay/models/random_rec.py +10 -18
replay/models/slim.py +8 -13
replay/models/thompson_sampling.py +13 -14
replay/models/ucb.py +11 -22
replay/models/wilson.py +5 -14
replay/models/word2vec.py +24 -69
replay/optimization/optuna_objective.py +13 -27
replay/preprocessing/__init__.py +1 -2
replay/preprocessing/converter.py +2 -7
replay/preprocessing/filters.py +67 -142
replay/preprocessing/history_based_fp.py +44 -116
replay/preprocessing/label_encoder.py +106 -68
replay/preprocessing/sessionizer.py +1 -11
replay/scenarios/fallback.py +3 -8
replay/splitters/base_splitter.py +43 -15
replay/splitters/cold_user_random_splitter.py +18 -31
replay/splitters/k_folds.py +14 -24
replay/splitters/last_n_splitter.py +33 -43
replay/splitters/new_users_splitter.py +31 -55
replay/splitters/random_splitter.py +16 -23
replay/splitters/ratio_splitter.py +30 -54
replay/splitters/time_splitter.py +13 -18
replay/splitters/two_stage_splitter.py +44 -79
replay/utils/__init__.py +1 -1
replay/utils/common.py +65 -0
replay/utils/dataframe_bucketizer.py +25 -31
replay/utils/distributions.py +3 -15
replay/utils/model_handler.py +36 -33
replay/utils/session_handler.py +11 -15
replay/utils/spark_utils.py +51 -85
replay/utils/time.py +8 -22
replay/utils/types.py +1 -3
{replay_rec-0.16.0rc0.dist-info → replay_rec-0.17.0.dist-info}/METADATA +2 -10
replay_rec-0.17.0.dist-info/RECORD +127 -0
{replay_rec-0.16.0rc0.dist-info → replay_rec-0.17.0.dist-info}/WHEEL +1 -1
replay/experimental/__init__.py +0 -0
replay/experimental/metrics/__init__.py +0 -61
replay/experimental/metrics/base_metric.py +0 -661
replay/experimental/metrics/coverage.py +0 -117
replay/experimental/metrics/experiment.py +0 -200
replay/experimental/metrics/hitrate.py +0 -27
replay/experimental/metrics/map.py +0 -31
replay/experimental/metrics/mrr.py +0 -19
replay/experimental/metrics/ncis_precision.py +0 -32
replay/experimental/metrics/ndcg.py +0 -50
replay/experimental/metrics/precision.py +0 -23
replay/experimental/metrics/recall.py +0 -26
replay/experimental/metrics/rocauc.py +0 -50
replay/experimental/metrics/surprisal.py +0 -102
replay/experimental/metrics/unexpectedness.py +0 -74
replay/experimental/models/__init__.py +0 -10
replay/experimental/models/admm_slim.py +0 -216
replay/experimental/models/base_neighbour_rec.py +0 -222
replay/experimental/models/base_rec.py +0 -1361
replay/experimental/models/base_torch_rec.py +0 -247
replay/experimental/models/cql.py +0 -468
replay/experimental/models/ddpg.py +0 -1007
replay/experimental/models/dt4rec/__init__.py +0 -0
replay/experimental/models/dt4rec/dt4rec.py +0 -193
replay/experimental/models/dt4rec/gpt1.py +0 -411
replay/experimental/models/dt4rec/trainer.py +0 -128
replay/experimental/models/dt4rec/utils.py +0 -274
replay/experimental/models/extensions/spark_custom_models/__init__.py +0 -0
replay/experimental/models/extensions/spark_custom_models/als_extension.py +0 -733
replay/experimental/models/implicit_wrap.py +0 -138
replay/experimental/models/lightfm_wrap.py +0 -327
replay/experimental/models/mult_vae.py +0 -374
replay/experimental/models/neuromf.py +0 -462
replay/experimental/models/scala_als.py +0 -311
replay/experimental/nn/data/__init__.py +0 -1
replay/experimental/nn/data/schema_builder.py +0 -58
replay/experimental/preprocessing/__init__.py +0 -3
replay/experimental/preprocessing/data_preparator.py +0 -929
replay/experimental/preprocessing/padder.py +0 -231
replay/experimental/preprocessing/sequence_generator.py +0 -218
replay/experimental/scenarios/__init__.py +0 -1
replay/experimental/scenarios/obp_wrapper/__init__.py +0 -8
replay/experimental/scenarios/obp_wrapper/obp_optuna_objective.py +0 -86
replay/experimental/scenarios/obp_wrapper/replay_offline.py +0 -271
replay/experimental/scenarios/obp_wrapper/utils.py +0 -88
replay/experimental/scenarios/two_stages/reranker.py +0 -116
replay/experimental/scenarios/two_stages/two_stages_scenario.py +0 -843
replay/experimental/utils/__init__.py +0 -0
replay/experimental/utils/logger.py +0 -24
replay/experimental/utils/model_handler.py +0 -213
replay/experimental/utils/session_handler.py +0 -47
replay_rec-0.16.0rc0.dist-info/NOTICE +0 -41
replay_rec-0.16.0rc0.dist-info/RECORD +0 -178
{replay_rec-0.16.0rc0.dist-info → replay_rec-0.17.0.dist-info}/LICENSE +0 -0

replay/data/nn/sequence_tokenizer.py CHANGED Viewed

@@ -1,4 +1,7 @@
+import json
 import pickle
+import warnings
+from pathlib import Path
 from typing import Dict, List, Optional, Sequence, Set, Tuple, Union
 import numpy as np
@@ -6,14 +9,15 @@ import polars as pl
 from pandas import DataFrame as PandasDataFrame
 from polars import DataFrame as PolarsDataFrame
-from replay.data import Dataset, FeatureSchema, FeatureSource
+from replay.data import Dataset, FeatureHint, FeatureSchema, FeatureSource, FeatureType
 from replay.data.dataset_utils import DatasetLabelEncoder
-from .schema import TensorFeatureInfo, TensorFeatureSource, TensorSchema
-from .sequential_dataset import PandasSequentialDataset, SequentialDataset, PolarsSequentialDataset
-from .utils import ensure_pandas, groupby_sequences
-from replay.preprocessing import LabelEncoder
+from replay.preprocessing import LabelEncoder, LabelEncodingRule
 from replay.preprocessing.label_encoder import HandleUnknownStrategies
+from replay.utils.model_handler import deprecation_warning
+from .schema import TensorFeatureInfo, TensorFeatureSource, TensorSchema
+from .sequential_dataset import PandasSequentialDataset, PolarsSequentialDataset, SequentialDataset
+from .utils import ensure_pandas, groupby_sequences
 SequenceDataFrameLike = Union[PandasDataFrame, PolarsDataFrame]
@@ -33,7 +37,7 @@ class SequenceTokenizer:
         """
         :param tensor_schema: tensor schema of tensor features
         :param handle_unknown_rule: handle unknown labels rule for LabelEncoder,
-            values are in ('error', 'use_default_value').
+            values are in ('error', 'use_default_value', 'drop').
             Default: `error`
         :param default_value: Default value that will fill the unknown labels after transform.
             When the parameter handle_unknown is set to ``use_default_value``,
@@ -60,6 +64,7 @@ class SequenceTokenizer:
         :returns: fitted SequenceTokenizer
         """
         self._check_if_tensor_schema_matches_data(dataset, self._tensor_schema)
+        self._assign_tensor_features_cardinality(dataset)
         self._encoder.fit(dataset)
         return self
@@ -84,7 +89,6 @@ class SequenceTokenizer:
         :param dataset: input dataset to transform
         :returns: SequentialDataset
         """
-        # pylint: disable=protected-access
         return self.fit(dataset)._transform_unchecked(dataset)
     @property
@@ -161,10 +165,7 @@ class SequenceTokenizer:
         assert self._tensor_schema.item_id_feature_name
-        if is_polars:
-            dataset_type = PolarsSequentialDataset
-        else:
-            dataset_type = PandasSequentialDataset
+        dataset_type = PolarsSequentialDataset if is_polars else PandasSequentialDataset
         return dataset_type(
             tensor_schema=schema,
@@ -191,7 +192,7 @@ class SequenceTokenizer:
             return (
                 grouped_interactions.sort(dataset.feature_schema.query_id_column),
                 dataset.query_features,
-                dataset.item_features
+                dataset.item_features,
             )
         # We sort by QUERY_ID to make sure order is deterministic
@@ -211,7 +212,6 @@ class SequenceTokenizer:
         return grouped_interactions_pd, query_features_pd, item_features_pd
-    # pylint: disable=too-many-arguments
     def _make_sequence_features(
         self,
         schema: TensorSchema,
@@ -298,24 +298,27 @@ class SequenceTokenizer:
         for tensor_feature in tensor_schema.all_features:
             feature_sources = tensor_feature.feature_sources
             if not feature_sources:
-                raise ValueError("All tensor features must have sources defined")
+                msg = "All tensor features must have sources defined"
+                raise ValueError(msg)
             source_tables: List[FeatureSource] = [s.source for s in feature_sources]
             unexpected_tables = list(filter(lambda x: not isinstance(x, FeatureSource), source_tables))
             if len(unexpected_tables) > 0:
-                raise ValueError(f"Found unexpected source tables: {unexpected_tables}")
+                msg = f"Found unexpected source tables: {unexpected_tables}"
+                raise ValueError(msg)
             if not tensor_feature.is_seq:
                 if FeatureSource.INTERACTIONS in source_tables:
-                    raise ValueError("Interaction features must be treated as sequential")
+                    msg = "Interaction features must be treated as sequential"
+                    raise ValueError(msg)
                 if FeatureSource.ITEM_FEATURES in source_tables:
-                    raise ValueError("Item features must be treated as sequential")
+                    msg = "Item features must be treated as sequential"
+                    raise ValueError(msg)
-    # pylint: disable=too-many-branches
     @classmethod
-    def _check_if_tensor_schema_matches_data(
+    def _check_if_tensor_schema_matches_data(  # noqa: C901
         cls,
         dataset: Dataset,
         tensor_schema: TensorSchema,
@@ -324,77 +327,205 @@ class SequenceTokenizer:
         # Check if all source columns specified in tensor schema exist in provided data frames
         sources_for_tensors: List[TensorFeatureSource] = []
         for tensor_feature_name, tensor_feature in tensor_schema.items():
-            if (tensor_features_to_keep is not None) and (tensor_feature_name not in tensor_features_to_keep):
+            if tensor_features_to_keep is not None and tensor_feature_name not in tensor_features_to_keep:
                 continue
-            feature_sources = tensor_feature.feature_sources
-            if feature_sources:
-                sources_for_tensors += feature_sources
+            if tensor_feature.feature_sources:
+                sources_for_tensors += tensor_feature.feature_sources
         query_id_column = dataset.feature_schema.query_id_column
         item_id_column = dataset.feature_schema.item_id_column
-        interaction_feature_columns = set(
-            list(dataset.feature_schema.interaction_features.columns) + [query_id_column, item_id_column]
-        )
-        query_feature_columns = set(list(dataset.feature_schema.query_features.columns) + [query_id_column])
-        item_feature_columns = set(list(dataset.feature_schema.item_features.columns) + [item_id_column])
+        interaction_feature_columns = {
+            *dataset.feature_schema.interaction_features.columns,
+            query_id_column,
+            item_id_column,
+        }
+        query_feature_columns = {*dataset.feature_schema.query_features.columns, query_id_column}
+        item_feature_columns = {*dataset.feature_schema.item_features.columns, item_id_column}
         for feature_source in sources_for_tensors:
             assert feature_source is not None
             if feature_source.source == FeatureSource.INTERACTIONS:
                 if feature_source.column not in interaction_feature_columns:
-                    raise ValueError(f"Expected column '{feature_source.column}' in dataset")
+                    msg = f"Expected column '{feature_source.column}' in dataset"
+                    raise ValueError(msg)
             elif feature_source.source == FeatureSource.QUERY_FEATURES:
                 if dataset.query_features is None:
-                    raise ValueError(f"Expected column '{feature_source.column}', but query features are not specified")
+                    msg = f"Expected column '{feature_source.column}', but query features are not specified"
+                    raise ValueError(msg)
                 if feature_source.column not in query_feature_columns:
-                    raise ValueError(f"Expected column '{feature_source.column}' in query features data frame")
+                    msg = f"Expected column '{feature_source.column}' in query features data frame"
+                    raise ValueError(msg)
             elif feature_source.source == FeatureSource.ITEM_FEATURES:
                 if dataset.item_features is None:
-                    raise ValueError(f"Expected column '{feature_source.column}', but item features are not specified")
+                    msg = f"Expected column '{feature_source.column}', but item features are not specified"
+                    raise ValueError(msg)
                 if feature_source.column not in item_feature_columns:
-                    raise ValueError(f"Expected column '{feature_source.column}' in item features data frame")
+                    msg = f"Expected column '{feature_source.column}' in item features data frame"
+                    raise ValueError(msg)
             else:
-                raise ValueError(f"Found unexpected table '{feature_source.source}' in tensor schema")
+                msg = f"Found unexpected table '{feature_source.source}' in tensor schema"
+                raise ValueError(msg)
         # Check if user ID and item ID columns are consistent with tensor schema
         if tensor_schema.query_id_feature_name is not None:
             tensor_feature = tensor_schema.query_id_features.item()
             assert tensor_feature.feature_source
             if tensor_feature.feature_source.column != dataset.feature_schema.query_id_column:
-                raise ValueError("Tensor schema query ID source colum does not match query ID in data frame")
+                msg = "Tensor schema query ID source colum does not match query ID in data frame"
+                raise ValueError(msg)
         if tensor_schema.item_id_feature_name is None:
-            raise ValueError("Tensor schema must have item id feature defined")
+            msg = "Tensor schema must have item id feature defined"
+            raise ValueError(msg)
         tensor_feature = tensor_schema.item_id_features.item()
         assert tensor_feature.feature_source
         if tensor_feature.feature_source.column != dataset.feature_schema.item_id_column:
-            raise ValueError("Tensor schema item ID source colum does not match item ID in data frame")
+            msg = "Tensor schema item ID source colum does not match item ID in data frame"
+            raise ValueError(msg)
+    def _assign_tensor_features_cardinality(self, dataset: Dataset) -> None:
+        for tensor_feature in self._tensor_schema.categorical_features.all_features:
+            dataset_feature = dataset.feature_schema[tensor_feature.feature_source.column]
+            if tensor_feature.cardinality is not None:
+                warnings.warn(
+                    f"The specified cardinality of {tensor_feature.name} "
+                    f"will be replaced by {dataset_feature.column} from Dataset"
+                )
+            if dataset_feature.feature_type != FeatureType.CATEGORICAL:
+                error_msg = (
+                    f"TensorFeatureInfo {tensor_feature.name} "
+                    f"and FeatureInfo {dataset_feature.column} must be the same FeatureType"
+                )
+                raise RuntimeError(error_msg)
+            tensor_feature._set_cardinality(dataset_feature.cardinality)
     @classmethod
-    def load(cls, path: str) -> "SequenceTokenizer":
+    @deprecation_warning("with `use_pickle` equals to `True` will be deprecated in future versions")
+    def load(cls, path: str, use_pickle: bool = False) -> "SequenceTokenizer":
         """
         Load tokenizer object from the given path.
         :param path: Path to load the tokenizer.
+        :param use_pickle: If `False` - tokenizer will be loaded from `.replay` directory.
+            If `True` - tokenizer will be loaded with pickle.
+            Default: `False`.
         :returns: Loaded tokenizer object.
         """
-        with open(path, "rb") as file:
-            tokenizer = pickle.load(file)
+        if not use_pickle:
+            base_path = Path(path).with_suffix(".replay").resolve()
+            with open(base_path / "init_args.json", "r") as file:
+                tokenizer_dict = json.loads(file.read())
+            # load tensor_schema, tensor_features
+            tensor_schema_data = tokenizer_dict["init_args"]["tensor_schema"]
+            features_list = []
+            for feature_data in tensor_schema_data:
+                feature_data["feature_sources"] = [
+                    TensorFeatureSource(source=FeatureSource[x["source"]], column=x["column"], index=x["index"])
+                    for x in feature_data["feature_sources"]
+                ]
+                f_type = feature_data["feature_type"]
+                f_hint = feature_data["feature_hint"]
+                feature_data["feature_type"] = FeatureType[f_type] if f_type else None
+                feature_data["feature_hint"] = FeatureHint[f_hint] if f_hint else None
+                features_list.append(TensorFeatureInfo(**feature_data))
+            tokenizer_dict["init_args"]["tensor_schema"] = TensorSchema(features_list)
+            # Load encoder columns and rules
+            types = list(FeatureHint) + list(FeatureSource)
+            map_types = {x.name: x for x in types}
+            encoder_features_columns = {
+                map_types[key]: value for key, value in tokenizer_dict["encoder"]["features_columns"].items()
+            }
+            rules_dict = tokenizer_dict["encoder"]["encoding_rules"]
+            for rule in rules_dict:
+                rule_data = rules_dict[rule]
+                if rule_data["mapping"] and rule_data["is_int"]:
+                    rule_data["mapping"] = {int(key): value for key, value in rule_data["mapping"].items()}
+                    del rule_data["is_int"]
+                tokenizer_dict["encoder"]["encoding_rules"][rule] = LabelEncodingRule(**rule_data)
+            # Init tokenizer
+            tokenizer = cls(**tokenizer_dict["init_args"])
+            tokenizer._encoder._features_columns = encoder_features_columns
+            tokenizer._encoder._encoding_rules = tokenizer_dict["encoder"]["encoding_rules"]
+        else:
+            with open(path, "rb") as file:
+                tokenizer = pickle.load(file)
         return tokenizer
-    def save(self, path: str) -> None:
+    @deprecation_warning("with `use_pickle` equals to `True` will be deprecated in future versions")
+    def save(self, path: str, use_pickle: bool = False) -> None:
         """
         Save the tokenizer to the given path.
         :param path: Path to save the tokenizer.
-        """
-        with open(path, "wb") as file:
-            pickle.dump(self, file)
+        :param use_pickle: If `False` - tokenizer will be saved in `.replay` directory.
+            If `True` - tokenizer will be saved with pickle.
+            Default: `False`.
+        """
+        if not use_pickle:
+            tokenizer_dict = {}
+            tokenizer_dict["_class_name"] = self.__class__.__name__
+            tokenizer_dict["init_args"] = {
+                "allow_collect_to_master": self._allow_collect_to_master,
+                "handle_unknown_rule": self._encoder._handle_unknown_rule,
+                "default_value_rule": self._encoder._default_value_rule,
+                "tensor_schema": [],
+            }
+            # save tensor schema
+            for feature in list(self._tensor_schema.values()):
+                tokenizer_dict["init_args"]["tensor_schema"].append(
+                    {
+                        "name": feature.name,
+                        "feature_type": feature.feature_type.name,
+                        "is_seq": feature.is_seq,
+                        "feature_hint": feature.feature_hint.name if feature.feature_hint else None,
+                        "feature_sources": [
+                            {"source": x.source.name, "column": x.column, "index": x.index}
+                            for x in feature.feature_sources
+                        ]
+                        if feature.feature_sources
+                        else None,
+                        "cardinality": feature.cardinality if feature.feature_type == FeatureType.CATEGORICAL else None,
+                        "embedding_dim": feature.embedding_dim
+                        if feature.feature_type == FeatureType.CATEGORICAL
+                        else None,
+                        "tensor_dim": feature.tensor_dim if feature.feature_type == FeatureType.NUMERICAL else None,
+                    }
+                )
+            # save DatasetLabelEncoder
+            tokenizer_dict["encoder"] = {
+                "features_columns": {key.name: value for key, value in self._encoder._features_columns.items()},
+                "encoding_rules": {
+                    key: {
+                        "column": value.column,
+                        "mapping": value._mapping,
+                        "handle_unknown": value._handle_unknown,
+                        "default_value": value._default_value,
+                        "is_int": isinstance(next(iter(value._mapping.keys())), int),
+                    }
+                    for key, value in self._encoder._encoding_rules.items()
+                },
+            }
+            base_path = Path(path).with_suffix(".replay").resolve()
+            base_path.mkdir(parents=True, exist_ok=True)
+            with open(base_path / "init_args.json", "w+") as file:
+                json.dump(tokenizer_dict, file)
+        else:
+            with open(path, "wb") as file:
+                pickle.dump(self, file)
 class _SequenceProcessor:
@@ -409,7 +540,6 @@ class _SequenceProcessor:
         with passing all tensor features one by one.
     """
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         tensor_schema: TensorSchema,
@@ -462,13 +592,9 @@ class _SequenceProcessor:
         for tensor_feature_name in self._tensor_schema:
             tensor_feature = self._tensor_schema[tensor_feature_name]
             if tensor_feature.is_cat:
-                data = data.join(
-                    self._process_cat_feature(tensor_feature), on=self._query_id_column, how="left"
-                )
+                data = data.join(self._process_cat_feature(tensor_feature), on=self._query_id_column, how="left")
             elif tensor_feature.is_num:
-                data = data.join(
-                    self._process_num_feature(tensor_feature), on=self._query_id_column, how="left"
-                )
+                data = data.join(self._process_num_feature(tensor_feature), on=self._query_id_column, how="left")
             else:
                 assert False, "Unknown tensor feature type"
         return data
@@ -490,38 +616,40 @@ class _SequenceProcessor:
         def get_sequence(user, source, data):
             if source.source == FeatureSource.INTERACTIONS:
                 return np.array(
-                    self._grouped_interactions
-                    .filter(pl.col(self._query_id_column) == user)[source.column][0],
-                    dtype=np.float32
+                    self._grouped_interactions.filter(pl.col(self._query_id_column) == user)[source.column][0],
+                    dtype=np.float32,
                 ).tolist()
             elif source.source == FeatureSource.ITEM_FEATURES:
                 return (
                     pl.DataFrame({self._item_id_column: data})
                     .join(self._item_features, on=self._item_id_column, how="left")
-                    .select(source.column).to_numpy().reshape(-1).tolist()
+                    .select(source.column)
+                    .to_numpy()
+                    .reshape(-1)
+                    .tolist()
                 )
             else:
                 assert False, "Unknown tensor feature source table"
         result = (
-            self._grouped_interactions
-            .select(self._query_id_column, self._item_id_column)
-            .map_rows(
-                lambda x:
-                (
-                    x[0],
-                    [get_sequence(x[0], source, x[1])
-                     for source in tensor_feature.feature_sources]
-                )
+            self._grouped_interactions.select(self._query_id_column, self._item_id_column).map_rows(
+                lambda x: (x[0], [get_sequence(x[0], source, x[1]) for source in tensor_feature.feature_sources])
             )
         ).rename({"column_0": self._query_id_column, "column_1": tensor_feature.name})
-        return pl.DataFrame({
-            self._query_id_column: result[self._query_id_column].to_list(),
-            tensor_feature.name: list(map(
-                lambda x: np.array(x).reshape(-1, len(tensor_feature.feature_sources)).tolist(),
-                result[tensor_feature.name].to_list()
-            ))
-        })
+        if tensor_feature.feature_hint == FeatureHint.TIMESTAMP:
+            reshape_size = -1
+        else:
+            reshape_size = (-1, len(tensor_feature.feature_sources))
+        return pl.DataFrame(
+            {
+                self._query_id_column: result[self._query_id_column].to_list(),
+                tensor_feature.name: [
+                    np.array(x).reshape(reshape_size).tolist() for x in result[tensor_feature.name].to_list()
+                ],
+            }
+        )
     def _process_num_feature(self, tensor_feature: TensorFeatureInfo) -> List[np.ndarray]:
         """
@@ -554,7 +682,10 @@ class _SequenceProcessor:
                 else:
                     assert False, "Unknown tensor feature source table"
             all_seqs = np.array(all_features_for_user, dtype=np.float32)
-            all_seqs = all_seqs.reshape(-1, (len(tensor_feature.feature_sources)))
+            if tensor_feature.feature_hint == FeatureHint.TIMESTAMP:
+                all_seqs = all_seqs.reshape(-1)
+            else:
+                all_seqs = all_seqs.reshape(-1, (len(tensor_feature.feature_sources)))
             values.append(all_seqs)
         return values
@@ -572,9 +703,9 @@ class _SequenceProcessor:
         assert source is not None
         if self._is_polars:
-            return self._grouped_interactions.select(
-                self._query_id_column, source.column
-            ).rename({source.column: tensor_feature.name})
+            return self._grouped_interactions.select(self._query_id_column, source.column).rename(
+                {source.column: tensor_feature.name}
+            )
         return [np.array(sequence, dtype=np.int64) for sequence in self._grouped_interactions[source.column]]
@@ -603,9 +734,9 @@ class _SequenceProcessor:
                 result = self._query_features
                 repeat_value = 1
-            return result.select(
-                self._query_id_column, pl.col(source.column).repeat_by(repeat_value)
-            ).rename({source.column: tensor_feature.name})
+            return result.select(self._query_id_column, pl.col(source.column).repeat_by(repeat_value)).rename(
+                {source.column: tensor_feature.name}
+            )
         query_feature = self._query_features[source.column].values
         if tensor_feature.is_seq:
@@ -632,20 +763,19 @@ class _SequenceProcessor:
         if self._is_polars:
             return (
-                self._grouped_interactions
-                .select(self._query_id_column, self._item_id_column)
+                self._grouped_interactions.select(self._query_id_column, self._item_id_column)
                 .map_rows(
-                    lambda x:
-                    (
+                    lambda x: (
                         x[0],
                         pl.DataFrame({self._item_id_column: x[1]})
                         .join(self._item_features, on=self._item_id_column, how="left")
-                        .select(source.column).to_numpy().reshape(-1).tolist(),
+                        .select(source.column)
+                        .to_numpy()
+                        .reshape(-1)
+                        .tolist(),
                     )
-                ).rename({
-                    "column_0": self._query_id_column,
-                    "column_1": tensor_feature.name
-                })
+                )
+                .rename({"column_0": self._query_id_column, "column_1": tensor_feature.name})
             )
         item_feature = self._item_features[source.column]

replay/data/nn/sequential_dataset.py CHANGED Viewed

@@ -6,11 +6,9 @@ import polars as pl
 from pandas import DataFrame as PandasDataFrame
 from polars import DataFrame as PolarsDataFrame
-from replay.data.schema import FeatureType
 from .schema import TensorSchema
-# pylint: disable=missing-function-docstring
 class SequentialDataset(abc.ABC):
     """
     Abstract base class for sequential dataset
@@ -132,19 +130,9 @@ class PandasSequentialDataset(SequentialDataset):
         self._sequences = sequences
-        for feature in tensor_schema.all_features:
-            if feature.feature_type == FeatureType.CATEGORICAL:
-                # pylint: disable=protected-access
-                feature._set_cardinality_callback(self.cardinality_callback)
     def __len__(self) -> int:
         return len(self._sequences)
-    def cardinality_callback(self, column: str) -> int:
-        if self._query_id_column == column:
-            return self._sequences.index.nunique()
-        return len({x for seq in self._sequences[column] for x in seq})
     def get_query_id(self, index: int) -> int:
         return self._sequences.index[index]
@@ -181,12 +169,12 @@ class PandasSequentialDataset(SequentialDataset):
     @classmethod
     def _check_if_schema_matches_data(cls, tensor_schema: TensorSchema, data: PandasDataFrame) -> None:
-        for tensor_feature_name in tensor_schema.keys():
+        for tensor_feature_name in tensor_schema:
             if tensor_feature_name not in data:
-                raise ValueError("Tensor schema does not match with provided data frame")
+                msg = "Tensor schema does not match with provided data frame"
+                raise ValueError(msg)
-# pylint:disable=super-init-not-called
 class PolarsSequentialDataset(PandasSequentialDataset):
     """
     Sequential dataset that stores sequences in PolarsDataFrame format.
@@ -215,11 +203,6 @@ class PolarsSequentialDataset(PandasSequentialDataset):
         if self._sequences.index.name != query_id_column:
             self._sequences = self._sequences.set_index(query_id_column)
-        for feature in tensor_schema.all_features:
-            if feature.feature_type == FeatureType.CATEGORICAL:
-                # pylint: disable=protected-access
-                feature._set_cardinality_callback(self.cardinality_callback)
     def filter_by_query_id(self, query_ids_to_keep: np.ndarray) -> "PolarsSequentialDataset":
         filtered_sequences = self._sequences.loc[query_ids_to_keep]
         if filtered_sequences.index.name == self._query_id_column:
@@ -233,6 +216,7 @@ class PolarsSequentialDataset(PandasSequentialDataset):
     @classmethod
     def _check_if_schema_matches_data(cls, tensor_schema: TensorSchema, data: PolarsDataFrame) -> None:
-        for tensor_feature_name in tensor_schema.keys():
+        for tensor_feature_name in tensor_schema:
             if tensor_feature_name not in data:
-                raise ValueError("Tensor schema does not match with provided data frame")
+                msg = "Tensor schema does not match with provided data frame"
+                raise ValueError(msg)

replay/data/nn/torch_sequential_dataset.py CHANGED Viewed

@@ -14,6 +14,7 @@ class TorchSequentialBatch(NamedTuple):
     """
     Batch of TorchSequentialDataset
     """
     query_id: torch.LongTensor
     padding_mask: torch.BoolTensor
     features: TensorMap
@@ -88,7 +89,7 @@ class TorchSequentialDataset(TorchDataset):
     ) -> torch.Tensor:
         sequence = self._sequential.get_sequence(sequence_index, feature.name)
         if feature.is_seq:
-            sequence = sequence[sequence_offset : sequence_offset + self._max_sequence_length]  # noqa: E203
+            sequence = sequence[sequence_offset : sequence_offset + self._max_sequence_length]
         tensor_dtype = self._get_tensor_dtype(feature)
         tensor_sequence = torch.tensor(sequence, dtype=tensor_dtype)
@@ -109,14 +110,15 @@ class TorchSequentialDataset(TorchDataset):
         elif len(sequence.shape) == 2:
             padded_sequence_shape = (self._max_sequence_length, sequence.shape[1])
         else:
-            raise ValueError(f"Unsupported shape for sequence: {len(sequence.shape)}")
+            msg = f"Unsupported shape for sequence: {len(sequence.shape)}"
+            raise ValueError(msg)
         padded_sequence = torch.full(
             padded_sequence_shape,
             self._padding_value,
             dtype=sequence.dtype,
         )
-        padded_sequence[-len(sequence) :].copy_(sequence)  # noqa: E203
+        padded_sequence[-len(sequence) :].copy_(sequence)
         return padded_sequence
     def _get_tensor_dtype(self, feature: TensorFeatureInfo) -> torch.dtype:
@@ -151,6 +153,7 @@ class TorchSequentialValidationBatch(NamedTuple):
     """
     Batch of TorchSequentialValidationDataset
     """
     query_id: torch.LongTensor
     padding_mask: torch.BoolTensor
     features: TensorMap
@@ -167,7 +170,6 @@ class TorchSequentialValidationDataset(TorchDataset):
     Torch dataset for sequential recommender models that additionally stores ground truth
     """
-    # pylint: disable=too-many-arguments
     def __init__(
         self,
         sequential: SequentialDataset,
@@ -195,19 +197,24 @@ class TorchSequentialValidationDataset(TorchDataset):
         if label_feature_name:
             if label_feature_name not in ground_truth.schema:
-                raise ValueError("Label feature name not found in ground truth schema")
+                msg = "Label feature name not found in ground truth schema"
+                raise ValueError(msg)
             if label_feature_name not in train.schema:
-                raise ValueError("Label feature name not found in train schema")
+                msg = "Label feature name not found in train schema"
+                raise ValueError(msg)
             if not ground_truth.schema[label_feature_name].is_cat:
-                raise ValueError("Label feature must be categorical")
+                msg = "Label feature must be categorical"
+                raise ValueError(msg)
             if not ground_truth.schema[label_feature_name].is_seq:
-                raise ValueError("Label feature must be sequential")
+                msg = "Label feature must be sequential"
+                raise ValueError(msg)
         if len(np.intersect1d(sequential.get_all_query_ids(), ground_truth.get_all_query_ids())) == 0:
-            raise ValueError("Sequential data and ground truth must contain the same query IDs")
+            msg = "Sequential data and ground truth must contain the same query IDs"
+            raise ValueError(msg)
         self._ground_truth = ground_truth
         self._train = train
@@ -271,7 +278,9 @@ class TorchSequentialValidationDataset(TorchDataset):
         ground_truth_item_feature = ground_truth_schema.item_id_features.item()
         if sequential_item_feature.name != ground_truth_item_feature.name:
-            raise ValueError("Schema mismatch: item feature name does not match ground truth")
+            msg = "Schema mismatch: item feature name does not match ground truth"
+            raise ValueError(msg)
         if sequential_item_feature.cardinality != ground_truth_item_feature.cardinality:
-            raise ValueError("Schema mismatch: item feature cardinality does not match ground truth")
+            msg = "Schema mismatch: item feature cardinality does not match ground truth"
+            raise ValueError(msg)

replay-rec 0.16.0rc0__py3-none-any.whl → 0.17.0__py3-none-any.whl

replay-rec 0.16.0rc0py3-none-any.whl → 0.17.0py3-none-any.whl