PyPI - nextrec - Versions diffs - 0.4.32__py3-none-any.whl → 0.4.34__py3-none-any.whl - Mend

nextrec 0.4.32py3-none-any.whl → 0.4.34py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (35) hide show

nextrec/__version__.py +1 -1
nextrec/basic/activation.py +14 -16
nextrec/basic/asserts.py +1 -22
nextrec/basic/callback.py +2 -2
nextrec/basic/features.py +6 -37
nextrec/basic/heads.py +13 -1
nextrec/basic/layers.py +9 -33
nextrec/basic/loggers.py +3 -2
nextrec/basic/metrics.py +85 -4
nextrec/basic/model.py +19 -12
nextrec/basic/summary.py +89 -42
nextrec/cli.py +54 -41
nextrec/data/preprocessor.py +74 -25
nextrec/loss/grad_norm.py +78 -76
nextrec/models/multi_task/ple.py +1 -0
nextrec/models/multi_task/share_bottom.py +1 -0
nextrec/models/tree_base/base.py +1 -1
nextrec/utils/__init__.py +2 -1
nextrec/utils/config.py +1 -1
nextrec/utils/console.py +1 -1
nextrec/utils/torch_utils.py +63 -56
nextrec/utils/types.py +43 -0
{nextrec-0.4.32.dist-info → nextrec-0.4.34.dist-info}/METADATA +4 -4
{nextrec-0.4.32.dist-info → nextrec-0.4.34.dist-info}/RECORD +27 -35
nextrec/models/representation/autorec.py +0 -0
nextrec/models/representation/bpr.py +0 -0
nextrec/models/representation/cl4srec.py +0 -0
nextrec/models/representation/lightgcn.py +0 -0
nextrec/models/representation/mf.py +0 -0
nextrec/models/representation/s3rec.py +0 -0
nextrec/models/sequential/sasrec.py +0 -0
nextrec/utils/feature.py +0 -29
{nextrec-0.4.32.dist-info → nextrec-0.4.34.dist-info}/WHEEL +0 -0
{nextrec-0.4.32.dist-info → nextrec-0.4.34.dist-info}/entry_points.txt +0 -0
{nextrec-0.4.32.dist-info → nextrec-0.4.34.dist-info}/licenses/LICENSE +0 -0

nextrec/basic/summary.py CHANGED Viewed

@@ -8,6 +8,7 @@ Author: Yang Zhou,zyaztec@gmail.com
 from __future__ import annotations
+import inspect
 import logging
 from typing import Any, Literal
@@ -34,6 +35,7 @@ class SummarySet:
     scheduler_name: str | None
     scheduler_params: dict[str, Any]
     loss_config: Any
+    loss_params: Any
     loss_weights: Any
     grad_norm: Any
     embedding_l1_reg: float
@@ -73,7 +75,8 @@ class SummarySet:
     def build_data_summary(
         self, data: Any, data_loader: DataLoader | None, sample_key: str
     ):
-        dataset = data_loader.dataset if data_loader else None
+        dataset = data_loader.dataset if data_loader is not None else None
         train_size = get_data_length(dataset)
         if train_size is None:
@@ -324,6 +327,73 @@ class SummarySet:
             if hasattr(self, "loss_config"):
                 logger.info(f"Loss Function:           {self.loss_config}")
+            loss_params_summary: list[str] = []
+            loss_fn = getattr(self, "loss_fn", None)
+            if loss_fn is not None:
+                loss_modules = (
+                    list(loss_fn) if isinstance(loss_fn, (list, tuple)) else [loss_fn]
+                )
+                loss_config = getattr(self, "loss_config", None)
+                if isinstance(loss_config, list):
+                    loss_names = loss_config
+                elif loss_config is not None:
+                    loss_names = [loss_config] * len(loss_modules)
+                else:
+                    loss_names = [None] * len(loss_modules)
+                loss_params = getattr(self, "loss_params", None)
+                if isinstance(loss_params, list):
+                    explicit_params = loss_params
+                elif isinstance(loss_params, dict):
+                    explicit_params = [loss_params] * len(loss_modules)
+                else:
+                    explicit_params = [None] * len(loss_modules)
+                for idx, loss_module in enumerate(loss_modules):
+                    params: dict[str, Any] = {}
+                    explicit = (
+                        explicit_params[idx] if idx < len(explicit_params) else None
+                    )
+                    if explicit:
+                        params.update(explicit)
+                    try:
+                        signature = inspect.signature(loss_module.__class__.__init__)
+                    except (TypeError, ValueError):
+                        signature = None
+                    if signature is not None:
+                        for name, param in signature.parameters.items():
+                            if name == "self" or name.startswith("_"):
+                                continue
+                            if hasattr(loss_module, name):
+                                value = getattr(loss_module, name)
+                                if callable(value):
+                                    continue
+                                params.setdefault(name, value)
+                            elif (
+                                param.default is not inspect._empty
+                                and param.default is not None
+                            ):
+                                params.setdefault(name, param.default)
+                    if not params:
+                        continue
+                    loss_name = loss_names[idx] if idx < len(loss_names) else None
+                    if len(loss_modules) > 1:
+                        header = f"  [{idx}]"
+                        if loss_name is not None:
+                            header = f"{header} {loss_name}"
+                        loss_params_summary.append(header)
+                        indent = "    "
+                    else:
+                        indent = "  "
+                    for key, value in params.items():
+                        loss_params_summary.append(f"{indent}{key:25s}: {value}")
+            if loss_params_summary:
+                logger.info("Loss Params:")
+                for line in loss_params_summary:
+                    logger.info(line)
             if hasattr(self, "loss_weights"):
                 logger.info(f"Loss Weights:            {self.loss_weights}")
             if hasattr(self, "grad_norm"):
@@ -354,53 +424,30 @@ class SummarySet:
             logger.info("")
             logger.info(colorize("Data Summary", color="cyan", bold=True))
             logger.info(colorize("-" * 80, color="cyan"))
-            if self.train_data_summary:
-                train_samples = self.train_data_summary.get("train_samples")
-                if train_samples is not None:
-                    logger.info(format_kv("Train Samples", f"{train_samples:,}"))
-                label_distributions = self.train_data_summary.get("label_distributions")
-                if isinstance(label_distributions, dict):
-                    for target_name, details in label_distributions.items():
-                        lines = details.get("lines", [])
-                        logger.info(f"{target_name}:")
-                        for label, value in lines:
-                            logger.info(f"  {format_kv(label, value)}")
-                dataloader_info = self.train_data_summary.get("dataloader")
-                if isinstance(dataloader_info, dict):
-                    logger.info("Train DataLoader:")
-                    for key in (
-                        "batch_size",
-                        "num_workers",
-                        "pin_memory",
-                        "persistent_workers",
-                        "sampler",
-                    ):
-                        if key in dataloader_info:
-                            label = key.replace("_", " ").title()
-                            logger.info(
-                                format_kv(label, dataloader_info[key], indent=2)
-                            )
-            if self.valid_data_summary:
-                if self.train_data_summary:
+            for label, data_summary in (
+                ("Train", self.train_data_summary),
+                ("Valid", self.valid_data_summary),
+            ):
+                if not data_summary:
+                    continue
+                if label == "Valid" and self.train_data_summary:
                     logger.info("")
-                valid_samples = self.valid_data_summary.get("valid_samples")
-                if valid_samples is not None:
-                    logger.info(format_kv("Valid Samples", f"{valid_samples:,}"))
+                sample_key = "train_samples" if label == "Train" else "valid_samples"
+                samples = data_summary.get(sample_key)
+                if samples is not None:
+                    logger.info(format_kv(f"{label} Samples", f"{samples:,}"))
-                label_distributions = self.valid_data_summary.get("label_distributions")
+                label_distributions = data_summary.get("label_distributions")
                 if isinstance(label_distributions, dict):
                     for target_name, details in label_distributions.items():
                         lines = details.get("lines", [])
                         logger.info(f"{target_name}:")
-                        for label, value in lines:
-                            logger.info(f"  {format_kv(label, value)}")
+                        for line_label, value in lines:
+                            logger.info(f"  {format_kv(line_label, value)}")
-                dataloader_info = self.valid_data_summary.get("dataloader")
+                dataloader_info = data_summary.get("dataloader")
                 if isinstance(dataloader_info, dict):
-                    logger.info("Valid DataLoader:")
+                    logger.info(f"{label} DataLoader:")
                     for key in (
                         "batch_size",
                         "num_workers",
@@ -409,7 +456,7 @@ class SummarySet:
                         "sampler",
                     ):
                         if key in dataloader_info:
-                            label = key.replace("_", " ").title()
+                            field_label = key.replace("_", " ").title()
                             logger.info(
-                                format_kv(label, dataloader_info[key], indent=2)
+                                format_kv(field_label, dataloader_info[key], indent=2)
                             )

nextrec/cli.py CHANGED Viewed

@@ -48,7 +48,7 @@ from nextrec.utils.data import (
     read_yaml,
     resolve_file_paths,
 )
-from nextrec.utils.feature import to_list
+from nextrec.utils.torch_utils import to_list
 logger = logging.getLogger(__name__)
@@ -152,16 +152,17 @@ def train_model(train_config_path: str) -> None:
     )
     if data_cfg.get("valid_ratio") is not None:
         logger.info(format_kv("Valid ratio", data_cfg.get("valid_ratio")))
-    if data_cfg.get("val_path") or data_cfg.get("valid_path"):
+    if data_cfg.get("valid_path"):
         logger.info(
             format_kv(
                 "Validation path",
-                resolve_path(
-                    data_cfg.get("val_path") or data_cfg.get("valid_path"), config_dir
-                ),
+                resolve_path(data_cfg.get("valid_path"), config_dir),
             )
         )
+    # Determine validation dataset path early for streaming split / fitting
+    val_data_path = data_cfg.get("valid_path")
     if streaming:
         file_paths, file_type = resolve_file_paths(str(data_path))
         log_kv_lines(
@@ -180,6 +181,34 @@ def train_model(train_config_path: str) -> None:
             raise ValueError(f"Data file is empty: {first_file}") from exc
         df_columns = list(first_chunk.columns)
+        # Decide training/validation file lists before fitting processor, to avoid
+        # leaking validation statistics into preprocessing (scalers/encoders).
+        streaming_train_files = file_paths
+        streaming_valid_ratio = data_cfg.get("valid_ratio")
+        if val_data_path:
+            streaming_valid_files = None
+        elif streaming_valid_ratio is not None:
+            ratio = float(streaming_valid_ratio)
+            if not (0 < ratio < 1):
+                raise ValueError(
+                    f"[NextRec CLI Error] Valid_ratio must be between 0 and 1, current value is {streaming_valid_ratio}"
+                )
+            total_files = len(file_paths)
+            if total_files < 2:
+                raise ValueError(
+                    "[NextRec CLI Error] Must provide valid_path or increase the number of data files. At least 2 files are required for streaming validation split."
+                )
+            val_count = max(1, int(round(total_files * ratio)))
+            if val_count >= total_files:
+                val_count = total_files - 1
+            streaming_valid_files = file_paths[-val_count:]
+            streaming_train_files = file_paths[:-val_count]
+            logger.info(
+                f"Split files for streaming training and validation using valid_ratio={ratio:.3f}: training {len(streaming_train_files)} files, validation {len(streaming_valid_files)} files"
+            )
+        else:
+            streaming_valid_files = None
     else:
         df = read_table(data_path, data_cfg.get("format"))
         logger.info(format_kv("Rows", len(df)))
@@ -215,7 +244,15 @@ def train_model(train_config_path: str) -> None:
     )
     if streaming:
-        processor.fit(str(data_path), chunk_size=dataloader_chunk_size)
+        if file_type is None:
+            raise ValueError(
+                "[NextRec CLI Error] Streaming mode requires a valid file_type"
+            )
+        processor.fit_from_files(
+            file_paths=streaming_train_files or file_paths,
+            file_type=file_type,
+            chunk_size=dataloader_chunk_size,
+        )
         processed = None
         df = None  # type: ignore[assignment]
     else:
@@ -232,34 +269,6 @@ def train_model(train_config_path: str) -> None:
         sequence_names,
     )
-    # Check if validation dataset path is specified
-    val_data_path = data_cfg.get("val_path") or data_cfg.get("valid_path")
-    if streaming:
-        if not file_paths:
-            file_paths, file_type = resolve_file_paths(str(data_path))
-        streaming_train_files = file_paths
-        streaming_valid_ratio = data_cfg.get("valid_ratio")
-        if val_data_path:
-            streaming_valid_files = None
-        elif streaming_valid_ratio is not None:
-            ratio = float(streaming_valid_ratio)
-            if not (0 < ratio < 1):
-                raise ValueError(
-                    f"[NextRec CLI Error] Valid_ratio must be between 0 and 1, current value is {streaming_valid_ratio}"
-                )
-            total_files = len(file_paths)
-            if total_files < 2:
-                raise ValueError(
-                    "[NextRec CLI Error] Must provide val_path or increase the number of data files. At least 2 files are required for streaming validation split."
-                )
-            val_count = max(1, int(round(total_files * ratio)))
-            if val_count >= total_files:
-                val_count = total_files - 1
-            streaming_valid_files = file_paths[-val_count:]
-            streaming_train_files = file_paths[:-val_count]
-            logger.info(
-                f"Split files for streaming training and validation using valid_ratio={ratio:.3f}: training {len(streaming_train_files)} files, validation {len(streaming_valid_files)} files"
-            )
     train_data: Dict[str, Any]
     valid_data: Dict[str, Any] | None
@@ -604,8 +613,13 @@ def predict_model(predict_config_path: str) -> None:
         "save_data_format", predict_cfg.get("save_format", "csv")
     )
     pred_name = predict_cfg.get("name", "pred")
-    save_path = checkpoint_base / "predictions" / f"{pred_name}.{save_format}"
+    pred_name_path = Path(pred_name)
+    if pred_name_path.is_absolute():
+        save_path = pred_name_path
+        if save_path.suffix == "":
+            save_path = save_path.with_suffix(f".{save_format}")
+    else:
+        save_path = checkpoint_base / "predictions" / f"{pred_name}.{save_format}"
     start = time.time()
     logger.info("")
@@ -620,11 +634,10 @@ def predict_model(predict_config_path: str) -> None:
     )
     duration = time.time() - start
     # When return_dataframe=False, result is the actual file path
-    output_path = (
-        result
-        if isinstance(result, Path)
-        else checkpoint_base / "predictions" / save_path
-    )
+    if isinstance(result, (str, Path)):
+        output_path = Path(result)
+    else:
+        output_path = save_path
     logger.info(f"Prediction completed, results saved to: {output_path}")
     logger.info(f"Total time: {duration:.2f} seconds")

nextrec/data/preprocessor.py CHANGED Viewed

@@ -566,35 +566,16 @@ class DataProcessor(FeatureSet):
             return [str(v) for v in value]
         return [str(value)]
-    def fit_from_path(self, path: str, chunk_size: int) -> "DataProcessor":
-        """
-        Fit processor statistics by streaming files to reduce memory usage.
-        Args:
-            path (str): File or directory path.
-            chunk_size (int): Number of rows per chunk.
-        Returns:
-            DataProcessor: Fitted DataProcessor instance.
-        """
+    def fit_from_file_paths(
+        self, file_paths: list[str], file_type: str, chunk_size: int
+    ) -> "DataProcessor":
         logger = logging.getLogger()
-        logger.info(
-            colorize(
-                "Fitting DataProcessor (streaming path mode)...",
-                color="cyan",
-                bold=True,
-            )
-        )
-        for config in self.sparse_features.values():
-            config.pop("_min_freq_logged", None)
-        for config in self.sequence_features.values():
-            config.pop("_min_freq_logged", None)
-        file_paths, file_type = resolve_file_paths(path)
+        if not file_paths:
+            raise ValueError("[DataProcessor Error] Empty file list for streaming fit")
         if not check_streaming_support(file_type):
             raise ValueError(
                 f"[DataProcessor Error] Format '{file_type}' does not support streaming. "
-                "fit_from_path only supports streaming formats (csv, parquet) to avoid high memory usage. "
-                "Use fit(dataframe) with in-memory data or convert the data format."
+                "Streaming fit only supports csv, parquet to avoid high memory usage."
             )
         numeric_acc = {}
@@ -636,6 +617,7 @@ class DataProcessor(FeatureSet):
         target_values: Dict[str, set[Any]] = {
             name: set() for name in self.target_features.keys()
         }
         missing_features = set()
         for file_path in file_paths:
             for chunk in iter_file_chunks(file_path, file_type, chunk_size):
@@ -702,10 +684,12 @@ class DataProcessor(FeatureSet):
                 for name in self.target_features.keys() & columns:
                     vals = chunk[name].dropna().tolist()
                     target_values[name].update(vals)
         if missing_features:
             logger.warning(
                 f"The following configured features were not found in provided files: {sorted(missing_features)}"
             )
         # finalize numeric scalers
         for name, config in self.numeric_features.items():
             acc = numeric_acc[name]
@@ -895,6 +879,71 @@ class DataProcessor(FeatureSet):
         )
         return self
+    def fit_from_files(
+        self, file_paths: list[str], file_type: str, chunk_size: int
+    ) -> "DataProcessor":
+        """Fit processor statistics by streaming an explicit list of files.
+        This is useful when you want to fit statistics on training files only (exclude
+        validation files) in streaming mode.
+        """
+        logger = logging.getLogger()
+        logger.info(
+            colorize(
+                "Fitting DataProcessor (streaming files mode)...",
+                color="cyan",
+                bold=True,
+            )
+        )
+        for config in self.sparse_features.values():
+            config.pop("_min_freq_logged", None)
+        for config in self.sequence_features.values():
+            config.pop("_min_freq_logged", None)
+        uses_robust = any(
+            cfg.get("scaler") == "robust" for cfg in self.numeric_features.values()
+        )
+        if uses_robust:
+            logger.warning(
+                "Robust scaler requires full data; loading provided files into memory. "
+                "Consider smaller chunk_size or different scaler if memory is limited."
+            )
+            frames = [read_table(p, file_type) for p in file_paths]
+            df = pd.concat(frames, ignore_index=True) if len(frames) > 1 else frames[0]
+            return self.fit(df)
+        return self.fit_from_file_paths(
+            file_paths=file_paths, file_type=file_type, chunk_size=chunk_size
+        )
+    def fit_from_path(self, path: str, chunk_size: int) -> "DataProcessor":
+        """
+        Fit processor statistics by streaming files to reduce memory usage.
+        Args:
+            path (str): File or directory path.
+            chunk_size (int): Number of rows per chunk.
+        Returns:
+            DataProcessor: Fitted DataProcessor instance.
+        """
+        logger = logging.getLogger()
+        logger.info(
+            colorize(
+                "Fitting DataProcessor (streaming path mode)...",
+                color="cyan",
+                bold=True,
+            )
+        )
+        for config in self.sparse_features.values():
+            config.pop("_min_freq_logged", None)
+        for config in self.sequence_features.values():
+            config.pop("_min_freq_logged", None)
+        file_paths, file_type = resolve_file_paths(path)
+        return self.fit_from_file_paths(
+            file_paths=file_paths,
+            file_type=file_type,
+            chunk_size=chunk_size,
+        )
     @overload
     def transform_in_memory(
         self,

nextrec 0.4.32__py3-none-any.whl → 0.4.34__py3-none-any.whl

nextrec 0.4.32py3-none-any.whl → 0.4.34py3-none-any.whl