PyPI - nextrec - Versions diffs - 0.3.3__py3-none-any.whl → 0.3.5__py3-none-any.whl - Mend

nextrec 0.3.3py3-none-any.whl → 0.3.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (25) hide show

nextrec/__version__.py +1 -1
nextrec/basic/features.py +1 -1
nextrec/basic/loggers.py +71 -8
nextrec/basic/model.py +45 -11
nextrec/basic/session.py +3 -10
nextrec/data/__init__.py +47 -9
nextrec/data/batch_utils.py +80 -0
nextrec/data/data_processing.py +152 -0
nextrec/data/data_utils.py +35 -268
nextrec/data/dataloader.py +6 -4
nextrec/data/preprocessor.py +39 -85
nextrec/models/multi_task/poso.py +1 -1
nextrec/utils/__init__.py +53 -3
nextrec/utils/device.py +37 -0
nextrec/utils/feature.py +13 -0
nextrec/utils/file.py +70 -0
nextrec/utils/initializer.py +0 -8
nextrec/utils/model.py +22 -0
nextrec/utils/optimizer.py +0 -19
nextrec/utils/tensor.py +61 -0
{nextrec-0.3.3.dist-info → nextrec-0.3.5.dist-info}/METADATA +3 -3
{nextrec-0.3.3.dist-info → nextrec-0.3.5.dist-info}/RECORD +24 -18
nextrec/utils/common.py +0 -60
{nextrec-0.3.3.dist-info → nextrec-0.3.5.dist-info}/WHEEL +0 -0
{nextrec-0.3.3.dist-info → nextrec-0.3.5.dist-info}/licenses/LICENSE +0 -0

nextrec/__version__.py CHANGED Viewed

	@@ -1 +1 @@
1	- __version__ = "0.3.3"
1	+ __version__ = "0.3.5"

nextrec/basic/features.py CHANGED Viewed

@@ -7,7 +7,7 @@ Author: Yang Zhou, zyaztec@gmail.com
 """
 import torch
 from nextrec.utils.embedding import get_auto_embedding_dim
-from nextrec.utils.common import normalize_to_list
+from nextrec.utils.feature import normalize_to_list
 class BaseFeature(object):
     def __repr__(self):

nextrec/basic/loggers.py CHANGED Viewed

@@ -2,17 +2,19 @@
 NextRec Basic Loggers
 Date: create on 27/10/2025
-Checkpoint: edit on 29/11/2025
+Checkpoint: edit on 03/12/2025
 Author: Yang Zhou, zyaztec@gmail.com
 """
 import os
 import re
 import sys
+import json
 import copy
 import logging
-from nextrec.basic.session import create_session
+import numbers
+from typing import Mapping, Any
+from nextrec.basic.session import create_session, Session
 ANSI_CODES = {
     'black': '\033[30m',
@@ -77,17 +79,12 @@ def colorize(text: str, color: str | None = None, bold: bool = False) -> str:
     """Apply ANSI color and bold formatting to the given text."""
     if not color and not bold:
         return text
     result = ""
     if bold:
         result += ANSI_BOLD
     if color and color in ANSI_CODES:
         result += ANSI_CODES[color]
     result += text + ANSI_RESET
     return result
 def setup_logger(session_id: str | os.PathLike | None = None):
@@ -126,3 +123,69 @@ def setup_logger(session_id: str | os.PathLike | None = None):
     logger.addHandler(console_handler)
     return logger
+class TrainingLogger:
+    def __init__(
+        self,
+        session: Session,
+        enable_tensorboard: bool,
+        log_name: str = "training_metrics.jsonl",
+    ) -> None:
+        self.session = session
+        self.enable_tensorboard = enable_tensorboard
+        self.log_path = session.metrics_dir / log_name
+        self.log_path.parent.mkdir(parents=True, exist_ok=True)
+        self.tb_writer = None
+        self.tb_dir = None
+        if self.enable_tensorboard:
+            self._init_tensorboard()
+    def _init_tensorboard(self) -> None:
+        try:
+            from torch.utils.tensorboard import SummaryWriter  # type: ignore
+        except ImportError:
+            logging.warning("[TrainingLogger] tensorboard not installed, disable tensorboard logging.")
+            self.enable_tensorboard = False
+            return
+        tb_dir = self.session.logs_dir / "tensorboard"
+        tb_dir.mkdir(parents=True, exist_ok=True)
+        self.tb_dir = tb_dir
+        self.tb_writer = SummaryWriter(log_dir=str(tb_dir))
+    @property
+    def tensorboard_logdir(self):
+        return self.tb_dir
+    def format_metrics(self, metrics: Mapping[str, Any], split: str) -> dict[str, float]:
+        formatted: dict[str, float] = {}
+        for key, value in metrics.items():
+            if isinstance(value, numbers.Number):
+                formatted[f"{split}/{key}"] = float(value)
+            elif hasattr(value, "item"):
+                try:
+                    formatted[f"{split}/{key}"] = float(value.item())
+                except Exception:
+                    continue
+        return formatted
+    def log_metrics(self, metrics: Mapping[str, Any], step: int, split: str = "train") -> None:
+        payload = self.format_metrics(metrics, split)
+        payload["step"] = int(step)
+        with self.log_path.open("a", encoding="utf-8") as f:
+            f.write(json.dumps(payload, ensure_ascii=False) + "\n")
+        if not self.tb_writer:
+            return
+        step = int(payload.get("step", 0))
+        for key, value in payload.items():
+            if key == "step":
+                continue
+            self.tb_writer.add_scalar(key, value, global_step=step)
+    def close(self) -> None:
+        if self.tb_writer:
+            self.tb_writer.flush()
+            self.tb_writer.close()
+            self.tb_writer = None

nextrec/basic/model.py CHANGED Viewed

@@ -10,6 +10,8 @@ import os
 import tqdm
 import pickle
 import logging
+import getpass
+import socket
 import numpy as np
 import pandas as pd
 import torch
@@ -24,15 +26,17 @@ from nextrec.basic.callback import EarlyStopper
 from nextrec.basic.features import DenseFeature, SparseFeature, SequenceFeature, FeatureSet
 from nextrec.data.dataloader import TensorDictDataset, RecDataLoader
-from nextrec.basic.loggers import setup_logger, colorize
+from nextrec.basic.loggers import setup_logger, colorize, TrainingLogger
 from nextrec.basic.session import resolve_save_path, create_session
 from nextrec.basic.metrics import configure_metrics, evaluate_metrics, check_user_id
 from nextrec.data.dataloader import build_tensors_from_data
-from nextrec.data.data_utils import get_column_data, collate_fn, batch_to_dict, get_user_ids
+from nextrec.data.data_processing import get_column_data, get_user_ids
+from nextrec.data.batch_utils import collate_fn, batch_to_dict
 from nextrec.loss import get_loss_fn, get_loss_kwargs
-from nextrec.utils import get_optimizer, get_scheduler, to_tensor
+from nextrec.utils import get_optimizer, get_scheduler
+from nextrec.utils.tensor import to_tensor
 from nextrec import __version__
@@ -88,6 +92,7 @@ class BaseModel(FeatureSet, nn.Module):
         self.early_stop_patience = early_stop_patience
         self.max_gradient_norm = 1.0
         self.logger_initialized = False
+        self.training_logger: TrainingLogger | None = None
     def register_regularization_weights(self, embedding_attr: str = "embedding", exclude_modules: list[str] | None = None, include_modules: list[str] | None = None) -> None:
         exclude_modules = exclude_modules or []
@@ -275,11 +280,13 @@ class BaseModel(FeatureSet, nn.Module):
             metrics: list[str] | dict[str, list[str]] | None = None, # ['auc', 'logloss'] or {'target1': ['auc', 'logloss'], 'target2': ['mse']}
             epochs:int=1, shuffle:bool=True, batch_size:int=32,
             user_id_column: str | None = None,
-            validation_split: float | None = None):
+            validation_split: float | None = None,
+            tensorboard: bool = True,):
         self.to(self.device)
         if not self.logger_initialized:
             setup_logger(session_id=self.session_id)
             self.logger_initialized = True
+        self.training_logger = TrainingLogger(session=self.session, enable_tensorboard=tensorboard)
         self.metrics, self.task_specific_metrics, self.best_metrics_mode = configure_metrics(task=self.task, metrics=metrics, target_names=self.target_columns) # ['auc', 'logloss'], {'target1': ['auc', 'logloss'], 'target2': ['mse']}, 'max'
         self.early_stopper = EarlyStopper(patience=self.early_stop_patience, mode=self.best_metrics_mode)
@@ -303,6 +310,20 @@ class BaseModel(FeatureSet, nn.Module):
             is_streaming = True
         self.summary()
+        logging.info("")
+        if self.training_logger and self.training_logger.enable_tensorboard:
+            tb_dir = self.training_logger.tensorboard_logdir
+            if tb_dir:
+                user = getpass.getuser()
+                host = socket.gethostname()
+                tb_cmd = f"tensorboard --logdir {tb_dir} --port 6006"
+                ssh_hint = f"ssh -L 6006:localhost:6006 {user}@{host}"
+                logging.info(colorize(f"TensorBoard logs saved to: {tb_dir}", color="cyan"))
+                logging.info(colorize("To view logs, run:", color="cyan"))
+                logging.info(colorize(f"    {tb_cmd}", color="cyan"))
+                logging.info(colorize("Then SSH port forward:", color="cyan"))
+                logging.info(colorize(f"    {ssh_hint}", color="cyan"))
         logging.info("")
         logging.info(colorize("=" * 80, bold=True))
         if is_streaming:
@@ -312,7 +333,7 @@ class BaseModel(FeatureSet, nn.Module):
         logging.info(colorize("=" * 80, bold=True))
         logging.info("")
         logging.info(colorize(f"Model device: {self.device}", bold=True))
         for epoch in range(epochs):
             self.epoch_index = epoch
             if is_streaming:
@@ -326,7 +347,8 @@ class BaseModel(FeatureSet, nn.Module):
             else:
                 train_loss = train_result
                 train_metrics = None
+            train_log_payload: dict[str, float] = {}
             # handle logging for single-task and multi-task
             if self.nums_task == 1:
                 log_str = f"Epoch {epoch + 1}/{epochs} - Train: loss={train_loss:.4f}"
@@ -334,6 +356,9 @@ class BaseModel(FeatureSet, nn.Module):
                     metrics_str = ", ".join([f"{k}={v:.4f}" for k, v in train_metrics.items()])
                     log_str += f", {metrics_str}"
                 logging.info(colorize(log_str))
+                train_log_payload["loss"] = float(train_loss)
+                if train_metrics:
+                    train_log_payload.update(train_metrics)
             else:
                 total_loss_val = np.sum(train_loss) if isinstance(train_loss, np.ndarray) else train_loss  # type: ignore
                 log_str = f"Epoch {epoch + 1}/{epochs} - Train: loss={total_loss_val:.4f}"
@@ -356,12 +381,17 @@ class BaseModel(FeatureSet, nn.Module):
                                 task_metric_strs.append(f"{target_name}[{metrics_str}]")
                         log_str += ", " + ", ".join(task_metric_strs)
                 logging.info(colorize(log_str))
+                train_log_payload["loss"] = float(total_loss_val)
+                if train_metrics:
+                    train_log_payload.update(train_metrics)
+            if self.training_logger:
+                self.training_logger.log_metrics(train_log_payload, step=epoch + 1, split="train")
             if valid_loader is not None:
                 # pass user_ids only if needed for GAUC metric
                 val_metrics = self.evaluate(valid_loader, user_ids=valid_user_ids if self.needs_user_ids else None) # {'auc': 0.75, 'logloss': 0.45} or {'auc_target1': 0.75, 'logloss_target1': 0.45, 'mse_target2': 3.2}
                 if self.nums_task == 1:
                     metrics_str = ", ".join([f"{k}={v:.4f}" for k, v in val_metrics.items()])
-                    logging.info(colorize(f"Epoch {epoch + 1}/{epochs} - Valid: {metrics_str}", color="cyan"))
+                    logging.info(colorize(f"  Epoch {epoch + 1}/{epochs} - Valid: {metrics_str}", color="cyan"))
                 else:
                     # multi task metrics
                     task_metrics = {}
@@ -378,7 +408,9 @@ class BaseModel(FeatureSet, nn.Module):
                         if target_name in task_metrics:
                             metrics_str = ", ".join([f"{k}={v:.4f}" for k, v in task_metrics[target_name].items()])
                             task_metric_strs.append(f"{target_name}[{metrics_str}]")
-                    logging.info(colorize(f"Epoch {epoch + 1}/{epochs} - Valid: " + ", ".join(task_metric_strs), color="cyan"))
+                    logging.info(colorize(f"  Epoch {epoch + 1}/{epochs} - Valid: " + ", ".join(task_metric_strs), color="cyan"))
+                if val_metrics and self.training_logger:
+                    self.training_logger.log_metrics(val_metrics, step=epoch + 1, split="valid")
                 # Handle empty validation metrics
                 if not val_metrics:
                     self.save_model(self.checkpoint_path, add_timestamp=False, verbose=False)
@@ -401,6 +433,7 @@ class BaseModel(FeatureSet, nn.Module):
                         self.best_metric = primary_metric
                         improved = True
                 self.save_model(self.checkpoint_path, add_timestamp=False, verbose=False)
+                logging.info(" ")
                 if improved:
                     logging.info(colorize(f"Validation {primary_metric_key} improved to {self.best_metric:.4f}"))
                     self.save_model(self.best_path, add_timestamp=False, verbose=False)
@@ -431,6 +464,8 @@ class BaseModel(FeatureSet, nn.Module):
         if valid_loader is not None:
             logging.info(colorize(f"Load best model from: {self.best_checkpoint_path}"))
             self.load_model(self.best_checkpoint_path, map_location=self.device, verbose=False)
+        if self.training_logger:
+            self.training_logger.close()
         return self
     def train_epoch(self, train_loader: DataLoader, is_streaming: bool = False) -> Union[float, np.ndarray, tuple[Union[float, np.ndarray], dict]]:
@@ -527,6 +562,7 @@ class BaseModel(FeatureSet, nn.Module):
                     batch_user_id = get_user_ids(data=batch_dict, id_columns=self.id_columns)
                     if batch_user_id is not None:
                         collected_user_ids.append(batch_user_id)
+        logging.info(" ")
         logging.info(colorize(f"  Evaluation batches processed: {batch_count}", color="cyan"))
         if len(y_true_list) > 0:
             y_true_all = np.concatenate(y_true_list, axis=0)
@@ -956,9 +992,7 @@ class BaseModel(FeatureSet, nn.Module):
         logger.info(f"  Session ID:            {self.session_id}")
         logger.info(f"  Features Config Path:  {self.features_config_path}")
         logger.info(f"  Latest Checkpoint:     {self.checkpoint_path}")
-        logger.info("")
-        logger.info("")
 class BaseMatchModel(BaseModel):

nextrec/basic/session.py CHANGED Viewed

@@ -1,14 +1,5 @@
 """Session and experiment utilities.
-This module centralizes session/experiment management so the rest of the
-framework writes all artifacts to a consistent location:: <pwd>/log/<experiment_id>/
-Within that folder we keep model parameters, checkpoints, training metrics,
-evaluation metrics, and consolidated log output. When users do not provide an
-``experiment_id`` a timestamp-based identifier is generated once per process to
-avoid scattering files across multiple directories. Test runs are redirected to
-temporary folders so local trees are not polluted.
 Date: create on 23/11/2025
 Author: Yang Zhou,zyaztec@gmail.com
 """
@@ -16,7 +7,7 @@ Author: Yang Zhou,zyaztec@gmail.com
 import os
 import tempfile
 from dataclasses import dataclass
-from datetime import datetime
+from datetime import datetime, timezone
 from pathlib import Path
 __all__ = [
@@ -74,6 +65,7 @@ def create_session(experiment_id: str | Path | None = None) -> Session:
     if experiment_id is not None and str(experiment_id).strip():
         exp_id = str(experiment_id).strip()
     else:
+        # Use local time for session naming
         exp_id = "nextrec_session_" + datetime.now().strftime("%Y%m%d")
     if (
@@ -111,6 +103,7 @@ def resolve_save_path(
       timestamp.
     - Parent directories are created.
     """
+    # Use local time for file timestamps
     timestamp = datetime.now().strftime("%Y%m%d_%H%M%S") if add_timestamp else None
     normalized_suffix = suffix if suffix.startswith(".") else f".{suffix}"

nextrec/data/__init__.py CHANGED Viewed

@@ -1,48 +1,86 @@
 """
 Data utilities package for NextRec
-This package provides data processing and manipulation utilities.
+This package provides data processing and manipulation utilities organized by category:
+- batch_utils: Batch collation and processing
+- data_processing: Data manipulation and user ID extraction
+- data_utils: Legacy module (re-exports from specialized modules)
+- dataloader: Dataset and DataLoader implementations
+- preprocessor: Data preprocessing pipeline
 Date: create on 13/11/2025
+Last update: 03/12/2025 (refactored)
 Author: Yang Zhou, zyaztec@gmail.com
 """
-from nextrec.data.data_utils import (
-    collate_fn,
+# Batch utilities
+from nextrec.data.batch_utils import collate_fn, batch_to_dict, stack_section
+# Data processing utilities
+from nextrec.data.data_processing import (
     get_column_data,
-    default_output_dir,
     split_dict_random,
     build_eval_candidates,
+    get_user_ids,
+)
+# File utilities (from utils package)
+from nextrec.utils.file import (
     resolve_file_paths,
     iter_file_chunks,
     read_table,
     load_dataframes,
+    default_output_dir,
 )
-from nextrec.basic.features import FeatureSet
-from nextrec.data import data_utils
+# DataLoader components
 from nextrec.data.dataloader import (
     TensorDictDataset,
     FileDataset,
     RecDataLoader,
     build_tensors_from_data,
 )
+# Preprocessor
 from nextrec.data.preprocessor import DataProcessor
+# Feature definitions
+from nextrec.basic.features import FeatureSet
+# Legacy module (for backward compatibility)
+from nextrec.data import data_utils
 __all__ = [
+    # Batch utilities
     'collate_fn',
+    'batch_to_dict',
+    'stack_section',
+    # Data processing
     'get_column_data',
-    'default_output_dir',
     'split_dict_random',
     'build_eval_candidates',
+    'get_user_ids',
+    # File utilities
     'resolve_file_paths',
     'iter_file_chunks',
     'read_table',
     'load_dataframes',
-    'FeatureSet',
-    'data_utils',
+    'default_output_dir',
+    # DataLoader
     'TensorDictDataset',
     'FileDataset',
     'RecDataLoader',
     'build_tensors_from_data',
+    # Preprocessor
     'DataProcessor',
+    # Features
+    'FeatureSet',
+    # Legacy module
+    'data_utils',
 ]

nextrec/data/batch_utils.py ADDED Viewed

@@ -0,0 +1,80 @@
+"""
+Batch collation utilities for NextRec
+Date: create on 03/12/2025
+Author: Yang Zhou, zyaztec@gmail.com
+"""
+import torch
+import numpy as np
+from typing import Any, Mapping
+def stack_section(batch: list[dict], section: str):
+    entries = [item.get(section) for item in batch if item.get(section) is not None]
+    if not entries:
+        return None
+    merged: dict = {}
+    for name in entries[0]:  # type: ignore
+        tensors = [item[section][name] for item in batch if item.get(section) is not None and name in item[section]]
+        merged[name] = torch.stack(tensors, dim=0)
+    return merged
+def collate_fn(batch):
+    """
+    Collate a list of sample dicts into the unified batch format:
+    {
+        "features": {name: Tensor(B, ...)},
+        "labels": {target: Tensor(B, ...)} or None,
+        "ids": {id_name: Tensor(B, ...)} or None,
+    }
+    Args: batch: List of samples from DataLoader
+    Returns: dict: Batched data in unified format
+    """
+    if not batch:
+        return {"features": {}, "labels": None, "ids": None}
+    first = batch[0]
+    if isinstance(first, dict) and "features" in first:
+        # Streaming dataset yields already-batched chunks; avoid adding an extra dim.
+        if first.get("_already_batched") and len(batch) == 1:
+            return {
+                "features": first.get("features", {}),
+                "labels": first.get("labels"),
+                "ids": first.get("ids"),
+            }
+        return {
+            "features": stack_section(batch, "features") or {},
+            "labels": stack_section(batch, "labels"),
+            "ids": stack_section(batch, "ids"),
+        }
+    # Fallback: stack tuples/lists of tensors
+    num_tensors = len(first)
+    result = []
+    for i in range(num_tensors):
+        tensor_list = [item[i] for item in batch]
+        first_item = tensor_list[0]
+        if isinstance(first_item, torch.Tensor):
+            stacked = torch.cat(tensor_list, dim=0)
+        elif isinstance(first_item, np.ndarray):
+            stacked = np.concatenate(tensor_list, axis=0)
+        elif isinstance(first_item, list):
+            combined = []
+            for entry in tensor_list:
+                combined.extend(entry)
+            stacked = combined
+        else:
+            stacked = tensor_list
+        result.append(stacked)
+    return tuple(result)
+def batch_to_dict(batch_data: Any, include_ids: bool = True) -> dict:
+    if not (isinstance(batch_data, Mapping) and "features" in batch_data):
+        raise TypeError("[BaseModel-batch_to_dict Error] Batch data must be a dict with 'features' produced by the current DataLoader.")
+    return {
+        "features": batch_data.get("features", {}),
+        "labels": batch_data.get("labels"),
+        "ids": batch_data.get("ids") if include_ids else None,
+    }

nextrec/data/data_processing.py ADDED Viewed

@@ -0,0 +1,152 @@
+"""
+Data processing utilities for NextRec
+Date: create on 03/12/2025
+Author: Yang Zhou, zyaztec@gmail.com
+"""
+import torch
+import numpy as np
+import pandas as pd
+from typing import Any, Mapping
+def get_column_data(data: dict | pd.DataFrame, name: str):
+    if isinstance(data, dict):
+        return data[name] if name in data else None
+    elif isinstance(data, pd.DataFrame):
+        if name not in data.columns:
+            return None
+        return data[name].values
+    else:
+        if hasattr(data, name):
+            return getattr(data, name)
+        raise KeyError(f"Unsupported data type for extracting column {name}")
+def split_dict_random(
+    data_dict: dict,
+    test_size: float = 0.2,
+    random_state: int | None = None
+):
+    lengths = [len(v) for v in data_dict.values()]
+    if len(set(lengths)) != 1:
+        raise ValueError(f"Length mismatch: {lengths}")
+    n = lengths[0]
+    rng = np.random.default_rng(random_state)
+    perm = rng.permutation(n)
+    cut = int(round(n * (1 - test_size)))
+    train_idx, test_idx = perm[:cut], perm[cut:]
+    def take(v, idx):
+        if isinstance(v, np.ndarray):
+            return v[idx]
+        elif isinstance(v, pd.Series):
+            return v.iloc[idx].to_numpy()
+        else:
+            v_arr = np.asarray(v, dtype=object)
+            return v_arr[idx]
+    train_dict = {k: take(v, train_idx) for k, v in data_dict.items()}
+    test_dict = {k: take(v, test_idx) for k, v in data_dict.items()}
+    return train_dict, test_dict
+def build_eval_candidates(
+    df_all: pd.DataFrame,
+    user_col: str,
+    item_col: str,
+    label_col: str,
+    user_features: pd.DataFrame,
+    item_features: pd.DataFrame,
+    num_pos_per_user: int = 5,
+    num_neg_per_pos: int = 50,
+    random_seed: int = 2025,
+) -> pd.DataFrame:
+    """
+    Build evaluation candidates with positive and negative samples for each user.
+    Args:
+        df_all: Full interaction DataFrame
+        user_col: Name of the user ID column
+        item_col: Name of the item ID column
+        label_col: Name of the label column
+        user_features: DataFrame containing user features
+        item_features: DataFrame containing item features
+        num_pos_per_user: Number of positive samples per user (default: 5)
+        num_neg_per_pos: Number of negative samples per positive (default: 50)
+        random_seed: Random seed for reproducibility (default: 2025)
+    Returns:
+        pd.DataFrame: Evaluation candidates with features
+    """
+    rng = np.random.default_rng(random_seed)
+    users = df_all[user_col].unique()
+    all_items = item_features[item_col].unique()
+    rows = []
+    user_hist_items = {u: df_all[df_all[user_col] == u][item_col].unique() for u in users}
+    for u in users:
+        df_user = df_all[df_all[user_col] == u]
+        pos_items = df_user[df_user[label_col] == 1][item_col].unique()
+        if len(pos_items) == 0:
+            continue
+        pos_items = pos_items[:num_pos_per_user]
+        seen_items = set(user_hist_items[u])
+        neg_pool = np.setdiff1d(all_items, np.fromiter(seen_items, dtype=all_items.dtype))
+        if len(neg_pool) == 0:
+            continue
+        for pos in pos_items:
+            if len(neg_pool) <= num_neg_per_pos:
+                neg_items = neg_pool
+            else:
+                neg_items = rng.choice(neg_pool, size=num_neg_per_pos, replace=False)
+            rows.append((u, pos, 1))
+            for ni in neg_items:
+                rows.append((u, ni, 0))
+    eval_df = pd.DataFrame(rows, columns=[user_col, item_col, label_col])
+    eval_df = eval_df.merge(user_features, on=user_col, how='left')
+    eval_df = eval_df.merge(item_features, on=item_col, how='left')
+    return eval_df
+def get_user_ids(
+    data: Any,
+    id_columns: list[str] | str | None = None
+) -> np.ndarray | None:
+    """
+    Extract user IDs from various data structures.
+    Args:
+        data: Data source (DataFrame, dict, or batch dict)
+        id_columns: List or single ID column name(s) (default: None)
+    Returns:
+        np.ndarray | None: User IDs as numpy array, or None if not found
+    """
+    id_columns = (
+        id_columns if isinstance(id_columns, list)
+        else [id_columns] if isinstance(id_columns, str)
+        else []
+    )
+    if not id_columns:
+        return None
+    main_id = id_columns[0]
+    if isinstance(data, pd.DataFrame) and main_id in data.columns:
+        arr = np.asarray(data[main_id].values)
+        return arr.reshape(arr.shape[0])
+    if isinstance(data, dict):
+        ids_container = data.get("ids")
+        if isinstance(ids_container, dict) and main_id in ids_container:
+            val = ids_container[main_id]
+            val = val.detach().cpu().numpy() if isinstance(val, torch.Tensor) else np.asarray(val)
+            return val.reshape(val.shape[0])
+        if main_id in data:
+            arr = np.asarray(data[main_id])
+            return arr.reshape(arr.shape[0])
+    return None

nextrec 0.3.3__py3-none-any.whl → 0.3.5__py3-none-any.whl

nextrec 0.3.3py3-none-any.whl → 0.3.5py3-none-any.whl