PyPI - nextrec - Versions diffs - 0.3.6__py3-none-any.whl → 0.4.2__py3-none-any.whl - Mend

nextrec 0.3.6py3-none-any.whl → 0.4.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (62) hide show

nextrec/__init__.py +1 -1
nextrec/__version__.py +1 -1
nextrec/basic/activation.py +10 -5
nextrec/basic/callback.py +1 -0
nextrec/basic/features.py +30 -22
nextrec/basic/layers.py +244 -113
nextrec/basic/loggers.py +62 -43
nextrec/basic/metrics.py +268 -119
nextrec/basic/model.py +1373 -443
nextrec/basic/session.py +10 -3
nextrec/cli.py +498 -0
nextrec/data/__init__.py +19 -25
nextrec/data/batch_utils.py +11 -3
nextrec/data/data_processing.py +42 -24
nextrec/data/data_utils.py +26 -15
nextrec/data/dataloader.py +303 -96
nextrec/data/preprocessor.py +320 -199
nextrec/loss/listwise.py +17 -9
nextrec/loss/loss_utils.py +7 -8
nextrec/loss/pairwise.py +2 -0
nextrec/loss/pointwise.py +30 -12
nextrec/models/generative/hstu.py +106 -40
nextrec/models/match/dssm.py +82 -69
nextrec/models/match/dssm_v2.py +72 -58
nextrec/models/match/mind.py +175 -108
nextrec/models/match/sdm.py +104 -88
nextrec/models/match/youtube_dnn.py +73 -60
nextrec/models/multi_task/esmm.py +53 -39
nextrec/models/multi_task/mmoe.py +70 -47
nextrec/models/multi_task/ple.py +107 -50
nextrec/models/multi_task/poso.py +121 -41
nextrec/models/multi_task/share_bottom.py +54 -38
nextrec/models/ranking/afm.py +172 -45
nextrec/models/ranking/autoint.py +84 -61
nextrec/models/ranking/dcn.py +59 -42
nextrec/models/ranking/dcn_v2.py +64 -23
nextrec/models/ranking/deepfm.py +36 -26
nextrec/models/ranking/dien.py +158 -102
nextrec/models/ranking/din.py +88 -60
nextrec/models/ranking/fibinet.py +55 -35
nextrec/models/ranking/fm.py +32 -26
nextrec/models/ranking/masknet.py +95 -34
nextrec/models/ranking/pnn.py +34 -31
nextrec/models/ranking/widedeep.py +37 -29
nextrec/models/ranking/xdeepfm.py +63 -41
nextrec/utils/__init__.py +61 -32
nextrec/utils/config.py +490 -0
nextrec/utils/device.py +52 -12
nextrec/utils/distributed.py +141 -0
nextrec/utils/embedding.py +1 -0
nextrec/utils/feature.py +1 -0
nextrec/utils/file.py +32 -11
nextrec/utils/initializer.py +61 -16
nextrec/utils/optimizer.py +25 -9
nextrec/utils/synthetic_data.py +531 -0
nextrec/utils/tensor.py +24 -13
{nextrec-0.3.6.dist-info → nextrec-0.4.2.dist-info}/METADATA +15 -5
nextrec-0.4.2.dist-info/RECORD +69 -0
nextrec-0.4.2.dist-info/entry_points.txt +2 -0
nextrec-0.3.6.dist-info/RECORD +0 -64
{nextrec-0.3.6.dist-info → nextrec-0.4.2.dist-info}/WHEEL +0 -0
{nextrec-0.3.6.dist-info → nextrec-0.4.2.dist-info}/licenses/LICENSE +0 -0

nextrec/data/data_processing.py CHANGED Viewed

@@ -8,10 +8,11 @@ Author: Yang Zhou, zyaztec@gmail.com
 import torch
 import numpy as np
 import pandas as pd
-from typing import Any, Mapping
+from typing import Any
 def get_column_data(data: dict | pd.DataFrame, name: str):
     if isinstance(data, dict):
         return data[name] if name in data else None
     elif isinstance(data, pd.DataFrame):
@@ -23,21 +24,21 @@ def get_column_data(data: dict | pd.DataFrame, name: str):
             return getattr(data, name)
         raise KeyError(f"Unsupported data type for extracting column {name}")
 def split_dict_random(
-    data_dict: dict,
-    test_size: float = 0.2,
-    random_state: int | None = None
+    data_dict: dict, test_size: float = 0.2, random_state: int | None = None
 ):
     lengths = [len(v) for v in data_dict.values()]
     if len(set(lengths)) != 1:
         raise ValueError(f"Length mismatch: {lengths}")
     n = lengths[0]
     rng = np.random.default_rng(random_state)
     perm = rng.permutation(n)
     cut = int(round(n * (1 - test_size)))
     train_idx, test_idx = perm[:cut], perm[cut:]
     def take(v, idx):
         if isinstance(v, np.ndarray):
             return v[idx]
@@ -46,12 +47,22 @@ def split_dict_random(
         else:
             v_arr = np.asarray(v, dtype=object)
             return v_arr[idx]
     train_dict = {k: take(v, train_idx) for k, v in data_dict.items()}
     test_dict = {k: take(v, test_idx) for k, v in data_dict.items()}
     return train_dict, test_dict
+def split_data(
+    df: pd.DataFrame, test_size: float = 0.2
+) -> tuple[pd.DataFrame, pd.DataFrame]:
+    split_idx = int(len(df) * (1 - test_size))
+    train_df = df.iloc[:split_idx].reset_index(drop=True)
+    valid_df = df.iloc[split_idx:].reset_index(drop=True)
+    return train_df, valid_df
 def build_eval_candidates(
     df_all: pd.DataFrame,
     user_col: str,
@@ -65,7 +76,7 @@ def build_eval_candidates(
 ) -> pd.DataFrame:
     """
     Build evaluation candidates with positive and negative samples for each user.
     Args:
         df_all: Full interaction DataFrame
         user_col: Name of the user ID column
@@ -76,7 +87,7 @@ def build_eval_candidates(
         num_pos_per_user: Number of positive samples per user (default: 5)
         num_neg_per_pos: Number of negative samples per positive (default: 50)
         random_seed: Random seed for reproducibility (default: 2025)
     Returns:
         pd.DataFrame: Evaluation candidates with features
     """
@@ -85,8 +96,10 @@ def build_eval_candidates(
     users = df_all[user_col].unique()
     all_items = item_features[item_col].unique()
     rows = []
-    user_hist_items = {u: df_all[df_all[user_col] == u][item_col].unique() for u in users}
+    user_hist_items = {
+        u: df_all[df_all[user_col] == u][item_col].unique() for u in users
+    }
     for u in users:
         df_user = df_all[df_all[user_col] == u]
         pos_items = df_user[df_user[label_col] == 1][item_col].unique()
@@ -94,7 +107,9 @@ def build_eval_candidates(
             continue
         pos_items = pos_items[:num_pos_per_user]
         seen_items = set(user_hist_items[u])
-        neg_pool = np.setdiff1d(all_items, np.fromiter(seen_items, dtype=all_items.dtype))
+        neg_pool = np.setdiff1d(
+            all_items, np.fromiter(seen_items, dtype=all_items.dtype)
+        )
         if len(neg_pool) == 0:
             continue
         for pos in pos_items:
@@ -105,31 +120,30 @@ def build_eval_candidates(
             rows.append((u, pos, 1))
             for ni in neg_items:
                 rows.append((u, ni, 0))
     eval_df = pd.DataFrame(rows, columns=[user_col, item_col, label_col])
-    eval_df = eval_df.merge(user_features, on=user_col, how='left')
-    eval_df = eval_df.merge(item_features, on=item_col, how='left')
+    eval_df = eval_df.merge(user_features, on=user_col, how="left")
+    eval_df = eval_df.merge(item_features, on=item_col, how="left")
     return eval_df
 def get_user_ids(
-    data: Any,
-    id_columns: list[str] | str | None = None
+    data: Any, id_columns: list[str] | str | None = None
 ) -> np.ndarray | None:
     """
     Extract user IDs from various data structures.
     Args:
         data: Data source (DataFrame, dict, or batch dict)
         id_columns: List or single ID column name(s) (default: None)
     Returns:
         np.ndarray | None: User IDs as numpy array, or None if not found
     """
     id_columns = (
-        id_columns if isinstance(id_columns, list)
-        else [id_columns] if isinstance(id_columns, str)
-        else []
+        id_columns
+        if isinstance(id_columns, list)
+        else [id_columns] if isinstance(id_columns, str) else []
     )
     if not id_columns:
         return None
@@ -138,12 +152,16 @@ def get_user_ids(
     if isinstance(data, pd.DataFrame) and main_id in data.columns:
         arr = np.asarray(data[main_id].values)
         return arr.reshape(arr.shape[0])
     if isinstance(data, dict):
         ids_container = data.get("ids")
         if isinstance(ids_container, dict) and main_id in ids_container:
             val = ids_container[main_id]
-            val = val.detach().cpu().numpy() if isinstance(val, torch.Tensor) else np.asarray(val)
+            val = (
+                val.detach().cpu().numpy()
+                if isinstance(val, torch.Tensor)
+                else np.asarray(val)
+            )
             return val.reshape(val.shape[0])
         if main_id in data:
             arr = np.asarray(data[main_id])

nextrec/data/data_utils.py CHANGED Viewed

@@ -13,23 +13,34 @@ Author: Yang Zhou, zyaztec@gmail.com
 # Import from new organized modules
 from nextrec.data.batch_utils import collate_fn, batch_to_dict, stack_section
-from nextrec.data.data_processing import get_column_data, split_dict_random, build_eval_candidates, get_user_ids
-from nextrec.utils.file import resolve_file_paths, iter_file_chunks, read_table, load_dataframes, default_output_dir
+from nextrec.data.data_processing import (
+    get_column_data,
+    split_dict_random,
+    build_eval_candidates,
+    get_user_ids,
+)
+from nextrec.utils.file import (
+    resolve_file_paths,
+    iter_file_chunks,
+    read_table,
+    load_dataframes,
+    default_output_dir,
+)
 __all__ = [
     # Batch utilities
-    'collate_fn',
-    'batch_to_dict',
-    'stack_section',
+    "collate_fn",
+    "batch_to_dict",
+    "stack_section",
     # Data processing
-    'get_column_data',
-    'split_dict_random',
-    'build_eval_candidates',
-    'get_user_ids',
+    "get_column_data",
+    "split_dict_random",
+    "build_eval_candidates",
+    "get_user_ids",
     # File utilities
-    'resolve_file_paths',
-    'iter_file_chunks',
-    'read_table',
-    'load_dataframes',
-    'default_output_dir',
-]
+    "resolve_file_paths",
+    "iter_file_chunks",
+    "read_table",
+    "load_dataframes",
+    "default_output_dir",
+]

nextrec 0.3.6__py3-none-any.whl → 0.4.2__py3-none-any.whl

nextrec 0.3.6py3-none-any.whl → 0.4.2py3-none-any.whl