PyPI - junshan-kit - Versions diffs - 2.5.1__py2.py3-none-any.whl → 2.8.5__py2.py3-none-any.whl - Mend

junshan-kit 2.5.1py2.py3-none-any.whl → 2.8.5py2.py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

junshan_kit/BenchmarkFunctions.py +7 -0
junshan_kit/Check_Info.py +44 -0
junshan_kit/DataHub.py +108 -8
junshan_kit/DataProcessor.py +133 -8
junshan_kit/DataSets.py +29 -30
junshan_kit/Evaluate_Metrics.py +75 -2
junshan_kit/FiguresHub.py +290 -0
junshan_kit/ModelsHub.py +32 -5
junshan_kit/OptimizerHup/OptimizerFactory.py +130 -0
junshan_kit/OptimizerHup/SPBM.py +352 -0
junshan_kit/OptimizerHup/SPBM_func.py +602 -0
junshan_kit/OptimizerHup/__init__.py +0 -0
junshan_kit/ParametersHub.py +406 -119
junshan_kit/Print_Info.py +58 -12
junshan_kit/TrainingHub.py +190 -40
junshan_kit/kit.py +39 -50
{junshan_kit-2.5.1.dist-info → junshan_kit-2.8.5.dist-info}/METADATA +7 -1
junshan_kit-2.8.5.dist-info/RECORD +20 -0
{junshan_kit-2.5.1.dist-info → junshan_kit-2.8.5.dist-info}/WHEEL +1 -1
junshan_kit-2.5.1.dist-info/RECORD +0 -13

junshan_kit/BenchmarkFunctions.py ADDED Viewed

@@ -0,0 +1,7 @@
+def rosenbrock(x, a=1.0, b=100.0):
+    # Optimal value: (a, a^2)
+    return (a - x[0])**2 + b * (x[1] - x[0]**2)**2

junshan_kit/Check_Info.py ADDED Viewed

@@ -0,0 +1,44 @@
+"""
+----------------------------------------------------------------------
+>>> Author       : Junshan Yin
+>>> Last Updated : 2025-11-22
+----------------------------------------------------------------------
+"""
+from junshan_kit import ModelsHub
+def check_args(self, args, parser, allowed_models, allowed_optimizers, allowed_datasets):
+    # Parse and validate each train_group
+    for cfg in args.train:
+        try:
+            model, dataset, optimizer = cfg.split("-")
+            if model not in allowed_models:
+                parser.error(f"Invalid model '{model}'. Choose from {allowed_models}")
+            if optimizer not in allowed_optimizers:
+                parser.error(f"Invalid optimizer '{optimizer}'. Choose from {allowed_optimizers}")
+            if dataset not in allowed_datasets:
+                parser.error(f"Invalid dataset '{dataset}'. Choose from {allowed_datasets}")
+        except ValueError:
+            parser.error(f"Invalid format '{cfg}'. Use model-dataset-optimizer")
+    for cfg in args.train:
+        model_name, dataset_name, optimizer_name = cfg.split("-")
+        try:
+            f = getattr(ModelsHub, f"Build_{args.model_name_mapping[model_name]}_{args.data_name_mapping[dataset_name]}")
+        except:
+            print(getattr(ModelsHub, f"Build_{args.model_name_mapping[model_name]}_{args.data_name_mapping[dataset_name]}"))
+            assert False
+def check_subset_info(self, args, parser):
+        total = sum(args.subset)
+        if args.subset[0]>1:
+            # CHECK
+            for i in args.subset:
+                if i < 1:
+                    parser.error(f"Invalid --subset {args.subset}: The number of subdata must > 1")
+        else:
+            if abs(total - 1.0) != 0.0:
+                parser.error(f"Invalid --subset {args.subset}: the values must sum to 1.0 (current sum = {total:.6f}))")

junshan_kit/DataHub.py CHANGED Viewed

@@ -1,41 +1,106 @@
+"""
+----------------------------------------------------------------------
+>>> Author       : Junshan Yin
+>>> Last Updated : 2025-10-28
+----------------------------------------------------------------------
+"""
 import torchvision, torch
 import torchvision.transforms as transforms
 import pandas as pd
+from torch.utils.data import random_split, Subset
-from junshan_kit import DataSets, DataProcessor
+from junshan_kit import DataSets, DataProcessor, ParametersHub
+def Adult_Income_Prediction(Paras):
+    df = DataSets.adult_income_prediction()
+    transform = {
+        "train_size": 0.7,
+        "normalization": True
+    }
+    label_col='income'
+    train_dataset, test_dataset, transform = DataProcessor.Pandas_TO_Torch(df, label_col).to_torch(transform, Paras)
+    return train_dataset, test_dataset, transform
+def Credit_Card_Fraud_Detection(Paras):
+    df = DataSets.credit_card_fraud_detection()
+    transform = {
+        "train_size": 0.7,
+        "normalization": True
+    }
+    label_col='Class'
+    train_dataset, test_dataset, transform = DataProcessor.Pandas_TO_Torch(df, label_col).to_torch(transform, Paras)
+    return train_dataset, test_dataset, transform
+def Diabetes_Health_Indicators(Paras):
+    df = DataSets.diabetes_health_indicators()
+    transform = {
+        "train_size": 0.7,
+        "normalization": True
+    }
+    label_col='diagnosed_diabetes'
+    train_dataset, test_dataset, transform = DataProcessor.Pandas_TO_Torch(df, label_col).to_torch(transform, Paras)
-def Adult_Income_Prediction(Paras):
+    return train_dataset, test_dataset, transform
-    df = DataSets.adult_income_prediction()
+def Electric_Vehicle_Population(Paras):
+    df = DataSets.electric_vehicle_population()
     transform = {
         "train_size": 0.7,
         "normalization": True
     }
-    label_col='income'
+    label_col='Electric Vehicle Type'
+    train_dataset, test_dataset, transform = DataProcessor.Pandas_TO_Torch(df, label_col).to_torch(transform, Paras)
+    return train_dataset, test_dataset, transform
+def Global_House_Purchase(Paras):
+    df = DataSets.global_house_purchase()
+    transform = {
+        "train_size": 0.7,
+        "normalization": True
+    }
+    label_col='decision'
     train_dataset, test_dataset, transform = DataProcessor.Pandas_TO_Torch(df, label_col).to_torch(transform, Paras)
     return train_dataset, test_dataset, transform
+def Health_Lifestyle(Paras):
+    df = DataSets.health_lifestyle()
+    transform = {
+        "train_size": 0.7,
+        "normalization": True
+    }
+    label_col='disease_risk'
+    train_dataset, test_dataset, transform = DataProcessor.Pandas_TO_Torch(df, label_col).to_torch(transform, Paras)
-def Credit_Card_Fraud_Detection(Paras):
-    df = DataSets.credit_card_fraud_detection()
+    return train_dataset, test_dataset, transform
+def Homesite_Quote_Conversion(Paras):
+    df = DataSets.Homesite_Quote_Conversion()
     transform = {
         "train_size": 0.7,
         "normalization": True
     }
-    label_col='Class'
+    label_col='QuoteConversion_Flag'
+    train_dataset, test_dataset, transform = DataProcessor.Pandas_TO_Torch(df, label_col).to_torch(transform, Paras)
+    return train_dataset, test_dataset, transform
+def TN_Weather_2020_2025(Paras):
+    df = DataSets.TamilNadu_weather_2020_2025()
+    transform = {
+        "train_size": 0.7,
+        "normalization": True
+    }
+    label_col='rain_tomorrow'
     train_dataset, test_dataset, transform = DataProcessor.Pandas_TO_Torch(df, label_col).to_torch(transform, Paras)
     return train_dataset, test_dataset, transform
@@ -101,6 +166,7 @@ def CIFAR100(Paras, model_name):
         download=True,
         transform=transform
     )
     if Paras["model_type"][model_name] == "binary":
         train_mask = (torch.tensor(train_dataset.targets) == 0) | (torch.tensor(train_dataset.targets) == 1)
         test_mask = (torch.tensor(test_dataset.targets) == 0) | (torch.tensor(test_dataset.targets) == 1)
@@ -111,4 +177,38 @@ def CIFAR100(Paras, model_name):
         train_dataset = torch.utils.data.Subset(train_dataset, train_indices.tolist())
         test_dataset = torch.utils.data.Subset(test_dataset, test_indices.tolist())
-    return train_dataset, test_dataset, transform
+    return train_dataset, test_dataset, transform
+def Caltech101_Resize_32(Paras, train_ratio=0.7, split=True):
+    transform = transforms.Compose([
+        # transforms.Lambda(convert_to_rgb),
+        transforms.Grayscale(num_output_channels=3),
+        transforms.Resize((32, 32)),
+        transforms.ToTensor(),
+        transforms.Normalize(mean=[0.485, 0.456, 0.406],
+                            std=[0.229, 0.224, 0.225])
+    ])
+    full_dataset = torchvision.datasets.Caltech101(
+        root='./exp_data/Caltech101',
+        download=True,
+        transform=transform
+    )
+    if split:
+        total_size = len(full_dataset)
+        train_size = int(train_ratio * total_size)
+        test_size = total_size - train_size
+        train_dataset, test_dataset = random_split(full_dataset, [train_size, test_size])
+    else:
+        train_dataset = full_dataset
+        # Empty test dataset, keep the structure consistent
+        test_dataset = Subset(full_dataset, [])
+    return train_dataset, test_dataset, transform
+# <caltech101_Resize_32>

junshan_kit/DataProcessor.py CHANGED Viewed

@@ -6,8 +6,13 @@
 """
 import pandas as pd
-import torch
+import numpy as np
+import torch, bz2
+from typing import Optional
+from torch.utils.data import random_split, Subset
+from sklearn.datasets import load_svmlight_file
 from sklearn.preprocessing import StandardScaler
+from junshan_kit import ParametersHub
 class CSV_TO_Pandas:
@@ -181,7 +186,7 @@ class CSV_TO_Pandas:
         if time_info is not None:
             df = self._trans_time_fea(df, time_info)
-        # Step 3: Map target label (to -1 and +1)
+        # Step 3: Map target label (to 0 and +1)
         df[label_col] = df[label_col].map(label_map)
         # Step 4: Encode categorical features (exclude label column)
@@ -200,7 +205,7 @@ class CSV_TO_Pandas:
         # print info
         if print_info:
             pos_count = (df[label_col] == 1).sum()
-            neg_count = (df[label_col] == -1).sum()
+            neg_count = (df[label_col] == 0).sum()
             # Step 6: Print dataset information
             print("\n" + "=" * 80)
@@ -214,8 +219,8 @@ class CSV_TO_Pandas:
             print(
                 f"{'Dropping NaN & non-feature cols:':<40} {m_encoded} rows x {n_encoded} cols"
             )
-            print(f"{'Positive samples (+1):':<40} {pos_count}")
-            print(f"{'Negative samples (-1):':<40} {neg_count}")
+            print(f"{'Positive samples (1):':<40} {pos_count}")
+            print(f"{'Negative samples (0):':<40} {neg_count}")
             print(
                 f"{'Size after one-hot encoding:':<40} {m_cleaned} rows x {n_cleaned} cols"
             )
@@ -252,7 +257,7 @@ from torch.utils.data import Dataset
 class Pandas_TO_Torch(Dataset):
     def __init__(self, df: pd.DataFrame,
-                 label_col: str,
+                label_col: str,
                 ):
         self.df = df
         self.label_col = label_col
@@ -316,8 +321,6 @@ class bz2_To_Numpy:
 class StepByStep:
     def __init__(self):
         pass
@@ -332,3 +335,125 @@ class StepByStep:
             )
+class LibSVMDataset_bz2(Dataset):
+    def __init__(self, path, data_name = None, Paras = None):
+        with bz2.open(path, 'rb') as f:
+            X, y = load_svmlight_file(f) # type: ignore
+        self.X, self.path = X, path
+        y = np.asanyarray(y)
+        if data_name is not None:
+            data_name = data_name.lower()
+            # Binary classification, with the label -1/1
+            if data_name in ["rcv1"]:
+                y = (y > 0).astype(int)  # Convert to 0/1
+            # Multi-category, labels usually start with 1
+            elif data_name in [""]:
+                y = y - 1  # Start with 0
+        else:
+            # Default policy: Try to avoid CrossEntropyLoss errors
+            if np.min(y) < 0:  # e.g. [-1, 1]
+                y = (y > 0).astype(int)
+            elif np.min(y) >= 1:
+                y = y - 1
+        self.y = y
+    def __len__(self):
+        return self.X.shape[0]
+    def __getitem__(self, idx):
+        xi = torch.tensor(self.X.getrow(idx).toarray(), dtype=torch.float32).squeeze(0)
+        yi = torch.tensor(self.y[idx], dtype=torch.float32)
+        return xi, yi
+    def __repr__(self):
+        num_samples = len(self.y)
+        num_features = self.X.shape[1]
+        num_classes = len(np.unique(self.y))
+        return (f"LibSVMDataset_bz2(\n"
+                f"  num_samples = {num_samples},\n"
+                f"  num_features = {num_features},\n"
+                f"  num_classes = {num_classes}\n"
+                f"  path = {self.path}\n"
+                f")")
+def get_libsvm_bz2_data(train_path, test_path, data_name, Paras, split = True):
+    transform = "-1 → 0 for binary, y-1 for multi-class"
+    train_data = LibSVMDataset_bz2(train_path)
+    if data_name in ["Duke", "Ijcnn", "RCV1"]:
+        test_data = LibSVMDataset_bz2(test_path)
+        split = False
+    else:
+        test_data = Subset(train_data, [])
+    if split:
+        total_size = len(train_data)
+        train_size = int(Paras["train_ratio"] * total_size)
+        test_size = total_size - train_size
+        train_dataset, test_dataset = random_split(train_data, [train_size, test_size])
+    else:
+        train_dataset = train_data
+        # # Empty test dataset, keep the structure consistent
+        # test_dataset = Subset(train_data, [])
+        test_dataset = test_data
+    # print(test_dataset)
+    # assert False
+    return train_dataset, test_dataset, transform
+def subset(dataset, ratio_or_num, seed=None) -> Subset:
+    """
+    Randomly sample a subset from a dataset.
+    Parameters
+    ----------
+    dataset : torch.utils.data.Dataset
+        The dataset to sample from.
+    ratio_or_num : float or int
+        If float in (0, 1], treated as sampling ratio.
+        Otherwise, treated as absolute number of samples.
+    seed : int, optional
+        Random seed for reproducibility.
+    Returns
+    -------
+    torch.utils.data.Subset
+        A randomly sampled subset of the dataset.
+    """
+    if ratio_or_num < 0:
+        raise ValueError(f"ratio_or_num must be non-negative, got {ratio_or_num}")
+    dataset_len = len(dataset)
+    # Determine number of samples
+    if isinstance(ratio_or_num, float) and 0 < ratio_or_num <= 1:
+        num = max(1, int(round(dataset_len * ratio_or_num)))
+    else:
+        num = int(ratio_or_num)
+    # Clamp to valid range
+    num = min(max(num, 1), dataset_len)
+    # Create and seed generator
+    generator = torch.Generator()
+    if seed is not None:
+        generator.manual_seed(seed)
+    # Random sampling
+    indices = torch.randperm(dataset_len, generator=generator)[:num].tolist()
+    return Subset(dataset, indices)

junshan_kit/DataSets.py CHANGED Viewed

@@ -147,12 +147,12 @@ def _run(csv_path, data_name, data_type, drop_cols, label_col, label_map, print_
 ----------------------------------------------------------------------
 """
-def credit_card_fraud_detection(data_name = "Credit Card Fraud Detection", print_info = False, export_csv=False, drop_cols = []):
+def credit_card_fraud_detection(data_name = "Credit_Card_Fraud_Detection", print_info = False, export_csv=False, drop_cols = []):
     data_type = "binary"
-    csv_path = f'./exp_data/{data_name}/creditcard.csv'
+    csv_path = f'exp_data/{data_name}/creditcard.csv'
     label_col = 'Class'
-    label_map = {0: -1, 1: 1}
+    label_map = {0: 0, 1: 1}
     df = _run(csv_path, data_name, data_type, drop_cols, label_col, label_map, print_info, export_csv=export_csv)
@@ -161,26 +161,26 @@ def credit_card_fraud_detection(data_name = "Credit Card Fraud Detection", print
     return df
-def diabetes_health_indicators(data_name = "Diabetes Health Indicators", print_info = False, export_csv = False, drop_cols = [], Standard = False):
+def diabetes_health_indicators(data_name = "Diabetes_Health_Indicators", print_info = False, export_csv = False, drop_cols = [], Standard = False):
     data_type = "binary"
-    csv_path = f'./exp_data/{data_name}/diabetes_dataset.csv'
+    csv_path = f'exp_data/{data_name}/diabetes_dataset.csv'
     label_col = 'diagnosed_diabetes'
-    label_map = {0: -1, 1: 1}
+    label_map = {0: 0, 1: 1}
     df = _run(csv_path, data_name, data_type, drop_cols, label_col, label_map, print_info, export_csv=export_csv)
     return df
-def electric_vehicle_population(data_name = "Electric Vehicle Population", print_info = False, export_csv = False, drop_cols = ['VIN (1-10)', 'DOL Vehicle ID', 'Vehicle Location'], Standard = False):
+def electric_vehicle_population(data_name = "Electric_Vehicle_Population", print_info = False, export_csv = False, drop_cols = ['VIN (1-10)', 'DOL Vehicle ID', 'Vehicle Location'], Standard = False):
     data_type = "binary"
-    csv_path = f'./exp_data/{data_name}/Electric_Vehicle_Population_Data.csv'
+    csv_path = f'exp_data/{data_name}/Electric_Vehicle_Population_Data.csv'
     # drop_cols = ['VIN (1-10)', 'DOL Vehicle ID', 'Vehicle Location']
     label_col = 'Electric Vehicle Type'
     label_map = {
     'Battery Electric Vehicle (BEV)': 1,
-    'Plug-in Hybrid Electric Vehicle (PHEV)': -1
+    'Plug-in Hybrid Electric Vehicle (PHEV)': 0
     }
@@ -188,12 +188,12 @@ def electric_vehicle_population(data_name = "Electric Vehicle Population", print
     return df
-def global_house_purchase(data_name = "Global House Purchase", print_info = False, export_csv = False, drop_cols = ['property_id'], Standard =False):
+def global_house_purchase(data_name = "Global_House_Purchase", print_info = False, export_csv = False, drop_cols = ['property_id'], Standard =False):
     data_type = "binary"
-    csv_path = f'./exp_data/{data_name}/global_house_purchase_dataset.csv'
+    csv_path = f'exp_data/{data_name}/global_house_purchase_dataset.csv'
     label_col = 'decision'
-    label_map = {0: -1, 1: 1}
+    label_map = {0: 0, 1: 1}
     df = _run(csv_path, data_name, data_type, drop_cols, label_col, label_map, print_info, export_csv=export_csv)
@@ -201,13 +201,13 @@ def global_house_purchase(data_name = "Global House Purchase", print_info = Fals
     return df
-def health_lifestyle(data_name = "Health Lifestyle", print_info = False, export_csv = False, drop_cols = ['id'], Standard =False):
+def health_lifestyle(data_name = "Health_Lifestyle", print_info = False, export_csv = False, drop_cols = ['id'], Standard =False):
     data_type = "binary"
-    csv_path = f'./exp_data/{data_name}/health_lifestyle_dataset.csv'
+    csv_path = f'exp_data/{data_name}/health_lifestyle_dataset.csv'
     label_col = 'disease_risk'
-    label_map = {0: -1, 1: 1}
+    label_map = {0: 0, 1: 1}
     df = _run(csv_path, data_name, data_type, drop_cols, label_col, label_map, print_info, export_csv=export_csv)
@@ -215,7 +215,7 @@ def health_lifestyle(data_name = "Health Lifestyle", print_info = False, export_
     return df
-def medical_insurance_cost_prediction(data_name = "Medical Insurance Cost Prediction", print_info = False, export_csv = False, drop_cols = ['alcohol_freq'], Standard = False):
+def medical_insurance_cost_prediction(data_name = "Medical_Insurance_Cost Prediction", print_info = False, export_csv = False, drop_cols = ['alcohol_freq'], Standard = False):
     """
     1. The missing values in this dataset are handled by directly removing the corresponding column. Since the `alcohol_freq` column contains a large number of missing values, deleting the rows would result in significant data loss, so the entire column is dropped instead.
@@ -223,7 +223,7 @@ def medical_insurance_cost_prediction(data_name = "Medical Insurance Cost Predic
     """
     data_type = "binary"
-    csv_path = f'./exp_data/{data_name}/medical_insurance.csv'
+    csv_path = f'exp_data/{data_name}/medical_insurance.csv'
     label_col = 'is_high_risk'
     label_map = {0: -1, 1: 1}
@@ -234,10 +234,10 @@ def medical_insurance_cost_prediction(data_name = "Medical Insurance Cost Predic
     return df
-def particle_physics_event_classification(data_name = "Particle Physics Event Classification", print_info = False, export_csv = False, drop_cols = [], Standard =False):
+def particle_physics_event_classification(data_name = "Particle_Physics_Event_Classification", print_info = False, export_csv = False, drop_cols = [], Standard =False):
     data_type = "binary"
-    csv_path = f'./exp_data/{data_name}/Particle Physics Event Classification.csv'
+    csv_path = f'exp_data/{data_name}/Particle Physics Event Classification.csv'
     label_col = 'Label'
     label_map = {'s': -1, 'b': 1}
@@ -249,13 +249,13 @@ def particle_physics_event_classification(data_name = "Particle Physics Event Cl
-def adult_income_prediction(data_name = "Adult Income Prediction", print_info = False, export_csv=False, drop_cols = [], Standard = False):
+def adult_income_prediction(data_name = "Adult_Income_Prediction", print_info = False, export_csv=False, drop_cols = [], Standard = False):
     data_type = "binary"
     csv_path = f'./exp_data/{data_name}/adult.csv'
     label_col = 'income'
-    label_map = {'<=50K': -1, '>50K': 1}
+    label_map = {'<=50K': 0, '>50K': 1}
     df = _run(csv_path, data_name, data_type, drop_cols, label_col, label_map, print_info, export_csv=export_csv)
@@ -263,13 +263,13 @@ def adult_income_prediction(data_name = "Adult Income Prediction", print_info =
     return df
-def TamilNadu_weather_2020_2025(data_name = "TN Weather 2020-2025", print_info = False, export_csv = False, drop_cols = ['Unnamed: 0'], Standard = False):
+def TamilNadu_weather_2020_2025(data_name = "TN_Weather_2020_2025", print_info = False, export_csv = False, drop_cols = ['Unnamed: 0'], Standard = False):
     data_type = "binary"
     csv_path = f'./exp_data/{data_name}/TNweather_1.8M.csv'
     label_col = 'rain_tomorrow'
-    label_map = {0: -1, 1: 1}
+    label_map = {0: 0, 1: 1}
     time_info = {
         'time_col_name': 'time',
@@ -281,7 +281,7 @@ def TamilNadu_weather_2020_2025(data_name = "TN Weather 2020-2025", print_info =
     return df
-def YouTube_Recommendation(data_name = "YouTube Recommendation", print_info = False, export_csv = False, drop_cols = ['user_id']):
+def YouTube_Recommendation(data_name = "YouTube_Recommendation", print_info = False, export_csv = False, drop_cols = ['user_id']):
     data_type = "binary"
     csv_path = f'./exp_data/{data_name}/youtube recommendation dataset.csv'
@@ -303,13 +303,13 @@ def YouTube_Recommendation(data_name = "YouTube Recommendation", print_info = Fa
     return df
-def Santander_Customer_Satisfaction(data_name = "SantanderCustomerSatisfaction", print_info = False, export_csv = False):
+def Santander_Customer_Satisfaction(data_name = "Santander_Customer_Satisfaction", print_info = False, export_csv = False):
     data_type = "binary"
     csv_path = None
     drop_cols = ['ID_code']
     label_col = 'target'
-    label_map = {False: -1, True: 1}
+    label_map = {False: 0, True: 1}
     df, y, categorical_indicator, attribute_names = junshan_kit.kit.download_openml_data(data_name)
@@ -324,7 +324,7 @@ def newsgroups_drift(data_name = "20_newsgroups.drift", print_info = False, expo
     drop_cols = ['ID_code']
     label_col = 'target'
-    label_map = {False: -1, True: 1}
+    label_map = {False: 0, True: 1}
     df, y, categorical_indicator, attribute_names = junshan_kit.kit.download_openml_data(data_name)
@@ -340,7 +340,7 @@ def Homesite_Quote_Conversion(data_name = "Homesite_Quote_Conversion", print_inf
     drop_cols = ['QuoteNumber']
     label_col = 'QuoteConversion_Flag'
-    label_map = {0: -1, 1: 1}
+    label_map = {0: 0, 1: 1}
     time_info = {
         'time_col_name': 'Original_Quote_Date',
@@ -353,7 +353,6 @@ def Homesite_Quote_Conversion(data_name = "Homesite_Quote_Conversion", print_inf
     return df
 def IEEE_CIS_Fraud_Detection(data_name = "IEEE-CIS_Fraud_Detection", print_info = False, export_csv = False, export_mat = False):
     data_type = "binary"
     csv_path = None
@@ -361,7 +360,7 @@ def IEEE_CIS_Fraud_Detection(data_name = "IEEE-CIS_Fraud_Detection", print_info
     drop_cols = ['TransactionID']
     label_col = 'isFraud'
-    label_map = {0: -1, 1: 1}
+    label_map = {0: 0, 1: 1}
     Paras = {
         "export_mat": export_mat

junshan_kit/Evaluate_Metrics.py CHANGED Viewed

@@ -2,7 +2,7 @@ import torch
 from torch.nn.utils import parameters_to_vector
 import torch.nn.functional as F
-def compute_epoch_loss(X, y, model, loss_fn, Paras):
+def loss(X, y, model, loss_fn, Paras):
     pred = model(X)
     _, c = pred.shape
@@ -37,4 +37,77 @@ def compute_epoch_loss(X, y, model, loss_fn, Paras):
             )
             assert False
-    return loss
+    return loss
+def compute_loss_acc(X, y, model, loss_fn, Paras):
+    pred = model(X)
+    m, c = pred.shape
+    if c == 1:
+        # Logistic Regression (binary)
+        if isinstance(loss_fn, torch.nn.BCEWithLogitsLoss):
+            pred = pred.view(-1).float()
+            loss = loss_fn(pred, y).item()
+            if Paras["model_name"] == "LogRegressionBinaryL2":
+                x = parameters_to_vector(model.parameters())
+                lam = Paras["lambda"]
+                loss = (loss + 0.5 * lam * torch.norm(x, p=2) ** 2).item()
+            pred_label = (torch.sigmoid(pred) > 0.5).float()
+            correct = (pred_label == y).sum().item()
+        else:
+            assert False
+    else:
+        # Least Square （mutil）
+        if isinstance(loss_fn, torch.nn.MSELoss):
+            # loss
+            y_onehot = F.one_hot(y.long(), num_classes=c).float()
+            pred_label = pred.argmax(1).long()
+            pred_ont = F.one_hot(pred_label, num_classes=c).float()
+            loss = 0.5 * loss_fn(pred_ont, y_onehot).item() * c
+            # acc
+            correct = (pred_label == y).sum().item()
+        elif isinstance(loss_fn, torch.nn.CrossEntropyLoss):
+            # loss
+            loss = loss_fn(pred, y.long()).item()
+            # acc
+            # acc
+            pred_label = pred.argmax(1).long()
+            correct = (pred_label == y).sum().item()
+        else:
+            print(
+                f"\033[34m **** isinstance(loss_fn, torch.nn.MSELoss)? {isinstance(loss_fn, torch.nn.MSELoss)} **** \033[0m"
+            )
+            assert False
+    return loss, correct
+def get_loss_acc(dataloader, model, loss_fn, Paras):
+    # model.eval()
+    size = len(dataloader.dataset)
+    num_batches = len(dataloader)
+    loss, correct = 0, 0
+    device = Paras["device"]
+    with torch.no_grad():
+        for X, y in dataloader:
+            X, y = X.to(device).float(), y.to(device).float()
+            per_loss, per_acc = compute_loss_acc(X, y, model, loss_fn, Paras)
+            loss += per_loss
+            correct += per_acc
+    loss /= num_batches
+    correct /= size
+    return loss, correct

junshan-kit 2.5.1__py2.py3-none-any.whl → 2.8.5__py2.py3-none-any.whl

junshan-kit 2.5.1py2.py3-none-any.whl → 2.8.5py2.py3-none-any.whl