PyPI - cesnet-datazoo - Versions diffs - 0.0.16__py3-none-any.whl → 0.1.0__py3-none-any.whl - Mend

cesnet-datazoo 0.0.16py3-none-any.whl → 0.1.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

cesnet_datazoo/config.py +174 -167
cesnet_datazoo/constants.py +4 -6
cesnet_datazoo/datasets/cesnet_dataset.py +200 -172
cesnet_datazoo/datasets/datasets.py +22 -2
cesnet_datazoo/datasets/datasets_constants.py +670 -0
cesnet_datazoo/datasets/loaders.py +3 -0
cesnet_datazoo/datasets/metadata/dataset_metadata.py +6 -5
cesnet_datazoo/datasets/metadata/metadata.csv +4 -4
cesnet_datazoo/datasets/statistics.py +36 -16
cesnet_datazoo/pytables_data/data_scalers.py +110 -0
cesnet_datazoo/pytables_data/indices_setup.py +29 -33
cesnet_datazoo/pytables_data/pytables_dataset.py +103 -229
cesnet_datazoo/utils/class_info.py +7 -5
cesnet_datazoo/utils/download.py +6 -1
{cesnet_datazoo-0.0.16.dist-info → cesnet_datazoo-0.1.0.dist-info}/METADATA +2 -1
cesnet_datazoo-0.1.0.dist-info/RECORD +30 -0
{cesnet_datazoo-0.0.16.dist-info → cesnet_datazoo-0.1.0.dist-info}/WHEEL +1 -1
cesnet_datazoo-0.0.16.dist-info/RECORD +0 -28
{cesnet_datazoo-0.0.16.dist-info → cesnet_datazoo-0.1.0.dist-info}/LICENCE +0 -0
{cesnet_datazoo-0.0.16.dist-info → cesnet_datazoo-0.1.0.dist-info}/top_level.txt +0 -0

cesnet_datazoo/datasets/loaders.py CHANGED Viewed

@@ -6,6 +6,9 @@ from tqdm import tqdm
 from cesnet_datazoo.constants import APP_COLUMN
+def collate_fn_simple(batch):
+    return batch
 def load_from_dataloader(dataloader: DataLoader, silent: bool = False) -> tuple[pd.DataFrame, np.ndarray, np.ndarray, np.ndarray]:
     other_fields = []
     data_ppi = []

cesnet_datazoo/datasets/metadata/dataset_metadata.py CHANGED Viewed

@@ -18,18 +18,19 @@ class DatasetMetadata():
     collection_period: str
     missing_dates_in_collection_period: list[str]
     application_count: int
-    background_traffic: list[str]
-    features_in_packet_sequences: list[str]
-    packet_histogram_features: list[str]
+    background_traffic_classes: list[str]
+    ppi_features: list[str]
     flowstats_features: list[str]
+    flowstats_features_boolean: list[str]
+    packet_histograms: list[str]
     tcp_features: list[str]
     other_fields: list[str]
     cite: str
     zenodo_url: str
     related_papers: list[str]
-    @field_validator("available_dataset_sizes", "missing_dates_in_collection_period", "background_traffic", "features_in_packet_sequences",
-                     "packet_histogram_features", "flowstats_features", "tcp_features", "other_fields", "related_papers", mode="before")
+    @field_validator("available_dataset_sizes", "missing_dates_in_collection_period", "background_traffic_classes", "ppi_features",
+                     "flowstats_features", "flowstats_features_boolean", "packet_histograms", "tcp_features", "other_fields", "related_papers", mode="before")
     @classmethod
     def parse_string_to_list(cls, v: str, info: ValidationInfo) -> list[str]:
         l = list(map(str.strip, v.split(","))) if v else []

cesnet_datazoo/datasets/metadata/metadata.csv CHANGED Viewed

@@ -1,4 +1,4 @@
-Name,Protocol,Published in,Collected in,Collection duration,Available samples,Available dataset sizes,Collection period,Missing dates in collection period,Application count,Background traffic,Features in packet sequences,Packet histogram features,Flowstats features,TCP features,Other fields,Cite,Zenodo URL,Related papers
-CESNET-TLS22,TLS,2022,2021,2 weeks,141720670,"XS, S, M, L",4.10.2021 - 17.10.2021,,191,,"IPT, DIR, SIZE",,"BYTES, BYTES_REV, PACKETS, PACKETS_REV, PPI_LEN, PPI_ROUNDTRIPS, PPI_DURATION, DURATION","FLAG_CWR, FLAG_CWR_REV, FLAG_ECE, FLAG_ECE_REV, FLAG_URG, FLAG_URG_REV, FLAG_ACK, FLAG_ACK_REV, FLAG_PSH, FLAG_PSH_REV, FLAG_RST, FLAG_RST_REV, FLAG_SYN, FLAG_SYN_REV, FLAG_FIN, FLAG_FIN_REV",ID,https://doi.org/10.1016/j.comnet.2022.109467,https://zenodo.org/record/7965515,
-CESNET-QUIC22,QUIC,2023,2022,4 weeks,153226273,"XS, S, M, L",31.10.2022 - 27.11.2022,,102,"default-background, google-background, facebook-background","IPT, DIR, SIZE","PHIST_SRC_SIZES, PHIST_DST_SIZES, PHIST_SRC_IPT, PHIST_DST_IPT","BYTES, BYTES_REV, PACKETS, PACKETS_REV, PPI_LEN, PPI_ROUNDTRIPS, PPI_DURATION, DURATION, FLOW_ENDREASON_IDLE, FLOW_ENDREASON_ACTIVE, FLOW_ENDREASON_OTHER",,"ID, SRC_IP, DST_IP, DST_ASN, SRC_PORT, DST_PORT, PROTOCOL, QUIC_VERSION, QUIC_SNI, QUIC_USERAGENT, TIME_FIRST, TIME_LAST",https://doi.org/10.1016/j.dib.2023.108888,https://zenodo.org/record/7963302,https://doi.org/10.23919/TMA58422.2023.10199052
-CESNET-TLS-Year22,TLS,2023,2022,1 year,507739073,"XS, S, M, L",1.1.2022 - 31.12.2022,"20220128, 20220129, 20220130, 20221212, 20221213, 20221229, 20221230, 20221231",180,,"IPT, DIR, SIZE, PUSH_FLAG","PHIST_SRC_SIZES, PHIST_DST_SIZES, PHIST_SRC_IPT, PHIST_DST_IPT","BYTES, BYTES_REV, PACKETS, PACKETS_REV, PPI_LEN, PPI_ROUNDTRIPS, PPI_DURATION, DURATION, FLOW_ENDREASON_IDLE, FLOW_ENDREASON_ACTIVE, FLOW_ENDREASON_END, FLOW_ENDREASON_OTHER","FLAG_CWR, FLAG_CWR_REV, FLAG_ECE, FLAG_ECE_REV, FLAG_URG, FLAG_URG_REV, FLAG_ACK, FLAG_ACK_REV, FLAG_PSH, FLAG_PSH_REV, FLAG_RST, FLAG_RST_REV, FLAG_SYN, FLAG_SYN_REV, FLAG_FIN, FLAG_FIN_REV","ID, SRC_IP, DST_IP, DST_ASN, DST_PORT, PROTOCOL, TLS_SNI, TLS_JA3, TIME_FIRST, TIME_LAST",,,
+Name,Protocol,Published in,Collected in,Collection duration,Available samples,Available dataset sizes,Collection period,Missing dates in collection period,Application count,Background traffic classes,PPI features,Flowstats features,Flowstats features boolean,Packet histograms,TCP features,Other fields,Cite,Zenodo URL,Related papers
+CESNET-TLS22,TLS,2022,2021,2 weeks,141720670,"XS, S, M, L",4.10.2021 - 17.10.2021,,191,,"IPT, DIR, SIZE","BYTES, BYTES_REV, PACKETS, PACKETS_REV, DURATION, PPI_LEN, PPI_ROUNDTRIPS, PPI_DURATION",,,"FLAG_CWR, FLAG_CWR_REV, FLAG_ECE, FLAG_ECE_REV, FLAG_URG, FLAG_URG_REV, FLAG_ACK, FLAG_ACK_REV, FLAG_PSH, FLAG_PSH_REV, FLAG_RST, FLAG_RST_REV, FLAG_SYN, FLAG_SYN_REV, FLAG_FIN, FLAG_FIN_REV",ID,https://doi.org/10.1016/j.comnet.2022.109467,https://zenodo.org/record/7965515,
+CESNET-QUIC22,QUIC,2023,2022,4 weeks,153226273,"XS, S, M, L",31.10.2022 - 27.11.2022,,102,"default-background, google-background, facebook-background","IPT, DIR, SIZE","BYTES, BYTES_REV, PACKETS, PACKETS_REV, DURATION, PPI_LEN, PPI_ROUNDTRIPS, PPI_DURATION","FLOW_ENDREASON_IDLE, FLOW_ENDREASON_ACTIVE, FLOW_ENDREASON_OTHER","PHIST_SRC_SIZES, PHIST_DST_SIZES, PHIST_SRC_IPT, PHIST_DST_IPT",,"ID, SRC_IP, DST_IP, DST_ASN, SRC_PORT, DST_PORT, PROTOCOL, QUIC_VERSION, QUIC_SNI, QUIC_USERAGENT, TIME_FIRST, TIME_LAST",https://doi.org/10.1016/j.dib.2023.108888,https://zenodo.org/record/7963302,https://doi.org/10.23919/TMA58422.2023.10199052
+CESNET-TLS-Year22,TLS,2023,2022,1 year,507739073,"XS, S, M, L",1.1.2022 - 31.12.2022,"20220128, 20220129, 20220130, 20221212, 20221213, 20221229, 20221230, 20221231",180,,"IPT, DIR, SIZE, PUSH_FLAG","BYTES, BYTES_REV, PACKETS, PACKETS_REV, DURATION, PPI_LEN, PPI_ROUNDTRIPS, PPI_DURATION","FLOW_ENDREASON_IDLE, FLOW_ENDREASON_ACTIVE, FLOW_ENDREASON_END, FLOW_ENDREASON_OTHER","PHIST_SRC_SIZES, PHIST_DST_SIZES, PHIST_SRC_IPT, PHIST_DST_IPT","FLAG_CWR, FLAG_CWR_REV, FLAG_ECE, FLAG_ECE_REV, FLAG_URG, FLAG_URG_REV, FLAG_ACK, FLAG_ACK_REV, FLAG_PSH, FLAG_PSH_REV, FLAG_RST, FLAG_RST_REV, FLAG_SYN, FLAG_SYN_REV, FLAG_FIN, FLAG_FIN_REV","ID, SRC_IP, DST_IP, DST_ASN, DST_PORT, PROTOCOL, TLS_SNI, TLS_JA3, TIME_FIRST, TIME_LAST",,,

cesnet_datazoo/datasets/statistics.py CHANGED Viewed

@@ -1,4 +1,3 @@
-import logging
 import os
 from collections import Counter
 from typing import Any, Literal
@@ -12,8 +11,9 @@ from torch.utils.data import BatchSampler, DataLoader, SequentialSampler
 from tqdm import tqdm
 from cesnet_datazoo.config import Protocol
-from cesnet_datazoo.constants import (APP_COLUMN, CATEGORY_COLUMN, FLOWEND_REASON_FEATURES, IPT_POS,
-                                      PHISTS_FEATURES, PPI_COLUMN, SIZE_POS)
+from cesnet_datazoo.constants import (APP_COLUMN, CATEGORY_COLUMN, IPT_POS, PPI_COLUMN, SIZE_POS,
+                                      UDP_PPI_CHANNELS)
+from cesnet_datazoo.datasets.loaders import collate_fn_simple
 from cesnet_datazoo.pytables_data.indices_setup import sort_indices
 from cesnet_datazoo.pytables_data.pytables_dataset import (PyTablesDataset, list_all_tables,
                                                            load_database, worker_init_fn)
@@ -36,17 +36,25 @@ def pick_stats_fields(batch):
         batch[CATEGORY_COLUMN],
     )
-def pick_extra_fields(batch, flowstats_features: list[str]):
+def pick_extra_fields(batch, packet_histograms: list[str], flow_endreason_features: list[str]):
     return (
         batch["DST_ASN"],
-        batch[PHISTS_FEATURES],
-        batch[[f for f in FLOWEND_REASON_FEATURES if f in flowstats_features]],
+        batch[packet_histograms],
+        batch[flow_endreason_features],
     )
-def simple_collate_fn(batch):
-    return batch
-def compute_dataset_statistics(database_path: str, output_dir: str, flowstats_features: list[str], protocol: Protocol, extra_fields: bool, disabled_apps: list[str], num_samples: int | Literal["all"] = 10_000_000, num_workers: int = 4, batch_size: int = 4096, silent: bool = False):
+def compute_dataset_statistics(database_path: str,
+                               tables_app_enum: dict[int, str],
+                               tables_cat_enum: dict[int, str],
+                               output_dir: str,
+                               packet_histograms: list[str],
+                               flowstats_features_boolean: list[str],
+                               protocol: Protocol, extra_fields: bool,
+                               disabled_apps: list[str],
+                               num_samples: int | Literal["all"] = 10_000_000,
+                               num_workers: int = 4,
+                               batch_size: int = 4096,
+                               silent: bool = False):
     stats_pdf_path = os.path.join(output_dir, "dataset-statistics.pdf")
     stats_csv_path = os.path.join(output_dir, "dataset-statistics.csv")
     categories_csv_path = os.path.join(output_dir, "categories.csv")
@@ -74,10 +82,22 @@ def compute_dataset_statistics(database_path: str, output_dir: str, flowstats_fe
     feature_bytes_total = []
     packet_sizes_counter = Counter()
     ipt_counter = Counter()
+    flow_endreason_features = [f for f in flowstats_features_boolean if f.startswith("FLOW_ENDREASON")]
     if not silent:
         print(f"Reading data from {database_path} for statistics")
     table_paths = list_all_tables(database_path)
-    stats_dataset = PyTablesDataset(database_path=database_path, tables_paths=table_paths, flowstats_features=flowstats_features, disabled_apps=disabled_apps, indices=None, return_all_fields=True)
+    stats_dataset = PyTablesDataset(database_path=database_path,
+                                    tables_app_enum=tables_app_enum,
+                                    tables_cat_enum=tables_cat_enum,
+                                    tables_paths=table_paths,
+                                    indices=None,
+                                    disabled_apps=disabled_apps,
+                                    return_all_fields=True,
+                                    flowstats_features=[],
+                                    flowstats_features_boolean=[],
+                                    flowstats_features_phist=[],
+                                    other_fields=[],
+                                    ppi_channels=UDP_PPI_CHANNELS,)
     if num_samples != "all":
         subset_indices = np.random.randint(low=0, high=len(stats_dataset.indices), size=num_samples)
         stats_dataset.indices = sort_indices(stats_dataset.indices[subset_indices])
@@ -87,7 +107,7 @@ def compute_dataset_statistics(database_path: str, output_dir: str, flowstats_fe
         pin_memory=False,
         num_workers=num_workers,
         worker_init_fn=worker_init_fn,
-        collate_fn=simple_collate_fn,
+        collate_fn=collate_fn_simple,
         persistent_workers=False,
         batch_size=None,
         sampler=stats_batch_sampler)
@@ -116,10 +136,10 @@ def compute_dataset_statistics(database_path: str, output_dir: str, flowstats_fe
             quic_ua_series = quic_ua_series.add(pd.Series(user_agent).str.decode("utf-8").value_counts(), fill_value=0)
             quic_version_series = quic_version_series.add(pd.Series(quic_version).value_counts(), fill_value=0)
         if extra_fields:
-            asn, phist, flowend_reason = pick_extra_fields(batch, flowstats_features=flowstats_features)
+            asn, phist, flowend_reason = pick_extra_fields(batch, packet_histograms=packet_histograms, flow_endreason_features=flow_endreason_features)
             asn_series = asn_series.add(pd.Series(asn).value_counts(), fill_value=0)
             flow_endreason_series = flow_endreason_series.add(pd.Series(structured_to_unstructured(flowend_reason).sum(axis=0)), fill_value=0)
-            df2 = pd.DataFrame(data=zip(*np.split(structured_to_unstructured(phist).sum(axis=0), 4)), columns=PHISTS_FEATURES)
+            df2 = pd.DataFrame(data=zip(*np.split(structured_to_unstructured(phist).sum(axis=0), 4)), columns=packet_histograms)
             df_phist = df_phist.add(df2, fill_value=0)
     feature_duration = np.concatenate(feature_duration)
     feature_packets_total = np.concatenate(feature_packets_total)
@@ -183,11 +203,11 @@ def compute_dataset_statistics(database_path: str, output_dir: str, flowstats_fe
         flow_endreason_df = pd.DataFrame({"COUNT": flow_endreason_series.astype("int64")})
         flow_endreason_df["PERC"] = (flow_endreason_df["COUNT"] / flow_endreason_df["COUNT"].sum() * 100).round(3)
         flow_endreason_df.index.name = "FLOW ENDREASON"
-        flow_endreason_df.index = pd.Index([f for f in FLOWEND_REASON_FEATURES if f in flowstats_features])
+        flow_endreason_df.index = pd.Index(flow_endreason_features)
         flow_endreason_df.to_csv(flow_endreason_path)
         # PHIST output
         df_phist.index.name = "BINS"
-        df_phist.columns = list(map(lambda x: x.upper().replace("_", " "), PHISTS_FEATURES))
+        df_phist.columns = list(map(lambda x: x.upper().replace("_", " "), packet_histograms))
         df_phist = df_phist.astype("int64")
         for i, column in zip((1, 3, 5, 7), df_phist.columns):
             df_phist.insert(i, column + " PERC", (df_phist[column] / df_phist[column].sum() * 100).round(3))

cesnet_datazoo/pytables_data/data_scalers.py ADDED Viewed

@@ -0,0 +1,110 @@
+import json
+import logging
+import os
+import time
+import warnings
+import numpy as np
+from cesnet_models.transforms import ClipAndScaleFlowstats, ClipAndScalePPI
+from numpy.lib.recfunctions import structured_to_unstructured
+from sklearn.preprocessing import MinMaxScaler, RobustScaler, StandardScaler
+from cesnet_datazoo.config import DatasetConfig
+from cesnet_datazoo.constants import DIR_POS, FLOWSTATS_NO_CLIP, IPT_POS, PPI_COLUMN, SIZE_POS
+from cesnet_datazoo.pytables_data.pytables_dataset import load_data_from_tables, load_database
+from cesnet_datazoo.utils.random import RandomizedSection, get_fresh_random_generator
+log = logging.getLogger(__name__)
+def get_scaler_attrs(scaler: StandardScaler | RobustScaler | MinMaxScaler) -> dict[str, list[float]]:
+    if isinstance(scaler, StandardScaler):
+        assert hasattr(scaler, "mean_") and scaler.mean_ is not None and hasattr(scaler, "scale_") and scaler.scale_ is not None
+        scaler_attrs = {"mean_": scaler.mean_.tolist(), "scale_": scaler.scale_.tolist()}
+    elif isinstance(scaler, RobustScaler):
+        assert hasattr(scaler, "center_") and hasattr(scaler, "scale_")
+        scaler_attrs = {"center_": scaler.center_.tolist(), "scale_": scaler.scale_.tolist()}
+    elif isinstance(scaler, MinMaxScaler):
+        assert hasattr(scaler, "min_") and hasattr(scaler, "scale_")
+        scaler_attrs = {"min_": scaler.min_.tolist(), "scale_": scaler.scale_.tolist()}
+    return scaler_attrs
+def fit_scalers(dataset_config: DatasetConfig, train_indices: np.ndarray) -> None:
+    # Define indices for fitting scalers
+    if isinstance(dataset_config.fit_scalers_samples, int) and dataset_config.fit_scalers_samples > len(train_indices):
+        warnings.warn(f"The number of samples for fitting scalers ({dataset_config.fit_scalers_samples}) is larger than the number of train samples ({len(train_indices)}), using the number of train samples instead")
+        dataset_config.fit_scalers_samples = len(train_indices)
+    fit_scalers_rng = get_fresh_random_generator(dataset_config=dataset_config, section=RandomizedSection.FIT_SCALERS_SAMPLE)
+    if isinstance(dataset_config.fit_scalers_samples, float):
+        num_samples = int(dataset_config.fit_scalers_samples * len(train_indices))
+    else:
+        num_samples = dataset_config.fit_scalers_samples
+    fit_scalers_indices = train_indices[fit_scalers_rng.choice(len(train_indices), size=num_samples, replace=False)]
+    # Load data
+    start_time = time.time()
+    database, tables = load_database(dataset_config.database_path, tables_paths=dataset_config._get_train_tables_paths())
+    data = load_data_from_tables(tables=tables, indices=fit_scalers_indices, data_dtype=tables[0].dtype)
+    database.close()
+    clip_and_scale_ppi_transform = dataset_config.ppi_transform # TODO Fix after transforms composing is implemented
+    clip_and_scale_flowstats_transform = dataset_config.flowstats_transform
+    # Fit the ClipAndScalePPI transform
+    if clip_and_scale_ppi_transform is not None and clip_and_scale_ppi_transform.needs_fitting:
+        assert isinstance(clip_and_scale_ppi_transform, ClipAndScalePPI)
+        data_ppi = data[PPI_COLUMN].astype("float32")
+        ppi_channels = data_ppi.shape[1]
+        data_ppi = data_ppi.transpose(0, 2, 1).reshape(-1, ppi_channels)
+        padding_mask = data_ppi[:, DIR_POS] == 0 # Mask of padded packets
+        # Fit IPT scaler
+        train_ipt = data_ppi[:, IPT_POS].clip(max=clip_and_scale_ppi_transform.ipt_max, min=clip_and_scale_ppi_transform.ipt_min)
+        train_ipt[padding_mask] = np.nan # NaNs are ignored in sklearn scalers
+        if isinstance(clip_and_scale_ppi_transform.ipt_scaler, MinMaxScaler):
+            # Let zero be the minimum for minmax scaling
+            train_ipt = np.concatenate((train_ipt, [0]))
+        clip_and_scale_ppi_transform.ipt_scaler.fit(train_ipt.reshape(-1, 1))
+        # Fit packet sizes scaler
+        train_psizes = data_ppi[:, SIZE_POS].clip(max=clip_and_scale_ppi_transform.psizes_max, min=clip_and_scale_ppi_transform.pszies_min)
+        train_psizes[padding_mask] = np.nan
+        if isinstance(clip_and_scale_ppi_transform.psizes_scaler, MinMaxScaler):
+            train_psizes = np.concatenate((train_psizes, [0]))
+        clip_and_scale_ppi_transform.psizes_scaler.fit(train_psizes.reshape(-1, 1))
+        clip_and_scale_ppi_transform.needs_fitting = False
+    # Fit the ClipAndScaleFlowstats transform
+    if clip_and_scale_flowstats_transform is not None and clip_and_scale_flowstats_transform.needs_fitting:
+        assert isinstance(clip_and_scale_flowstats_transform, ClipAndScaleFlowstats)
+        train_flowstats = structured_to_unstructured(data[dataset_config.flowstats_features])
+        flowstats_quantiles = np.quantile(train_flowstats, q=clip_and_scale_flowstats_transform.quantile_clip, axis=0)
+        idx_no_clip = [dataset_config.flowstats_features.index(f) for f in FLOWSTATS_NO_CLIP]
+        flowstats_quantiles[idx_no_clip] = np.inf # Disable clipping for features with "fixed" range
+        train_flowstats = train_flowstats.clip(max=flowstats_quantiles)
+        clip_and_scale_flowstats_transform.flowstats_scaler.fit(train_flowstats)
+        clip_and_scale_flowstats_transform.flowstats_quantiles = flowstats_quantiles.tolist()
+        clip_and_scale_flowstats_transform.needs_fitting = False
+    log.info(f"Reading data and fitting scalers took {time.time() - start_time:.2f} seconds")
+    train_data_path = dataset_config._get_train_data_path()
+    if clip_and_scale_ppi_transform is not None:
+        ppi_transform_path = os.path.join(train_data_path, "transforms", "ppi-transform.json")
+        ppi_transform_dict = {
+            "psizes_scaler_enum": str(clip_and_scale_ppi_transform._psizes_scaler_enum),
+            "psizes_scaler_attrs": get_scaler_attrs(clip_and_scale_ppi_transform.psizes_scaler),
+            "pszies_min": clip_and_scale_ppi_transform.pszies_min,
+            "psizes_max": clip_and_scale_ppi_transform.psizes_max,
+            "ipt_scaler_enum": str(clip_and_scale_ppi_transform._ipt_scaler_enum),
+            "ipt_scaler_attrs": get_scaler_attrs(clip_and_scale_ppi_transform.ipt_scaler),
+            "ipt_min": clip_and_scale_ppi_transform.ipt_min,
+            "ipt_max": clip_and_scale_ppi_transform.ipt_max,
+        }
+        json.dump(ppi_transform_dict, open(ppi_transform_path, "w"), indent=4)
+    if clip_and_scale_flowstats_transform is not None:
+        assert clip_and_scale_flowstats_transform.flowstats_quantiles is not None
+        flowstats_transform_path = os.path.join(train_data_path, "transforms", "flowstats-transform.json")
+        flowstats_transform_dict = {
+            "flowstats_scaler_enum": str(clip_and_scale_flowstats_transform._flowstats_scaler_enum),
+            "flowstats_scaler_attrs": get_scaler_attrs(clip_and_scale_flowstats_transform.flowstats_scaler),
+            "flowstats_quantiles": clip_and_scale_flowstats_transform.flowstats_quantiles,
+            "quantile_clip": clip_and_scale_flowstats_transform.quantile_clip,
+        }
+        json.dump(flowstats_transform_dict, open(flowstats_transform_path, "w"), indent=4)

cesnet_datazoo/pytables_data/indices_setup.py CHANGED Viewed

@@ -7,13 +7,11 @@ from enum import Enum
 import numpy as np
 import pandas as pd
-from sklearn.preprocessing import LabelEncoder
 from cesnet_datazoo.config import DatasetConfig
-from cesnet_datazoo.constants import (INDICES_INDEX_POS, INDICES_LABEL_POS, INDICES_TABLE_POS,
-                                      UNKNOWN_STR_LABEL)
+from cesnet_datazoo.constants import INDICES_INDEX_POS, INDICES_LABEL_POS, INDICES_TABLE_POS
 from cesnet_datazoo.pytables_data.pytables_dataset import init_test_indices, init_train_indices
-from cesnet_datazoo.utils.fileutils import pickle_dump, pickle_load, yaml_dump, yaml_load
+from cesnet_datazoo.utils.fileutils import yaml_dump, yaml_load
 from cesnet_datazoo.utils.random import RandomizedSection, get_fresh_random_generator
 log = logging.getLogger(__name__)
@@ -78,59 +76,56 @@ def date_weight_sample_train_indices(dataset_config: DatasetConfig, train_indice
     sampled_train_indices = np.concatenate(sampled_indicies_per_date)
     return sampled_train_indices
-def indices_to_app_counts(indices: np.ndarray, database_enum: dict[int, str]) -> pd.Series:
+def indices_to_app_counts(indices: np.ndarray, tables_app_enum: dict[int, str]) -> pd.Series:
     app_counts = pd.Series(indices[:, INDICES_LABEL_POS]).value_counts()
-    app_counts.index = app_counts.index.map(lambda x: database_enum[x])
+    app_counts.index = app_counts.index.map(lambda x: tables_app_enum[x])
     return app_counts
-def compute_known_app_counts(dataset_indices: IndicesTuple, database_enum: dict[int, str]) -> pd.DataFrame:
-    train_app_counts = indices_to_app_counts(dataset_indices.train_indices, database_enum)
-    val_known_app_counts = indices_to_app_counts(dataset_indices.val_known_indices, database_enum)
-    test_known_app_counts = indices_to_app_counts(dataset_indices.test_known_indices, database_enum)
+def compute_known_app_counts(dataset_indices: IndicesTuple, tables_app_enum: dict[int, str]) -> pd.DataFrame:
+    train_app_counts = indices_to_app_counts(dataset_indices.train_indices, tables_app_enum)
+    val_known_app_counts = indices_to_app_counts(dataset_indices.val_known_indices, tables_app_enum)
+    test_known_app_counts = indices_to_app_counts(dataset_indices.test_known_indices, tables_app_enum)
     df = pd.DataFrame(data={"Train": train_app_counts, "Validation": val_known_app_counts, "Test": test_known_app_counts}).fillna(0).astype("int64")
     return df
-def compute_unknown_app_counts(dataset_indices: IndicesTuple, database_enum: dict[int, str]) -> pd.DataFrame:
-    val_unknown_app_counts = indices_to_app_counts(dataset_indices.val_unknown_indices, database_enum)
-    test_unknown_app_counts = indices_to_app_counts(dataset_indices.test_unknown_indices, database_enum)
+def compute_unknown_app_counts(dataset_indices: IndicesTuple, tables_app_enum: dict[int, str]) -> pd.DataFrame:
+    val_unknown_app_counts = indices_to_app_counts(dataset_indices.val_unknown_indices, tables_app_enum)
+    test_unknown_app_counts = indices_to_app_counts(dataset_indices.test_unknown_indices, tables_app_enum)
     df = pd.DataFrame(data={"Validation": val_unknown_app_counts, "Test": test_unknown_app_counts}).fillna(0).astype("int64")
     return df
-def init_or_load_train_indices(dataset_config: DatasetConfig, servicemap: pd.DataFrame, disable_indices_cache: bool) -> tuple[np.ndarray, np.ndarray, LabelEncoder, dict[int, str], dict[int, str]]:
+def init_or_load_train_indices(dataset_config: DatasetConfig, tables_app_enum: dict[int, str], servicemap: pd.DataFrame, disable_indices_cache: bool) -> tuple[np.ndarray, np.ndarray, list[str], list[str]]:
     train_data_path = dataset_config._get_train_data_path()
     init_train_data(train_data_path)
     if not os.path.isfile(os.path.join(train_data_path, TRAIN_DATA_PARAMS_FILE)):
         log.info("Processing train indices")
         train_data_params = dataset_config._get_train_data_params()
-        train_known_indices, train_unknown_indices, known_apps_database_enum, unknown_apps_database_enum = init_train_indices(
-            train_data_params=train_data_params,
-            servicemap=servicemap,
-            database_path=dataset_config.database_path,
-            rng=get_fresh_random_generator(dataset_config=dataset_config, section=RandomizedSection.INIT_TRAIN_INDICES))
-        encoder = LabelEncoder().fit(list(known_apps_database_enum.values()))
-        encoder.classes_ = np.append(encoder.classes_, UNKNOWN_STR_LABEL)
+        train_known_indices, train_unknown_indices, known_apps, unknown_apps = init_train_indices(train_data_params=train_data_params,
+                                                                                                  database_path=dataset_config.database_path,
+                                                                                                  tables_app_enum=tables_app_enum,
+                                                                                                  servicemap=servicemap,
+                                                                                                  rng=get_fresh_random_generator(dataset_config=dataset_config, section=RandomizedSection.INIT_TRAIN_INDICES))
         if not disable_indices_cache:
             yaml_dump({k: str(v) if isinstance(v, Enum) else list(v) if isinstance(v, tuple) else v for k, v in dataclasses.asdict(train_data_params).items()}, os.path.join(train_data_path, TRAIN_DATA_PARAMS_FILE))
-            yaml_dump(known_apps_database_enum, os.path.join(train_data_path, "known_apps_database_enum.yaml"))
-            yaml_dump(unknown_apps_database_enum, os.path.join(train_data_path, "unknown_apps_database_enum.yaml"))
-            pickle_dump(encoder, os.path.join(train_data_path, "encoder.pickle"))
+            yaml_dump(known_apps, os.path.join(train_data_path, "known_apps.yaml"))
+            yaml_dump(unknown_apps, os.path.join(train_data_path, "unknown_apps.yaml"))
             np.save(os.path.join(train_data_path, "train_known_indices.npy"), train_known_indices)
             np.save(os.path.join(train_data_path, "train_unknown_indices.npy"), train_unknown_indices)
     else:
-        known_apps_database_enum = yaml_load(os.path.join(train_data_path, "known_apps_database_enum.yaml"))
-        unknown_apps_database_enum = yaml_load(os.path.join(train_data_path, "unknown_apps_database_enum.yaml"))
-        encoder = pickle_load(os.path.join(train_data_path, "encoder.pickle"))
+        known_apps = yaml_load(os.path.join(train_data_path, "known_apps.yaml"))
+        unknown_apps = yaml_load(os.path.join(train_data_path, "unknown_apps.yaml"))
         train_known_indices = np.load(os.path.join(train_data_path, "train_known_indices.npy"))
         train_unknown_indices = np.load(os.path.join(train_data_path, "train_unknown_indices.npy"))
-    return train_known_indices, train_unknown_indices, encoder, known_apps_database_enum, unknown_apps_database_enum
+    return train_known_indices, train_unknown_indices, known_apps, unknown_apps
-def init_or_load_val_indices(dataset_config: DatasetConfig, known_apps_database_enum: dict[int, str], unknown_apps_database_enum: dict[int, str], disable_indices_cache: bool) -> tuple[np.ndarray, np.ndarray, str]:
-    val_data_params, val_data_path = dataset_config._get_val_data_params_and_path(known_apps_database_enum=known_apps_database_enum, unknown_apps_database_enum=unknown_apps_database_enum)
+def init_or_load_val_indices(dataset_config: DatasetConfig, known_apps: list[str], unknown_apps: list[str], tables_app_enum: dict[int, str], disable_indices_cache: bool) -> tuple[np.ndarray, np.ndarray, str]:
+    val_data_params, val_data_path = dataset_config._get_val_data_params_and_path(known_apps=known_apps, unknown_apps=unknown_apps)
     init_test_data(val_data_path)
     if not os.path.isfile(os.path.join(val_data_path, TEST_DATA_PARAMS_FILE)):
         log.info("Processing validation indices")
         val_known_indices, val_unknown_indices = init_test_indices(test_data_params=val_data_params,
                                                                    database_path=dataset_config.database_path,
+                                                                   tables_app_enum=tables_app_enum,
                                                                    rng=get_fresh_random_generator(dataset_config=dataset_config, section=RandomizedSection.INIT_VAL_INIDICES))
         if not disable_indices_cache:
             yaml_dump(dataclasses.asdict(val_data_params), os.path.join(val_data_path, TEST_DATA_PARAMS_FILE))
@@ -141,13 +136,14 @@ def init_or_load_val_indices(dataset_config: DatasetConfig, known_apps_database_
         val_unknown_indices = np.load(os.path.join(val_data_path, "val_unknown_indices.npy"))
     return val_known_indices, val_unknown_indices, val_data_path
-def init_or_load_test_indices(dataset_config: DatasetConfig, known_apps_database_enum: dict[int, str], unknown_apps_database_enum: dict[int, str], disable_indices_cache: bool) -> tuple[np.ndarray, np.ndarray, str]:
-    test_data_params, test_data_path = dataset_config._get_test_data_params_and_path(known_apps_database_enum=known_apps_database_enum, unknown_apps_database_enum=unknown_apps_database_enum)
+def init_or_load_test_indices(dataset_config: DatasetConfig, known_apps: list[str], unknown_apps: list[str], tables_app_enum: dict[int, str], disable_indices_cache: bool) -> tuple[np.ndarray, np.ndarray, str]:
+    test_data_params, test_data_path = dataset_config._get_test_data_params_and_path(known_apps=known_apps, unknown_apps=unknown_apps)
     init_test_data(test_data_path)
     if not os.path.isfile(os.path.join(test_data_path, TEST_DATA_PARAMS_FILE)):
         log.info("Processing test indices")
         test_known_indices, test_unknown_indices = init_test_indices(test_data_params=test_data_params,
                                                                      database_path=dataset_config.database_path,
+                                                                     tables_app_enum=tables_app_enum,
                                                                      rng=get_fresh_random_generator(dataset_config=dataset_config, section=RandomizedSection.INIT_TEST_INDICES))
         if not disable_indices_cache:
             yaml_dump(dataclasses.asdict(test_data_params), os.path.join(test_data_path, TEST_DATA_PARAMS_FILE))
@@ -160,7 +156,7 @@ def init_or_load_test_indices(dataset_config: DatasetConfig, known_apps_database
 def init_train_data(train_data_path: str):
     os.makedirs(train_data_path, exist_ok=True)
-    os.makedirs(os.path.join(train_data_path, "stand"), exist_ok=True)
+    os.makedirs(os.path.join(train_data_path, "transforms"), exist_ok=True)
     os.makedirs(os.path.join(train_data_path, "preload"), exist_ok=True)
 def init_test_data(test_data_path: str):

cesnet-datazoo 0.0.16__py3-none-any.whl → 0.1.0__py3-none-any.whl

cesnet-datazoo 0.0.16py3-none-any.whl → 0.1.0py3-none-any.whl