PyPI - smftools - Versions diffs - 0.2.4__py3-none-any.whl → 0.3.0__py3-none-any.whl - Mend

smftools 0.2.4py3-none-any.whl → 0.3.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (181) hide show

smftools/__init__.py +43 -13
smftools/_settings.py +6 -6
smftools/_version.py +3 -1
smftools/cli/__init__.py +1 -0
smftools/cli/archived/cli_flows.py +2 -0
smftools/cli/helpers.py +9 -1
smftools/cli/hmm_adata.py +905 -242
smftools/cli/load_adata.py +432 -280
smftools/cli/preprocess_adata.py +287 -171
smftools/cli/spatial_adata.py +141 -53
smftools/cli_entry.py +119 -178
smftools/config/__init__.py +3 -1
smftools/config/conversion.yaml +5 -1
smftools/config/deaminase.yaml +1 -1
smftools/config/default.yaml +26 -18
smftools/config/direct.yaml +8 -3
smftools/config/discover_input_files.py +19 -5
smftools/config/experiment_config.py +511 -276
smftools/constants.py +37 -0
smftools/datasets/__init__.py +4 -8
smftools/datasets/datasets.py +32 -18
smftools/hmm/HMM.py +2133 -1428
smftools/hmm/__init__.py +24 -14
smftools/hmm/archived/apply_hmm_batched.py +2 -0
smftools/hmm/archived/calculate_distances.py +2 -0
smftools/hmm/archived/call_hmm_peaks.py +18 -1
smftools/hmm/archived/train_hmm.py +2 -0
smftools/hmm/call_hmm_peaks.py +176 -193
smftools/hmm/display_hmm.py +23 -7
smftools/hmm/hmm_readwrite.py +20 -6
smftools/hmm/nucleosome_hmm_refinement.py +104 -14
smftools/informatics/__init__.py +55 -13
smftools/informatics/archived/bam_conversion.py +2 -0
smftools/informatics/archived/bam_direct.py +2 -0
smftools/informatics/archived/basecall_pod5s.py +2 -0
smftools/informatics/archived/basecalls_to_adata.py +2 -0
smftools/informatics/archived/conversion_smf.py +2 -0
smftools/informatics/archived/deaminase_smf.py +1 -0
smftools/informatics/archived/direct_smf.py +2 -0
smftools/informatics/archived/fast5_to_pod5.py +2 -0
smftools/informatics/archived/helpers/archived/__init__.py +2 -0
smftools/informatics/archived/helpers/archived/align_and_sort_BAM.py +16 -1
smftools/informatics/archived/helpers/archived/aligned_BAM_to_bed.py +2 -0
smftools/informatics/archived/helpers/archived/bam_qc.py +14 -1
smftools/informatics/archived/helpers/archived/bed_to_bigwig.py +2 -0
smftools/informatics/archived/helpers/archived/canoncall.py +2 -0
smftools/informatics/archived/helpers/archived/concatenate_fastqs_to_bam.py +8 -1
smftools/informatics/archived/helpers/archived/converted_BAM_to_adata.py +2 -0
smftools/informatics/archived/helpers/archived/count_aligned_reads.py +2 -0
smftools/informatics/archived/helpers/archived/demux_and_index_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/extract_base_identities.py +2 -0
smftools/informatics/archived/helpers/archived/extract_mods.py +2 -0
smftools/informatics/archived/helpers/archived/extract_read_features_from_bam.py +2 -0
smftools/informatics/archived/helpers/archived/extract_read_lengths_from_bed.py +2 -0
smftools/informatics/archived/helpers/archived/extract_readnames_from_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/find_conversion_sites.py +2 -0
smftools/informatics/archived/helpers/archived/generate_converted_FASTA.py +2 -0
smftools/informatics/archived/helpers/archived/get_chromosome_lengths.py +2 -0
smftools/informatics/archived/helpers/archived/get_native_references.py +2 -0
smftools/informatics/archived/helpers/archived/index_fasta.py +2 -0
smftools/informatics/archived/helpers/archived/informatics.py +2 -0
smftools/informatics/archived/helpers/archived/load_adata.py +5 -3
smftools/informatics/archived/helpers/archived/make_modbed.py +2 -0
smftools/informatics/archived/helpers/archived/modQC.py +2 -0
smftools/informatics/archived/helpers/archived/modcall.py +2 -0
smftools/informatics/archived/helpers/archived/ohe_batching.py +2 -0
smftools/informatics/archived/helpers/archived/ohe_layers_decode.py +2 -0
smftools/informatics/archived/helpers/archived/one_hot_decode.py +2 -0
smftools/informatics/archived/helpers/archived/one_hot_encode.py +2 -0
smftools/informatics/archived/helpers/archived/plot_bed_histograms.py +5 -1
smftools/informatics/archived/helpers/archived/separate_bam_by_bc.py +2 -0
smftools/informatics/archived/helpers/archived/split_and_index_BAM.py +2 -0
smftools/informatics/archived/print_bam_query_seq.py +9 -1
smftools/informatics/archived/subsample_fasta_from_bed.py +2 -0
smftools/informatics/archived/subsample_pod5.py +2 -0
smftools/informatics/bam_functions.py +1059 -269
smftools/informatics/basecalling.py +53 -9
smftools/informatics/bed_functions.py +357 -114
smftools/informatics/binarize_converted_base_identities.py +21 -7
smftools/informatics/complement_base_list.py +9 -6
smftools/informatics/converted_BAM_to_adata.py +324 -137
smftools/informatics/fasta_functions.py +251 -89
smftools/informatics/h5ad_functions.py +202 -30
smftools/informatics/modkit_extract_to_adata.py +623 -274
smftools/informatics/modkit_functions.py +87 -44
smftools/informatics/ohe.py +46 -21
smftools/informatics/pod5_functions.py +114 -74
smftools/informatics/run_multiqc.py +20 -14
smftools/logging_utils.py +51 -0
smftools/machine_learning/__init__.py +23 -12
smftools/machine_learning/data/__init__.py +2 -0
smftools/machine_learning/data/anndata_data_module.py +157 -50
smftools/machine_learning/data/preprocessing.py +4 -1
smftools/machine_learning/evaluation/__init__.py +3 -1
smftools/machine_learning/evaluation/eval_utils.py +13 -14
smftools/machine_learning/evaluation/evaluators.py +52 -34
smftools/machine_learning/inference/__init__.py +3 -1
smftools/machine_learning/inference/inference_utils.py +9 -4
smftools/machine_learning/inference/lightning_inference.py +14 -13
smftools/machine_learning/inference/sklearn_inference.py +8 -8
smftools/machine_learning/inference/sliding_window_inference.py +37 -25
smftools/machine_learning/models/__init__.py +12 -5
smftools/machine_learning/models/base.py +34 -43
smftools/machine_learning/models/cnn.py +22 -13
smftools/machine_learning/models/lightning_base.py +78 -42
smftools/machine_learning/models/mlp.py +18 -5
smftools/machine_learning/models/positional.py +10 -4
smftools/machine_learning/models/rnn.py +8 -3
smftools/machine_learning/models/sklearn_models.py +46 -24
smftools/machine_learning/models/transformer.py +75 -55
smftools/machine_learning/models/wrappers.py +8 -3
smftools/machine_learning/training/__init__.py +4 -2
smftools/machine_learning/training/train_lightning_model.py +42 -23
smftools/machine_learning/training/train_sklearn_model.py +11 -15
smftools/machine_learning/utils/__init__.py +3 -1
smftools/machine_learning/utils/device.py +12 -5
smftools/machine_learning/utils/grl.py +8 -2
smftools/metadata.py +443 -0
smftools/optional_imports.py +31 -0
smftools/plotting/__init__.py +32 -17
smftools/plotting/autocorrelation_plotting.py +153 -48
smftools/plotting/classifiers.py +175 -73
smftools/plotting/general_plotting.py +350 -168
smftools/plotting/hmm_plotting.py +53 -14
smftools/plotting/position_stats.py +155 -87
smftools/plotting/qc_plotting.py +25 -12
smftools/preprocessing/__init__.py +35 -37
smftools/preprocessing/append_base_context.py +105 -79
smftools/preprocessing/append_binary_layer_by_base_context.py +75 -37
smftools/preprocessing/{archives → archived}/add_read_length_and_mapping_qc.py +2 -0
smftools/preprocessing/{archives → archived}/calculate_complexity.py +5 -1
smftools/preprocessing/{archives → archived}/mark_duplicates.py +2 -0
smftools/preprocessing/{archives → archived}/preprocessing.py +10 -6
smftools/preprocessing/{archives → archived}/remove_duplicates.py +2 -0
smftools/preprocessing/binarize.py +21 -4
smftools/preprocessing/binarize_on_Youden.py +127 -31
smftools/preprocessing/binary_layers_to_ohe.py +18 -11
smftools/preprocessing/calculate_complexity_II.py +89 -59
smftools/preprocessing/calculate_consensus.py +28 -19
smftools/preprocessing/calculate_coverage.py +44 -22
smftools/preprocessing/calculate_pairwise_differences.py +4 -1
smftools/preprocessing/calculate_pairwise_hamming_distances.py +7 -3
smftools/preprocessing/calculate_position_Youden.py +110 -55
smftools/preprocessing/calculate_read_length_stats.py +52 -23
smftools/preprocessing/calculate_read_modification_stats.py +91 -57
smftools/preprocessing/clean_NaN.py +38 -28
smftools/preprocessing/filter_adata_by_nan_proportion.py +24 -12
smftools/preprocessing/filter_reads_on_length_quality_mapping.py +72 -37
smftools/preprocessing/filter_reads_on_modification_thresholds.py +183 -73
smftools/preprocessing/flag_duplicate_reads.py +708 -303
smftools/preprocessing/invert_adata.py +26 -11
smftools/preprocessing/load_sample_sheet.py +40 -22
smftools/preprocessing/make_dirs.py +9 -3
smftools/preprocessing/min_non_diagonal.py +4 -1
smftools/preprocessing/recipes.py +58 -23
smftools/preprocessing/reindex_references_adata.py +93 -27
smftools/preprocessing/subsample_adata.py +33 -16
smftools/readwrite.py +264 -109
smftools/schema/__init__.py +11 -0
smftools/schema/anndata_schema_v1.yaml +227 -0
smftools/tools/__init__.py +25 -18
smftools/tools/archived/apply_hmm.py +2 -0
smftools/tools/archived/classifiers.py +165 -0
smftools/tools/archived/classify_methylated_features.py +2 -0
smftools/tools/archived/classify_non_methylated_features.py +2 -0
smftools/tools/archived/subset_adata_v1.py +12 -1
smftools/tools/archived/subset_adata_v2.py +14 -1
smftools/tools/calculate_umap.py +56 -15
smftools/tools/cluster_adata_on_methylation.py +122 -47
smftools/tools/general_tools.py +70 -25
smftools/tools/position_stats.py +220 -99
smftools/tools/read_stats.py +50 -29
smftools/tools/spatial_autocorrelation.py +365 -192
smftools/tools/subset_adata.py +23 -21
smftools-0.3.0.dist-info/METADATA +147 -0
smftools-0.3.0.dist-info/RECORD +182 -0
smftools-0.2.4.dist-info/METADATA +0 -141
smftools-0.2.4.dist-info/RECORD +0 -176
{smftools-0.2.4.dist-info → smftools-0.3.0.dist-info}/WHEEL +0 -0
{smftools-0.2.4.dist-info → smftools-0.3.0.dist-info}/entry_points.txt +0 -0
{smftools-0.2.4.dist-info → smftools-0.3.0.dist-info}/licenses/LICENSE +0 -0

smftools/machine_learning/models/cnn.py CHANGED Viewed

@@ -1,8 +1,15 @@
-import torch
-import torch.nn as nn
-from .base import BaseTorchModel
+from __future__ import annotations
 import numpy as np
+from smftools.optional_imports import require
+from .base import BaseTorchModel
+torch = require("torch", extra="ml-base", purpose="CNN models")
+nn = torch.nn
 class CNNClassifier(BaseTorchModel):
     def __init__(
         self,
@@ -15,7 +22,7 @@ class CNNClassifier(BaseTorchModel):
         use_pooling=False,
         dropout=0.2,
         gradcam_layer_idx=-1,
-        **kwargs
+        **kwargs,
     ):
         super().__init__(**kwargs)
         self.name = "CNNClassifier"
@@ -30,7 +37,9 @@ class CNNClassifier(BaseTorchModel):
         # Build conv layers
         for out_channels, ksize in zip(conv_channels, kernel_sizes):
-            layers.append(nn.Conv1d(in_channels, out_channels, kernel_size=ksize, padding=ksize // 2))
+            layers.append(
+                nn.Conv1d(in_channels, out_channels, kernel_size=ksize, padding=ksize // 2)
+            )
             if use_batchnorm:
                 layers.append(nn.BatchNorm1d(out_channels))
             layers.append(nn.ReLU())
@@ -76,7 +85,7 @@ class CNNClassifier(BaseTorchModel):
         x = self.conv(x)
         x = x.view(x.size(0), -1)
         return self.fc(x)
     def _register_gradcam_hooks(self):
         def forward_hook(module, input, output):
             self.gradcam_activations = output.detach()
@@ -97,15 +106,15 @@ class CNNClassifier(BaseTorchModel):
         self.eval()  # disable dropout etc.
         output = self.forward(x)  # shape (B, C) or (B, 1)
         if class_idx is None:
             class_idx = output.argmax(dim=1)
         if output.shape[1] == 1:
             target = output.view(-1)  # shape (B,)
         else:
             target = output[torch.arange(output.shape[0]), class_idx]
         target.sum().backward(retain_graph=True)
         # restore training mode
@@ -114,16 +123,16 @@ class CNNClassifier(BaseTorchModel):
         # get activations and gradients (set these via forward hook!)
         activations = self.gradcam_activations  # (B, C, L)
-        gradients = self.gradcam_gradients      # (B, C, L)
+        gradients = self.gradcam_gradients  # (B, C, L)
         weights = gradients.mean(dim=2, keepdim=True)  # (B, C, 1)
-        cam = (weights * activations).sum(dim=1)       # (B, L)
+        cam = (weights * activations).sum(dim=1)  # (B, L)
         cam = torch.relu(cam)
         cam = cam / (cam.max(dim=1, keepdim=True).values + 1e-6)
         return cam
     def apply_gradcam_to_adata(self, dataloader, adata, obsm_key="gradcam", device="cpu"):
         self.to(device)
         self.eval()
@@ -135,4 +144,4 @@ class CNNClassifier(BaseTorchModel):
             cams.append(cam_batch.cpu().numpy())
         cams = np.concatenate(cams, axis=0)  # shape: [n_obs, input_len]
-        adata.obsm[obsm_key] = cams
+        adata.obsm[obsm_key] = cams

smftools/machine_learning/models/lightning_base.py CHANGED Viewed

@@ -1,11 +1,22 @@
-import torch
-import pytorch_lightning as pl
-import matplotlib.pyplot as plt
-from sklearn.metrics import (
-    roc_auc_score, precision_recall_curve, auc, f1_score, confusion_matrix, roc_curve
-)
+from __future__ import annotations
 import numpy as np
+from smftools.optional_imports import require
+plt = require("matplotlib.pyplot", extra="plotting", purpose="model evaluation plots")
+pl = require("pytorch_lightning", extra="ml-extended", purpose="Lightning models")
+torch = require("torch", extra="ml-base", purpose="Lightning models")
+sklearn_metrics = require("sklearn.metrics", extra="ml-base", purpose="model evaluation")
+auc = sklearn_metrics.auc
+confusion_matrix = sklearn_metrics.confusion_matrix
+f1_score = sklearn_metrics.f1_score
+precision_recall_curve = sklearn_metrics.precision_recall_curve
+roc_auc_score = sklearn_metrics.roc_auc_score
+roc_curve = sklearn_metrics.roc_curve
 class TorchClassifierWrapper(pl.LightningModule):
     """
     A Pytorch Lightning wrapper for PyTorch classifiers.
@@ -16,25 +27,26 @@ class TorchClassifierWrapper(pl.LightningModule):
     - Can pass the index of the class label to use as the focus class when calculating precision/recall.
     - Contains a prediction step to run inference with.
     """
     def __init__(
         self,
         model: torch.nn.Module,
         label_col: str,
         num_classes: int,
-        class_names: list=None,
+        class_names: list = None,
         optimizer_cls=torch.optim.AdamW,
         optimizer_kwargs=None,
         criterion_kwargs=None,
         lr: float = 1e-3,
         focus_class: int = 1,  # used for binary or multiclass precision-recall
         class_weights=None,
-        enforce_eval_balance: bool=False,
-        target_eval_freq: float=0.3,
-        max_eval_positive: int=None
+        enforce_eval_balance: bool = False,
+        target_eval_freq: float = 0.3,
+        max_eval_positive: int = None,
     ):
         super().__init__()
         self.model = model
-        self.save_hyperparameters(ignore=['model'])  # logs all except actual model instance
+        self.save_hyperparameters(ignore=["model"])  # logs all except actual model instance
         self.optimizer_cls = optimizer_cls
         self.optimizer_kwargs = optimizer_kwargs or {"weight_decay": 1e-4}
         self.criterion = None
@@ -57,14 +69,17 @@ class TorchClassifierWrapper(pl.LightningModule):
                 if torch.is_tensor(class_weights[self.focus_class]):
                     self.criterion_kwargs["pos_weight"] = class_weights[self.focus_class]
                 else:
-                    self.criterion_kwargs["pos_weight"] = torch.tensor(class_weights[self.focus_class], dtype=torch.float32, device=self.device)
+                    self.criterion_kwargs["pos_weight"] = torch.tensor(
+                        class_weights[self.focus_class], dtype=torch.float32, device=self.device
+                    )
             else:
                 # CrossEntropyLoss expects weight tensor of size C
                 if torch.is_tensor(class_weights):
                     self.criterion_kwargs["weight"] = class_weights
                 else:
-                    self.criterion_kwargs["weight"] = torch.tensor(class_weights, dtype=torch.float32)
+                    self.criterion_kwargs["weight"] = torch.tensor(
+                        class_weights, dtype=torch.float32
+                    )
         self._val_outputs = []
         self._test_outputs = []
@@ -78,12 +93,20 @@ class TorchClassifierWrapper(pl.LightningModule):
     def _init_criterion(self):
         if self.num_classes == 2:
-            if "pos_weight" in self.criterion_kwargs and not torch.is_tensor(self.criterion_kwargs["pos_weight"]):
-                self.criterion_kwargs["pos_weight"] = torch.tensor(self.criterion_kwargs["pos_weight"], dtype=torch.float32, device=self.device)
+            if "pos_weight" in self.criterion_kwargs and not torch.is_tensor(
+                self.criterion_kwargs["pos_weight"]
+            ):
+                self.criterion_kwargs["pos_weight"] = torch.tensor(
+                    self.criterion_kwargs["pos_weight"], dtype=torch.float32, device=self.device
+                )
             self.criterion = torch.nn.BCEWithLogitsLoss(**self.criterion_kwargs)
         else:
-            if "weight" in self.criterion_kwargs and not torch.is_tensor(self.criterion_kwargs["weight"]):
-                self.criterion_kwargs["weight"] = torch.tensor(self.criterion_kwargs["weight"], dtype=torch.float32, device=self.device)
+            if "weight" in self.criterion_kwargs and not torch.is_tensor(
+                self.criterion_kwargs["weight"]
+            ):
+                self.criterion_kwargs["weight"] = torch.tensor(
+                    self.criterion_kwargs["weight"], dtype=torch.float32, device=self.device
+                )
             self.criterion = torch.nn.CrossEntropyLoss(**self.criterion_kwargs)
     def _resolve_focus_class(self, focus_class):
@@ -93,11 +116,13 @@ class TorchClassifierWrapper(pl.LightningModule):
             if self.class_names is None:
                 raise ValueError("class_names must be provided if focus_class is a string.")
             if focus_class not in self.class_names:
-                raise ValueError(f"focus_class '{focus_class}' not found in class_names {self.class_names}.")
+                raise ValueError(
+                    f"focus_class '{focus_class}' not found in class_names {self.class_names}."
+                )
             return self.class_names.index(focus_class)
         else:
             raise ValueError(f"focus_class must be int or str, got {type(focus_class)}")
     def set_training_indices(self, datamodule):
         """
         Store obs_names for train/val/test subsets used during training.
@@ -140,7 +165,7 @@ class TorchClassifierWrapper(pl.LightningModule):
         self.log_dict({"val_loss": loss, "val_acc": acc}, prog_bar=False)
         self._val_outputs.append((logits.detach(), y.detach()))
         return loss
     def test_step(self, batch, batch_idx):
         """
         Test step for a batch through the Lightning Trainer.
@@ -189,7 +214,7 @@ class TorchClassifierWrapper(pl.LightningModule):
             return self.criterion(logits.view(-1, 1), y)
         else:
             return self.criterion(logits, y)
     def _get_probs(self, logits):
         """
         A helper function for getting class probabilities for binary vs multiclass classifications.
@@ -207,8 +232,10 @@ class TorchClassifierWrapper(pl.LightningModule):
             return (torch.sigmoid(logits.view(-1)) >= 0.5).long()
         else:
             return logits.argmax(dim=1)
-    def _subsample_for_fixed_positive_frequency(self, y_true, probs, target_freq=0.3, max_positive=None):
+    def _subsample_for_fixed_positive_frequency(
+        self, y_true, probs, target_freq=0.3, max_positive=None
+    ):
         pos_idx = np.where(y_true == self.focus_class)[0]
         neg_idx = np.where(y_true != self.focus_class)[0]
@@ -216,16 +243,20 @@ class TorchClassifierWrapper(pl.LightningModule):
         max_positives_possible = len(pos_idx)
         # maximum achievable positive class frequency
-        max_possible_freq = max_positives_possible / (max_positives_possible + max_negatives_possible)
+        max_possible_freq = max_positives_possible / (
+            max_positives_possible + max_negatives_possible
+        )
         if target_freq > max_possible_freq:
             target_freq = max_possible_freq  # clip if you ask for impossible freq
         # now calculate positive count
-        num_pos_target = min(int(target_freq * max_negatives_possible / (1 - target_freq)), max_positives_possible)
+        num_pos_target = min(
+            int(target_freq * max_negatives_possible / (1 - target_freq)), max_positives_possible
+        )
         num_neg_target = int(num_pos_target * (1 - target_freq) / target_freq)
         num_neg_target = min(num_neg_target, max_negatives_possible)
         pos_sampled = np.random.choice(pos_idx, size=num_pos_target, replace=False)
         neg_sampled = np.random.choice(neg_idx, size=num_neg_target, replace=False)
@@ -235,7 +266,7 @@ class TorchClassifierWrapper(pl.LightningModule):
         actual_freq = len(pos_sampled) / len(sampled_idx)
         return sampled_idx
     def _log_classification_metrics(self, logits, targets, prefix="val"):
         """
         A helper function for logging validation and testing split model evaluations.
@@ -252,9 +283,12 @@ class TorchClassifierWrapper(pl.LightningModule):
         num_pos = binary_focus.sum()
         # Subsample if you want to enforce a fixed proportion of the positive class
-        if prefix == 'test' and self.enforce_eval_balance:
+        if prefix == "test" and self.enforce_eval_balance:
             sampled_idx = self._subsample_for_fixed_positive_frequency(
-                y_true, probs, target_freq=self.target_eval_freq, max_positive=self.max_eval_positive
+                y_true,
+                probs,
+                target_freq=self.target_eval_freq,
+                max_positive=self.max_eval_positive,
             )
             y_true = y_true[sampled_idx]
             probs = probs[sampled_idx]
@@ -289,7 +323,7 @@ class TorchClassifierWrapper(pl.LightningModule):
         cm = confusion_matrix(y_true, preds)
         # Save attributes for later plotting
-        if prefix == 'test':
+        if prefix == "test":
             self.test_roc_curve = (fpr, tpr)
             self.test_pr_curve = (rc, pr)
             self.test_roc_auc = roc_auc
@@ -298,19 +332,21 @@ class TorchClassifierWrapper(pl.LightningModule):
             self.test_num_pos = num_pos
             self.test_acc = acc
             self.test_f1 = f1
-        elif prefix == 'val':
+        elif prefix == "val":
             pass
         # Logging
-        self.log_dict({
-            f"{prefix}_acc": acc,
-            f"{prefix}_f1": f1,
-            f"{prefix}_auc": roc_auc,
-            f"{prefix}_pr_auc": pr_auc,
-            f"{prefix}_pr_auc_norm": pr_auc_norm,
-            f"{prefix}_pos_freq": pos_freq,
-            f"{prefix}_num_pos": num_pos
-        })
+        self.log_dict(
+            {
+                f"{prefix}_acc": acc,
+                f"{prefix}_f1": f1,
+                f"{prefix}_auc": roc_auc,
+                f"{prefix}_pr_auc": pr_auc,
+                f"{prefix}_pr_auc_norm": pr_auc_norm,
+                f"{prefix}_pos_freq": pos_freq,
+                f"{prefix}_num_pos": num_pos,
+            }
+        )
         setattr(self, f"{prefix}_confusion_matrix", cm)
     def _plot_roc_pr_curves(self, logits, targets):
@@ -334,7 +370,7 @@ class TorchClassifierWrapper(pl.LightningModule):
         pos_freq = self.test_pos_freq
         plt.subplot(1, 2, 2)
         plt.plot(rc, pr, label=f"PR AUC={pr_auc:.3f}")
-        plt.axhline(pos_freq, linestyle='--', color="gray")
+        plt.axhline(pos_freq, linestyle="--", color="gray")
         plt.xlabel("Recall")
         plt.ylabel("Precision")
         plt.ylim(0, 1.05)

smftools/machine_learning/models/mlp.py CHANGED Viewed

@@ -1,9 +1,22 @@
-import torch
-import torch.nn as nn
+from __future__ import annotations
+from smftools.optional_imports import require
 from .base import BaseTorchModel
+nn = require("torch.nn", extra="ml-base", purpose="MLP models")
 class MLPClassifier(BaseTorchModel):
-    def __init__(self, input_dim, num_classes=2, hidden_dims=[64, 64], dropout=0.2, use_batchnorm=True, **kwargs):
+    def __init__(
+        self,
+        input_dim,
+        num_classes=2,
+        hidden_dims=[64, 64],
+        dropout=0.2,
+        use_batchnorm=True,
+        **kwargs,
+    ):
         super().__init__(**kwargs)
         layers = []
         in_dim = input_dim
@@ -23,4 +36,4 @@ class MLPClassifier(BaseTorchModel):
         self.model = nn.Sequential(*layers)
     def forward(self, x):
-        return self.model(x)
+        return self.model(x)

smftools/machine_learning/models/positional.py CHANGED Viewed

@@ -1,6 +1,12 @@
+from __future__ import annotations
 import numpy as np
-import torch
-import torch.nn as nn
+from smftools.optional_imports import require
+torch = require("torch", extra="ml-base", purpose="positional encoding")
+nn = torch.nn
 class PositionalEncoding(nn.Module):
     def __init__(self, d_model, max_len=5000):
@@ -14,5 +20,5 @@ class PositionalEncoding(nn.Module):
         self.register_buffer("pe", pe)
     def forward(self, x):
-        x = x + self.pe[:, :x.size(1)]
-        return x
+        x = x + self.pe[:, : x.size(1)]
+        return x

smftools/machine_learning/models/rnn.py CHANGED Viewed

@@ -1,7 +1,12 @@
-import torch
-import torch.nn as nn
+from __future__ import annotations
+from smftools.optional_imports import require
 from .base import BaseTorchModel
+nn = require("torch.nn", extra="ml-base", purpose="RNN models")
 class RNNClassifier(BaseTorchModel):
     def __init__(self, input_size, hidden_dim, num_classes, **kwargs):
         super().__init__(**kwargs)
@@ -14,4 +19,4 @@ class RNNClassifier(BaseTorchModel):
     def forward(self, x):
         x = x.unsqueeze(1)  # [B, 1, L] → for LSTM expecting batch_first
         _, (h_n, _) = self.lstm(x)  # h_n: [1, B, H]
-        return self.fc(h_n.squeeze(0))  # [B, H] → [B, num_classes]
+        return self.fc(h_n.squeeze(0))  # [B, H] → [B, num_classes]

smftools/machine_learning/models/sklearn_models.py CHANGED Viewed

@@ -1,23 +1,35 @@
+from __future__ import annotations
 import numpy as np
-import matplotlib.pyplot as plt
-from sklearn.metrics import (
-    roc_auc_score, precision_recall_curve, auc, f1_score, confusion_matrix, roc_curve
-)
+from smftools.optional_imports import require
+plt = require("matplotlib.pyplot", extra="plotting", purpose="model evaluation plots")
+sklearn_metrics = require("sklearn.metrics", extra="ml-base", purpose="model evaluation")
+auc = sklearn_metrics.auc
+confusion_matrix = sklearn_metrics.confusion_matrix
+f1_score = sklearn_metrics.f1_score
+precision_recall_curve = sklearn_metrics.precision_recall_curve
+roc_auc_score = sklearn_metrics.roc_auc_score
+roc_curve = sklearn_metrics.roc_curve
 class SklearnModelWrapper:
     """
     Unified sklearn wrapper matching TorchClassifierWrapper interface.
     """
     def __init__(
-        self,
-        model,
+        self,
+        model,
         label_col: str,
-        num_classes: int,
-        class_names=None,
-        focus_class: int=1,
-        enforce_eval_balance: bool=False,
-        target_eval_freq: float=0.3,
-        max_eval_positive=None
+        num_classes: int,
+        class_names=None,
+        focus_class: int = 1,
+        enforce_eval_balance: bool = False,
+        target_eval_freq: float = 0.3,
+        max_eval_positive=None,
     ):
         self.model = model
         self.label_col = label_col
@@ -37,7 +49,9 @@ class SklearnModelWrapper:
             if self.class_names is None:
                 raise ValueError("class_names must be provided if focus_class is a string.")
             if focus_class not in self.class_names:
-                raise ValueError(f"focus_class '{focus_class}' not found in class_names {self.class_names}.")
+                raise ValueError(
+                    f"focus_class '{focus_class}' not found in class_names {self.class_names}."
+                )
             return self.class_names.index(focus_class)
         else:
             raise ValueError(f"focus_class must be int or str, got {type(focus_class)}")
@@ -130,7 +144,7 @@ class SklearnModelWrapper:
             f"{prefix}_pr_auc": pr_auc,
             f"{prefix}_pr_auc_norm": pr_auc_norm,
             f"{prefix}_pos_freq": pos_freq,
-            f"{prefix}_num_pos": num_pos
+            f"{prefix}_num_pos": num_pos,
         }
         return self.metrics
@@ -166,7 +180,10 @@ class SklearnModelWrapper:
     def fit_from_datamodule(self, datamodule):
         datamodule.setup()
-        X_tensor, y_tensor = datamodule.train_set.dataset.X_tensor, datamodule.train_set.dataset.y_tensor
+        X_tensor, y_tensor = (
+            datamodule.train_set.dataset.X_tensor,
+            datamodule.train_set.dataset.y_tensor,
+        )
         indices = datamodule.train_set.indices
         X_train = X_tensor[indices].numpy()
         y_train = y_tensor[indices].numpy()
@@ -190,11 +207,11 @@ class SklearnModelWrapper:
         y_eval = y_tensor[indices].numpy()
         return self.evaluate(X_eval, y_eval, prefix=split)
     def compute_shap(self, X, background=None, nsamples=100, target_class=None):
         """
         Compute SHAP values on input X, optionally for a specified target class.
         Parameters
         ----------
         X : array-like
@@ -225,7 +242,7 @@ class SklearnModelWrapper:
             shap_values = explainer.shap_values(X)
         else:
             shap_values = explainer.shap_values(X, nsamples=nsamples)
         if isinstance(shap_values, np.ndarray):
             if shap_values.ndim == 3:
                 if isinstance(target_class, int):
@@ -234,10 +251,7 @@ class SklearnModelWrapper:
                     # target_class is per-sample
                     if np.any(target_class >= shap_values.shape[2]):
                         raise ValueError(f"target_class values exceed {shap_values.shape[2]}")
-                    selected = np.array([
-                        shap_values[i, :, c]
-                        for i, c in enumerate(target_class)
-                    ])
+                    selected = np.array([shap_values[i, :, c] for i, c in enumerate(target_class)])
                     return selected
                 else:
                     # fallback to class 0
@@ -246,7 +260,15 @@ class SklearnModelWrapper:
                 # 2D shape (samples, features), no class dimension
                 return shap_values
-    def apply_shap_to_adata(self, dataloader, adata, background=None, adata_key="shap_values", target_class=None, normalize=True):
+    def apply_shap_to_adata(
+        self,
+        dataloader,
+        adata,
+        background=None,
+        adata_key="shap_values",
+        target_class=None,
+        normalize=True,
+    ):
         """
         Compute SHAP from a DataLoader and store in AnnData if provided.
         """
@@ -270,4 +292,4 @@ class SklearnModelWrapper:
             row_max[row_max == 0] = 1  # avoid divide by zero
             normalized = arr / row_max
-            adata.obsm[f"{adata_key}_normalized"] = normalized
+            adata.obsm[f"{adata_key}_normalized"] = normalized

smftools 0.2.4__py3-none-any.whl → 0.3.0__py3-none-any.whl

smftools 0.2.4py3-none-any.whl → 0.3.0py3-none-any.whl