PyPI - smftools - Versions diffs - 0.2.4__py3-none-any.whl → 0.3.0__py3-none-any.whl - Mend

smftools 0.2.4py3-none-any.whl → 0.3.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (181) hide show

smftools/__init__.py +43 -13
smftools/_settings.py +6 -6
smftools/_version.py +3 -1
smftools/cli/__init__.py +1 -0
smftools/cli/archived/cli_flows.py +2 -0
smftools/cli/helpers.py +9 -1
smftools/cli/hmm_adata.py +905 -242
smftools/cli/load_adata.py +432 -280
smftools/cli/preprocess_adata.py +287 -171
smftools/cli/spatial_adata.py +141 -53
smftools/cli_entry.py +119 -178
smftools/config/__init__.py +3 -1
smftools/config/conversion.yaml +5 -1
smftools/config/deaminase.yaml +1 -1
smftools/config/default.yaml +26 -18
smftools/config/direct.yaml +8 -3
smftools/config/discover_input_files.py +19 -5
smftools/config/experiment_config.py +511 -276
smftools/constants.py +37 -0
smftools/datasets/__init__.py +4 -8
smftools/datasets/datasets.py +32 -18
smftools/hmm/HMM.py +2133 -1428
smftools/hmm/__init__.py +24 -14
smftools/hmm/archived/apply_hmm_batched.py +2 -0
smftools/hmm/archived/calculate_distances.py +2 -0
smftools/hmm/archived/call_hmm_peaks.py +18 -1
smftools/hmm/archived/train_hmm.py +2 -0
smftools/hmm/call_hmm_peaks.py +176 -193
smftools/hmm/display_hmm.py +23 -7
smftools/hmm/hmm_readwrite.py +20 -6
smftools/hmm/nucleosome_hmm_refinement.py +104 -14
smftools/informatics/__init__.py +55 -13
smftools/informatics/archived/bam_conversion.py +2 -0
smftools/informatics/archived/bam_direct.py +2 -0
smftools/informatics/archived/basecall_pod5s.py +2 -0
smftools/informatics/archived/basecalls_to_adata.py +2 -0
smftools/informatics/archived/conversion_smf.py +2 -0
smftools/informatics/archived/deaminase_smf.py +1 -0
smftools/informatics/archived/direct_smf.py +2 -0
smftools/informatics/archived/fast5_to_pod5.py +2 -0
smftools/informatics/archived/helpers/archived/__init__.py +2 -0
smftools/informatics/archived/helpers/archived/align_and_sort_BAM.py +16 -1
smftools/informatics/archived/helpers/archived/aligned_BAM_to_bed.py +2 -0
smftools/informatics/archived/helpers/archived/bam_qc.py +14 -1
smftools/informatics/archived/helpers/archived/bed_to_bigwig.py +2 -0
smftools/informatics/archived/helpers/archived/canoncall.py +2 -0
smftools/informatics/archived/helpers/archived/concatenate_fastqs_to_bam.py +8 -1
smftools/informatics/archived/helpers/archived/converted_BAM_to_adata.py +2 -0
smftools/informatics/archived/helpers/archived/count_aligned_reads.py +2 -0
smftools/informatics/archived/helpers/archived/demux_and_index_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/extract_base_identities.py +2 -0
smftools/informatics/archived/helpers/archived/extract_mods.py +2 -0
smftools/informatics/archived/helpers/archived/extract_read_features_from_bam.py +2 -0
smftools/informatics/archived/helpers/archived/extract_read_lengths_from_bed.py +2 -0
smftools/informatics/archived/helpers/archived/extract_readnames_from_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/find_conversion_sites.py +2 -0
smftools/informatics/archived/helpers/archived/generate_converted_FASTA.py +2 -0
smftools/informatics/archived/helpers/archived/get_chromosome_lengths.py +2 -0
smftools/informatics/archived/helpers/archived/get_native_references.py +2 -0
smftools/informatics/archived/helpers/archived/index_fasta.py +2 -0
smftools/informatics/archived/helpers/archived/informatics.py +2 -0
smftools/informatics/archived/helpers/archived/load_adata.py +5 -3
smftools/informatics/archived/helpers/archived/make_modbed.py +2 -0
smftools/informatics/archived/helpers/archived/modQC.py +2 -0
smftools/informatics/archived/helpers/archived/modcall.py +2 -0
smftools/informatics/archived/helpers/archived/ohe_batching.py +2 -0
smftools/informatics/archived/helpers/archived/ohe_layers_decode.py +2 -0
smftools/informatics/archived/helpers/archived/one_hot_decode.py +2 -0
smftools/informatics/archived/helpers/archived/one_hot_encode.py +2 -0
smftools/informatics/archived/helpers/archived/plot_bed_histograms.py +5 -1
smftools/informatics/archived/helpers/archived/separate_bam_by_bc.py +2 -0
smftools/informatics/archived/helpers/archived/split_and_index_BAM.py +2 -0
smftools/informatics/archived/print_bam_query_seq.py +9 -1
smftools/informatics/archived/subsample_fasta_from_bed.py +2 -0
smftools/informatics/archived/subsample_pod5.py +2 -0
smftools/informatics/bam_functions.py +1059 -269
smftools/informatics/basecalling.py +53 -9
smftools/informatics/bed_functions.py +357 -114
smftools/informatics/binarize_converted_base_identities.py +21 -7
smftools/informatics/complement_base_list.py +9 -6
smftools/informatics/converted_BAM_to_adata.py +324 -137
smftools/informatics/fasta_functions.py +251 -89
smftools/informatics/h5ad_functions.py +202 -30
smftools/informatics/modkit_extract_to_adata.py +623 -274
smftools/informatics/modkit_functions.py +87 -44
smftools/informatics/ohe.py +46 -21
smftools/informatics/pod5_functions.py +114 -74
smftools/informatics/run_multiqc.py +20 -14
smftools/logging_utils.py +51 -0
smftools/machine_learning/__init__.py +23 -12
smftools/machine_learning/data/__init__.py +2 -0
smftools/machine_learning/data/anndata_data_module.py +157 -50
smftools/machine_learning/data/preprocessing.py +4 -1
smftools/machine_learning/evaluation/__init__.py +3 -1
smftools/machine_learning/evaluation/eval_utils.py +13 -14
smftools/machine_learning/evaluation/evaluators.py +52 -34
smftools/machine_learning/inference/__init__.py +3 -1
smftools/machine_learning/inference/inference_utils.py +9 -4
smftools/machine_learning/inference/lightning_inference.py +14 -13
smftools/machine_learning/inference/sklearn_inference.py +8 -8
smftools/machine_learning/inference/sliding_window_inference.py +37 -25
smftools/machine_learning/models/__init__.py +12 -5
smftools/machine_learning/models/base.py +34 -43
smftools/machine_learning/models/cnn.py +22 -13
smftools/machine_learning/models/lightning_base.py +78 -42
smftools/machine_learning/models/mlp.py +18 -5
smftools/machine_learning/models/positional.py +10 -4
smftools/machine_learning/models/rnn.py +8 -3
smftools/machine_learning/models/sklearn_models.py +46 -24
smftools/machine_learning/models/transformer.py +75 -55
smftools/machine_learning/models/wrappers.py +8 -3
smftools/machine_learning/training/__init__.py +4 -2
smftools/machine_learning/training/train_lightning_model.py +42 -23
smftools/machine_learning/training/train_sklearn_model.py +11 -15
smftools/machine_learning/utils/__init__.py +3 -1
smftools/machine_learning/utils/device.py +12 -5
smftools/machine_learning/utils/grl.py +8 -2
smftools/metadata.py +443 -0
smftools/optional_imports.py +31 -0
smftools/plotting/__init__.py +32 -17
smftools/plotting/autocorrelation_plotting.py +153 -48
smftools/plotting/classifiers.py +175 -73
smftools/plotting/general_plotting.py +350 -168
smftools/plotting/hmm_plotting.py +53 -14
smftools/plotting/position_stats.py +155 -87
smftools/plotting/qc_plotting.py +25 -12
smftools/preprocessing/__init__.py +35 -37
smftools/preprocessing/append_base_context.py +105 -79
smftools/preprocessing/append_binary_layer_by_base_context.py +75 -37
smftools/preprocessing/{archives → archived}/add_read_length_and_mapping_qc.py +2 -0
smftools/preprocessing/{archives → archived}/calculate_complexity.py +5 -1
smftools/preprocessing/{archives → archived}/mark_duplicates.py +2 -0
smftools/preprocessing/{archives → archived}/preprocessing.py +10 -6
smftools/preprocessing/{archives → archived}/remove_duplicates.py +2 -0
smftools/preprocessing/binarize.py +21 -4
smftools/preprocessing/binarize_on_Youden.py +127 -31
smftools/preprocessing/binary_layers_to_ohe.py +18 -11
smftools/preprocessing/calculate_complexity_II.py +89 -59
smftools/preprocessing/calculate_consensus.py +28 -19
smftools/preprocessing/calculate_coverage.py +44 -22
smftools/preprocessing/calculate_pairwise_differences.py +4 -1
smftools/preprocessing/calculate_pairwise_hamming_distances.py +7 -3
smftools/preprocessing/calculate_position_Youden.py +110 -55
smftools/preprocessing/calculate_read_length_stats.py +52 -23
smftools/preprocessing/calculate_read_modification_stats.py +91 -57
smftools/preprocessing/clean_NaN.py +38 -28
smftools/preprocessing/filter_adata_by_nan_proportion.py +24 -12
smftools/preprocessing/filter_reads_on_length_quality_mapping.py +72 -37
smftools/preprocessing/filter_reads_on_modification_thresholds.py +183 -73
smftools/preprocessing/flag_duplicate_reads.py +708 -303
smftools/preprocessing/invert_adata.py +26 -11
smftools/preprocessing/load_sample_sheet.py +40 -22
smftools/preprocessing/make_dirs.py +9 -3
smftools/preprocessing/min_non_diagonal.py +4 -1
smftools/preprocessing/recipes.py +58 -23
smftools/preprocessing/reindex_references_adata.py +93 -27
smftools/preprocessing/subsample_adata.py +33 -16
smftools/readwrite.py +264 -109
smftools/schema/__init__.py +11 -0
smftools/schema/anndata_schema_v1.yaml +227 -0
smftools/tools/__init__.py +25 -18
smftools/tools/archived/apply_hmm.py +2 -0
smftools/tools/archived/classifiers.py +165 -0
smftools/tools/archived/classify_methylated_features.py +2 -0
smftools/tools/archived/classify_non_methylated_features.py +2 -0
smftools/tools/archived/subset_adata_v1.py +12 -1
smftools/tools/archived/subset_adata_v2.py +14 -1
smftools/tools/calculate_umap.py +56 -15
smftools/tools/cluster_adata_on_methylation.py +122 -47
smftools/tools/general_tools.py +70 -25
smftools/tools/position_stats.py +220 -99
smftools/tools/read_stats.py +50 -29
smftools/tools/spatial_autocorrelation.py +365 -192
smftools/tools/subset_adata.py +23 -21
smftools-0.3.0.dist-info/METADATA +147 -0
smftools-0.3.0.dist-info/RECORD +182 -0
smftools-0.2.4.dist-info/METADATA +0 -141
smftools-0.2.4.dist-info/RECORD +0 -176
{smftools-0.2.4.dist-info → smftools-0.3.0.dist-info}/WHEEL +0 -0
{smftools-0.2.4.dist-info → smftools-0.3.0.dist-info}/entry_points.txt +0 -0
{smftools-0.2.4.dist-info → smftools-0.3.0.dist-info}/licenses/LICENSE +0 -0

smftools/machine_learning/models/transformer.py CHANGED Viewed

@@ -1,22 +1,31 @@
-import torch
-import torch.nn as nn
-from .base import BaseTorchModel
-from .positional import PositionalEncoding
-from ..utils.grl import grad_reverse
+from __future__ import annotations
 import numpy as np
+from smftools.optional_imports import require
+from ..utils.grl import grad_reverse
+from .base import BaseTorchModel
+from .positional import PositionalEncoding
+torch = require("torch", extra="ml-base", purpose="Transformer models")
+nn = torch.nn
 class TransformerEncoderLayerWithAttn(nn.TransformerEncoderLayer):
     def __init__(self, *args, **kwargs):
         super().__init__(*args, **kwargs)
     def forward(self, src, src_mask=None, is_causal=False, src_key_padding_mask=None):
         self_attn_output, attn_weights = self.self_attn(
-            src, src, src,
+            src,
+            src,
+            src,
             attn_mask=src_mask,
             key_padding_mask=src_key_padding_mask,
             need_weights=True,
             average_attn_weights=False,  # preserve [B, num_heads, S, S]
-            is_causal=is_causal
+            is_causal=is_causal,
         )
         src = src + self.dropout1(self_attn_output)
         src = self.norm1(src)
@@ -27,18 +36,21 @@ class TransformerEncoderLayerWithAttn(nn.TransformerEncoderLayer):
         # Save attention weights to module
         self.attn_weights = attn_weights  # Save to layer
         return src
 class BaseTransformer(BaseTorchModel):
-    def __init__(self,
-                 input_dim=1,
-                 model_dim=64,
-                 num_heads=4,
-                 num_layers=2,
-                 dropout=0.2,
-                 seq_len=None,
-                 use_learnable_pos=False,
-                 use_cls_token=True,
-                 **kwargs):
+    def __init__(
+        self,
+        input_dim=1,
+        model_dim=64,
+        num_heads=4,
+        num_layers=2,
+        dropout=0.2,
+        seq_len=None,
+        use_learnable_pos=False,
+        use_cls_token=True,
+        **kwargs,
+    ):
         super().__init__(**kwargs)
         # Input FC layer to map D_input to D_model
         self.model_dim = model_dim
@@ -52,7 +64,9 @@ class BaseTransformer(BaseTorchModel):
         if use_learnable_pos:
             assert seq_len is not None, "Must provide seq_len if use_learnable_pos=True"
-            self.pos_embed = nn.Parameter(torch.randn(seq_len + (1 if use_cls_token else 0), model_dim))
+            self.pos_embed = nn.Parameter(
+                torch.randn(seq_len + (1 if use_cls_token else 0), model_dim)
+            )
             self.pos_encoder = None
         else:
             self.pos_encoder = PositionalEncoding(model_dim)
@@ -62,7 +76,13 @@ class BaseTransformer(BaseTorchModel):
             self.cls_token = nn.Parameter(torch.zeros(1, 1, model_dim))  # (1, 1, D)
         # Specify the transformer encoder structure
-        encoder_layer = TransformerEncoderLayerWithAttn(d_model=model_dim, nhead=num_heads, batch_first=True, dim_feedforward=self.ff_dim, dropout=self.dropout)
+        encoder_layer = TransformerEncoderLayerWithAttn(
+            d_model=model_dim,
+            nhead=num_heads,
+            batch_first=True,
+            dim_feedforward=self.ff_dim,
+            dropout=self.dropout,
+        )
         # Stack the transformer encoder layers
         self.transformer = nn.TransformerEncoder(encoder_layer, num_layers=num_layers)
@@ -95,7 +115,7 @@ class BaseTransformer(BaseTorchModel):
             x = torch.cat([cls, x], dim=1)  # (B, S+1, D)
         if self.pos_embed is not None:
-            x = x + self.pos_embed.unsqueeze(0)[:, :x.shape[1], :]
+            x = x + self.pos_embed.unsqueeze(0)[:, : x.shape[1], :]
         elif self.pos_encoder is not None:
             x = self.pos_encoder(x)
@@ -106,8 +126,8 @@ class BaseTransformer(BaseTorchModel):
         encoded = self.transformer(x)
         return encoded
-    def compute_attn_grad(self, reduction='mean'):
+    def compute_attn_grad(self, reduction="mean"):
         """
         Computes attention × gradient scores across layers.
         Returns: [B, S] tensor of importance scores
@@ -116,19 +136,19 @@ class BaseTransformer(BaseTorchModel):
         for attn, grad in zip(self.attn_weights, self.attn_grads):
             # attn: [B, H, S, S]
             # grad: [B, S, D]
-            attn = attn.mean(dim=1)            # [B, S, S]
-            grad_norm = grad.norm(dim=-1)      # [B, S]
+            attn = attn.mean(dim=1)  # [B, S, S]
+            grad_norm = grad.norm(dim=-1)  # [B, S]
             attn_grad_score = (attn * grad_norm.unsqueeze(1)).sum(dim=-1)  # [B, S]
             scores.append(attn_grad_score)
         # Combine across layers
         stacked = torch.stack(scores, dim=0)  # [L, B, S]
         if reduction == "mean":
-            return stacked.mean(dim=0)        # [B, S]
+            return stacked.mean(dim=0)  # [B, S]
         elif reduction == "sum":
-            return stacked.sum(dim=0)         # [B, S]
+            return stacked.sum(dim=0)  # [B, S]
         else:
-            return stacked                    # [L, B, S]
+            return stacked  # [L, B, S]
     def compute_rollout(self):
         """
@@ -143,9 +163,9 @@ class BaseTransformer(BaseTorchModel):
             attn_heads = attn_heads + torch.eye(S, device=device).unsqueeze(0)  # add residual
             attn_heads = attn_heads / attn_heads.sum(dim=-1, keepdim=True).clamp(min=1e-6)
             rollout = torch.bmm(attn_heads, rollout)  # [B, S, S]
         return rollout  # [B, S, S]
     def reset_attn_buffers(self):
         self.attn_weights = []
         self.attn_grads = []
@@ -158,11 +178,15 @@ class BaseTransformer(BaseTorchModel):
         if head_idx is not None:
             attn = attn[:, head_idx]  # [B, S, S]
         return attn
-    def apply_attn_interpretations_to_adata(self, dataloader, adata,
-                                            obsm_key_grad="attn_grad",
-                                            obsm_key_rollout="attn_rollout",
-                                            device="cpu"):
+    def apply_attn_interpretations_to_adata(
+        self,
+        dataloader,
+        adata,
+        obsm_key_grad="attn_grad",
+        obsm_key_rollout="attn_rollout",
+        device="cpu",
+    ):
         self.to(device)
         self.eval()
         grad_maps = []
@@ -193,12 +217,10 @@ class BaseTransformer(BaseTorchModel):
         # add per-row normalized version
         grad_normed = grad_concat / (np.max(grad_concat, axis=1, keepdims=True) + 1e-8)
         adata.obsm[f"{obsm_key_grad}_normalized"] = grad_normed
 class TransformerClassifier(BaseTransformer):
-    def __init__(self,
-                 input_dim,
-                 num_classes,
-                 **kwargs):
+    def __init__(self, input_dim, num_classes, **kwargs):
         super().__init__(input_dim, **kwargs)
         # Classification head
         output_size = 1 if num_classes == 2 else num_classes
@@ -215,7 +237,7 @@ class TransformerClassifier(BaseTransformer):
             x = x.unsqueeze(0).unsqueeze(-1)  # just in case (S,) → (1, S, 1)
         else:
             pass
-        encoded = self.encode(x) # -> (B, S, D_model)
+        encoded = self.encode(x)  # -> (B, S, D_model)
         if self.use_cls_token:
             pooled = encoded[:, 0]  # (B, D)
         else:
@@ -223,14 +245,13 @@ class TransformerClassifier(BaseTransformer):
         out = self.cls_head(pooled)  # (B, C)
         return out
 class DANNTransformerClassifier(TransformerClassifier):
     def __init__(self, input_dim, model_dim, num_classes, n_domains, **kwargs):
         super().__init__(input_dim, model_dim, num_classes, **kwargs)
         self.domain_classifier = nn.Sequential(
-            nn.Linear(model_dim, 128),
-            nn.ReLU(),
-            nn.Linear(128, n_domains)
+            nn.Linear(model_dim, 128), nn.ReLU(), nn.Linear(128, n_domains)
         )
     def forward(self, x, alpha=1.0):
@@ -242,6 +263,7 @@ class DANNTransformerClassifier(TransformerClassifier):
         return class_logits, domain_logits
 class MaskedTransformerPretrainer(BaseTransformer):
     def __init__(self, input_dim, model_dim, num_heads=4, num_layers=2, **kwargs):
         super().__init__(input_dim, model_dim, num_heads, num_layers, **kwargs)
@@ -254,12 +276,13 @@ class MaskedTransformerPretrainer(BaseTransformer):
         """
         if x.dim() == 2:
             x = x.unsqueeze(-1)
-        encoded = self.encode(x, mask=mask) # -> (B, S, D_model)
-        return self.decoder(encoded) # -> (B, D_input)
+        encoded = self.encode(x, mask=mask)  # -> (B, S, D_model)
+        return self.decoder(encoded)  # -> (B, D_input)
 class DANNTransformer(BaseTransformer):
-    """
-    """
+    """ """
     def __init__(self, seq_len, model_dim, n_heads, n_layers, n_domains):
         super().__init__(
             input_dim=1,  # 1D scalar input per token
@@ -267,7 +290,7 @@ class DANNTransformer(BaseTransformer):
             num_heads=n_heads,
             num_layers=n_layers,
             seq_len=seq_len,
-            use_learnable_pos=True  # enables learnable pos_embed in base
+            use_learnable_pos=True,  # enables learnable pos_embed in base
         )
         # Reconstruction head
@@ -275,9 +298,7 @@ class DANNTransformer(BaseTransformer):
         # Domain classification head
         self.domain_classifier = nn.Sequential(
-            nn.Linear(model_dim, 128),
-            nn.ReLU(),
-            nn.Linear(128, n_domains)
+            nn.Linear(model_dim, 128), nn.ReLU(), nn.Linear(128, n_domains)
         )
     def forward(self, x, alpha=1.0):
@@ -300,4 +321,3 @@ class DANNTransformer(BaseTransformer):
         domain_logits = self.domain_classifier(rev)  # (B, n_batches)
         return recon, domain_logits

smftools/machine_learning/models/wrappers.py CHANGED Viewed

@@ -1,5 +1,10 @@
-import torch
-import torch.nn as nn
+from __future__ import annotations
+from smftools.optional_imports import require
+torch = require("torch", extra="ml-base", purpose="model wrappers")
+nn = torch.nn
 class ScaledModel(nn.Module):
     def __init__(self, model, mean, std):
@@ -17,4 +22,4 @@ class ScaledModel(nn.Module):
             x = (x - mean[None, None, :]) / std[None, None, :]
         else:
             raise ValueError(f"Unsupported input shape {x.shape}")
-        return self.model(x)
+        return self.model(x)

smftools/machine_learning/training/__init__.py CHANGED Viewed

@@ -1,2 +1,4 @@
-from .train_lightning_model import train_lightning_model, run_sliding_window_lightning_training
-from .train_sklearn_model import train_sklearn_model, run_sliding_window_sklearn_training
+from __future__ import annotations
+from .train_lightning_model import run_sliding_window_lightning_training, train_lightning_model
+from .train_sklearn_model import run_sliding_window_sklearn_training, train_sklearn_model

smftools/machine_learning/training/train_lightning_model.py CHANGED Viewed

@@ -1,9 +1,21 @@
-import torch
-from pytorch_lightning import Trainer
-from pytorch_lightning.callbacks import EarlyStopping, ModelCheckpoint
+from __future__ import annotations
+from smftools.optional_imports import require
 from ..data import AnnDataModule
 from ..models import TorchClassifierWrapper
+torch = require("torch", extra="ml-base", purpose="Lightning training")
+pytorch_lightning = require("pytorch_lightning", extra="ml-extended", purpose="Lightning training")
+pl_callbacks = require(
+    "pytorch_lightning.callbacks", extra="ml-extended", purpose="Lightning training"
+)
+Trainer = pytorch_lightning.Trainer
+EarlyStopping = pl_callbacks.EarlyStopping
+ModelCheckpoint = pl_callbacks.ModelCheckpoint
 def train_lightning_model(
     model,
     datamodule,
@@ -12,7 +24,7 @@ def train_lightning_model(
     monitor_metric="val_loss",
     checkpoint_path=None,
     evaluate_test=True,
-    devices=1
+    devices=1,
 ):
     """
     Takes a PyTorch Lightning Model and a Lightning DataLoader module to define a Lightning Trainer.
@@ -39,13 +51,15 @@ def train_lightning_model(
         EarlyStopping(monitor=monitor_metric, patience=patience, mode="min"),
     ]
     if checkpoint_path:
-        callbacks.append(ModelCheckpoint(
-            dirpath=checkpoint_path,
-            filename="{epoch}-{val_loss:.4f}",
-            monitor=monitor_metric,
-            save_top_k=1,
-            mode="min",
-        ))
+        callbacks.append(
+            ModelCheckpoint(
+                dirpath=checkpoint_path,
+                filename="{epoch}-{val_loss:.4f}",
+                monitor=monitor_metric,
+                save_top_k=1,
+                mode="min",
+            )
+        )
     # Trainer setup
     trainer = Trainer(
@@ -54,7 +68,7 @@ def train_lightning_model(
         accelerator=accelerator,
         devices=devices,
         log_every_n_steps=10,
-        enable_progress_bar=False
+        enable_progress_bar=False,
     )
     # Fit model with trainer
@@ -63,7 +77,7 @@ def train_lightning_model(
     # Test model (if applicable)
     if evaluate_test and hasattr(datamodule, "test_dataloader"):
         trainer.test(model, datamodule=datamodule)
     # Return best checkpoint path
     best_ckpt = None
     for cb in callbacks:
@@ -72,6 +86,7 @@ def train_lightning_model(
     return trainer, best_ckpt
 def run_sliding_window_lightning_training(
     adata,
     tensor_source,
@@ -86,13 +101,13 @@ def run_sliding_window_lightning_training(
     stride,
     max_epochs=30,
     patience=5,
-    enforce_eval_balance: bool=False,
-    target_eval_freq: float=0.3,
-    max_eval_positive: int=None
+    enforce_eval_balance: bool = False,
+    target_eval_freq: float = 0.3,
+    max_eval_positive: int = None,
 ):
     input_len = adata.shape[1]
     results = {}
     for start in range(0, input_len - window_size + 1, stride):
         center_idx = start + window_size // 2
         center_varname = adata.var_names[center_idx]
@@ -106,18 +121,22 @@ def run_sliding_window_lightning_training(
             label_col=label_col,
             batch_size=64,
             window_start=start,
-            window_size=window_size
+            window_size=window_size,
         )
         datamodule.setup()
         # Build model for this window
         model = model_class(window_size, num_classes)
         wrapper = TorchClassifierWrapper(
-            model, label_col=label_col, num_classes=num_classes,
+            model,
+            label_col=label_col,
+            num_classes=num_classes,
             class_names=class_names,
             class_weights=class_weights,
-            focus_class=focus_class, enforce_eval_balance=enforce_eval_balance,
-            target_eval_freq=target_eval_freq, max_eval_positive=max_eval_positive
+            focus_class=focus_class,
+            enforce_eval_balance=enforce_eval_balance,
+            target_eval_freq=target_eval_freq,
+            max_eval_positive=max_eval_positive,
         )
         # Train model
@@ -129,7 +148,7 @@ def run_sliding_window_lightning_training(
             "model": wrapper,
             "trainer": trainer,
             "checkpoint": ckpt,
-            "metrics": trainer.callback_metrics
+            "metrics": trainer.callback_metrics,
         }
     return results

smftools/machine_learning/training/train_sklearn_model.py CHANGED Viewed

@@ -1,16 +1,14 @@
+from __future__ import annotations
 from ..data import AnnDataModule
 from ..models import SklearnModelWrapper
-def train_sklearn_model(
-    model_wrapper,
-    datamodule,
-    evaluate_test=True,
-    evaluate_val=False
-):
+def train_sklearn_model(model_wrapper, datamodule, evaluate_test=True, evaluate_val=False):
     """
     Fits a SklearnModelWrapper on the train split from datamodule.
     Evaluates on test and/or val set.
     Parameters:
         model_wrapper: SklearnModelWrapper instance
         datamodule: AnnDataModule instance (with setup() method)
@@ -39,6 +37,7 @@ def train_sklearn_model(
     return metrics
 def run_sliding_window_sklearn_training(
     adata,
     tensor_source,
@@ -58,7 +57,7 @@ def run_sliding_window_sklearn_training(
     enforce_eval_balance=False,
     target_eval_freq=0.3,
     max_eval_positive=None,
-    **model_kwargs
+    **model_kwargs,
 ):
     """
     Sliding window training for sklearn models using AnnData.
@@ -86,29 +85,26 @@ def run_sliding_window_sklearn_training(
             train_frac=train_frac,
             val_frac=val_frac,
             test_frac=test_frac,
-            random_seed=random_seed
+            random_seed=random_seed,
         )
         datamodule.setup()
         # Build model wrapper
         sklearn_model = model_class(**model_kwargs)
         wrapper = SklearnModelWrapper(
-            sklearn_model,
+            sklearn_model,
             num_classes=num_classes,
             label_col=label_col,
             class_names=class_names,
             focus_class=focus_class,
             enforce_eval_balance=enforce_eval_balance,
             target_eval_freq=target_eval_freq,
-            max_eval_positive=max_eval_positive
+            max_eval_positive=max_eval_positive,
         )
         # Fit and evaluate
         metrics = train_sklearn_model(wrapper, datamodule, evaluate_test=True, evaluate_val=False)
-        results[center_varname] = {
-            "model": wrapper,
-            "metrics": metrics
-        }
+        results[center_varname] = {"model": wrapper, "metrics": metrics}
     return results

smftools/machine_learning/utils/__init__.py CHANGED Viewed

@@ -1,2 +1,4 @@
+from __future__ import annotations
 from .device import detect_device
-from .grl import GradReverse
+from .grl import GradReverse

smftools/machine_learning/utils/device.py CHANGED Viewed

@@ -1,10 +1,17 @@
-import torch
+from __future__ import annotations
+from smftools.optional_imports import require
+torch = require("torch", extra="ml-base", purpose="device selection")
 def detect_device():
     device = (
-        torch.device('cuda') if torch.cuda.is_available() else
-        torch.device('mps') if torch.backends.mps.is_available() else
-        torch.device('cpu')
+        torch.device("cuda")
+        if torch.cuda.is_available()
+        else torch.device("mps")
+        if torch.backends.mps.is_available()
+        else torch.device("cpu")
     )
     print(f"Detected device: {device}")
-    return device
+    return device

smftools/machine_learning/utils/grl.py CHANGED Viewed

@@ -1,4 +1,9 @@
-import torch
+from __future__ import annotations
+from smftools.optional_imports import require
+torch = require("torch", extra="ml-base", purpose="gradient reversal layers")
 class GradReverse(torch.autograd.Function):
     @staticmethod
@@ -10,5 +15,6 @@ class GradReverse(torch.autograd.Function):
     def backward(ctx, grad_output):
         return -ctx.alpha * grad_output, None
 def grad_reverse(x, alpha=1.0):
-    return GradReverse.apply(x, alpha)
+    return GradReverse.apply(x, alpha)

smftools 0.2.4__py3-none-any.whl → 0.3.0__py3-none-any.whl

smftools 0.2.4py3-none-any.whl → 0.3.0py3-none-any.whl