PyPI - smftools - Versions diffs - 0.1.7__py3-none-any.whl → 0.2.3__py3-none-any.whl - Mend

smftools 0.1.7py3-none-any.whl → 0.2.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (174) hide show

smftools/__init__.py +7 -6
smftools/_version.py +1 -1
smftools/cli/cli_flows.py +94 -0
smftools/cli/hmm_adata.py +338 -0
smftools/cli/load_adata.py +577 -0
smftools/cli/preprocess_adata.py +363 -0
smftools/cli/spatial_adata.py +564 -0
smftools/cli_entry.py +435 -0
smftools/config/__init__.py +1 -0
smftools/config/conversion.yaml +38 -0
smftools/config/deaminase.yaml +61 -0
smftools/config/default.yaml +264 -0
smftools/config/direct.yaml +41 -0
smftools/config/discover_input_files.py +115 -0
smftools/config/experiment_config.py +1288 -0
smftools/hmm/HMM.py +1576 -0
smftools/hmm/__init__.py +20 -0
smftools/{tools → hmm}/apply_hmm_batched.py +8 -7
smftools/hmm/call_hmm_peaks.py +106 -0
smftools/{tools → hmm}/display_hmm.py +3 -3
smftools/{tools → hmm}/nucleosome_hmm_refinement.py +2 -2
smftools/{tools → hmm}/train_hmm.py +1 -1
smftools/informatics/__init__.py +13 -9
smftools/informatics/archived/deaminase_smf.py +132 -0
smftools/informatics/archived/fast5_to_pod5.py +43 -0
smftools/informatics/archived/helpers/archived/__init__.py +71 -0
smftools/informatics/archived/helpers/archived/align_and_sort_BAM.py +126 -0
smftools/informatics/archived/helpers/archived/aligned_BAM_to_bed.py +87 -0
smftools/informatics/archived/helpers/archived/bam_qc.py +213 -0
smftools/informatics/archived/helpers/archived/bed_to_bigwig.py +90 -0
smftools/informatics/archived/helpers/archived/concatenate_fastqs_to_bam.py +259 -0
smftools/informatics/{helpers → archived/helpers/archived}/count_aligned_reads.py +2 -2
smftools/informatics/{helpers → archived/helpers/archived}/demux_and_index_BAM.py +8 -10
smftools/informatics/{helpers → archived/helpers/archived}/extract_base_identities.py +30 -4
smftools/informatics/{helpers → archived/helpers/archived}/extract_mods.py +15 -13
smftools/informatics/{helpers → archived/helpers/archived}/extract_read_features_from_bam.py +4 -2
smftools/informatics/{helpers → archived/helpers/archived}/find_conversion_sites.py +5 -4
smftools/informatics/{helpers → archived/helpers/archived}/generate_converted_FASTA.py +2 -0
smftools/informatics/{helpers → archived/helpers/archived}/get_chromosome_lengths.py +9 -8
smftools/informatics/archived/helpers/archived/index_fasta.py +24 -0
smftools/informatics/{helpers → archived/helpers/archived}/make_modbed.py +1 -2
smftools/informatics/{helpers → archived/helpers/archived}/modQC.py +2 -2
smftools/informatics/archived/helpers/archived/plot_bed_histograms.py +250 -0
smftools/informatics/{helpers → archived/helpers/archived}/separate_bam_by_bc.py +8 -7
smftools/informatics/{helpers → archived/helpers/archived}/split_and_index_BAM.py +8 -12
smftools/informatics/archived/subsample_fasta_from_bed.py +49 -0
smftools/informatics/bam_functions.py +812 -0
smftools/informatics/basecalling.py +67 -0
smftools/informatics/bed_functions.py +366 -0
smftools/informatics/binarize_converted_base_identities.py +172 -0
smftools/informatics/{helpers/converted_BAM_to_adata_II.py → converted_BAM_to_adata.py} +198 -50
smftools/informatics/fasta_functions.py +255 -0
smftools/informatics/h5ad_functions.py +197 -0
smftools/informatics/{helpers/modkit_extract_to_adata.py → modkit_extract_to_adata.py} +147 -61
smftools/informatics/modkit_functions.py +129 -0
smftools/informatics/ohe.py +160 -0
smftools/informatics/pod5_functions.py +224 -0
smftools/informatics/{helpers/run_multiqc.py → run_multiqc.py} +5 -2
smftools/machine_learning/__init__.py +12 -0
smftools/machine_learning/data/__init__.py +2 -0
smftools/machine_learning/data/anndata_data_module.py +234 -0
smftools/machine_learning/evaluation/__init__.py +2 -0
smftools/machine_learning/evaluation/eval_utils.py +31 -0
smftools/machine_learning/evaluation/evaluators.py +223 -0
smftools/machine_learning/inference/__init__.py +3 -0
smftools/machine_learning/inference/inference_utils.py +27 -0
smftools/machine_learning/inference/lightning_inference.py +68 -0
smftools/machine_learning/inference/sklearn_inference.py +55 -0
smftools/machine_learning/inference/sliding_window_inference.py +114 -0
smftools/machine_learning/models/base.py +295 -0
smftools/machine_learning/models/cnn.py +138 -0
smftools/machine_learning/models/lightning_base.py +345 -0
smftools/machine_learning/models/mlp.py +26 -0
smftools/{tools → machine_learning}/models/positional.py +3 -2
smftools/{tools → machine_learning}/models/rnn.py +2 -1
smftools/machine_learning/models/sklearn_models.py +273 -0
smftools/machine_learning/models/transformer.py +303 -0
smftools/machine_learning/training/__init__.py +2 -0
smftools/machine_learning/training/train_lightning_model.py +135 -0
smftools/machine_learning/training/train_sklearn_model.py +114 -0
smftools/plotting/__init__.py +4 -1
smftools/plotting/autocorrelation_plotting.py +609 -0
smftools/plotting/general_plotting.py +1292 -140
smftools/plotting/hmm_plotting.py +260 -0
smftools/plotting/qc_plotting.py +270 -0
smftools/preprocessing/__init__.py +15 -8
smftools/preprocessing/add_read_length_and_mapping_qc.py +129 -0
smftools/preprocessing/append_base_context.py +122 -0
smftools/preprocessing/append_binary_layer_by_base_context.py +143 -0
smftools/preprocessing/binarize.py +17 -0
smftools/preprocessing/binarize_on_Youden.py +2 -2
smftools/preprocessing/calculate_complexity_II.py +248 -0
smftools/preprocessing/calculate_coverage.py +10 -1
smftools/preprocessing/calculate_position_Youden.py +1 -1
smftools/preprocessing/calculate_read_modification_stats.py +101 -0
smftools/preprocessing/clean_NaN.py +17 -1
smftools/preprocessing/filter_reads_on_length_quality_mapping.py +158 -0
smftools/preprocessing/filter_reads_on_modification_thresholds.py +352 -0
smftools/preprocessing/flag_duplicate_reads.py +1326 -124
smftools/preprocessing/invert_adata.py +12 -5
smftools/preprocessing/load_sample_sheet.py +19 -4
smftools/readwrite.py +1021 -89
smftools/tools/__init__.py +3 -32
smftools/tools/calculate_umap.py +5 -5
smftools/tools/general_tools.py +3 -3
smftools/tools/position_stats.py +468 -106
smftools/tools/read_stats.py +115 -1
smftools/tools/spatial_autocorrelation.py +562 -0
{smftools-0.1.7.dist-info → smftools-0.2.3.dist-info}/METADATA +14 -9
smftools-0.2.3.dist-info/RECORD +173 -0
smftools-0.2.3.dist-info/entry_points.txt +2 -0
smftools/informatics/fast5_to_pod5.py +0 -21
smftools/informatics/helpers/LoadExperimentConfig.py +0 -75
smftools/informatics/helpers/__init__.py +0 -74
smftools/informatics/helpers/align_and_sort_BAM.py +0 -59
smftools/informatics/helpers/aligned_BAM_to_bed.py +0 -74
smftools/informatics/helpers/bam_qc.py +0 -66
smftools/informatics/helpers/bed_to_bigwig.py +0 -39
smftools/informatics/helpers/binarize_converted_base_identities.py +0 -79
smftools/informatics/helpers/concatenate_fastqs_to_bam.py +0 -55
smftools/informatics/helpers/index_fasta.py +0 -12
smftools/informatics/helpers/make_dirs.py +0 -21
smftools/informatics/helpers/plot_read_length_and_coverage_histograms.py +0 -53
smftools/informatics/load_adata.py +0 -182
smftools/informatics/readwrite.py +0 -106
smftools/informatics/subsample_fasta_from_bed.py +0 -47
smftools/preprocessing/append_C_context.py +0 -82
smftools/preprocessing/calculate_converted_read_methylation_stats.py +0 -94
smftools/preprocessing/filter_converted_reads_on_methylation.py +0 -44
smftools/preprocessing/filter_reads_on_length.py +0 -51
smftools/tools/call_hmm_peaks.py +0 -105
smftools/tools/data/__init__.py +0 -2
smftools/tools/data/anndata_data_module.py +0 -90
smftools/tools/inference/__init__.py +0 -1
smftools/tools/inference/lightning_inference.py +0 -41
smftools/tools/models/base.py +0 -14
smftools/tools/models/cnn.py +0 -34
smftools/tools/models/lightning_base.py +0 -41
smftools/tools/models/mlp.py +0 -17
smftools/tools/models/sklearn_models.py +0 -40
smftools/tools/models/transformer.py +0 -133
smftools/tools/training/__init__.py +0 -1
smftools/tools/training/train_lightning_model.py +0 -47
smftools-0.1.7.dist-info/RECORD +0 -136
/smftools/{tools/evaluation → cli}/__init__.py +0 -0
/smftools/{tools → hmm}/calculate_distances.py +0 -0
/smftools/{tools → hmm}/hmm_readwrite.py +0 -0
/smftools/informatics/{basecall_pod5s.py → archived/basecall_pod5s.py} +0 -0
/smftools/informatics/{conversion_smf.py → archived/conversion_smf.py} +0 -0
/smftools/informatics/{direct_smf.py → archived/direct_smf.py} +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/canoncall.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/converted_BAM_to_adata.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/extract_read_lengths_from_bed.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/extract_readnames_from_BAM.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/get_native_references.py +0 -0
/smftools/informatics/{helpers → archived/helpers}/archived/informatics.py +0 -0
/smftools/informatics/{helpers → archived/helpers}/archived/load_adata.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/modcall.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/ohe_batching.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/ohe_layers_decode.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/one_hot_decode.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/one_hot_encode.py +0 -0
/smftools/informatics/{subsample_pod5.py → archived/subsample_pod5.py} +0 -0
/smftools/informatics/{helpers/complement_base_list.py → complement_base_list.py} +0 -0
/smftools/{tools → machine_learning}/data/preprocessing.py +0 -0
/smftools/{tools → machine_learning}/models/__init__.py +0 -0
/smftools/{tools → machine_learning}/models/wrappers.py +0 -0
/smftools/{tools → machine_learning}/utils/__init__.py +0 -0
/smftools/{tools → machine_learning}/utils/device.py +0 -0
/smftools/{tools → machine_learning}/utils/grl.py +0 -0
/smftools/tools/{apply_hmm.py → archived/apply_hmm.py} +0 -0
/smftools/tools/{classifiers.py → archived/classifiers.py} +0 -0
{smftools-0.1.7.dist-info → smftools-0.2.3.dist-info}/WHEEL +0 -0
{smftools-0.1.7.dist-info → smftools-0.2.3.dist-info}/licenses/LICENSE +0 -0

smftools/machine_learning/models/lightning_base.py ADDED Viewed

@@ -0,0 +1,345 @@
+import torch
+import pytorch_lightning as pl
+import matplotlib.pyplot as plt
+from sklearn.metrics import (
+    roc_auc_score, precision_recall_curve, auc, f1_score, confusion_matrix, roc_curve
+)
+import numpy as np
+class TorchClassifierWrapper(pl.LightningModule):
+    """
+    A Pytorch Lightning wrapper for PyTorch classifiers.
+    - Takes a PyTorch model as input.
+    - Number of classes should be passed.
+    - Optimizer is set as default to AdamW without any keyword arguments.
+    - Loss criterion is automatically detected based on if it's a binary of multi-class classifier.
+    - Can pass the index of the class label to use as the focus class when calculating precision/recall.
+    - Contains a prediction step to run inference with.
+    """
+    def __init__(
+        self,
+        model: torch.nn.Module,
+        label_col: str,
+        num_classes: int,
+        class_names: list=None,
+        optimizer_cls=torch.optim.AdamW,
+        optimizer_kwargs=None,
+        criterion_kwargs=None,
+        lr: float = 1e-3,
+        focus_class: int = 1,  # used for binary or multiclass precision-recall
+        class_weights=None,
+        enforce_eval_balance: bool=False,
+        target_eval_freq: float=0.3,
+        max_eval_positive: int=None
+    ):
+        super().__init__()
+        self.model = model
+        self.save_hyperparameters(ignore=['model'])  # logs all except actual model instance
+        self.optimizer_cls = optimizer_cls
+        self.optimizer_kwargs = optimizer_kwargs or {"weight_decay": 1e-4}
+        self.criterion = None
+        self.lr = lr
+        self.label_col = label_col
+        self.num_classes = num_classes
+        self.class_names = class_names
+        self.focus_class = self._resolve_focus_class(focus_class)
+        self.focus_class_name = focus_class
+        self.enforce_eval_balance = enforce_eval_balance
+        self.target_eval_freq = target_eval_freq
+        self.max_eval_positive = max_eval_positive
+        # Handle class weights
+        self.criterion_kwargs = criterion_kwargs or {}
+        if class_weights is not None:
+            if num_classes == 2:
+                # BCEWithLogits uses pos_weight, expects a scalar or tensor
+                if torch.is_tensor(class_weights[self.focus_class]):
+                    self.criterion_kwargs["pos_weight"] = class_weights[self.focus_class]
+                else:
+                    self.criterion_kwargs["pos_weight"] = torch.tensor(class_weights[self.focus_class], dtype=torch.float32, device=self.device)
+            else:
+                # CrossEntropyLoss expects weight tensor of size C
+                if torch.is_tensor(class_weights):
+                    self.criterion_kwargs["weight"] = class_weights
+                else:
+                    self.criterion_kwargs["weight"] = torch.tensor(class_weights, dtype=torch.float32)
+        self._val_outputs = []
+        self._test_outputs = []
+    def setup(self, stage=None):
+        """
+        Sets the loss criterion.
+        """
+        if self.criterion is None and self.num_classes is not None:
+            self._init_criterion()
+    def _init_criterion(self):
+        if self.num_classes == 2:
+            if "pos_weight" in self.criterion_kwargs and not torch.is_tensor(self.criterion_kwargs["pos_weight"]):
+                self.criterion_kwargs["pos_weight"] = torch.tensor(self.criterion_kwargs["pos_weight"], dtype=torch.float32, device=self.device)
+            self.criterion = torch.nn.BCEWithLogitsLoss(**self.criterion_kwargs)
+        else:
+            if "weight" in self.criterion_kwargs and not torch.is_tensor(self.criterion_kwargs["weight"]):
+                self.criterion_kwargs["weight"] = torch.tensor(self.criterion_kwargs["weight"], dtype=torch.float32, device=self.device)
+            self.criterion = torch.nn.CrossEntropyLoss(**self.criterion_kwargs)
+    def _resolve_focus_class(self, focus_class):
+        if isinstance(focus_class, int):
+            return focus_class
+        elif isinstance(focus_class, str):
+            if self.class_names is None:
+                raise ValueError("class_names must be provided if focus_class is a string.")
+            if focus_class not in self.class_names:
+                raise ValueError(f"focus_class '{focus_class}' not found in class_names {self.class_names}.")
+            return self.class_names.index(focus_class)
+        else:
+            raise ValueError(f"focus_class must be int or str, got {type(focus_class)}")
+    def set_training_indices(self, datamodule):
+        """
+        Store obs_names for train/val/test subsets used during training.
+        """
+        self.train_obs_names = datamodule.adata.obs_names[datamodule.train_set.indices].tolist()
+        self.val_obs_names = datamodule.adata.obs_names[datamodule.val_set.indices].tolist()
+        self.test_obs_names = datamodule.adata.obs_names[datamodule.test_set.indices].tolist()
+    def configure_optimizers(self):
+        return self.optimizer_cls(self.parameters(), lr=self.lr, **self.optimizer_kwargs)
+    def forward(self, x):
+        """
+        Forward pass through the model.
+        """
+        return self.model(x)
+    def training_step(self, batch, batch_idx):
+        """
+        Training step for a batch through the Lightning Trainer.
+        """
+        x, y = batch
+        if self.num_classes is None:
+            self.num_classes = int(torch.max(y).item()) + 1
+            self._init_criterion()
+        logits = self(x)
+        loss = self._compute_loss(logits, y)
+        self.log("train_loss", loss, prog_bar=False)
+        return loss
+    def validation_step(self, batch, batch_idx):
+        """
+        Validation step for a batch through the Lightning Trainer.
+        """
+        x, y = batch
+        logits = self(x)
+        loss = self._compute_loss(logits, y)
+        preds = self._get_preds(logits)
+        acc = (preds == y).float().mean()
+        self.log_dict({"val_loss": loss, "val_acc": acc}, prog_bar=False)
+        self._val_outputs.append((logits.detach(), y.detach()))
+        return loss
+    def test_step(self, batch, batch_idx):
+        """
+        Test step for a batch through the Lightning Trainer.
+        """
+        x, y = batch
+        logits = self(x)
+        self._test_outputs.append((logits.detach(), y.detach()))
+    def predict_step(self, batch, batch_idx):
+        """
+        Gets predictions and prediction probabilities for the batch using the trained Lightning model.
+        """
+        x = batch[0]
+        logits = self(x)
+        probs = self._get_probs(logits)
+        preds = self._get_preds(logits)
+        return preds, probs
+    def on_validation_epoch_end(self):
+        """
+        Final logging of all validation steps
+        """
+        if not self._val_outputs:
+            return
+        logits, targets = zip(*self._val_outputs)
+        self._val_outputs.clear()
+        self._log_classification_metrics(logits, targets, prefix="val")
+    def on_test_epoch_end(self):
+        """
+        Final logging of all testing steps
+        """
+        if not self._test_outputs:
+            return
+        logits, targets = zip(*self._test_outputs)
+        self._test_outputs.clear()
+        self._log_classification_metrics(logits, targets, prefix="test")
+        self._plot_roc_pr_curves(logits, targets)
+    def _compute_loss(self, logits, y):
+        """
+        A helper function for computing loss for binary vs multiclass classifications.
+        """
+        if self.num_classes == 2:
+            y = y.float().view(-1, 1)  # shape [B, 1]
+            return self.criterion(logits.view(-1, 1), y)
+        else:
+            return self.criterion(logits, y)
+    def _get_probs(self, logits):
+        """
+        A helper function for getting class probabilities for binary vs multiclass classifications.
+        """
+        if self.num_classes == 2:
+            return torch.sigmoid(logits.view(-1))
+        else:
+            return torch.softmax(logits, dim=1)
+    def _get_preds(self, logits):
+        """
+        A helper function for getting class predictions for binary vs multiclass classifications.
+        """
+        if self.num_classes == 2:
+            return (torch.sigmoid(logits.view(-1)) >= 0.5).long()
+        else:
+            return logits.argmax(dim=1)
+    def _subsample_for_fixed_positive_frequency(self, y_true, probs, target_freq=0.3, max_positive=None):
+        pos_idx = np.where(y_true == self.focus_class)[0]
+        neg_idx = np.where(y_true != self.focus_class)[0]
+        max_negatives_possible = len(neg_idx)
+        max_positives_possible = len(pos_idx)
+        # maximum achievable positive class frequency
+        max_possible_freq = max_positives_possible / (max_positives_possible + max_negatives_possible)
+        if target_freq > max_possible_freq:
+            target_freq = max_possible_freq  # clip if you ask for impossible freq
+        # now calculate positive count
+        num_pos_target = min(int(target_freq * max_negatives_possible / (1 - target_freq)), max_positives_possible)
+        num_neg_target = int(num_pos_target * (1 - target_freq) / target_freq)
+        num_neg_target = min(num_neg_target, max_negatives_possible)
+        pos_sampled = np.random.choice(pos_idx, size=num_pos_target, replace=False)
+        neg_sampled = np.random.choice(neg_idx, size=num_neg_target, replace=False)
+        sampled_idx = np.concatenate([pos_sampled, neg_sampled])
+        np.random.shuffle(sampled_idx)
+        actual_freq = len(pos_sampled) / len(sampled_idx)
+        return sampled_idx
+    def _log_classification_metrics(self, logits, targets, prefix="val"):
+        """
+        A helper function for logging validation and testing split model evaluations.
+        """
+        logits = torch.cat(logits).cpu()
+        y_true = torch.cat(targets).cpu().numpy()
+        probs = self._get_probs(logits).numpy()
+        preds = self._get_preds(logits).cpu().numpy()
+        # remap binary focus class correctly:
+        binary_focus = (y_true == self.focus_class).astype(int)
+        num_pos = binary_focus.sum()
+        # Subsample if you want to enforce a fixed proportion of the positive class
+        if prefix == 'test' and self.enforce_eval_balance:
+            sampled_idx = self._subsample_for_fixed_positive_frequency(
+                y_true, probs, target_freq=self.target_eval_freq, max_positive=self.max_eval_positive
+            )
+            y_true = y_true[sampled_idx]
+            probs = probs[sampled_idx]
+            preds = preds[sampled_idx]
+            binary_focus = (y_true == self.focus_class).astype(int)
+            num_pos = binary_focus.sum()
+        # Accuracy
+        acc = np.mean(preds == y_true)
+        # F1 & ROC-AUC
+        if self.num_classes == 2:
+            if self.focus_class == 1:
+                focus_probs = probs
+            else:
+                focus_probs = 1 - probs
+            f1 = f1_score(y_true, preds)
+            fpr, tpr, _ = roc_curve((y_true == self.focus_class).astype(int), focus_probs)
+            roc_auc = roc_auc_score((y_true == self.focus_class).astype(int), focus_probs)
+        else:
+            f1 = f1_score(y_true, preds, average="macro")
+            roc_auc = roc_auc_score(y_true, probs, multi_class="ovr", average="macro")
+            focus_probs = probs[:, self.focus_class]
+            fpr, tpr, _ = roc_curve((y_true == self.focus_class).astype(int), focus_probs)
+        # PR AUC for focus class
+        pr, rc, _ = precision_recall_curve(binary_focus, focus_probs)
+        pr_auc = auc(rc, pr)
+        pos_freq = binary_focus.mean()
+        pr_auc_norm = pr_auc / pos_freq if pos_freq > 0 else np.nan
+        cm = confusion_matrix(y_true, preds)
+        # Save attributes for later plotting
+        if prefix == 'test':
+            self.test_roc_curve = (fpr, tpr)
+            self.test_pr_curve = (rc, pr)
+            self.test_roc_auc = roc_auc
+            self.test_pr_auc = pr_auc
+            self.test_pos_freq = pos_freq
+            self.test_num_pos = num_pos
+            self.test_acc = acc
+            self.test_f1 = f1
+        elif prefix == 'val':
+            pass
+        # Logging
+        self.log_dict({
+            f"{prefix}_acc": acc,
+            f"{prefix}_f1": f1,
+            f"{prefix}_auc": roc_auc,
+            f"{prefix}_pr_auc": pr_auc,
+            f"{prefix}_pr_auc_norm": pr_auc_norm,
+            f"{prefix}_pos_freq": pos_freq,
+            f"{prefix}_num_pos": num_pos
+        })
+        setattr(self, f"{prefix}_confusion_matrix", cm)
+    def _plot_roc_pr_curves(self, logits, targets):
+        plt.figure(figsize=(12, 5))
+        # ROC Curve
+        fpr, tpr = self.test_roc_curve
+        roc_auc = self.test_roc_auc
+        plt.subplot(1, 2, 1)
+        plt.plot(fpr, tpr, label=f"ROC AUC={roc_auc:.3f}")
+        plt.plot([0, 1], [0, 1], linestyle="--", color="gray")
+        plt.xlabel("False Positive Rate")
+        plt.ylabel("True Positive Rate")
+        plt.ylim(0, 1.05)
+        plt.title(f"Test ROC Curve - {self.test_num_pos} positive class instances")
+        plt.legend()
+        # PR Curve
+        rc, pr = self.test_pr_curve
+        pr_auc = self.test_pr_auc
+        pos_freq = self.test_pos_freq
+        plt.subplot(1, 2, 2)
+        plt.plot(rc, pr, label=f"PR AUC={pr_auc:.3f}")
+        plt.axhline(pos_freq, linestyle='--', color="gray")
+        plt.xlabel("Recall")
+        plt.ylabel("Precision")
+        plt.ylim(0, 1.05)
+        plt.title(f"Test Precision-Recall Curve - {self.test_num_pos} positive class instances")
+        plt.legend()
+        plt.tight_layout()
+        plt.show()

smftools/machine_learning/models/mlp.py ADDED Viewed

@@ -0,0 +1,26 @@
+import torch
+import torch.nn as nn
+from .base import BaseTorchModel
+class MLPClassifier(BaseTorchModel):
+    def __init__(self, input_dim, num_classes=2, hidden_dims=[64, 64], dropout=0.2, use_batchnorm=True, **kwargs):
+        super().__init__(**kwargs)
+        layers = []
+        in_dim = input_dim
+        for h in hidden_dims:
+            layers.append(nn.Linear(in_dim, h))
+            if use_batchnorm:
+                layers.append(nn.BatchNorm1d(h))
+            layers.append(nn.ReLU())
+            if dropout > 0:
+                layers.append(nn.Dropout(dropout))
+            in_dim = h
+        output_size = 1 if num_classes == 2 else num_classes
+        layers.append(nn.Linear(in_dim, output_size))
+        self.model = nn.Sequential(*layers)
+    def forward(self, x):
+        return self.model(x)

smftools/{tools → machine_learning}/models/positional.py RENAMED Viewed

@@ -10,8 +10,9 @@ class PositionalEncoding(nn.Module):
         div_term = torch.exp(torch.arange(0, d_model, 2).float() * (-np.log(10000.0) / d_model))
         pe[:, 0::2] = torch.sin(position * div_term)
         pe[:, 1::2] = torch.cos(position * div_term)
-        self.pe = pe.unsqueeze(0)  # (1, max_len, d_model)
+        pe = pe.unsqueeze(0)  # (1, max_len, d_model)
+        self.register_buffer("pe", pe)
     def forward(self, x):
-        x = x + self.pe[:, :x.size(1)].to(x.device)
+        x = x + self.pe[:, :x.size(1)]
         return x

smftools/{tools → machine_learning}/models/rnn.py RENAMED Viewed

@@ -8,7 +8,8 @@ class RNNClassifier(BaseTorchModel):
         # Define LSTM layer
         self.lstm = nn.LSTM(input_size=input_size, hidden_size=hidden_dim, batch_first=True)
         # Define fully connected output layer
-        self.fc = nn.Linear(hidden_dim, num_classes)
+        output_size = 1 if num_classes == 2 else num_classes
+        self.fc = nn.Linear(hidden_dim, output_size)
     def forward(self, x):
         x = x.unsqueeze(1)  # [B, 1, L] → for LSTM expecting batch_first

smftools/machine_learning/models/sklearn_models.py ADDED Viewed

@@ -0,0 +1,273 @@
+import numpy as np
+import matplotlib.pyplot as plt
+from sklearn.metrics import (
+    roc_auc_score, precision_recall_curve, auc, f1_score, confusion_matrix, roc_curve
+)
+class SklearnModelWrapper:
+    """
+    Unified sklearn wrapper matching TorchClassifierWrapper interface.
+    """
+    def __init__(
+        self,
+        model,
+        label_col: str,
+        num_classes: int,
+        class_names=None,
+        focus_class: int=1,
+        enforce_eval_balance: bool=False,
+        target_eval_freq: float=0.3,
+        max_eval_positive=None
+    ):
+        self.model = model
+        self.label_col = label_col
+        self.num_classes = num_classes
+        self.class_names = class_names
+        self.focus_class = self._resolve_focus_class(focus_class)
+        self.focus_class_name = focus_class
+        self.enforce_eval_balance = enforce_eval_balance
+        self.target_eval_freq = target_eval_freq
+        self.max_eval_positive = max_eval_positive
+        self.metrics = {}
+    def _resolve_focus_class(self, focus_class):
+        if isinstance(focus_class, int):
+            return focus_class
+        elif isinstance(focus_class, str):
+            if self.class_names is None:
+                raise ValueError("class_names must be provided if focus_class is a string.")
+            if focus_class not in self.class_names:
+                raise ValueError(f"focus_class '{focus_class}' not found in class_names {self.class_names}.")
+            return self.class_names.index(focus_class)
+        else:
+            raise ValueError(f"focus_class must be int or str, got {type(focus_class)}")
+    def fit(self, X, y):
+        self.model.fit(X, y)
+    def predict(self, X):
+        return self.model.predict(X)
+    def predict_proba(self, X):
+        return self.model.predict_proba(X)
+    def _subsample_for_fixed_positive_frequency(self, y_true):
+        pos_idx = np.where(y_true == self.focus_class)[0]
+        neg_idx = np.where(y_true != self.focus_class)[0]
+        max_neg = len(neg_idx)
+        max_pos = len(pos_idx)
+        max_possible_freq = max_pos / (max_pos + max_neg)
+        target_freq = min(self.target_eval_freq, max_possible_freq)
+        num_pos_target = min(int(target_freq * max_neg / (1 - target_freq)), max_pos)
+        num_neg_target = int(num_pos_target * (1 - target_freq) / target_freq)
+        num_neg_target = min(num_neg_target, max_neg)
+        if self.max_eval_positive is not None:
+            num_pos_target = min(num_pos_target, self.max_eval_positive)
+        pos_sampled = np.random.choice(pos_idx, size=num_pos_target, replace=False)
+        neg_sampled = np.random.choice(neg_idx, size=num_neg_target, replace=False)
+        sampled_idx = np.concatenate([pos_sampled, neg_sampled])
+        np.random.shuffle(sampled_idx)
+        return sampled_idx
+    def evaluate(self, X, y, prefix="test"):
+        y_true = y
+        y_prob = self.predict_proba(X)
+        y_pred = self.predict(X)
+        if self.enforce_eval_balance:
+            sampled_idx = self._subsample_for_fixed_positive_frequency(y_true)
+            y_true = y_true[sampled_idx]
+            y_prob = y_prob[sampled_idx]
+            y_pred = y_pred[sampled_idx]
+        binary_focus = (y_true == self.focus_class).astype(int)
+        num_pos = binary_focus.sum()
+        is_binary = self.num_classes == 2
+        if is_binary:
+            if self.focus_class == 1:
+                focus_probs = y_prob[:, 1]
+            else:
+                focus_probs = y_prob[:, 0]
+            preds_focus = (y_pred == self.focus_class).astype(int)
+        else:
+            focus_probs = y_prob[:, self.focus_class]
+            preds_focus = (y_pred == self.focus_class).astype(int)
+        f1 = f1_score(binary_focus, preds_focus)
+        roc_auc = roc_auc_score(binary_focus, focus_probs)
+        pr, rc, _ = precision_recall_curve(binary_focus, focus_probs)
+        pr_auc = auc(rc, pr)
+        pos_freq = binary_focus.mean()
+        pr_auc_norm = pr_auc / pos_freq if pos_freq > 0 else np.nan
+        fpr, tpr, _ = roc_curve(binary_focus, focus_probs)
+        cm = confusion_matrix(y_true, y_pred)
+        acc = np.mean(y_pred == y_true)
+        # store metrics as attributes for plotting later
+        setattr(self, f"{prefix}_f1", f1)
+        setattr(self, f"{prefix}_roc_curve", (fpr, tpr))
+        setattr(self, f"{prefix}_pr_curve", (rc, pr))
+        setattr(self, f"{prefix}_roc_auc", roc_auc)
+        setattr(self, f"{prefix}_pr_auc", pr_auc)
+        setattr(self, f"{prefix}_pos_freq", pos_freq)
+        setattr(self, f"{prefix}_num_pos", num_pos)
+        setattr(self, f"{prefix}_confusion_matrix", cm)
+        setattr(self, f"{prefix}_acc", acc)
+        # also store a metrics dict
+        self.metrics = {
+            f"{prefix}_acc": acc,
+            f"{prefix}_f1": f1,
+            f"{prefix}_auc": roc_auc,
+            f"{prefix}_pr_auc": pr_auc,
+            f"{prefix}_pr_auc_norm": pr_auc_norm,
+            f"{prefix}_pos_freq": pos_freq,
+            f"{prefix}_num_pos": num_pos
+        }
+        return self.metrics
+    def plot_roc_pr_curves(self, prefix="test"):
+        plt.figure(figsize=(12, 5))
+        fpr, tpr = getattr(self, f"{prefix}_roc_curve")
+        roc_auc = getattr(self, f"{prefix}_roc_auc")
+        plt.subplot(1, 2, 1)
+        plt.plot(fpr, tpr, label=f"ROC AUC={roc_auc:.3f}")
+        plt.plot([0, 1], [0, 1], linestyle="--", color="gray")
+        plt.xlabel("False Positive Rate")
+        plt.ylabel("True Positive Rate")
+        plt.ylim(0, 1.05)
+        plt.title(f"ROC Curve - {getattr(self, f'{prefix}_num_pos')} positives")
+        plt.legend()
+        rc, pr = getattr(self, f"{prefix}_pr_curve")
+        pr_auc = getattr(self, f"{prefix}_pr_auc")
+        pos_freq = getattr(self, f"{prefix}_pos_freq")
+        plt.subplot(1, 2, 2)
+        plt.plot(rc, pr, label=f"PR AUC={pr_auc:.3f}")
+        plt.axhline(pos_freq, linestyle="--", color="gray")
+        plt.xlabel("Recall")
+        plt.ylabel("Precision")
+        plt.ylim(0, 1.05)
+        plt.title(f"PR Curve - {getattr(self, f'{prefix}_num_pos')} positives")
+        plt.legend()
+        plt.tight_layout()
+        plt.show()
+    def fit_from_datamodule(self, datamodule):
+        datamodule.setup()
+        X_tensor, y_tensor = datamodule.train_set.dataset.X_tensor, datamodule.train_set.dataset.y_tensor
+        indices = datamodule.train_set.indices
+        X_train = X_tensor[indices].numpy()
+        y_train = y_tensor[indices].numpy()
+        self.fit(X_train, y_train)
+        self.train_obs_names = datamodule.adata.obs_names[datamodule.train_set.indices].tolist()
+        self.val_obs_names = datamodule.adata.obs_names[datamodule.val_set.indices].tolist()
+        self.test_obs_names = datamodule.adata.obs_names[datamodule.test_set.indices].tolist()
+    def evaluate_from_datamodule(self, datamodule, split="test"):
+        datamodule.setup()
+        if split == "val":
+            subset = datamodule.val_set
+        elif split == "test":
+            subset = datamodule.test_set
+        else:
+            raise ValueError(f"Invalid split '{split}'")
+        X_tensor, y_tensor = subset.dataset.X_tensor, subset.dataset.y_tensor
+        indices = subset.indices
+        X_eval = X_tensor[indices].numpy()
+        y_eval = y_tensor[indices].numpy()
+        return self.evaluate(X_eval, y_eval, prefix=split)
+    def compute_shap(self, X, background=None, nsamples=100, target_class=None):
+        """
+        Compute SHAP values on input X, optionally for a specified target class.
+        Parameters
+        ----------
+        X : array-like
+            Input features
+        background : array-like
+            SHAP background
+        nsamples : int
+            Number of samples for kernel approximation
+        target_class : int, optional
+            If None, uses model predicted class
+        """
+        import shap
+        # choose explainer
+        if hasattr(self.model, "tree_") or hasattr(self.model, "estimators_"):
+            explainer = shap.TreeExplainer(self.model, data=background)
+        else:
+            if background is None:
+                background = shap.kmeans(X, 10)
+            explainer = shap.KernelExplainer(self.model.predict_proba, background)
+        # determine class
+        if target_class is None:
+            preds = self.model.predict(X)
+            target_class = preds
+        if isinstance(explainer, shap.TreeExplainer):
+            shap_values = explainer.shap_values(X)
+        else:
+            shap_values = explainer.shap_values(X, nsamples=nsamples)
+        if isinstance(shap_values, np.ndarray):
+            if shap_values.ndim == 3:
+                if isinstance(target_class, int):
+                    return shap_values[:, :, target_class]
+                elif isinstance(target_class, np.ndarray):
+                    # target_class is per-sample
+                    if np.any(target_class >= shap_values.shape[2]):
+                        raise ValueError(f"target_class values exceed {shap_values.shape[2]}")
+                    selected = np.array([
+                        shap_values[i, :, c]
+                        for i, c in enumerate(target_class)
+                    ])
+                    return selected
+                else:
+                    # fallback to class 0
+                    return shap_values[:, :, 0]
+            else:
+                # 2D shape (samples, features), no class dimension
+                return shap_values
+    def apply_shap_to_adata(self, dataloader, adata, background=None, adata_key="shap_values", target_class=None, normalize=True):
+        """
+        Compute SHAP from a DataLoader and store in AnnData if provided.
+        """
+        X_batches = []
+        for batch in dataloader:
+            X = batch[0].detach().cpu().numpy()
+            X_batches.append(X)
+        X_full = np.concatenate(X_batches, axis=0)
+        shap_values = self.compute_shap(X_full, background=background, target_class=target_class)
+        if adata is not None:
+            adata.obsm[adata_key] = shap_values
+        if normalize:
+            arr = shap_values
+            # row-wise normalization
+            row_max = np.max(np.abs(arr), axis=1, keepdims=True)
+            row_max[row_max == 0] = 1  # avoid divide by zero
+            normalized = arr / row_max
+            adata.obsm[f"{adata_key}_normalized"] = normalized

smftools 0.1.7__py3-none-any.whl → 0.2.3__py3-none-any.whl

smftools 0.1.7py3-none-any.whl → 0.2.3py3-none-any.whl