PyPI - smftools - Versions diffs - 0.2.5__py3-none-any.whl → 0.3.0__py3-none-any.whl - Mend

smftools 0.2.5py3-none-any.whl → 0.3.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (148) hide show

smftools/__init__.py +39 -7
smftools/_settings.py +2 -0
smftools/_version.py +3 -1
smftools/cli/__init__.py +1 -0
smftools/cli/archived/cli_flows.py +2 -0
smftools/cli/helpers.py +2 -0
smftools/cli/hmm_adata.py +7 -2
smftools/cli/load_adata.py +130 -98
smftools/cli/preprocess_adata.py +2 -0
smftools/cli/spatial_adata.py +5 -1
smftools/cli_entry.py +26 -1
smftools/config/__init__.py +2 -0
smftools/config/default.yaml +4 -1
smftools/config/experiment_config.py +6 -0
smftools/datasets/__init__.py +2 -0
smftools/hmm/HMM.py +9 -3
smftools/hmm/__init__.py +24 -13
smftools/hmm/archived/apply_hmm_batched.py +2 -0
smftools/hmm/archived/calculate_distances.py +2 -0
smftools/hmm/archived/call_hmm_peaks.py +2 -0
smftools/hmm/archived/train_hmm.py +2 -0
smftools/hmm/call_hmm_peaks.py +5 -2
smftools/hmm/display_hmm.py +4 -1
smftools/hmm/hmm_readwrite.py +7 -2
smftools/hmm/nucleosome_hmm_refinement.py +2 -0
smftools/informatics/__init__.py +53 -34
smftools/informatics/archived/bam_conversion.py +2 -0
smftools/informatics/archived/bam_direct.py +2 -0
smftools/informatics/archived/basecall_pod5s.py +2 -0
smftools/informatics/archived/basecalls_to_adata.py +2 -0
smftools/informatics/archived/conversion_smf.py +2 -0
smftools/informatics/archived/deaminase_smf.py +1 -0
smftools/informatics/archived/direct_smf.py +2 -0
smftools/informatics/archived/fast5_to_pod5.py +2 -0
smftools/informatics/archived/helpers/archived/__init__.py +2 -0
smftools/informatics/archived/helpers/archived/align_and_sort_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/aligned_BAM_to_bed.py +2 -0
smftools/informatics/archived/helpers/archived/bed_to_bigwig.py +2 -0
smftools/informatics/archived/helpers/archived/canoncall.py +2 -0
smftools/informatics/archived/helpers/archived/converted_BAM_to_adata.py +2 -0
smftools/informatics/archived/helpers/archived/count_aligned_reads.py +2 -0
smftools/informatics/archived/helpers/archived/demux_and_index_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/extract_base_identities.py +2 -0
smftools/informatics/archived/helpers/archived/extract_mods.py +2 -0
smftools/informatics/archived/helpers/archived/extract_read_features_from_bam.py +2 -0
smftools/informatics/archived/helpers/archived/extract_read_lengths_from_bed.py +2 -0
smftools/informatics/archived/helpers/archived/extract_readnames_from_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/find_conversion_sites.py +2 -0
smftools/informatics/archived/helpers/archived/generate_converted_FASTA.py +2 -0
smftools/informatics/archived/helpers/archived/get_chromosome_lengths.py +2 -0
smftools/informatics/archived/helpers/archived/get_native_references.py +2 -0
smftools/informatics/archived/helpers/archived/index_fasta.py +2 -0
smftools/informatics/archived/helpers/archived/informatics.py +2 -0
smftools/informatics/archived/helpers/archived/load_adata.py +2 -0
smftools/informatics/archived/helpers/archived/make_modbed.py +2 -0
smftools/informatics/archived/helpers/archived/modQC.py +2 -0
smftools/informatics/archived/helpers/archived/modcall.py +2 -0
smftools/informatics/archived/helpers/archived/ohe_batching.py +2 -0
smftools/informatics/archived/helpers/archived/ohe_layers_decode.py +2 -0
smftools/informatics/archived/helpers/archived/one_hot_decode.py +2 -0
smftools/informatics/archived/helpers/archived/one_hot_encode.py +2 -0
smftools/informatics/archived/helpers/archived/plot_bed_histograms.py +2 -0
smftools/informatics/archived/helpers/archived/separate_bam_by_bc.py +2 -0
smftools/informatics/archived/helpers/archived/split_and_index_BAM.py +2 -0
smftools/informatics/archived/print_bam_query_seq.py +2 -0
smftools/informatics/archived/subsample_fasta_from_bed.py +2 -0
smftools/informatics/archived/subsample_pod5.py +2 -0
smftools/informatics/bam_functions.py +737 -170
smftools/informatics/basecalling.py +2 -0
smftools/informatics/bed_functions.py +271 -61
smftools/informatics/binarize_converted_base_identities.py +3 -0
smftools/informatics/complement_base_list.py +2 -0
smftools/informatics/converted_BAM_to_adata.py +66 -22
smftools/informatics/fasta_functions.py +94 -10
smftools/informatics/h5ad_functions.py +8 -2
smftools/informatics/modkit_extract_to_adata.py +16 -6
smftools/informatics/modkit_functions.py +2 -0
smftools/informatics/ohe.py +2 -0
smftools/informatics/pod5_functions.py +3 -2
smftools/machine_learning/__init__.py +22 -6
smftools/machine_learning/data/__init__.py +2 -0
smftools/machine_learning/data/anndata_data_module.py +18 -4
smftools/machine_learning/data/preprocessing.py +2 -0
smftools/machine_learning/evaluation/__init__.py +2 -0
smftools/machine_learning/evaluation/eval_utils.py +2 -0
smftools/machine_learning/evaluation/evaluators.py +14 -9
smftools/machine_learning/inference/__init__.py +2 -0
smftools/machine_learning/inference/inference_utils.py +2 -0
smftools/machine_learning/inference/lightning_inference.py +6 -1
smftools/machine_learning/inference/sklearn_inference.py +2 -0
smftools/machine_learning/inference/sliding_window_inference.py +2 -0
smftools/machine_learning/models/__init__.py +2 -0
smftools/machine_learning/models/base.py +7 -2
smftools/machine_learning/models/cnn.py +7 -2
smftools/machine_learning/models/lightning_base.py +16 -11
smftools/machine_learning/models/mlp.py +5 -1
smftools/machine_learning/models/positional.py +7 -2
smftools/machine_learning/models/rnn.py +5 -1
smftools/machine_learning/models/sklearn_models.py +14 -9
smftools/machine_learning/models/transformer.py +7 -2
smftools/machine_learning/models/wrappers.py +6 -2
smftools/machine_learning/training/__init__.py +2 -0
smftools/machine_learning/training/train_lightning_model.py +13 -3
smftools/machine_learning/training/train_sklearn_model.py +2 -0
smftools/machine_learning/utils/__init__.py +2 -0
smftools/machine_learning/utils/device.py +5 -1
smftools/machine_learning/utils/grl.py +5 -1
smftools/optional_imports.py +31 -0
smftools/plotting/__init__.py +32 -31
smftools/plotting/autocorrelation_plotting.py +9 -5
smftools/plotting/classifiers.py +16 -4
smftools/plotting/general_plotting.py +6 -3
smftools/plotting/hmm_plotting.py +12 -2
smftools/plotting/position_stats.py +15 -7
smftools/plotting/qc_plotting.py +6 -1
smftools/preprocessing/__init__.py +35 -37
smftools/preprocessing/archived/add_read_length_and_mapping_qc.py +2 -0
smftools/preprocessing/archived/calculate_complexity.py +2 -0
smftools/preprocessing/archived/mark_duplicates.py +2 -0
smftools/preprocessing/archived/preprocessing.py +2 -0
smftools/preprocessing/archived/remove_duplicates.py +2 -0
smftools/preprocessing/binary_layers_to_ohe.py +2 -1
smftools/preprocessing/calculate_complexity_II.py +4 -1
smftools/preprocessing/calculate_pairwise_differences.py +2 -0
smftools/preprocessing/calculate_pairwise_hamming_distances.py +3 -0
smftools/preprocessing/calculate_position_Youden.py +9 -2
smftools/preprocessing/filter_reads_on_length_quality_mapping.py +2 -0
smftools/preprocessing/filter_reads_on_modification_thresholds.py +2 -0
smftools/preprocessing/flag_duplicate_reads.py +42 -54
smftools/preprocessing/make_dirs.py +2 -1
smftools/preprocessing/min_non_diagonal.py +2 -0
smftools/preprocessing/recipes.py +2 -0
smftools/tools/__init__.py +26 -18
smftools/tools/archived/apply_hmm.py +2 -0
smftools/tools/archived/classifiers.py +2 -0
smftools/tools/archived/classify_methylated_features.py +2 -0
smftools/tools/archived/classify_non_methylated_features.py +2 -0
smftools/tools/archived/subset_adata_v1.py +2 -0
smftools/tools/archived/subset_adata_v2.py +2 -0
smftools/tools/calculate_umap.py +3 -1
smftools/tools/cluster_adata_on_methylation.py +7 -1
smftools/tools/position_stats.py +17 -27
{smftools-0.2.5.dist-info → smftools-0.3.0.dist-info}/METADATA +67 -33
smftools-0.3.0.dist-info/RECORD +182 -0
smftools-0.2.5.dist-info/RECORD +0 -181
{smftools-0.2.5.dist-info → smftools-0.3.0.dist-info}/WHEEL +0 -0
{smftools-0.2.5.dist-info → smftools-0.3.0.dist-info}/entry_points.txt +0 -0
{smftools-0.2.5.dist-info → smftools-0.3.0.dist-info}/licenses/LICENSE +0 -0

smftools/__init__.py CHANGED Viewed

@@ -1,20 +1,52 @@
 """smftools"""
+from __future__ import annotations
 import logging
 import warnings
+from importlib import import_module
 from importlib.metadata import version
+from typing import TYPE_CHECKING
-from . import cli, config, datasets, hmm
-from . import informatics as inform
-from . import machine_learning as ml
-from . import plotting as pl
-from . import preprocessing as pp
-from . import tools as tl
-from .readwrite import adata_to_df, merge_barcoded_anndatas_core, safe_read_h5ad, safe_write_h5ad
+from .readwrite import adata_to_df, safe_read_h5ad, safe_write_h5ad
 package_name = "smftools"
 __version__ = version(package_name)
+if TYPE_CHECKING:
+    from smftools import (
+        cli,
+        config,
+        datasets,
+        hmm,
+        informatics,
+        machine_learning,
+        plotting,
+        preprocessing,
+        tools,
+    )
+_LAZY_MODULES = {
+    "cli": "smftools.cli",
+    "config": "smftools.config",
+    "datasets": "smftools.datasets",
+    "hmm": "smftools.hmm",
+    "inform": "smftools.informatics",
+    "ml": "smftools.machine_learning",
+    "pl": "smftools.plotting",
+    "pp": "smftools.preprocessing",
+    "tl": "smftools.tools",
+}
+def __getattr__(name: str):
+    if name in _LAZY_MODULES:
+        module = import_module(_LAZY_MODULES[name])
+        globals()[name] = module
+        return module
+    raise AttributeError(f"module '{__name__}' has no attribute '{name}'")
 __all__ = [
     "adata_to_df",
     "inform",

smftools/_settings.py CHANGED Viewed

@@ -1,3 +1,5 @@
+from __future__ import annotations
 from pathlib import Path
 from typing import Union

smftools/_version.py CHANGED Viewed

@@ -1 +1,3 @@
-__version__ = "0.2.5"
+from __future__ import annotations
+__version__ = "0.3.0"

smftools/cli/__init__.py CHANGED Viewed

	@@ -0,0 +1 @@
1	+ from __future__ import annotations

smftools/cli/archived/cli_flows.py CHANGED Viewed

@@ -1,3 +1,5 @@
+from __future__ import annotations
 def flow_I(config_path):
     """
     High-level function to call for converting raw sequencing data to an adata object.

smftools/cli/helpers.py CHANGED Viewed

@@ -1,3 +1,5 @@
+from __future__ import annotations
 from dataclasses import dataclass
 from pathlib import Path

smftools/cli/hmm_adata.py CHANGED Viewed

@@ -3,18 +3,23 @@ from __future__ import annotations
 import copy
 from dataclasses import dataclass
 from pathlib import Path
-from typing import Any, List, Optional, Sequence, Tuple, Union
+from typing import TYPE_CHECKING, Any, List, Optional, Sequence, Tuple, Union
 import numpy as np
-import torch
 from smftools.logging_utils import get_logger
+from smftools.optional_imports import require
 # FIX: import _to_dense_np to avoid NameError
 from ..hmm.HMM import _safe_int_coords, _to_dense_np, create_hmm, normalize_hmm_feature_sets
 logger = get_logger(__name__)
+if TYPE_CHECKING:
+    import torch as torch_types
+torch = require("torch", extra="torch", purpose="HMM CLI")
 # =============================================================================
 # Helpers: extracting training arrays
 # =============================================================================

smftools/cli/load_adata.py CHANGED Viewed

@@ -1,7 +1,11 @@
+from __future__ import annotations
 import shutil
 from pathlib import Path
 from typing import Iterable, Union
+import numpy as np
 from smftools.logging_utils import get_logger
 from .helpers import AdataPaths
@@ -76,6 +80,96 @@ def delete_tsvs(
                         logger.warning(f"[error] failed to remove tmp dir {td}: {e}")
+def load_adata(config_path: str):
+    """
+    CLI-facing wrapper for the load pipeline.
+    - Reads config CSV into ExperimentConfig
+    - Computes canonical paths for all downstream AnnData stages
+    - Registers those in the summary CSV
+    - Applies stage-skipping logic (hmm > spatial > pp_dedup > pp > raw)
+    - If needed, calls the core pipeline to actually build the raw AnnData
+    Returns
+    -------
+    adata : anndata.AnnData | None
+        Newly created AnnData object, or None if we skipped because a later-stage
+        AnnData already exists.
+    adata_path : pathlib.Path
+        Path to the "current" AnnData that should be used downstream.
+    cfg : ExperimentConfig
+        Config object for downstream steps.
+    """
+    from datetime import datetime
+    from importlib import resources
+    from ..config import ExperimentConfig, LoadExperimentConfig
+    from ..readwrite import add_or_update_column_in_csv, make_dirs
+    from .helpers import get_adata_paths
+    date_str = datetime.today().strftime("%y%m%d")
+    # -----------------------------
+    # 1) Load config into cfg
+    # -----------------------------
+    loader = LoadExperimentConfig(config_path)
+    defaults_dir = resources.files("smftools").joinpath("config")
+    cfg, report = ExperimentConfig.from_var_dict(
+        loader.var_dict, date_str=date_str, defaults_dir=defaults_dir
+    )
+    # Ensure base output dir
+    make_dirs([cfg.output_directory])
+    # -----------------------------
+    # 2) Compute and register paths
+    # -----------------------------
+    paths = get_adata_paths(cfg)
+    # experiment-level metadata in summary CSV
+    add_or_update_column_in_csv(cfg.summary_file, "experiment_name", cfg.experiment_name)
+    add_or_update_column_in_csv(cfg.summary_file, "config_path", config_path)
+    add_or_update_column_in_csv(cfg.summary_file, "input_data_path", cfg.input_data_path)
+    add_or_update_column_in_csv(cfg.summary_file, "input_files", [cfg.input_files])
+    # AnnData stage paths
+    add_or_update_column_in_csv(cfg.summary_file, "load_adata", paths.raw)
+    add_or_update_column_in_csv(cfg.summary_file, "pp_adata", paths.pp)
+    add_or_update_column_in_csv(cfg.summary_file, "pp_dedup_adata", paths.pp_dedup)
+    add_or_update_column_in_csv(cfg.summary_file, "spatial_adata", paths.spatial)
+    add_or_update_column_in_csv(cfg.summary_file, "hmm_adata", paths.hmm)
+    # -----------------------------
+    # 3) Stage skipping logic
+    # -----------------------------
+    if not getattr(cfg, "force_redo_load_adata", False):
+        if paths.hmm.exists():
+            logger.debug(f"HMM AnnData already exists: {paths.hmm}\nSkipping smftools load")
+            return None, paths.hmm, cfg
+        if paths.spatial.exists():
+            logger.debug(f"Spatial AnnData already exists: {paths.spatial}\nSkipping smftools load")
+            return None, paths.spatial, cfg
+        if paths.pp_dedup.exists():
+            logger.debug(
+                f"Preprocessed deduplicated AnnData already exists: {paths.pp_dedup}\n"
+                f"Skipping smftools load"
+            )
+            return None, paths.pp_dedup, cfg
+        if paths.pp.exists():
+            logger.debug(f"Preprocessed AnnData already exists: {paths.pp}\nSkipping smftools load")
+            return None, paths.pp, cfg
+        if paths.raw.exists():
+            logger.debug(
+                f"Raw AnnData from smftools load already exists: {paths.raw}\nSkipping smftools load"
+            )
+            return None, paths.raw, cfg
+    # If we get here, we actually want to run the full load pipeline
+    adata, adata_path, cfg = load_adata_core(cfg, paths, config_path=config_path)
+    return adata, adata_path, cfg
 def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     """
     Core load pipeline.
@@ -105,9 +199,6 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     cfg : ExperimentConfig
         (Same object, possibly with some fields updated, e.g. fasta path.)
     """
-    from pathlib import Path
-    import numpy as np
     from ..informatics.bam_functions import (
         align_and_sort_BAM,
@@ -219,6 +310,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
                 rg_sample_field=None,
                 progress=False,
                 auto_pair=cfg.fastq_auto_pairing,
+                samtools_backend=cfg.samtools_backend,
             )
             logger.info(f"Found the following barcodes in FASTQ inputs: {summary['barcodes']}")
@@ -384,7 +476,14 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         else:
             logger.info("Making bed files from the aligned and sorted BAM file")
             aligned_BAM_to_bed(
-                aligned_sorted_output, cfg.output_directory, fasta, cfg.make_bigwigs, cfg.threads
+                aligned_sorted_output,
+                cfg.output_directory,
+                fasta,
+                cfg.make_bigwigs,
+                cfg.threads,
+                samtools_backend=cfg.samtools_backend,
+                bedtools_backend=cfg.bedtools_backend,
+                bigwig_backend=cfg.bigwig_backend,
             )
     ########################################################################################################################
@@ -404,7 +503,12 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         else:
             make_dirs([cfg.split_path])
             logger.info("Demultiplexing samples into individual aligned/sorted BAM files")
-            all_bam_files = split_and_index_BAM(aligned_sorted_BAM, cfg.split_path, cfg.bam_suffix)
+            all_bam_files = split_and_index_BAM(
+                aligned_sorted_BAM,
+                cfg.split_path,
+                cfg.bam_suffix,
+                samtools_backend=cfg.samtools_backend,
+            )
             unclassified_bams = [p for p in all_bam_files if "unclassified" in p.name]
             bam_files = sorted(p for p in all_bam_files if "unclassified" not in p.name)
@@ -489,7 +593,16 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         else:
             logger.info("Making BED files from BAM files for each sample")
             for bam in bam_files:
-                aligned_BAM_to_bed(bam, cfg.split_path, fasta, cfg.make_bigwigs, cfg.threads)
+                aligned_BAM_to_bed(
+                    bam,
+                    cfg.split_path,
+                    fasta,
+                    cfg.make_bigwigs,
+                    cfg.threads,
+                    samtools_backend=cfg.samtools_backend,
+                    bedtools_backend=cfg.bedtools_backend,
+                    bigwig_backend=cfg.bigwig_backend,
+                )
     ########################################################################################################################
     ################################### 6) SAMTools based BAM QC ######################################################################
@@ -501,7 +614,13 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     else:
         make_dirs([bam_qc_dir])
         logger.info("Performing BAM QC")
-        bam_qc(bam_files, bam_qc_dir, cfg.threads, modality=cfg.smf_modality)
+        bam_qc(
+            bam_files,
+            bam_qc_dir,
+            cfg.threads,
+            modality=cfg.smf_modality,
+            samtools_backend=cfg.samtools_backend,
+        )
     ########################################################################################################################
     ################################### 7) AnnData loading ######################################################################
@@ -529,6 +648,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
             deaminase_footprinting,
             delete_intermediates=cfg.delete_intermediate_hdfs,
             double_barcoded_path=double_barcoded_path,
+            samtools_backend=cfg.samtools_backend,
         )
     else:
         if mod_bed_dir.is_dir():
@@ -584,6 +704,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
             cfg.delete_batch_hdfs,
             cfg.threads,
             double_barcoded_path,
+            cfg.samtools_backend,
         )
         if cfg.delete_intermediate_tsvs:
             delete_tsvs(mod_tsv_dir)
@@ -604,6 +725,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         extract_read_features_from_bam_callable=extract_read_features_from_bam,
         bypass=cfg.bypass_add_read_length_and_mapping_qc,
         force_redo=cfg.force_redo_add_read_length_and_mapping_qc,
+        samtools_backend=cfg.samtools_backend,
     )
     raw_adata.obs["Raw_modification_signal"] = np.nansum(raw_adata.X, axis=1)
@@ -639,7 +761,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     # multiqc ###
     mqc_dir = cfg.split_path / "multiqc"
     if mqc_dir.is_dir():
-        logger.debug(f"{mqc_dir} already exists, skipping multiqc")
+        logger.info(f"{mqc_dir} already exists, skipping multiqc")
     else:
         logger.info("Running multiqc")
         run_multiqc(cfg.split_path, mqc_dir)
@@ -665,93 +787,3 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     ########################################################################################################################
     return raw_adata, raw_adata_path, cfg
-def load_adata(config_path: str):
-    """
-    CLI-facing wrapper for the load pipeline.
-    - Reads config CSV into ExperimentConfig
-    - Computes canonical paths for all downstream AnnData stages
-    - Registers those in the summary CSV
-    - Applies stage-skipping logic (hmm > spatial > pp_dedup > pp > raw)
-    - If needed, calls the core pipeline to actually build the raw AnnData
-    Returns
-    -------
-    adata : anndata.AnnData | None
-        Newly created AnnData object, or None if we skipped because a later-stage
-        AnnData already exists.
-    adata_path : pathlib.Path
-        Path to the "current" AnnData that should be used downstream.
-    cfg : ExperimentConfig
-        Config object for downstream steps.
-    """
-    from datetime import datetime
-    from importlib import resources
-    from ..config import ExperimentConfig, LoadExperimentConfig
-    from ..readwrite import add_or_update_column_in_csv, make_dirs
-    from .helpers import get_adata_paths
-    date_str = datetime.today().strftime("%y%m%d")
-    # -----------------------------
-    # 1) Load config into cfg
-    # -----------------------------
-    loader = LoadExperimentConfig(config_path)
-    defaults_dir = resources.files("smftools").joinpath("config")
-    cfg, report = ExperimentConfig.from_var_dict(
-        loader.var_dict, date_str=date_str, defaults_dir=defaults_dir
-    )
-    # Ensure base output dir
-    make_dirs([cfg.output_directory])
-    # -----------------------------
-    # 2) Compute and register paths
-    # -----------------------------
-    paths = get_adata_paths(cfg)
-    # experiment-level metadata in summary CSV
-    add_or_update_column_in_csv(cfg.summary_file, "experiment_name", cfg.experiment_name)
-    add_or_update_column_in_csv(cfg.summary_file, "config_path", config_path)
-    add_or_update_column_in_csv(cfg.summary_file, "input_data_path", cfg.input_data_path)
-    add_or_update_column_in_csv(cfg.summary_file, "input_files", [cfg.input_files])
-    # AnnData stage paths
-    add_or_update_column_in_csv(cfg.summary_file, "load_adata", paths.raw)
-    add_or_update_column_in_csv(cfg.summary_file, "pp_adata", paths.pp)
-    add_or_update_column_in_csv(cfg.summary_file, "pp_dedup_adata", paths.pp_dedup)
-    add_or_update_column_in_csv(cfg.summary_file, "spatial_adata", paths.spatial)
-    add_or_update_column_in_csv(cfg.summary_file, "hmm_adata", paths.hmm)
-    # -----------------------------
-    # 3) Stage skipping logic
-    # -----------------------------
-    if not getattr(cfg, "force_redo_load_adata", False):
-        if paths.hmm.exists():
-            logger.debug(f"HMM AnnData already exists: {paths.hmm}\nSkipping smftools load")
-            return None, paths.hmm, cfg
-        if paths.spatial.exists():
-            logger.debug(f"Spatial AnnData already exists: {paths.spatial}\nSkipping smftools load")
-            return None, paths.spatial, cfg
-        if paths.pp_dedup.exists():
-            logger.debug(
-                f"Preprocessed deduplicated AnnData already exists: {paths.pp_dedup}\n"
-                f"Skipping smftools load"
-            )
-            return None, paths.pp_dedup, cfg
-        if paths.pp.exists():
-            logger.debug(f"Preprocessed AnnData already exists: {paths.pp}\nSkipping smftools load")
-            return None, paths.pp, cfg
-        if paths.raw.exists():
-            logger.debug(
-                f"Raw AnnData from smftools load already exists: {paths.raw}\nSkipping smftools load"
-            )
-            return None, paths.raw, cfg
-    # If we get here, we actually want to run the full load pipeline
-    adata, adata_path, cfg = load_adata_core(cfg, paths, config_path=config_path)
-    return adata, adata_path, cfg

smftools/cli/preprocess_adata.py CHANGED Viewed

@@ -1,3 +1,5 @@
+from __future__ import annotations
 from pathlib import Path
 from typing import Optional, Tuple

smftools/cli/spatial_adata.py CHANGED Viewed

@@ -1,9 +1,12 @@
+from __future__ import annotations
 from pathlib import Path
 from typing import Optional, Tuple
 import anndata as ad
 from smftools.logging_utils import get_logger
+from smftools.optional_imports import require
 logger = get_logger(__name__)
@@ -153,7 +156,8 @@ def spatial_adata_core(
     import numpy as np
     import pandas as pd
-    import scanpy as sc
+    sc = require("scanpy", extra="scanpy", purpose="spatial analyses")
     from ..metadata import record_smftools_metadata
     from ..plotting import (

smftools/cli_entry.py CHANGED Viewed

@@ -1,3 +1,5 @@
+from __future__ import annotations
 import logging
 from pathlib import Path
 from typing import Sequence
@@ -10,10 +12,32 @@ from .cli.load_adata import load_adata
 from .cli.preprocess_adata import preprocess_adata
 from .cli.spatial_adata import spatial_adata
 from .informatics.pod5_functions import subsample_pod5
-from .logging_utils import setup_logging
+from .logging_utils import get_logger, setup_logging
 from .readwrite import concatenate_h5ads
+def _configure_multiprocessing() -> None:
+    import multiprocessing as mp
+    import sys
+    logger = get_logger(__name__)
+    try:
+        if sys.platform == "win32":
+            mp.set_start_method("spawn")
+            logger.debug("Setting multiprocessing start method to spawn")
+        else:
+            # try forkserver first, fallback to spawn
+            try:
+                mp.set_start_method("forkserver")
+                logger.debug("Setting multiprocessing start method to forkserver")
+            except ValueError:
+                mp.set_start_method("spawn")
+                logger.debug("Setting multiprocessing start method to spawn")
+    except RuntimeError:
+        logger.warning("Could not set multiprocessing start method")
 @click.group()
 @click.option(
     "--log-file",
@@ -32,6 +56,7 @@ def cli(log_file: Path | None, log_level: str):
     """Command-line interface for smftools."""
     level = getattr(logging, log_level.upper(), logging.INFO)
     setup_logging(level=level, log_file=log_file)
+    _configure_multiprocessing()
 ####### Load anndata from raw data ###########

smftools/config/__init__.py CHANGED Viewed

@@ -1 +1,3 @@
+from __future__ import annotations
 from .experiment_config import ExperimentConfig, LoadExperimentConfig

smftools/config/default.yaml CHANGED Viewed

@@ -77,6 +77,9 @@ aligner_args:
 # Sorted BAM and BED specific handling
 make_bigwigs: False # Whether to make coverage bigwigs
 make_beds: False # Whether to make beds from the aligned bams
+samtools_backend: auto # auto|python|cli for samtools-compatible operations
+bedtools_backend: auto # auto|python|cli for bedtools-compatible operations
+bigwig_backend: auto # auto|python|cli for bedGraphToBigWig conversion
 # Nanopore specific demultiplexing
 barcode_both_ends: False # dorado demultiplexing
@@ -370,4 +373,4 @@ force_redo_matrix_corr_plotting: False # Whether to force redo basic correlation
 bypass_hmm_fit: False # Whether to skip HMM fitting for each sample/reference
 force_redo_hmm_fit: False # Whether to redo HMM fitting for each sample/reference
 bypass_hmm_apply: False # Whether to skip HMM application for each sample/reference
-force_redo_hmm_apply: False # Whether to redo HMM application for each sample/reference
+force_redo_hmm_apply: False # Whether to redo HMM application for each sample/reference

smftools/config/experiment_config.py CHANGED Viewed

@@ -736,6 +736,9 @@ class ExperimentConfig:
     aligner_args: Optional[List[str]] = None
     make_bigwigs: bool = False
     make_beds: bool = False
+    samtools_backend: str = "auto"
+    bedtools_backend: str = "auto"
+    bigwig_backend: str = "auto"
     # Anndata structure
     reference_column: Optional[str] = REF_COL
@@ -1264,6 +1267,9 @@ class ExperimentConfig:
             device=merged.get("device", "auto"),
             make_bigwigs=merged.get("make_bigwigs", False),
             make_beds=merged.get("make_beds", False),
+            samtools_backend=merged.get("samtools_backend", "auto"),
+            bedtools_backend=merged.get("bedtools_backend", "auto"),
+            bigwig_backend=merged.get("bigwig_backend", "auto"),
             delete_intermediate_hdfs=merged.get("delete_intermediate_hdfs", True),
             mod_target_bases=merged.get("mod_target_bases", ["GpC", "CpG"]),
             enzyme_target_bases=merged.get("enzyme_target_bases", ["GpC"]),

smftools/datasets/__init__.py CHANGED Viewed

@@ -1,3 +1,5 @@
+from __future__ import annotations
 from .datasets import Kissiov_and_McKenna_2025, dCas9_kinetics
 __all__ = ["dCas9_kinetics", "Kissiov_and_McKenna_2025"]

smftools/hmm/HMM.py CHANGED Viewed

@@ -3,14 +3,20 @@ from __future__ import annotations
 import ast
 import json
 from pathlib import Path
-from typing import Any, Dict, List, Optional, Sequence, Tuple, Union
+from typing import TYPE_CHECKING, Any, Dict, List, Optional, Sequence, Tuple, Union
 import numpy as np
-import torch
-import torch.nn as nn
 from scipy.sparse import issparse
 from smftools.logging_utils import get_logger
+from smftools.optional_imports import require
+if TYPE_CHECKING:
+    import torch as torch_types
+    import torch.nn as nn_types
+torch = require("torch", extra="torch", purpose="HMM modeling")
+nn = torch.nn
 logger = get_logger(__name__)
 # =============================================================================

smftools/hmm/__init__.py CHANGED Viewed

@@ -1,13 +1,24 @@
-from .call_hmm_peaks import call_hmm_peaks
-from .display_hmm import display_hmm
-from .hmm_readwrite import load_hmm, save_hmm
-from .nucleosome_hmm_refinement import infer_nucleosomes_in_large_bound, refine_nucleosome_calls
-__all__ = [
-    "call_hmm_peaks",
-    "display_hmm",
-    "load_hmm",
-    "refine_nucleosome_calls",
-    "infer_nucleosomes_in_large_bound",
-    "save_hmm",
-]
+from __future__ import annotations
+from importlib import import_module
+_LAZY_ATTRS = {
+    "call_hmm_peaks": "smftools.hmm.call_hmm_peaks",
+    "display_hmm": "smftools.hmm.display_hmm",
+    "load_hmm": "smftools.hmm.hmm_readwrite",
+    "save_hmm": "smftools.hmm.hmm_readwrite",
+    "infer_nucleosomes_in_large_bound": "smftools.hmm.nucleosome_hmm_refinement",
+    "refine_nucleosome_calls": "smftools.hmm.nucleosome_hmm_refinement",
+}
+def __getattr__(name: str):
+    if name in _LAZY_ATTRS:
+        module = import_module(_LAZY_ATTRS[name])
+        attr = getattr(module, name)
+        globals()[name] = attr
+        return attr
+    raise AttributeError(f"module '{__name__}' has no attribute '{name}'")
+__all__ = list(_LAZY_ATTRS.keys())

smftools/hmm/archived/apply_hmm_batched.py CHANGED Viewed

@@ -1,3 +1,5 @@
+from __future__ import annotations
 import numpy as np
 import pandas as pd
 import torch

smftools/hmm/archived/calculate_distances.py CHANGED Viewed

@@ -1,3 +1,5 @@
+from __future__ import annotations
 # calculate_distances
 def calculate_distances(intervals, threshold=0.9):

smftools/hmm/archived/call_hmm_peaks.py CHANGED Viewed

@@ -1,3 +1,5 @@
+from __future__ import annotations
 def call_hmm_peaks(
     adata,
     feature_configs,

smftools/hmm/archived/train_hmm.py CHANGED Viewed

@@ -1,3 +1,5 @@
+from __future__ import annotations
 def train_hmm(
     data,
     emission_probs=[[0.8, 0.2], [0.2, 0.8]],

smftools/hmm/call_hmm_peaks.py CHANGED Viewed

@@ -1,9 +1,11 @@
-# FILE: smftools/hmm/call_hmm_peaks.py
+from __future__ import annotations
+# FILE: smftools/hmm/call_hmm_peaks.py
 from pathlib import Path
 from typing import Any, Dict, Optional, Sequence, Union
 from smftools.logging_utils import get_logger
+from smftools.optional_imports import require
 logger = get_logger(__name__)
@@ -35,12 +37,13 @@ def call_hmm_peaks(
       - adata.var["is_in_any_{layer}_peak_{ref}"]
       - adata.var["is_in_any_peak"] (global)
     """
-    import matplotlib.pyplot as plt
     import numpy as np
     import pandas as pd
     from scipy.signal import find_peaks
     from scipy.sparse import issparse
+    plt = require("matplotlib.pyplot", extra="plotting", purpose="HMM peak plots")
     if not inplace:
         adata = adata.copy()

smftools 0.2.5__py3-none-any.whl → 0.3.0__py3-none-any.whl

smftools 0.2.5py3-none-any.whl → 0.3.0py3-none-any.whl