PyPI - smftools - Versions diffs - 0.2.5__py3-none-any.whl → 0.3.1__py3-none-any.whl - Mend

smftools 0.2.5py3-none-any.whl → 0.3.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (164) hide show

smftools/__init__.py +39 -7
smftools/_settings.py +2 -0
smftools/_version.py +3 -1
smftools/cli/__init__.py +1 -0
smftools/cli/archived/cli_flows.py +2 -0
smftools/cli/helpers.py +34 -6
smftools/cli/hmm_adata.py +239 -33
smftools/cli/latent_adata.py +318 -0
smftools/cli/load_adata.py +167 -131
smftools/cli/preprocess_adata.py +180 -53
smftools/cli/spatial_adata.py +152 -100
smftools/cli_entry.py +38 -1
smftools/config/__init__.py +2 -0
smftools/config/conversion.yaml +11 -1
smftools/config/default.yaml +42 -2
smftools/config/experiment_config.py +59 -1
smftools/constants.py +65 -0
smftools/datasets/__init__.py +2 -0
smftools/hmm/HMM.py +97 -3
smftools/hmm/__init__.py +24 -13
smftools/hmm/archived/apply_hmm_batched.py +2 -0
smftools/hmm/archived/calculate_distances.py +2 -0
smftools/hmm/archived/call_hmm_peaks.py +2 -0
smftools/hmm/archived/train_hmm.py +2 -0
smftools/hmm/call_hmm_peaks.py +5 -2
smftools/hmm/display_hmm.py +4 -1
smftools/hmm/hmm_readwrite.py +7 -2
smftools/hmm/nucleosome_hmm_refinement.py +2 -0
smftools/informatics/__init__.py +59 -34
smftools/informatics/archived/bam_conversion.py +2 -0
smftools/informatics/archived/bam_direct.py +2 -0
smftools/informatics/archived/basecall_pod5s.py +2 -0
smftools/informatics/archived/basecalls_to_adata.py +2 -0
smftools/informatics/archived/conversion_smf.py +2 -0
smftools/informatics/archived/deaminase_smf.py +1 -0
smftools/informatics/archived/direct_smf.py +2 -0
smftools/informatics/archived/fast5_to_pod5.py +2 -0
smftools/informatics/archived/helpers/archived/__init__.py +2 -0
smftools/informatics/archived/helpers/archived/align_and_sort_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/aligned_BAM_to_bed.py +2 -0
smftools/informatics/archived/helpers/archived/bed_to_bigwig.py +2 -0
smftools/informatics/archived/helpers/archived/canoncall.py +2 -0
smftools/informatics/archived/helpers/archived/converted_BAM_to_adata.py +2 -0
smftools/informatics/archived/helpers/archived/count_aligned_reads.py +2 -0
smftools/informatics/archived/helpers/archived/demux_and_index_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/extract_base_identities.py +2 -0
smftools/informatics/archived/helpers/archived/extract_mods.py +2 -0
smftools/informatics/archived/helpers/archived/extract_read_features_from_bam.py +2 -0
smftools/informatics/archived/helpers/archived/extract_read_lengths_from_bed.py +2 -0
smftools/informatics/archived/helpers/archived/extract_readnames_from_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/find_conversion_sites.py +2 -0
smftools/informatics/archived/helpers/archived/generate_converted_FASTA.py +2 -0
smftools/informatics/archived/helpers/archived/get_chromosome_lengths.py +2 -0
smftools/informatics/archived/helpers/archived/get_native_references.py +2 -0
smftools/informatics/archived/helpers/archived/index_fasta.py +2 -0
smftools/informatics/archived/helpers/archived/informatics.py +2 -0
smftools/informatics/archived/helpers/archived/load_adata.py +2 -0
smftools/informatics/archived/helpers/archived/make_modbed.py +2 -0
smftools/informatics/archived/helpers/archived/modQC.py +2 -0
smftools/informatics/archived/helpers/archived/modcall.py +2 -0
smftools/informatics/archived/helpers/archived/ohe_batching.py +2 -0
smftools/informatics/archived/helpers/archived/ohe_layers_decode.py +2 -0
smftools/informatics/archived/helpers/archived/one_hot_decode.py +2 -0
smftools/informatics/archived/helpers/archived/one_hot_encode.py +2 -0
smftools/informatics/archived/helpers/archived/plot_bed_histograms.py +2 -0
smftools/informatics/archived/helpers/archived/separate_bam_by_bc.py +2 -0
smftools/informatics/archived/helpers/archived/split_and_index_BAM.py +2 -0
smftools/informatics/archived/print_bam_query_seq.py +2 -0
smftools/informatics/archived/subsample_fasta_from_bed.py +2 -0
smftools/informatics/archived/subsample_pod5.py +2 -0
smftools/informatics/bam_functions.py +1093 -176
smftools/informatics/basecalling.py +2 -0
smftools/informatics/bed_functions.py +271 -61
smftools/informatics/binarize_converted_base_identities.py +3 -0
smftools/informatics/complement_base_list.py +2 -0
smftools/informatics/converted_BAM_to_adata.py +641 -176
smftools/informatics/fasta_functions.py +94 -10
smftools/informatics/h5ad_functions.py +123 -4
smftools/informatics/modkit_extract_to_adata.py +1019 -431
smftools/informatics/modkit_functions.py +2 -0
smftools/informatics/ohe.py +2 -0
smftools/informatics/pod5_functions.py +3 -2
smftools/informatics/sequence_encoding.py +72 -0
smftools/logging_utils.py +21 -2
smftools/machine_learning/__init__.py +22 -6
smftools/machine_learning/data/__init__.py +2 -0
smftools/machine_learning/data/anndata_data_module.py +18 -4
smftools/machine_learning/data/preprocessing.py +2 -0
smftools/machine_learning/evaluation/__init__.py +2 -0
smftools/machine_learning/evaluation/eval_utils.py +2 -0
smftools/machine_learning/evaluation/evaluators.py +14 -9
smftools/machine_learning/inference/__init__.py +2 -0
smftools/machine_learning/inference/inference_utils.py +2 -0
smftools/machine_learning/inference/lightning_inference.py +6 -1
smftools/machine_learning/inference/sklearn_inference.py +2 -0
smftools/machine_learning/inference/sliding_window_inference.py +2 -0
smftools/machine_learning/models/__init__.py +2 -0
smftools/machine_learning/models/base.py +7 -2
smftools/machine_learning/models/cnn.py +7 -2
smftools/machine_learning/models/lightning_base.py +16 -11
smftools/machine_learning/models/mlp.py +5 -1
smftools/machine_learning/models/positional.py +7 -2
smftools/machine_learning/models/rnn.py +5 -1
smftools/machine_learning/models/sklearn_models.py +14 -9
smftools/machine_learning/models/transformer.py +7 -2
smftools/machine_learning/models/wrappers.py +6 -2
smftools/machine_learning/training/__init__.py +2 -0
smftools/machine_learning/training/train_lightning_model.py +13 -3
smftools/machine_learning/training/train_sklearn_model.py +2 -0
smftools/machine_learning/utils/__init__.py +2 -0
smftools/machine_learning/utils/device.py +5 -1
smftools/machine_learning/utils/grl.py +5 -1
smftools/metadata.py +1 -1
smftools/optional_imports.py +31 -0
smftools/plotting/__init__.py +41 -31
smftools/plotting/autocorrelation_plotting.py +9 -5
smftools/plotting/classifiers.py +16 -4
smftools/plotting/general_plotting.py +2415 -629
smftools/plotting/hmm_plotting.py +97 -9
smftools/plotting/position_stats.py +15 -7
smftools/plotting/qc_plotting.py +6 -1
smftools/preprocessing/__init__.py +36 -37
smftools/preprocessing/append_base_context.py +17 -17
smftools/preprocessing/append_mismatch_frequency_sites.py +158 -0
smftools/preprocessing/archived/add_read_length_and_mapping_qc.py +2 -0
smftools/preprocessing/archived/calculate_complexity.py +2 -0
smftools/preprocessing/archived/mark_duplicates.py +2 -0
smftools/preprocessing/archived/preprocessing.py +2 -0
smftools/preprocessing/archived/remove_duplicates.py +2 -0
smftools/preprocessing/binary_layers_to_ohe.py +2 -1
smftools/preprocessing/calculate_complexity_II.py +4 -1
smftools/preprocessing/calculate_consensus.py +1 -1
smftools/preprocessing/calculate_pairwise_differences.py +2 -0
smftools/preprocessing/calculate_pairwise_hamming_distances.py +3 -0
smftools/preprocessing/calculate_position_Youden.py +9 -2
smftools/preprocessing/calculate_read_modification_stats.py +6 -1
smftools/preprocessing/filter_reads_on_length_quality_mapping.py +2 -0
smftools/preprocessing/filter_reads_on_modification_thresholds.py +2 -0
smftools/preprocessing/flag_duplicate_reads.py +42 -54
smftools/preprocessing/make_dirs.py +2 -1
smftools/preprocessing/min_non_diagonal.py +2 -0
smftools/preprocessing/recipes.py +2 -0
smftools/readwrite.py +53 -17
smftools/schema/anndata_schema_v1.yaml +15 -1
smftools/tools/__init__.py +30 -18
smftools/tools/archived/apply_hmm.py +2 -0
smftools/tools/archived/classifiers.py +2 -0
smftools/tools/archived/classify_methylated_features.py +2 -0
smftools/tools/archived/classify_non_methylated_features.py +2 -0
smftools/tools/archived/subset_adata_v1.py +2 -0
smftools/tools/archived/subset_adata_v2.py +2 -0
smftools/tools/calculate_leiden.py +57 -0
smftools/tools/calculate_nmf.py +119 -0
smftools/tools/calculate_umap.py +93 -8
smftools/tools/cluster_adata_on_methylation.py +7 -1
smftools/tools/position_stats.py +17 -27
smftools/tools/rolling_nn_distance.py +235 -0
smftools/tools/tensor_factorization.py +169 -0
{smftools-0.2.5.dist-info → smftools-0.3.1.dist-info}/METADATA +69 -33
smftools-0.3.1.dist-info/RECORD +189 -0
smftools-0.2.5.dist-info/RECORD +0 -181
{smftools-0.2.5.dist-info → smftools-0.3.1.dist-info}/WHEEL +0 -0
{smftools-0.2.5.dist-info → smftools-0.3.1.dist-info}/entry_points.txt +0 -0
{smftools-0.2.5.dist-info → smftools-0.3.1.dist-info}/licenses/LICENSE +0 -0

smftools/cli/load_adata.py CHANGED Viewed

@@ -1,8 +1,14 @@
+from __future__ import annotations
+import logging
 import shutil
 from pathlib import Path
 from typing import Iterable, Union
-from smftools.logging_utils import get_logger
+import numpy as np
+from smftools.constants import HMM_DIR, LOAD_DIR, LOGGING_DIR, PREPROCESS_DIR, SPATIAL_DIR
+from smftools.logging_utils import get_logger, setup_logging
 from .helpers import AdataPaths
@@ -76,6 +82,62 @@ def delete_tsvs(
                         logger.warning(f"[error] failed to remove tmp dir {td}: {e}")
+def load_adata(config_path: str):
+    """
+    CLI-facing wrapper for the load pipeline.
+    - Reads config CSV into ExperimentConfig
+    - Computes canonical paths for all downstream AnnData stages
+    - Registers those in the summary CSV
+    - Applies stage-skipping logic (hmm > spatial > pp_dedup > pp > raw)
+    - If needed, calls the core pipeline to actually build the raw AnnData
+    Returns
+    -------
+    adata : anndata.AnnData | None
+        Newly created AnnData object, or None if we skipped because a later-stage
+        AnnData already exists.
+    adata_path : pathlib.Path
+        Path to the "current" AnnData that should be used downstream.
+    cfg : ExperimentConfig
+        Config object for downstream steps.
+    """
+    from datetime import datetime
+    from importlib import resources
+    from ..readwrite import add_or_update_column_in_csv, make_dirs
+    from .helpers import get_adata_paths, load_experiment_config
+    # -----------------------------
+    # 1) Load config into cfg
+    # -----------------------------
+    cfg = load_experiment_config(config_path)
+    # Ensure base output dir
+    output_directory = Path(cfg.output_directory)
+    make_dirs([output_directory])
+    # -----------------------------
+    # 2) Compute and register paths
+    # -----------------------------
+    paths = get_adata_paths(cfg)
+    # -----------------------------
+    # 3) Stage skipping logic
+    # -----------------------------
+    if not getattr(cfg, "force_redo_load_adata", False):
+        if paths.raw.exists():
+            logger.info(
+                f"Raw AnnData from smftools load already exists: {paths.raw}\nSkipping smftools load"
+            )
+            return None, paths.raw, cfg
+    # If we get here, we actually want to run the full load pipeline
+    adata, adata_path, cfg = load_adata_core(cfg, paths, config_path=config_path)
+    return adata, adata_path, cfg
 def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     """
     Core load pipeline.
@@ -105,9 +167,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     cfg : ExperimentConfig
         (Same object, possibly with some fields updated, e.g. fasta path.)
     """
-    from pathlib import Path
-    import numpy as np
+    from datetime import datetime
     from ..informatics.bam_functions import (
         align_and_sort_BAM,
@@ -115,6 +175,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         concatenate_fastqs_to_bam,
         demux_and_index_BAM,
         extract_read_features_from_bam,
+        extract_read_tags_from_bam,
         split_and_index_BAM,
     )
     from ..informatics.basecalling import canoncall, modcall
@@ -125,7 +186,11 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         get_chromosome_lengths,
         subsample_fasta_from_bed,
     )
-    from ..informatics.h5ad_functions import add_read_length_and_mapping_qc
+    from ..informatics.h5ad_functions import (
+        add_read_length_and_mapping_qc,
+        add_read_tag_annotations,
+        add_secondary_supplementary_alignment_flags,
+    )
     from ..informatics.modkit_extract_to_adata import modkit_extract_to_adata
     from ..informatics.modkit_functions import extract_mods, make_modbed, modQC
     from ..informatics.pod5_functions import fast5_to_pod5
@@ -135,8 +200,25 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     from .helpers import write_gz_h5ad
     ################################### 1) General params and input organization ###################################
+    date_str = datetime.today().strftime("%y%m%d")
+    now = datetime.now()
+    time_str = now.strftime("%H%M%S")
+    log_level = getattr(logging, cfg.log_level.upper(), logging.INFO)
     output_directory = Path(cfg.output_directory)
-    make_dirs([output_directory])
+    load_directory = output_directory / LOAD_DIR
+    logging_directory = load_directory / LOGGING_DIR
+    make_dirs([output_directory, load_directory])
+    if cfg.emit_log_file:
+        log_file = logging_directory / f"{date_str}_{time_str}_log.log"
+        make_dirs([logging_directory])
+    else:
+        log_file = None
+    setup_logging(level=log_level, log_file=log_file, reconfigure=log_file is not None)
     raw_adata_path = paths.raw
     pp_adata_path = paths.pp
@@ -150,11 +232,9 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     # Direct methylation detection SMF specific parameters
     if cfg.smf_modality == "direct":
-        mod_bed_dir = cfg.output_directory / "mod_beds"
-        add_or_update_column_in_csv(cfg.summary_file, "mod_bed_dir", mod_bed_dir)
-        mod_tsv_dir = cfg.output_directory / "mod_tsvs"
-        add_or_update_column_in_csv(cfg.summary_file, "mod_tsv_dir", mod_tsv_dir)
-        bam_qc_dir = cfg.output_directory / "bam_qc"
+        mod_bed_dir = load_directory / "mod_beds"
+        mod_tsv_dir = load_directory / "mod_tsvs"
+        bam_qc_dir = load_directory / "bam_qc"
         mods = [cfg.mod_map[mod] for mod in cfg.mod_list]
         if not check_executable_exists("dorado"):
@@ -190,7 +270,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     # If the input files are fast5 files, convert the files to a pod5 file before proceeding.
     if cfg.input_type == "fast5":
         # take the input directory of fast5 files and write out a single pod5 file into the output directory.
-        output_pod5 = cfg.output_directory / "FAST5s_to_POD5.pod5"
+        output_pod5 = load_directory / "FAST5s_to_POD5.pod5"
         if output_pod5.exists():
             pass
         else:
@@ -204,7 +284,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     # If the input is a fastq or a directory of fastqs, concatenate them into an unaligned BAM and save the barcode
     elif cfg.input_type == "fastq":
         # Output file for FASTQ concatenation.
-        output_bam = cfg.output_directory / "canonical_basecalls.bam"
+        output_bam = load_directory / "canonical_basecalls.bam"
         if output_bam.exists():
             logger.debug("Output BAM already exists")
         else:
@@ -219,6 +299,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
                 rg_sample_field=None,
                 progress=False,
                 auto_pair=cfg.fastq_auto_pairing,
+                samtools_backend=cfg.samtools_backend,
             )
             logger.info(f"Found the following barcodes in FASTQ inputs: {summary['barcodes']}")
@@ -231,8 +312,6 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     else:
         pass
-    add_or_update_column_in_csv(cfg.summary_file, "input_data_path", cfg.input_data_path)
     # Determine if the input data needs to be basecalled
     if cfg.input_type == "pod5":
         logger.info(f"Detected pod5 inputs: {cfg.input_files}")
@@ -249,25 +328,24 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         model_basename = str(model_basename).replace(".", "_")
         if cfg.smf_modality == "direct":
             mod_string = "_".join(cfg.mod_list)
-            bam = cfg.output_directory / f"{model_basename}_{mod_string}_calls"
+            bam = load_directory / f"{model_basename}_{mod_string}_calls"
         else:
-            bam = cfg.output_directory / f"{model_basename}_canonical_basecalls"
+            bam = load_directory / f"{model_basename}_canonical_basecalls"
     else:
-        bam_base = cfg.input_data_path.name
-        bam = cfg.output_directory / bam_base
+        bam_base = cfg.input_data_path.stem
+        bam = cfg.input_data_path.parent / bam_base
     # Generate path names for the unaligned, aligned, as well as the aligned/sorted bam.
     unaligned_output = bam.with_suffix(cfg.bam_suffix)
     aligned_BAM = (
-        cfg.output_directory / (bam.stem + "_aligned")
+        load_directory / (bam.stem + "_aligned")
     )  # doing this allows specifying an input bam in a seperate directory as the aligned output bams
     aligned_output = aligned_BAM.with_suffix(cfg.bam_suffix)
     aligned_sorted_BAM = aligned_BAM.with_name(aligned_BAM.stem + "_sorted")
     aligned_sorted_output = aligned_sorted_BAM.with_suffix(cfg.bam_suffix)
-    add_or_update_column_in_csv(cfg.summary_file, "basecalled_bam", unaligned_output)
-    add_or_update_column_in_csv(cfg.summary_file, "aligned_bam", aligned_output)
-    add_or_update_column_in_csv(cfg.summary_file, "sorted_bam", aligned_sorted_output)
     ########################################################################################################################
     ################################### 2) FASTA Handling ###################################
@@ -281,11 +359,11 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     if cfg.fasta_regions_of_interest and ".bed" in cfg.fasta_regions_of_interest:
         fasta_stem = cfg.fasta.stem
         bed_stem = Path(cfg.fasta_regions_of_interest).stem
-        output_FASTA = cfg.output_directory / f"{fasta_stem}_subsampled_by_{bed_stem}.fasta"
+        output_FASTA = load_directory / f"{fasta_stem}_subsampled_by_{bed_stem}.fasta"
         logger.info("Subsampling FASTA records using the provided BED file")
         subsample_fasta_from_bed(
-            cfg.fasta, cfg.fasta_regions_of_interest, cfg.output_directory, output_FASTA
+            cfg.fasta, cfg.fasta_regions_of_interest, load_directory, output_FASTA
         )
         fasta = output_FASTA
     else:
@@ -296,7 +374,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     if cfg.smf_modality == "conversion":
         fasta_stem = fasta.stem
         converted_FASTA_basename = f"{fasta_stem}_converted.fasta"
-        converted_FASTA = cfg.output_directory / converted_FASTA_basename
+        converted_FASTA = load_directory / converted_FASTA_basename
         if "converted.fa" in fasta.name:
             logger.info(f"{fasta} is already converted. Using existing converted FASTA.")
@@ -308,8 +386,6 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
             generate_converted_FASTA(fasta, cfg.conversion_types, cfg.strands, converted_FASTA)
         fasta = converted_FASTA
-    add_or_update_column_in_csv(cfg.summary_file, "fasta", fasta)
     # Make a FAI and .chrom.names file for the fasta
     get_chromosome_lengths(fasta)
     ########################################################################################################################
@@ -370,13 +446,13 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         logger.debug(f"{aligned_sorted_output} already exists. Using existing aligned/sorted BAM.")
     else:
         logger.info(f"Aligning and sorting reads")
-        align_and_sort_BAM(fasta, unaligned_output, cfg)
+        align_and_sort_BAM(fasta, unaligned_output, aligned_output, cfg)
         # Deleted the unsorted aligned output
         aligned_output.unlink()
     if cfg.make_beds:
         # Make beds and provide basic histograms
-        bed_dir = cfg.output_directory / "beds"
+        bed_dir = load_directory / "beds"
         if bed_dir.is_dir():
             logger.debug(
                 f"{bed_dir} already exists. Skipping BAM -> BED conversion for {aligned_sorted_output}"
@@ -384,7 +460,14 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         else:
             logger.info("Making bed files from the aligned and sorted BAM file")
             aligned_BAM_to_bed(
-                aligned_sorted_output, cfg.output_directory, fasta, cfg.make_bigwigs, cfg.threads
+                aligned_sorted_output,
+                load_directory,
+                fasta,
+                cfg.make_bigwigs,
+                cfg.threads,
+                samtools_backend=cfg.samtools_backend,
+                bedtools_backend=cfg.bedtools_backend,
+                bigwig_backend=cfg.bigwig_backend,
             )
     ########################################################################################################################
@@ -404,13 +487,19 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         else:
             make_dirs([cfg.split_path])
             logger.info("Demultiplexing samples into individual aligned/sorted BAM files")
-            all_bam_files = split_and_index_BAM(aligned_sorted_BAM, cfg.split_path, cfg.bam_suffix)
+            all_bam_files = split_and_index_BAM(
+                aligned_sorted_BAM,
+                cfg.split_path,
+                cfg.bam_suffix,
+                samtools_backend=cfg.samtools_backend,
+            )
             unclassified_bams = [p for p in all_bam_files if "unclassified" in p.name]
             bam_files = sorted(p for p in all_bam_files if "unclassified" not in p.name)
         se_bam_files = bam_files
         bam_dir = cfg.split_path
+        double_barcoded_path = None
     else:
         if single_barcoded_path.is_dir():
@@ -489,19 +578,34 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         else:
             logger.info("Making BED files from BAM files for each sample")
             for bam in bam_files:
-                aligned_BAM_to_bed(bam, cfg.split_path, fasta, cfg.make_bigwigs, cfg.threads)
+                aligned_BAM_to_bed(
+                    bam,
+                    cfg.split_path,
+                    fasta,
+                    cfg.make_bigwigs,
+                    cfg.threads,
+                    samtools_backend=cfg.samtools_backend,
+                    bedtools_backend=cfg.bedtools_backend,
+                    bigwig_backend=cfg.bigwig_backend,
+                )
     ########################################################################################################################
     ################################### 6) SAMTools based BAM QC ######################################################################
     # 5) Samtools QC metrics on split BAM files
-    bam_qc_dir = cfg.split_path / "bam_qc"
+    bam_qc_dir = load_directory / "bam_qc"
     if bam_qc_dir.is_dir():
         logger.debug(f"{bam_qc_dir} already exists. Using existing BAM QC calculations.")
     else:
         make_dirs([bam_qc_dir])
         logger.info("Performing BAM QC")
-        bam_qc(bam_files, bam_qc_dir, cfg.threads, modality=cfg.smf_modality)
+        bam_qc(
+            bam_files,
+            bam_qc_dir,
+            cfg.threads,
+            modality=cfg.smf_modality,
+            samtools_backend=cfg.samtools_backend,
+        )
     ########################################################################################################################
     ################################### 7) AnnData loading ######################################################################
@@ -518,7 +622,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         raw_adata, raw_adata_path = converted_BAM_to_adata(
             fasta,
             bam_dir,
-            cfg.output_directory,
+            load_directory,
             cfg.input_already_demuxed,
             cfg.mapping_threshold,
             cfg.experiment_name,
@@ -529,6 +633,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
             deaminase_footprinting,
             delete_intermediates=cfg.delete_intermediate_hdfs,
             double_barcoded_path=double_barcoded_path,
+            samtools_backend=cfg.samtools_backend,
         )
     else:
         if mod_bed_dir.is_dir():
@@ -574,7 +679,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         raw_adata, raw_adata_path = modkit_extract_to_adata(
             fasta,
             bam_dir,
-            cfg.output_directory,
+            load_directory,
             cfg.input_already_demuxed,
             cfg.mapping_threshold,
             cfg.experiment_name,
@@ -584,6 +689,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
             cfg.delete_batch_hdfs,
             cfg.threads,
             double_barcoded_path,
+            cfg.samtools_backend,
         )
         if cfg.delete_intermediate_tsvs:
             delete_tsvs(mod_tsv_dir)
@@ -604,8 +710,28 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
         extract_read_features_from_bam_callable=extract_read_features_from_bam,
         bypass=cfg.bypass_add_read_length_and_mapping_qc,
         force_redo=cfg.force_redo_add_read_length_and_mapping_qc,
+        samtools_backend=cfg.samtools_backend,
+    )
+    logger.info("Adding BAM tags and BAM flags to adata.obs")
+    add_read_tag_annotations(
+        raw_adata,
+        se_bam_files,
+        tag_names=getattr(cfg, "bam_tag_names", ["NM", "MD", "MM", "ML"]),
+        include_flags=True,
+        include_cigar=True,
+        extract_read_tags_from_bam_callable=extract_read_tags_from_bam,
+        samtools_backend=cfg.samtools_backend,
     )
+    if getattr(cfg, "annotate_secondary_supplementary", False):
+        logger.info("Annotating secondary/supplementary alignments from aligned BAM")
+        add_secondary_supplementary_alignment_flags(
+            raw_adata,
+            aligned_sorted_output,
+            samtools_backend=cfg.samtools_backend,
+        )
     raw_adata.obs["Raw_modification_signal"] = np.nansum(raw_adata.X, axis=1)
     ########################################################################################################################
@@ -618,7 +744,7 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
             raw_adata,
             cfg.input_data_path,
             n_jobs=cfg.threads,
-            csv_path=output_directory / "read_to_pod5_origin_mapping.csv",
+            csv_path=load_directory / "read_to_pod5_origin_mapping.csv",
         )
     ########################################################################################################################
@@ -637,12 +763,12 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     ############################################### MultiQC HTML Report ###############################################
     # multiqc ###
-    mqc_dir = cfg.split_path / "multiqc"
+    mqc_dir = load_directory / "multiqc"
     if mqc_dir.is_dir():
-        logger.debug(f"{mqc_dir} already exists, skipping multiqc")
+        logger.info(f"{mqc_dir} already exists, skipping multiqc")
     else:
         logger.info("Running multiqc")
-        run_multiqc(cfg.split_path, mqc_dir)
+        run_multiqc(bam_qc_dir, mqc_dir)
     ########################################################################################################################
     ############################################### delete intermediate BAM files ###############################################
@@ -665,93 +791,3 @@ def load_adata_core(cfg, paths: AdataPaths, config_path: str | None = None):
     ########################################################################################################################
     return raw_adata, raw_adata_path, cfg
-def load_adata(config_path: str):
-    """
-    CLI-facing wrapper for the load pipeline.
-    - Reads config CSV into ExperimentConfig
-    - Computes canonical paths for all downstream AnnData stages
-    - Registers those in the summary CSV
-    - Applies stage-skipping logic (hmm > spatial > pp_dedup > pp > raw)
-    - If needed, calls the core pipeline to actually build the raw AnnData
-    Returns
-    -------
-    adata : anndata.AnnData | None
-        Newly created AnnData object, or None if we skipped because a later-stage
-        AnnData already exists.
-    adata_path : pathlib.Path
-        Path to the "current" AnnData that should be used downstream.
-    cfg : ExperimentConfig
-        Config object for downstream steps.
-    """
-    from datetime import datetime
-    from importlib import resources
-    from ..config import ExperimentConfig, LoadExperimentConfig
-    from ..readwrite import add_or_update_column_in_csv, make_dirs
-    from .helpers import get_adata_paths
-    date_str = datetime.today().strftime("%y%m%d")
-    # -----------------------------
-    # 1) Load config into cfg
-    # -----------------------------
-    loader = LoadExperimentConfig(config_path)
-    defaults_dir = resources.files("smftools").joinpath("config")
-    cfg, report = ExperimentConfig.from_var_dict(
-        loader.var_dict, date_str=date_str, defaults_dir=defaults_dir
-    )
-    # Ensure base output dir
-    make_dirs([cfg.output_directory])
-    # -----------------------------
-    # 2) Compute and register paths
-    # -----------------------------
-    paths = get_adata_paths(cfg)
-    # experiment-level metadata in summary CSV
-    add_or_update_column_in_csv(cfg.summary_file, "experiment_name", cfg.experiment_name)
-    add_or_update_column_in_csv(cfg.summary_file, "config_path", config_path)
-    add_or_update_column_in_csv(cfg.summary_file, "input_data_path", cfg.input_data_path)
-    add_or_update_column_in_csv(cfg.summary_file, "input_files", [cfg.input_files])
-    # AnnData stage paths
-    add_or_update_column_in_csv(cfg.summary_file, "load_adata", paths.raw)
-    add_or_update_column_in_csv(cfg.summary_file, "pp_adata", paths.pp)
-    add_or_update_column_in_csv(cfg.summary_file, "pp_dedup_adata", paths.pp_dedup)
-    add_or_update_column_in_csv(cfg.summary_file, "spatial_adata", paths.spatial)
-    add_or_update_column_in_csv(cfg.summary_file, "hmm_adata", paths.hmm)
-    # -----------------------------
-    # 3) Stage skipping logic
-    # -----------------------------
-    if not getattr(cfg, "force_redo_load_adata", False):
-        if paths.hmm.exists():
-            logger.debug(f"HMM AnnData already exists: {paths.hmm}\nSkipping smftools load")
-            return None, paths.hmm, cfg
-        if paths.spatial.exists():
-            logger.debug(f"Spatial AnnData already exists: {paths.spatial}\nSkipping smftools load")
-            return None, paths.spatial, cfg
-        if paths.pp_dedup.exists():
-            logger.debug(
-                f"Preprocessed deduplicated AnnData already exists: {paths.pp_dedup}\n"
-                f"Skipping smftools load"
-            )
-            return None, paths.pp_dedup, cfg
-        if paths.pp.exists():
-            logger.debug(f"Preprocessed AnnData already exists: {paths.pp}\nSkipping smftools load")
-            return None, paths.pp, cfg
-        if paths.raw.exists():
-            logger.debug(
-                f"Raw AnnData from smftools load already exists: {paths.raw}\nSkipping smftools load"
-            )
-            return None, paths.raw, cfg
-    # If we get here, we actually want to run the full load pipeline
-    adata, adata_path, cfg = load_adata_core(cfg, paths, config_path=config_path)
-    return adata, adata_path, cfg

smftools 0.2.5__py3-none-any.whl → 0.3.1__py3-none-any.whl

smftools 0.2.5py3-none-any.whl → 0.3.1py3-none-any.whl