PyPI - smftools - Versions diffs - 0.3.1__py3-none-any.whl → 0.3.2__py3-none-any.whl - Mend

smftools 0.3.1py3-none-any.whl → 0.3.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (56) hide show

smftools/_version.py +1 -1
smftools/cli/chimeric_adata.py +1563 -0
smftools/cli/helpers.py +18 -2
smftools/cli/hmm_adata.py +18 -1
smftools/cli/latent_adata.py +522 -67
smftools/cli/load_adata.py +2 -2
smftools/cli/preprocess_adata.py +32 -93
smftools/cli/recipes.py +26 -0
smftools/cli/spatial_adata.py +23 -109
smftools/cli/variant_adata.py +423 -0
smftools/cli_entry.py +41 -5
smftools/config/conversion.yaml +0 -10
smftools/config/deaminase.yaml +3 -0
smftools/config/default.yaml +49 -13
smftools/config/experiment_config.py +96 -3
smftools/constants.py +4 -0
smftools/hmm/call_hmm_peaks.py +1 -1
smftools/informatics/binarize_converted_base_identities.py +2 -89
smftools/informatics/converted_BAM_to_adata.py +53 -13
smftools/informatics/h5ad_functions.py +83 -0
smftools/informatics/modkit_extract_to_adata.py +4 -0
smftools/plotting/__init__.py +26 -12
smftools/plotting/autocorrelation_plotting.py +22 -4
smftools/plotting/chimeric_plotting.py +1893 -0
smftools/plotting/classifiers.py +28 -14
smftools/plotting/general_plotting.py +58 -3362
smftools/plotting/hmm_plotting.py +1586 -2
smftools/plotting/latent_plotting.py +804 -0
smftools/plotting/plotting_utils.py +243 -0
smftools/plotting/position_stats.py +16 -8
smftools/plotting/preprocess_plotting.py +281 -0
smftools/plotting/qc_plotting.py +8 -3
smftools/plotting/spatial_plotting.py +1134 -0
smftools/plotting/variant_plotting.py +1231 -0
smftools/preprocessing/__init__.py +3 -0
smftools/preprocessing/append_base_context.py +1 -1
smftools/preprocessing/append_mismatch_frequency_sites.py +35 -6
smftools/preprocessing/append_sequence_mismatch_annotations.py +171 -0
smftools/preprocessing/append_variant_call_layer.py +480 -0
smftools/preprocessing/flag_duplicate_reads.py +4 -4
smftools/preprocessing/invert_adata.py +1 -0
smftools/readwrite.py +109 -85
smftools/tools/__init__.py +6 -0
smftools/tools/calculate_knn.py +121 -0
smftools/tools/calculate_nmf.py +18 -7
smftools/tools/calculate_pca.py +180 -0
smftools/tools/calculate_umap.py +70 -154
smftools/tools/position_stats.py +4 -4
smftools/tools/rolling_nn_distance.py +640 -3
smftools/tools/sequence_alignment.py +140 -0
smftools/tools/tensor_factorization.py +52 -4
{smftools-0.3.1.dist-info → smftools-0.3.2.dist-info}/METADATA +3 -1
{smftools-0.3.1.dist-info → smftools-0.3.2.dist-info}/RECORD +56 -42
{smftools-0.3.1.dist-info → smftools-0.3.2.dist-info}/WHEEL +0 -0
{smftools-0.3.1.dist-info → smftools-0.3.2.dist-info}/entry_points.txt +0 -0
{smftools-0.3.1.dist-info → smftools-0.3.2.dist-info}/licenses/LICENSE +0 -0

smftools/cli/variant_adata.py ADDED Viewed

@@ -0,0 +1,423 @@
+from __future__ import annotations
+import logging
+from pathlib import Path
+from typing import Optional, Tuple
+import anndata as ad
+from smftools.constants import LOGGING_DIR, VARIANT_DIR
+from smftools.logging_utils import get_logger, setup_logging
+logger = get_logger(__name__)
+def variant_adata(
+    config_path: str,
+) -> Tuple[Optional[ad.AnnData], Optional[Path]]:
+    """
+    CLI-facing wrapper for variant analyses.
+    Called by: `smftools variant <config_path>`
+    Responsibilities:
+    - Ensure a usable AnnData exists.
+    - Determine which AnnData stages exist.
+    - Decide whether to skip (return existing) or run the core.
+    - Call `variant_adata_core(...)` when actual work is needed.
+    """
+    from ..readwrite import safe_read_h5ad
+    from .helpers import get_adata_paths, load_experiment_config
+    # 1) Ensure config + basic paths via load_adata
+    cfg = load_experiment_config(config_path)
+    paths = get_adata_paths(cfg)
+    pp_path = paths.pp
+    pp_dedup_path = paths.pp_dedup
+    spatial_path = paths.spatial
+    chimeric_path = paths.chimeric
+    variant_path = paths.variant
+    hmm_path = paths.hmm
+    latent_path = paths.latent
+    # Stage-skipping logic
+    if not getattr(cfg, "force_redo_variant_analyses", False):
+        if variant_path.exists():
+            logger.info(f"Variant AnnData found: {variant_path}\nSkipping smftools variant")
+            return None, spatial_path
+    # Helper to load from disk, reusing loaded_adata if it matches
+    def _load(path: Path):
+        adata, _ = safe_read_h5ad(path)
+        return adata
+    # 3) Decide which AnnData to use as the *starting point* for  analyses
+    if hmm_path.exists():
+        start_adata = _load(hmm_path)
+        source_path = hmm_path
+    elif latent_path.exists():
+        start_adata = _load(latent_path)
+        source_path = latent_path
+    elif spatial_path.exists():
+        start_adata = _load(spatial_path)
+        source_path = spatial_path
+    elif chimeric_path.exists():
+        start_adata = _load(chimeric_path)
+        source_path = chimeric_path
+    elif variant_path.exists():
+        start_adata = _load(variant_path)
+        source_path = variant_path
+    elif pp_dedup_path.exists():
+        start_adata = _load(pp_dedup_path)
+        source_path = pp_dedup_path
+    elif pp_path.exists():
+        start_adata = _load(pp_path)
+        source_path = pp_path
+    else:
+        logger.warning(
+            "No suitable AnnData found for variant analyses (need at least preprocessed)."
+        )
+        return None, None
+    # 4) Run the core
+    adata_variant, variant_path = variant_adata_core(
+        adata=start_adata,
+        cfg=cfg,
+        paths=paths,
+        source_adata_path=source_path,
+        config_path=config_path,
+    )
+    return adata_variant, variant_path
+def variant_adata_core(
+    adata: ad.AnnData,
+    cfg,
+    paths: AdataPaths,
+    source_adata_path: Optional[Path] = None,
+    config_path: Optional[str] = None,
+) -> Tuple[ad.AnnData, Path]:
+    """
+    Core variant analysis pipeline.
+    Assumes:
+    - `cfg` is the ExperimentConfig.
+    Does:
+    -
+    - Save AnnData
+    """
+    import os
+    import warnings
+    from datetime import datetime
+    from pathlib import Path
+    import numpy as np
+    import pandas as pd
+    from ..metadata import record_smftools_metadata
+    from ..plotting import (
+        plot_mismatch_base_frequency_by_position,
+        plot_sequence_integer_encoding_clustermaps,
+        plot_variant_segment_clustermaps,
+    )
+    from ..preprocessing import (
+        append_mismatch_frequency_sites,
+        append_sequence_mismatch_annotations,
+        append_variant_call_layer,
+        append_variant_segment_layer,
+        load_sample_sheet,
+    )
+    from ..readwrite import make_dirs
+    from .helpers import write_gz_h5ad
+    # -----------------------------
+    # General setup
+    # -----------------------------
+    date_str = datetime.today().strftime("%y%m%d")
+    now = datetime.now()
+    time_str = now.strftime("%H%M%S")
+    log_level = getattr(logging, cfg.log_level.upper(), logging.INFO)
+    output_directory = Path(cfg.output_directory)
+    variant_directory = output_directory / VARIANT_DIR
+    logging_directory = variant_directory / LOGGING_DIR
+    make_dirs([output_directory, variant_directory])
+    if cfg.emit_log_file:
+        log_file = logging_directory / f"{date_str}_{time_str}_log.log"
+        make_dirs([logging_directory])
+    else:
+        log_file = None
+    setup_logging(level=log_level, log_file=log_file, reconfigure=log_file is not None)
+    smf_modality = cfg.smf_modality
+    if smf_modality == "conversion":
+        deaminase = False
+    else:
+        deaminase = True
+    # -----------------------------
+    # Optional sample sheet metadata
+    # -----------------------------
+    if getattr(cfg, "sample_sheet_path", None):
+        load_sample_sheet(
+            adata,
+            cfg.sample_sheet_path,
+            mapping_key_column=cfg.sample_sheet_mapping_column,
+            as_category=True,
+            force_reload=cfg.force_reload_sample_sheet,
+        )
+    # ============================================================
+    # 1) Reference variant position annotation
+    # ============================================================
+    seq1_col, seq2_col = getattr(cfg, "references_to_align_for_variant_annotation", [None, None])
+    if seq1_col and seq2_col:
+        append_sequence_mismatch_annotations(adata, seq1_col, seq2_col)
+    ############################################### Append mismatch frequency per position ###############################################
+    append_mismatch_frequency_sites(
+        adata,
+        ref_column=cfg.reference_column,
+        mismatch_layer=cfg.mismatch_frequency_layer,
+        read_span_layer=cfg.mismatch_frequency_read_span_layer,
+        mismatch_frequency_range=cfg.mismatch_frequency_range,
+        bypass=cfg.bypass_append_mismatch_frequency_sites,
+        force_redo=cfg.force_redo_append_mismatch_frequency_sites,
+    )
+    # ============================================================
+    # 2) Per-read variant call layer at reference mismatch sites
+    # ============================================================
+    if seq1_col and seq2_col:
+        # For conversion SMF, derive converted column names so variant calling
+        # compares read bases against the converted reference (which reads are mapped to).
+        # Unconverted: "{chrom}_{strand}_strand_FASTA_base"
+        # Converted:   "{chrom}_{conversion}_{strand}_{strand}_strand_FASTA_base"
+        # e.g. "6B6_top_strand_FASTA_base" -> "6B6_5mC_top_top_strand_FASTA_base"
+        def _find_converted_column(unconverted_col: str, var_columns) -> str | None:
+            """Find the converted FASTA column corresponding to an unconverted one.
+            Unconverted columns follow the pattern ``{chromosome}_{strand}_strand_FASTA_base``.
+            Converted columns follow ``{chromosome}_{conversion}_{strand}_{strand}_strand_FASTA_base``
+            (e.g. ``6B6_5mC_top_top_strand_FASTA_base`` for unconverted ``6B6_top_strand_FASTA_base``).
+            """
+            suffix = "_strand_FASTA_base"
+            if not unconverted_col.endswith(suffix):
+                return None
+            stem = unconverted_col[: -len(suffix)]  # e.g. "6B6_top"
+            # Parse strand from end of stem: "6B6_top" -> strand="top", chrom="6B6"
+            for strand in ("top", "bottom"):
+                if stem.endswith(f"_{strand}"):
+                    chrom = stem[: -len(f"_{strand}")]
+                    # Converted column: {chrom}_{conversion}_{strand}_{strand}_strand_FASTA_base
+                    # The strand appears twice: once in the record name, once in the suffix.
+                    prefix = f"{chrom}_"
+                    end = f"_{strand}_{strand}{suffix}"
+                    candidates = [
+                        c
+                        for c in var_columns
+                        if c.startswith(prefix) and c.endswith(end) and c != unconverted_col
+                    ]
+                    if len(candidates) == 1:
+                        return candidates[0]
+                    if len(candidates) > 1:
+                        logger.info(
+                            "Multiple converted column candidates for '%s': %s",
+                            unconverted_col,
+                            candidates,
+                        )
+                        return candidates[0]
+                    break
+            return None
+        seq1_conv = _find_converted_column(seq1_col, adata.var.columns)
+        seq2_conv = _find_converted_column(seq2_col, adata.var.columns)
+        if seq1_conv and seq2_conv:
+            logger.info("Using converted columns: '%s', '%s'", seq1_conv, seq2_conv)
+        append_variant_call_layer(
+            adata,
+            seq1_column=seq1_col,
+            seq2_column=seq2_col,
+            seq1_converted_column=seq1_conv,
+            seq2_converted_column=seq2_conv,
+            read_span_layer=cfg.mismatch_frequency_read_span_layer,
+            reference_col=cfg.reference_column,
+        )
+        append_variant_segment_layer(
+            adata,
+            seq1_column=seq1_col,
+            seq2_column=seq2_col,
+            read_span_layer=cfg.mismatch_frequency_read_span_layer,
+            reference_col=cfg.reference_column,
+        )
+    ############################################### Plot mismatch base frequencies ###############################################
+    if cfg.mismatch_frequency_layer not in adata.layers:
+        logger.debug(
+            "Mismatch layer '%s' not found; skipping mismatch base frequency plots.",
+            cfg.mismatch_frequency_layer,
+        )
+    elif not adata.uns.get("mismatch_integer_encoding_map"):
+        logger.debug("Mismatch encoding map not found; skipping mismatch base frequency plots.")
+    else:
+        mismatch_base_freq_dir = (
+            variant_directory / "deduplicated" / "01_mismatch_base_frequency_plots"
+        )
+        if mismatch_base_freq_dir.is_dir() and not cfg.force_redo_preprocessing:
+            logger.debug(
+                f"{mismatch_base_freq_dir} already exists. Skipping mismatch base frequency plots."
+            )
+        else:
+            make_dirs([mismatch_base_freq_dir])
+            plot_mismatch_base_frequency_by_position(
+                adata,
+                sample_col=cfg.sample_name_col_for_plotting,
+                reference_col=cfg.reference_column,
+                mismatch_layer=cfg.mismatch_frequency_layer,
+                read_span_layer=cfg.mismatch_frequency_read_span_layer,
+                exclude_mod_sites=True,  # cfg.mismatch_base_frequency_exclude_mod_sites,
+                mod_site_bases=cfg.mod_target_bases,
+                save_path=mismatch_base_freq_dir,
+                plot_zscores=True,
+            )
+    ############################################### Plot integer sequence encoding clustermaps ###############################################
+    if "sequence_integer_encoding" not in adata.layers:
+        logger.debug(
+            "sequence_integer_encoding layer not found; skipping integer encoding clustermaps."
+        )
+    else:
+        seq_clustermap_dir = (
+            variant_directory / "deduplicated" / "02_sequence_integer_encoding_clustermaps"
+        )
+        if seq_clustermap_dir.is_dir() and not cfg.force_redo_preprocessing:
+            logger.debug(
+                f"{seq_clustermap_dir} already exists. Skipping sequence integer encoding clustermaps."
+            )
+        else:
+            make_dirs([seq_clustermap_dir])
+            plot_sequence_integer_encoding_clustermaps(
+                adata,
+                sample_col=cfg.sample_name_col_for_plotting,
+                reference_col=cfg.reference_column,
+                demux_types=cfg.clustermap_demux_types_to_plot,
+                min_quality=None,
+                min_length=None,
+                min_mapped_length_to_reference_length_ratio=None,
+                sort_by="none",
+                max_unknown_fraction=0.5,
+                save_path=seq_clustermap_dir,
+                show_position_axis=True,
+            )
+        if "mismatch_integer_encoding" in adata.layers:
+            mismatch_clustermap_dir = (
+                variant_directory
+                / "deduplicated"
+                / "03_mismatch_integer_encoding_clustermaps_no_mod_sites"
+            )
+            if mismatch_clustermap_dir.is_dir():
+                logger.debug(
+                    f"{mismatch_clustermap_dir} already exists. "
+                    "Skipping mismatch clustermaps without mod sites."
+                )
+            else:
+                make_dirs([mismatch_clustermap_dir])
+                plot_sequence_integer_encoding_clustermaps(
+                    adata,
+                    sample_col=cfg.sample_name_col_for_plotting,
+                    reference_col=cfg.reference_column,
+                    demux_types=cfg.clustermap_demux_types_to_plot,
+                    min_quality=None,
+                    min_length=None,
+                    min_mapped_length_to_reference_length_ratio=None,
+                    sort_by="none",
+                    max_unknown_fraction=0.5,
+                    save_path=mismatch_clustermap_dir,
+                    show_position_axis=True,
+                    exclude_mod_sites=True,
+                    mod_site_bases=cfg.mod_target_bases,
+                )
+    # ============================================================
+    # 4) Variant segment clustermaps
+    # ============================================================
+    if seq1_col and seq2_col:
+        segment_layer_name = f"{seq1_col}__{seq2_col}_variant_segments"
+        if segment_layer_name in adata.layers:
+            segment_dir = variant_directory / "deduplicated" / "04_variant_segment_clustermaps"
+            if segment_dir.exists():
+                logger.info(
+                    "Variant segment clustermaps already exist at %s; skipping.",
+                    segment_dir,
+                )
+            else:
+                make_dirs([segment_dir])
+                plot_variant_segment_clustermaps(
+                    adata,
+                    seq1_column=seq1_col,
+                    seq2_column=seq2_col,
+                    sample_col=cfg.sample_name_col_for_plotting,
+                    reference_col=cfg.reference_column,
+                    variant_segment_layer=segment_layer_name,
+                    read_span_layer=cfg.mismatch_frequency_read_span_layer,
+                    save_path=segment_dir,
+                    ref1_marker_color=getattr(cfg, "variant_overlay_seq1_color", "white"),
+                    ref2_marker_color=getattr(cfg, "variant_overlay_seq2_color", "black"),
+                    marker_size=getattr(cfg, "variant_overlay_marker_size", 4.0),
+                    show_position_axis=True,
+                )
+            segment_type_dir = (
+                variant_directory
+                / "deduplicated"
+                / "05_variant_segment_clustermaps_with_mismatch_type"
+            )
+            if segment_type_dir.exists():
+                logger.info(
+                    "Variant segment mismatch-type clustermaps already exist at %s; skipping.",
+                    segment_type_dir,
+                )
+            else:
+                make_dirs([segment_type_dir])
+                plot_variant_segment_clustermaps(
+                    adata,
+                    seq1_column=seq1_col,
+                    seq2_column=seq2_col,
+                    sample_col=cfg.sample_name_col_for_plotting,
+                    reference_col=cfg.reference_column,
+                    variant_segment_layer=segment_layer_name,
+                    read_span_layer=cfg.mismatch_frequency_read_span_layer,
+                    save_path=segment_type_dir,
+                    ref1_marker_color=getattr(cfg, "variant_overlay_seq1_color", "white"),
+                    ref2_marker_color=getattr(cfg, "variant_overlay_seq2_color", "black"),
+                    marker_size=getattr(cfg, "variant_overlay_marker_size", 4.0),
+                    show_position_axis=True,
+                    mismatch_type_obs_col="chimeric_variant_sites_type",
+                )
+    # ============================================================
+    # 5) Save AnnData
+    # ============================================================
+    if not paths.variant.exists():
+        logger.info("Saving variant AnnData")
+        record_smftools_metadata(
+            adata,
+            step_name="variant",
+            cfg=cfg,
+            config_path=config_path,
+            input_paths=[source_adata_path] if source_adata_path else None,
+            output_path=paths.variant,
+        )
+        write_gz_h5ad(adata, paths.variant)
+    return adata, paths.variant

smftools/cli_entry.py CHANGED Viewed

@@ -7,11 +7,14 @@ from typing import Sequence
 import click
 import pandas as pd
+from .cli.chimeric_adata import chimeric_adata
 from .cli.hmm_adata import hmm_adata
 from .cli.latent_adata import latent_adata
 from .cli.load_adata import load_adata
 from .cli.preprocess_adata import preprocess_adata
+from .cli.recipes import full_flow
 from .cli.spatial_adata import spatial_adata
+from .cli.variant_adata import variant_adata
 from .informatics.pod5_functions import subsample_pod5
 from .logging_utils import get_logger, setup_logging
 from .readwrite import concatenate_h5ads
@@ -64,7 +67,7 @@ def cli(log_file: Path | None, log_level: str):
 @cli.command()
 @click.argument("config_path", type=click.Path(exists=True))
 def load(config_path):
-    """Load and process data from CONFIG_PATH."""
+    """Load raw data into AnnData."""
     load_adata(config_path)
@@ -75,7 +78,7 @@ def load(config_path):
 @cli.command()
 @click.argument("config_path", type=click.Path(exists=True))
 def preprocess(config_path):
-    """Preprocess data from CONFIG_PATH."""
+    """Preprocessing."""
     preprocess_adata(config_path)
@@ -86,7 +89,7 @@ def preprocess(config_path):
 @cli.command()
 @click.argument("config_path", type=click.Path(exists=True))
 def spatial(config_path):
-    """Process data from CONFIG_PATH."""
+    """Spatial signal analysis"""
     spatial_adata(config_path)
@@ -97,7 +100,7 @@ def spatial(config_path):
 @cli.command()
 @click.argument("config_path", type=click.Path(exists=True))
 def hmm(config_path):
-    """Process data from CONFIG_PATH."""
+    """HMM feature annotations and plotting"""
     hmm_adata(config_path)
@@ -108,13 +111,46 @@ def hmm(config_path):
 @cli.command()
 @click.argument("config_path", type=click.Path(exists=True))
 def latent(config_path):
-    """Process data from CONFIG_PATH."""
+    """Latent representations of signal"""
     latent_adata(config_path)
 ##########################################
+####### Variant ###########
+@cli.command()
+@click.argument("config_path", type=click.Path(exists=True))
+def variant(config_path):
+    """Sequence variation analyses"""
+    variant_adata(config_path)
+##########################################
+####### Chimeric ###########
+@cli.command()
+@click.argument("config_path", type=click.Path(exists=True))
+def chimeric(config_path):
+    """Finding putative PCR chimeras"""
+    chimeric_adata(config_path)
+##########################################
+####### Recipes ###########
+@cli.command()
+@click.argument("config_path", type=click.Path(exists=True))
+def full(config_path):
+    """Workflow: load preprocess spatial variant chimeric hmm latent"""
+    full_flow(config_path)
+##########################################
 ####### batch command ###########
 @cli.command()
 @click.argument(

smftools/config/conversion.yaml CHANGED Viewed

@@ -15,16 +15,6 @@ autocorr_site_types:
 # Spatial Analysis - Clustermap params
 layer_for_clustermap_plotting: 'nan0_0minus1'
-rolling_nn_layer: "nan0_0minus1"
-rolling_nn_plot_layer: "nan0_0minus1"
-rolling_nn_window: 30
-rolling_nn_step: 2
-rolling_nn_min_overlap: 20
-rolling_nn_return_fraction: true
-rolling_nn_obsm_key: "rolling_nn_dist"
-rolling_nn_site_types:
-  - "GpC"
-  - "CpG"
 clustermap_cmap_c: "coolwarm"
 clustermap_cmap_gpc: "coolwarm"
 clustermap_cmap_cpg: "viridis"

smftools/config/deaminase.yaml CHANGED Viewed

@@ -39,6 +39,9 @@ autocorr_site_types:
 correlation_matrix_site_types:
   - "C_site"
+rolling_nn_site_types:
+- "C"
 # ######## smftools hmm params #########
 cpg: False # whether to use the default HMM endogenous CpG patch params
 hmm_methbases:

smftools/config/default.yaml CHANGED Viewed

@@ -110,7 +110,7 @@ read_len_to_ref_ratio_filter_thresholds:
   - null
   - null
 read_quality_filter_thresholds:
-  - 15
+  - 10
   - null
 read_mapping_quality_filter_thresholds:
   - null
@@ -130,7 +130,7 @@ read_mod_filtering_a_thresholds:
   - 0.025
   - 0.975
 read_mod_filtering_use_other_c_as_background: False
-min_valid_fraction_positions_in_read_vs_ref: 0.5
+min_valid_fraction_positions_in_read_vs_ref: 0.2
 # Plotting params for read length histograms
 obs_to_plot_pp_qc:
@@ -162,12 +162,13 @@ duplicate_detection_hierarchical_linkage: "average" # Method for hierarchical cl
 duplicate_detection_do_pca: False # Whether to do PCA before hierarchical linkage based duplicate detection.
 # Position QC params
-position_max_nan_threshold: 0.1 # The maximum amount of nans to tolerate in a column
+position_max_nan_threshold: 0.8 # The maximum amount of nans to tolerate in a column
 mismatch_frequency_range:
   - 0.01
   - 0.99
 mismatch_frequency_layer: "mismatch_integer_encoding"
 mismatch_frequency_read_span_layer: "read_span_mask"
+mismatch_base_frequency_exclude_mod_sites: True
 ######## smftools spatial params #########
 invert_adata: False # Whether to invert the AnnData along the positions axis.
@@ -186,13 +187,56 @@ clustermap_cmap_gpc: "coolwarm"
 clustermap_cmap_cpg: "coolwarm"
 clustermap_cmap_a: "coolwarm"
 spatial_clustermap_sortby: "gpc"
+# Clustermap variant params
+overlay_variant_calls: false
+variant_overlay_seq1_color: "black"
+variant_overlay_seq2_color: "white"
+variant_overlay_marker_size: 4.0
+# Spatial analysis - Rolling NN Hamming
+rolling_nn_layer: "nan0_0minus1"
+rolling_nn_plot_layer: "nan0_0minus1"
+rolling_nn_plot_layers:
+  - "nan0_0minus1"
+  - "zero_hamming_distance_spans"
+rolling_nn_window: 10
+rolling_nn_step: 1
+rolling_nn_min_overlap: 8
+rolling_nn_return_fraction: true
+rolling_nn_obsm_key: "rolling_nn_dist"
 rolling_nn_site_types:
   - "GpC"
   - "CpG"
-# Spatial Analysis - UMAP/Leiden params
+rolling_nn_write_zero_pairs_csvs: true
+rolling_nn_zero_pairs_uns_key: null
+rolling_nn_zero_pairs_segments_key: null
+rolling_nn_zero_pairs_layer_key: null
+rolling_nn_zero_pairs_refine: true
+rolling_nn_zero_pairs_max_nan_run: 2
+rolling_nn_zero_pairs_merge_gap: 1
+rolling_nn_zero_pairs_max_segments_per_read: 2
+rolling_nn_zero_pairs_max_overlap: 5
+rolling_nn_zero_pairs_layer_overlap_mode: "sum"
+rolling_nn_zero_pairs_layer_overlap_value: null
+rolling_nn_zero_pairs_keep_uns: true
+rolling_nn_zero_pairs_segments_keep_uns: true
+rolling_nn_zero_pairs_top_segments_per_read: 3
+rolling_nn_zero_pairs_top_segments_max_overlap: 5
+rolling_nn_zero_pairs_top_segments_min_span: 300
+rolling_nn_zero_pairs_top_segments_write_csvs: true
+rolling_nn_zero_pairs_segment_histogram_bins: 30
+# Cross-sample rolling NN analysis
+cross_sample_analysis: true
+cross_sample_grouping_col: null
+cross_sample_random_seed: 42
+delta_hamming_chimeric_span_threshold: 200
+# Latent Analysis - UMAP/Leiden params
 layer_for_umap_plotting: 'nan_half'
 umap_layers_to_plot:
+  - "leiden"
   - "mapped_length"
   - "Raw_modification_signal"
@@ -279,21 +323,13 @@ hmm_merge_layer_features:
   - ["all_accessible_features", 60]
 clustermap_cmap_hmm: "coolwarm"
 hmm_clustermap_feature_layers:
-  - all_accessible_features
   - all_accessible_features_merged
-  - small_accessible_patch
-  - mid_accessible_patch
-  - large_accessible_patch
-  - large_accessible_patch_merged
-  - nucleosome_depleted_region
   - nucleosome_depleted_region_merged
   - small_bound_stretch
   - medium_bound_stretch
   - putative_nucleosome
-  - large_bound_stretch
   - all_footprint_features
 hmm_clustermap_length_layers:
-  - all_accessible_features
   - all_accessible_features_merged
   - all_footprint_features
 hmm_clustermap_sortby: "hmm"

smftools 0.3.1__py3-none-any.whl → 0.3.2__py3-none-any.whl

smftools 0.3.1py3-none-any.whl → 0.3.2py3-none-any.whl