PyPI - smftools - Versions diffs - 0.1.7__py3-none-any.whl → 0.2.3__py3-none-any.whl - Mend

smftools 0.1.7py3-none-any.whl → 0.2.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (174) hide show

smftools/__init__.py +7 -6
smftools/_version.py +1 -1
smftools/cli/cli_flows.py +94 -0
smftools/cli/hmm_adata.py +338 -0
smftools/cli/load_adata.py +577 -0
smftools/cli/preprocess_adata.py +363 -0
smftools/cli/spatial_adata.py +564 -0
smftools/cli_entry.py +435 -0
smftools/config/__init__.py +1 -0
smftools/config/conversion.yaml +38 -0
smftools/config/deaminase.yaml +61 -0
smftools/config/default.yaml +264 -0
smftools/config/direct.yaml +41 -0
smftools/config/discover_input_files.py +115 -0
smftools/config/experiment_config.py +1288 -0
smftools/hmm/HMM.py +1576 -0
smftools/hmm/__init__.py +20 -0
smftools/{tools → hmm}/apply_hmm_batched.py +8 -7
smftools/hmm/call_hmm_peaks.py +106 -0
smftools/{tools → hmm}/display_hmm.py +3 -3
smftools/{tools → hmm}/nucleosome_hmm_refinement.py +2 -2
smftools/{tools → hmm}/train_hmm.py +1 -1
smftools/informatics/__init__.py +13 -9
smftools/informatics/archived/deaminase_smf.py +132 -0
smftools/informatics/archived/fast5_to_pod5.py +43 -0
smftools/informatics/archived/helpers/archived/__init__.py +71 -0
smftools/informatics/archived/helpers/archived/align_and_sort_BAM.py +126 -0
smftools/informatics/archived/helpers/archived/aligned_BAM_to_bed.py +87 -0
smftools/informatics/archived/helpers/archived/bam_qc.py +213 -0
smftools/informatics/archived/helpers/archived/bed_to_bigwig.py +90 -0
smftools/informatics/archived/helpers/archived/concatenate_fastqs_to_bam.py +259 -0
smftools/informatics/{helpers → archived/helpers/archived}/count_aligned_reads.py +2 -2
smftools/informatics/{helpers → archived/helpers/archived}/demux_and_index_BAM.py +8 -10
smftools/informatics/{helpers → archived/helpers/archived}/extract_base_identities.py +30 -4
smftools/informatics/{helpers → archived/helpers/archived}/extract_mods.py +15 -13
smftools/informatics/{helpers → archived/helpers/archived}/extract_read_features_from_bam.py +4 -2
smftools/informatics/{helpers → archived/helpers/archived}/find_conversion_sites.py +5 -4
smftools/informatics/{helpers → archived/helpers/archived}/generate_converted_FASTA.py +2 -0
smftools/informatics/{helpers → archived/helpers/archived}/get_chromosome_lengths.py +9 -8
smftools/informatics/archived/helpers/archived/index_fasta.py +24 -0
smftools/informatics/{helpers → archived/helpers/archived}/make_modbed.py +1 -2
smftools/informatics/{helpers → archived/helpers/archived}/modQC.py +2 -2
smftools/informatics/archived/helpers/archived/plot_bed_histograms.py +250 -0
smftools/informatics/{helpers → archived/helpers/archived}/separate_bam_by_bc.py +8 -7
smftools/informatics/{helpers → archived/helpers/archived}/split_and_index_BAM.py +8 -12
smftools/informatics/archived/subsample_fasta_from_bed.py +49 -0
smftools/informatics/bam_functions.py +812 -0
smftools/informatics/basecalling.py +67 -0
smftools/informatics/bed_functions.py +366 -0
smftools/informatics/binarize_converted_base_identities.py +172 -0
smftools/informatics/{helpers/converted_BAM_to_adata_II.py → converted_BAM_to_adata.py} +198 -50
smftools/informatics/fasta_functions.py +255 -0
smftools/informatics/h5ad_functions.py +197 -0
smftools/informatics/{helpers/modkit_extract_to_adata.py → modkit_extract_to_adata.py} +147 -61
smftools/informatics/modkit_functions.py +129 -0
smftools/informatics/ohe.py +160 -0
smftools/informatics/pod5_functions.py +224 -0
smftools/informatics/{helpers/run_multiqc.py → run_multiqc.py} +5 -2
smftools/machine_learning/__init__.py +12 -0
smftools/machine_learning/data/__init__.py +2 -0
smftools/machine_learning/data/anndata_data_module.py +234 -0
smftools/machine_learning/evaluation/__init__.py +2 -0
smftools/machine_learning/evaluation/eval_utils.py +31 -0
smftools/machine_learning/evaluation/evaluators.py +223 -0
smftools/machine_learning/inference/__init__.py +3 -0
smftools/machine_learning/inference/inference_utils.py +27 -0
smftools/machine_learning/inference/lightning_inference.py +68 -0
smftools/machine_learning/inference/sklearn_inference.py +55 -0
smftools/machine_learning/inference/sliding_window_inference.py +114 -0
smftools/machine_learning/models/base.py +295 -0
smftools/machine_learning/models/cnn.py +138 -0
smftools/machine_learning/models/lightning_base.py +345 -0
smftools/machine_learning/models/mlp.py +26 -0
smftools/{tools → machine_learning}/models/positional.py +3 -2
smftools/{tools → machine_learning}/models/rnn.py +2 -1
smftools/machine_learning/models/sklearn_models.py +273 -0
smftools/machine_learning/models/transformer.py +303 -0
smftools/machine_learning/training/__init__.py +2 -0
smftools/machine_learning/training/train_lightning_model.py +135 -0
smftools/machine_learning/training/train_sklearn_model.py +114 -0
smftools/plotting/__init__.py +4 -1
smftools/plotting/autocorrelation_plotting.py +609 -0
smftools/plotting/general_plotting.py +1292 -140
smftools/plotting/hmm_plotting.py +260 -0
smftools/plotting/qc_plotting.py +270 -0
smftools/preprocessing/__init__.py +15 -8
smftools/preprocessing/add_read_length_and_mapping_qc.py +129 -0
smftools/preprocessing/append_base_context.py +122 -0
smftools/preprocessing/append_binary_layer_by_base_context.py +143 -0
smftools/preprocessing/binarize.py +17 -0
smftools/preprocessing/binarize_on_Youden.py +2 -2
smftools/preprocessing/calculate_complexity_II.py +248 -0
smftools/preprocessing/calculate_coverage.py +10 -1
smftools/preprocessing/calculate_position_Youden.py +1 -1
smftools/preprocessing/calculate_read_modification_stats.py +101 -0
smftools/preprocessing/clean_NaN.py +17 -1
smftools/preprocessing/filter_reads_on_length_quality_mapping.py +158 -0
smftools/preprocessing/filter_reads_on_modification_thresholds.py +352 -0
smftools/preprocessing/flag_duplicate_reads.py +1326 -124
smftools/preprocessing/invert_adata.py +12 -5
smftools/preprocessing/load_sample_sheet.py +19 -4
smftools/readwrite.py +1021 -89
smftools/tools/__init__.py +3 -32
smftools/tools/calculate_umap.py +5 -5
smftools/tools/general_tools.py +3 -3
smftools/tools/position_stats.py +468 -106
smftools/tools/read_stats.py +115 -1
smftools/tools/spatial_autocorrelation.py +562 -0
{smftools-0.1.7.dist-info → smftools-0.2.3.dist-info}/METADATA +14 -9
smftools-0.2.3.dist-info/RECORD +173 -0
smftools-0.2.3.dist-info/entry_points.txt +2 -0
smftools/informatics/fast5_to_pod5.py +0 -21
smftools/informatics/helpers/LoadExperimentConfig.py +0 -75
smftools/informatics/helpers/__init__.py +0 -74
smftools/informatics/helpers/align_and_sort_BAM.py +0 -59
smftools/informatics/helpers/aligned_BAM_to_bed.py +0 -74
smftools/informatics/helpers/bam_qc.py +0 -66
smftools/informatics/helpers/bed_to_bigwig.py +0 -39
smftools/informatics/helpers/binarize_converted_base_identities.py +0 -79
smftools/informatics/helpers/concatenate_fastqs_to_bam.py +0 -55
smftools/informatics/helpers/index_fasta.py +0 -12
smftools/informatics/helpers/make_dirs.py +0 -21
smftools/informatics/helpers/plot_read_length_and_coverage_histograms.py +0 -53
smftools/informatics/load_adata.py +0 -182
smftools/informatics/readwrite.py +0 -106
smftools/informatics/subsample_fasta_from_bed.py +0 -47
smftools/preprocessing/append_C_context.py +0 -82
smftools/preprocessing/calculate_converted_read_methylation_stats.py +0 -94
smftools/preprocessing/filter_converted_reads_on_methylation.py +0 -44
smftools/preprocessing/filter_reads_on_length.py +0 -51
smftools/tools/call_hmm_peaks.py +0 -105
smftools/tools/data/__init__.py +0 -2
smftools/tools/data/anndata_data_module.py +0 -90
smftools/tools/inference/__init__.py +0 -1
smftools/tools/inference/lightning_inference.py +0 -41
smftools/tools/models/base.py +0 -14
smftools/tools/models/cnn.py +0 -34
smftools/tools/models/lightning_base.py +0 -41
smftools/tools/models/mlp.py +0 -17
smftools/tools/models/sklearn_models.py +0 -40
smftools/tools/models/transformer.py +0 -133
smftools/tools/training/__init__.py +0 -1
smftools/tools/training/train_lightning_model.py +0 -47
smftools-0.1.7.dist-info/RECORD +0 -136
/smftools/{tools/evaluation → cli}/__init__.py +0 -0
/smftools/{tools → hmm}/calculate_distances.py +0 -0
/smftools/{tools → hmm}/hmm_readwrite.py +0 -0
/smftools/informatics/{basecall_pod5s.py → archived/basecall_pod5s.py} +0 -0
/smftools/informatics/{conversion_smf.py → archived/conversion_smf.py} +0 -0
/smftools/informatics/{direct_smf.py → archived/direct_smf.py} +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/canoncall.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/converted_BAM_to_adata.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/extract_read_lengths_from_bed.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/extract_readnames_from_BAM.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/get_native_references.py +0 -0
/smftools/informatics/{helpers → archived/helpers}/archived/informatics.py +0 -0
/smftools/informatics/{helpers → archived/helpers}/archived/load_adata.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/modcall.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/ohe_batching.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/ohe_layers_decode.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/one_hot_decode.py +0 -0
/smftools/informatics/{helpers → archived/helpers/archived}/one_hot_encode.py +0 -0
/smftools/informatics/{subsample_pod5.py → archived/subsample_pod5.py} +0 -0
/smftools/informatics/{helpers/complement_base_list.py → complement_base_list.py} +0 -0
/smftools/{tools → machine_learning}/data/preprocessing.py +0 -0
/smftools/{tools → machine_learning}/models/__init__.py +0 -0
/smftools/{tools → machine_learning}/models/wrappers.py +0 -0
/smftools/{tools → machine_learning}/utils/__init__.py +0 -0
/smftools/{tools → machine_learning}/utils/device.py +0 -0
/smftools/{tools → machine_learning}/utils/grl.py +0 -0
/smftools/tools/{apply_hmm.py → archived/apply_hmm.py} +0 -0
/smftools/tools/{classifiers.py → archived/classifiers.py} +0 -0
{smftools-0.1.7.dist-info → smftools-0.2.3.dist-info}/WHEEL +0 -0
{smftools-0.1.7.dist-info → smftools-0.2.3.dist-info}/licenses/LICENSE +0 -0

smftools/tools/position_stats.py CHANGED Viewed

@@ -117,123 +117,485 @@ def calculate_relative_risk_on_activity(adata, sites, alpha=0.05, groupby=None):
     return results_dict
-def compute_positionwise_statistic(
+import copy
+import warnings
+from typing import Dict, Any, List, Optional, Tuple, Union
+import numpy as np
+import pandas as pd
+import matplotlib.pyplot as plt
+# optional imports
+try:
+    from joblib import Parallel, delayed
+    JOBLIB_AVAILABLE = True
+except Exception:
+    JOBLIB_AVAILABLE = False
+try:
+    from scipy.stats import chi2_contingency
+    SCIPY_STATS_AVAILABLE = True
+except Exception:
+    SCIPY_STATS_AVAILABLE = False
+# -----------------------------
+# Compute positionwise statistic (multi-method + simple site_types)
+# -----------------------------
+import numpy as np
+import pandas as pd
+from typing import List, Optional, Sequence, Dict, Any, Tuple
+from contextlib import contextmanager
+from joblib import Parallel, delayed, cpu_count
+import joblib
+from tqdm import tqdm
+from scipy.stats import chi2_contingency
+import warnings
+import matplotlib.pyplot as plt
+from itertools import cycle
+import os
+import warnings
+# ---------------------------
+# joblib <-> tqdm integration
+# ---------------------------
+@contextmanager
+def tqdm_joblib(tqdm_object: tqdm):
+    """Context manager to patch joblib to update a tqdm progress bar."""
+    old = joblib.parallel.BatchCompletionCallBack
+    class TqdmBatchCompletionCallback(old):  # type: ignore
+        def __call__(self, *args, **kwargs):
+            try:
+                tqdm_object.update(n=self.batch_size)
+            except Exception:
+                tqdm_object.update(1)
+            return super().__call__(*args, **kwargs)
+    joblib.parallel.BatchCompletionCallBack = TqdmBatchCompletionCallback
+    try:
+        yield tqdm_object
+    finally:
+        joblib.parallel.BatchCompletionCallBack = old
+# ---------------------------
+# row workers (upper-triangle only)
+# ---------------------------
+def _chi2_row_job(i: int, X_bin: np.ndarray, min_count_for_pairwise: int) -> Tuple[int, np.ndarray]:
+    n_pos = X_bin.shape[1]
+    row = np.full((n_pos,), np.nan, dtype=float)
+    xi = X_bin[:, i]
+    for j in range(i, n_pos):
+        xj = X_bin[:, j]
+        mask = (~np.isnan(xi)) & (~np.isnan(xj))
+        if int(mask.sum()) < int(min_count_for_pairwise):
+            continue
+        try:
+            table = pd.crosstab(xi[mask], xj[mask])
+            if table.shape != (2, 2):
+                continue
+            chi2, _, _, _ = chi2_contingency(table, correction=False)
+            row[j] = float(chi2)
+        except Exception:
+            row[j] = np.nan
+    return (i, row)
+def _relative_risk_row_job(i: int, X_bin: np.ndarray, min_count_for_pairwise: int) -> Tuple[int, np.ndarray]:
+    n_pos = X_bin.shape[1]
+    row = np.full((n_pos,), np.nan, dtype=float)
+    xi = X_bin[:, i]
+    for j in range(i, n_pos):
+        xj = X_bin[:, j]
+        mask = (~np.isnan(xi)) & (~np.isnan(xj))
+        if int(mask.sum()) < int(min_count_for_pairwise):
+            continue
+        a = np.sum((xi[mask] == 1) & (xj[mask] == 1))
+        b = np.sum((xi[mask] == 1) & (xj[mask] == 0))
+        c = np.sum((xi[mask] == 0) & (xj[mask] == 1))
+        d = np.sum((xi[mask] == 0) & (xj[mask] == 0))
+        try:
+            if (a + b) > 0 and (c + d) > 0 and (c > 0):
+                p1 = a / float(a + b)
+                p2 = c / float(c + d)
+                row[j] = float(p1 / p2) if p2 > 0 else np.nan
+            else:
+                row[j] = np.nan
+        except Exception:
+            row[j] = np.nan
+    return (i, row)
+def compute_positionwise_statistics(
     adata,
-    layer,
-    method="pearson",
-    groupby=["Reference_strand"],
-    output_key="positionwise_result",
-    site_config=None,
-    encoding="signed",
-    max_threads=None
+    layer: str,
+    methods: Sequence[str] = ("pearson",),
+    sample_col: str = "Barcode",
+    ref_col: str = "Reference_strand",
+    site_types: Optional[Sequence[str]] = None,
+    encoding: str = "signed",
+    output_key: str = "positionwise_result",
+    min_count_for_pairwise: int = 10,
+    max_threads: Optional[int] = None,
+    reverse_indices_on_store: bool = False,
 ):
     """
-    Computes a position-by-position matrix (correlation, RR, or Chi-squared) from an adata layer.
+    Compute per-(sample,ref) positionwise matrices for methods in `methods`.
-    Parameters:
-        adata (AnnData): Annotated data matrix.
-        layer (str): Name of the adata layer to use.
-        method (str): 'pearson', 'binary_covariance', 'relative_risk', or 'chi_squared'.
-        groupby (str or list): Column(s) in adata.obs to group by.
-        output_key (str): Key in adata.uns to store results.
-        site_config (dict): Optional {ref: [site_types]} to restrict sites per reference.
-        encoding (str): 'signed' (1/-1/0) or 'binary' (1/0/NaN).
-        max_threads (int): Number of parallel threads to use (joblib).
+    Results stored at:
+      adata.uns[output_key][method][ (sample, ref) ] = DataFrame
+      adata.uns[output_key + "_n"][method][ (sample, ref) ] = int(n_reads)
     """
-    import numpy as np
-    import pandas as pd
-    from scipy.stats import chi2_contingency
-    from joblib import Parallel, delayed
-    from tqdm import tqdm
+    if isinstance(methods, str):
+        methods = [methods]
+    methods = [m.lower() for m in methods]
+    # prepare containers
+    adata.uns[output_key] = {m: {} for m in methods}
+    adata.uns[output_key + "_n"] = {m: {} for m in methods}
+    # workers
+    if max_threads is None or max_threads <= 0:
+        n_jobs = max(1, cpu_count() or 1)
+    else:
+        n_jobs = max(1, int(max_threads))
+    # samples / refs
+    sseries = adata.obs[sample_col]
+    if not pd.api.types.is_categorical_dtype(sseries):
+        sseries = sseries.astype("category")
+    samples = list(sseries.cat.categories)
+    rseries = adata.obs[ref_col]
+    if not pd.api.types.is_categorical_dtype(rseries):
+        rseries = rseries.astype("category")
+    references = list(rseries.cat.categories)
+    total_tasks = len(samples) * len(references)
+    pbar_outer = tqdm(total=total_tasks, desc="positionwise (sample x ref)", unit="cell")
+    for sample in samples:
+        for ref in references:
+            label = (sample, ref)
+            try:
+                mask = (adata.obs[sample_col] == sample) & (adata.obs[ref_col] == ref)
+                subset = adata[mask]
+                n_reads = subset.shape[0]
+                # nothing to do -> store empty placeholders
+                if n_reads == 0:
+                    for m in methods:
+                        adata.uns[output_key][m][label] = pd.DataFrame()
+                        adata.uns[output_key + "_n"][m][label] = 0
+                    pbar_outer.update(1)
+                    continue
-    if isinstance(groupby, str):
-        groupby = [groupby]
+                # select var columns based on site_types and reference
+                if site_types:
+                    col_mask = np.zeros(subset.shape[1], dtype=bool)
+                    for st in site_types:
+                        colname = f"{ref}_{st}"
+                        if colname in subset.var.columns:
+                            col_mask |= np.asarray(subset.var[colname].values, dtype=bool)
+                        else:
+                            # if mask not present, warn once (but keep searching)
+                            # user may pass generic site types
+                            pass
+                    if not col_mask.any():
+                        selected_var_idx = np.arange(subset.shape[1])
+                    else:
+                        selected_var_idx = np.nonzero(col_mask)[0]
+                else:
+                    selected_var_idx = np.arange(subset.shape[1])
+                if selected_var_idx.size == 0:
+                    for m in methods:
+                        adata.uns[output_key][m][label] = pd.DataFrame()
+                        adata.uns[output_key + "_n"][m][label] = int(n_reads)
+                    pbar_outer.update(1)
+                    continue
-    adata.uns[output_key] = {}
-    adata.uns[output_key + "_n"] = {}
+                # extract matrix
+                if (layer in subset.layers) and (subset.layers[layer] is not None):
+                    X = subset.layers[layer]
+                else:
+                    X = subset.X
+                X = np.asarray(X, dtype=float)
+                X = X[:, selected_var_idx]  # (n_reads, n_pos)
+                # binary encoding
+                if encoding == "signed":
+                    X_bin = np.where(X == 1, 1.0, np.where(X == -1, 0.0, np.nan))
+                else:
+                    X_bin = np.where(X == 1, 1.0, np.where(X == 0, 0.0, np.nan))
+                n_pos = X_bin.shape[1]
+                if n_pos == 0:
+                    for m in methods:
+                        adata.uns[output_key][m][label] = pd.DataFrame()
+                        adata.uns[output_key + "_n"][m][label] = int(n_reads)
+                    pbar_outer.update(1)
+                    continue
-    label_col = "__".join(groupby)
-    adata.obs[label_col] = adata.obs[groupby].astype(str).agg("_".join, axis=1)
+                var_names = list(subset.var_names[selected_var_idx])
+                # compute per-method
+                for method in methods:
+                    m = method.lower()
+                    if m == "pearson":
+                        # pairwise Pearson with column demean (nan-aware approximation)
+                        with np.errstate(invalid="ignore"):
+                            col_mean = np.nanmean(X_bin, axis=0)
+                            Xc = X_bin - col_mean  # nan preserved
+                            Xc0 = np.nan_to_num(Xc, nan=0.0)
+                            cov = Xc0.T @ Xc0
+                            denom = (np.sqrt((Xc0**2).sum(axis=0))[:, None] * np.sqrt((Xc0**2).sum(axis=0))[None, :])
+                            with np.errstate(divide="ignore", invalid="ignore"):
+                                mat = np.where(denom != 0.0, cov / denom, np.nan)
+                    elif m == "binary_covariance":
+                        binary = (X_bin == 1).astype(float)
+                        valid = (~np.isnan(X_bin)).astype(float)
+                        with np.errstate(divide="ignore", invalid="ignore"):
+                            numerator = binary.T @ binary
+                            denominator = valid.T @ valid
+                            mat = np.true_divide(numerator, denominator)
+                            mat[~np.isfinite(mat)] = 0.0
+                    elif m in ("chi_squared", "relative_risk"):
+                        if m == "chi_squared":
+                            worker = _chi2_row_job
+                        else:
+                            worker = _relative_risk_row_job
+                        out = np.full((n_pos, n_pos), np.nan, dtype=float)
+                        tasks = (delayed(worker)(i, X_bin, min_count_for_pairwise) for i in range(n_pos))
+                        pbar_rows = tqdm(total=n_pos, desc=f"{m}: rows ({sample}__{ref})", leave=False)
+                        with tqdm_joblib(pbar_rows):
+                            results = Parallel(n_jobs=n_jobs, prefer="processes")(tasks)
+                        pbar_rows.close()
+                        for i, row in results:
+                            out[int(i), :] = row
+                        iu = np.triu_indices(n_pos, k=1)
+                        out[iu[1], iu[0]] = out[iu]
+                        mat = out
+                    else:
+                        raise ValueError(f"Unsupported method: {method}")
+                    # optionally reverse order at store-time
+                    if reverse_indices_on_store:
+                        mat_store = np.flip(np.flip(mat, axis=0), axis=1)
+                        idx_names = var_names[::-1]
+                    else:
+                        mat_store = mat
+                        idx_names = var_names
+                    # make dataframe with labels
+                    df = pd.DataFrame(mat_store, index=idx_names, columns=idx_names)
+                    adata.uns[output_key][m][label] = df
+                    adata.uns[output_key + "_n"][m][label] = int(n_reads)
+            except Exception as exc:
+                warnings.warn(f"Failed computing positionwise for {sample}__{ref}: {exc}")
+            finally:
+                pbar_outer.update(1)
+    pbar_outer.close()
+    return None
+# ---------------------------
+# Plotting function
+# ---------------------------
+def plot_positionwise_matrices(
+    adata,
+    methods: List[str],
+    cmaps: Optional[List[str]] = None,
+    sample_col: str = "Barcode",
+    ref_col: str = "Reference_strand",
+    output_dir: Optional[str] = None,
+    vmin: Optional[Dict[str, float]] = None,
+    vmax: Optional[Dict[str, float]] = None,
+    figsize_per_cell: Tuple[float, float] = (3.5, 3.5),
+    dpi: int = 160,
+    cbar_shrink: float = 0.9,
+    output_key: str = "positionwise_result",
+    show_colorbar: bool = True,
+    flip_display_axes: bool = False,
+    rows_per_page: int = 6,
+    sample_label_rotation: float = 90.0,
+):
+    """
+    Plot grids of matrices for each method with pagination and rotated sample-row labels.
-    for group in adata.obs[label_col].unique():
-        subset = adata[adata.obs[label_col] == group].copy()
-        if subset.shape[0] == 0:
+    New args:
+      - rows_per_page: how many sample rows per page/figure (pagination)
+      - sample_label_rotation: rotation angle (deg) for the sample labels placed in the left margin.
+    Returns:
+      dict mapping method -> list of saved filenames (empty list if figures were shown).
+    """
+    if isinstance(methods, str):
+        methods = [methods]
+    if cmaps is None:
+        cmaps = ["viridis"] * len(methods)
+    cmap_cycle = cycle(cmaps)
+    # canonicalize sample/ref order
+    sseries = adata.obs[sample_col]
+    if not pd.api.types.is_categorical_dtype(sseries):
+        sseries = sseries.astype("category")
+    samples = list(sseries.cat.categories)
+    rseries = adata.obs[ref_col]
+    if not pd.api.types.is_categorical_dtype(rseries):
+        rseries = rseries.astype("category")
+    references = list(rseries.cat.categories)
+    # ensure directories
+    if output_dir:
+        os.makedirs(output_dir, exist_ok=True)
+    saved_files_by_method = {}
+    def _get_df_from_store(store, sample, ref):
+        """
+        try multiple key formats: (sample, ref) tuple, 'sample__ref' string,
+        or str(sample)+'__'+str(ref). Return None if not found.
+        """
+        if store is None:
+            return None
+        # try tuple key
+        key_t = (sample, ref)
+        if key_t in store:
+            return store[key_t]
+        # try string key
+        key_s = f"{sample}__{ref}"
+        if key_s in store:
+            return store[key_s]
+        # try stringified tuple keys (some callers store differently)
+        for k in store.keys():
+            try:
+                if isinstance(k, tuple) and len(k) == 2 and str(k[0]) == str(sample) and str(k[1]) == str(ref):
+                    return store[k]
+                if isinstance(k, str) and key_s == k:
+                    return store[k]
+            except Exception:
+                continue
+        return None
+    for method, cmap in zip(methods, cmap_cycle):
+        m = method.lower()
+        method_store = adata.uns.get(output_key, {}).get(m, {})
+        if not method_store:
+            warnings.warn(f"No results found for method '{method}' in adata.uns['{output_key}']. Skipping.", stacklevel=2)
+            saved_files_by_method[method] = []
             continue
-        ref = subset.obs["Reference_strand"].unique()[0] if "Reference_strand" in groupby else None
-        if site_config and ref in site_config:
-            site_mask = np.zeros(subset.shape[1], dtype=bool)
-            for site in site_config[ref]:
-                site_mask |= subset.var[f"{ref}_{site}"]
-            subset = subset[:, site_mask].copy()
-        X = subset.layers[layer].copy()
-        if encoding == "signed":
-            X_bin = np.where(X == 1, 1, np.where(X == -1, 0, np.nan))
+        # gather numeric values to pick sensible vmin/vmax when not provided
+        vals = []
+        for s in samples:
+            for r in references:
+                df = _get_df_from_store(method_store, s, r)
+                if isinstance(df, pd.DataFrame) and df.size > 0:
+                    a = df.values
+                    a = a[np.isfinite(a)]
+                    if a.size:
+                        vals.append(a)
+        if vals:
+            allvals = np.concatenate(vals)
         else:
-            X_bin = np.where(X == 1, 1, np.where(X == 0, 0, np.nan))
-        n_pos = subset.shape[1]
-        mat = np.zeros((n_pos, n_pos))
-        if method == "pearson":
-            with np.errstate(invalid='ignore'):
-                mat = np.corrcoef(np.nan_to_num(X_bin).T)
-        elif method == "binary_covariance":
-            binary = (X_bin == 1).astype(float)
-            valid = (X_bin == 1) | (X_bin == 0)  # Only consider true binary (ignore NaN)
-            valid = valid.astype(float)
-            numerator = np.dot(binary.T, binary)
-            denominator = np.dot(valid.T, valid)
-            with np.errstate(divide='ignore', invalid='ignore'):
-                mat = np.true_divide(numerator, denominator)
-                mat[~np.isfinite(mat)] = 0
-        elif method in ["relative_risk", "chi_squared"]:
-            def compute_row(i):
-                row = np.zeros(n_pos)
-                xi = X_bin[:, i]
-                for j in range(n_pos):
-                    xj = X_bin[:, j]
-                    mask = ~np.isnan(xi) & ~np.isnan(xj)
-                    if np.sum(mask) < 10:
-                        row[j] = np.nan
-                        continue
-                    if method == "relative_risk":
-                        a = np.sum((xi[mask] == 1) & (xj[mask] == 1))
-                        b = np.sum((xi[mask] == 1) & (xj[mask] == 0))
-                        c = np.sum((xi[mask] == 0) & (xj[mask] == 1))
-                        d = np.sum((xi[mask] == 0) & (xj[mask] == 0))
-                        if (a + b) > 0 and (c + d) > 0 and c > 0:
-                            p1 = a / (a + b)
-                            p2 = c / (c + d)
-                            row[j] = p1 / p2 if p2 > 0 else np.nan
-                        else:
-                            row[j] = np.nan
-                    elif method == "chi_squared":
-                        table = pd.crosstab(xi[mask], xj[mask])
-                        if table.shape != (2, 2):
-                            row[j] = np.nan
-                        else:
-                            chi2, _, _, _ = chi2_contingency(table, correction=False)
-                            row[j] = chi2
-                return row
-            mat = np.array(
-                Parallel(n_jobs=max_threads)(
-                    delayed(compute_row)(i) for i in tqdm(range(n_pos), desc=f"{method}: {group}")
-                )
-            )
+            allvals = np.array([])
+        # decide per-method defaults
+        if m == "pearson":
+            vmn = -1.0 if (vmin is None or (isinstance(vmin, dict) and m not in vmin)) else (vmin.get(m) if isinstance(vmin, dict) else vmin)
+            vmx = 1.0 if (vmax is None or (isinstance(vmax, dict) and m not in vmax)) else (vmax.get(m) if isinstance(vmax, dict) else vmax)
+            vmn = -1.0 if vmn is None else vmn
+            vmx = 1.0 if vmx is None else vmx
+        elif m == "binary_covariance":
+            vmn = 0.0 if (vmin is None or (isinstance(vmin, dict) and m not in vmin)) else (vmin.get(m) if isinstance(vmin, dict) else vmin)
+            vmx = 1.0 if (vmax is None or (isinstance(vmax, dict) and m not in vmax)) else (vmax.get(m) if isinstance(vmax, dict) else vmax)
+            vmn = 0.0 if vmn is None else vmn
+            vmx = 1.0 if vmx is None else vmx
         else:
-            raise ValueError(f"Unsupported method: {method}")
+            vmn = 0.0 if (vmin is None or (isinstance(vmin, dict) and m not in vmin)) else (vmin.get(m) if isinstance(vmin, dict) else vmin)
+            if (vmax is None) or (isinstance(vmax, dict) and m not in vmax):
+                vmx = float(np.nanpercentile(allvals, 99.0)) if allvals.size else 1.0
+            else:
+                vmx = (vmax.get(m) if isinstance(vmax, dict) else vmax)
+            vmn = 0.0 if vmn is None else vmn
+            if vmx is None:
+                vmx = 1.0
+        # prepare pagination over sample rows
+        saved_files = []
+        n_pages = max(1, int(np.ceil(len(samples) / float(max(1, rows_per_page)))))
+        for page_idx in range(n_pages):
+            start = page_idx * rows_per_page
+            chunk = samples[start : start + rows_per_page]
+            nrows = len(chunk)
+            ncols = max(1, len(references))
+            fig_w = ncols * figsize_per_cell[0]
+            fig_h = nrows * figsize_per_cell[1]
+            fig, axes = plt.subplots(nrows=nrows, ncols=ncols, figsize=(fig_w, fig_h), dpi=dpi, squeeze=False)
+            # leave margin for rotated sample labels
+            plt.subplots_adjust(left=0.12, right=0.88, top=0.95, bottom=0.05)
+            any_plotted = False
+            im = None
+            for r_idx, sample in enumerate(chunk):
+                for c_idx, ref in enumerate(references):
+                    ax = axes[r_idx][c_idx]
+                    df = _get_df_from_store(method_store, sample, ref)
+                    if not isinstance(df, pd.DataFrame) or df.size == 0:
+                        ax.text(0.5, 0.5, "No data", ha="center", va="center", transform=ax.transAxes, fontsize=10, color="gray")
+                        ax.set_xticks([])
+                        ax.set_yticks([])
+                    else:
+                        mat = df.values.astype(float)
+                        origin = "upper" if flip_display_axes else "lower"
+                        im = ax.imshow(mat, origin=origin, aspect="auto", vmin=vmn, vmax=vmx, cmap=cmap)
+                        any_plotted = True
+                        ax.set_xticks([])
+                        ax.set_yticks([])
+                    # top title is reference (only for top-row)
+                    if r_idx == 0:
+                        ax.set_title(str(ref), fontsize=9)
+                # draw rotated sample label into left margin centered on the row
+                # compute vertical center of this row's axis in figure coords
+                ax0 = axes[r_idx][0]
+                ax_y0, ax_y1 = ax0.get_position().y0, ax0.get_position().y1
+                y_center = 0.5 * (ax_y0 + ax_y1)
+                # place text at x=0.01 (just inside left margin); rotation controls orientation
+                fig.text(0.01, y_center, str(chunk[r_idx]), va="center", ha="left", rotation=sample_label_rotation, fontsize=9)
+            fig.suptitle(f"{method} — per-sample x per-reference matrices (page {page_idx+1}/{n_pages})", fontsize=12, y=0.99)
+            fig.tight_layout(rect=[0.05, 0.02, 0.9, 0.96])
+            # colorbar (shared)
+            if any_plotted and show_colorbar and (im is not None):
+                try:
+                    cbar_ax = fig.add_axes([0.9, 0.15, 0.02, 0.7])
+                    fig.colorbar(im, cax=cbar_ax, shrink=cbar_shrink)
+                except Exception:
+                    try:
+                        fig.colorbar(im, ax=axes.ravel().tolist(), fraction=0.02, pad=0.02)
+                    except Exception:
+                        pass
+            # save or show
+            if output_dir:
+                fname = f"positionwise_{method}_page{page_idx+1}.png"
+                outpath = os.path.join(output_dir, fname)
+                plt.savefig(outpath, bbox_inches="tight")
+                saved_files.append(outpath)
+                plt.close(fig)
+            else:
+                plt.show()
+                saved_files.append("")  # placeholder to indicate a figure was shown
+        saved_files_by_method[method] = saved_files
-        var_names = subset.var_names.astype(int)
-        mat_df = pd.DataFrame(mat, index=var_names, columns=var_names)
-        adata.uns[output_key][group] = mat_df
-        adata.uns[output_key + "_n"][group] = subset.shape[0]
+    return saved_files_by_method

smftools 0.1.7__py3-none-any.whl → 0.2.3__py3-none-any.whl

smftools 0.1.7py3-none-any.whl → 0.2.3py3-none-any.whl