PyPI - smftools - Versions diffs - 0.2.5__py3-none-any.whl → 0.3.1__py3-none-any.whl - Mend

smftools 0.2.5py3-none-any.whl → 0.3.1py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (164) hide show

smftools/__init__.py +39 -7
smftools/_settings.py +2 -0
smftools/_version.py +3 -1
smftools/cli/__init__.py +1 -0
smftools/cli/archived/cli_flows.py +2 -0
smftools/cli/helpers.py +34 -6
smftools/cli/hmm_adata.py +239 -33
smftools/cli/latent_adata.py +318 -0
smftools/cli/load_adata.py +167 -131
smftools/cli/preprocess_adata.py +180 -53
smftools/cli/spatial_adata.py +152 -100
smftools/cli_entry.py +38 -1
smftools/config/__init__.py +2 -0
smftools/config/conversion.yaml +11 -1
smftools/config/default.yaml +42 -2
smftools/config/experiment_config.py +59 -1
smftools/constants.py +65 -0
smftools/datasets/__init__.py +2 -0
smftools/hmm/HMM.py +97 -3
smftools/hmm/__init__.py +24 -13
smftools/hmm/archived/apply_hmm_batched.py +2 -0
smftools/hmm/archived/calculate_distances.py +2 -0
smftools/hmm/archived/call_hmm_peaks.py +2 -0
smftools/hmm/archived/train_hmm.py +2 -0
smftools/hmm/call_hmm_peaks.py +5 -2
smftools/hmm/display_hmm.py +4 -1
smftools/hmm/hmm_readwrite.py +7 -2
smftools/hmm/nucleosome_hmm_refinement.py +2 -0
smftools/informatics/__init__.py +59 -34
smftools/informatics/archived/bam_conversion.py +2 -0
smftools/informatics/archived/bam_direct.py +2 -0
smftools/informatics/archived/basecall_pod5s.py +2 -0
smftools/informatics/archived/basecalls_to_adata.py +2 -0
smftools/informatics/archived/conversion_smf.py +2 -0
smftools/informatics/archived/deaminase_smf.py +1 -0
smftools/informatics/archived/direct_smf.py +2 -0
smftools/informatics/archived/fast5_to_pod5.py +2 -0
smftools/informatics/archived/helpers/archived/__init__.py +2 -0
smftools/informatics/archived/helpers/archived/align_and_sort_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/aligned_BAM_to_bed.py +2 -0
smftools/informatics/archived/helpers/archived/bed_to_bigwig.py +2 -0
smftools/informatics/archived/helpers/archived/canoncall.py +2 -0
smftools/informatics/archived/helpers/archived/converted_BAM_to_adata.py +2 -0
smftools/informatics/archived/helpers/archived/count_aligned_reads.py +2 -0
smftools/informatics/archived/helpers/archived/demux_and_index_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/extract_base_identities.py +2 -0
smftools/informatics/archived/helpers/archived/extract_mods.py +2 -0
smftools/informatics/archived/helpers/archived/extract_read_features_from_bam.py +2 -0
smftools/informatics/archived/helpers/archived/extract_read_lengths_from_bed.py +2 -0
smftools/informatics/archived/helpers/archived/extract_readnames_from_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/find_conversion_sites.py +2 -0
smftools/informatics/archived/helpers/archived/generate_converted_FASTA.py +2 -0
smftools/informatics/archived/helpers/archived/get_chromosome_lengths.py +2 -0
smftools/informatics/archived/helpers/archived/get_native_references.py +2 -0
smftools/informatics/archived/helpers/archived/index_fasta.py +2 -0
smftools/informatics/archived/helpers/archived/informatics.py +2 -0
smftools/informatics/archived/helpers/archived/load_adata.py +2 -0
smftools/informatics/archived/helpers/archived/make_modbed.py +2 -0
smftools/informatics/archived/helpers/archived/modQC.py +2 -0
smftools/informatics/archived/helpers/archived/modcall.py +2 -0
smftools/informatics/archived/helpers/archived/ohe_batching.py +2 -0
smftools/informatics/archived/helpers/archived/ohe_layers_decode.py +2 -0
smftools/informatics/archived/helpers/archived/one_hot_decode.py +2 -0
smftools/informatics/archived/helpers/archived/one_hot_encode.py +2 -0
smftools/informatics/archived/helpers/archived/plot_bed_histograms.py +2 -0
smftools/informatics/archived/helpers/archived/separate_bam_by_bc.py +2 -0
smftools/informatics/archived/helpers/archived/split_and_index_BAM.py +2 -0
smftools/informatics/archived/print_bam_query_seq.py +2 -0
smftools/informatics/archived/subsample_fasta_from_bed.py +2 -0
smftools/informatics/archived/subsample_pod5.py +2 -0
smftools/informatics/bam_functions.py +1093 -176
smftools/informatics/basecalling.py +2 -0
smftools/informatics/bed_functions.py +271 -61
smftools/informatics/binarize_converted_base_identities.py +3 -0
smftools/informatics/complement_base_list.py +2 -0
smftools/informatics/converted_BAM_to_adata.py +641 -176
smftools/informatics/fasta_functions.py +94 -10
smftools/informatics/h5ad_functions.py +123 -4
smftools/informatics/modkit_extract_to_adata.py +1019 -431
smftools/informatics/modkit_functions.py +2 -0
smftools/informatics/ohe.py +2 -0
smftools/informatics/pod5_functions.py +3 -2
smftools/informatics/sequence_encoding.py +72 -0
smftools/logging_utils.py +21 -2
smftools/machine_learning/__init__.py +22 -6
smftools/machine_learning/data/__init__.py +2 -0
smftools/machine_learning/data/anndata_data_module.py +18 -4
smftools/machine_learning/data/preprocessing.py +2 -0
smftools/machine_learning/evaluation/__init__.py +2 -0
smftools/machine_learning/evaluation/eval_utils.py +2 -0
smftools/machine_learning/evaluation/evaluators.py +14 -9
smftools/machine_learning/inference/__init__.py +2 -0
smftools/machine_learning/inference/inference_utils.py +2 -0
smftools/machine_learning/inference/lightning_inference.py +6 -1
smftools/machine_learning/inference/sklearn_inference.py +2 -0
smftools/machine_learning/inference/sliding_window_inference.py +2 -0
smftools/machine_learning/models/__init__.py +2 -0
smftools/machine_learning/models/base.py +7 -2
smftools/machine_learning/models/cnn.py +7 -2
smftools/machine_learning/models/lightning_base.py +16 -11
smftools/machine_learning/models/mlp.py +5 -1
smftools/machine_learning/models/positional.py +7 -2
smftools/machine_learning/models/rnn.py +5 -1
smftools/machine_learning/models/sklearn_models.py +14 -9
smftools/machine_learning/models/transformer.py +7 -2
smftools/machine_learning/models/wrappers.py +6 -2
smftools/machine_learning/training/__init__.py +2 -0
smftools/machine_learning/training/train_lightning_model.py +13 -3
smftools/machine_learning/training/train_sklearn_model.py +2 -0
smftools/machine_learning/utils/__init__.py +2 -0
smftools/machine_learning/utils/device.py +5 -1
smftools/machine_learning/utils/grl.py +5 -1
smftools/metadata.py +1 -1
smftools/optional_imports.py +31 -0
smftools/plotting/__init__.py +41 -31
smftools/plotting/autocorrelation_plotting.py +9 -5
smftools/plotting/classifiers.py +16 -4
smftools/plotting/general_plotting.py +2415 -629
smftools/plotting/hmm_plotting.py +97 -9
smftools/plotting/position_stats.py +15 -7
smftools/plotting/qc_plotting.py +6 -1
smftools/preprocessing/__init__.py +36 -37
smftools/preprocessing/append_base_context.py +17 -17
smftools/preprocessing/append_mismatch_frequency_sites.py +158 -0
smftools/preprocessing/archived/add_read_length_and_mapping_qc.py +2 -0
smftools/preprocessing/archived/calculate_complexity.py +2 -0
smftools/preprocessing/archived/mark_duplicates.py +2 -0
smftools/preprocessing/archived/preprocessing.py +2 -0
smftools/preprocessing/archived/remove_duplicates.py +2 -0
smftools/preprocessing/binary_layers_to_ohe.py +2 -1
smftools/preprocessing/calculate_complexity_II.py +4 -1
smftools/preprocessing/calculate_consensus.py +1 -1
smftools/preprocessing/calculate_pairwise_differences.py +2 -0
smftools/preprocessing/calculate_pairwise_hamming_distances.py +3 -0
smftools/preprocessing/calculate_position_Youden.py +9 -2
smftools/preprocessing/calculate_read_modification_stats.py +6 -1
smftools/preprocessing/filter_reads_on_length_quality_mapping.py +2 -0
smftools/preprocessing/filter_reads_on_modification_thresholds.py +2 -0
smftools/preprocessing/flag_duplicate_reads.py +42 -54
smftools/preprocessing/make_dirs.py +2 -1
smftools/preprocessing/min_non_diagonal.py +2 -0
smftools/preprocessing/recipes.py +2 -0
smftools/readwrite.py +53 -17
smftools/schema/anndata_schema_v1.yaml +15 -1
smftools/tools/__init__.py +30 -18
smftools/tools/archived/apply_hmm.py +2 -0
smftools/tools/archived/classifiers.py +2 -0
smftools/tools/archived/classify_methylated_features.py +2 -0
smftools/tools/archived/classify_non_methylated_features.py +2 -0
smftools/tools/archived/subset_adata_v1.py +2 -0
smftools/tools/archived/subset_adata_v2.py +2 -0
smftools/tools/calculate_leiden.py +57 -0
smftools/tools/calculate_nmf.py +119 -0
smftools/tools/calculate_umap.py +93 -8
smftools/tools/cluster_adata_on_methylation.py +7 -1
smftools/tools/position_stats.py +17 -27
smftools/tools/rolling_nn_distance.py +235 -0
smftools/tools/tensor_factorization.py +169 -0
{smftools-0.2.5.dist-info → smftools-0.3.1.dist-info}/METADATA +69 -33
smftools-0.3.1.dist-info/RECORD +189 -0
smftools-0.2.5.dist-info/RECORD +0 -181
{smftools-0.2.5.dist-info → smftools-0.3.1.dist-info}/WHEEL +0 -0
{smftools-0.2.5.dist-info → smftools-0.3.1.dist-info}/entry_points.txt +0 -0
{smftools-0.2.5.dist-info → smftools-0.3.1.dist-info}/licenses/LICENSE +0 -0

smftools/tools/calculate_umap.py CHANGED Viewed

@@ -3,6 +3,7 @@ from __future__ import annotations
 from typing import TYPE_CHECKING, Sequence
 from smftools.logging_utils import get_logger
+from smftools.optional_imports import require
 if TYPE_CHECKING:
     import anndata as ad
@@ -18,6 +19,7 @@ def calculate_umap(
     knn_neighbors: int = 100,
     overwrite: bool = True,
     threads: int = 8,
+    random_state: int | None = 0,
 ) -> "ad.AnnData":
     """Compute PCA, neighbors, and UMAP embeddings.
@@ -36,8 +38,11 @@ def calculate_umap(
     import os
     import numpy as np
-    import scanpy as sc
-    from scipy.sparse import issparse
+    import scipy.linalg as spla
+    import scipy.sparse as sp
+    umap = require("umap", extra="umap", purpose="UMAP calculation")
+    pynndescent = require("pynndescent", extra="umap", purpose="KNN graph computation")
     os.environ["OMP_NUM_THREADS"] = str(threads)
@@ -57,7 +62,7 @@ def calculate_umap(
     # Step 2: NaN handling inside layer
     if layer:
         data = adata_subset.layers[layer]
-        if not issparse(data):
+        if not sp.issparse(data):
             if np.isnan(data).any():
                 logger.warning("NaNs detected, filling with 0.5 before PCA + neighbors.")
                 data = np.nan_to_num(data, nan=0.5)
@@ -73,18 +78,98 @@ def calculate_umap(
     if "X_umap" not in adata_subset.obsm or overwrite:
         n_pcs = min(adata_subset.shape[1], n_pcs)
         logger.info("Running PCA with n_pcs=%s", n_pcs)
-        sc.pp.pca(adata_subset, layer=layer)
-        logger.info("Running neighborhood graph")
-        sc.pp.neighbors(adata_subset, use_rep="X_pca", n_pcs=n_pcs, n_neighbors=knn_neighbors)
+        if layer:
+            matrix = adata_subset.layers[layer]
+        else:
+            matrix = adata_subset.X
+        if sp.issparse(matrix):
+            logger.warning("Converting sparse matrix to dense for PCA.")
+            matrix = matrix.toarray()
+        matrix = np.asarray(matrix, dtype=float)
+        mean = matrix.mean(axis=0)
+        centered = matrix - mean
+        if centered.shape[0] == 0 or centered.shape[1] == 0:
+            raise ValueError("PCA requires a non-empty matrix.")
+        if n_pcs <= 0:
+            raise ValueError("n_pcs must be positive.")
+        if centered.shape[1] <= n_pcs:
+            n_pcs = centered.shape[1]
+        if centered.shape[0] < n_pcs:
+            n_pcs = centered.shape[0]
+        u, s, vt = spla.svd(centered, full_matrices=False)
+        u = u[:, :n_pcs]
+        s = s[:n_pcs]
+        vt = vt[:n_pcs]
+        adata_subset.obsm["X_pca"] = u * s
+        adata_subset.varm["PCs"] = vt.T
+        logger.info("Running neighborhood graph with pynndescent (n_neighbors=%s)", knn_neighbors)
+        n_neighbors = min(knn_neighbors, max(1, adata_subset.n_obs - 1))
+        nn_index = pynndescent.NNDescent(
+            adata_subset.obsm["X_pca"],
+            n_neighbors=n_neighbors,
+            metric="euclidean",
+            random_state=random_state,
+            n_jobs=threads,
+        )
+        knn_indices, knn_dists = nn_index.neighbor_graph
+        rows = np.repeat(np.arange(adata_subset.n_obs), n_neighbors)
+        cols = knn_indices.reshape(-1)
+        distances = sp.coo_matrix(
+            (knn_dists.reshape(-1), (rows, cols)),
+            shape=(adata_subset.n_obs, adata_subset.n_obs),
+        ).tocsr()
+        adata_subset.obsp["distances"] = distances
         logger.info("Running UMAP")
-        sc.tl.umap(adata_subset)
+        umap_model = umap.UMAP(
+            n_neighbors=n_neighbors,
+            n_components=2,
+            metric="euclidean",
+            random_state=random_state,
+        )
+        adata_subset.obsm["X_umap"] = umap_model.fit_transform(adata_subset.obsm["X_pca"])
+        try:
+            from umap.umap_ import fuzzy_simplicial_set
+            fuzzy_result = fuzzy_simplicial_set(
+                adata_subset.obsm["X_pca"],
+                n_neighbors=n_neighbors,
+                random_state=random_state,
+                metric="euclidean",
+                knn_indices=knn_indices,
+                knn_dists=knn_dists,
+            )
+            connectivities = fuzzy_result[0] if isinstance(fuzzy_result, tuple) else fuzzy_result
+        except TypeError:
+            connectivities = umap_model.graph_
+        adata_subset.obsp["connectivities"] = connectivities
     # Step 4: Store results in original adata
     adata.obsm["X_pca"] = adata_subset.obsm["X_pca"]
     adata.obsm["X_umap"] = adata_subset.obsm["X_umap"]
     adata.obsp["distances"] = adata_subset.obsp["distances"]
     adata.obsp["connectivities"] = adata_subset.obsp["connectivities"]
-    adata.uns["neighbors"] = adata_subset.uns["neighbors"]
+    adata.uns["neighbors"] = {
+        "params": {
+            "n_neighbors": knn_neighbors,
+            "method": "pynndescent",
+            "metric": "euclidean",
+        }
+    }
     # Fix varm["PCs"] shape mismatch
     pc_matrix = np.zeros((adata.shape[1], adata_subset.varm["PCs"].shape[1]))

smftools/tools/cluster_adata_on_methylation.py CHANGED Viewed

@@ -4,6 +4,7 @@ from __future__ import annotations
 from typing import TYPE_CHECKING, Sequence
 from smftools.logging_utils import get_logger
+from smftools.optional_imports import require
 if TYPE_CHECKING:
     import anndata as ad
@@ -109,7 +110,12 @@ def cluster_adata_on_methylation(
                     )
             elif method == "kmeans":
                 try:
-                    from sklearn.cluster import KMeans
+                    sklearn_cluster = require(
+                        "sklearn.cluster",
+                        extra="ml-base",
+                        purpose="k-means clustering",
+                    )
+                    KMeans = sklearn_cluster.KMeans
                     kmeans = KMeans(n_clusters=n_clusters)
                     kmeans.fit(site_subset.layers[layer])

smftools/tools/position_stats.py CHANGED Viewed

@@ -1,41 +1,26 @@
 from __future__ import annotations
+import os
 import warnings
+from contextlib import contextmanager
+from itertools import cycle
 from typing import TYPE_CHECKING, Dict, List, Optional, Sequence, Tuple
-if TYPE_CHECKING:
-    import anndata as ad
-import matplotlib.pyplot as plt
 import numpy as np
 import pandas as pd
+from scipy.stats import chi2_contingency
+from tqdm import tqdm
-# optional imports
-try:
-    from joblib import Parallel, delayed
-    JOBLIB_AVAILABLE = True
-except Exception:
-    JOBLIB_AVAILABLE = False
+from smftools.optional_imports import require
-try:
-    from scipy.stats import chi2_contingency
+if TYPE_CHECKING:
+    import anndata as ad
-    SCIPY_STATS_AVAILABLE = True
-except Exception:
-    SCIPY_STATS_AVAILABLE = False
+plt = require("matplotlib.pyplot", extra="plotting", purpose="position stats plots")
 # -----------------------------
 # Compute positionwise statistic (multi-method + simple site_types)
 # -----------------------------
-import os
-from contextlib import contextmanager
-from itertools import cycle
-import joblib
-from joblib import Parallel, cpu_count, delayed
-from scipy.stats import chi2_contingency
-from tqdm import tqdm
 # ------------------------- Utilities -------------------------
@@ -197,6 +182,8 @@ def calculate_relative_risk_on_activity(
 @contextmanager
 def tqdm_joblib(tqdm_object: tqdm):
     """Context manager to patch joblib to update a tqdm progress bar."""
+    joblib = require("joblib", extra="ml-base", purpose="parallel position statistics")
     old = joblib.parallel.BatchCompletionCallBack
     class TqdmBatchCompletionCallback(old):  # type: ignore
@@ -315,6 +302,8 @@ def compute_positionwise_statistics(
         max_threads: Maximum number of threads.
         reverse_indices_on_store: Whether to reverse indices on output storage.
     """
+    joblib = require("joblib", extra="ml-base", purpose="parallel position statistics")
     if isinstance(methods, str):
         methods = [methods]
     methods = [m.lower() for m in methods]
@@ -325,7 +314,7 @@ def compute_positionwise_statistics(
     # workers
     if max_threads is None or max_threads <= 0:
-        n_jobs = max(1, cpu_count() or 1)
+        n_jobs = max(1, joblib.cpu_count() or 1)
     else:
         n_jobs = max(1, int(max_threads))
@@ -439,13 +428,14 @@ def compute_positionwise_statistics(
                             worker = _relative_risk_row_job
                         out = np.full((n_pos, n_pos), np.nan, dtype=float)
                         tasks = (
-                            delayed(worker)(i, X_bin, min_count_for_pairwise) for i in range(n_pos)
+                            joblib.delayed(worker)(i, X_bin, min_count_for_pairwise)
+                            for i in range(n_pos)
                         )
                         pbar_rows = tqdm(
                             total=n_pos, desc=f"{m}: rows ({sample}__{ref})", leave=False
                         )
                         with tqdm_joblib(pbar_rows):
-                            results = Parallel(n_jobs=n_jobs, prefer="processes")(tasks)
+                            results = joblib.Parallel(n_jobs=n_jobs, prefer="processes")(tasks)
                         pbar_rows.close()
                         for i, row in results:
                             out[int(i), :] = row

smftools/tools/rolling_nn_distance.py ADDED Viewed

@@ -0,0 +1,235 @@
+from __future__ import annotations
+import ast
+import json
+from typing import TYPE_CHECKING, Optional, Sequence, Tuple
+import numpy as np
+from smftools.logging_utils import get_logger
+if TYPE_CHECKING:
+    import anndata as ad
+logger = get_logger(__name__)
+def _pack_bool_to_u64(B: np.ndarray) -> np.ndarray:
+    """
+    Pack a boolean (or 0/1) matrix (n, w) into uint64 blocks (n, ceil(w/64)).
+    Safe w.r.t. contiguity/layout.
+    """
+    B = np.asarray(B, dtype=np.uint8)
+    packed_u8 = np.packbits(B, axis=1)  # (n, ceil(w/8)) uint8
+    n, nb = packed_u8.shape
+    pad = (-nb) % 8
+    if pad:
+        packed_u8 = np.pad(packed_u8, ((0, 0), (0, pad)), mode="constant", constant_values=0)
+    packed_u8 = np.ascontiguousarray(packed_u8)
+    # group 8 bytes -> uint64
+    packed_u64 = packed_u8.reshape(n, -1, 8).view(np.uint64).reshape(n, -1)
+    return packed_u64
+def _popcount_u64_matrix(A_u64: np.ndarray) -> np.ndarray:
+    """
+    Popcount for an array of uint64, vectorized and portable across NumPy versions.
+    Returns an integer array with the SAME SHAPE as A_u64.
+    """
+    A_u64 = np.ascontiguousarray(A_u64)
+    # View as bytes; IMPORTANT: reshape to add a trailing byte axis of length 8
+    b = A_u64.view(np.uint8).reshape(A_u64.shape + (8,))
+    # unpack bits within that byte axis -> (..., 64), then sum
+    return np.unpackbits(b, axis=-1).sum(axis=-1)
+def rolling_window_nn_distance(
+    adata,
+    layer: Optional[str] = None,
+    window: int = 15,
+    step: int = 2,
+    min_overlap: int = 10,
+    return_fraction: bool = True,
+    block_rows: int = 256,
+    block_cols: int = 2048,
+    store_obsm: Optional[str] = "rolling_nn_dist",
+) -> Tuple[np.ndarray, np.ndarray]:
+    """
+    Rolling-window nearest-neighbor distance per read, overlap-aware.
+    Distance between reads i,j in a window:
+      - use only positions where BOTH are observed (non-NaN)
+      - require overlap >= min_overlap
+      - mismatch = count(x_i != x_j) over overlapped positions
+      - distance = mismatch/overlap (if return_fraction) else mismatch
+    Returns
+    -------
+    out : (n_obs, n_windows) float
+        Nearest-neighbor distance per read per window (NaN if no valid neighbor).
+    starts : (n_windows,) int
+        Window start indices in var-space.
+    """
+    X = adata.layers[layer] if layer is not None else adata.X
+    X = X.toarray() if hasattr(X, "toarray") else np.asarray(X)
+    n, p = X.shape
+    if window > p:
+        raise ValueError(f"window={window} is larger than n_vars={p}")
+    if window <= 0:
+        raise ValueError("window must be > 0")
+    if step <= 0:
+        raise ValueError("step must be > 0")
+    if min_overlap <= 0:
+        raise ValueError("min_overlap must be > 0")
+    starts = np.arange(0, p - window + 1, step, dtype=int)
+    nW = len(starts)
+    out = np.full((n, nW), np.nan, dtype=float)
+    for wi, s in enumerate(starts):
+        wX = X[:, s : s + window]  # (n, window)
+        # observed mask; values as 0/1 where observed, 0 elsewhere
+        M = ~np.isnan(wX)
+        V = np.where(M, wX, 0).astype(np.float32)
+        # ensure binary 0/1
+        V = (V > 0).astype(np.uint8)
+        M64 = _pack_bool_to_u64(M)
+        V64 = _pack_bool_to_u64(V.astype(bool))
+        best = np.full(n, np.inf, dtype=float)
+        for i0 in range(0, n, block_rows):
+            i1 = min(n, i0 + block_rows)
+            Mi = M64[i0:i1]  # (bi, nb)
+            Vi = V64[i0:i1]
+            bi = i1 - i0
+            local_best = np.full(bi, np.inf, dtype=float)
+            for j0 in range(0, n, block_cols):
+                j1 = min(n, j0 + block_cols)
+                Mj = M64[j0:j1]  # (bj, nb)
+                Vj = V64[j0:j1]
+                bj = j1 - j0
+                overlap_counts = np.zeros((bi, bj), dtype=np.uint16)
+                mismatch_counts = np.zeros((bi, bj), dtype=np.uint16)
+                for k in range(Mi.shape[1]):
+                    ob = (Mi[:, k][:, None] & Mj[:, k][None, :]).astype(np.uint64)
+                    overlap_counts += _popcount_u64_matrix(ob).astype(np.uint16)
+                    mb = ((Vi[:, k][:, None] ^ Vj[:, k][None, :]) & ob).astype(np.uint64)
+                    mismatch_counts += _popcount_u64_matrix(mb).astype(np.uint16)
+                ok = overlap_counts >= min_overlap
+                if not np.any(ok):
+                    continue
+                dist = np.full((bi, bj), np.inf, dtype=float)
+                if return_fraction:
+                    dist[ok] = mismatch_counts[ok] / overlap_counts[ok]
+                else:
+                    dist[ok] = mismatch_counts[ok].astype(float)
+                # exclude self comparisons (diagonal) when blocks overlap
+                if (i0 <= j1) and (j0 <= i1):
+                    ii = np.arange(i0, i1)
+                    jj = ii[(ii >= j0) & (ii < j1)]
+                    if jj.size:
+                        dist[(jj - i0), (jj - j0)] = np.inf
+                local_best = np.minimum(local_best, dist.min(axis=1))
+            best[i0:i1] = local_best
+        best[~np.isfinite(best)] = np.nan
+        out[:, wi] = best
+    if store_obsm is not None:
+        adata.obsm[store_obsm] = out
+        adata.uns[f"{store_obsm}_starts"] = starts
+        adata.uns[f"{store_obsm}_window"] = int(window)
+        adata.uns[f"{store_obsm}_step"] = int(step)
+        adata.uns[f"{store_obsm}_min_overlap"] = int(min_overlap)
+        adata.uns[f"{store_obsm}_return_fraction"] = bool(return_fraction)
+        adata.uns[f"{store_obsm}_layer"] = layer if layer is not None else "X"
+    return out, starts
+def assign_rolling_nn_results(
+    parent_adata: "ad.AnnData",
+    subset_adata: "ad.AnnData",
+    values: np.ndarray,
+    starts: np.ndarray,
+    obsm_key: str,
+    window: int,
+    step: int,
+    min_overlap: int,
+    return_fraction: bool,
+    layer: Optional[str],
+) -> None:
+    """
+    Assign rolling NN results computed on a subset back onto a parent AnnData.
+    Parameters
+    ----------
+    parent_adata : AnnData
+        Parent AnnData that should store the combined results.
+    subset_adata : AnnData
+        Subset AnnData used to compute `values`.
+    values : np.ndarray
+        Rolling NN output with shape (n_subset_obs, n_windows).
+    starts : np.ndarray
+        Window start indices corresponding to `values`.
+    obsm_key : str
+        Key to store results under in parent_adata.obsm.
+    window : int
+        Rolling window size (stored in parent_adata.uns).
+    step : int
+        Rolling window step size (stored in parent_adata.uns).
+    min_overlap : int
+        Minimum overlap (stored in parent_adata.uns).
+    return_fraction : bool
+        Whether distances are fractional (stored in parent_adata.uns).
+    layer : str | None
+        Layer used for calculations (stored in parent_adata.uns).
+    """
+    n_obs = parent_adata.n_obs
+    n_windows = values.shape[1]
+    if obsm_key not in parent_adata.obsm:
+        parent_adata.obsm[obsm_key] = np.full((n_obs, n_windows), np.nan, dtype=float)
+        parent_adata.uns[f"{obsm_key}_starts"] = starts
+        parent_adata.uns[f"{obsm_key}_window"] = int(window)
+        parent_adata.uns[f"{obsm_key}_step"] = int(step)
+        parent_adata.uns[f"{obsm_key}_min_overlap"] = int(min_overlap)
+        parent_adata.uns[f"{obsm_key}_return_fraction"] = bool(return_fraction)
+        parent_adata.uns[f"{obsm_key}_layer"] = layer if layer is not None else "X"
+    else:
+        existing = parent_adata.obsm[obsm_key]
+        if existing.shape[1] != n_windows:
+            raise ValueError(
+                f"Existing obsm[{obsm_key!r}] has {existing.shape[1]} windows; "
+                f"new values have {n_windows} windows."
+            )
+        existing_starts = parent_adata.uns.get(f"{obsm_key}_starts")
+        if existing_starts is not None and not np.array_equal(existing_starts, starts):
+            raise ValueError(
+                f"Existing obsm[{obsm_key!r}] has different window starts than new values."
+            )
+    parent_indexer = parent_adata.obs_names.get_indexer(subset_adata.obs_names)
+    if (parent_indexer < 0).any():
+        raise ValueError("Subset AnnData contains obs not present in parent AnnData.")
+    parent_adata.obsm[obsm_key][parent_indexer, :] = values

smftools/tools/tensor_factorization.py ADDED Viewed

@@ -0,0 +1,169 @@
+from __future__ import annotations
+from typing import TYPE_CHECKING, Iterable, Sequence
+import numpy as np
+from smftools.constants import MODKIT_EXTRACT_SEQUENCE_BASE_TO_INT
+from smftools.logging_utils import get_logger
+from smftools.optional_imports import require
+if TYPE_CHECKING:
+    import anndata as ad
+logger = get_logger(__name__)
+def build_sequence_one_hot_and_mask(
+    encoded_sequences: np.ndarray,
+    *,
+    bases: Sequence[str] = ("A", "C", "G", "T"),
+    dtype: np.dtype | type[np.floating] = np.float32,
+) -> tuple[np.ndarray, np.ndarray]:
+    """Build one-hot encoded reads and a seen/unseen mask.
+    Args:
+        encoded_sequences: Integer-encoded sequences shaped (n_reads, seq_len).
+        bases: Bases to one-hot encode.
+        dtype: Output dtype for the one-hot tensor.
+    Returns:
+        Tuple of (one_hot_tensor, mask) where:
+            - one_hot_tensor: (n_reads, seq_len, n_bases)
+            - mask: (n_reads, seq_len) boolean array indicating seen bases.
+    """
+    encoded = np.asarray(encoded_sequences)
+    if encoded.ndim != 2:
+        raise ValueError(
+            f"encoded_sequences must be 2D with shape (n_reads, seq_len); got {encoded.shape}."
+        )
+    base_values = np.array(
+        [MODKIT_EXTRACT_SEQUENCE_BASE_TO_INT[base] for base in bases],
+        dtype=encoded.dtype,
+    )
+    if np.issubdtype(encoded.dtype, np.floating):
+        encoded = encoded.copy()
+        encoded[np.isnan(encoded)] = -1
+    mask = np.isin(encoded, base_values)
+    one_hot = np.zeros((*encoded.shape, len(base_values)), dtype=dtype)
+    for idx, base_value in enumerate(base_values):
+        one_hot[..., idx] = encoded == base_value
+    return one_hot, mask
+def calculate_sequence_cp_decomposition(
+    adata: "ad.AnnData",
+    *,
+    layer: str,
+    rank: int = 5,
+    n_iter_max: int = 100,
+    random_state: int = 0,
+    overwrite: bool = True,
+    embedding_key: str = "X_cp_sequence",
+    components_key: str = "H_cp_sequence",
+    uns_key: str = "cp_sequence",
+    bases: Iterable[str] = ("A", "C", "G", "T"),
+    backend: str = "pytorch",
+    show_progress: bool = False,
+    init: str = "random",
+) -> "ad.AnnData":
+    """Compute CP decomposition on one-hot encoded sequence data with masking.
+    Args:
+        adata: AnnData object to update.
+        layer: Layer name containing integer-encoded sequences.
+        rank: CP rank.
+        n_iter_max: Maximum number of iterations for the solver.
+        random_state: Random seed for initialization.
+        overwrite: Whether to recompute if the embedding already exists.
+        embedding_key: Key for embedding in ``adata.obsm``.
+        components_key: Key for position factors in ``adata.varm``.
+        uns_key: Key for metadata stored in ``adata.uns``.
+        bases: Bases to one-hot encode (in order).
+        backend: Tensorly backend to use (``numpy`` or ``pytorch``).
+        show_progress: Whether to display progress during factorization if supported.
+    Returns:
+        Updated AnnData object containing the CP decomposition outputs.
+    """
+    if embedding_key in adata.obsm and components_key in adata.varm and not overwrite:
+        logger.info("CP embedding and components already present; skipping recomputation.")
+        return adata
+    if backend not in {"numpy", "pytorch"}:
+        raise ValueError(f"Unsupported backend '{backend}'. Use 'numpy' or 'pytorch'.")
+    tensorly = require("tensorly", extra="ml-base", purpose="CP decomposition")
+    from tensorly.decomposition import parafac
+    tensorly.set_backend(backend)
+    if layer not in adata.layers:
+        raise KeyError(f"Layer '{layer}' not found in adata.layers.")
+    one_hot, mask = build_sequence_one_hot_and_mask(adata.layers[layer], bases=tuple(bases))
+    mask_tensor = np.repeat(mask[:, :, None], one_hot.shape[2], axis=2)
+    device = "numpy"
+    if backend == "pytorch":
+        torch = require("torch", extra="ml-base", purpose="CP decomposition backend")
+        if torch.cuda.is_available():
+            device = torch.device("cuda")
+        elif getattr(torch.backends, "mps", None) and torch.backends.mps.is_available():
+            device = torch.device("mps")
+        else:
+            device = torch.device("cpu")
+        one_hot = torch.tensor(one_hot, dtype=torch.float32, device=device)
+        mask_tensor = torch.tensor(mask_tensor, dtype=torch.float32, device=device)
+    parafac_kwargs = {
+        "rank": rank,
+        "n_iter_max": n_iter_max,
+        "init": init,
+        "mask": mask_tensor,
+        "random_state": random_state,
+    }
+    import inspect
+    if "verbose" in inspect.signature(parafac).parameters:
+        parafac_kwargs["verbose"] = show_progress
+    cp = parafac(one_hot, **parafac_kwargs)
+    if backend == "pytorch":
+        weights = cp.weights.detach().cpu().numpy()
+        read_factors, position_factors, base_factors = [
+            factor.detach().cpu().numpy() for factor in cp.factors
+        ]
+    else:
+        weights = np.asarray(cp.weights)
+        read_factors, position_factors, base_factors = [np.asarray(f) for f in cp.factors]
+    adata.obsm[embedding_key] = read_factors
+    adata.varm[components_key] = position_factors
+    adata.uns[uns_key] = {
+        "rank": rank,
+        "n_iter_max": n_iter_max,
+        "random_state": random_state,
+        "layer": layer,
+        "components_key": components_key,
+        "weights": weights,
+        "base_factors": base_factors,
+        "base_labels": list(bases),
+        "backend": backend,
+        "device": str(device),
+    }
+    logger.info(
+        "Stored: adata.obsm['%s'], adata.varm['%s'], adata.uns['%s']",
+        embedding_key,
+        components_key,
+        uns_key,
+    )
+    return adata

smftools 0.2.5__py3-none-any.whl → 0.3.1__py3-none-any.whl

smftools 0.2.5py3-none-any.whl → 0.3.1py3-none-any.whl