PyPI - smftools - Versions diffs - 0.2.3__py3-none-any.whl → 0.2.5__py3-none-any.whl - Mend

smftools 0.2.3py3-none-any.whl → 0.2.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (137) hide show

smftools/__init__.py +6 -8
smftools/_settings.py +4 -6
smftools/_version.py +1 -1
smftools/cli/helpers.py +54 -0
smftools/cli/hmm_adata.py +937 -256
smftools/cli/load_adata.py +448 -268
smftools/cli/preprocess_adata.py +469 -263
smftools/cli/spatial_adata.py +536 -319
smftools/cli_entry.py +97 -182
smftools/config/__init__.py +1 -1
smftools/config/conversion.yaml +17 -6
smftools/config/deaminase.yaml +12 -10
smftools/config/default.yaml +142 -33
smftools/config/direct.yaml +11 -3
smftools/config/discover_input_files.py +19 -5
smftools/config/experiment_config.py +594 -264
smftools/constants.py +37 -0
smftools/datasets/__init__.py +2 -8
smftools/datasets/datasets.py +32 -18
smftools/hmm/HMM.py +2128 -1418
smftools/hmm/__init__.py +2 -9
smftools/hmm/archived/call_hmm_peaks.py +121 -0
smftools/hmm/call_hmm_peaks.py +299 -91
smftools/hmm/display_hmm.py +19 -6
smftools/hmm/hmm_readwrite.py +13 -4
smftools/hmm/nucleosome_hmm_refinement.py +102 -14
smftools/informatics/__init__.py +30 -7
smftools/informatics/archived/helpers/archived/align_and_sort_BAM.py +14 -1
smftools/informatics/archived/helpers/archived/bam_qc.py +14 -1
smftools/informatics/archived/helpers/archived/concatenate_fastqs_to_bam.py +8 -1
smftools/informatics/archived/helpers/archived/load_adata.py +3 -3
smftools/informatics/archived/helpers/archived/plot_bed_histograms.py +3 -1
smftools/informatics/archived/print_bam_query_seq.py +7 -1
smftools/informatics/bam_functions.py +397 -175
smftools/informatics/basecalling.py +51 -9
smftools/informatics/bed_functions.py +90 -57
smftools/informatics/binarize_converted_base_identities.py +18 -7
smftools/informatics/complement_base_list.py +7 -6
smftools/informatics/converted_BAM_to_adata.py +265 -122
smftools/informatics/fasta_functions.py +161 -83
smftools/informatics/h5ad_functions.py +196 -30
smftools/informatics/modkit_extract_to_adata.py +609 -270
smftools/informatics/modkit_functions.py +85 -44
smftools/informatics/ohe.py +44 -21
smftools/informatics/pod5_functions.py +112 -73
smftools/informatics/run_multiqc.py +20 -14
smftools/logging_utils.py +51 -0
smftools/machine_learning/__init__.py +2 -7
smftools/machine_learning/data/anndata_data_module.py +143 -50
smftools/machine_learning/data/preprocessing.py +2 -1
smftools/machine_learning/evaluation/__init__.py +1 -1
smftools/machine_learning/evaluation/eval_utils.py +11 -14
smftools/machine_learning/evaluation/evaluators.py +46 -33
smftools/machine_learning/inference/__init__.py +1 -1
smftools/machine_learning/inference/inference_utils.py +7 -4
smftools/machine_learning/inference/lightning_inference.py +9 -13
smftools/machine_learning/inference/sklearn_inference.py +6 -8
smftools/machine_learning/inference/sliding_window_inference.py +35 -25
smftools/machine_learning/models/__init__.py +10 -5
smftools/machine_learning/models/base.py +28 -42
smftools/machine_learning/models/cnn.py +15 -11
smftools/machine_learning/models/lightning_base.py +71 -40
smftools/machine_learning/models/mlp.py +13 -4
smftools/machine_learning/models/positional.py +3 -2
smftools/machine_learning/models/rnn.py +3 -2
smftools/machine_learning/models/sklearn_models.py +39 -22
smftools/machine_learning/models/transformer.py +68 -53
smftools/machine_learning/models/wrappers.py +2 -1
smftools/machine_learning/training/__init__.py +2 -2
smftools/machine_learning/training/train_lightning_model.py +29 -20
smftools/machine_learning/training/train_sklearn_model.py +9 -15
smftools/machine_learning/utils/__init__.py +1 -1
smftools/machine_learning/utils/device.py +7 -4
smftools/machine_learning/utils/grl.py +3 -1
smftools/metadata.py +443 -0
smftools/plotting/__init__.py +19 -5
smftools/plotting/autocorrelation_plotting.py +145 -44
smftools/plotting/classifiers.py +162 -72
smftools/plotting/general_plotting.py +422 -197
smftools/plotting/hmm_plotting.py +42 -13
smftools/plotting/position_stats.py +147 -87
smftools/plotting/qc_plotting.py +20 -12
smftools/preprocessing/__init__.py +10 -12
smftools/preprocessing/append_base_context.py +115 -80
smftools/preprocessing/append_binary_layer_by_base_context.py +77 -39
smftools/preprocessing/{calculate_complexity.py → archived/calculate_complexity.py} +3 -1
smftools/preprocessing/{archives → archived}/preprocessing.py +8 -6
smftools/preprocessing/binarize.py +21 -4
smftools/preprocessing/binarize_on_Youden.py +129 -31
smftools/preprocessing/binary_layers_to_ohe.py +17 -11
smftools/preprocessing/calculate_complexity_II.py +86 -59
smftools/preprocessing/calculate_consensus.py +28 -19
smftools/preprocessing/calculate_coverage.py +50 -25
smftools/preprocessing/calculate_pairwise_differences.py +2 -1
smftools/preprocessing/calculate_pairwise_hamming_distances.py +4 -3
smftools/preprocessing/calculate_position_Youden.py +118 -54
smftools/preprocessing/calculate_read_length_stats.py +52 -23
smftools/preprocessing/calculate_read_modification_stats.py +91 -57
smftools/preprocessing/clean_NaN.py +38 -28
smftools/preprocessing/filter_adata_by_nan_proportion.py +24 -12
smftools/preprocessing/filter_reads_on_length_quality_mapping.py +71 -38
smftools/preprocessing/filter_reads_on_modification_thresholds.py +181 -73
smftools/preprocessing/flag_duplicate_reads.py +689 -272
smftools/preprocessing/invert_adata.py +26 -11
smftools/preprocessing/load_sample_sheet.py +40 -22
smftools/preprocessing/make_dirs.py +8 -3
smftools/preprocessing/min_non_diagonal.py +2 -1
smftools/preprocessing/recipes.py +56 -23
smftools/preprocessing/reindex_references_adata.py +103 -0
smftools/preprocessing/subsample_adata.py +33 -16
smftools/readwrite.py +331 -82
smftools/schema/__init__.py +11 -0
smftools/schema/anndata_schema_v1.yaml +227 -0
smftools/tools/__init__.py +3 -4
smftools/tools/archived/classifiers.py +163 -0
smftools/tools/archived/subset_adata_v1.py +10 -1
smftools/tools/archived/subset_adata_v2.py +12 -1
smftools/tools/calculate_umap.py +54 -15
smftools/tools/cluster_adata_on_methylation.py +115 -46
smftools/tools/general_tools.py +70 -25
smftools/tools/position_stats.py +229 -98
smftools/tools/read_stats.py +50 -29
smftools/tools/spatial_autocorrelation.py +365 -192
smftools/tools/subset_adata.py +23 -21
{smftools-0.2.3.dist-info → smftools-0.2.5.dist-info}/METADATA +17 -39
smftools-0.2.5.dist-info/RECORD +181 -0
smftools-0.2.3.dist-info/RECORD +0 -173
/smftools/cli/{cli_flows.py → archived/cli_flows.py} +0 -0
/smftools/hmm/{apply_hmm_batched.py → archived/apply_hmm_batched.py} +0 -0
/smftools/hmm/{calculate_distances.py → archived/calculate_distances.py} +0 -0
/smftools/hmm/{train_hmm.py → archived/train_hmm.py} +0 -0
/smftools/preprocessing/{add_read_length_and_mapping_qc.py → archived/add_read_length_and_mapping_qc.py} +0 -0
/smftools/preprocessing/{archives → archived}/mark_duplicates.py +0 -0
/smftools/preprocessing/{archives → archived}/remove_duplicates.py +0 -0
{smftools-0.2.3.dist-info → smftools-0.2.5.dist-info}/WHEEL +0 -0
{smftools-0.2.3.dist-info → smftools-0.2.5.dist-info}/entry_points.txt +0 -0
{smftools-0.2.3.dist-info → smftools-0.2.5.dist-info}/licenses/LICENSE +0 -0

smftools/preprocessing/filter_adata_by_nan_proportion.py CHANGED Viewed

@@ -1,26 +1,38 @@
 ## filter_adata_by_nan_proportion
-def filter_adata_by_nan_proportion(adata, threshold, axis='obs'):
-    """
-    Filters an anndata object on a nan proportion threshold in a given matrix axis.
+from __future__ import annotations
+from typing import TYPE_CHECKING
+if TYPE_CHECKING:
+    import anndata as ad
+def filter_adata_by_nan_proportion(
+    adata: "ad.AnnData", threshold: float, axis: str = "obs"
+) -> "ad.AnnData":
+    """Filter an AnnData object on NaN proportion in a matrix axis.
+    Args:
+        adata: AnnData object to filter.
+        threshold: Maximum allowed NaN proportion.
+        axis: Whether to filter based on ``"obs"`` or ``"var"`` NaN content.
-    Parameters:
-        adata (AnnData):
-        threshold (float): The max np.nan content to allow in the given axis.
-        axis (str): Whether to filter the adata based on obs or var np.nan content
     Returns:
-        filtered_adata
+        anndata.AnnData: Filtered AnnData object.
+    Raises:
+        ValueError: If ``axis`` is not ``"obs"`` or ``"var"``.
     """
     import numpy as np
-    import anndata as ad
-    if axis == 'obs':
+    if axis == "obs":
         # Calculate the proportion of NaN values in each read
         nan_proportion = np.isnan(adata.X).mean(axis=1)
         # Filter reads to keep reads with less than a certain NaN proportion
         filtered_indices = np.where(nan_proportion <= threshold)[0]
         filtered_adata = adata[filtered_indices, :].copy()
-    elif axis == 'var':
+    elif axis == "var":
         # Calculate the proportion of NaN values at a given position
         nan_proportion = np.isnan(adata.X).mean(axis=0)
         # Filter positions to keep positions with less than a certain NaN proportion
@@ -28,4 +40,4 @@ def filter_adata_by_nan_proportion(adata, threshold, axis='obs'):
         filtered_adata = adata[:, filtered_indices].copy()
     else:
         raise ValueError("Axis must be either 'obs' or 'var'")
-    return filtered_adata
+    return filtered_adata

smftools/preprocessing/filter_reads_on_length_quality_mapping.py CHANGED Viewed

@@ -1,28 +1,41 @@
-from typing import Optional, Union, Sequence
+from typing import Optional, Sequence, Union
+import anndata as ad
 import numpy as np
 import pandas as pd
-import anndata as ad
+from smftools.logging_utils import get_logger
+logger = get_logger(__name__)
 def filter_reads_on_length_quality_mapping(
     adata: ad.AnnData,
     filter_on_coordinates: Union[bool, Sequence] = False,
     # New single-range params (preferred):
-    read_length: Optional[Sequence[float]] = None,          # e.g. [min, max]
-    length_ratio: Optional[Sequence[float]] = None,         # e.g. [min, max]
-    read_quality: Optional[Sequence[float]] = None,         # e.g. [min, max]  (commonly min only)
-    mapping_quality: Optional[Sequence[float]] = None,      # e.g. [min, max]  (commonly min only)
-    uns_flag: str = "reads_removed_failing_length_quality_mapping_qc",
+    read_length: Optional[Sequence[float]] = None,  # e.g. [min, max]
+    length_ratio: Optional[Sequence[float]] = None,  # e.g. [min, max]
+    read_quality: Optional[Sequence[float]] = None,  # e.g. [min, max]  (commonly min only)
+    mapping_quality: Optional[Sequence[float]] = None,  # e.g. [min, max]  (commonly min only)
+    uns_flag: str = "filter_reads_on_length_quality_mapping_performed",
     bypass: bool = False,
-    force_redo: bool = True
+    force_redo: bool = True,
 ) -> ad.AnnData:
-    """
-    Filter AnnData by coordinate window, read length, length ratios, read quality and mapping quality.
-    New: you may pass `read_length=[min, max]` (or tuple) to set both min/max in one argument.
-    If `read_length` is given it overrides scalar min/max variants (which are not present in this signature).
-    Same behavior supported for `length_ratio`, `read_quality`, `mapping_quality`.
-    Returns a filtered copy of the input AnnData and marks adata.uns[uns_flag] = True.
+    """Filter AnnData by coordinates, read length, quality, and mapping metrics.
+    Args:
+        adata: AnnData object to filter.
+        filter_on_coordinates: Optional coordinate window as a two-value sequence.
+        read_length: Read length range as ``[min, max]``.
+        length_ratio: Length ratio range as ``[min, max]``.
+        read_quality: Read quality range as ``[min, max]``.
+        mapping_quality: Mapping quality range as ``[min, max]``.
+        uns_flag: Flag in ``adata.uns`` indicating prior completion.
+        bypass: Whether to skip processing.
+        force_redo: Whether to rerun even if ``uns_flag`` is set.
+    Returns:
+        anndata.AnnData: Filtered copy of the input AnnData.
     """
     # early exit
     already = bool(adata.uns.get(uns_flag, False))
@@ -37,7 +50,9 @@ def filter_reads_on_length_quality_mapping(
         try:
             low, high = tuple(filter_on_coordinates)
         except Exception:
-            raise ValueError("filter_on_coordinates must be False or an iterable of two numbers (low, high).")
+            raise ValueError(
+                "filter_on_coordinates must be False or an iterable of two numbers (low, high)."
+            )
         try:
             var_coords = np.array([float(v) for v in adata_work.var_names])
             if low > high:
@@ -50,10 +65,17 @@ def filter_reads_on_length_quality_mapping(
                 selected_cols = list(adata_work.var_names[lo_idx : hi_idx + 1])
             else:
                 selected_cols = list(adata_work.var_names[col_mask_bool])
-            print(f"Subsetting adata to coordinates between {low} and {high}: keeping {len(selected_cols)} variables.")
+            logger.info(
+                "Subsetting adata to coordinates between %s and %s: keeping %s variables.",
+                low,
+                high,
+                len(selected_cols),
+            )
             adata_work = adata_work[:, selected_cols].copy()
         except Exception:
-            print("Warning: could not interpret adata.var_names as numeric coordinates — skipping coordinate filtering.")
+            logger.warning(
+                "Could not interpret adata.var_names as numeric coordinates — skipping coordinate filtering."
+            )
     # --- helper to coerce range inputs ---
     def _coerce_range(range_arg):
@@ -85,72 +107,83 @@ def filter_reads_on_length_quality_mapping(
     # read length filter
     if (rl_min is not None) or (rl_max is not None):
         if "mapped_length" not in adata_work.obs.columns:
-            print("Warning: 'mapped_length' not found in adata.obs — skipping read_length filter.")
+            logger.warning("'mapped_length' not found in adata.obs — skipping read_length filter.")
         else:
             vals = pd.to_numeric(adata_work.obs["mapped_length"], errors="coerce")
             mask = pd.Series(True, index=adata_work.obs.index)
             if rl_min is not None:
-                mask &= (vals >= rl_min)
+                mask &= vals >= rl_min
             if rl_max is not None:
-                mask &= (vals <= rl_max)
+                mask &= vals <= rl_max
             mask &= vals.notna()
             combined_mask &= mask
-            print(f"Planned read_length filter: min={rl_min}, max={rl_max}")
+            logger.info("Planned read_length filter: min=%s, max=%s", rl_min, rl_max)
     # length ratio filter
     if (lr_min is not None) or (lr_max is not None):
         if "mapped_length_to_reference_length_ratio" not in adata_work.obs.columns:
-            print("Warning: 'mapped_length_to_reference_length_ratio' not found in adata.obs — skipping length_ratio filter.")
+            logger.warning(
+                "'mapped_length_to_reference_length_ratio' not found in adata.obs — skipping length_ratio filter."
+            )
         else:
-            vals = pd.to_numeric(adata_work.obs["mapped_length_to_reference_length_ratio"], errors="coerce")
+            vals = pd.to_numeric(
+                adata_work.obs["mapped_length_to_reference_length_ratio"], errors="coerce"
+            )
             mask = pd.Series(True, index=adata_work.obs.index)
             if lr_min is not None:
-                mask &= (vals >= lr_min)
+                mask &= vals >= lr_min
             if lr_max is not None:
-                mask &= (vals <= lr_max)
+                mask &= vals <= lr_max
             mask &= vals.notna()
             combined_mask &= mask
-            print(f"Planned length_ratio filter: min={lr_min}, max={lr_max}")
+            logger.info("Planned length_ratio filter: min=%s, max=%s", lr_min, lr_max)
     # read quality filter (supporting optional range but typically min only)
     if (rq_min is not None) or (rq_max is not None):
         if "read_quality" not in adata_work.obs.columns:
-            print("Warning: 'read_quality' not found in adata.obs — skipping read_quality filter.")
+            logger.warning("'read_quality' not found in adata.obs — skipping read_quality filter.")
         else:
             vals = pd.to_numeric(adata_work.obs["read_quality"], errors="coerce")
             mask = pd.Series(True, index=adata_work.obs.index)
             if rq_min is not None:
-                mask &= (vals >= rq_min)
+                mask &= vals >= rq_min
             if rq_max is not None:
-                mask &= (vals <= rq_max)
+                mask &= vals <= rq_max
             mask &= vals.notna()
             combined_mask &= mask
-            print(f"Planned read_quality filter: min={rq_min}, max={rq_max}")
+            logger.info("Planned read_quality filter: min=%s, max=%s", rq_min, rq_max)
     # mapping quality filter (supporting optional range but typically min only)
     if (mq_min is not None) or (mq_max is not None):
         if "mapping_quality" not in adata_work.obs.columns:
-            print("Warning: 'mapping_quality' not found in adata.obs — skipping mapping_quality filter.")
+            logger.warning(
+                "'mapping_quality' not found in adata.obs — skipping mapping_quality filter."
+            )
         else:
             vals = pd.to_numeric(adata_work.obs["mapping_quality"], errors="coerce")
             mask = pd.Series(True, index=adata_work.obs.index)
             if mq_min is not None:
-                mask &= (vals >= mq_min)
+                mask &= vals >= mq_min
             if mq_max is not None:
-                mask &= (vals <= mq_max)
+                mask &= vals <= mq_max
             mask &= vals.notna()
             combined_mask &= mask
-            print(f"Planned mapping_quality filter: min={mq_min}, max={mq_max}")
+            logger.info("Planned mapping_quality filter: min=%s, max=%s", mq_min, mq_max)
     # Apply combined mask and report
     s0 = adata_work.n_obs
     combined_mask_bool = combined_mask.astype(bool).values
     adata_work = adata_work[combined_mask_bool].copy()
     s1 = adata_work.n_obs
-    print(f"Combined filters applied: kept {s1} / {s0} reads (removed {s0 - s1})")
+    logger.info("Combined filters applied: kept %s / %s reads (removed %s)", s1, s0, s0 - s1)
     final_n = adata_work.n_obs
-    print(f"Filtering complete: start={start_n}, final={final_n}, removed={start_n - final_n}")
+    logger.info(
+        "Filtering complete: start=%s, final=%s, removed=%s",
+        start_n,
+        final_n,
+        start_n - final_n,
+    )
     # mark as done
     adata_work.uns[uns_flag] = True

smftools 0.2.3__py3-none-any.whl → 0.2.5__py3-none-any.whl

smftools 0.2.3py3-none-any.whl → 0.2.5py3-none-any.whl