PyPI - smftools - Versions diffs - 0.2.4__py3-none-any.whl → 0.3.0__py3-none-any.whl - Mend

smftools 0.2.4py3-none-any.whl → 0.3.0py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (181) hide show

smftools/__init__.py +43 -13
smftools/_settings.py +6 -6
smftools/_version.py +3 -1
smftools/cli/__init__.py +1 -0
smftools/cli/archived/cli_flows.py +2 -0
smftools/cli/helpers.py +9 -1
smftools/cli/hmm_adata.py +905 -242
smftools/cli/load_adata.py +432 -280
smftools/cli/preprocess_adata.py +287 -171
smftools/cli/spatial_adata.py +141 -53
smftools/cli_entry.py +119 -178
smftools/config/__init__.py +3 -1
smftools/config/conversion.yaml +5 -1
smftools/config/deaminase.yaml +1 -1
smftools/config/default.yaml +26 -18
smftools/config/direct.yaml +8 -3
smftools/config/discover_input_files.py +19 -5
smftools/config/experiment_config.py +511 -276
smftools/constants.py +37 -0
smftools/datasets/__init__.py +4 -8
smftools/datasets/datasets.py +32 -18
smftools/hmm/HMM.py +2133 -1428
smftools/hmm/__init__.py +24 -14
smftools/hmm/archived/apply_hmm_batched.py +2 -0
smftools/hmm/archived/calculate_distances.py +2 -0
smftools/hmm/archived/call_hmm_peaks.py +18 -1
smftools/hmm/archived/train_hmm.py +2 -0
smftools/hmm/call_hmm_peaks.py +176 -193
smftools/hmm/display_hmm.py +23 -7
smftools/hmm/hmm_readwrite.py +20 -6
smftools/hmm/nucleosome_hmm_refinement.py +104 -14
smftools/informatics/__init__.py +55 -13
smftools/informatics/archived/bam_conversion.py +2 -0
smftools/informatics/archived/bam_direct.py +2 -0
smftools/informatics/archived/basecall_pod5s.py +2 -0
smftools/informatics/archived/basecalls_to_adata.py +2 -0
smftools/informatics/archived/conversion_smf.py +2 -0
smftools/informatics/archived/deaminase_smf.py +1 -0
smftools/informatics/archived/direct_smf.py +2 -0
smftools/informatics/archived/fast5_to_pod5.py +2 -0
smftools/informatics/archived/helpers/archived/__init__.py +2 -0
smftools/informatics/archived/helpers/archived/align_and_sort_BAM.py +16 -1
smftools/informatics/archived/helpers/archived/aligned_BAM_to_bed.py +2 -0
smftools/informatics/archived/helpers/archived/bam_qc.py +14 -1
smftools/informatics/archived/helpers/archived/bed_to_bigwig.py +2 -0
smftools/informatics/archived/helpers/archived/canoncall.py +2 -0
smftools/informatics/archived/helpers/archived/concatenate_fastqs_to_bam.py +8 -1
smftools/informatics/archived/helpers/archived/converted_BAM_to_adata.py +2 -0
smftools/informatics/archived/helpers/archived/count_aligned_reads.py +2 -0
smftools/informatics/archived/helpers/archived/demux_and_index_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/extract_base_identities.py +2 -0
smftools/informatics/archived/helpers/archived/extract_mods.py +2 -0
smftools/informatics/archived/helpers/archived/extract_read_features_from_bam.py +2 -0
smftools/informatics/archived/helpers/archived/extract_read_lengths_from_bed.py +2 -0
smftools/informatics/archived/helpers/archived/extract_readnames_from_BAM.py +2 -0
smftools/informatics/archived/helpers/archived/find_conversion_sites.py +2 -0
smftools/informatics/archived/helpers/archived/generate_converted_FASTA.py +2 -0
smftools/informatics/archived/helpers/archived/get_chromosome_lengths.py +2 -0
smftools/informatics/archived/helpers/archived/get_native_references.py +2 -0
smftools/informatics/archived/helpers/archived/index_fasta.py +2 -0
smftools/informatics/archived/helpers/archived/informatics.py +2 -0
smftools/informatics/archived/helpers/archived/load_adata.py +5 -3
smftools/informatics/archived/helpers/archived/make_modbed.py +2 -0
smftools/informatics/archived/helpers/archived/modQC.py +2 -0
smftools/informatics/archived/helpers/archived/modcall.py +2 -0
smftools/informatics/archived/helpers/archived/ohe_batching.py +2 -0
smftools/informatics/archived/helpers/archived/ohe_layers_decode.py +2 -0
smftools/informatics/archived/helpers/archived/one_hot_decode.py +2 -0
smftools/informatics/archived/helpers/archived/one_hot_encode.py +2 -0
smftools/informatics/archived/helpers/archived/plot_bed_histograms.py +5 -1
smftools/informatics/archived/helpers/archived/separate_bam_by_bc.py +2 -0
smftools/informatics/archived/helpers/archived/split_and_index_BAM.py +2 -0
smftools/informatics/archived/print_bam_query_seq.py +9 -1
smftools/informatics/archived/subsample_fasta_from_bed.py +2 -0
smftools/informatics/archived/subsample_pod5.py +2 -0
smftools/informatics/bam_functions.py +1059 -269
smftools/informatics/basecalling.py +53 -9
smftools/informatics/bed_functions.py +357 -114
smftools/informatics/binarize_converted_base_identities.py +21 -7
smftools/informatics/complement_base_list.py +9 -6
smftools/informatics/converted_BAM_to_adata.py +324 -137
smftools/informatics/fasta_functions.py +251 -89
smftools/informatics/h5ad_functions.py +202 -30
smftools/informatics/modkit_extract_to_adata.py +623 -274
smftools/informatics/modkit_functions.py +87 -44
smftools/informatics/ohe.py +46 -21
smftools/informatics/pod5_functions.py +114 -74
smftools/informatics/run_multiqc.py +20 -14
smftools/logging_utils.py +51 -0
smftools/machine_learning/__init__.py +23 -12
smftools/machine_learning/data/__init__.py +2 -0
smftools/machine_learning/data/anndata_data_module.py +157 -50
smftools/machine_learning/data/preprocessing.py +4 -1
smftools/machine_learning/evaluation/__init__.py +3 -1
smftools/machine_learning/evaluation/eval_utils.py +13 -14
smftools/machine_learning/evaluation/evaluators.py +52 -34
smftools/machine_learning/inference/__init__.py +3 -1
smftools/machine_learning/inference/inference_utils.py +9 -4
smftools/machine_learning/inference/lightning_inference.py +14 -13
smftools/machine_learning/inference/sklearn_inference.py +8 -8
smftools/machine_learning/inference/sliding_window_inference.py +37 -25
smftools/machine_learning/models/__init__.py +12 -5
smftools/machine_learning/models/base.py +34 -43
smftools/machine_learning/models/cnn.py +22 -13
smftools/machine_learning/models/lightning_base.py +78 -42
smftools/machine_learning/models/mlp.py +18 -5
smftools/machine_learning/models/positional.py +10 -4
smftools/machine_learning/models/rnn.py +8 -3
smftools/machine_learning/models/sklearn_models.py +46 -24
smftools/machine_learning/models/transformer.py +75 -55
smftools/machine_learning/models/wrappers.py +8 -3
smftools/machine_learning/training/__init__.py +4 -2
smftools/machine_learning/training/train_lightning_model.py +42 -23
smftools/machine_learning/training/train_sklearn_model.py +11 -15
smftools/machine_learning/utils/__init__.py +3 -1
smftools/machine_learning/utils/device.py +12 -5
smftools/machine_learning/utils/grl.py +8 -2
smftools/metadata.py +443 -0
smftools/optional_imports.py +31 -0
smftools/plotting/__init__.py +32 -17
smftools/plotting/autocorrelation_plotting.py +153 -48
smftools/plotting/classifiers.py +175 -73
smftools/plotting/general_plotting.py +350 -168
smftools/plotting/hmm_plotting.py +53 -14
smftools/plotting/position_stats.py +155 -87
smftools/plotting/qc_plotting.py +25 -12
smftools/preprocessing/__init__.py +35 -37
smftools/preprocessing/append_base_context.py +105 -79
smftools/preprocessing/append_binary_layer_by_base_context.py +75 -37
smftools/preprocessing/{archives → archived}/add_read_length_and_mapping_qc.py +2 -0
smftools/preprocessing/{archives → archived}/calculate_complexity.py +5 -1
smftools/preprocessing/{archives → archived}/mark_duplicates.py +2 -0
smftools/preprocessing/{archives → archived}/preprocessing.py +10 -6
smftools/preprocessing/{archives → archived}/remove_duplicates.py +2 -0
smftools/preprocessing/binarize.py +21 -4
smftools/preprocessing/binarize_on_Youden.py +127 -31
smftools/preprocessing/binary_layers_to_ohe.py +18 -11
smftools/preprocessing/calculate_complexity_II.py +89 -59
smftools/preprocessing/calculate_consensus.py +28 -19
smftools/preprocessing/calculate_coverage.py +44 -22
smftools/preprocessing/calculate_pairwise_differences.py +4 -1
smftools/preprocessing/calculate_pairwise_hamming_distances.py +7 -3
smftools/preprocessing/calculate_position_Youden.py +110 -55
smftools/preprocessing/calculate_read_length_stats.py +52 -23
smftools/preprocessing/calculate_read_modification_stats.py +91 -57
smftools/preprocessing/clean_NaN.py +38 -28
smftools/preprocessing/filter_adata_by_nan_proportion.py +24 -12
smftools/preprocessing/filter_reads_on_length_quality_mapping.py +72 -37
smftools/preprocessing/filter_reads_on_modification_thresholds.py +183 -73
smftools/preprocessing/flag_duplicate_reads.py +708 -303
smftools/preprocessing/invert_adata.py +26 -11
smftools/preprocessing/load_sample_sheet.py +40 -22
smftools/preprocessing/make_dirs.py +9 -3
smftools/preprocessing/min_non_diagonal.py +4 -1
smftools/preprocessing/recipes.py +58 -23
smftools/preprocessing/reindex_references_adata.py +93 -27
smftools/preprocessing/subsample_adata.py +33 -16
smftools/readwrite.py +264 -109
smftools/schema/__init__.py +11 -0
smftools/schema/anndata_schema_v1.yaml +227 -0
smftools/tools/__init__.py +25 -18
smftools/tools/archived/apply_hmm.py +2 -0
smftools/tools/archived/classifiers.py +165 -0
smftools/tools/archived/classify_methylated_features.py +2 -0
smftools/tools/archived/classify_non_methylated_features.py +2 -0
smftools/tools/archived/subset_adata_v1.py +12 -1
smftools/tools/archived/subset_adata_v2.py +14 -1
smftools/tools/calculate_umap.py +56 -15
smftools/tools/cluster_adata_on_methylation.py +122 -47
smftools/tools/general_tools.py +70 -25
smftools/tools/position_stats.py +220 -99
smftools/tools/read_stats.py +50 -29
smftools/tools/spatial_autocorrelation.py +365 -192
smftools/tools/subset_adata.py +23 -21
smftools-0.3.0.dist-info/METADATA +147 -0
smftools-0.3.0.dist-info/RECORD +182 -0
smftools-0.2.4.dist-info/METADATA +0 -141
smftools-0.2.4.dist-info/RECORD +0 -176
{smftools-0.2.4.dist-info → smftools-0.3.0.dist-info}/WHEEL +0 -0
{smftools-0.2.4.dist-info → smftools-0.3.0.dist-info}/entry_points.txt +0 -0
{smftools-0.2.4.dist-info → smftools-0.3.0.dist-info}/licenses/LICENSE +0 -0

smftools/preprocessing/calculate_read_modification_stats.py CHANGED Viewed

@@ -1,62 +1,92 @@
-def calculate_read_modification_stats(adata,
-                                      reference_column,
-                                      sample_names_col,
-                                      mod_target_bases,
-                                      uns_flag="calculate_read_modification_stats_performed",
-                                      bypass=False,
-                                      force_redo=False
-):
-    """
-    Adds methylation/deamination statistics for each read.
-    Indicates the read GpC and CpG methylation ratio to other_C methylation (background false positive metric for Cytosine MTase SMF).
+from __future__ import annotations
+from typing import TYPE_CHECKING
+from smftools.logging_utils import get_logger
+if TYPE_CHECKING:
+    import anndata as ad
-    Parameters:
-        adata (AnnData): An adata object
-        reference_column (str): String representing the name of the Reference column to use
-        sample_names_col (str): String representing the name of the sample name column to use
-        mod_target_bases:
+logger = get_logger(__name__)
-    Returns:
-        None
+def calculate_read_modification_stats(
+    adata: "ad.AnnData",
+    reference_column: str,
+    sample_names_col: str,
+    mod_target_bases: list[str],
+    uns_flag: str = "calculate_read_modification_stats_performed",
+    bypass: bool = False,
+    force_redo: bool = False,
+    valid_sites_only: bool = False,
+    valid_site_suffix: str = "_valid_coverage",
+) -> None:
+    """Add methylation/deamination statistics for each read.
+    Args:
+        adata: AnnData object.
+        reference_column: Obs column containing reference identifiers.
+        sample_names_col: Obs column containing sample identifiers.
+        mod_target_bases: List of target base contexts (e.g., ``["GpC", "CpG"]``).
+        uns_flag: Flag in ``adata.uns`` indicating prior completion.
+        bypass: Whether to skip processing.
+        force_redo: Whether to rerun even if ``uns_flag`` is set.
+        valid_sites_only: Whether to restrict to valid coverage sites.
+        valid_site_suffix: Suffix used for valid-site matrices.
     """
     import numpy as np
-    import anndata as ad
     import pandas as pd
+    if valid_sites_only:
+        if adata.uns.get("calculate_coverage_performed", False):
+            pass
+        else:
+            valid_sites_only = False
+    if not valid_sites_only:
+        valid_site_suffix = ""
     # Only run if not already performed
     already = bool(adata.uns.get(uns_flag, False))
     if (already and not force_redo) or bypass:
         # QC already performed; nothing to do
         return
-    print('Calculating read level Modification statistics')
+    logger.info("Calculating read level Modification statistics")
     references = set(adata.obs[reference_column])
     sample_names = set(adata.obs[sample_names_col])
     site_types = []
-    if any(base in mod_target_bases for base in ['GpC', 'CpG', 'C']):
-        site_types += ['GpC_site', 'CpG_site', 'ambiguous_GpC_CpG_site', 'other_C_site', 'C_site']
-    if 'A' in mod_target_bases:
-        site_types += ['A_site']
+    if any(base in mod_target_bases for base in ["GpC", "CpG", "C"]):
+        site_types += ["GpC_site", "CpG_site", "ambiguous_GpC_CpG_site", "other_C_site", "C_site"]
-    for site_type in site_types:
-        adata.obs[f'Modified_{site_type}_count'] = pd.Series(0, index=adata.obs_names, dtype=int)
-        adata.obs[f'Total_{site_type}_in_read'] = pd.Series(0, index=adata.obs_names, dtype=int)
-        adata.obs[f'Fraction_{site_type}_modified'] = pd.Series(np.nan, index=adata.obs_names, dtype=float)
-        adata.obs[f'Total_{site_type}_in_reference'] = pd.Series(np.nan, index=adata.obs_names, dtype=int)
-        adata.obs[f'Valid_{site_type}_in_read_vs_reference'] = pd.Series(np.nan, index=adata.obs_names, dtype=float)
+    if "A" in mod_target_bases:
+        site_types += ["A_site"]
+    for site_type in site_types:
+        adata.obs[f"Modified_{site_type}_count"] = pd.Series(0, index=adata.obs_names, dtype=int)
+        adata.obs[f"Total_{site_type}_in_read"] = pd.Series(0, index=adata.obs_names, dtype=int)
+        adata.obs[f"Fraction_{site_type}_modified"] = pd.Series(
+            np.nan, index=adata.obs_names, dtype=float
+        )
+        adata.obs[f"Total_{site_type}_in_reference"] = pd.Series(
+            np.nan, index=adata.obs_names, dtype=int
+        )
+        adata.obs[f"Valid_{site_type}_in_read_vs_reference"] = pd.Series(
+            np.nan, index=adata.obs_names, dtype=float
+        )
     for ref in references:
         ref_subset = adata[adata.obs[reference_column] == ref]
         for site_type in site_types:
-            print(f'Iterating over {ref}_{site_type}')
-            observation_matrix = ref_subset.obsm[f'{ref}_{site_type}']
+            logger.info("Iterating over %s_%s", ref, site_type)
+            observation_matrix = ref_subset.obsm[f"{ref}_{site_type}{valid_site_suffix}"]
             total_positions_in_read = np.nansum(~np.isnan(observation_matrix), axis=1)
             total_positions_in_reference = observation_matrix.shape[1]
-            fraction_valid_positions_in_read_vs_ref = total_positions_in_read / total_positions_in_reference
+            fraction_valid_positions_in_read_vs_ref = (
+                total_positions_in_read / total_positions_in_reference
+            )
             number_mods_in_read = np.nansum(observation_matrix, axis=1)
             fraction_modified = number_mods_in_read / total_positions_in_read
@@ -64,38 +94,42 @@ def calculate_read_modification_stats(adata,
                 number_mods_in_read,
                 total_positions_in_read,
                 out=np.full_like(number_mods_in_read, np.nan, dtype=float),
-                where=total_positions_in_read != 0
+                where=total_positions_in_read != 0,
+            )
+            temp_obs_data = pd.DataFrame(
+                {
+                    f"Total_{site_type}_in_read": total_positions_in_read,
+                    f"Modified_{site_type}_count": number_mods_in_read,
+                    f"Fraction_{site_type}_modified": fraction_modified,
+                    f"Total_{site_type}_in_reference": total_positions_in_reference,
+                    f"Valid_{site_type}_in_read_vs_reference": fraction_valid_positions_in_read_vs_ref,
+                },
+                index=ref_subset.obs.index,
             )
-            temp_obs_data = pd.DataFrame({f'Total_{site_type}_in_read': total_positions_in_read,
-                                        f'Modified_{site_type}_count': number_mods_in_read,
-                                        f'Fraction_{site_type}_modified': fraction_modified,
-                                        f'Total_{site_type}_in_reference': total_positions_in_reference,
-                                        f'Valid_{site_type}_in_read_vs_reference': fraction_valid_positions_in_read_vs_ref},
-                                        index=ref_subset.obs.index)
             adata.obs.update(temp_obs_data)
-    if any(base in mod_target_bases for base in ['GpC', 'CpG', 'C']):
-        with np.errstate(divide='ignore', invalid='ignore'):
+    if any(base in mod_target_bases for base in ["GpC", "CpG", "C"]):
+        with np.errstate(divide="ignore", invalid="ignore"):
             gpc_to_c_ratio = np.divide(
-                adata.obs[f'Fraction_GpC_site_modified'],
-                adata.obs[f'Fraction_other_C_site_modified'],
-                out=np.full_like(adata.obs[f'Fraction_GpC_site_modified'], np.nan, dtype=float),
-                where=adata.obs[f'Fraction_other_C_site_modified'] != 0
+                adata.obs["Fraction_GpC_site_modified"],
+                adata.obs["Fraction_other_C_site_modified"],
+                out=np.full_like(adata.obs["Fraction_GpC_site_modified"], np.nan, dtype=float),
+                where=adata.obs["Fraction_other_C_site_modified"] != 0,
             )
             cpg_to_c_ratio = np.divide(
-                adata.obs[f'Fraction_CpG_site_modified'],
-                adata.obs[f'Fraction_other_C_site_modified'],
-                out=np.full_like(adata.obs[f'Fraction_CpG_site_modified'], np.nan, dtype=float),
-                where=adata.obs[f'Fraction_other_C_site_modified'] != 0
-                )
-        adata.obs['GpC_to_other_C_mod_ratio'] = gpc_to_c_ratio
-        adata.obs['CpG_to_other_C_mod_ratio'] = cpg_to_c_ratio
+                adata.obs["Fraction_CpG_site_modified"],
+                adata.obs["Fraction_other_C_site_modified"],
+                out=np.full_like(adata.obs["Fraction_CpG_site_modified"], np.nan, dtype=float),
+                where=adata.obs["Fraction_other_C_site_modified"] != 0,
+            )
+        adata.obs["GpC_to_other_C_mod_ratio"] = gpc_to_c_ratio
+        adata.obs["CpG_to_other_C_mod_ratio"] = cpg_to_c_ratio
     # mark as done
     adata.uns[uns_flag] = True
-    return
+    return

smftools/preprocessing/clean_NaN.py CHANGED Viewed

@@ -1,23 +1,33 @@
-def clean_NaN(adata,
-            layer=None,
-            uns_flag='clean_NaN_performed',
-            bypass=False,
-            force_redo=True
-):
-    """
-    Append layers to adata that contain NaN cleaning strategies.
+from __future__ import annotations
-    Parameters:
-        adata (AnnData): an anndata object
-        layer (str, optional): Name of the layer to fill NaN values in. If None, uses adata.X.
+from typing import TYPE_CHECKING
-    Modifies:
-        - Adds new layers to `adata.layers` with different NaN-filling strategies.
-    """
-    import numpy as np
-    import pandas as pd
+from smftools.logging_utils import get_logger
+if TYPE_CHECKING:
     import anndata as ad
-    from ..readwrite import adata_to_df
+logger = get_logger(__name__)
+def clean_NaN(
+    adata: "ad.AnnData",
+    layer: str | None = None,
+    uns_flag: str = "clean_NaN_performed",
+    bypass: bool = False,
+    force_redo: bool = True,
+) -> None:
+    """Append layers to ``adata`` that contain NaN-cleaning strategies.
+    Args:
+        adata: AnnData object.
+        layer: Layer to fill NaN values in. If ``None``, uses ``adata.X``.
+        uns_flag: Flag in ``adata.uns`` indicating prior completion.
+        bypass: Whether to skip processing.
+        force_redo: Whether to rerun even if ``uns_flag`` is set.
+    """
+    from ..readwrite import adata_to_df
     # Only run if not already performed
     already = bool(adata.uns.get(uns_flag, False))
@@ -33,30 +43,30 @@ def clean_NaN(adata,
     df = adata_to_df(adata, layer=layer)
     # Fill NaN with closest SMF value (forward then backward fill)
-    print('Making layer: fill_nans_closest')
-    adata.layers['fill_nans_closest'] = df.ffill(axis=1).bfill(axis=1).values
+    logger.info("Making layer: fill_nans_closest")
+    adata.layers["fill_nans_closest"] = df.ffill(axis=1).bfill(axis=1).values
     # Replace NaN with 0, and 0 with -1
-    print('Making layer: nan0_0minus1')
+    logger.info("Making layer: nan0_0minus1")
     df_nan0_0minus1 = df.replace(0, -1).fillna(0)
-    adata.layers['nan0_0minus1'] = df_nan0_0minus1.values
+    adata.layers["nan0_0minus1"] = df_nan0_0minus1.values
     # Replace NaN with 1, and 1 with 2
-    print('Making layer: nan1_12')
+    logger.info("Making layer: nan1_12")
     df_nan1_12 = df.replace(1, 2).fillna(1)
-    adata.layers['nan1_12'] = df_nan1_12.values
+    adata.layers["nan1_12"] = df_nan1_12.values
     # Replace NaN with -1
-    print('Making layer: nan_minus_1')
+    logger.info("Making layer: nan_minus_1")
     df_nan_minus_1 = df.fillna(-1)
-    adata.layers['nan_minus_1'] = df_nan_minus_1.values
+    adata.layers["nan_minus_1"] = df_nan_minus_1.values
     # Replace NaN with -1
-    print('Making layer: nan_half')
+    logger.info("Making layer: nan_half")
     df_nan_half = df.fillna(0.5)
-    adata.layers['nan_half'] = df_nan_half.values
+    adata.layers["nan_half"] = df_nan_half.values
     # mark as done
     adata.uns[uns_flag] = True
-    return None
+    return None

smftools/preprocessing/filter_adata_by_nan_proportion.py CHANGED Viewed

@@ -1,26 +1,38 @@
 ## filter_adata_by_nan_proportion
-def filter_adata_by_nan_proportion(adata, threshold, axis='obs'):
-    """
-    Filters an anndata object on a nan proportion threshold in a given matrix axis.
+from __future__ import annotations
+from typing import TYPE_CHECKING
+if TYPE_CHECKING:
+    import anndata as ad
+def filter_adata_by_nan_proportion(
+    adata: "ad.AnnData", threshold: float, axis: str = "obs"
+) -> "ad.AnnData":
+    """Filter an AnnData object on NaN proportion in a matrix axis.
+    Args:
+        adata: AnnData object to filter.
+        threshold: Maximum allowed NaN proportion.
+        axis: Whether to filter based on ``"obs"`` or ``"var"`` NaN content.
-    Parameters:
-        adata (AnnData):
-        threshold (float): The max np.nan content to allow in the given axis.
-        axis (str): Whether to filter the adata based on obs or var np.nan content
     Returns:
-        filtered_adata
+        anndata.AnnData: Filtered AnnData object.
+    Raises:
+        ValueError: If ``axis`` is not ``"obs"`` or ``"var"``.
     """
     import numpy as np
-    import anndata as ad
-    if axis == 'obs':
+    if axis == "obs":
         # Calculate the proportion of NaN values in each read
         nan_proportion = np.isnan(adata.X).mean(axis=1)
         # Filter reads to keep reads with less than a certain NaN proportion
         filtered_indices = np.where(nan_proportion <= threshold)[0]
         filtered_adata = adata[filtered_indices, :].copy()
-    elif axis == 'var':
+    elif axis == "var":
         # Calculate the proportion of NaN values at a given position
         nan_proportion = np.isnan(adata.X).mean(axis=0)
         # Filter positions to keep positions with less than a certain NaN proportion
@@ -28,4 +40,4 @@ def filter_adata_by_nan_proportion(adata, threshold, axis='obs'):
         filtered_adata = adata[:, filtered_indices].copy()
     else:
         raise ValueError("Axis must be either 'obs' or 'var'")
-    return filtered_adata
+    return filtered_adata

smftools/preprocessing/filter_reads_on_length_quality_mapping.py CHANGED Viewed

@@ -1,28 +1,43 @@
-from typing import Optional, Union, Sequence
+from __future__ import annotations
+from typing import Optional, Sequence, Union
+import anndata as ad
 import numpy as np
 import pandas as pd
-import anndata as ad
+from smftools.logging_utils import get_logger
+logger = get_logger(__name__)
 def filter_reads_on_length_quality_mapping(
     adata: ad.AnnData,
     filter_on_coordinates: Union[bool, Sequence] = False,
     # New single-range params (preferred):
-    read_length: Optional[Sequence[float]] = None,          # e.g. [min, max]
-    length_ratio: Optional[Sequence[float]] = None,         # e.g. [min, max]
-    read_quality: Optional[Sequence[float]] = None,         # e.g. [min, max]  (commonly min only)
-    mapping_quality: Optional[Sequence[float]] = None,      # e.g. [min, max]  (commonly min only)
+    read_length: Optional[Sequence[float]] = None,  # e.g. [min, max]
+    length_ratio: Optional[Sequence[float]] = None,  # e.g. [min, max]
+    read_quality: Optional[Sequence[float]] = None,  # e.g. [min, max]  (commonly min only)
+    mapping_quality: Optional[Sequence[float]] = None,  # e.g. [min, max]  (commonly min only)
     uns_flag: str = "filter_reads_on_length_quality_mapping_performed",
     bypass: bool = False,
-    force_redo: bool = True
+    force_redo: bool = True,
 ) -> ad.AnnData:
-    """
-    Filter AnnData by coordinate window, read length, length ratios, read quality and mapping quality.
-    New: you may pass `read_length=[min, max]` (or tuple) to set both min/max in one argument.
-    If `read_length` is given it overrides scalar min/max variants (which are not present in this signature).
-    Same behavior supported for `length_ratio`, `read_quality`, `mapping_quality`.
-    Returns a filtered copy of the input AnnData and marks adata.uns[uns_flag] = True.
+    """Filter AnnData by coordinates, read length, quality, and mapping metrics.
+    Args:
+        adata: AnnData object to filter.
+        filter_on_coordinates: Optional coordinate window as a two-value sequence.
+        read_length: Read length range as ``[min, max]``.
+        length_ratio: Length ratio range as ``[min, max]``.
+        read_quality: Read quality range as ``[min, max]``.
+        mapping_quality: Mapping quality range as ``[min, max]``.
+        uns_flag: Flag in ``adata.uns`` indicating prior completion.
+        bypass: Whether to skip processing.
+        force_redo: Whether to rerun even if ``uns_flag`` is set.
+    Returns:
+        anndata.AnnData: Filtered copy of the input AnnData.
     """
     # early exit
     already = bool(adata.uns.get(uns_flag, False))
@@ -37,7 +52,9 @@ def filter_reads_on_length_quality_mapping(
         try:
             low, high = tuple(filter_on_coordinates)
         except Exception:
-            raise ValueError("filter_on_coordinates must be False or an iterable of two numbers (low, high).")
+            raise ValueError(
+                "filter_on_coordinates must be False or an iterable of two numbers (low, high)."
+            )
         try:
             var_coords = np.array([float(v) for v in adata_work.var_names])
             if low > high:
@@ -50,10 +67,17 @@ def filter_reads_on_length_quality_mapping(
                 selected_cols = list(adata_work.var_names[lo_idx : hi_idx + 1])
             else:
                 selected_cols = list(adata_work.var_names[col_mask_bool])
-            print(f"Subsetting adata to coordinates between {low} and {high}: keeping {len(selected_cols)} variables.")
+            logger.info(
+                "Subsetting adata to coordinates between %s and %s: keeping %s variables.",
+                low,
+                high,
+                len(selected_cols),
+            )
             adata_work = adata_work[:, selected_cols].copy()
         except Exception:
-            print("Warning: could not interpret adata.var_names as numeric coordinates — skipping coordinate filtering.")
+            logger.warning(
+                "Could not interpret adata.var_names as numeric coordinates — skipping coordinate filtering."
+            )
     # --- helper to coerce range inputs ---
     def _coerce_range(range_arg):
@@ -85,72 +109,83 @@ def filter_reads_on_length_quality_mapping(
     # read length filter
     if (rl_min is not None) or (rl_max is not None):
         if "mapped_length" not in adata_work.obs.columns:
-            print("Warning: 'mapped_length' not found in adata.obs — skipping read_length filter.")
+            logger.warning("'mapped_length' not found in adata.obs — skipping read_length filter.")
         else:
             vals = pd.to_numeric(adata_work.obs["mapped_length"], errors="coerce")
             mask = pd.Series(True, index=adata_work.obs.index)
             if rl_min is not None:
-                mask &= (vals >= rl_min)
+                mask &= vals >= rl_min
             if rl_max is not None:
-                mask &= (vals <= rl_max)
+                mask &= vals <= rl_max
             mask &= vals.notna()
             combined_mask &= mask
-            print(f"Planned read_length filter: min={rl_min}, max={rl_max}")
+            logger.info("Planned read_length filter: min=%s, max=%s", rl_min, rl_max)
     # length ratio filter
     if (lr_min is not None) or (lr_max is not None):
         if "mapped_length_to_reference_length_ratio" not in adata_work.obs.columns:
-            print("Warning: 'mapped_length_to_reference_length_ratio' not found in adata.obs — skipping length_ratio filter.")
+            logger.warning(
+                "'mapped_length_to_reference_length_ratio' not found in adata.obs — skipping length_ratio filter."
+            )
         else:
-            vals = pd.to_numeric(adata_work.obs["mapped_length_to_reference_length_ratio"], errors="coerce")
+            vals = pd.to_numeric(
+                adata_work.obs["mapped_length_to_reference_length_ratio"], errors="coerce"
+            )
             mask = pd.Series(True, index=adata_work.obs.index)
             if lr_min is not None:
-                mask &= (vals >= lr_min)
+                mask &= vals >= lr_min
             if lr_max is not None:
-                mask &= (vals <= lr_max)
+                mask &= vals <= lr_max
             mask &= vals.notna()
             combined_mask &= mask
-            print(f"Planned length_ratio filter: min={lr_min}, max={lr_max}")
+            logger.info("Planned length_ratio filter: min=%s, max=%s", lr_min, lr_max)
     # read quality filter (supporting optional range but typically min only)
     if (rq_min is not None) or (rq_max is not None):
         if "read_quality" not in adata_work.obs.columns:
-            print("Warning: 'read_quality' not found in adata.obs — skipping read_quality filter.")
+            logger.warning("'read_quality' not found in adata.obs — skipping read_quality filter.")
         else:
             vals = pd.to_numeric(adata_work.obs["read_quality"], errors="coerce")
             mask = pd.Series(True, index=adata_work.obs.index)
             if rq_min is not None:
-                mask &= (vals >= rq_min)
+                mask &= vals >= rq_min
             if rq_max is not None:
-                mask &= (vals <= rq_max)
+                mask &= vals <= rq_max
             mask &= vals.notna()
             combined_mask &= mask
-            print(f"Planned read_quality filter: min={rq_min}, max={rq_max}")
+            logger.info("Planned read_quality filter: min=%s, max=%s", rq_min, rq_max)
     # mapping quality filter (supporting optional range but typically min only)
     if (mq_min is not None) or (mq_max is not None):
         if "mapping_quality" not in adata_work.obs.columns:
-            print("Warning: 'mapping_quality' not found in adata.obs — skipping mapping_quality filter.")
+            logger.warning(
+                "'mapping_quality' not found in adata.obs — skipping mapping_quality filter."
+            )
         else:
             vals = pd.to_numeric(adata_work.obs["mapping_quality"], errors="coerce")
             mask = pd.Series(True, index=adata_work.obs.index)
             if mq_min is not None:
-                mask &= (vals >= mq_min)
+                mask &= vals >= mq_min
             if mq_max is not None:
-                mask &= (vals <= mq_max)
+                mask &= vals <= mq_max
             mask &= vals.notna()
             combined_mask &= mask
-            print(f"Planned mapping_quality filter: min={mq_min}, max={mq_max}")
+            logger.info("Planned mapping_quality filter: min=%s, max=%s", mq_min, mq_max)
     # Apply combined mask and report
     s0 = adata_work.n_obs
     combined_mask_bool = combined_mask.astype(bool).values
     adata_work = adata_work[combined_mask_bool].copy()
     s1 = adata_work.n_obs
-    print(f"Combined filters applied: kept {s1} / {s0} reads (removed {s0 - s1})")
+    logger.info("Combined filters applied: kept %s / %s reads (removed %s)", s1, s0, s0 - s1)
     final_n = adata_work.n_obs
-    print(f"Filtering complete: start={start_n}, final={final_n}, removed={start_n - final_n}")
+    logger.info(
+        "Filtering complete: start=%s, final=%s, removed=%s",
+        start_n,
+        final_n,
+        start_n - final_n,
+    )
     # mark as done
     adata_work.uns[uns_flag] = True

smftools 0.2.4__py3-none-any.whl → 0.3.0__py3-none-any.whl

smftools 0.2.4py3-none-any.whl → 0.3.0py3-none-any.whl