PyPI - smftools - Versions diffs - 0.2.3__py3-none-any.whl → 0.2.5__py3-none-any.whl - Mend

smftools 0.2.3py3-none-any.whl → 0.2.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (137) hide show

smftools/__init__.py +6 -8
smftools/_settings.py +4 -6
smftools/_version.py +1 -1
smftools/cli/helpers.py +54 -0
smftools/cli/hmm_adata.py +937 -256
smftools/cli/load_adata.py +448 -268
smftools/cli/preprocess_adata.py +469 -263
smftools/cli/spatial_adata.py +536 -319
smftools/cli_entry.py +97 -182
smftools/config/__init__.py +1 -1
smftools/config/conversion.yaml +17 -6
smftools/config/deaminase.yaml +12 -10
smftools/config/default.yaml +142 -33
smftools/config/direct.yaml +11 -3
smftools/config/discover_input_files.py +19 -5
smftools/config/experiment_config.py +594 -264
smftools/constants.py +37 -0
smftools/datasets/__init__.py +2 -8
smftools/datasets/datasets.py +32 -18
smftools/hmm/HMM.py +2128 -1418
smftools/hmm/__init__.py +2 -9
smftools/hmm/archived/call_hmm_peaks.py +121 -0
smftools/hmm/call_hmm_peaks.py +299 -91
smftools/hmm/display_hmm.py +19 -6
smftools/hmm/hmm_readwrite.py +13 -4
smftools/hmm/nucleosome_hmm_refinement.py +102 -14
smftools/informatics/__init__.py +30 -7
smftools/informatics/archived/helpers/archived/align_and_sort_BAM.py +14 -1
smftools/informatics/archived/helpers/archived/bam_qc.py +14 -1
smftools/informatics/archived/helpers/archived/concatenate_fastqs_to_bam.py +8 -1
smftools/informatics/archived/helpers/archived/load_adata.py +3 -3
smftools/informatics/archived/helpers/archived/plot_bed_histograms.py +3 -1
smftools/informatics/archived/print_bam_query_seq.py +7 -1
smftools/informatics/bam_functions.py +397 -175
smftools/informatics/basecalling.py +51 -9
smftools/informatics/bed_functions.py +90 -57
smftools/informatics/binarize_converted_base_identities.py +18 -7
smftools/informatics/complement_base_list.py +7 -6
smftools/informatics/converted_BAM_to_adata.py +265 -122
smftools/informatics/fasta_functions.py +161 -83
smftools/informatics/h5ad_functions.py +196 -30
smftools/informatics/modkit_extract_to_adata.py +609 -270
smftools/informatics/modkit_functions.py +85 -44
smftools/informatics/ohe.py +44 -21
smftools/informatics/pod5_functions.py +112 -73
smftools/informatics/run_multiqc.py +20 -14
smftools/logging_utils.py +51 -0
smftools/machine_learning/__init__.py +2 -7
smftools/machine_learning/data/anndata_data_module.py +143 -50
smftools/machine_learning/data/preprocessing.py +2 -1
smftools/machine_learning/evaluation/__init__.py +1 -1
smftools/machine_learning/evaluation/eval_utils.py +11 -14
smftools/machine_learning/evaluation/evaluators.py +46 -33
smftools/machine_learning/inference/__init__.py +1 -1
smftools/machine_learning/inference/inference_utils.py +7 -4
smftools/machine_learning/inference/lightning_inference.py +9 -13
smftools/machine_learning/inference/sklearn_inference.py +6 -8
smftools/machine_learning/inference/sliding_window_inference.py +35 -25
smftools/machine_learning/models/__init__.py +10 -5
smftools/machine_learning/models/base.py +28 -42
smftools/machine_learning/models/cnn.py +15 -11
smftools/machine_learning/models/lightning_base.py +71 -40
smftools/machine_learning/models/mlp.py +13 -4
smftools/machine_learning/models/positional.py +3 -2
smftools/machine_learning/models/rnn.py +3 -2
smftools/machine_learning/models/sklearn_models.py +39 -22
smftools/machine_learning/models/transformer.py +68 -53
smftools/machine_learning/models/wrappers.py +2 -1
smftools/machine_learning/training/__init__.py +2 -2
smftools/machine_learning/training/train_lightning_model.py +29 -20
smftools/machine_learning/training/train_sklearn_model.py +9 -15
smftools/machine_learning/utils/__init__.py +1 -1
smftools/machine_learning/utils/device.py +7 -4
smftools/machine_learning/utils/grl.py +3 -1
smftools/metadata.py +443 -0
smftools/plotting/__init__.py +19 -5
smftools/plotting/autocorrelation_plotting.py +145 -44
smftools/plotting/classifiers.py +162 -72
smftools/plotting/general_plotting.py +422 -197
smftools/plotting/hmm_plotting.py +42 -13
smftools/plotting/position_stats.py +147 -87
smftools/plotting/qc_plotting.py +20 -12
smftools/preprocessing/__init__.py +10 -12
smftools/preprocessing/append_base_context.py +115 -80
smftools/preprocessing/append_binary_layer_by_base_context.py +77 -39
smftools/preprocessing/{calculate_complexity.py → archived/calculate_complexity.py} +3 -1
smftools/preprocessing/{archives → archived}/preprocessing.py +8 -6
smftools/preprocessing/binarize.py +21 -4
smftools/preprocessing/binarize_on_Youden.py +129 -31
smftools/preprocessing/binary_layers_to_ohe.py +17 -11
smftools/preprocessing/calculate_complexity_II.py +86 -59
smftools/preprocessing/calculate_consensus.py +28 -19
smftools/preprocessing/calculate_coverage.py +50 -25
smftools/preprocessing/calculate_pairwise_differences.py +2 -1
smftools/preprocessing/calculate_pairwise_hamming_distances.py +4 -3
smftools/preprocessing/calculate_position_Youden.py +118 -54
smftools/preprocessing/calculate_read_length_stats.py +52 -23
smftools/preprocessing/calculate_read_modification_stats.py +91 -57
smftools/preprocessing/clean_NaN.py +38 -28
smftools/preprocessing/filter_adata_by_nan_proportion.py +24 -12
smftools/preprocessing/filter_reads_on_length_quality_mapping.py +71 -38
smftools/preprocessing/filter_reads_on_modification_thresholds.py +181 -73
smftools/preprocessing/flag_duplicate_reads.py +689 -272
smftools/preprocessing/invert_adata.py +26 -11
smftools/preprocessing/load_sample_sheet.py +40 -22
smftools/preprocessing/make_dirs.py +8 -3
smftools/preprocessing/min_non_diagonal.py +2 -1
smftools/preprocessing/recipes.py +56 -23
smftools/preprocessing/reindex_references_adata.py +103 -0
smftools/preprocessing/subsample_adata.py +33 -16
smftools/readwrite.py +331 -82
smftools/schema/__init__.py +11 -0
smftools/schema/anndata_schema_v1.yaml +227 -0
smftools/tools/__init__.py +3 -4
smftools/tools/archived/classifiers.py +163 -0
smftools/tools/archived/subset_adata_v1.py +10 -1
smftools/tools/archived/subset_adata_v2.py +12 -1
smftools/tools/calculate_umap.py +54 -15
smftools/tools/cluster_adata_on_methylation.py +115 -46
smftools/tools/general_tools.py +70 -25
smftools/tools/position_stats.py +229 -98
smftools/tools/read_stats.py +50 -29
smftools/tools/spatial_autocorrelation.py +365 -192
smftools/tools/subset_adata.py +23 -21
{smftools-0.2.3.dist-info → smftools-0.2.5.dist-info}/METADATA +17 -39
smftools-0.2.5.dist-info/RECORD +181 -0
smftools-0.2.3.dist-info/RECORD +0 -173
/smftools/cli/{cli_flows.py → archived/cli_flows.py} +0 -0
/smftools/hmm/{apply_hmm_batched.py → archived/apply_hmm_batched.py} +0 -0
/smftools/hmm/{calculate_distances.py → archived/calculate_distances.py} +0 -0
/smftools/hmm/{train_hmm.py → archived/train_hmm.py} +0 -0
/smftools/preprocessing/{add_read_length_and_mapping_qc.py → archived/add_read_length_and_mapping_qc.py} +0 -0
/smftools/preprocessing/{archives → archived}/mark_duplicates.py +0 -0
/smftools/preprocessing/{archives → archived}/remove_duplicates.py +0 -0
{smftools-0.2.3.dist-info → smftools-0.2.5.dist-info}/WHEEL +0 -0
{smftools-0.2.3.dist-info → smftools-0.2.5.dist-info}/entry_points.txt +0 -0
{smftools-0.2.3.dist-info → smftools-0.2.5.dist-info}/licenses/LICENSE +0 -0

smftools/preprocessing/invert_adata.py CHANGED Viewed

@@ -1,25 +1,40 @@
 ## invert_adata
-def invert_adata(adata, uns_flag='adata_positions_inverted', force_redo=False):
-    """
-    Inverts the AnnData object along the column (variable) axis.
+from __future__ import annotations
+from typing import TYPE_CHECKING
+from smftools.logging_utils import get_logger
+if TYPE_CHECKING:
+    import anndata as ad
-    Parameters:
-        adata (AnnData): An AnnData object.
+logger = get_logger(__name__)
+def invert_adata(
+    adata: "ad.AnnData",
+    uns_flag: str = "invert_adata_performed",
+    force_redo: bool = False,
+) -> "ad.AnnData":
+    """Invert the AnnData object along the column axis.
+    Args:
+        adata: AnnData object.
+        uns_flag: Flag in ``adata.uns`` indicating prior completion.
+        force_redo: Whether to rerun even if ``uns_flag`` is set.
     Returns:
-        AnnData: A new AnnData object with inverted column ordering.
+        anndata.AnnData: New AnnData object with inverted column ordering.
     """
-    import numpy as np
-    import anndata as ad
     # Only run if not already performed
     already = bool(adata.uns.get(uns_flag, False))
-    if (already and not force_redo):
+    if already and not force_redo:
         # QC already performed; nothing to do
         return adata
-    print("Inverting AnnData along the column axis...")
+    logger.info("Inverting AnnData along the column axis...")
     # Reverse the order of columns (variables)
     inverted_adata = adata[:, ::-1].copy()
@@ -33,5 +48,5 @@ def invert_adata(adata, uns_flag='adata_positions_inverted', force_redo=False):
     # mark as done
     inverted_adata.uns[uns_flag] = True
-    print("Inversion complete!")
+    logger.info("Inversion complete!")
     return inverted_adata

smftools/preprocessing/load_sample_sheet.py CHANGED Viewed

@@ -1,21 +1,36 @@
-def load_sample_sheet(adata,
-                      sample_sheet_path,
-                      mapping_key_column='obs_names',
-                      as_category=True,
-                      uns_flag='sample_sheet_loaded',
-                      force_reload=True
-                        ):
-    """
-    Loads a sample sheet CSV and maps metadata into the AnnData object as categorical columns.
+from __future__ import annotations
+from pathlib import Path
+from typing import TYPE_CHECKING
+from smftools.logging_utils import get_logger
+if TYPE_CHECKING:
+    import anndata as ad
+logger = get_logger(__name__)
-    Parameters:
-        adata (AnnData): The AnnData object to append sample information to.
-        sample_sheet_path (str): Path to the CSV file.
-        mapping_key_column (str): Column name in the CSV to map against adata.obs_names or an existing obs column.
-        as_category (bool): If True, added columns will be cast as pandas Categorical.
+def load_sample_sheet(
+    adata: "ad.AnnData",
+    sample_sheet_path: str | Path,
+    mapping_key_column: str = "obs_names",
+    as_category: bool = True,
+    uns_flag: str = "load_sample_sheet_performed",
+    force_reload: bool = True,
+) -> "ad.AnnData":
+    """Load a sample sheet CSV and map metadata into ``adata.obs``.
+    Args:
+        adata: AnnData object to append sample information to.
+        sample_sheet_path: Path to the CSV file.
+        mapping_key_column: Column name to map against ``adata.obs_names`` or an obs column.
+        as_category: Whether to cast added columns as pandas Categoricals.
+        uns_flag: Flag in ``adata.uns`` indicating prior completion.
+        force_reload: Whether to reload even if ``uns_flag`` is set.
     Returns:
-        AnnData: Updated AnnData object.
+        anndata.AnnData: Updated AnnData object.
     """
     import pandas as pd
@@ -25,29 +40,32 @@ def load_sample_sheet(adata,
         # QC already performed; nothing to do
         return
-    print('Loading sample sheet...')
+    logger.info("Loading sample sheet...")
     df = pd.read_csv(sample_sheet_path)
     df[mapping_key_column] = df[mapping_key_column].astype(str)
     # If matching against obs_names directly
-    if mapping_key_column == 'obs_names':
+    if mapping_key_column == "obs_names":
         key_series = adata.obs_names.astype(str)
     else:
         key_series = adata.obs[mapping_key_column].astype(str)
     value_columns = [col for col in df.columns if col != mapping_key_column]
-    print(f'Appending metadata columns: {value_columns}')
+    logger.info("Appending metadata columns: %s", value_columns)
     df = df.set_index(mapping_key_column)
     for col in value_columns:
         mapped = key_series.map(df[col])
         if as_category:
-            mapped = mapped.astype('category')
+            mapped = mapped.astype("category")
         adata.obs[col] = mapped
     # mark as done
     adata.uns[uns_flag] = True
-    print('Sample sheet metadata successfully added as categories.' if as_category else 'Metadata added.')
+    if as_category:
+        logger.info("Sample sheet metadata successfully added as categories.")
+    else:
+        logger.info("Metadata added.")
     return adata

smftools/preprocessing/make_dirs.py CHANGED Viewed

@@ -1,5 +1,10 @@
 ## make_dirs
+from smftools.logging_utils import get_logger
+logger = get_logger(__name__)
 # General
 def make_dirs(directories):
     """
@@ -7,7 +12,7 @@ def make_dirs(directories):
     Parameters:
         directories (list): A list of directories to make
     Returns:
         None
     """
@@ -16,6 +21,6 @@ def make_dirs(directories):
     for directory in directories:
         if not os.path.isdir(directory):
             os.mkdir(directory)
-            print(f"Directory '{directory}' created successfully.")
+            logger.info("Directory '%s' created successfully.", directory)
         else:
-            print(f"Directory '{directory}' already exists.")
+            logger.info("Directory '%s' already exists.", directory)

smftools/preprocessing/min_non_diagonal.py CHANGED Viewed

@@ -1,5 +1,6 @@
 ## min_non_diagonal
 def min_non_diagonal(matrix):
     """
     Takes a matrix and returns the smallest value from each row with the diagonal masked.
@@ -22,4 +23,4 @@ def min_non_diagonal(matrix):
         row = matrix[i, row_mask]
         # Find the minimum value in the row
         min_values.append(np.min(row))
-    return min_values
+    return min_values

smftools/preprocessing/recipes.py CHANGED Viewed

@@ -1,6 +1,15 @@
 # recipes
-def recipe_1_Kissiov_and_McKenna_2025(adata, sample_sheet_path, output_directory, mapping_key_column='Sample', reference_column = 'Reference', sample_names_col='Sample_names', invert=True):
+def recipe_1_Kissiov_and_McKenna_2025(
+    adata,
+    sample_sheet_path,
+    output_directory,
+    mapping_key_column="Sample",
+    reference_column="Reference",
+    sample_names_col="Sample_names",
+    invert=True,
+):
     """
     The first part of the preprocessing workflow applied to the smf.inform.pod_to_adata() output derived from Kissiov_and_McKenna_2025.
@@ -26,36 +35,38 @@ def recipe_1_Kissiov_and_McKenna_2025(adata, sample_sheet_path, output_directory
     Returns:
         variables (dict): A dictionary of variables to append to the parent scope.
     """
-    import anndata as ad
-    import pandas as pd
-    import numpy as np
-    from .load_sample_sheet import load_sample_sheet
-    from .calculate_coverage import calculate_coverage
     from .append_C_context import append_C_context
-    from .calculate_converted_read_methylation_stats import calculate_converted_read_methylation_stats
-    from .invert_adata import invert_adata
+    from .calculate_converted_read_methylation_stats import (
+        calculate_converted_read_methylation_stats,
+    )
+    from .calculate_coverage import calculate_coverage
     from .calculate_read_length_stats import calculate_read_length_stats
     from .clean_NaN import clean_NaN
+    from .invert_adata import invert_adata
+    from .load_sample_sheet import load_sample_sheet
     # Clean up some of the Reference metadata and save variable names that point to sets of values in the column.
-    adata.obs[reference_column] = adata.obs[reference_column].astype('category')
+    adata.obs[reference_column] = adata.obs[reference_column].astype("category")
     references = adata.obs[reference_column].cat.categories
-    split_references = [(reference, reference.split('_')[0][1:]) for reference in references]
+    split_references = [(reference, reference.split("_")[0][1:]) for reference in references]
     reference_mapping = {k: v for k, v in split_references}
-    adata.obs[f'{reference_column}_short'] = adata.obs[reference_column].map(reference_mapping)
-    short_references = set(adata.obs[f'{reference_column}_short'])
+    adata.obs[f"{reference_column}_short"] = adata.obs[reference_column].map(reference_mapping)
+    short_references = set(adata.obs[f"{reference_column}_short"])
     binary_layers = list(adata.layers.keys())
     # load sample sheet metadata
     load_sample_sheet(adata, sample_sheet_path, mapping_key_column)
     # hold sample names set
-    adata.obs[sample_names_col] = adata.obs[sample_names_col].astype('category')
+    adata.obs[sample_names_col] = adata.obs[sample_names_col].astype("category")
     sample_names = adata.obs[sample_names_col].cat.categories
     # Add position level metadata
     calculate_coverage(adata, obs_column=reference_column)
-    adata.var['SNP_position'] = (adata.var[f'N_{reference_column}_with_position'] > 0) & (adata.var[f'N_{reference_column}_with_position'] < len(references)).astype(bool)
+    adata.var["SNP_position"] = (adata.var[f"N_{reference_column}_with_position"] > 0) & (
+        adata.var[f"N_{reference_column}_with_position"] < len(references)
+    ).astype(bool)
     # Append cytosine context to the reference positions based on the conversion strand.
     append_C_context(adata, obs_column=reference_column, use_consensus=False)
@@ -64,7 +75,9 @@ def recipe_1_Kissiov_and_McKenna_2025(adata, sample_sheet_path, output_directory
     calculate_converted_read_methylation_stats(adata, reference_column, sample_names_col)
     # Calculate read length statistics
-    upper_bound, lower_bound = calculate_read_length_stats(adata, reference_column, sample_names_col)
+    upper_bound, lower_bound = calculate_read_length_stats(
+        adata, reference_column, sample_names_col
+    )
     # Invert the adata object (ie flip the strand orientation for visualization)
     if invert:
@@ -81,11 +94,19 @@ def recipe_1_Kissiov_and_McKenna_2025(adata, sample_sheet_path, output_directory
         "sample_names": sample_names,
         "upper_bound": upper_bound,
         "lower_bound": lower_bound,
-        "references": references
+        "references": references,
     }
     return variables
-def recipe_2_Kissiov_and_McKenna_2025(adata, output_directory, binary_layers, distance_thresholds={}, reference_column = 'Reference', sample_names_col='Sample_names'):
+def recipe_2_Kissiov_and_McKenna_2025(
+    adata,
+    output_directory,
+    binary_layers,
+    distance_thresholds={},
+    reference_column="Reference",
+    sample_names_col="Sample_names",
+):
     """
     The second part of the preprocessing workflow applied to the adata that has already been preprocessed by recipe_1_Kissiov_and_McKenna_2025.
@@ -107,20 +128,32 @@ def recipe_2_Kissiov_and_McKenna_2025(adata, output_directory, binary_layers, di
         filtered_adata (AnnData): An AnnData object containing the filtered reads
         duplicates (AnnData): An AnnData object containing the duplicate reads
     """
-    import anndata as ad
-    import pandas as pd
-    import numpy as np
-    from .mark_duplicates import mark_duplicates
     from .calculate_complexity import calculate_complexity
+    from .mark_duplicates import mark_duplicates
     from .remove_duplicates import remove_duplicates
     # Add here a way to remove reads below a given read quality (based on nan content). Need to also add a way to pull from BAM files the read quality from each read
     # Duplicate detection using pairwise hamming distance across reads
-    mark_duplicates(adata, binary_layers, obs_column=reference_column, sample_col=sample_names_col, distance_thresholds=distance_thresholds, method='N_masked_distances')
+    mark_duplicates(
+        adata,
+        binary_layers,
+        obs_column=reference_column,
+        sample_col=sample_names_col,
+        distance_thresholds=distance_thresholds,
+        method="N_masked_distances",
+    )
     # Complexity analysis using the marked duplicates and the lander-watermann algorithm
-    calculate_complexity(adata, output_directory, obs_column=reference_column, sample_col=sample_names_col, plot=True, save_plot=False)
+    calculate_complexity(
+        adata,
+        output_directory,
+        obs_column=reference_column,
+        sample_col=sample_names_col,
+        plot=True,
+        save_plot=False,
+    )
     # Remove duplicate reads and store the duplicate reads in a new AnnData object named duplicates.
     filtered_adata, duplicates = remove_duplicates(adata)

smftools/preprocessing/reindex_references_adata.py ADDED Viewed

@@ -0,0 +1,103 @@
+from __future__ import annotations
+from typing import TYPE_CHECKING
+from smftools.logging_utils import get_logger
+if TYPE_CHECKING:
+    import anndata as ad
+logger = get_logger(__name__)
+def reindex_references_adata(
+    adata: "ad.AnnData",
+    reference_col: str = "Reference_strand",
+    offsets: dict | None = None,
+    new_col: str = "reindexed",
+    uns_flag: str = "reindex_references_adata_performed",
+    force_redo: bool = False,
+) -> None:
+    """Reindex genomic coordinates by adding per-reference offsets.
+    Args:
+        adata: AnnData object.
+        reference_col: Obs column containing reference identifiers.
+        offsets: Mapping of reference to integer offset.
+        new_col: Suffix for generated reindexed columns.
+        uns_flag: Flag in ``adata.uns`` indicating prior completion.
+        force_redo: Whether to rerun even if ``uns_flag`` is set.
+    Notes:
+        If ``offsets`` is ``None`` or missing a reference, the new column mirrors
+        the existing ``var_names`` values.
+    """
+    import numpy as np
+    # ============================================================
+    # 1. Skip if already done
+    # ============================================================
+    already = bool(adata.uns.get(uns_flag, False))
+    if already and not force_redo:
+        logger.info("%s already set; skipping. Use force_redo=True to recompute.", uns_flag)
+        return None
+    # Normalize offsets
+    if offsets is None:
+        offsets = {}
+    elif not isinstance(offsets, dict):
+        raise TypeError("offsets must be a dict {ref: int} or None.")
+    # ============================================================
+    # 2. Ensure var_names are numeric
+    # ============================================================
+    try:
+        var_coords = adata.var_names.astype(int)
+    except Exception as e:
+        raise ValueError(
+            "reindex_references_adata requires adata.var_names to be integer-like."
+        ) from e
+    # ============================================================
+    # 3. Gather all references
+    # ============================================================
+    ref_series = adata.obs[reference_col]
+    references = ref_series.cat.categories if hasattr(ref_series, "cat") else ref_series.unique()
+    # ============================================================
+    # 4. Create reindexed columns
+    # ============================================================
+    for ref in references:
+        colname = f"{ref}_{new_col}"
+        # Case 1: No offset provided → identity mapping
+        if ref not in offsets:
+            logger.info("No offset for ref=%r; using identity positions.", ref)
+            adata.var[colname] = var_coords
+            continue
+        offset_value = offsets[ref]
+        # Case 2: offset explicitly None → identity mapping
+        if offset_value is None:
+            logger.info("Offset for ref=%r is None; using identity positions.", ref)
+            adata.var[colname] = var_coords
+            continue
+        # Case 3: real shift
+        if not isinstance(offset_value, (int, np.integer)):
+            raise TypeError(
+                f"Offset for reference {ref!r} must be an integer or None. Got {offset_value!r}"
+            )
+        adata.var[colname] = var_coords + offset_value
+        logger.info("Added reindexed column '%s' (offset=%s).", colname, offset_value)
+    # ============================================================
+    # 5. Mark complete
+    # ============================================================
+    adata.uns[uns_flag] = True
+    logger.info("Reindexing complete!")
+    return None

smftools/preprocessing/subsample_adata.py CHANGED Viewed

@@ -1,19 +1,36 @@
-def subsample_adata(adata, obs_columns=None, max_samples=2000, random_seed=42):
-    """
-    Subsamples an AnnData object so that each unique combination of categories
-    in the given `obs_columns` has at most `max_samples` observations.
-    If `obs_columns` is None or empty, the function randomly subsamples the entire dataset.
-    Parameters:
-        adata (AnnData): The AnnData object to subsample.
-        obs_columns (list of str, optional): List of observation column names to group by.
-        max_samples (int): The maximum number of observations per category combination.
-        random_seed (int): Random seed for reproducibility.
+from __future__ import annotations
+from typing import TYPE_CHECKING, Sequence
+from smftools.logging_utils import get_logger
+if TYPE_CHECKING:
+    import anndata as ad
+logger = get_logger(__name__)
+def subsample_adata(
+    adata: "ad.AnnData",
+    obs_columns: Sequence[str] | None = None,
+    max_samples: int = 2000,
+    random_seed: int = 42,
+) -> "ad.AnnData":
+    """Subsample an AnnData object by observation categories.
+    Each unique combination of categories in ``obs_columns`` is capped at
+    ``max_samples`` observations. If ``obs_columns`` is ``None``, the function
+    randomly subsamples the entire dataset.
+    Args:
+        adata: AnnData object to subsample.
+        obs_columns: Observation column names to group by.
+        max_samples: Maximum observations per category combination.
+        random_seed: Random seed for reproducibility.
     Returns:
-        AnnData: A new AnnData object with subsampled observations.
+        anndata.AnnData: Subsampled AnnData object.
     """
-    import anndata as ad
     import numpy as np
     np.random.seed(random_seed)  # Ensure reproducibility
@@ -23,7 +40,7 @@ def subsample_adata(adata, obs_columns=None, max_samples=2000, random_seed=42):
             sampled_indices = np.random.choice(adata.obs.index, max_samples, replace=False)
         else:
             sampled_indices = adata.obs.index  # Keep all if fewer than max_samples
         return adata[sampled_indices].copy()
     sampled_indices = []
@@ -34,7 +51,7 @@ def subsample_adata(adata, obs_columns=None, max_samples=2000, random_seed=42):
     for _, row in unique_combinations.iterrows():
         # Build filter condition dynamically for multiple columns
         condition = (adata.obs[obs_columns] == row.values).all(axis=1)
         # Get indices for the current category combination
         subset_indices = adata.obs[condition].index.to_numpy()
@@ -48,7 +65,7 @@ def subsample_adata(adata, obs_columns=None, max_samples=2000, random_seed=42):
     # ⚠ Handle backed mode detection
     if adata.isbacked:
-        print("⚠ Detected backed mode. Subset will be loaded fully into memory.")
+        logger.warning("Detected backed mode. Subset will be loaded fully into memory.")
         subset = adata[sampled_indices]
         subset = subset.to_memory()
     else:

smftools 0.2.3__py3-none-any.whl → 0.2.5__py3-none-any.whl

smftools 0.2.3py3-none-any.whl → 0.2.5py3-none-any.whl