PyPI - smftools - Versions diffs - 0.2.3__py3-none-any.whl → 0.2.5__py3-none-any.whl - Mend

smftools 0.2.3py3-none-any.whl → 0.2.5py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (137) hide show

smftools/__init__.py +6 -8
smftools/_settings.py +4 -6
smftools/_version.py +1 -1
smftools/cli/helpers.py +54 -0
smftools/cli/hmm_adata.py +937 -256
smftools/cli/load_adata.py +448 -268
smftools/cli/preprocess_adata.py +469 -263
smftools/cli/spatial_adata.py +536 -319
smftools/cli_entry.py +97 -182
smftools/config/__init__.py +1 -1
smftools/config/conversion.yaml +17 -6
smftools/config/deaminase.yaml +12 -10
smftools/config/default.yaml +142 -33
smftools/config/direct.yaml +11 -3
smftools/config/discover_input_files.py +19 -5
smftools/config/experiment_config.py +594 -264
smftools/constants.py +37 -0
smftools/datasets/__init__.py +2 -8
smftools/datasets/datasets.py +32 -18
smftools/hmm/HMM.py +2128 -1418
smftools/hmm/__init__.py +2 -9
smftools/hmm/archived/call_hmm_peaks.py +121 -0
smftools/hmm/call_hmm_peaks.py +299 -91
smftools/hmm/display_hmm.py +19 -6
smftools/hmm/hmm_readwrite.py +13 -4
smftools/hmm/nucleosome_hmm_refinement.py +102 -14
smftools/informatics/__init__.py +30 -7
smftools/informatics/archived/helpers/archived/align_and_sort_BAM.py +14 -1
smftools/informatics/archived/helpers/archived/bam_qc.py +14 -1
smftools/informatics/archived/helpers/archived/concatenate_fastqs_to_bam.py +8 -1
smftools/informatics/archived/helpers/archived/load_adata.py +3 -3
smftools/informatics/archived/helpers/archived/plot_bed_histograms.py +3 -1
smftools/informatics/archived/print_bam_query_seq.py +7 -1
smftools/informatics/bam_functions.py +397 -175
smftools/informatics/basecalling.py +51 -9
smftools/informatics/bed_functions.py +90 -57
smftools/informatics/binarize_converted_base_identities.py +18 -7
smftools/informatics/complement_base_list.py +7 -6
smftools/informatics/converted_BAM_to_adata.py +265 -122
smftools/informatics/fasta_functions.py +161 -83
smftools/informatics/h5ad_functions.py +196 -30
smftools/informatics/modkit_extract_to_adata.py +609 -270
smftools/informatics/modkit_functions.py +85 -44
smftools/informatics/ohe.py +44 -21
smftools/informatics/pod5_functions.py +112 -73
smftools/informatics/run_multiqc.py +20 -14
smftools/logging_utils.py +51 -0
smftools/machine_learning/__init__.py +2 -7
smftools/machine_learning/data/anndata_data_module.py +143 -50
smftools/machine_learning/data/preprocessing.py +2 -1
smftools/machine_learning/evaluation/__init__.py +1 -1
smftools/machine_learning/evaluation/eval_utils.py +11 -14
smftools/machine_learning/evaluation/evaluators.py +46 -33
smftools/machine_learning/inference/__init__.py +1 -1
smftools/machine_learning/inference/inference_utils.py +7 -4
smftools/machine_learning/inference/lightning_inference.py +9 -13
smftools/machine_learning/inference/sklearn_inference.py +6 -8
smftools/machine_learning/inference/sliding_window_inference.py +35 -25
smftools/machine_learning/models/__init__.py +10 -5
smftools/machine_learning/models/base.py +28 -42
smftools/machine_learning/models/cnn.py +15 -11
smftools/machine_learning/models/lightning_base.py +71 -40
smftools/machine_learning/models/mlp.py +13 -4
smftools/machine_learning/models/positional.py +3 -2
smftools/machine_learning/models/rnn.py +3 -2
smftools/machine_learning/models/sklearn_models.py +39 -22
smftools/machine_learning/models/transformer.py +68 -53
smftools/machine_learning/models/wrappers.py +2 -1
smftools/machine_learning/training/__init__.py +2 -2
smftools/machine_learning/training/train_lightning_model.py +29 -20
smftools/machine_learning/training/train_sklearn_model.py +9 -15
smftools/machine_learning/utils/__init__.py +1 -1
smftools/machine_learning/utils/device.py +7 -4
smftools/machine_learning/utils/grl.py +3 -1
smftools/metadata.py +443 -0
smftools/plotting/__init__.py +19 -5
smftools/plotting/autocorrelation_plotting.py +145 -44
smftools/plotting/classifiers.py +162 -72
smftools/plotting/general_plotting.py +422 -197
smftools/plotting/hmm_plotting.py +42 -13
smftools/plotting/position_stats.py +147 -87
smftools/plotting/qc_plotting.py +20 -12
smftools/preprocessing/__init__.py +10 -12
smftools/preprocessing/append_base_context.py +115 -80
smftools/preprocessing/append_binary_layer_by_base_context.py +77 -39
smftools/preprocessing/{calculate_complexity.py → archived/calculate_complexity.py} +3 -1
smftools/preprocessing/{archives → archived}/preprocessing.py +8 -6
smftools/preprocessing/binarize.py +21 -4
smftools/preprocessing/binarize_on_Youden.py +129 -31
smftools/preprocessing/binary_layers_to_ohe.py +17 -11
smftools/preprocessing/calculate_complexity_II.py +86 -59
smftools/preprocessing/calculate_consensus.py +28 -19
smftools/preprocessing/calculate_coverage.py +50 -25
smftools/preprocessing/calculate_pairwise_differences.py +2 -1
smftools/preprocessing/calculate_pairwise_hamming_distances.py +4 -3
smftools/preprocessing/calculate_position_Youden.py +118 -54
smftools/preprocessing/calculate_read_length_stats.py +52 -23
smftools/preprocessing/calculate_read_modification_stats.py +91 -57
smftools/preprocessing/clean_NaN.py +38 -28
smftools/preprocessing/filter_adata_by_nan_proportion.py +24 -12
smftools/preprocessing/filter_reads_on_length_quality_mapping.py +71 -38
smftools/preprocessing/filter_reads_on_modification_thresholds.py +181 -73
smftools/preprocessing/flag_duplicate_reads.py +689 -272
smftools/preprocessing/invert_adata.py +26 -11
smftools/preprocessing/load_sample_sheet.py +40 -22
smftools/preprocessing/make_dirs.py +8 -3
smftools/preprocessing/min_non_diagonal.py +2 -1
smftools/preprocessing/recipes.py +56 -23
smftools/preprocessing/reindex_references_adata.py +103 -0
smftools/preprocessing/subsample_adata.py +33 -16
smftools/readwrite.py +331 -82
smftools/schema/__init__.py +11 -0
smftools/schema/anndata_schema_v1.yaml +227 -0
smftools/tools/__init__.py +3 -4
smftools/tools/archived/classifiers.py +163 -0
smftools/tools/archived/subset_adata_v1.py +10 -1
smftools/tools/archived/subset_adata_v2.py +12 -1
smftools/tools/calculate_umap.py +54 -15
smftools/tools/cluster_adata_on_methylation.py +115 -46
smftools/tools/general_tools.py +70 -25
smftools/tools/position_stats.py +229 -98
smftools/tools/read_stats.py +50 -29
smftools/tools/spatial_autocorrelation.py +365 -192
smftools/tools/subset_adata.py +23 -21
{smftools-0.2.3.dist-info → smftools-0.2.5.dist-info}/METADATA +17 -39
smftools-0.2.5.dist-info/RECORD +181 -0
smftools-0.2.3.dist-info/RECORD +0 -173
/smftools/cli/{cli_flows.py → archived/cli_flows.py} +0 -0
/smftools/hmm/{apply_hmm_batched.py → archived/apply_hmm_batched.py} +0 -0
/smftools/hmm/{calculate_distances.py → archived/calculate_distances.py} +0 -0
/smftools/hmm/{train_hmm.py → archived/train_hmm.py} +0 -0
/smftools/preprocessing/{add_read_length_and_mapping_qc.py → archived/add_read_length_and_mapping_qc.py} +0 -0
/smftools/preprocessing/{archives → archived}/mark_duplicates.py +0 -0
/smftools/preprocessing/{archives → archived}/remove_duplicates.py +0 -0
{smftools-0.2.3.dist-info → smftools-0.2.5.dist-info}/WHEEL +0 -0
{smftools-0.2.3.dist-info → smftools-0.2.5.dist-info}/entry_points.txt +0 -0
{smftools-0.2.3.dist-info → smftools-0.2.5.dist-info}/licenses/LICENSE +0 -0

smftools/readwrite.py CHANGED Viewed

@@ -1,15 +1,14 @@
 ## readwrite ##
 from __future__ import annotations
+import warnings
 from pathlib import Path
-from typing import Union, Iterable
-from pathlib import Path
-from typing import Iterable, Sequence, Optional
+from typing import Iterable, List, Sequence, Union
-import warnings
-import pandas as pd
 import anndata as ad
+import pandas as pd
+from Bio import SeqIO
 ######################################################################################################
 ## Datetime functionality
@@ -18,20 +17,26 @@ def date_string():
     Each time this is called, it returns the current date string
     """
     from datetime import datetime
     current_date = datetime.now()
     date_string = current_date.strftime("%Y%m%d")
     date_string = date_string[2:]
     return date_string
 def time_string():
     """
     Each time this is called, it returns the current time string
     """
     from datetime import datetime
     current_time = datetime.now()
     return current_time.strftime("%H:%M:%S")
 ######################################################################################################
 ######################################################################################################
 ## General file and directory handling
 def make_dirs(directories: Union[str, Path, Iterable[Union[str, Path]]]) -> None:
@@ -57,11 +62,12 @@ def make_dirs(directories: Union[str, Path, Iterable[Union[str, Path]]]) -> None
         p = Path(d)
         # If someone passes in a file path, make its parent
-        if p.suffix:      # p.suffix != "" means it's a file
+        if p.suffix:  # p.suffix != "" means it's a file
             p = p.parent
         p.mkdir(parents=True, exist_ok=True)
 def add_or_update_column_in_csv(
     csv_path: str | Path,
     column_name: str,
@@ -117,19 +123,20 @@ def add_or_update_column_in_csv(
     # Sequence case: lengths must match
     if len(values) != len(df):
         raise ValueError(
-            f"Length mismatch: CSV has {len(df)} rows "
-            f"but values has {len(values)} entries."
+            f"Length mismatch: CSV has {len(df)} rows but values has {len(values)} entries."
         )
     df[column_name] = list(values)
     df.to_csv(csv_path, index=index)
     return df
 ######################################################################################################
 ######################################################################################################
 ## Numpy, Pandas, Anndata functionality
 def adata_to_df(adata, layer=None):
     """
     Convert an AnnData object into a Pandas DataFrame.
@@ -142,8 +149,6 @@ def adata_to_df(adata, layer=None):
         pd.DataFrame: A DataFrame where rows are observations and columns are positions.
     """
     import pandas as pd
-    import anndata as ad
-    import numpy as np
     # Validate that the requested layer exists
     if layer and layer not in adata.layers:
@@ -153,28 +158,83 @@ def adata_to_df(adata, layer=None):
     data_matrix = adata.layers.get(layer, adata.X)
     # Ensure matrix is dense (handle sparse formats)
-    if hasattr(data_matrix, "toarray"):
+    if hasattr(data_matrix, "toarray"):
         data_matrix = data_matrix.toarray()
     # Ensure obs and var have unique indices
     if adata.obs.index.duplicated().any():
-        raise ValueError("Duplicate values found in `adata.obs.index`. Ensure unique observation indices.")
+        raise ValueError(
+            "Duplicate values found in `adata.obs.index`. Ensure unique observation indices."
+        )
     if adata.var.index.duplicated().any():
-        raise ValueError("Duplicate values found in `adata.var.index`. Ensure unique variable indices.")
+        raise ValueError(
+            "Duplicate values found in `adata.var.index`. Ensure unique variable indices."
+        )
     # Convert to DataFrame
     df = pd.DataFrame(data_matrix, index=adata.obs.index, columns=adata.var.index)
     return df
 def save_matrix(matrix, save_name):
     """
     Input: A numpy matrix and a save_name
     Output: A txt file representation of the data matrix
     """
     import numpy as np
-    np.savetxt(f'{save_name}.txt', matrix)
+    np.savetxt(f"{save_name}.txt", matrix)
+def _harmonize_var_schema(adatas: List[ad.AnnData]) -> None:
+    """
+    In-place:
+      - Make every AnnData.var have the *union* of columns.
+      - Normalize dtypes so columns can hold NaN and round-trip via HDF5:
+          * ints -> float64 (to support NaN)
+          * objects -> try numeric->float64, else pandas 'string'
+    """
+    import numpy as np
+    # 1) Union of all .var columns
+    all_cols = set()
+    for a in adatas:
+        all_cols.update(a.var.columns)
+    all_cols = list(all_cols)
+    # 2) Add any missing columns as float64 NaN
+    for a in adatas:
+        missing = [c for c in all_cols if c not in a.var.columns]
+        for c in missing:
+            a.var[c] = np.nan  # becomes float64 by default
+    # 3) Normalize dtypes per AnnData so concat doesn't create mixed/object columns
+    for a in adatas:
+        for c in a.var.columns:
+            s = a.var[c]
+            dt = s.dtype
+            # Integer/unsigned -> float64 (so NaN fits)
+            if dt.kind in ("i", "u"):
+                a.var[c] = s.astype("float64")
+                continue
+            # Object -> numeric if possible; else pandas 'string'
+            if dt == "O":
+                try:
+                    s_num = pd.to_numeric(s, errors="raise")
+                    a.var[c] = s_num.astype("float64")
+                except Exception:
+                    a.var[c] = s.astype("string")
+    # Optional: ensure consistent column order (sorted + stable)
+    # Not required, but can make diffs easier to read:
+    all_cols_sorted = sorted(all_cols)
+    for a in adatas:
+        a.var = a.var.reindex(columns=all_cols_sorted)
 def concatenate_h5ads(
     output_path: str | Path,
@@ -243,8 +303,7 @@ def concatenate_h5ads(
         # collect all *.h5ad / *.h5ad.gz (or whatever file_suffixes specify)
         suffixes_lower = tuple(s.lower() for s in file_suffixes)
         h5_paths = sorted(
-            p for p in input_dir.iterdir()
-            if p.is_file() and p.suffix.lower() in suffixes_lower
+            p for p in input_dir.iterdir() if p.is_file() and p.suffix.lower() in suffixes_lower
         )
     else:
@@ -255,9 +314,7 @@ def concatenate_h5ads(
         df = pd.read_csv(csv_path, dtype=str)
         if csv_column not in df.columns:
-            raise ValueError(
-                f"CSV {csv_path} must contain column '{csv_column}' with .h5ad paths."
-            )
+            raise ValueError(f"CSV {csv_path} must contain column '{csv_column}' with .h5ad paths.")
         paths = df[csv_column].dropna().astype(str).tolist()
         if not paths:
             raise ValueError(f"No non-empty paths in column '{csv_column}' of {csv_path}.")
@@ -280,27 +337,41 @@ def concatenate_h5ads(
     for p in h5_paths:
         print(f"  - {p}")
-    final_adata: Optional[ad.AnnData] = None
+    # Load all first so we can harmonize schemas before concat
+    loaded: List[ad.AnnData] = []
     for p in h5_paths:
         print(f"{time_string()}: Reading {p}")
-        temp_adata, read_report = safe_read_h5ad(p, restore_backups=restore_backups)
-        if final_adata is None:
-            print(f"{time_string()}: Initializing final AnnData with {p}")
-            final_adata = temp_adata
-        else:
-            print(f"{time_string()}: Concatenating {p} into final AnnData")
-            final_adata = ad.concat(
-                [final_adata, temp_adata],
-                join="outer",
-                merge='unique',
-                uns_merge='unique',
-                index_unique=None,
-            )
+        a, _ = safe_read_h5ad(p, restore_backups=restore_backups)
+        loaded.append(a)
+    # Critical: make every .var share the same columns + safe dtypes
+    _harmonize_var_schema(loaded)
+    print(f"{time_string()}: Concatenating {len(loaded)} AnnData objects")
+    final_adata = ad.concat(
+        loaded,
+        axis=0,  # stack observations
+        join="outer",  # keep union of variables
+        merge="unique",
+        uns_merge="unique",
+        index_unique=None,
+    )
+    # Defensive pass: ensure final var dtypes are write-safe
+    for c in final_adata.var.columns:
+        s = final_adata.var[c]
+        dt = s.dtype
+        if dt.kind in ("i", "u"):
+            final_adata.var[c] = s.astype("float64")
+        elif dt == "O":
+            try:
+                s_num = pd.to_numeric(s, errors="raise")
+                final_adata.var[c] = s_num.astype("float64")
+            except Exception:
+                final_adata.var[c] = s.astype("string")
-    if final_adata is None:
-        raise RuntimeError("Unexpected: no AnnData objects loaded.")
+    # Let anndata write pandas StringArray reliably
+    ad.settings.allow_write_nullable_strings = True
     print(f"{time_string()}: Writing concatenated AnnData to {output_path}")
     safe_write_h5ad(final_adata, output_path, backup=restore_backups)
@@ -325,18 +396,21 @@ def concatenate_h5ads(
     return output_path
 def safe_write_h5ad(adata, path, compression="gzip", backup=False, backup_dir=None, verbose=True):
     """
     Save an AnnData safely by sanitizing .obs, .var, .uns, .layers, and .obsm.
     Returns a report dict and prints a summary of what was converted/backed up/skipped.
     """
-    import os, json, pickle
+    import json
+    import os
+    import pickle
     from pathlib import Path
+    import anndata as _ad
     import numpy as np
     import pandas as pd
-    import warnings
-    import anndata as _ad
     path = Path(path)
@@ -413,7 +487,9 @@ def safe_write_h5ad(adata, path, compression="gzip", backup=False, backup_dir=No
                             report["var_backed_up_columns"].append(col)
                     df[col] = ser.astype(str)
                     if verbose:
-                        print(f"  coerced categorical column '{which}.{col}' -> strings (backup={backup})")
+                        print(
+                            f"  coerced categorical column '{which}.{col}' -> strings (backup={backup})"
+                        )
                 continue
             # object dtype handling: try to coerce each element to string
@@ -434,7 +510,9 @@ def safe_write_h5ad(adata, path, compression="gzip", backup=False, backup_dir=No
                             report["var_backed_up_columns"].append(col)
                     df[col] = ser.values.astype(str)
                     if verbose:
-                        print(f"  converted object column '{which}.{col}' -> strings (backup={backup})")
+                        print(
+                            f"  converted object column '{which}.{col}' -> strings (backup={backup})"
+                        )
                     if which == "obs":
                         report["obs_converted_columns"].append(col)
                     else:
@@ -457,7 +535,9 @@ def safe_write_h5ad(adata, path, compression="gzip", backup=False, backup_dir=No
                                 report["var_backed_up_columns"].append(col)
                         df[col] = [json.dumps(v, default=str) for v in ser.values]
                         if verbose:
-                            print(f"  json-stringified object column '{which}.{col}' (backup={backup})")
+                            print(
+                                f"  json-stringified object column '{which}.{col}' (backup={backup})"
+                            )
                         if which == "obs":
                             report["obs_converted_columns"].append(col)
                         else:
@@ -472,7 +552,9 @@ def safe_write_h5ad(adata, path, compression="gzip", backup=False, backup_dir=No
                                 report["var_backed_up_columns"].append(col)
                         df[col] = ser.astype(str)
                         if verbose:
-                            print(f"  WARNING: column '{which}.{col}' was complex; coerced via str() (backed up).")
+                            print(
+                                f"  WARNING: column '{which}.{col}' was complex; coerced via str() (backed up)."
+                            )
                         if which == "obs":
                             report["obs_converted_columns"].append(col)
                         else:
@@ -499,7 +581,9 @@ def safe_write_h5ad(adata, path, compression="gzip", backup=False, backup_dir=No
                         _backup(v, f"uns_{k}_backup")
                     backed_up.append(k)
                     if verbose:
-                        print(f"  uns['{k}'] non-JSON -> stored '{k}_json' and backed up (backup={backup})")
+                        print(
+                            f"  uns['{k}'] non-JSON -> stored '{k}_json' and backed up (backup={backup})"
+                        )
                     report["uns_json_keys"].append(k)
                 except Exception:
                     try:
@@ -534,7 +618,9 @@ def safe_write_h5ad(adata, path, compression="gzip", backup=False, backup_dir=No
                         arr_f = arr.astype(float)
                         cleaned[k] = arr_f
                         report_key = f"{which}.{k}"
-                        report["layers_converted"].append(report_key) if which == "layers" else report["obsm_converted"].append(report_key)
+                        report["layers_converted"].append(
+                            report_key
+                        ) if which == "layers" else report["obsm_converted"].append(report_key)
                         if verbose:
                             print(f"  {which}.{k} object array coerced to float.")
                     except Exception:
@@ -542,7 +628,9 @@ def safe_write_h5ad(adata, path, compression="gzip", backup=False, backup_dir=No
                             arr_i = arr.astype(int)
                             cleaned[k] = arr_i
                             report_key = f"{which}.{k}"
-                            report["layers_converted"].append(report_key) if which == "layers" else report["obsm_converted"].append(report_key)
+                            report["layers_converted"].append(
+                                report_key
+                            ) if which == "layers" else report["obsm_converted"].append(report_key)
                             if verbose:
                                 print(f"  {which}.{k} object array coerced to int.")
                         except Exception:
@@ -553,7 +641,9 @@ def safe_write_h5ad(adata, path, compression="gzip", backup=False, backup_dir=No
                             else:
                                 report["obsm_skipped"].append(k)
                             if verbose:
-                                print(f"  SKIPPING {which}.{k} (object dtype not numeric). Backed up: {backup}")
+                                print(
+                                    f"  SKIPPING {which}.{k} (object dtype not numeric). Backed up: {backup}"
+                                )
                             continue
                 else:
                     cleaned[k] = arr
@@ -638,7 +728,9 @@ def safe_write_h5ad(adata, path, compression="gzip", backup=False, backup_dir=No
                 X_to_use = np.zeros_like(X_arr, dtype=float)
                 report["X_replaced_or_converted"] = "replaced_with_zeros_backup"
                 if verbose:
-                    print("adata.X had object dtype and couldn't be converted; replaced with zeros (backup set).")
+                    print(
+                        "adata.X had object dtype and couldn't be converted; replaced with zeros (backup set)."
+                    )
     except Exception as e:
         msg = f"Error handling adata.X: {e}"
         report["errors"].append(msg)
@@ -722,9 +814,121 @@ def safe_write_h5ad(adata, path, compression="gzip", backup=False, backup_dir=No
             print(" -", e)
     print("=== end report ===\n")
+    # ---------- create CSV output directory ----------
+    try:
+        csv_dir = path.parent / "csvs"
+        csv_dir.mkdir(exist_ok=True)
+        if verbose:
+            print(f"CSV outputs will be written to: {csv_dir}")
+    except Exception as e:
+        msg = f"Failed to create CSV output directory: {e}"
+        report["errors"].append(msg)
+        if verbose:
+            print(msg)
+        csv_dir = path.parent  # fallback just in case
+    # ---------- write keys summary CSV ----------
+    try:
+        meta_rows = []
+        # obs columns
+        for col in adata_copy.obs.columns:
+            meta_rows.append(
+                {
+                    "kind": "obs",
+                    "name": col,
+                    "dtype": str(adata_copy.obs[col].dtype),
+                }
+            )
+        # var columns
+        for col in adata_copy.var.columns:
+            meta_rows.append(
+                {
+                    "kind": "var",
+                    "name": col,
+                    "dtype": str(adata_copy.var[col].dtype),
+                }
+            )
+        # layers
+        for k, v in adata_copy.layers.items():
+            meta_rows.append(
+                {
+                    "kind": "layer",
+                    "name": k,
+                    "dtype": str(np.asarray(v).dtype),
+                }
+            )
+        # obsm
+        for k, v in adata_copy.obsm.items():
+            meta_rows.append(
+                {
+                    "kind": "obsm",
+                    "name": k,
+                    "dtype": str(np.asarray(v).dtype),
+                }
+            )
+        # uns
+        for k, v in adata_copy.uns.items():
+            meta_rows.append(
+                {
+                    "kind": "uns",
+                    "name": k,
+                    "dtype": type(v).__name__,
+                }
+            )
+        meta_df = pd.DataFrame(meta_rows)
+        # same base name, inside csvs/
+        base = path.stem  # removes .h5ad
+        meta_path = csv_dir / f"{base}.keys.csv"
+        meta_df.to_csv(meta_path, index=False)
+        if verbose:
+            print(f"Wrote keys summary CSV to {meta_path}")
+    except Exception as e:
+        msg = f"Failed to write keys CSV: {e}"
+        report["errors"].append(msg)
+        if verbose:
+            print(msg)
+    # ---------- write full obs and var dataframes ----------
+    try:
+        base = path.stem
+        obs_path = csv_dir / f"{base}.obs.csv"
+        var_path = csv_dir / f"{base}.var.csv"
+        adata_copy.obs.to_csv(obs_path, index=True)
+        adata_copy.var.to_csv(var_path, index=True)
+        if verbose:
+            print(f"Wrote obs DataFrame to {obs_path}")
+            print(f"Wrote var DataFrame to {var_path}")
+    except Exception as e:
+        msg = f"Failed to write obs/var CSVs: {e}"
+        report["errors"].append(msg)
+        if verbose:
+            print(msg)
     return report
-def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=True, categorical_threshold=100, verbose=True):
+def safe_read_h5ad(
+    path,
+    backup_dir=None,
+    restore_backups=True,
+    re_categorize=True,
+    categorical_threshold=100,
+    verbose=True,
+):
     """
     Safely load an AnnData saved by safe_write_h5ad and attempt to restore complex objects
     from the backup_dir produced during save.
@@ -752,13 +956,14 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
         report : dict
             A report describing restored items, parsed JSON keys, and any failures.
     """
-    import os
-    from pathlib import Path
     import json
+    import os
     import pickle
+    from pathlib import Path
+    import anndata as _ad
     import numpy as np
     import pandas as pd
-    import anndata as _ad
     path = Path(path)
@@ -837,7 +1042,9 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
                         if hasattr(val, "shape") and (len(val) == adata.shape[0]):
                             adata.obs[col] = pd.Series(val, index=adata.obs.index)
                         else:
-                            adata.obs[col] = pd.Series([val] * adata.shape[0], index=adata.obs.index)
+                            adata.obs[col] = pd.Series(
+                                [val] * adata.shape[0], index=adata.obs.index
+                            )
                         report["restored_obs_columns"].append((col, bname1))
                         restored = True
                         if verbose:
@@ -852,7 +1059,9 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
             looks_like_json = False
             for sv in sample_vals:
                 svs = sv.strip()
-                if (svs.startswith("{") and svs.endswith("}")) or (svs.startswith("[") and svs.endswith("]")):
+                if (svs.startswith("{") and svs.endswith("}")) or (
+                    svs.startswith("[") and svs.endswith("]")
+                ):
                     looks_like_json = True
                     break
             if looks_like_json:
@@ -870,7 +1079,9 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
                     report["restored_obs_columns"].append((col, "parsed_json"))
                     restored = True
                     if verbose:
-                        print(f"[safe_read_h5ad] parsed obs.{col} JSON strings back to Python objects")
+                        print(
+                            f"[safe_read_h5ad] parsed obs.{col} JSON strings back to Python objects"
+                        )
         # If still not restored and re_categorize=True, try to convert small unique string columns back to categorical
         if (not restored) and re_categorize and adata.obs[col].dtype == object:
@@ -881,7 +1092,9 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
                     adata.obs[col] = adata.obs[col].astype(str).astype("category")
                     report["recategorized_obs"].append(col)
                     if verbose:
-                        print(f"[safe_read_h5ad] recast obs.{col} -> categorical (n_unique={nunique})")
+                        print(
+                            f"[safe_read_h5ad] recast obs.{col} -> categorical (n_unique={nunique})"
+                        )
             except Exception as e:
                 report["errors"].append(f"Failed to recategorize obs.{col}: {e}")
@@ -913,7 +1126,9 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
                         if hasattr(val, "shape") and (len(val) == adata.shape[1]):
                             adata.var[col] = pd.Series(val, index=adata.var.index)
                         else:
-                            adata.var[col] = pd.Series([val] * adata.shape[1], index=adata.var.index)
+                            adata.var[col] = pd.Series(
+                                [val] * adata.shape[1], index=adata.var.index
+                            )
                         report["restored_var_columns"].append((col, bname1))
                         restored = True
                         if verbose:
@@ -927,7 +1142,9 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
             looks_like_json = False
             for sv in sample_vals:
                 svs = sv.strip()
-                if (svs.startswith("{") and svs.endswith("}")) or (svs.startswith("[") and svs.endswith("]")):
+                if (svs.startswith("{") and svs.endswith("}")) or (
+                    svs.startswith("[") and svs.endswith("]")
+                ):
                     looks_like_json = True
                     break
             if looks_like_json:
@@ -943,7 +1160,9 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
                     adata.var[col] = pd.Series(parsed, index=adata.var.index)
                     report["restored_var_columns"].append((col, "parsed_json"))
                     if verbose:
-                        print(f"[safe_read_h5ad] parsed var.{col} JSON strings back to Python objects")
+                        print(
+                            f"[safe_read_h5ad] parsed var.{col} JSON strings back to Python objects"
+                        )
         if (not restored) and re_categorize and adata.var[col].dtype == object:
             try:
@@ -952,7 +1171,9 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
                     adata.var[col] = adata.var[col].astype(str).astype("category")
                     report["recategorized_var"].append(col)
                     if verbose:
-                        print(f"[safe_read_h5ad] recast var.{col} -> categorical (n_unique={nunique})")
+                        print(
+                            f"[safe_read_h5ad] recast var.{col} -> categorical (n_unique={nunique})"
+                        )
             except Exception as e:
                 report["errors"].append(f"Failed to recategorize var.{col}: {e}")
@@ -984,7 +1205,7 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
         if not fname.startswith("uns_") or not fname.endswith("_backup.pkl"):
             continue
         # fname example: "uns_clustermap_results_backup.pkl" -> key name between 'uns_' and '_backup.pkl'
-        key = fname[len("uns_"):-len("_backup.pkl")]
+        key = fname[len("uns_") : -len("_backup.pkl")]
         full = os.path.join(backup_dir, fname)
         val = _load_pickle_if_exists(full)
         if val is not None:
@@ -998,7 +1219,7 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
     if os.path.isdir(backup_dir):
         for fname in os.listdir(backup_dir):
             if fname.startswith("layers_") and fname.endswith("_backup.pkl"):
-                layer_name = fname[len("layers_"):-len("_backup.pkl")]
+                layer_name = fname[len("layers_") : -len("_backup.pkl")]
                 full = os.path.join(backup_dir, fname)
                 val = _load_pickle_if_exists(full)
                 if val is not None:
@@ -1008,10 +1229,12 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
                         if verbose:
                             print(f"[safe_read_h5ad] restored layers['{layer_name}'] from {full}")
                     except Exception as e:
-                        report["errors"].append(f"Failed to restore layers['{layer_name}'] from {full}: {e}")
+                        report["errors"].append(
+                            f"Failed to restore layers['{layer_name}'] from {full}: {e}"
+                        )
             if fname.startswith("obsm_") and fname.endswith("_backup.pkl"):
-                obsm_name = fname[len("obsm_"):-len("_backup.pkl")]
+                obsm_name = fname[len("obsm_") : -len("_backup.pkl")]
                 full = os.path.join(backup_dir, fname)
                 val = _load_pickle_if_exists(full)
                 if val is not None:
@@ -1021,7 +1244,9 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
                         if verbose:
                             print(f"[safe_read_h5ad] restored obsm['{obsm_name}'] from {full}")
                     except Exception as e:
-                        report["errors"].append(f"Failed to restore obsm['{obsm_name}'] from {full}: {e}")
+                        report["errors"].append(
+                            f"Failed to restore obsm['{obsm_name}'] from {full}: {e}"
+                        )
     # 6) If restore_backups True but some expected backups missing, note them
     if restore_backups and os.path.isdir(backup_dir):
@@ -1051,7 +1276,9 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
         if expected_missing and verbose:
             n = len(expected_missing)
             if verbose:
-                print(f"[safe_read_h5ad] note: {n} obs/var object columns may not have backups; check if their content is acceptable.")
+                print(
+                    f"[safe_read_h5ad] note: {n} obs/var object columns may not have backups; check if their content is acceptable."
+                )
             # add to report
             report["missing_backups"].extend(expected_missing)
@@ -1071,9 +1298,16 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
         if report["restored_obsm"]:
             print("Restored obsm:", report["restored_obsm"])
         if report["recategorized_obs"] or report["recategorized_var"]:
-            print("Recategorized columns (obs/var):", report["recategorized_obs"], report["recategorized_var"])
+            print(
+                "Recategorized columns (obs/var):",
+                report["recategorized_obs"],
+                report["recategorized_var"],
+            )
         if report["missing_backups"]:
-            print("Missing backups or object columns without backups (investigate):", report["missing_backups"])
+            print(
+                "Missing backups or object columns without backups (investigate):",
+                report["missing_backups"],
+            )
         if report["errors"]:
             print("Errors encountered (see report['errors']):")
             for e in report["errors"]:
@@ -1082,9 +1316,10 @@ def safe_read_h5ad(path, backup_dir=None, restore_backups=True, re_categorize=Tr
     return adata, report
 def merge_barcoded_anndatas_core(adata_single, adata_double):
-    import numpy as np
     import anndata as ad
+    import numpy as np
     # Step 1: Identify overlap
     overlap = np.intersect1d(adata_single.obs_names, adata_double.obs_names)
@@ -1093,24 +1328,25 @@ def merge_barcoded_anndatas_core(adata_single, adata_double):
     adata_single_filtered = adata_single[~adata_single.obs_names.isin(overlap)].copy()
     # Step 3: Add source tag
-    adata_single_filtered.obs['source'] = 'single_barcode'
-    adata_double.obs['source'] = 'double_barcode'
+    adata_single_filtered.obs["source"] = "single_barcode"
+    adata_double.obs["source"] = "double_barcode"
     # Step 4: Concatenate all components
-    adata_merged = ad.concat([
-        adata_single_filtered,
-        adata_double
-    ], join='outer', merge='same')  # merge='same' preserves matching layers, obsm, etc.
+    adata_merged = ad.concat(
+        [adata_single_filtered, adata_double], join="outer", merge="same"
+    )  # merge='same' preserves matching layers, obsm, etc.
     # Step 5: Merge `.uns`
     adata_merged.uns = {**adata_single.uns, **adata_double.uns}
     return adata_merged
 ######################################################################################################
 ### File conversion misc ###
-import argparse
-from Bio import SeqIO
 def genbank_to_gff(genbank_file, output_file, record_id):
     with open(output_file, "w") as out:
         for record in SeqIO.parse(genbank_file, "genbank"):
@@ -1126,5 +1362,18 @@ def genbank_to_gff(genbank_file, output_file, record_id):
                 # Format attributes
                 attributes = ";".join(f"{k}={v}" for k, v in feature.qualifiers.items())
                 # Write GFF3 line
-                gff3_line = "\t".join(str(x) for x in [record_id, feature.type, feature_type, start, end, ".", strand, ".", attributes])
-                out.write(gff3_line + "\n")
+                gff3_line = "\t".join(
+                    str(x)
+                    for x in [
+                        record_id,
+                        feature.type,
+                        feature_type,
+                        start,
+                        end,
+                        ".",
+                        strand,
+                        ".",
+                        attributes,
+                    ]
+                )
+                out.write(gff3_line + "\n")

smftools 0.2.3__py3-none-any.whl → 0.2.5__py3-none-any.whl

smftools 0.2.3py3-none-any.whl → 0.2.5py3-none-any.whl