PyPI - biopipen - Versions diffs - 0.21.0__py3-none-any.whl → 0.34.26__py3-none-any.whl - Mend

biopipen 0.21.0py3-none-any.whl → 0.34.26py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (290) hide show

biopipen/__init__.py +1 -1
biopipen/core/config.toml +28 -0
biopipen/core/filters.py +79 -4
biopipen/core/proc.py +12 -3
biopipen/core/testing.py +75 -3
biopipen/ns/bam.py +148 -6
biopipen/ns/bed.py +75 -0
biopipen/ns/cellranger.py +186 -0
biopipen/ns/cellranger_pipeline.py +126 -0
biopipen/ns/cnv.py +19 -3
biopipen/ns/cnvkit.py +1 -1
biopipen/ns/cnvkit_pipeline.py +20 -12
biopipen/ns/delim.py +34 -35
biopipen/ns/gene.py +68 -23
biopipen/ns/gsea.py +63 -37
biopipen/ns/misc.py +39 -14
biopipen/ns/plot.py +304 -1
biopipen/ns/protein.py +183 -0
biopipen/ns/regulatory.py +290 -0
biopipen/ns/rnaseq.py +142 -5
biopipen/ns/scrna.py +2053 -473
biopipen/ns/scrna_metabolic_landscape.py +228 -382
biopipen/ns/snp.py +659 -0
biopipen/ns/stats.py +484 -0
biopipen/ns/tcr.py +683 -98
biopipen/ns/vcf.py +236 -2
biopipen/ns/web.py +97 -6
biopipen/reports/bam/CNVpytor.svelte +4 -9
biopipen/reports/cellranger/CellRangerCount.svelte +18 -0
biopipen/reports/cellranger/CellRangerSummary.svelte +16 -0
biopipen/reports/cellranger/CellRangerVdj.svelte +18 -0
biopipen/reports/cnvkit/CNVkitDiagram.svelte +1 -1
biopipen/reports/cnvkit/CNVkitHeatmap.svelte +1 -1
biopipen/reports/cnvkit/CNVkitScatter.svelte +1 -1
biopipen/reports/common.svelte +15 -0
biopipen/reports/protein/ProdigySummary.svelte +16 -0
biopipen/reports/scrna/CellsDistribution.svelte +4 -39
biopipen/reports/scrna/DimPlots.svelte +1 -1
biopipen/reports/scrna/MarkersFinder.svelte +6 -126
biopipen/reports/scrna/MetaMarkers.svelte +3 -75
biopipen/reports/scrna/RadarPlots.svelte +4 -20
biopipen/reports/scrna_metabolic_landscape/MetabolicFeatures.svelte +61 -22
biopipen/reports/scrna_metabolic_landscape/MetabolicPathwayActivity.svelte +88 -82
biopipen/reports/scrna_metabolic_landscape/MetabolicPathwayHeterogeneity.svelte +70 -10
biopipen/reports/snp/PlinkCallRate.svelte +24 -0
biopipen/reports/snp/PlinkFreq.svelte +18 -0
biopipen/reports/snp/PlinkHWE.svelte +18 -0
biopipen/reports/snp/PlinkHet.svelte +18 -0
biopipen/reports/snp/PlinkIBD.svelte +18 -0
biopipen/reports/tcr/CDR3AAPhyschem.svelte +19 -66
biopipen/reports/tcr/ClonalStats.svelte +16 -0
biopipen/reports/tcr/CloneResidency.svelte +3 -93
biopipen/reports/tcr/Immunarch.svelte +4 -155
biopipen/reports/tcr/TCRClusterStats.svelte +3 -45
biopipen/reports/tcr/TESSA.svelte +11 -28
biopipen/reports/utils/misc.liq +22 -7
biopipen/scripts/bam/BamMerge.py +11 -15
biopipen/scripts/bam/BamSampling.py +90 -0
biopipen/scripts/bam/BamSort.py +141 -0
biopipen/scripts/bam/BamSplitChroms.py +10 -10
biopipen/scripts/bam/BamSubsetByBed.py +38 -0
biopipen/scripts/bam/CNAClinic.R +41 -5
biopipen/scripts/bam/CNVpytor.py +153 -54
biopipen/scripts/bam/ControlFREEC.py +13 -14
biopipen/scripts/bam/SamtoolsView.py +33 -0
biopipen/scripts/bed/Bed2Vcf.py +5 -5
biopipen/scripts/bed/BedConsensus.py +5 -5
biopipen/scripts/bed/BedLiftOver.sh +6 -4
biopipen/scripts/bed/BedtoolsIntersect.py +54 -0
biopipen/scripts/bed/BedtoolsMakeWindows.py +47 -0
biopipen/scripts/bed/BedtoolsMerge.py +4 -4
biopipen/scripts/cellranger/CellRangerCount.py +138 -0
biopipen/scripts/cellranger/CellRangerSummary.R +181 -0
biopipen/scripts/cellranger/CellRangerVdj.py +112 -0
biopipen/scripts/cnv/AneuploidyScore.R +55 -20
biopipen/scripts/cnv/AneuploidyScoreSummary.R +221 -163
biopipen/scripts/cnv/TMADScore.R +25 -9
biopipen/scripts/cnv/TMADScoreSummary.R +57 -86
biopipen/scripts/cnvkit/CNVkitAccess.py +7 -6
biopipen/scripts/cnvkit/CNVkitAutobin.py +26 -18
biopipen/scripts/cnvkit/CNVkitBatch.py +6 -6
biopipen/scripts/cnvkit/CNVkitCall.py +3 -3
biopipen/scripts/cnvkit/CNVkitCoverage.py +4 -3
biopipen/scripts/cnvkit/CNVkitDiagram.py +5 -5
biopipen/scripts/cnvkit/CNVkitFix.py +3 -3
biopipen/scripts/cnvkit/CNVkitGuessBaits.py +12 -8
biopipen/scripts/cnvkit/CNVkitHeatmap.py +5 -5
biopipen/scripts/cnvkit/CNVkitReference.py +6 -5
biopipen/scripts/cnvkit/CNVkitScatter.py +5 -5
biopipen/scripts/cnvkit/CNVkitSegment.py +5 -5
biopipen/scripts/cnvkit/guess_baits.py +166 -93
biopipen/scripts/delim/RowsBinder.R +1 -1
biopipen/scripts/delim/SampleInfo.R +116 -118
biopipen/scripts/gene/GeneNameConversion.R +67 -0
biopipen/scripts/gene/GenePromoters.R +61 -0
biopipen/scripts/gsea/Enrichr.R +5 -5
biopipen/scripts/gsea/FGSEA.R +184 -50
biopipen/scripts/gsea/GSEA.R +2 -2
biopipen/scripts/gsea/PreRank.R +5 -5
biopipen/scripts/misc/Config2File.py +2 -2
biopipen/scripts/misc/Plot.R +80 -0
biopipen/scripts/misc/Shell.sh +15 -0
biopipen/scripts/misc/Str2File.py +2 -2
biopipen/scripts/plot/Heatmap.R +3 -3
biopipen/scripts/plot/Manhattan.R +147 -0
biopipen/scripts/plot/QQPlot.R +146 -0
biopipen/scripts/plot/ROC.R +88 -0
biopipen/scripts/plot/Scatter.R +112 -0
biopipen/scripts/plot/VennDiagram.R +5 -9
biopipen/scripts/protein/MMCIF2PDB.py +33 -0
biopipen/scripts/protein/PDB2Fasta.py +60 -0
biopipen/scripts/protein/Prodigy.py +119 -0
biopipen/scripts/protein/ProdigySummary.R +140 -0
biopipen/scripts/protein/RMSD.py +178 -0
biopipen/scripts/regulatory/MotifAffinityTest.R +102 -0
biopipen/scripts/regulatory/MotifAffinityTest_AtSNP.R +127 -0
biopipen/scripts/regulatory/MotifAffinityTest_MotifBreakR.R +104 -0
biopipen/scripts/regulatory/MotifScan.py +159 -0
biopipen/scripts/regulatory/VariantMotifPlot.R +78 -0
biopipen/scripts/regulatory/motifs-common.R +324 -0
biopipen/scripts/rnaseq/Simulation-ESCO.R +180 -0
biopipen/scripts/rnaseq/Simulation-RUVcorr.R +45 -0
biopipen/scripts/rnaseq/Simulation.R +21 -0
biopipen/scripts/rnaseq/UnitConversion.R +325 -54
biopipen/scripts/scrna/AnnData2Seurat.R +40 -0
biopipen/scripts/scrna/CCPlotR-patch.R +161 -0
biopipen/scripts/scrna/CellCellCommunication.py +150 -0
biopipen/scripts/scrna/CellCellCommunicationPlots.R +93 -0
biopipen/scripts/scrna/CellSNPLite.py +30 -0
biopipen/scripts/scrna/CellTypeAnnotation-celltypist.R +185 -0
biopipen/scripts/scrna/CellTypeAnnotation-direct.R +68 -31
biopipen/scripts/scrna/CellTypeAnnotation-hitype.R +27 -22
biopipen/scripts/scrna/CellTypeAnnotation-sccatch.R +28 -20
biopipen/scripts/scrna/CellTypeAnnotation-sctype.R +48 -25
biopipen/scripts/scrna/CellTypeAnnotation.R +37 -1
biopipen/scripts/scrna/CellsDistribution.R +456 -167
biopipen/scripts/scrna/DimPlots.R +1 -1
biopipen/scripts/scrna/ExprImputation-alra.R +109 -0
biopipen/scripts/scrna/ExprImputation-rmagic.R +256 -0
biopipen/scripts/scrna/{ExprImpution-scimpute.R → ExprImputation-scimpute.R} +8 -5
biopipen/scripts/scrna/ExprImputation.R +7 -0
biopipen/scripts/scrna/LoomTo10X.R +51 -0
biopipen/scripts/scrna/MQuad.py +25 -0
biopipen/scripts/scrna/MarkersFinder.R +679 -400
biopipen/scripts/scrna/MetaMarkers.R +265 -161
biopipen/scripts/scrna/ModuleScoreCalculator.R +66 -11
biopipen/scripts/scrna/PseudoBulkDEG.R +678 -0
biopipen/scripts/scrna/RadarPlots.R +355 -134
biopipen/scripts/scrna/ScFGSEA.R +298 -100
biopipen/scripts/scrna/ScSimulation.R +65 -0
biopipen/scripts/scrna/ScVelo.py +617 -0
biopipen/scripts/scrna/Seurat2AnnData.R +7 -0
biopipen/scripts/scrna/SeuratClusterStats-clustree.R +87 -0
biopipen/scripts/scrna/SeuratClusterStats-dimplots.R +36 -30
biopipen/scripts/scrna/SeuratClusterStats-features.R +138 -187
biopipen/scripts/scrna/SeuratClusterStats-ngenes.R +81 -0
biopipen/scripts/scrna/SeuratClusterStats-stats.R +78 -89
biopipen/scripts/scrna/SeuratClusterStats.R +47 -10
biopipen/scripts/scrna/SeuratClustering.R +36 -233
biopipen/scripts/scrna/SeuratLoading.R +2 -2
biopipen/scripts/scrna/SeuratMap2Ref.R +84 -113
biopipen/scripts/scrna/SeuratMetadataMutater.R +16 -6
biopipen/scripts/scrna/SeuratPreparing.R +223 -173
biopipen/scripts/scrna/SeuratSubClustering.R +64 -0
biopipen/scripts/scrna/SeuratTo10X.R +27 -0
biopipen/scripts/scrna/Slingshot.R +65 -0
biopipen/scripts/scrna/Subset10X.R +2 -2
biopipen/scripts/scrna/TopExpressingGenes.R +169 -135
biopipen/scripts/scrna/celltypist-wrapper.py +195 -0
biopipen/scripts/scrna/scvelo_paga.py +313 -0
biopipen/scripts/scrna/seurat_anndata_conversion.py +98 -0
biopipen/scripts/scrna_metabolic_landscape/MetabolicFeatures.R +447 -82
biopipen/scripts/scrna_metabolic_landscape/MetabolicPathwayActivity.R +348 -241
biopipen/scripts/scrna_metabolic_landscape/MetabolicPathwayHeterogeneity.R +188 -166
biopipen/scripts/snp/MatrixEQTL.R +217 -0
biopipen/scripts/snp/Plink2GTMat.py +148 -0
biopipen/scripts/snp/PlinkCallRate.R +199 -0
biopipen/scripts/snp/PlinkFilter.py +100 -0
biopipen/scripts/snp/PlinkFreq.R +291 -0
biopipen/scripts/snp/PlinkFromVcf.py +81 -0
biopipen/scripts/snp/PlinkHWE.R +85 -0
biopipen/scripts/snp/PlinkHet.R +96 -0
biopipen/scripts/snp/PlinkIBD.R +196 -0
biopipen/scripts/snp/PlinkSimulation.py +124 -0
biopipen/scripts/snp/PlinkUpdateName.py +124 -0
biopipen/scripts/stats/ChowTest.R +146 -0
biopipen/scripts/stats/DiffCoexpr.R +152 -0
biopipen/scripts/stats/LiquidAssoc.R +135 -0
biopipen/scripts/stats/Mediation.R +108 -0
biopipen/scripts/stats/MetaPvalue.R +130 -0
biopipen/scripts/stats/MetaPvalue1.R +74 -0
biopipen/scripts/tcgamaf/Maf2Vcf.py +2 -2
biopipen/scripts/tcgamaf/MafAddChr.py +2 -2
biopipen/scripts/tcr/Attach2Seurat.R +3 -2
biopipen/scripts/tcr/CDR3AAPhyschem.R +211 -143
biopipen/scripts/tcr/CDR3Clustering.R +343 -0
biopipen/scripts/tcr/ClonalStats.R +526 -0
biopipen/scripts/tcr/CloneResidency.R +255 -131
biopipen/scripts/tcr/CloneSizeQQPlot.R +4 -4
biopipen/scripts/tcr/GIANA/GIANA.py +1356 -797
biopipen/scripts/tcr/GIANA/GIANA4.py +1362 -789
biopipen/scripts/tcr/GIANA/query.py +164 -162
biopipen/scripts/tcr/Immunarch-basic.R +31 -9
biopipen/scripts/tcr/Immunarch-clonality.R +25 -5
biopipen/scripts/tcr/Immunarch-diversity.R +352 -134
biopipen/scripts/tcr/Immunarch-geneusage.R +45 -5
biopipen/scripts/tcr/Immunarch-kmer.R +68 -8
biopipen/scripts/tcr/Immunarch-overlap.R +84 -4
biopipen/scripts/tcr/Immunarch-spectratyping.R +35 -6
biopipen/scripts/tcr/Immunarch-tracking.R +38 -6
biopipen/scripts/tcr/Immunarch-vjjunc.R +165 -0
biopipen/scripts/tcr/Immunarch.R +63 -11
biopipen/scripts/tcr/Immunarch2VDJtools.R +2 -2
biopipen/scripts/tcr/ImmunarchFilter.R +4 -4
biopipen/scripts/tcr/ImmunarchLoading.R +38 -29
biopipen/scripts/tcr/SampleDiversity.R +1 -1
biopipen/scripts/tcr/ScRepCombiningExpression.R +40 -0
biopipen/scripts/tcr/ScRepLoading.R +166 -0
biopipen/scripts/tcr/TCRClusterStats.R +176 -22
biopipen/scripts/tcr/TCRDock.py +110 -0
biopipen/scripts/tcr/TESSA.R +102 -118
biopipen/scripts/tcr/VJUsage.R +5 -5
biopipen/scripts/tcr/immunarch-patched.R +142 -0
biopipen/scripts/tcr/vdjtools-patch.sh +1 -1
biopipen/scripts/vcf/BcftoolsAnnotate.py +91 -0
biopipen/scripts/vcf/BcftoolsFilter.py +90 -0
biopipen/scripts/vcf/BcftoolsMerge.py +31 -0
biopipen/scripts/vcf/BcftoolsSort.py +113 -0
biopipen/scripts/vcf/BcftoolsView.py +73 -0
biopipen/scripts/vcf/TruvariBench.sh +14 -7
biopipen/scripts/vcf/TruvariBenchSummary.R +16 -13
biopipen/scripts/vcf/TruvariConsistency.R +1 -1
biopipen/scripts/vcf/Vcf2Bed.py +2 -2
biopipen/scripts/vcf/VcfAnno.py +11 -11
biopipen/scripts/vcf/VcfDownSample.sh +22 -10
biopipen/scripts/vcf/VcfFilter.py +5 -5
biopipen/scripts/vcf/VcfFix.py +7 -7
biopipen/scripts/vcf/VcfFix_utils.py +13 -4
biopipen/scripts/vcf/VcfIndex.py +3 -3
biopipen/scripts/vcf/VcfIntersect.py +3 -3
biopipen/scripts/vcf/VcfLiftOver.sh +5 -0
biopipen/scripts/vcf/VcfSplitSamples.py +4 -4
biopipen/scripts/vcf/bcftools_utils.py +52 -0
biopipen/scripts/web/Download.py +8 -4
biopipen/scripts/web/DownloadList.py +5 -5
biopipen/scripts/web/GCloudStorageDownloadBucket.py +82 -0
biopipen/scripts/web/GCloudStorageDownloadFile.py +23 -0
biopipen/scripts/web/gcloud_common.py +49 -0
biopipen/utils/gene.py +108 -60
biopipen/utils/misc.py +146 -20
biopipen/utils/reference.py +64 -20
biopipen/utils/reporter.py +177 -0
biopipen/utils/vcf.py +1 -1
biopipen-0.34.26.dist-info/METADATA +27 -0
biopipen-0.34.26.dist-info/RECORD +292 -0
{biopipen-0.21.0.dist-info → biopipen-0.34.26.dist-info}/WHEEL +1 -1
{biopipen-0.21.0.dist-info → biopipen-0.34.26.dist-info}/entry_points.txt +6 -2
biopipen/ns/bcftools.py +0 -111
biopipen/ns/scrna_basic.py +0 -255
biopipen/reports/delim/SampleInfo.svelte +0 -36
biopipen/reports/scrna/GeneExpressionInvistigation.svelte +0 -32
biopipen/reports/scrna/ScFGSEA.svelte +0 -35
biopipen/reports/scrna/SeuratClusterStats.svelte +0 -82
biopipen/reports/scrna/SeuratMap2Ref.svelte +0 -20
biopipen/reports/scrna/SeuratPreparing.svelte +0 -38
biopipen/reports/scrna/TopExpressingGenes.svelte +0 -55
biopipen/reports/scrna_metabolic_landscape/MetabolicFeaturesIntraSubset.svelte +0 -31
biopipen/reports/utils/gsea.liq +0 -110
biopipen/scripts/bcftools/BcftoolsAnnotate.py +0 -42
biopipen/scripts/bcftools/BcftoolsFilter.py +0 -79
biopipen/scripts/bcftools/BcftoolsSort.py +0 -19
biopipen/scripts/gene/GeneNameConversion.py +0 -66
biopipen/scripts/scrna/ExprImpution-alra.R +0 -32
biopipen/scripts/scrna/ExprImpution-rmagic.R +0 -29
biopipen/scripts/scrna/ExprImpution.R +0 -7
biopipen/scripts/scrna/GeneExpressionInvistigation.R +0 -132
biopipen/scripts/scrna/Write10X.R +0 -11
biopipen/scripts/scrna_metabolic_landscape/MetabolicFeaturesIntraSubset.R +0 -150
biopipen/scripts/tcr/TCRClustering.R +0 -280
biopipen/utils/common_docstrs.py +0 -61
biopipen/utils/gene.R +0 -49
biopipen/utils/gsea.R +0 -193
biopipen/utils/io.R +0 -20
biopipen/utils/misc.R +0 -114
biopipen/utils/mutate_helpers.R +0 -433
biopipen/utils/plot.R +0 -173
biopipen/utils/rnaseq.R +0 -48
biopipen/utils/single_cell.R +0 -115
biopipen-0.21.0.dist-info/METADATA +0 -22
biopipen-0.21.0.dist-info/RECORD +0 -218

biopipen/scripts/scrna/ScVelo.py ADDED Viewed

@@ -0,0 +1,617 @@
+from __future__ import annotations
+import os
+import warnings
+from pathlib import Path
+from diot import Diot  # type: ignore[import]
+import scanpy as sc
+import scvelo as scv
+import numpy as np
+import matplotlib
+matplotlib.use('Agg')
+import matplotlib.pyplot as plt
+from biopipen.utils.misc import logger, require_package
+from biopipen.scripts.scrna.seurat_anndata_conversion import (
+    convert_seurat_to_anndata,
+    convert_anndata_to_seurat,
+)
+require_package("scvelo", ">=0.3.3")
+from biopipen.scripts.scrna import scvelo_paga  # noqa: F401
+warnings.simplefilter("ignore", category=UserWarning)
+warnings.simplefilter("ignore", category=FutureWarning)
+warnings.simplefilter("ignore", category=DeprecationWarning)
+def SCVELO(
+    adata,
+    group_by,
+    dirpath,
+    logger,
+    palette=None,
+    linear_reduction=None,
+    nonlinear_reduction=None,
+    basis=None,
+    mode=["deterministic", "stochastic", "dynamical"],
+    fitting_by="stochastic",
+    min_shared_counts=30,
+    n_pcs=30,
+    n_neighbors=30,
+    stream_smooth=None,
+    stream_density=2,
+    arrow_size=5,
+    arrow_length=5,
+    arrow_density=0.5,
+    denoise=False,
+    denoise_topn=3,
+    kinetics=False,
+    kinetics_topn=100,
+    calculate_velocity_genes=False,
+    top_n=6,
+    ncores=1,
+    dpi=100,
+    fileprefix="",
+):
+    os.chdir(os.path.expanduser(dirpath))
+    if linear_reduction is None:
+        sc.pp.pca(adata, n_comps=n_pcs)
+        linear_reduction = "X_pca"
+    elif linear_reduction not in adata.obsm.keys():
+        logger.warning(
+            f"Linear reduction '{linear_reduction}' not found in adata.obsm. "
+            "Running PCA to generate it."
+        )
+        sc.pp.pca(adata, n_comps=n_pcs)
+        linear_reduction = "X_pca"
+    if basis is None:
+        if nonlinear_reduction is not None:
+            basis = nonlinear_reduction
+        else:
+            basis = "basis"
+            adata.obsm["X_basis"] = adata.obsm[linear_reduction][
+                :, 0:2
+            ]
+    scv.pl.utils.check_basis(adata, basis)
+    if "spliced" not in adata.layers.keys():
+        raise ValueError("'spliced' data must be provided.")
+    if "unspliced" not in adata.layers.keys():
+        raise ValueError("'unspliced' data must be provided.")
+    if type(mode) is str:
+        mode = [mode]
+    mode.append(fitting_by)
+    if kinetics is True or denoise is True:
+        mode.append("dynamical")
+    mode = list(set(mode))
+    if "dynamical" in mode:
+        mode.sort(key="dynamical".__eq__)
+    adata.obs[group_by] = adata.obs[group_by].astype(dtype="category")
+    scv.pl.proportions(adata, groupby=group_by, save=False, show=False)
+    plt.savefig(
+        ".".join(filter(None, [fileprefix, "proportions.png"])), dpi=dpi
+    )
+    logger.info("- Filtering and normalizing data ...")
+    scv.pp.filter_and_normalize(adata, min_shared_counts=min_shared_counts)
+    logger.info("- Running moments ...")
+    # adata.var['highly_variable_genes'].astype(bool)
+    # adata.var['highly_variable_genes'].fillna(False, inplace=True)
+    scv.pp.moments(
+        adata, n_pcs=n_pcs, n_neighbors=n_neighbors, use_rep=linear_reduction
+    )
+    highly_variable_genes = adata.var["highly_variable_genes"].index.tolist()
+    adata.uns["layer_features_RNA"] = highly_variable_genes
+    adata.uns["layer_features_spliced"] = highly_variable_genes
+    adata.uns["layer_features_unspliced"] = highly_variable_genes
+    for m in mode:
+        vkey_list = [m]
+        dk_list = [False]
+        gene_subset_list = [None]
+        autoscale_list = [True]
+        logger.info(f"- mode: {m}")
+        adata.uns["layer_features_" + m] = highly_variable_genes
+        adata.uns["layer_features_variance_" + m] = highly_variable_genes
+        if m == "dynamical":
+            adata2 = adata[:, adata.var[fitting_by + "_genes"]].copy()
+            Ms = adata2.layers["Ms"]
+            Mu = adata2.layers["Mu"]
+            adata2.layers.clear()
+            adata2.layers["Ms"] = Ms
+            adata2.layers["Mu"] = Mu
+            connectivities = adata2.obsp["connectivities"]
+            adata2.obsp.clear()
+            adata2.obsp["connectivities"] = connectivities
+            adata.uns["layer_features_Ms"] = highly_variable_genes
+            adata.uns["layer_features_Mu"] = highly_variable_genes
+            scv.tl.recover_dynamics(
+                adata2,
+                var_names=fitting_by + "_genes",
+                use_raw=False,
+                n_jobs=ncores,
+            )
+            var_add = [
+                i
+                for i in list(adata2.var.columns)
+                if not i in list(adata.var.columns)
+            ]
+            adata.var = adata.var.merge(
+                adata2.var[var_add], how="left", left_index=True, right_index=True
+            )
+            adata.uns["recover_dynamics"] = adata2.uns["recover_dynamics"]
+            adata.varm["loss"] = np.empty(
+                (adata.shape[1], adata2.varm["loss"].shape[1])
+            )
+            adata.varm["loss"][:] = np.nan
+            adata.varm["loss"][adata.var[fitting_by + "_genes"], :] = adata2.varm[
+                "loss"
+            ]
+            empty_layer = np.empty((adata.layers["spliced"].shape))
+            empty_layer[:] = np.nan
+            adata.layers["fit_t"] = adata.layers["fit_tau"] = adata.layers[
+                "fit_tau_"
+            ] = empty_layer
+            adata.layers["fit_t"][:, adata.var[fitting_by + "_genes"]] = (
+                adata2.layers["fit_t"]
+            )
+            adata.layers["fit_tau"][:, adata.var[fitting_by + "_genes"]] = (
+                adata2.layers["fit_tau"]
+            )
+            adata.layers["fit_tau_"][:, adata.var[fitting_by + "_genes"]] = (
+                adata2.layers["fit_tau_"]
+            )
+            adata.uns["layer_features_fit_t"] = highly_variable_genes
+            adata.uns["layer_features_fit_tau"] = highly_variable_genes
+            adata.uns["layer_features_fit_tau_"] = highly_variable_genes
+            if kinetics is True:
+                vkey_list.append("dynamical_kinetics")
+                dk_list.append(True)
+                gene_subset_list.append(None)
+                autoscale_list.append(True)
+                top_genes = (
+                    adata.var["fit_likelihood"]
+                    .sort_values(ascending=False)
+                    .index[:kinetics_topn]
+                )
+                scv.tl.differential_kinetic_test(
+                    adata, var_names=top_genes, groupby=group_by
+                )
+            if denoise is True:
+                vkey_list.append("dynamical_denoise")
+                dk_list.append(False)
+                gene_subset_list.append(
+                    adata.var["fit_likelihood"]
+                    .sort_values(ascending=False)
+                    .index[:denoise_topn]
+                )
+                autoscale_list.append(False)
+                adata.layers["dynamical_denoise"] = adata.layers[m] + np.random.normal(
+                    adata.layers[m], scale=adata.layers["Ms"].std(0)
+                )
+                adata.uns["layer_features_dynamical_denoise"] = highly_variable_genes
+        for i in range(len(vkey_list)):
+            vkey = vkey_list[i]
+            dk = dk_list[i]
+            gene_subset = gene_subset_list[i]
+            autoscale = autoscale_list[i]
+            # Velocity graph
+            scv.tl.velocity(adata, mode=m, vkey=vkey, diff_kinetics=dk)
+            scv.tl.velocity_graph(
+                adata,
+                vkey=vkey,
+                gene_subset=gene_subset,
+                n_neighbors=n_neighbors,
+                n_jobs=ncores,
+            )
+            if m == "dynamical":
+                adata.var["velocity_genes"] = adata.var[m + "_genes"]
+                adata.layers["velocity"] = adata.layers[m]
+                adata.layers["variance_u"] = adata.layers[m + "_u"]
+                adata.uns["layer_features_velocity"] = highly_variable_genes
+                adata.uns["layer_features_variance_u"] = highly_variable_genes
+                adata.uns["layer_features_dynamical_u"] = highly_variable_genes
+            else:
+                adata.var["velocity_gamma"] = adata.var[m + "_gamma"]
+                adata.var["velocity_r2"] = adata.var[m + "_r2"]
+                adata.var["velocity_genes"] = adata.var[m + "_genes"]
+                adata.layers["velocity"] = adata.layers[m]
+                # adata.layers["variance_velocity"] = adata.layers["variance_" + m]
+                adata.uns["layer_features_velocity"] = highly_variable_genes
+            # Velocity embedding
+            scv.tl.velocity_embedding(
+                adata, basis=basis, vkey=vkey, autoscale=autoscale
+            )
+            scv.pl.velocity_embedding_stream(
+                adata,
+                vkey=vkey,
+                basis=basis,
+                title=vkey,
+                color=group_by,
+                palette=palette,
+                smooth=stream_smooth,
+                density=stream_density,
+                legend_loc="none",
+                save=False,
+                show=False,
+            )
+            plt.savefig(
+                ".".join(filter(None, [fileprefix, vkey + "_stream.png"])),
+                dpi=dpi,
+            )
+            scv.pl.velocity_embedding(
+                adata,
+                vkey=vkey,
+                basis=basis,
+                title=vkey,
+                color=group_by,
+                palette=palette,
+                arrow_length=arrow_length,
+                arrow_size=arrow_size,
+                density=arrow_density,
+                linewidth=0.3,
+                save=False,
+                show=False,
+            )
+            plt.savefig(
+                ".".join(filter(None, [fileprefix, vkey + "_arrow.png"])),
+                dpi=dpi,
+            )
+            scv.pl.velocity_embedding_grid(
+                adata,
+                vkey=vkey,
+                basis=basis,
+                title=vkey,
+                color=group_by,
+                palette=palette,
+                arrow_length=arrow_length / 2,
+                arrow_size=arrow_size / 2,
+                density=arrow_density * 2,
+                save=False,
+                show=False,
+            )
+            plt.savefig(
+                ".".join(
+                    filter(None, [fileprefix, vkey + "_embedding_grid.png"])
+                ),
+                dpi=dpi,
+            )
+            # Velocity confidence
+            scv.tl.velocity_confidence(adata, vkey=vkey)
+            scv.pl.scatter(
+                adata,
+                basis=basis,
+                title=vkey + " length",
+                color=vkey + "_length",
+                cmap="coolwarm",
+                save=False,
+                show=False,
+            )
+            plt.savefig(
+                ".".join(filter(None, [fileprefix, vkey + "_length.png"])),
+                dpi=dpi,
+            )
+            scv.pl.scatter(
+                adata,
+                basis=basis,
+                title=vkey + " confidence",
+                color=vkey + "_confidence",
+                cmap="magma",
+                save=False,
+                show=False,
+            )
+            plt.savefig(
+                ".".join(filter(None, [fileprefix, vkey + "_confidence.png"])),
+                dpi=dpi,
+            )
+            # Terminal states
+            for term in [
+                "root_cells",
+                "end_points",
+                vkey + "_root_cells",
+                vkey + "_end_points",
+            ]:
+                if term in adata.obs.columns:
+                    adata.obs.drop(term, axis=1, inplace=True)
+            scv.tl.terminal_states(
+                adata,
+                vkey=vkey,
+            )
+            for term in ["root_cells", "end_points"]:
+                adata.obs[vkey + "_" + term] = adata.obs[term]
+                adata.obs.drop(term, axis=1, inplace=True)
+            # scv.pl.scatter(adata,basis=basis,title=vkey+" terminal_states",color_gradients=[vkey+'_root_cells', vkey+'_end_points'], legend_loc="best", save=False, show=False)
+            # if show_plot is True:
+            #   plt.show()
+            # if save:
+            #   plt.savefig('.'.join(filter(None, [fileprefix, vkey+"_terminal_states.png"])), dpi=dpi)
+            # Pseudotime
+            scv.tl.velocity_pseudotime(
+                adata,
+                vkey=vkey,
+                root_key=vkey + "_root_cells",
+                end_key=vkey + "_end_points",
+            )
+            scv.pl.scatter(
+                adata,
+                basis=basis,
+                title=vkey + " pseudotime",
+                color=vkey + "_pseudotime",
+                cmap="cividis",
+                save=False,
+                show=False,
+            )
+            plt.savefig(
+                ".".join(filter(None, [fileprefix, vkey + "_pseudotime.png"])),
+                dpi=dpi,
+            )
+            # Latent time
+            if m == "dynamical":
+                scv.tl.latent_time(
+                    adata,
+                    vkey=vkey,
+                    root_key=vkey + "_root_cells",
+                    end_key=vkey + "_end_points",
+                )
+                scv.pl.scatter(
+                    adata,
+                    basis=basis,
+                    title=vkey + " latent time",
+                    color="latent_time",
+                    color_map="cividis",
+                    save=False,
+                    show=False,
+                )
+                plt.savefig(
+                    ".".join(
+                        filter(None, [fileprefix, vkey + "_latent_time.png"])
+                    ),
+                    dpi=dpi,
+                )
+            # PAGA
+            adata.uns["neighbors"]["distances"] = adata.obsp["distances"]
+            adata.uns["neighbors"]["connectivities"] = adata.obsp["connectivities"]
+            scv.tl.paga(
+                adata,
+                groups=group_by,
+                vkey=vkey,
+                root_key=vkey + "_root_cells",
+                end_key=vkey + "_end_points",
+            )
+            scv.pl.paga(
+                adata,
+                title=vkey + " PAGA (" + group_by + ")",
+                node_colors=palette,
+                basis=basis,
+                alpha=0.5,
+                min_edge_width=2,
+                node_size_scale=1.5,  # type: ignore
+                legend_loc="none",
+                save=False,
+                show=False,
+            )
+            plt.savefig(
+                ".".join(filter(None, [fileprefix, vkey + "_paga.png"])),
+                dpi=dpi,
+            )
+            # Velocity genes
+            if calculate_velocity_genes is True:
+                if m != "dynamical":
+                    scv.tl.rank_velocity_genes(adata, vkey=vkey, groupby=group_by)
+                    adata.var[vkey + "_score"] = adata.var["spearmans_score"]
+                    df1 = scv.get_df(adata.uns["rank_velocity_genes"]["names"])
+                    adata.uns["rank_" + vkey + "_genenames"] = df1
+                    df2 = scv.get_df(adata.uns["rank_velocity_genes"]["scores"])
+                    adata.uns["rank_" + vkey + "_genescores"] = df2
+                    del adata.uns["rank_velocity_genes"]
+                else:
+                    scv.tl.rank_dynamical_genes(adata, groupby=group_by)
+                    df1 = scv.get_df(adata.uns["rank_dynamical_genes"]["names"])
+                    adata.uns["rank_" + vkey + "_genenames"] = df1
+                    df2 = scv.get_df(adata.uns["rank_dynamical_genes"]["scores"])
+                    adata.uns["rank_" + vkey + "_genescores"] = df2
+                    del adata.uns["rank_dynamical_genes"]
+                for cluster in df1.columns:
+                    # df1[0:1].values.ravel()[:12] ### by row
+                    scv.pl.scatter(
+                        adata,
+                        color=group_by,
+                        palette=palette,
+                        basis=df1[cluster].values[:top_n],
+                        vkey=vkey,
+                        size=10,
+                        linewidth=2,
+                        alpha=1,
+                        ylabel="cluster: " + cluster + "\nunspliced",
+                        add_linfit=True,
+                        add_rug=True,
+                        add_outline=True,
+                        ncols=3,
+                        frameon=True,
+                        save=False,
+                        show=False,
+                    )
+                    plt.savefig(
+                        ".".join(
+                            filter(
+                                None,
+                                [fileprefix, cluster, vkey + "_genes1.png"],
+                            )
+                        ),
+                        dpi=dpi,
+                    )
+                    scv.pl.velocity(
+                        adata,
+                        color=group_by,
+                        var_names=df1[cluster].values[:top_n],
+                        vkey=vkey,
+                        size=10,
+                        linewidth=2,
+                        alpha=1,
+                        ylabel="cluster: " + cluster + "\nunspliced",
+                        add_outline=True,
+                        basis=basis,
+                        color_map=["Blues", "YlOrRd"],
+                        ncols=2,
+                        save=False,
+                        show=False,
+                    )
+                    plt.savefig(
+                        ".".join(
+                            filter(
+                                None,
+                                [fileprefix, cluster, vkey + "_genes2.png"],
+                            )
+                        ),
+                        dpi=dpi,
+                    )
+    try:
+        adata.__dict__["_raw"].__dict__["_var"] = (
+            adata.__dict__["_raw"]
+            .__dict__["_var"]
+            .rename(columns={"_index": "features"})
+        )
+    except:
+        pass
+    return adata
+sobjfile: str = {{in.sobjfile | quote}}  # pyright: ignore  # noqa: E999
+outfile: str = {{out.outfile | quote}}  # pyright: ignore  # noqa: E999
+outdir: str = os.path.dirname(outfile)
+ncores: int = {{envs.ncores | repr}}  # pyright: ignore  # noqa: E999
+group_by: str | None = {{envs.group_by | repr}}  # pyright: ignore  # noqa: E999
+mode: str | list[str] = {{envs.mode | repr}}  # pyright: ignore  # noqa: E999
+fitting_by: str = {{envs.fitting_by | repr}}  # pyright: ignore  # noqa: E999
+min_shared_counts: int = {{envs.min_shared_counts | repr}}  # pyright: ignore  # noqa: E999
+n_pcs: int = {{envs.n_pcs | repr}}  # pyright: ignore  # noqa: E999
+n_neighbors: int = {{envs.n_neighbors | repr}}  # pyright: ignore  # noqa: E999
+denoise: bool = {{envs.denoise | repr}}  # pyright: ignore  # noqa: E999
+denoise_topn: int = {{envs.denoise_topn | repr}}  # pyright: ignore  # noqa: E999
+kinetics: bool = {{envs.kinetics | repr}}  # pyright: ignore  # noqa: E999
+kinetics_topn: int = {{envs.kinetics_topn | repr}}  # pyright: ignore  # noqa: E999
+calculate_velocity_genes: bool = {{envs.calculate_velocity_genes | repr}}  # pyright: ignore  # noqa: E999
+top_n: int = {{envs.top_n | repr}}  # pyright: ignore  # noqa: E999
+rscript: str = {{envs.rscript | repr}}  # pyright: ignore  # noqa: E999
+if sobjfile.endswith(".h5ad"):
+    h5ad_file = Path(sobjfile)
+else:
+    h5ad_file = Path(outfile).with_suffix(".input.h5ad")
+    logger.info("Converting Seurat object to AnnData (h5ad) format...")
+    seurat_ident_col = convert_seurat_to_anndata(
+        input_file=sobjfile,
+        output_file=h5ad_file,
+        rscript=rscript,
+        return_ident_col=not group_by,
+    )
+    group_by = group_by or seurat_ident_col
+if group_by is None:
+    group_by = "seurat_clusters"
+    logger.warning(
+        "`envs.group_by` is not provided. "
+        "Using 'seurat_clusters' as the default groupby column. "
+        "It is recommended to provide the `envs.group_by` parameter."
+    )
+logger.info(f"Reading AnnData (h5ad) file ...")
+adata = sc.read_h5ad(h5ad_file)
+if group_by not in adata.obs.columns:
+    raise ValueError(
+        f"The group_by column envs.group_by = '{group_by}' is not found in the AnnData object."
+    )
+logger.info(f"Running scVelo analysis ...")
+if isinstance(mode, str):
+    mode = [mode]
+if not all([m in ["deterministic","stochastic","dynamical"] for m in mode]):
+    raise ValueError(
+        "The 'envs.mode' parameter must be one or more of 'deterministic', 'stochastic', or 'dynamical'."
+    )
+if not fitting_by in ["deterministic","stochastic"]:
+    raise ValueError(
+        "The 'envs.fitting_by' parameter must be either 'deterministic' or 'stochastic'."
+    )
+adata = SCVELO(
+    adata=adata,
+    group_by=group_by,
+    dirpath=outdir,
+    linear_reduction="X_pca",
+    mode=mode,
+    fitting_by=fitting_by,
+    min_shared_counts=min_shared_counts,
+    n_pcs=n_pcs,
+    n_neighbors=n_neighbors,
+    stream_smooth=None,
+    stream_density=2,
+    arrow_size=5,
+    arrow_length=5,
+    arrow_density=0.5,
+    denoise=denoise,
+    denoise_topn=denoise_topn,
+    kinetics=kinetics,
+    kinetics_topn=kinetics_topn,
+    calculate_velocity_genes=calculate_velocity_genes,
+    top_n=top_n,
+    ncores=ncores,
+    logger=logger,
+)
+if outfile.endswith(".h5ad"):
+    h5ad_file = Path(outfile)
+else:
+    h5ad_file = Path(outfile).with_suffix(".output.h5ad")
+logger.info(f"Writing object to AnnData (h5ad) file ...")
+adata.write_h5ad(h5ad_file)
+if not outfile.endswith(".h5ad"):
+    logger.info(f"Converting AnnData (h5ad) file to Seurat format ...")
+    convert_anndata_to_seurat(
+        input_file=h5ad_file,
+        output_file=outfile,
+        rscript=rscript,
+    )

biopipen/scripts/scrna/Seurat2AnnData.R ADDED Viewed

@@ -0,0 +1,7 @@
+library(biopipen.utils)
+sobjfile <- {{in.sobjfile | r}}
+outfile <- {{out.outfile | r}}
+assay <- {{envs.assay | r}}
+ConvertSeuratToAnnData(sobjfile, outfile = outfile, assay = assay)

biopipen 0.21.0__py3-none-any.whl → 0.34.26__py3-none-any.whl

biopipen 0.21.0py3-none-any.whl → 0.34.26py3-none-any.whl