PyPI - biopipen - Versions diffs - 0.21.0__py3-none-any.whl → 0.34.26__py3-none-any.whl - Mend

biopipen 0.21.0py3-none-any.whl → 0.34.26py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (290) hide show

biopipen/__init__.py +1 -1
biopipen/core/config.toml +28 -0
biopipen/core/filters.py +79 -4
biopipen/core/proc.py +12 -3
biopipen/core/testing.py +75 -3
biopipen/ns/bam.py +148 -6
biopipen/ns/bed.py +75 -0
biopipen/ns/cellranger.py +186 -0
biopipen/ns/cellranger_pipeline.py +126 -0
biopipen/ns/cnv.py +19 -3
biopipen/ns/cnvkit.py +1 -1
biopipen/ns/cnvkit_pipeline.py +20 -12
biopipen/ns/delim.py +34 -35
biopipen/ns/gene.py +68 -23
biopipen/ns/gsea.py +63 -37
biopipen/ns/misc.py +39 -14
biopipen/ns/plot.py +304 -1
biopipen/ns/protein.py +183 -0
biopipen/ns/regulatory.py +290 -0
biopipen/ns/rnaseq.py +142 -5
biopipen/ns/scrna.py +2053 -473
biopipen/ns/scrna_metabolic_landscape.py +228 -382
biopipen/ns/snp.py +659 -0
biopipen/ns/stats.py +484 -0
biopipen/ns/tcr.py +683 -98
biopipen/ns/vcf.py +236 -2
biopipen/ns/web.py +97 -6
biopipen/reports/bam/CNVpytor.svelte +4 -9
biopipen/reports/cellranger/CellRangerCount.svelte +18 -0
biopipen/reports/cellranger/CellRangerSummary.svelte +16 -0
biopipen/reports/cellranger/CellRangerVdj.svelte +18 -0
biopipen/reports/cnvkit/CNVkitDiagram.svelte +1 -1
biopipen/reports/cnvkit/CNVkitHeatmap.svelte +1 -1
biopipen/reports/cnvkit/CNVkitScatter.svelte +1 -1
biopipen/reports/common.svelte +15 -0
biopipen/reports/protein/ProdigySummary.svelte +16 -0
biopipen/reports/scrna/CellsDistribution.svelte +4 -39
biopipen/reports/scrna/DimPlots.svelte +1 -1
biopipen/reports/scrna/MarkersFinder.svelte +6 -126
biopipen/reports/scrna/MetaMarkers.svelte +3 -75
biopipen/reports/scrna/RadarPlots.svelte +4 -20
biopipen/reports/scrna_metabolic_landscape/MetabolicFeatures.svelte +61 -22
biopipen/reports/scrna_metabolic_landscape/MetabolicPathwayActivity.svelte +88 -82
biopipen/reports/scrna_metabolic_landscape/MetabolicPathwayHeterogeneity.svelte +70 -10
biopipen/reports/snp/PlinkCallRate.svelte +24 -0
biopipen/reports/snp/PlinkFreq.svelte +18 -0
biopipen/reports/snp/PlinkHWE.svelte +18 -0
biopipen/reports/snp/PlinkHet.svelte +18 -0
biopipen/reports/snp/PlinkIBD.svelte +18 -0
biopipen/reports/tcr/CDR3AAPhyschem.svelte +19 -66
biopipen/reports/tcr/ClonalStats.svelte +16 -0
biopipen/reports/tcr/CloneResidency.svelte +3 -93
biopipen/reports/tcr/Immunarch.svelte +4 -155
biopipen/reports/tcr/TCRClusterStats.svelte +3 -45
biopipen/reports/tcr/TESSA.svelte +11 -28
biopipen/reports/utils/misc.liq +22 -7
biopipen/scripts/bam/BamMerge.py +11 -15
biopipen/scripts/bam/BamSampling.py +90 -0
biopipen/scripts/bam/BamSort.py +141 -0
biopipen/scripts/bam/BamSplitChroms.py +10 -10
biopipen/scripts/bam/BamSubsetByBed.py +38 -0
biopipen/scripts/bam/CNAClinic.R +41 -5
biopipen/scripts/bam/CNVpytor.py +153 -54
biopipen/scripts/bam/ControlFREEC.py +13 -14
biopipen/scripts/bam/SamtoolsView.py +33 -0
biopipen/scripts/bed/Bed2Vcf.py +5 -5
biopipen/scripts/bed/BedConsensus.py +5 -5
biopipen/scripts/bed/BedLiftOver.sh +6 -4
biopipen/scripts/bed/BedtoolsIntersect.py +54 -0
biopipen/scripts/bed/BedtoolsMakeWindows.py +47 -0
biopipen/scripts/bed/BedtoolsMerge.py +4 -4
biopipen/scripts/cellranger/CellRangerCount.py +138 -0
biopipen/scripts/cellranger/CellRangerSummary.R +181 -0
biopipen/scripts/cellranger/CellRangerVdj.py +112 -0
biopipen/scripts/cnv/AneuploidyScore.R +55 -20
biopipen/scripts/cnv/AneuploidyScoreSummary.R +221 -163
biopipen/scripts/cnv/TMADScore.R +25 -9
biopipen/scripts/cnv/TMADScoreSummary.R +57 -86
biopipen/scripts/cnvkit/CNVkitAccess.py +7 -6
biopipen/scripts/cnvkit/CNVkitAutobin.py +26 -18
biopipen/scripts/cnvkit/CNVkitBatch.py +6 -6
biopipen/scripts/cnvkit/CNVkitCall.py +3 -3
biopipen/scripts/cnvkit/CNVkitCoverage.py +4 -3
biopipen/scripts/cnvkit/CNVkitDiagram.py +5 -5
biopipen/scripts/cnvkit/CNVkitFix.py +3 -3
biopipen/scripts/cnvkit/CNVkitGuessBaits.py +12 -8
biopipen/scripts/cnvkit/CNVkitHeatmap.py +5 -5
biopipen/scripts/cnvkit/CNVkitReference.py +6 -5
biopipen/scripts/cnvkit/CNVkitScatter.py +5 -5
biopipen/scripts/cnvkit/CNVkitSegment.py +5 -5
biopipen/scripts/cnvkit/guess_baits.py +166 -93
biopipen/scripts/delim/RowsBinder.R +1 -1
biopipen/scripts/delim/SampleInfo.R +116 -118
biopipen/scripts/gene/GeneNameConversion.R +67 -0
biopipen/scripts/gene/GenePromoters.R +61 -0
biopipen/scripts/gsea/Enrichr.R +5 -5
biopipen/scripts/gsea/FGSEA.R +184 -50
biopipen/scripts/gsea/GSEA.R +2 -2
biopipen/scripts/gsea/PreRank.R +5 -5
biopipen/scripts/misc/Config2File.py +2 -2
biopipen/scripts/misc/Plot.R +80 -0
biopipen/scripts/misc/Shell.sh +15 -0
biopipen/scripts/misc/Str2File.py +2 -2
biopipen/scripts/plot/Heatmap.R +3 -3
biopipen/scripts/plot/Manhattan.R +147 -0
biopipen/scripts/plot/QQPlot.R +146 -0
biopipen/scripts/plot/ROC.R +88 -0
biopipen/scripts/plot/Scatter.R +112 -0
biopipen/scripts/plot/VennDiagram.R +5 -9
biopipen/scripts/protein/MMCIF2PDB.py +33 -0
biopipen/scripts/protein/PDB2Fasta.py +60 -0
biopipen/scripts/protein/Prodigy.py +119 -0
biopipen/scripts/protein/ProdigySummary.R +140 -0
biopipen/scripts/protein/RMSD.py +178 -0
biopipen/scripts/regulatory/MotifAffinityTest.R +102 -0
biopipen/scripts/regulatory/MotifAffinityTest_AtSNP.R +127 -0
biopipen/scripts/regulatory/MotifAffinityTest_MotifBreakR.R +104 -0
biopipen/scripts/regulatory/MotifScan.py +159 -0
biopipen/scripts/regulatory/VariantMotifPlot.R +78 -0
biopipen/scripts/regulatory/motifs-common.R +324 -0
biopipen/scripts/rnaseq/Simulation-ESCO.R +180 -0
biopipen/scripts/rnaseq/Simulation-RUVcorr.R +45 -0
biopipen/scripts/rnaseq/Simulation.R +21 -0
biopipen/scripts/rnaseq/UnitConversion.R +325 -54
biopipen/scripts/scrna/AnnData2Seurat.R +40 -0
biopipen/scripts/scrna/CCPlotR-patch.R +161 -0
biopipen/scripts/scrna/CellCellCommunication.py +150 -0
biopipen/scripts/scrna/CellCellCommunicationPlots.R +93 -0
biopipen/scripts/scrna/CellSNPLite.py +30 -0
biopipen/scripts/scrna/CellTypeAnnotation-celltypist.R +185 -0
biopipen/scripts/scrna/CellTypeAnnotation-direct.R +68 -31
biopipen/scripts/scrna/CellTypeAnnotation-hitype.R +27 -22
biopipen/scripts/scrna/CellTypeAnnotation-sccatch.R +28 -20
biopipen/scripts/scrna/CellTypeAnnotation-sctype.R +48 -25
biopipen/scripts/scrna/CellTypeAnnotation.R +37 -1
biopipen/scripts/scrna/CellsDistribution.R +456 -167
biopipen/scripts/scrna/DimPlots.R +1 -1
biopipen/scripts/scrna/ExprImputation-alra.R +109 -0
biopipen/scripts/scrna/ExprImputation-rmagic.R +256 -0
biopipen/scripts/scrna/{ExprImpution-scimpute.R → ExprImputation-scimpute.R} +8 -5
biopipen/scripts/scrna/ExprImputation.R +7 -0
biopipen/scripts/scrna/LoomTo10X.R +51 -0
biopipen/scripts/scrna/MQuad.py +25 -0
biopipen/scripts/scrna/MarkersFinder.R +679 -400
biopipen/scripts/scrna/MetaMarkers.R +265 -161
biopipen/scripts/scrna/ModuleScoreCalculator.R +66 -11
biopipen/scripts/scrna/PseudoBulkDEG.R +678 -0
biopipen/scripts/scrna/RadarPlots.R +355 -134
biopipen/scripts/scrna/ScFGSEA.R +298 -100
biopipen/scripts/scrna/ScSimulation.R +65 -0
biopipen/scripts/scrna/ScVelo.py +617 -0
biopipen/scripts/scrna/Seurat2AnnData.R +7 -0
biopipen/scripts/scrna/SeuratClusterStats-clustree.R +87 -0
biopipen/scripts/scrna/SeuratClusterStats-dimplots.R +36 -30
biopipen/scripts/scrna/SeuratClusterStats-features.R +138 -187
biopipen/scripts/scrna/SeuratClusterStats-ngenes.R +81 -0
biopipen/scripts/scrna/SeuratClusterStats-stats.R +78 -89
biopipen/scripts/scrna/SeuratClusterStats.R +47 -10
biopipen/scripts/scrna/SeuratClustering.R +36 -233
biopipen/scripts/scrna/SeuratLoading.R +2 -2
biopipen/scripts/scrna/SeuratMap2Ref.R +84 -113
biopipen/scripts/scrna/SeuratMetadataMutater.R +16 -6
biopipen/scripts/scrna/SeuratPreparing.R +223 -173
biopipen/scripts/scrna/SeuratSubClustering.R +64 -0
biopipen/scripts/scrna/SeuratTo10X.R +27 -0
biopipen/scripts/scrna/Slingshot.R +65 -0
biopipen/scripts/scrna/Subset10X.R +2 -2
biopipen/scripts/scrna/TopExpressingGenes.R +169 -135
biopipen/scripts/scrna/celltypist-wrapper.py +195 -0
biopipen/scripts/scrna/scvelo_paga.py +313 -0
biopipen/scripts/scrna/seurat_anndata_conversion.py +98 -0
biopipen/scripts/scrna_metabolic_landscape/MetabolicFeatures.R +447 -82
biopipen/scripts/scrna_metabolic_landscape/MetabolicPathwayActivity.R +348 -241
biopipen/scripts/scrna_metabolic_landscape/MetabolicPathwayHeterogeneity.R +188 -166
biopipen/scripts/snp/MatrixEQTL.R +217 -0
biopipen/scripts/snp/Plink2GTMat.py +148 -0
biopipen/scripts/snp/PlinkCallRate.R +199 -0
biopipen/scripts/snp/PlinkFilter.py +100 -0
biopipen/scripts/snp/PlinkFreq.R +291 -0
biopipen/scripts/snp/PlinkFromVcf.py +81 -0
biopipen/scripts/snp/PlinkHWE.R +85 -0
biopipen/scripts/snp/PlinkHet.R +96 -0
biopipen/scripts/snp/PlinkIBD.R +196 -0
biopipen/scripts/snp/PlinkSimulation.py +124 -0
biopipen/scripts/snp/PlinkUpdateName.py +124 -0
biopipen/scripts/stats/ChowTest.R +146 -0
biopipen/scripts/stats/DiffCoexpr.R +152 -0
biopipen/scripts/stats/LiquidAssoc.R +135 -0
biopipen/scripts/stats/Mediation.R +108 -0
biopipen/scripts/stats/MetaPvalue.R +130 -0
biopipen/scripts/stats/MetaPvalue1.R +74 -0
biopipen/scripts/tcgamaf/Maf2Vcf.py +2 -2
biopipen/scripts/tcgamaf/MafAddChr.py +2 -2
biopipen/scripts/tcr/Attach2Seurat.R +3 -2
biopipen/scripts/tcr/CDR3AAPhyschem.R +211 -143
biopipen/scripts/tcr/CDR3Clustering.R +343 -0
biopipen/scripts/tcr/ClonalStats.R +526 -0
biopipen/scripts/tcr/CloneResidency.R +255 -131
biopipen/scripts/tcr/CloneSizeQQPlot.R +4 -4
biopipen/scripts/tcr/GIANA/GIANA.py +1356 -797
biopipen/scripts/tcr/GIANA/GIANA4.py +1362 -789
biopipen/scripts/tcr/GIANA/query.py +164 -162
biopipen/scripts/tcr/Immunarch-basic.R +31 -9
biopipen/scripts/tcr/Immunarch-clonality.R +25 -5
biopipen/scripts/tcr/Immunarch-diversity.R +352 -134
biopipen/scripts/tcr/Immunarch-geneusage.R +45 -5
biopipen/scripts/tcr/Immunarch-kmer.R +68 -8
biopipen/scripts/tcr/Immunarch-overlap.R +84 -4
biopipen/scripts/tcr/Immunarch-spectratyping.R +35 -6
biopipen/scripts/tcr/Immunarch-tracking.R +38 -6
biopipen/scripts/tcr/Immunarch-vjjunc.R +165 -0
biopipen/scripts/tcr/Immunarch.R +63 -11
biopipen/scripts/tcr/Immunarch2VDJtools.R +2 -2
biopipen/scripts/tcr/ImmunarchFilter.R +4 -4
biopipen/scripts/tcr/ImmunarchLoading.R +38 -29
biopipen/scripts/tcr/SampleDiversity.R +1 -1
biopipen/scripts/tcr/ScRepCombiningExpression.R +40 -0
biopipen/scripts/tcr/ScRepLoading.R +166 -0
biopipen/scripts/tcr/TCRClusterStats.R +176 -22
biopipen/scripts/tcr/TCRDock.py +110 -0
biopipen/scripts/tcr/TESSA.R +102 -118
biopipen/scripts/tcr/VJUsage.R +5 -5
biopipen/scripts/tcr/immunarch-patched.R +142 -0
biopipen/scripts/tcr/vdjtools-patch.sh +1 -1
biopipen/scripts/vcf/BcftoolsAnnotate.py +91 -0
biopipen/scripts/vcf/BcftoolsFilter.py +90 -0
biopipen/scripts/vcf/BcftoolsMerge.py +31 -0
biopipen/scripts/vcf/BcftoolsSort.py +113 -0
biopipen/scripts/vcf/BcftoolsView.py +73 -0
biopipen/scripts/vcf/TruvariBench.sh +14 -7
biopipen/scripts/vcf/TruvariBenchSummary.R +16 -13
biopipen/scripts/vcf/TruvariConsistency.R +1 -1
biopipen/scripts/vcf/Vcf2Bed.py +2 -2
biopipen/scripts/vcf/VcfAnno.py +11 -11
biopipen/scripts/vcf/VcfDownSample.sh +22 -10
biopipen/scripts/vcf/VcfFilter.py +5 -5
biopipen/scripts/vcf/VcfFix.py +7 -7
biopipen/scripts/vcf/VcfFix_utils.py +13 -4
biopipen/scripts/vcf/VcfIndex.py +3 -3
biopipen/scripts/vcf/VcfIntersect.py +3 -3
biopipen/scripts/vcf/VcfLiftOver.sh +5 -0
biopipen/scripts/vcf/VcfSplitSamples.py +4 -4
biopipen/scripts/vcf/bcftools_utils.py +52 -0
biopipen/scripts/web/Download.py +8 -4
biopipen/scripts/web/DownloadList.py +5 -5
biopipen/scripts/web/GCloudStorageDownloadBucket.py +82 -0
biopipen/scripts/web/GCloudStorageDownloadFile.py +23 -0
biopipen/scripts/web/gcloud_common.py +49 -0
biopipen/utils/gene.py +108 -60
biopipen/utils/misc.py +146 -20
biopipen/utils/reference.py +64 -20
biopipen/utils/reporter.py +177 -0
biopipen/utils/vcf.py +1 -1
biopipen-0.34.26.dist-info/METADATA +27 -0
biopipen-0.34.26.dist-info/RECORD +292 -0
{biopipen-0.21.0.dist-info → biopipen-0.34.26.dist-info}/WHEEL +1 -1
{biopipen-0.21.0.dist-info → biopipen-0.34.26.dist-info}/entry_points.txt +6 -2
biopipen/ns/bcftools.py +0 -111
biopipen/ns/scrna_basic.py +0 -255
biopipen/reports/delim/SampleInfo.svelte +0 -36
biopipen/reports/scrna/GeneExpressionInvistigation.svelte +0 -32
biopipen/reports/scrna/ScFGSEA.svelte +0 -35
biopipen/reports/scrna/SeuratClusterStats.svelte +0 -82
biopipen/reports/scrna/SeuratMap2Ref.svelte +0 -20
biopipen/reports/scrna/SeuratPreparing.svelte +0 -38
biopipen/reports/scrna/TopExpressingGenes.svelte +0 -55
biopipen/reports/scrna_metabolic_landscape/MetabolicFeaturesIntraSubset.svelte +0 -31
biopipen/reports/utils/gsea.liq +0 -110
biopipen/scripts/bcftools/BcftoolsAnnotate.py +0 -42
biopipen/scripts/bcftools/BcftoolsFilter.py +0 -79
biopipen/scripts/bcftools/BcftoolsSort.py +0 -19
biopipen/scripts/gene/GeneNameConversion.py +0 -66
biopipen/scripts/scrna/ExprImpution-alra.R +0 -32
biopipen/scripts/scrna/ExprImpution-rmagic.R +0 -29
biopipen/scripts/scrna/ExprImpution.R +0 -7
biopipen/scripts/scrna/GeneExpressionInvistigation.R +0 -132
biopipen/scripts/scrna/Write10X.R +0 -11
biopipen/scripts/scrna_metabolic_landscape/MetabolicFeaturesIntraSubset.R +0 -150
biopipen/scripts/tcr/TCRClustering.R +0 -280
biopipen/utils/common_docstrs.py +0 -61
biopipen/utils/gene.R +0 -49
biopipen/utils/gsea.R +0 -193
biopipen/utils/io.R +0 -20
biopipen/utils/misc.R +0 -114
biopipen/utils/mutate_helpers.R +0 -433
biopipen/utils/plot.R +0 -173
biopipen/utils/rnaseq.R +0 -48
biopipen/utils/single_cell.R +0 -115
biopipen-0.21.0.dist-info/METADATA +0 -22
biopipen-0.21.0.dist-info/RECORD +0 -218

biopipen/scripts/scrna_metabolic_landscape/MetabolicFeaturesIntraSubset.R DELETED Viewed

@@ -1,150 +0,0 @@
-source("{{biopipen_dir}}/utils/misc.R")
-source("{{biopipen_dir}}/utils/gsea.R")
-library(parallel)
-library(scater)
-library(Seurat)
-sobjfile <- {{ in.sobjfile | r }}
-outdir <- {{ out.outdir | r }}
-gmtfile <- {{ envs.gmtfile | r }}
-ncores <- {{ envs.ncores | r }}
-fgsea <- {{ envs.fgsea | r }}
-top <- {{ envs.top | r }}
-prerank_method <- {{ envs.prerank_method | r }}
-grouping <- {{ envs.grouping | r }}
-grouping_prefix <- {{ envs.grouping_prefix | r }}
-subsetting_cols <- {{ envs.subsetting | r }}
-subsetting_prefix <- {{ envs.subsetting_prefix | r }}
-subsetting_comparison <- {{ envs.subsetting_comparison | r }}
-if (!is.null(grouping_prefix) && nchar(grouping_prefix) > 0) {
-    grouping_prefix = paste0(grouping_prefix, "_")
-}
-if (!is.null(subsetting_prefix) && nchar(subsetting_prefix) > 0) {
-    subsetting_prefix = paste0(subsetting_prefix, "_")
-}
-set.seed(8525)
-## gmt_pathways is copied from fgsea package.
-gmt_pathways <- function(gmt_file) {
-    pathway_lines <- strsplit(readLines(gmt_file), "\t")
-    pathways <- lapply(pathway_lines, tail, -2)
-    names(pathways) <- sapply(pathway_lines, head, 1)
-    pathways
-}
-pathways <- gmt_pathways(gmtfile)
-metabolics <- unique(as.vector(unname(unlist(pathways))))
-sobj <- readRDS(sobjfile)
-do_one_comparison <- function(
-    obj,
-    compname,
-    case,
-    control,
-    groupdir,
-    subset_col,
-    subset_prefix
-) {
-    print(paste("  Design:", compname, "(", case, ",", control, ")"))
-    case_code = paste0("subset(obj, subset = ", subset_col, " == '", case, "')")
-    case_obj = tryCatch({
-        eval(parse(text = case_code))
-    }, error = function(e) {
-        NULL
-    })
-    if (is.null(case_obj)) {
-        print("          Skip (not enough cells in case)")
-        return (NULL)
-    }
-    control_code = paste0("subset(obj, subset = ", subset_col, " == '", control, "')")
-    control_obj = tryCatch({
-        eval(parse(text = control_code))
-    }, error = function(e) {
-        NULL
-    })
-    if (is.null(control_obj)) {
-        print("          Skip (not enough cells in control)")
-        return (NULL)
-    }
-    exprs_case = GetAssayData(case_obj)
-    exprs_control = GetAssayData(control_obj)
-    odir = file.path(groupdir, paste0(subset_prefix, compname))
-    dir.create(odir, showWarnings = FALSE)
-    if (ncol(exprs_case) < 3 || ncol(exprs_control) < 3) {
-        print("          Skip (not enough cells)")
-        return (NULL)
-    }
-    if (fgsea) {
-        ranks = prerank(
-            cbind(exprs_case, exprs_control),
-            case,
-            control,
-            c(rep(case, ncol(exprs_case)), rep(control, ncol(exprs_control))),
-            method = prerank_method
-        )
-        runFGSEA(
-            ranks,
-            gmtfile,
-            top = top,
-            outdir = odir,
-            envs = list(nproc = 1)
-        )
-    } else {
-        runGSEA(
-            cbind(exprs_case, exprs_control),
-            c(rep(case, ncol(exprs_case)), rep(control, ncol(exprs_control))),
-            gmtfile,
-            odir
-        )
-    }
-}
-do_one_group <- function(group) {
-    print(paste("- Group:", group, "..."))
-    genes = intersect(metabolics, rownames(sobj))
-    group_code = paste0(
-        "subset(sobj, subset = ", grouping, " == '", group, "', features = genes)"
-    )
-    obj = eval(parse(text = group_code))
-    groupname = paste0(grouping_prefix, group)
-    groupdir = file.path(outdir, groupname)
-    dir.create(groupdir, showWarnings = FALSE)
-    for (i in seq_along(subsetting_comparison)) {
-        sci = subsetting_comparison[[i]]
-        if (is.null(sci) || length(sci) == 0) {
-            next
-        }
-        sapply(
-            names(sci),
-            function(compname) {
-                do_one_comparison(
-                    obj,
-                    compname,
-                    sci[[compname]][1],
-                    sci[[compname]][2],
-                    groupdir,
-                    subsetting_cols[i],
-                    subsetting_prefix[i]
-                )
-            }
-        )
-    }
-}
-groups = as.character(unique(sobj@meta.data[[grouping]]))
-if (ncores == 1) {
-    lapply(groups, do_one_group)
-} else {
-    x = mclapply(groups, do_one_group, mc.cores = ncores)
-    if (any(unlist(lapply(x, class)) == "try-error")) {
-        stop("mclapply error")
-    }
-}

biopipen/scripts/tcr/TCRClustering.R DELETED Viewed

@@ -1,280 +0,0 @@
-# # https://stackoverflow.com/questions/50145643/unable-to-change-python-path-in-reticulate
-# python = Sys.which({{envs.python | r}})
-# Sys.setenv(RETICULATE_PYTHON = python)
-# library(reticulate)
-library(immunarch)
-library(dplyr)
-library(tidyr)
-library(tibble)
-immfile = {{in.immfile | r}}
-outdir = normalizePath({{job.outdir | r}})
-outfile = {{out.immfile | r}}
-clusterfile = {{out.clusterfile | r}}
-tool = {{envs.tool | r}}
-python = {{envs.python | r}}
-on_multi = {{envs.on_multi | r}}
-args = {{envs.args | r}}
-setwd(outdir)
-immdata = readRDS(immfile)
-if (on_multi) {
-    seqdata = immdata$multi
-} else {
-    seqdata = immdata$data
-}
-get_cdr3aa_df = function() {
-    out = NULL
-    for (sample in names(immdata$data)) {
-        tmpdf = immdata$data[[sample]] %>%
-            select(Barcode, CDR3.aa) %>%
-            separate_rows(Barcode, sep = ";") %>%
-            mutate(Barcode = paste0(sample, "_", Barcode))
-        out = bind_rows(out, tmpdf)
-    }
-    out
-}
-cdr3aa_df = get_cdr3aa_df()
-prepare_clustcr = function(clustcr_dir) {
-    clustering_args = ""
-    for (name in names(args)) {
-        value = args[[name]]
-        if (is.logical(value)) {
-            value = tools::toTitleCase(as.character(value))
-        } else if (is.character(value)) {
-            value = paste0("'", value, "'")
-        }
-        clustering_args = paste(name, "=", value)
-    }
-    clustcr_source = '
-import sys
-import pandas as pd
-import clustcr
-clustcr_dir, clustcr_infile = sys.argv[1:3]
-cdr3df = pd.read_csv(clustcr_infile, index_col=None)
-cdr3 = cdr3df.iloc[:, 0]
-clustering = clustcr.Clustering(%s)
-output = clustering.fit(cdr3)
-output.clusters_df.to_csv(clustcr_dir + "/clusters.txt", sep="\\t", index=False)
-'
-    clustcr_file = file.path(clustcr_dir, "_clustcr.py")
-    cat(sprintf(clustcr_source, clustering_args), file=clustcr_file)
-    clustcr_file
-}
-clean_clustcr_output = function(clustcr_outfile, clustcr_input) {
-    clustcr_out = read.delim2(clustcr_outfile, header=TRUE, row.names = NULL)
-    colnames(clustcr_out) = c("CDR3.aa", "TCR_Cluster")
-    in_cdr3 = read.delim2(clustcr_input, header=TRUE, row.names = NULL)
-    out = left_join(in_cdr3, distinct(clustcr_out), by=c("CDR3.aa")) %>%
-        mutate(
-            TCR_Cluster = if_else(
-                is.na(TCR_Cluster),
-                paste0("S_", row_number()),
-                paste0("M_", as.character(TCR_Cluster))
-            )
-        )
-    out = left_join(
-        cdr3aa_df,
-        out,
-        by = "CDR3.aa"
-    )
-    df = out %>%
-        select(Barcode, TCR_Cluster) %>%
-        add_count(TCR_Cluster, name="TCR_Cluster_Size") %>%
-        distinct(Barcode, .keep_all = TRUE) %>%
-        add_count(TCR_Cluster, name="TCR_Cluster_Size1") %>%
-        column_to_rownames("Barcode")
-    write.table(df, clusterfile, row.names=T, col.names=T, quote=F, sep="\t")
-    out
-}
-run_clustcr = function() {
-    print(paste("Using tool:", "ClusTCR"))
-    clustcr_dir = file.path(outdir, "ClusTCR_Output")
-    dir.create(clustcr_dir, showWarnings = FALSE)
-    clustcr_file = prepare_clustcr(clustcr_dir)
-    clustcr_input = prepare_input()
-    clustcr_cmd = paste(
-        python,
-        clustcr_file,
-        clustcr_dir,
-        clustcr_input
-    )
-    print("Running:")
-    print(clustcr_cmd)
-    rc = system(clustcr_cmd)
-    if (rc != 0) {
-        quit(status=rc)
-    }
-    clustcr_outfile = file.path(clustcr_dir, "clusters.txt")
-    clean_clustcr_output(clustcr_outfile, clustcr_input)
-}
-prepare_giana = function() {
-    giana_srcdir = "{{biopipen_dir}}/scripts/tcr/GIANA"
-    # # The source code of GIANA is downloaded now to giana_srcdir
-    # giana_file = file.path(giana_srcdir, "GIANA.py")
-    # giana4_file = file.path(giana_srcdir, "GIANA4.py")
-    # giana_query = file.path(giana_srcdir, "query.py")
-    # giana_trbv = file.path(giana_srcdir, "Imgt_Human_TRBV.fasta")
-    # if (!file.exists(giana_file)) {
-    #     download.file(paste(giana_repo, "GIANA4.1.py", sep="/"), giana_file)
-    #     download.file(paste(giana_repo, "GIANA4.py", sep="/"), giana4_file)
-    #     download.file(paste(giana_repo, "query.py", sep="/"), giana_query)
-    #     download.file(paste(giana_repo, "Imgt_Human_TRBV.fasta", sep="/"), giana_trbv)
-    # }
-    giana_srcdir
-}
-prepare_input = function() {
-    # prepare input file for GIANA
-    cdr3 = c()
-    # cdr3col = if (!on_multi) "cdr3" else "CDR3.aa"
-    cdr3col = "CDR3.aa"
-    for (sample in names(seqdata)) {
-        # cdr3 = bind_rows(cdr3, seqdata[[sample]] %>%
-        #     transmute(aminoAcid=CDR3.aa, vMaxResolved=paste0(V.name, "*01"), Sample=sample))
-        cdr3 = union(
-            cdr3,
-            seqdata[[sample]] %>% pull(cdr3col) %>% unique()
-        )
-    }
-    cdr3 = unique(cdr3)
-    # cdr3 = distinct(cdr3, aminoAcid, vMaxResolved)
-    cdr3file = file.path(outdir, "cdr3.csv")
-    write.table(
-        data.frame(CDR3.aa=cdr3),
-        cdr3file,
-        row.names=FALSE, col.names=TRUE, quote=FALSE
-    )
-    cdr3file
-}
-clean_giana_output = function(giana_outfile, giana_infile) {
-    # generate an output file with columns:
-    # CDR3.aa, TCR_Cluster, V.name, Sample
-    # If sequence doesn't exist in the input file,
-    # Then a unique cluster id is assigned to it.
-    giana_out = read.delim2(giana_outfile, header=FALSE, comment.char = "#", row.names = NULL)[, 1:2, drop=FALSE]
-    colnames(giana_out) = c("CDR3.aa", "TCR_Cluster")
-    in_cdr3 = read.delim2(giana_infile, header=TRUE, row.names = NULL)
-    out = left_join(in_cdr3, distinct(giana_out), by=c("CDR3.aa")) %>%
-        mutate(
-            TCR_Cluster = if_else(
-                is.na(TCR_Cluster),
-                paste0("S_", row_number()),
-                paste0("M_", as.character(TCR_Cluster))
-            )
-        )
-    out = left_join(
-        cdr3aa_df,
-        out,
-        by = "CDR3.aa"
-    )
-    df = out %>%
-        select(Barcode, TCR_Cluster) %>%
-        add_count(TCR_Cluster, name="TCR_Cluster_Size") %>%
-        distinct(Barcode, .keep_all = TRUE) %>%
-        add_count(TCR_Cluster, name="TCR_Cluster_Size1") %>%
-        column_to_rownames("Barcode")
-    write.table(df, clusterfile, row.names=T, col.names=T, quote=F, sep="\t")
-    out
-}
-run_giana = function() {
-    print(paste("Using tool:", "GIANA"))
-    giana_srcdir = prepare_giana()
-    giana_input = prepare_input()
-    giana_outdir = file.path(outdir, "GIANA_Output")
-    dir.create(giana_outdir, showWarnings = FALSE)
-    args_str = ""
-    for (argname in names(args)) {
-        argvalue = args[[argname]]
-        if (!startsWith(argname, "-")) {
-            if (nchar(argname) == 1) {
-                argname = paste0("-", argname)
-            } else {
-                argname = paste0("--", argname)
-            }
-        }
-        if (isTRUE(argvalue) || toupper(as.character(argvalue)) == "TRUE") {
-            argvalue = ""
-        } else {
-            argvalue = as.character(argvalue)
-        }
-        args_str = paste(args_str, argname, argvalue)
-    }
-    giana_cmd = paste(
-        python,
-        file.path(giana_srcdir, "GIANA.py"),
-        "-f", giana_input,
-        "-o", giana_outdir,
-        "-v", # TRBV mutation not supported
-        args_str
-    )
-    print("Running:")
-    print(giana_cmd)
-    rc = system(giana_cmd)
-    if (rc != 0) {
-        quit(status=rc)
-    }
-    giana_outfile = file.path(giana_outdir, "cdr3--RotationEncodingBL62.txt")
-    clean_giana_output(giana_outfile, giana_input)
-}
-attach_to_immdata = function(out) {
-    seqdata2 = list()
-    # by = if (!on_multi) c(cdr3 = "CDR3.aa") else "CDR3.aa"
-    by = "CDR3.aa"
-    for (sample in names(seqdata)) {
-        sample_out = left_join(seqdata[[sample]], out, by=by)
-        seqdata2[[sample]] = sample_out
-        if (!on_multi) {
-            immdata$data[[sample]] = immdata$data[[sample]] %>% left_join(
-                out, by = "CDR3.aa"
-            )
-        } else {
-            immdata$multi[[sample]] = immdata$multi[[sample]] %>% left_join(
-                out, by = c(cdr3 = "CDR3.aa")
-            )
-        }
-        # if ("single" %in% names(immdata)) {
-        #     immdata$data[[sample]] = immdata$data[[sample]] %>% left_join(
-        #         out, by = "CDR3.aa"
-        #     )
-        # }
-    }
-    if (!on_multi) {
-        immdata$data = seqdata2
-    } else {
-        immdata$multi = seqdata2
-    }
-    saveRDS(immdata, file = outfile)
-    # seqdata2
-}
-if (tolower(tool) == "clustcr") {
-    out = run_clustcr()
-} else if (tolower(tool) == "giana") {
-    out = run_giana()
-} else {
-    stop(paste("Unknown tool:", tool))
-}
-attach_to_immdata(out)

biopipen/utils/common_docstrs.py DELETED Viewed

@@ -1,61 +0,0 @@
-"""Common docstrings for biopipen procs."""
-import textwrap
-from typing import Callable
-def indent_docstr(docstr: str, indent: str) -> str:
-    """Indent the docstring.
-    Args:
-        docstr: The docstring.
-        indent: The indent.
-    Returns:
-        The indented docstring.
-    """
-    return textwrap.indent(docstr, indent).strip()
-def format_placeholder(**kwargs) -> Callable[[type], type]:
-    """A decorator to format a docstring placeholder.
-    Args:
-        **kwargs: The docstring placeholder.
-    Returns:
-        The decorated function.
-    """
-    def decorator(klass: type) -> type:
-        klass.__doc__ = klass.__doc__ % kwargs
-        return klass
-    return decorator
-MUTATE_HELPERS_CLONESIZE = """
-There are also also 4 helper functions, `expanded`, `collapsed`, `emerged` and `vanished`,
-which can be used to identify the expanded/collpased/emerged/vanished groups (i.e. TCR clones).
-For example, you can use
-`{"Patient1_Tumor_Collapsed_Clones": "expanded(., Source, 'Tumor', subset = Patent == 'Patient1', uniq = FALSE)"}`
-to create a new column in metadata named `Patient1_Tumor_Collapsed_Clones`
-with the collapsed clones in the tumor sample (compared to the normal sample) of patient 1.
-The values in this columns for other clones will be `NA`.
-Those functions take following arguments:
-* `df`: The metadata data frame. You can use the `.` to refer to it.
-* `group-by`: The column name in metadata to group the cells.
-* `idents`: The first group or both groups of cells to compare (value in `group-by` column). If only the first group is given, the rest of the cells (with non-NA in `group-by` column) will be used as the second group.
-* `subset`: An expression to subset the cells, will be passed to `dplyr::filter()`. Default is `TRUE` (no filtering).
-* `id`: The column name in metadata for the group ids (i.e. `CDR3.aa`).
-* `compare`: Either a (numeric) column name (i.e. `Clones`) in metadata to compare between groups, or `.n` to compare the number of cells in each group.
-    If numeric column is given, the values should be the same for all cells in the same group.
-    This will not be checked (only the first value is used).
-* `uniq`: Whether to return unique ids or not. Default is `TRUE`. If `FALSE`, you can mutate the meta data frame with the returned ids. For example, `df |> mutate(expanded = expanded(...))`.
-* `order`: The order of the returned ids. It could be `sum` or `diff`, which is the sum or diff of the `compare` between idents.
-    Two kinds of modifiers can be added, including `desc` and `abs`.
-    For example, `sum,desc` means the sum of `compare` between idents in descending order.
-    Default is `diff,abs,desc`. It only works when `uniq` is `TRUE`. If `uniq` is `FALSE`, the returned
-    ids will be in the same order as in `df`.
-* `include_emerged`: Whether to include the emerged group for `expanded` (only works for `expanded`). Default is `FALSE`.
-* `include_vanished`: Whether to include the vanished group for `collapsed` (only works for `collapsed`). Default is `FALSE`.
-"""

biopipen/utils/gene.R DELETED Viewed

@@ -1,49 +0,0 @@
-library(mygene)
-library(dplyr)
-gene_name_conversion = function(
-    genes,
-    species,
-    infmt,
-    outfmt,
-    notfound
-) {
-    out = queryMany(
-        genes,
-        scopes=infmt,
-        fields=outfmt,
-        species=species
-    ) %>% as.data.frame() %>% group_by(
-        query
-    ) %>% arrange(
-        desc(X_score)
-    ) %>% slice_head(n=1) %>% select(
-        -c(X_id, X_score)
-    )
-    if ("notfound" %in% colnames(out)) {
-        out = out %>% select(-c("notfound"))
-    }
-    if (length(outfmt) == 1 && "," %in% outfmt) {
-        outfmt = trimws(unlist(strsplit(outfmt, ",", fixed=TRUE)))
-    }
-    out = tibble(query=genes) %>% left_join(out, by="query")
-    if (notfound == "use-query") {
-        out = out %>% mutate(
-            across(
-                outfmt,
-                function(col, query) if_else(is.na(col), query, col),
-                query=query
-            )
-        )
-    } else if (notfound == "error" && any(is.na(out[[outfmt[1]]]))) {
-        nagenes = out %>% filter(is.na(.[[outfmt[1]]])) %>% pull("query")
-        stop(paste("Query genes not found:", paste(nagenes, collapse=",")))
-    } else if (notfound == "skip") {
-        out = out %>% filter(!is.na(.[[outfmt[1]]]))
-    }
-    return out
-}

biopipen 0.21.0__py3-none-any.whl → 0.34.26__py3-none-any.whl

biopipen 0.21.0py3-none-any.whl → 0.34.26py3-none-any.whl