PyPI - gwaslab - Versions diffs - 3.6.5__py3-none-any.whl → 3.6.7__py3-none-any.whl - Mend

gwaslab 3.6.5py3-none-any.whl → 3.6.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of gwaslab might be problematic. Click here for more details.

Files changed (110) hide show

gwaslab/{util_ex_run_clumping.py → util/util_ex_run_clumping.py} RENAMED Viewed

@@ -3,12 +3,12 @@ import numpy as np
 import os
 import pandas as pd
 from gwaslab.g_Log import Log
-from gwaslab.qc_fix_sumstats import start_to
-from gwaslab.qc_fix_sumstats import finished
-from gwaslab.util_ex_process_ref import _process_plink_input_files
+from gwaslab.qc.qc_fix_sumstats import start_to
+from gwaslab.qc.qc_fix_sumstats import finished
+from gwaslab.util.util_ex_process_ref import _process_plink_input_files
 from gwaslab.g_version import _checking_plink_version
-def _clump(insumstats, vcf=None, scaled=False, out="clumping_plink2",
+def _clump(gls, vcf=None, scaled=False, out="clumping_plink2",
            p="P",mlog10p="MLOG10P", overwrite=False, study=None, bfile=None, pfile=None,
            n_cores=1, memory=None, chrom=None, clump_p1=5e-8, clump_p2=5e-8, clump_r2=0.01, clump_kb=250,
            log=Log(),verbose=True,plink="plink",plink2="plink2"):
@@ -18,8 +18,16 @@ def _clump(insumstats, vcf=None, scaled=False, out="clumping_plink2",
     _start_cols =["SNPID","CHR","POS"]
     _start_function = ".clump()"
     _must_args ={}
+    if out is None:
+        out = f"./{study}_clumpping".lstrip('/')
+    else:
+        out = out.lstrip('/')
+    sumstats_id = gls.id
+    sumstats = gls.data
+    gls.offload()
-    is_enough_info = start_to(sumstats=insumstats,
+    is_enough_info = start_to(sumstats=sumstats,
                             log=log,
                             verbose=verbose,
                             start_line=_start_line,
@@ -42,11 +50,18 @@ def _clump(insumstats, vcf=None, scaled=False, out="clumping_plink2",
         clump_log10_p2=-np.log10(clump_p2)
         log.write("  -clump_log10_p1 : {}...".format(clump_log10_p1),verbose=verbose)
         log.write("  -clump_log10_p2 : {}...".format(clump_log10_p2),verbose=verbose)
-        sumstats = insumstats.loc[insumstats[mlog10p]>min(clump_log10_p1,clump_log10_p2),:].copy()
+        sumstats = sumstats.loc[sumstats[mlog10p]>min(clump_log10_p1,clump_log10_p2),:].copy()
     # extract lead variants
     else:
         log.write(" -Clumping will be performed using {}".format(p),verbose=verbose)
-        sumstats = insumstats.loc[insumstats[p]<max(clump_p1,clump_p2),:].copy()
+        sumstats = sumstats.loc[sumstats[p]<max(clump_p1,clump_p2),:].copy()
+    if len(sumstats)==0:
+        log.write(" -No significant variants after filtering.")
+        finished(log=log, verbose=verbose, end_line=_end_line)
+        gls.reload()
+        return pd.DataFrame(), pd.DataFrame(), ""
     log.write(" -Significant variants on CHR: ",list(sumstats["CHR"].unique()),verbose=verbose)
     plink_log=""
@@ -88,9 +103,9 @@ def _clump(insumstats, vcf=None, scaled=False, out="clumping_plink2",
             is_avaialable_variant = (sumstats["CHR"]==i) & (is_on_both)
             if scaled == True:
-                sumstats.loc[is_avaialable_variant,["SNPID",mlog10p]].to_csv("_gwaslab_tmp.{}.SNPIDP".format(i),index=False,sep="\t")
+                sumstats.loc[is_avaialable_variant,["SNPID",mlog10p]].to_csv("{}_gwaslab_tmp.{}.{}.SNPIDP".format(out, sumstats_id, i),index=False,sep="\t")
             else:
-                sumstats.loc[is_avaialable_variant,["SNPID",p]].to_csv("_gwaslab_tmp.{}.SNPIDP".format(i),index=False,sep="\t")
+                sumstats.loc[is_avaialable_variant,["SNPID",p]].to_csv("{}_gwaslab_tmp.{}.{}.SNPIDP".format(out, sumstats_id,i),index=False,sep="\t")
         except:
             log.write(" -Not available for: {}...".format(i),verbose=verbose)
@@ -102,7 +117,7 @@ def _clump(insumstats, vcf=None, scaled=False, out="clumping_plink2",
     for i in sumstats["CHR"].unique():
         chrom = i
         # temp file
-        clump = "_gwaslab_tmp.{}.SNPIDP".format(chrom)
+        clump = "{}_gwaslab_tmp.{}.{}.SNPIDP".format(out,sumstats_id,chrom)
         # output prefix
         out_single_chr= out + ".{}".format(chrom)
@@ -173,10 +188,10 @@ def _clump(insumstats, vcf=None, scaled=False, out="clumping_plink2",
         os.remove(clump)
     results = results.sort_values(by=["#CHROM","POS"]).rename(columns={"#CHROM":"CHR","ID":"SNPID"})
-    log.write("Finished clumping.",verbose=verbose)
-    results_sumstats = insumstats.loc[insumstats["SNPID"].isin(results["SNPID"]),:].copy()
+    results_sumstats = sumstats.loc[sumstats["SNPID"].isin(results["SNPID"]),:].copy()
     finished(log=log, verbose=verbose, end_line=_end_line)
+    gls.reload()
     return results_sumstats, results, plink_log

gwaslab/{util_ex_run_coloc.py → util/util_ex_run_coloc.py} RENAMED Viewed

@@ -6,10 +6,12 @@ import numpy as np
 from gwaslab.g_Log import Log
 from gwaslab.g_version import _checking_r_version
 from gwaslab.g_version import _check_susie_version
-from gwaslab.qc_fix_sumstats import start_to
-from gwaslab.qc_fix_sumstats import finished
+from gwaslab.qc.qc_fix_sumstats import start_to
+from gwaslab.qc.qc_fix_sumstats import finished
-def _run_coloc_susie(filepath, r="Rscript",
+def _run_coloc_susie(glsp,
+                     filepath,
+                     r="Rscript",
                      types=None, ns=None,
                      fillldna=True, delete=False,
                      coloc_args="",
@@ -17,10 +19,18 @@ def _run_coloc_susie(filepath, r="Rscript",
                      ncols=None,
                      d1_args="",
                      d2_args="",
+                     out=None,
                      log=Log(),
                      verbose=True):
-    log.write(" Start to run coloc.susie from command line:", verbose=verbose)
+    log.write("Start to run coloc.susie from command line:", verbose=verbose)
+    if filepath is None:
+        log.write(" -File path is None.", verbose=verbose)
+        log.write("Finished finemapping using SuSieR.", verbose=verbose)
+        return pd.DataFrame()
+    glsp.offload()
     if types is None:
         types = ("cc","cc")
@@ -31,11 +41,6 @@ def _run_coloc_susie(filepath, r="Rscript",
             ns = ncols
     log.write(" -Ns: {} and {}".format(ns[0],ns[1]), verbose=verbose)
-    if filepath is None:
-        log.write(" -File path is None.", verbose=verbose)
-        log.write("Finished finemapping using SuSieR.", verbose=verbose)
-        return pd.DataFrame()
     filelist = pd.read_csv(filepath,sep="\t")
     r_log=""
     # write R script
@@ -49,7 +54,12 @@ def _run_coloc_susie(filepath, r="Rscript",
         study = row["STUDY"]
         ld_r_matrix = row["LD_R_MATRIX"]
         sumstats = row["LOCUS_SUMSTATS"]
-        output_prefix = sumstats.replace(".sumstats.gz","")
+        if out is None:
+            output_prefix = sumstats.replace(".sumstats.gz","")
+        else:
+            output_prefix = os.path.join(out, os.path.basename(sumstats.replace(".sumstats.gz","")))
         log.write(" -Running for: {} - {}".format(row["SNPID"],row["STUDY"] ), verbose=verbose)
         log.write("  -Locus sumstats:{}".format(sumstats), verbose=verbose)
         log.write("  -LD r matrix:{}".format(ld_r_matrix), verbose=verbose)
@@ -141,5 +151,7 @@ def _run_coloc_susie(filepath, r="Rscript",
         except subprocess.CalledProcessError as e:
             log.write(e.output)
             os.remove("_{}_{}_gwaslab_coloc_susie_temp.R".format(study,row["SNPID"]))
     log.write("Finished clocalization using coloc and SuSiE.", verbose=verbose)
+    glsp.reload()
     return locus_pip_cs

gwaslab/{util_ex_run_hyprcoloc.py → util/util_ex_run_hyprcoloc.py} RENAMED Viewed

@@ -6,10 +6,10 @@ import numpy as np
 from gwaslab.g_Log import Log
 from gwaslab.g_version import _checking_r_version
 from gwaslab.g_version import _check_susie_version
-from gwaslab.qc_fix_sumstats import start_to
-from gwaslab.qc_fix_sumstats import finished
-from gwaslab.util_ex_calculate_ldmatrix import _extract_variants_in_locus
-from gwaslab.util_in_get_sig import getsig
+from gwaslab.qc.qc_fix_sumstats import start_to
+from gwaslab.qc.qc_fix_sumstats import finished
+from gwaslab.util.util_ex_calculate_ldmatrix import _extract_variants_in_locus
+from gwaslab.util.util_in_get_sig import getsig
 def _run_hyprcoloc(  sumstats_multi,
                      r="Rscript",

gwaslab/{util_ex_run_magma.py → util/util_ex_run_magma.py} RENAMED Viewed

@@ -4,9 +4,9 @@ import gc
 import pandas as pd
 import numpy as np
 from gwaslab.g_Log import Log
-from gwaslab.util_in_filter_value import _exclude_hla
+from gwaslab.util.util_in_filter_value import _exclude_hla
-def _run_magma(sumstats,
+def _run_magma(gls,
                 magma="magma",
                 study="Study1",
                 exclude_hla=True,
@@ -15,7 +15,7 @@ def _run_magma(sumstats,
                 ref=None,
                 ncbi=None,
                 set_annot=None,
-                out="./",
+                out=None,
                 delete=True,
                 ncol="N",
                 build="19",
@@ -24,33 +24,42 @@ def _run_magma(sumstats,
     log.write(" Start to run magma from command line:", verbose=verbose)
+    sumstats = gls.data
+    gls.offload()
     if exclude_hla==True:
         sumstats = _exclude_hla(sumstats, build =build)
+    if out is None:
+        out = os.path.join("./", study)
+    else:
+        out = os.path.join(out, study)
-    snploc="{}{}.rsid.chr.pos.tsv".format(out,study)
-    pval="{}{}.rsid.p.n.tsv".format(out, study)
+    snploc="{}.rsid.chr.pos.tsv".format(out)
+    pval="{}.rsid.p.n.tsv".format(out)
     log.write(f" -writing temp file for --snp-loc:{snploc}", verbose=verbose)
-    sumstats.dropna()[[id_to_use,"CHR","POS"]].rename(columns={id_to_use:"SNP"}).to_csv("{}{}.rsid.chr.pos.tsv".format(out,study),index=None, sep="\t")
+    sumstats.dropna()[[id_to_use,"CHR","POS"]].rename(columns={id_to_use:"SNP"}).to_csv("{}.rsid.chr.pos.tsv".format(out),index=None, sep="\t")
     log.write(f" -writing temp file for --pval:{pval}", verbose=verbose)
-    sumstats.dropna()[[id_to_use,"P","N"]].rename(columns={id_to_use:"SNP"}).to_csv("{}{}.rsid.p.n.tsv".format(out,study),index=None, sep="\t")
+    sumstats.dropna()[[id_to_use,"P","N"]].rename(columns={id_to_use:"SNP"}).to_csv("{}.rsid.p.n.tsv".format(out),index=None, sep="\t")
     log.write(f" --annotate window: {window}", verbose=verbose)
     log.write(f" --gene-loc: {ncbi}", verbose=verbose)
     log.write(f" --bfile: {ref}", verbose=verbose)
     log.write(f" Output prefix: {out}", verbose=verbose)
     bash_script=f'''#!/bin/bash
-{magma} --annotate window={window}  --snp-loc {snploc} --gene-loc {ncbi} --out {study}
+{magma} --annotate window={window}  --snp-loc {snploc} --gene-loc {ncbi} --out {out}
-{magma} --bfile {ref} --pval {pval} ncol={ncol} --gene-annot {study}.genes.annot --out {study}
+{magma} --bfile {ref} --pval {pval} ncol={ncol} --gene-annot {out}.genes.annot --out {out}
 '''
     if set_annot is not None:
         bash_script+=f'''
-{magma} --gene-results {study}.genes.raw --set-annot {set_annot} --out {study}
+{magma} --gene-results {out}.genes.raw --set-annot {set_annot} --out {out}
 '''
     log.write(f"Script: {bash_script}")
@@ -67,5 +76,6 @@ def _run_magma(sumstats,
         log.warning("ERROR!")
         log.write(e.output)
+    gls.reload()
     log.write("Finished running magma.", verbose=verbose)

gwaslab/{util_ex_run_mesusie.py → util/util_ex_run_mesusie.py} RENAMED Viewed

@@ -6,9 +6,9 @@ import numpy as np
 from gwaslab.g_Log import Log
 from gwaslab.g_version import _checking_r_version
 from gwaslab.g_version import _check_susie_version
-from gwaslab.qc_fix_sumstats import start_to
-from gwaslab.qc_fix_sumstats import finished
-from gwaslab.viz_plot_stackedregional import _sort_args
+from gwaslab.qc.qc_fix_sumstats import start_to
+from gwaslab.qc.qc_fix_sumstats import finished
+from gwaslab.viz.viz_plot_stackedregional import _sort_args
 def _run_mesusie(filepath,
                  r="Rscript",

gwaslab/{util_ex_run_mtag.py → util/util_ex_run_mtag.py} RENAMED Viewed

@@ -4,19 +4,22 @@ import gc
 import pandas as pd
 import numpy as np
 from gwaslab.g_Log import Log
+from gwaslab.bd.bd_path_manager import _path
 def _run_mtag(       sumstats_multi,
-                     python="Rscript",
+                     python="python",
                      mtag="",
                      study="Group1",
+                     special_flags="",
+                     ld_ref_panel = None,
                      traits=None,
                      out_prefix=None,
-                     types=None,
+                     perfect_gencov = False,
+                     equal_h2 = False,
+                     no_overlap = False,
+                     fdr=False,
                      n_min=0,
-                     loci=None,
                      nstudy=2,
-                     windowsizekb=1000,
-                     build="99",
                      log=Log(),
                      verbose=True):
@@ -49,16 +52,37 @@ def _run_mtag(       sumstats_multi,
              "N_{}".format( i+1)   :"n",
         }
+        csv_path = _path(study = study,
+                    trait = traits_to_form_string[i],
+                    suffix="tsv.gz")
+        sumstats_multi.data[output_snp_info_cols+ output_stats_cols].rename(columns=rename_dict).to_csv(csv_path, index=None,sep="\t")
+        sumstats_paths.append(csv_path)
-        sumstats_multi[output_snp_info_cols+ output_stats_cols].rename(columns=rename_dict).to_csv("{}_{}.tsv.gz".format(study, traits_to_form_string[i]), index=None,sep="\t")
-        sumstats_paths.append("{}_{}.tsv.gz".format(study, traits_to_form_string[i]))
+    sumstats_multi.offload()
     python_log=""
     if out_prefix is None:
-        out_prefix = "./{study}_{nstudy}studies".format(study=study, nstudy=nstudy)
+        out_prefix = _path(study=study,
+                           nstudy = nstudy)
+        #out_prefix = "./{study}_{nstudy}studies".format(study=study, nstudy=nstudy)
+    if ld_ref_panel is not None:
+        ld_ref_flag = "--ld_ref_panel {}".format(ld_ref_panel)
+    else:
+        ld_ref_flag=""
+    if perfect_gencov == True:
+        special_flags += "--perfect_gencov "
+    if equal_h2 == True:
+        special_flags += "--equal_h2 "
+    if no_overlap == True:
+        special_flags += "--no_overlap "
+    if fdr == True:
+        special_flags += "--fdr "
     script='''
-{python} {mtag} \
+{python} {mtag} {special_flags} {ld_ref_flag} \
 --sumstats {sumstats_paths_string} \
 --out {out_prefix} \
 --n_min {n_min} \
@@ -67,26 +91,34 @@ def _run_mtag(       sumstats_multi,
             python=python,
             n_min=n_min,
             mtag=mtag,
+            special_flags=special_flags,
             out_prefix=out_prefix,
+            ld_ref_flag=ld_ref_flag,
             sumstats_paths_string = ",".join(sumstats_paths)
         )
-    log.write(" MTAG script: {} ".format(script), verbose=verbose)
+    log.write("MTAG script: {} ".format(script), verbose=verbose)
-    with open("_{}_gwaslab_mtag_temp.sh".format(study),"w") as file:
+    temp_script_path = _path(tmp=True,
+                             study=study,
+                             analysis="mtag",
+                             suffix="sh"
+    )
+    with open(temp_script_path,"w") as file:
             file.write(script)
-    os.chmod("_{}_gwaslab_mtag_temp.sh".format(study), 0o700)
-    script_run = "./_{}_gwaslab_mtag_temp.sh".format(study)
+    os.chmod(temp_script_path, 0o700)
     try:
-        log.write(" Running MTAG from command line...", verbose=verbose)
-        output = subprocess.check_output(script_run, stderr=subprocess.STDOUT, shell=True,text=True)
+        log.write(" -Running MTAG from command line...", verbose=verbose)
+        output = subprocess.check_output(os.path.join(temp_script_path)
+                                         ,stderr=subprocess.STDOUT, shell=True,text=True)
         log.write(output)
         python_log+= output + "\n"
     except subprocess.CalledProcessError as e:
         log.write(e.output)
+    sumstats_multi.reload()
     log.write("Finished MTAG.", verbose=verbose)

gwaslab/{util_ex_run_prscs.py → util/util_ex_run_prscs.py} RENAMED Viewed

@@ -20,9 +20,9 @@ import os
 import sys
 import getopt
-import gwaslab.prscs_parse_genet as parse_genet
-import gwaslab.prscs_mcmc_gtb as mcmc_gtb
-import gwaslab.prscs_gigrnd as gigrnd
+import gwaslab.extension.prscs.prscs_parse_genet as parse_genet
+import gwaslab.extension.prscs.prscs_mcmc_gtb as mcmc_gtb
+import gwaslab.extension.prscs.prscs_gigrnd as gigrnd
 def _run_prscs(

gwaslab/{util_ex_run_scdrs.py → util/util_ex_run_scdrs.py} RENAMED Viewed

@@ -5,7 +5,8 @@ import pandas as pd
 import numpy as np
 from gwaslab.g_Log import Log
-def _run_scdrs( scdrs="scdrs",
+def _run_scdrs( gls,
+                scdrs="scdrs",
                 python="python",
                 study="Study1",
                 conda_env=None,
@@ -32,16 +33,21 @@ def _run_scdrs( scdrs="scdrs",
     log.write(" Start to run scDRS from command line:", verbose=verbose)
+    log.write(f" Output prefix: {out}", verbose=verbose)
+    gls.offload()
     trait = study
     if out_file is None:
         out_file = f"./{trait}.gs"
+        out_file = os.path.join(out, out_file)
     if out_folder is None:
-        out_folder = f"./"
+        out_folder = out
     if conda_env is not None:
         conda_env_string = f"conda init bash\n conda activate {conda_env}\n"
     else:
         conda_env_string=""
-    log.write(f" Output prefix: {out}", verbose=verbose)
     if group_analysis is not None:
         analysis_string = f"--group-analysis {group_analysis} "
@@ -104,5 +110,5 @@ def _run_scdrs( scdrs="scdrs",
     except subprocess.CalledProcessError as e:
         log.warning("ERROR!")
         log.write(e.output)
+    gls.reload()
     log.write("Finished running scDRS.", verbose=verbose)

gwaslab/{util_ex_run_susie.py → util/util_ex_run_susie.py} RENAMED Viewed

@@ -6,22 +6,23 @@ import numpy as np
 from gwaslab.g_Log import Log
 from gwaslab.g_version import _checking_r_version
 from gwaslab.g_version import _check_susie_version
-from gwaslab.qc_fix_sumstats import start_to
-from gwaslab.qc_fix_sumstats import finished
+from gwaslab.qc.qc_fix_sumstats import start_to
+from gwaslab.qc.qc_fix_sumstats import finished
-def _run_susie_rss(filepath,
+def _run_susie_rss(gls,
+                   filepath,
                    r="Rscript",
                    mode="bs",
-                   max_iter=100000,
-                   min_abs_corr=0.1,
-                   refine="TRUE",
+                   out=None,
+                   max_iter=100,
+                   min_abs_corr=0.5,
+                   refine="FALSE",
                    L=10,
                    fillldna=True,
                    n=None,
                    delete=False,  #if delete output file
                    susie_args="",
                    log=Log(),
-                   main_sumstats=None,
                    verbose=True):
     ##start function with col checking##########################################################
     _start_line = "run finemapping using SuSieR from command line"
@@ -44,7 +45,9 @@ def _run_susie_rss(filepath,
         log.write(" -File path is None.")
         log.write("Finished finemapping using SuSieR.")
         return pd.DataFrame()
+    gls.offload()
     filelist = pd.read_csv(filepath,sep="\t")
     r_log=""
     # write R script
@@ -52,38 +55,49 @@ def _run_susie_rss(filepath,
     log = _checking_r_version(r, log)
     log = _check_susie_version(r,log)
     for index, row in filelist.iterrows():
         gc.collect()
         study = row["STUDY"]
         ld_r_matrix = row["LD_R_MATRIX"] #ld matrix path
         sumstats = row["LOCUS_SUMSTATS"] #sumsttas path
-        output_prefix = sumstats.replace(".sumstats.gz","")
+        # out: directory for output files
+        if out is None:
+            output_prefix = sumstats.replace(".sumstats.gz","")
+        else:
+            output_prefix = os.path.join(out, os.path.basename(sumstats.replace(".sumstats.gz","")))
         log.write(" -Running for: {} - {}".format(row["SNPID"],row["STUDY"] ))
         log.write("  -Locus sumstats:{}".format(sumstats))
         log.write("  -LD r matrix:{}".format(ld_r_matrix))
         log.write("  -output_prefix:{}".format(output_prefix))
         rscript='''
-        library(susieR)
-        sumstats <- read.csv("{}",sep="\t")
-        R <- as.matrix(read.csv("{}",sep="\t",header=FALSE))
-        {}
+library(susieR)
+sumstats <- read.csv("{}",sep="\t")
+R <- as.matrix(read.csv("{}",sep="\t",header=FALSE))
+{}
+n <- floor(mean(sumstats$N))
-        n <- floor(mean(sumstats$N))
+fitted_rss1 <- susie_rss({}, n = {}, R = R, max_iter = {}, min_abs_corr={}, refine = {}, L = {}{})
-        fitted_rss1 <- susie_rss({}, n = {}, R = R, max_iter = {}, min_abs_corr={}, refine = {}, L = {}{})
+susie_fitted_summary <- summary(fitted_rss1)
-        susie_fitted_summary <- summary(fitted_rss1)
+output <- susie_fitted_summary$vars
+output$SNPID <- sumstats$SNPID[susie_fitted_summary$vars$variable]
+output$LOCUS <- "{}"
+output$STUDY <- "{}"
-        output <- susie_fitted_summary$vars
-        output$SNPID <- sumstats$SNPID[susie_fitted_summary$vars$variable]
-        output$LOCUS <- "{}"
-        output$STUDY <- "{}"
+write.csv(output, "{}.pipcs", row.names = FALSE)
-        write.csv(output, "{}.pipcs", row.names = FALSE)
+png(filename="{}_diagnostic.png")
+diagnostic <- kriging_rss({}, R, n=n)
+diagnostic$plot
+dev.off()
         '''.format(sumstats,
                    ld_r_matrix,
                     "R[is.na(R)] <- 0" if fillldna==True else "",
@@ -96,7 +110,9 @@ def _run_susie_rss(filepath,
                     susie_args,
                     row["SNPID"],
                     row["STUDY"],
-                    output_prefix)
+                    output_prefix,
+                    output_prefix,
+                    "sumstats$Z" if mode=="z" else "sumstats$BETA/sumstats$SE")
         susier_line = "susie_rss({}, n = {}, R = R, max_iter = {}, min_abs_corr={}, refine = {}, L = {}{})".format("z= sumstats$Z," if mode=="z" else "bhat = sumstats$BETA,shat = sumstats$SE,",
                     n if n is not None else "n",
                     max_iter,
@@ -106,7 +122,12 @@ def _run_susie_rss(filepath,
                     susie_args)
         log.write("  -SuSieR script: {}".format(susier_line))
+        # temporary R script path
         temp_r_path = "_{}_{}_{}_gwaslab_susie_temp.R".format(study,row["SNPID"],id(sumstats))
+        if out is not None:
+            temp_r_path = os.path.join(out, temp_r_path)
         log.write("  -Createing temp R script: {}".format(temp_r_path))
         with open(temp_r_path,"w") as file:
                 file.write(rscript)
@@ -140,8 +161,10 @@ def _run_susie_rss(filepath,
             os.remove(temp_r_path)
             log.write("  -Removing temp R script: {}".format(temp_r_path))
+    gls.reload()
     locus_pip_cs = locus_pip_cs.rename(columns={"variable":"N_SNP","variable_prob":"PIP","cs":"CREDIBLE_SET_INDEX"})
-    locus_pip_cs = pd.merge(locus_pip_cs, main_sumstats, on="SNPID",how="left")
+    locus_pip_cs = pd.merge(locus_pip_cs, gls.data[["SNPID","CHR","POS"]], on="SNPID",how="left")
     finished(log=log, verbose=verbose, end_line=_end_line)
     return locus_pip_cs

gwaslab/{util_in_fill_data.py → util/util_in_fill_data.py} RENAMED Viewed

@@ -7,7 +7,7 @@ from gwaslab.g_Log import Log
 import gc
 #from gwaslab.qc_fix_sumstats import sortcolumn
 from gwaslab.g_version import _get_version
-from gwaslab.qc_check_datatype import check_datatype
+from gwaslab.qc.qc_check_datatype import check_datatype
 def filldata(

gwaslab/{util_in_filter_value.py → util/util_in_filter_value.py} RENAMED Viewed

@@ -1,17 +1,21 @@
 import re
-#import modin.pandas as pd
 import pandas as pd
 import numpy as np
 from os import path
-from gwaslab.bd_common_data import get_high_ld
-from gwaslab.bd_common_data import get_chr_to_number
+from pathlib import Path
 from gwaslab.g_Log import Log
 from gwaslab.g_vchange_status import vchange_status
-from gwaslab.qc_fix_sumstats import sortcoordinate
-from gwaslab.qc_fix_sumstats import start_to
-from gwaslab.qc_fix_sumstats import finished
-from gwaslab.qc_fix_sumstats import _process_build
-from gwaslab.hm_harmonize_sumstats import is_palindromic
+from gwaslab.qc.qc_fix_sumstats import sortcoordinate
+from gwaslab.qc.qc_fix_sumstats import start_to
+from gwaslab.qc.qc_fix_sumstats import finished
+from gwaslab.qc.qc_fix_sumstats import _process_build
+from gwaslab.bd.bd_common_data import get_high_ld
+from gwaslab.bd.bd_common_data import get_chr_to_number
+from gwaslab.hm.hm_harmonize_sumstats import is_palindromic
 import gc
 def filtervalues(sumstats,expr,remove=False,verbose=True,log=Log()):
@@ -221,6 +225,8 @@ def inferbuild(sumstats,status="STATUS",chrom="CHR", pos="POS",
                ea="EA", nea="NEA",build="19",
                change_status=True,
                verbose=True,log=Log()):
     ##start function with col checking##########################################################
     _start_line = "infer genome build version using hapmap3 SNPs"
     _end_line = "inferring genome build version using hapmap3 SNPs"
@@ -241,8 +247,10 @@ def inferbuild(sumstats,status="STATUS",chrom="CHR", pos="POS",
     inferred_build="Unknown"
     log.write("Start to infer genome build version using hapmap3 SNPs...", verbose=verbose)
-    data_path_19 =  path.dirname(__file__) + '/data/hapmap3_SNPs/hapmap3_db150_hg19.snplist.gz'
-    data_path_38 =  path.dirname(__file__) + '/data/hapmap3_SNPs/hapmap3_db151_hg38.snplist.gz'
+    data_path_19 = path.join( Path(__file__).parents[1], "data","hapmap3_SNPs","hapmap3_db150_hg19.snplist.gz")
+    data_path_38 = path.join( Path(__file__).parents[1], "data","hapmap3_SNPs","hapmap3_db151_hg38.snplist.gz")
     log.write(" -Loading Hapmap3 variants data...", verbose=verbose)
     hapmap3_ref_19 = pd.read_csv(data_path_19,sep="\s+",usecols=["#CHROM","POS"],dtype={"#CHROM":"string","POS":"string"})
     hapmap3_ref_38 = pd.read_csv(data_path_38,sep="\s+",usecols=["#CHROM","POS"],dtype={"#CHROM":"string","POS":"string"})
@@ -266,7 +274,6 @@ def inferbuild(sumstats,status="STATUS",chrom="CHR", pos="POS",
         log.write(" -Since num_hg19 >> num_hg38, assigning genome build hg19...", verbose=verbose)
         if change_status==True:
             sumstats[status] = vchange_status(sumstats[status],1,"9","1")
-            sumstats[status] = vchange_status(sumstats[status],2,"9","9")
         inferred_build="19"
     elif match_count_for_19 < match_count_for_38:
         log.write(" -Since num_hg19 << num_hg38, assigning genome build hg38...", verbose=verbose)

gwaslab 3.6.5__py3-none-any.whl → 3.6.7__py3-none-any.whl

Potentially problematic release.

gwaslab 3.6.5py3-none-any.whl → 3.6.7py3-none-any.whl