PyPI - gwaslab - Versions diffs - 3.5.6__py3-none-any.whl → 3.5.8__py3-none-any.whl - Mend

gwaslab 3.5.6py3-none-any.whl → 3.5.8py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of gwaslab might be problematic. Click here for more details.

Files changed (64) hide show

gwaslab/__init__.py +2 -0
gwaslab/bd_common_data.py +1 -0
gwaslab/bd_get_hapmap3.py +0 -1
gwaslab/data/formatbook.json +78 -0
gwaslab/g_Sumstats.py +98 -24
gwaslab/g_SumstatsMulti.py +287 -0
gwaslab/g_SumstatsPair.py +101 -16
gwaslab/g_Sumstats_polars.py +245 -0
gwaslab/g_headers.py +12 -3
gwaslab/g_meta.py +123 -47
gwaslab/g_meta_update.py +48 -0
gwaslab/g_vchange_status_polars.py +44 -0
gwaslab/g_version.py +2 -2
gwaslab/hm_casting.py +169 -110
gwaslab/hm_casting_polars.py +202 -0
gwaslab/hm_harmonize_sumstats.py +19 -8
gwaslab/io_load_ld.py +529 -0
gwaslab/io_preformat_input.py +11 -0
gwaslab/io_preformat_input_polars.py +632 -0
gwaslab/io_process_args.py +25 -1
gwaslab/io_read_ldsc.py +34 -3
gwaslab/io_read_pipcs.py +62 -6
gwaslab/prscs_gigrnd.py +122 -0
gwaslab/prscs_mcmc_gtb.py +136 -0
gwaslab/prscs_parse_genet.py +98 -0
gwaslab/qc_build.py +53 -0
gwaslab/qc_check_datatype.py +10 -8
gwaslab/qc_check_datatype_polars.py +128 -0
gwaslab/qc_fix_sumstats.py +25 -23
gwaslab/qc_fix_sumstats_polars.py +193 -0
gwaslab/util_ex_calculate_ldmatrix.py +49 -19
gwaslab/util_ex_gwascatalog.py +71 -28
gwaslab/util_ex_ldsc.py +67 -21
gwaslab/util_ex_match_ldmatrix.py +396 -0
gwaslab/util_ex_run_2samplemr.py +0 -2
gwaslab/util_ex_run_ccgwas.py +155 -0
gwaslab/util_ex_run_coloc.py +1 -1
gwaslab/util_ex_run_hyprcoloc.py +117 -0
gwaslab/util_ex_run_mesusie.py +155 -0
gwaslab/util_ex_run_mtag.py +92 -0
gwaslab/util_ex_run_prscs.py +85 -0
gwaslab/util_ex_run_susie.py +40 -9
gwaslab/util_in_estimate_ess.py +18 -0
gwaslab/util_in_fill_data.py +20 -1
gwaslab/util_in_filter_value.py +10 -5
gwaslab/util_in_get_sig.py +71 -13
gwaslab/util_in_meta.py +168 -4
gwaslab/util_in_meta_polars.py +174 -0
gwaslab/viz_plot_compare_effect.py +87 -23
gwaslab/viz_plot_credible_sets.py +55 -11
gwaslab/viz_plot_effect.py +22 -12
gwaslab/viz_plot_miamiplot2.py +3 -2
gwaslab/viz_plot_mqqplot.py +165 -141
gwaslab/viz_plot_qqplot.py +6 -6
gwaslab/viz_plot_regional2.py +5 -13
gwaslab/viz_plot_rg_heatmap.py +6 -1
gwaslab/viz_plot_stackedregional.py +21 -6
{gwaslab-3.5.6.dist-info → gwaslab-3.5.8.dist-info}/METADATA +9 -7
gwaslab-3.5.8.dist-info/RECORD +117 -0
{gwaslab-3.5.6.dist-info → gwaslab-3.5.8.dist-info}/WHEEL +1 -1
gwaslab-3.5.6.dist-info/RECORD +0 -96
{gwaslab-3.5.6.dist-info → gwaslab-3.5.8.dist-info/licenses}/LICENSE +0 -0
{gwaslab-3.5.6.dist-info → gwaslab-3.5.8.dist-info/licenses}/LICENSE_before_v3.4.39 +0 -0
{gwaslab-3.5.6.dist-info → gwaslab-3.5.8.dist-info}/top_level.txt +0 -0

gwaslab/__init__.py CHANGED Viewed

@@ -1,6 +1,8 @@
 from gwaslab.g_Sumstats import Sumstats
+from gwaslab.g_Sumstats_polars import Sumstatsp
 from gwaslab.g_SumstatsT import SumstatsT
 from gwaslab.g_SumstatsPair import SumstatsPair
+from gwaslab.g_SumstatsMulti import SumstatsMulti
 from gwaslab.util_in_convert_h2 import h2_obs_to_liab
 from gwaslab.util_in_convert_h2 import _get_per_snp_r2
 from gwaslab.util_in_convert_h2 import h2_se_to_p

gwaslab/bd_common_data.py CHANGED Viewed

@@ -337,6 +337,7 @@ def _maketrans(complement_mapping):
     """
     keys = "".join(complement_mapping.keys()).encode("ASCII")
     values = "".join(complement_mapping.values()).encode("ASCII")
     return bytes.maketrans(keys + keys.lower(), values + values.lower())
 ####################################################################################################################

gwaslab/bd_get_hapmap3.py CHANGED Viewed

@@ -43,7 +43,6 @@ def gethapmap3(sumstats,rsid="rsID",chrom="CHR", pos="POS", ea="EA", nea="NEA",b
     else:
         additional_cols=[]
     hapmap3_ref = pd.read_csv(data_path,sep="\s+",usecols=["#CHROM","POS","rsid"]+additional_cols, dtype={"#CHROM":"string","POS":"string"})
     #rsid    A1      A2      #CHROM  POS
     #rs3094315       G       A       1       752566

gwaslab/data/formatbook.json CHANGED Viewed

@@ -237,6 +237,16 @@
             "TotalSampleSize": "N",
             "Nsample": "N",
             "num_samples": "N",
+            "Neff": "N_EFF",
+            "N_EFF": "N_EFF",
+            "N_CASE": "N_CASE",
+            "Ncase": "N_CASE",
+            "ncase": "N_CASE",
+            "n_case": "N_CASE",
+            "Ncontrol": "N_CONTROL",
+            "N_control": "N_CONTROL",
+            "N_Control": "N_CONTROL",
+            "NCONTROL": "N_CONTROL",
             "beta": "BETA",
             "BETA": "BETA",
             "Beta": "BETA",
@@ -461,6 +471,31 @@
             "Direction": "DIRECTION"
         }
     },
+    "genomicsem": {
+        "meta_data": {
+            "format_name": "genomicSEM",
+            "format_source": "https://github.com/GenomicSEM/GenomicSEM/wiki/4.-Common-Factor-GWAS",
+            "format_source2": "https://github.com/GenomicSEM/GenomicSEM/wiki/5.-Multivariate-GWAS",
+            "format_version": 20241210
+        },
+        "format_dict": {
+            "SNP": "rsID",
+            "A2": "NEA",
+            "A1": "EA",
+            "Frq": "EAF",
+            "MAF": "MAF",
+            "N": "N",
+            "est": "BETA",
+            "se_c": "SE",
+            "Pval_Estimate": "P",
+            "Z_Estimate": "Z",
+            "Q": "Q",
+            "Q_df": "DOF",
+            "Q_pval": "P_HET",
+            "CHR": "CHR",
+            "BP": "POS"
+        }
+    },
     "plink_fam": {
         "meta_data": {
             "format_name": "plink_fam",
@@ -880,6 +915,21 @@
             "POS": "POS"
         }
     },
+    "mesusie": {
+        "meta_data": {
+            "format_name": "MESuSiE",
+            "format_source": "https://borangao.github.io/meSuSie_Analysis/installation.html",
+            "format_version": 20221109
+        },
+        "format_dict": {
+            "SNP": "SNPID",
+            "N": "N",
+            "Beta": "BETA",
+            "Se": "SE",
+            "Z": "Z",
+            "POS": "POS"
+        }
+    },
     "plink2_linear": {
         "meta_data": {
             "format_name": "PLINK2 .glm.linear",
@@ -1032,6 +1082,34 @@
             "ci_upper": "OR_95U"
         }
     },
+    "ccgwas": {
+        "meta_data": {
+            "format_name": "CCGWAS",
+            "format_source": "https://github.com/wouterpeyrot/CCGWAS",
+            "format_version": "20220901",
+            "last_check_date": "20250416",
+            "format_separator": "\t",
+            "format_citation": "Peyrot, W. J., & Price, A. L. (2021). Identifying loci with different allele frequencies among cases of eight psychiatric disorders using CC-GWAS. Nature genetics, 53(4), 445-454.",
+            "format_comment": null,
+            "format_na": null,
+            "format_other_cols": [
+                "Exact_beta",
+                "Exact_se",
+                "Exact_pval",
+                "CCGWAS_signif"
+            ]
+        },
+        "format_dict": {
+            "SNP": "SNPID",
+            "CHR": "CHR",
+            "BP": "POS",
+            "A2": "NEA",
+            "A1": "EA",
+            "OLS_beta": "BETA",
+            "OLS_se": "SE",
+            "OLS_pval": "P"
+        }
+    },
     "fastgwa": {
         "meta_data": {
             "format_name": "fastgwa",

gwaslab/g_Sumstats.py CHANGED Viewed

@@ -39,6 +39,7 @@ from gwaslab.util_in_filter_value import filterregionout
 from gwaslab.util_in_filter_value import _filter_indel
 from gwaslab.util_in_filter_value import _filter_palindromic
 from gwaslab.util_in_filter_value import _filter_snp
+from gwaslab.util_in_filter_value import _filter_region
 from gwaslab.util_in_filter_value import _exclude_hla
 from gwaslab.util_in_filter_value import _search_variants
 from gwaslab.util_in_filter_value import inferbuild
@@ -67,13 +68,16 @@ from gwaslab.g_version import _show_version
 from gwaslab.g_version import gwaslab_info
 from gwaslab.g_meta import _init_meta
 from gwaslab.g_meta import _append_meta_record
+from gwaslab.g_meta_update import _update_meta
 from gwaslab.util_ex_run_clumping import _clump
 from gwaslab.util_ex_calculate_ldmatrix import tofinemapping
+from gwaslab.io_load_ld import tofinemapping_using_ld
 from gwaslab.util_ex_calculate_prs import _calculate_prs
 from gwaslab.viz_plot_mqqplot import mqqplot
 from gwaslab.viz_plot_trumpetplot import plottrumpet
 from gwaslab.viz_plot_compare_af import plotdaf
 from gwaslab.util_ex_run_susie import _run_susie_rss
+from gwaslab.util_ex_run_susie import _get_cs_lead
 from gwaslab.qc_fix_sumstats import _check_data_consistency
 from gwaslab.util_ex_ldsc import _estimate_h2_by_ldsc
 from gwaslab.util_ex_ldsc import _estimate_rg_by_ldsc
@@ -84,9 +88,13 @@ from gwaslab.bd_get_hapmap3 import gethapmap3
 from gwaslab.util_abf_finemapping import abf_finemapping
 from gwaslab.util_abf_finemapping import make_cs
 from gwaslab.io_read_pipcs import _read_pipcs
+from gwaslab.util_in_estimate_ess import _get_ess
 from gwaslab.viz_plot_credible_sets import _plot_cs
+from gwaslab.hm_casting import _align_with_mold
+from gwaslab.hm_casting  import _merge_mold_with_sumstats_by_chrpos
 import gc
 from gwaslab.viz_plot_phe_heatmap import _gwheatmap
+from gwaslab.util_ex_run_prscs import _run_prscs
 #20220309
 class Sumstats():
@@ -113,6 +121,7 @@ class Sumstats():
              f=None,
              t=None,
              p=None,
+             q=None,
              mlog10p=None,
              test=None,
              info=None,
@@ -126,6 +135,7 @@ class Sumstats():
              HR_95U=None,
              ncase=None,
              ncontrol=None,
+             neff=None,
              i2=None,
              phet=None,
              dof=None,
@@ -149,7 +159,7 @@ class Sumstats():
         self.log = Log()
         self.ldsc_h2 = None
         self.ldsc_h2_results = None
-        self.ldsc_rg = None
+        self.ldsc_rg = pd.DataFrame()
         self.ldsc_h2_cts = None
         self.ldsc_partitioned_h2_summary = None
         self.ldsc_partitioned_h2_results = None
@@ -200,6 +210,7 @@ class Sumstats():
           f=f,
           t=t,
           p=p,
+          q=q,
           mlog10p=mlog10p,
           test=test,
           info=info,
@@ -217,6 +228,7 @@ class Sumstats():
           snpr2=snpr2,
           ncase=ncase,
           ncontrol=ncontrol,
+          neff=neff,
           direction=direction,
           study=study,
           build=build,
@@ -243,18 +255,8 @@ class Sumstats():
         gc.collect()
 #### healper #################################################################################
-    def update_meta(self):
-        self.meta["gwaslab"]["variants"]["variant_number"]=len(self.data)
-        if "CHR" in self.data.columns:
-            self.meta["gwaslab"]["variants"]["number_of_chromosomes"]=len(self.data["CHR"].unique())
-        if "P" in self.data.columns:
-            self.meta["gwaslab"]["variants"]["min_P"]=np.min(self.data["P"])
-        if "EAF" in self.data.columns:
-            self.meta["gwaslab"]["variants"]["min_minor_allele_freq"]=min (np.min(self.data["EAF"]) , 1- np.max(self.data["EAF"]))
-        if "N" in self.data.columns:
-            self.meta["gwaslab"]["samples"]["sample_size"] = int(self.data["N"].max())
-            self.meta["gwaslab"]["samples"]["sample_size_median"] = self.data["N"].median()
-            self.meta["gwaslab"]["samples"]["sample_size_min"] = int(self.data["N"].min())
+    def update_meta(self, **kwargs):
+        self.meta = _update_meta(self.meta, self.data,log = self.log, **kwargs)
     def summary(self):
         return summarize(self.data)
@@ -363,7 +365,8 @@ class Sumstats():
             self.data = parallelnormalizeallele(self.data,log=self.log,n_cores=n_cores,**normalizeallele_args)
             self.data = sortcolumn(self.data,log=self.log)
+            self.data = sortcoordinate(self.data,log=self.log)
             gc.collect()
         #####################################################
@@ -380,6 +383,7 @@ class Sumstats():
         #   3.2 infer strand for palindromic SNP (target build)
         #####################################################
         if ref_seq is not None:
             if ref_seq_mode=="v":
                 self.data = checkref(self.data,ref_seq,log=self.log,**checkref_args)
             elif ref_seq_mode=="s":
@@ -441,6 +445,20 @@ class Sumstats():
         self.meta["is_sorted"] = True
         self.meta["is_harmonised"] = True
         return self
+    def align_with_template(self, template, **kwargs):
+        ## merge
+        molded_sumstats, sumstats1 = _merge_mold_with_sumstats_by_chrpos(mold=template,
+                                            sumstats=self.data,
+                                            log=self.log,
+                                            suffixes=("_MOLD",""),
+                                            return_not_matched_mold = True)
+        ## align
+        aligned_data = _align_with_mold(molded_sumstats)
+        ## flip
+        self.data =flipallelestats(aligned_data, log=self.log)
     ############################################################################################################
     #customizable API to build your own QC pipeline
     def fix_id(self,**kwargs):
@@ -507,6 +525,15 @@ class Sumstats():
 # utilities ############################################################################################################
     # filter series ######################################################################
+    def filter_region(self, inplace=False,**kwargs):
+        if inplace is False:
+            new_Sumstats_object = copy.deepcopy(self)
+            new_Sumstats_object.data = _filter_region(new_Sumstats_object.data, **kwargs)
+            return new_Sumstats_object
+        else:
+            self.data = _filter_region(self.data, **kwargs)
     def filter_flanking(self, inplace=False,**kwargs):
         if inplace is False:
             new_Sumstats_object = copy.deepcopy(self)
@@ -749,6 +776,7 @@ class Sumstats():
                            chrom="CHR",
                            pos="POS",
                            p="P",
+                           build=self.meta["gwaslab"]["genome_build"],
                            log=self.log,
                            **kwargs)
         # return sumstats object
@@ -789,7 +817,22 @@ class Sumstats():
                            **kwargs)
         # return sumstats object
         return output
+    def check_cs_overlap(self, **kwargs):
+        if "SNPID" in self.pipcs.columns:
+            id_to_use = "SNPID"
+        else:
+            id_to_use = "rsID"
+        output = _check_novel_set(self.pipcs,
+                           id=id_to_use,
+                           chrom="CHR",
+                           pos="POS",
+                           p="P",
+                           log=self.log,
+                           **kwargs)
+        # return sumstats object
+        return output
     def anno_gene(self, **kwargs):
         if "SNPID" in self.data.columns:
             id_to_use = "SNPID"
@@ -806,6 +849,9 @@ class Sumstats():
     def get_per_snp_r2(self,**kwargs):
         self.data = _get_per_snp_r2(self.data, beta="BETA", af="EAF", n="N", log=self.log, **kwargs)
         #add data inplace
+    def get_ess(self, **kwargs):
+        self.data = _get_ess(self.data, log=self.log, **kwargs)
     def get_gc(self, mode=None, **kwargs):
         if mode is None:
@@ -831,40 +877,67 @@ class Sumstats():
         credible_sets = make_cs(region_data,threshold=0.95,log=self.log)
         return region_data, credible_sets
+######################################################################################################
+    def run_prscs(self, build=None, verbose=True, match_allele=True, how="inner", **kwargs):
+        if build is None:
+            build = self.meta["gwaslab"]["genome_build"]
+        insumstats = gethapmap3(self.data.copy(), build=build, verbose=verbose , match_allele=match_allele, how=how )
+        _run_prscs(sst_file = insumstats[["rsID","CHR","POS","EA","NEA","BETA","SE"]], log=self.log, **kwargs)
 ## LDSC ##############################################################################################
     def estimate_h2_by_ldsc(self, build=None, verbose=True, match_allele=True, how="right", **kwargs):
         if build is None:
             build = self.meta["gwaslab"]["genome_build"]
         insumstats = gethapmap3(self.data.copy(), build=build, verbose=verbose , match_allele=match_allele, how=how )
-        self.ldsc_h2, self.ldsc_h2_results = _estimate_h2_by_ldsc(insumstats=insumstats, log=self.log, verbose=verbose, **kwargs)
+        self.ldsc_h2, self.ldsc_h2_results = _estimate_h2_by_ldsc(insumstats=insumstats,
+                                                                  meta=self.meta,
+                                                                  log=self.log,
+                                                                  verbose=verbose,
+                                                                  **kwargs)
     def estimate_rg_by_ldsc(self, build=None, verbose=True, match_allele=True, how="right",**kwargs):
         if build is None:
             build = self.meta["gwaslab"]["genome_build"]
         insumstats = gethapmap3(self.data.copy(), build=build, verbose=verbose , match_allele=match_allele, how=how )
-        self.ldsc_rg = _estimate_rg_by_ldsc(insumstats=insumstats, log=self.log, verbose=verbose, **kwargs)
+        ldsc_rg = _estimate_rg_by_ldsc(insumstats=insumstats,
+                                             meta=self.meta,
+                                             log=self.log,
+                                             verbose=verbose,
+                                             **kwargs)
+        self.ldsc_rg = pd.concat([self.ldsc_rg, ldsc_rg],ignore_index=True)
     def estimate_h2_cts_by_ldsc(self, build=None, verbose=True, match_allele=True, how="right",**kwargs):
         if build is None:
             build = self.meta["gwaslab"]["genome_build"]
         insumstats = gethapmap3(self.data.copy(), build=build, verbose=verbose , match_allele=match_allele, how=how )
-        self.ldsc_h2_cts  = _estimate_h2_cts_by_ldsc(insumstats=insumstats, log=self.log, verbose=verbose, **kwargs)
+        self.ldsc_h2_cts  = _estimate_h2_cts_by_ldsc(insumstats=insumstats,
+                                                     log=self.log,
+                                                       verbose=verbose,
+                                                       **kwargs)
     def estimate_partitioned_h2_by_ldsc(self, build=None, verbose=True, match_allele=True, how="right",**kwargs):
         if build is None:
             build = self.meta["gwaslab"]["genome_build"]
         insumstats = gethapmap3(self.data.copy(), build=build, verbose=verbose , match_allele=match_allele, how=how )
-        self.ldsc_partitioned_h2_summary, self.ldsc_partitioned_h2_results  = _estimate_partitioned_h2_by_ldsc(insumstats=insumstats, log=self.log, verbose=verbose, **kwargs)
+        self.ldsc_partitioned_h2_summary, self.ldsc_partitioned_h2_results  = _estimate_partitioned_h2_by_ldsc(insumstats=insumstats,
+                                                                                                               meta=self.meta,
+                                                                                                               log=self.log,
+                                                                                                               verbose=verbose,
+                                                                                                               **kwargs)
 # external ################################################################################################
     def calculate_ld_matrix(self,**kwargs):
         self.finemapping["path"],self.finemapping["file"],self.finemapping["plink_log"]= tofinemapping(self.data,study = self.meta["gwaslab"]["study_name"],**kwargs)
         #self.to_finemapping_file_path, self.to_finemapping_file, self.plink_log  = tofinemapping(self.data,study = self.meta["gwaslab"]["study_name"],**kwargs)
+    def extract_ld_matrix(self,**kwargs):
+        self.finemapping["path"],self.finemapping["file"],self.finemapping["plink_log"]= tofinemapping_using_ld(self.data,study = self.meta["gwaslab"]["study_name"],**kwargs)
     def run_susie_rss(self,**kwargs):
-        self.pipcs=_run_susie_rss(self.finemapping["path"],**kwargs)
+        self.pipcs=_run_susie_rss(self.finemapping["path"], main_sumstats = self.data[["SNPID","CHR","POS"]], **kwargs)
+        self.finemapping["pipcs"] = self.pipcs
         #self.pipcs=_run_susie_rss(self.to_finemapping_file_path,**kwargs)
+    def get_cs_lead(self,**kwargs):
+        return _get_cs_lead(self.pipcs,**kwargs)
     def clump(self,**kwargs):
         self.clumps["clumps"], self.clumps["clumps_raw"], self.clumps["plink_log"] = _clump(self.data, log=self.log, study = self.meta["gwaslab"]["study_name"], **kwargs)
@@ -875,10 +948,11 @@ class Sumstats():
 # loading aux data
     def read_pipcs(self,prefix,**kwargs):
-        self.pipcs = _read_pipcs(self.data[["SNPID","CHR","POS"]],prefix, **kwargs)
+        self.pipcs = _read_pipcs(self.data[["SNPID","CHR","POS"]],prefix, study= self.meta["gwaslab"]["study_name"], **kwargs)
+        self.finemapping["pipcs"] = self.pipcs
-    def plot_pipcs(self, region,**kwargs):
-        _plot_cs(self.pipcs, region, **kwargs)
+    def plot_pipcs(self, region=None, locus=None, **kwargs):
+        _plot_cs(self.pipcs, region=region,locus=locus, **kwargs)
 # to_format ###############################################################################################
     def to_format(self, path, build=None, verbose=True, **kwargs):

gwaslab 3.5.6__py3-none-any.whl → 3.5.8__py3-none-any.whl

Potentially problematic release.

gwaslab 3.5.6py3-none-any.whl → 3.5.8py3-none-any.whl