PyPI - gwaslab - Versions diffs - 3.4.35__py3-none-any.whl → 3.4.37__py3-none-any.whl - Mend

gwaslab 3.4.35py3-none-any.whl → 3.4.37py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of gwaslab might be problematic. Click here for more details.

Files changed (22) hide show

gwaslab/__init__.py +1 -1
gwaslab/bd_common_data.py +4 -2
gwaslab/g_Sumstats.py +56 -33
gwaslab/g_meta.py +13 -3
gwaslab/g_version.py +2 -2
gwaslab/hm_harmonize_sumstats.py +43 -18
gwaslab/io_preformat_input.py +9 -0
gwaslab/qc_check_datatype.py +14 -0
gwaslab/qc_fix_sumstats.py +278 -119
gwaslab/util_ex_process_h5.py +26 -17
gwaslab/util_in_fill_data.py +50 -12
gwaslab/viz_aux_quickfix.py +53 -52
gwaslab/viz_plot_compare_effect.py +27 -8
gwaslab/viz_plot_forestplot.py +1 -1
gwaslab/viz_plot_mqqplot.py +127 -48
gwaslab/viz_plot_regionalplot.py +20 -9
gwaslab/viz_plot_rg_heatmap.py +8 -4
{gwaslab-3.4.35.dist-info → gwaslab-3.4.37.dist-info}/METADATA +5 -6
{gwaslab-3.4.35.dist-info → gwaslab-3.4.37.dist-info}/RECORD +22 -22
{gwaslab-3.4.35.dist-info → gwaslab-3.4.37.dist-info}/LICENSE +0 -0
{gwaslab-3.4.35.dist-info → gwaslab-3.4.37.dist-info}/WHEEL +0 -0
{gwaslab-3.4.35.dist-info → gwaslab-3.4.37.dist-info}/top_level.txt +0 -0

gwaslab/qc_fix_sumstats.py CHANGED Viewed

@@ -14,7 +14,12 @@ from gwaslab.bd_common_data import get_chr_to_number
 from gwaslab.bd_common_data import get_number_to_chr
 from gwaslab.bd_common_data import get_chr_list
 from gwaslab.qc_check_datatype import check_datatype
+from gwaslab.qc_check_datatype import check_dataframe_shape
 from gwaslab.g_version import _get_version
+from gwaslab.util_in_fill_data import _convert_betase_to_mlog10p
+from gwaslab.util_in_fill_data import _convert_betase_to_p
+from gwaslab.util_in_fill_data import _convert_mlog10p_to_p
+#process build
 #setbuild
 #fixID
 #rsidtochrpos
@@ -26,6 +31,7 @@ from gwaslab.g_version import _get_version
 #normalizevariant
 #checkref
 #sanitycheckstats
+#_check_data_consistency
 #flipallelestats
 #parallelizeassignrsid
 #sortcoordinate
@@ -41,7 +47,7 @@ def _process_build(build,log,verbose):
         log.write(" -Genomic coordinates are based on GRCh38/hg38...", verbose=verbose)
         final_build = "38"
     else:
-        log.write(" -Version of genomic coordinates are unknown...", verbose=verbose)
+        log.write(" -WARNING! Version of genomic coordinates is unknown...", verbose=verbose)
         final_build = "99"
     return final_build
@@ -49,10 +55,10 @@ def _set_build(sumstats, build="99", status="STATUS",verbose=True,log=Log()):
     build = _process_build(build,log=log,verbose=verbose)
     sumstats.loc[:,status] = vchange_status(sumstats.loc[:,status], 1, "139",build[0]*3)
     sumstats.loc[:,status] = vchange_status(sumstats.loc[:,status], 2, "89",build[1]*3)
-    return sumstats
+    return sumstats, build
 def fixID(sumstats,
-       snpid="SNPID",rsid="rsID",chrom="CHR",pos="POS",nea="NEA",ea="EA",status="STATUS",
+       snpid="SNPID",rsid="rsID",chrom="CHR",pos="POS",nea="NEA",ea="EA",status="STATUS",fixprefix=False,
        fixchrpos=False,fixid=False,fixeanea=False,fixeanea_flip=False,fixsep=False,
        overwrite=False,verbose=True,forcefixid=False,log=Log()):
     '''
@@ -61,37 +67,64 @@ def fixID(sumstats,
     3. checking rsid and chr:pos:nea:ea
     '''
     if verbose: log.write("Start to check IDs...{}".format(_get_version()))
-    if verbose: log.write(" -Current Dataframe shape :",len(sumstats)," x ", len(sumstats.columns))
+    check_dataframe_shape(sumstats, log, verbose)
     check_col(sumstats,[snpid,rsid],status)
+    ############################  checking datatype ###################################################
+    if rsid in sumstats.columns:
+        # convert to string datatype
+        try:
+            log.write(" -Checking rsID data type...",verbose=verbose)
+            if sumstats.loc[:,rsid].dtype == "string":
+                pass
+            else:
+                log.write(" -Converting rsID to pd.string data type...",verbose=verbose)
+                sumstats.loc[:,rsid] = sumstats.loc[:,rsid].astype("string")
+        except:
+            log.write(" -Force converting rsID to pd.string data type...",verbose=verbose)
+            sumstats.loc[:,rsid] = sumstats.loc[:,rsid].astype("string")
+    if snpid in sumstats.columns:
+        # convert to string datatype
+        try:
+            log.write(" -Checking SNPID data type...",verbose=verbose)
+            if sumstats.loc[:,snpid].dtype == "string":
+                pass
+            else:
+                log.write(" -Converting SNPID to pd.string data type...",verbose=verbose)
+                sumstats.loc[:,snpid] = sumstats.loc[:,snpid].astype("string")
+        except:
+            log.write(" -Force converting SNPID to pd.string data type...",verbose=verbose)
+            sumstats.loc[:,snpid] = sumstats.loc[:,snpid].astype("string")
     ############################  checking ###################################################
     if snpid in sumstats.columns:
-        if verbose: log.write(" -Checking if SNPID is chr:pos:ref:alt...(separator: - ,: , _)")
-        #is_chrposrefalt = sumstats[snpid].str.match(r'(chr)?([0-9XYMT]+)[:_-]([0-9]+)[:_-]([ATCG]+)[:_-]([ATCG]+)', case=False, flags=0, na=False)
+        log.write(" -Checking if SNPID is CHR:POS:NEA:EA...(separator: - ,: , _)",verbose=verbose)
+        # check if SNPID is CHR:POS:EA:NEA
         is_chrposrefalt = sumstats[snpid].str.match(r'^\w+[:_-]\d+[:_-][ATCG]+[:_-][ATCG]+$', case=False, flags=0, na=False)
+        # check if SNPID is NA
         is_snpid_na = sumstats[snpid].isna()
+        # change STATUS code
         sumstats.loc[ is_chrposrefalt,status] = vchange_status(sumstats.loc[ is_chrposrefalt,status],3 ,"975" ,"630")
         sumstats.loc[(~is_chrposrefalt)&(~is_snpid_na),status] = vchange_status(sumstats.loc[(~is_chrposrefalt)&(~is_snpid_na),status],3 ,"975" ,"842")
     if rsid in sumstats.columns:
-        if verbose: log.write(" -Checking if rsID is rsxxxxxx or RSxxxxxxx...")
-        is_rsid = sumstats[rsid].str.startswith(r'rs',na=False)
+        log.write(" -Checking if rsID is rsxxxxxx...", verbose=verbose)
+        is_rsid = sumstats[rsid].str.match(r'^rs\d+$', case=False, flags=0, na=False)
         sumstats.loc[ is_rsid,status] = vchange_status(sumstats.loc[ is_rsid,status], 3, "986","520")
         sumstats.loc[~is_rsid,status] = vchange_status(sumstats.loc[~is_rsid,status], 3, "986","743")
-        if verbose: log.write(" -Checking if chr:pos:ref:alt is mixed in rsID column ...")
-        is_rs_chrpos = sumstats[rsid].str.match(r'^\w+[:_-]\w+[:_-]\w+[:_-]\w+$', case=False, flags=0, na=False)
-        #is_rs_chrpos = sumstats[rsid].str.match(r'(chr)?([0-9XYMT]+)[:_-]([0-9]+)[:_-]([ATCG]+)[:_-]([ATCG]+)', case=False, flags=0, na=False)
+        if verbose: log.write(" -Checking if CHR:POS:NEA:EA is mixed in rsID column ...")
+        is_rs_chrpos = sumstats[rsid].str.match(r'^\w+[:_-]\d+[:_-][ATCG]+[:_-][ATCG]+$', case=False, flags=0, na=False)
-        if verbose: log.write(" -Number of chr:pos:ref:alt mixed in rsID column :",sum(is_rs_chrpos))
-        if verbose: log.write(" -Number of Unrecognized rsID :",len(sumstats) - sum(is_rs_chrpos) - sum(is_rsid) )
-        if verbose: log.write(" -A look at the unrecognized rsID :",set(sumstats.loc[(~is_rsid)&(~is_rs_chrpos),rsid].head()),"...")
+        log.write(" -Number of CHR:POS:NEA:EA mixed in rsID column :",sum(is_rs_chrpos), verbose=verbose)
+        log.write(" -Number of Unrecognized rsID :",len(sumstats) - sum(is_rs_chrpos) - sum(is_rsid) , verbose=verbose)
+        log.write(" -A look at the unrecognized rsID :",set(sumstats.loc[(~is_rsid)&(~is_rs_chrpos),rsid].head()),"...", verbose=verbose)
     ############################  fixing chr pos###################################################
-    if fixchrpos is True:
-    # from snpid or rsid, extract chr:pos to fix CHR and POS
+    if fixchrpos == True:
+    # from snpid or rsid, extract CHR:POS to fix CHR and POS
         if snpid in sumstats.columns:
             if verbose: log.write(" -Fixing CHR and POS...")
             if overwrite is True:
@@ -99,8 +132,8 @@ def fixID(sumstats,
                 # fix all
                 to_fix = is_chrposrefalt
-                #fix variants with chr and pos being empty
             elif (chrom in sumstats.columns) and (pos in sumstats.columns) :
+                #fix variants with chr and pos being NA
                 to_fix = is_chrposrefalt & sumstats[chrom].isna() & sumstats[pos].isna()
                 to_fix_num = sum(to_fix)
                 if to_fix_num and verbose: log.write(" -Number of variants could be fixed: "+str(to_fix_num)+" ...")
@@ -121,6 +154,7 @@ def fixID(sumstats,
                 to_fix_num = sum(to_fix)
                 if to_fix_num>0 and verbose: log.write(" -Number of variants could be fixed: "+str(to_fix_num)+" ...")
                 elif verbose: log.write(" -No fixable variants. ...")
             else:
                 if verbose: log.write(" -Initiating CHR and POS columns...")
                 sumstats.loc[:,chrom]=pd.Series(dtype="string")
@@ -134,8 +168,8 @@ def fixID(sumstats,
                 if verbose: log.write(" -Filling CHR and POS columns using valid SNPID's chr:pos...")
                 # format and qc filled chr and pos
-                sumstats.loc[to_fix,chrom] = sumstats.loc[to_fix,snpid].str.split(':|_|-',n=2).str.get(0)
-                sumstats.loc[to_fix,pos] = sumstats.loc[to_fix,snpid].str.split(':|_|-',n=2).str.get(1)
+                sumstats.loc[to_fix,chrom] = sumstats.loc[to_fix,snpid].str.extract(r'^(chr)?(\w+)[:_-](\d+)[:_-]([ATCG]+)[:_-]([ATCG]+)$',flags=re.IGNORECASE|re.ASCII)[1]
+                sumstats.loc[to_fix,pos] = sumstats.loc[to_fix,snpid].str.extract(r'^(chr)?(\w+)[:_-](\d+)[:_-]([ATCG]+)[:_-]([ATCG]+)$',flags=re.IGNORECASE|re.ASCII)[2]
                 #sumstats.loc[to_fix,chrom] = sumstats.loc[to_fix,snpid].str.split(':|_|-').str[0].str.strip("chrCHR").astype("string")
                 #sumstats.loc[to_fix,pos] =np.floor(pd.to_numeric(sumstats.loc[to_fix,snpid].str.split(':|_|-').str[1], errors='coerce')).astype('Int64')
@@ -179,55 +213,62 @@ def fixID(sumstats,
                 #sumstats.loc[to_fix,status] = vchange_status(sumstats.loc[to_fix,status], 4, "98765432","00000000").astype("string")
     ############################  fixing chr pos###################################################
-    #if fixeanea is True:
-    #    if verbose: log.write(" -Warning: Please make sure a1 is ref or not in Chr:pos:a1:a2")
-    #    if overwrite is True:
-    #        if verbose: log.write(" -Overwrite is applied...")
-    #        to_fix = is_chrposrefalt
-    #    elif (nea in sumstats.columns) and (nea in sumstats.columns):
-    #        to_fix = is_chrposrefalt&(sumstats[nea].isna()|sumstats[ea].isna())
-    #        if sum(to_fix)>0 and verbose: log.write(" -Number of variants could be fixed: "+str(sum(to_fix))+" ...")
-    #    elif (nea in sumstats.columns) and (ea not in sumstats.columns):
-    #        if verbose: log.write(" -Initiating EA columns...")
-    #        sumstats[ea]=pd.Series(dtype="string")
-    #        to_fix = is_chrposrefalt&(sumstats[nea].isna()|sumstats[ea].isna())
-    #        if sum(to_fix)>0 and verbose: log.write(" -Number of variants could be fixed: "+str(sum(to_fix))+" ...")
-    #    elif (nea not in sumstats.columns) and (ea in sumstats.columns):
-    #        if verbose: log.write(" -Initiating NEA columns...")
-    #        sumstats[nea]=pd.Series(dtype="string")
-    #        to_fix = is_chrposrefalt&(sumstats[nea].isna()|sumstats[ea].isna())
-    #        if sum(to_fix)>0 and verbose: log.write(" -Number of variants could be fixed: "+str(sum(to_fix))+" ...")
-    #    else:
-    #        if verbose: log.write(" -Initiating EA and NEA columns...")
-    #        sumstats[nea]=pd.Series(dtype="string")
-    #        sumstats[ea]=pd.Series(dtype="string")
-    #        to_fix = is_chrposrefalt
-    #        if sum(to_fix)>0:
-    #            if verbose: log.write(" -Number of variants could be fixed: "+str(sum(to_fix))+" ...")
+    if fixeanea == True:
+        if verbose: log.write(" -WARNING! gwaslab assumes SNPID is in the format of CHR:POS:NEA:EA / CHR:POS:REF:ALT")
+        if overwrite is True:
+            if verbose: log.write(" -Overwrite mode is applied...")
+            to_fix = is_chrposrefalt
+        elif (nea in sumstats.columns) and (nea in sumstats.columns):
+            to_fix = is_chrposrefalt&(sumstats[nea].isna()|sumstats[ea].isna())
+            if sum(to_fix)>0 and verbose: log.write(" -Number of variants could be fixed: "+str(sum(to_fix))+" ...")
+        elif (nea in sumstats.columns) and (ea not in sumstats.columns):
+            if verbose: log.write(" -Initiating EA columns...")
+            sumstats.loc[:,ea]=pd.Series(dtype="string")
+            to_fix = is_chrposrefalt&(sumstats[nea].isna()|sumstats[ea].isna())
+            if sum(to_fix)>0 and verbose: log.write(" -Number of variants could be fixed: "+str(sum(to_fix))+" ...")
+        elif (nea not in sumstats.columns) and (ea in sumstats.columns):
+            if verbose: log.write(" -Initiating NEA columns...")
+            sumstats.loc[:,nea]=pd.Series(dtype="string")
+            to_fix = is_chrposrefalt&(sumstats[nea].isna()|sumstats[ea].isna())
+            if sum(to_fix)>0 and verbose: log.write(" -Number of variants could be fixed: "+str(sum(to_fix))+" ...")
+        else:
+            if verbose: log.write(" -Initiating EA and NEA columns...")
+            sumstats[nea]=pd.Series(dtype="string")
+            sumstats[ea]=pd.Series(dtype="string")
+            to_fix = is_chrposrefalt
+            if sum(to_fix)>0:
+                if verbose: log.write(" -Number of variants could be fixed: "+str(sum(to_fix))+" ...")
     #
-    #    if sum(to_fix)>0:
-    #        if verbose: log.write(" -Filling "+str(sum(to_fix))+" EA and NEA columns using SNPID's chr:pos:nea:ea...")
+        if sum(to_fix)>0:
+            if verbose: log.write(" -Filling "+str(sum(to_fix))+" EA and NEA columns using SNPID's CHR:POS:NEA:EA...")
     #
-    #        if fixeanea_flip is True:
-    #            if verbose: log.write(" -Flipped : chr:pos:a1:a2...a1->EA , a2->NEA ")
-    #            sumstats.loc[to_fix,ea] = sumstats.loc[to_fix,snpid].apply(lambda x:re.split(':|_|-',x)[2]).astype("string")
-    #            sumstats.loc[to_fix,nea] = sumstats.loc[to_fix,snpid].apply(lambda x:re.split(':|_|-',x)[3]).astype("string")
-    #        else:
-    #            if verbose: log.write(" -Chr:pos:a1:a2...a1->EA , a2->NEA ")
-    #            sumstats.loc[to_fix,ea] = sumstats.loc[to_fix,snpid].apply(lambda x:re.split(':|_|-',x)[3]).astype("string")
-    #            sumstats.loc[to_fix,nea] = sumstats.loc[to_fix,snpid].apply(lambda x:re.split(':|_|-',x)[2]).astype("string")
+            if fixeanea_flip == True:
+                if verbose: log.write(" -Flipped : CHR:POS:NEA:EA -> CHR:POS:EA:NEA ")
+                sumstats.loc[to_fix,ea] = sumstats.loc[to_fix,snpid].str.extract(r'^(chr)?(\w+)[:_-](\d+)[:_-]([ATCG]+)[:_-]([ATCG]+)$',flags=re.IGNORECASE|re.ASCII)[3]
+                sumstats.loc[to_fix,nea] = sumstats.loc[to_fix,snpid].str.extract(r'^(chr)?(\w+)[:_-](\d+)[:_-]([ATCG]+)[:_-]([ATCG]+)$',flags=re.IGNORECASE|re.ASCII)[4]
+            else:
+                if verbose: log.write(" -Chr:pos:a1:a2...a1->EA , a2->NEA ")
+                sumstats.loc[to_fix,ea] = sumstats.loc[to_fix,snpid].str.extract(r'^(chr)?(\w+)[:_-](\d+)[:_-]([ATCG]+)[:_-]([ATCG]+)$',flags=re.IGNORECASE|re.ASCII)[4]
+                sumstats.loc[to_fix,nea] = sumstats.loc[to_fix,snpid].str.extract(r'^(chr)?(\w+)[:_-](\d+)[:_-]([ATCG]+)[:_-]([ATCG]+)$',flags=re.IGNORECASE|re.ASCII)[3]
     #        #to_change_status = sumstats[status].str.match(r"\w\w\w[45]\w\w\w")
     #        #sumstats.loc[to_fix&to_change_status,status] = vchange_status(sumstats.loc[to_fix&to_change_status,status],4,"2")
     #        #sumstats.loc[to_fix,snpid].apply(lambda x:re.split(':|_|-',x)[1]).astype("string")
     #        #sumstats.loc[to_fix,rsid].apply(lambda x:re.split(':|_|-',x)[1]).astype("Int64")
     ############################  fixing id ###################################################
-    if fixsep is True:
+    if fixsep == True:
         if snpid in sumstats.columns:
             if verbose: log.write(' -Replacing [_-] in SNPID with ":" ...')
             sumstats.loc[:,snpid] = sumstats.loc[:,snpid].str.replace(r"[_-]",":",regex=True)
+    if fixprefix == True:
+        if snpid in sumstats.columns:
+            if verbose: log.write(' -Removing /^chr/ in SNPID ...')
+            prefix_removed = sumstats.loc[:,snpid].str.extract(r'^(chr)?(\w+[:_-]\d+[:_-][ATCG]+[:_-][ATCG]+)$',flags=re.IGNORECASE|re.ASCII)[1]
+            sumstats.loc[~prefix_removed.isna(),snpid] = prefix_removed[~prefix_removed.isna()]
-    if fixid is True:
+    if fixid == True:
         if snpid not in sumstats.columns:
         # initiate a SNPID column
             sumstats.loc[:,snpid]=pd.Series(dtype="string")
@@ -304,19 +345,21 @@ def removedup(sumstats,mode="dm",chrom="CHR",pos="POS",snpid="SNPID",ea="EA",nea
     remove multiallelic SNPs based on 4. CHR, POS
     '''
+    if verbose: log.write("Start to remove duplicated/multiallelic variants...{}".format(_get_version()))
+    if verbose: log.write(" -Removing mode:{}".format(mode))
     # sort the variants using the specified column before removing
     if keep_col is not None :
         if keep_col in sumstats.columns:
-            if verbose: log.write("Start to sort the sumstats using " + keep_col +"...")
+            if verbose: log.write("Start to sort the sumstats using {}...".format(keep_col))
             sumstats = sumstats.sort_values(by=keep_col,ascending=keep_ascend)
         else:
             if verbose: log.write("Column" + keep_col +" was not detected... skipping... ")
     total_number = len(sumstats)
     # remove by duplicated SNPID
-    if (snpid in sumstats.columns) and "d" in mode:
+    if (snpid in sumstats.columns) and ("d" in mode or "s" in mode):
         if verbose: log.write("Start to remove duplicated variants based on snpid...{}".format(_get_version()))
-        if verbose: log.write(" -Current Dataframe shape :",len(sumstats)," x ", len(sumstats.columns))
+        check_dataframe_shape(sumstats, log, verbose)
         if verbose: log.write(" -Which variant to keep: ",  keep )
         pre_number =len(sumstats)
         if snpid in sumstats.columns:
@@ -326,18 +369,19 @@ def removedup(sumstats,mode="dm",chrom="CHR",pos="POS",snpid="SNPID",ea="EA",nea
             if verbose:  log.write(" -Removed ",pre_number -after_number ," based on SNPID...")
     # remove by duplicated rsID
-    if (rsid in sumstats.columns) and ("d" in mode):
+    if (rsid in sumstats.columns) and ("d" in mode or "r" in mode):
         # keep na and remove duplicated
         pre_number =len(sumstats)
         if verbose: log.write("Start to remove duplicated variants based on rsID...")
+        check_dataframe_shape(sumstats, log, verbose)
         sumstats = sumstats.loc[sumstats[rsid].isna() | (~sumstats.duplicated(subset=rsid, keep=keep)),:]
         after_number=len(sumstats)
         if verbose:  log.write(" -Removed ",pre_number -after_number ," based on rsID...")
     # remove by duplicated variants by CHR:POS:NEA:EA
-    if (chrom in sumstats.columns) and (pos in sumstats.columns) and (nea in sumstats.columns) and (ea in sumstats.columns) and "d" in mode:
+    if (chrom in sumstats.columns) and (pos in sumstats.columns) and (nea in sumstats.columns) and (ea in sumstats.columns) and ("d" in mode or "c" in mode):
         if verbose: log.write("Start to remove duplicated variants based on CHR,POS,EA and NEA...")
-        if verbose: log.write(" -Current Dataframe shape :",len(sumstats)," x ", len(sumstats.columns))
+        check_dataframe_shape(sumstats, log, verbose)
         if verbose: log.write(" -Which variant to keep: ",  keep )
         pre_number =len(sumstats)
         if snpid in sumstats.columns:
@@ -351,6 +395,7 @@ def removedup(sumstats,mode="dm",chrom="CHR",pos="POS",snpid="SNPID",ea="EA",nea
         # keep na and remove duplicated
         pre_number =len(sumstats)
         if verbose: log.write("Start to remove multiallelic variants based on chr:pos...")
+        check_dataframe_shape(sumstats, log, verbose)
         if verbose: log.write(" -Which variant to keep: ",  keep )
         sumstats = sumstats.loc[(~sumstats.loc[:,[chrom,pos]].all(axis=1)) | (~sumstats.duplicated(subset=[chrom,pos], keep=keep)),:]
         after_number=len(sumstats)
@@ -360,17 +405,37 @@ def removedup(sumstats,mode="dm",chrom="CHR",pos="POS",snpid="SNPID",ea="EA",nea
     # resort the coordinates
     if verbose:  log.write(" -Removed ",total_number -after_number," variants in total.")
     if keep_col is not None :
-        if verbose: log.write(" -Sort the coordinates...")
+        if verbose: log.write(" -Sort the coordinates based on CHR and POS...")
         sumstats = sortcoordinate(sumstats,verbose=False)
-    if remove is True:
+    if "n" in mode or remove==True:
         # if remove==True, remove NAs
         if verbose: log.write(" -Removing NAs...")
         pre_number =len(sumstats)
-        sumstats = sumstats.loc[~sumstats.isna().any(axis=1),:]
+        specified_columns = []
+        if "d" in mode:
+            specified_columns.append(rsid)
+            specified_columns.append(snpid)
+            specified_columns.append(chrom)
+            specified_columns.append(pos)
+            specified_columns.append(ea)
+            specified_columns.append(nea)
+        if "r" in mode:
+            specified_columns.append(rsid)
+        if "s" in mode:
+            specified_columns.append(snpid)
+        if "m" in mode:
+            specified_columns.append(chrom)
+            specified_columns.append(pos)
+        if "c" in mode:
+            specified_columns.append(chrom)
+            specified_columns.append(pos)
+            specified_columns.append(ea)
+            specified_columns.append(nea)
+        sumstats = sumstats.loc[~sumstats[specified_columns].isna().any(axis=1),:]
         after_number=len(sumstats)
-        if verbose:  log.write(" -Removed ",pre_number -after_number," variants with NA values.")
-    if verbose: log.write("Finished removing successfully!")
+        if verbose:  log.write(" -Removed ",pre_number -after_number," variants with NA values in {} .".format(set(specified_columns)))
+    if verbose: log.write("Finished removing duplicated/multiallelic variants successfully!")
     return sumstats
 ###############################################################################################################
@@ -383,7 +448,7 @@ def fixchr(sumstats,chrom="CHR",status="STATUS",add_prefix="",x=("X",23),y=("Y",
             if verbose: log.write(".fix_chr: Specified not detected..skipping...")
             return sumstats
         if verbose: log.write("Start to fix chromosome notation...{}".format(_get_version()))
-        if verbose: log.write(" -Current Dataframe shape :",len(sumstats)," x ", len(sumstats.columns))
+        check_dataframe_shape(sumstats, log, verbose)
         # convert to string datatype
         try:
@@ -406,7 +471,8 @@ def fixchr(sumstats,chrom="CHR",status="STATUS",add_prefix="",x=("X",23),y=("Y",
         if sum(is_chr_fixed)<len(sumstats):
             #extract the CHR number or X Y M MT
-            chr_extracted = sumstats.loc[~is_chr_fixed,chrom].str.extract(r'(chr)?([0-9]{1,3}|[XYM]|MT)$',flags=re.IGNORECASE|re.ASCII)[1]
+            chr_extracted = sumstats.loc[~is_chr_fixed,chrom].str.extract(r'^(chr)?(\d{1,3}|[XYM]|MT)$',flags=re.IGNORECASE|re.ASCII)[1]
             is_chr_fixable = ~chr_extracted.isna()
             if verbose: log.write(" -Variants with fixable chromosome notations:",sum(is_chr_fixable))
@@ -419,7 +485,10 @@ def fixchr(sumstats,chrom="CHR",status="STATUS",add_prefix="",x=("X",23),y=("Y",
             is_chr_invalid = (~is_chr_fixable)&(~is_chr_na)
             if sum(is_chr_invalid)>0 and verbose:
                 log.write(" -Variants with invalid chromosome notations:",sum(is_chr_invalid))
-                log.write(" -Invalid chromosome notations converted to NA :" , set(sumstats.loc[~sumstats[chrom].isin(chrom_list),chrom].head()))
+                try:
+                    log.write(" -A look at invalid chromosome notations:" , set(sumstats.loc[~is_chr_fixed,chrom][is_chr_invalid].head()))
+                except:
+                    pass
             elif verbose:
                 log.write(" -No unrecognized chromosome notations...")
@@ -464,7 +533,15 @@ def fixchr(sumstats,chrom="CHR",status="STATUS",add_prefix="",x=("X",23),y=("Y",
             unrecognized_num = sum(~sumstats[chrom].isin(chrom_list))
             if (remove is True) and unrecognized_num>0:
                 # remove variants with unrecognized CHR
-                if verbose: log.write(" -Removed "+ str(unrecognized_num)+ " variants with unrecognized chromosome notations.")
+                try:
+                    if verbose: log.write(" -Valid CHR list: {} - {}".format(min([int(x) for x in chrom_list if x.isnumeric()]),max([int(x) for x in chrom_list if x.isnumeric()])))
+                except:
+                    pass
+                if verbose: log.write(" -Removed "+ str(unrecognized_num)+ " variants with chromosome notations not in CHR list.")
+                try:
+                    log.write(" -A look at chromosome notations not in CHR list:" , set(sumstats.loc[~sumstats[chrom].isin(chrom_list),chrom].head()))
+                except:
+                    pass
                 #sumstats = sumstats.loc[sumstats.index[sumstats[chrom].isin(chrom_list)],:]
                 good_chr = sumstats[chrom].isin(chrom_list)
                 sumstats = sumstats.loc[good_chr, :].copy()
@@ -480,45 +557,48 @@ def fixchr(sumstats,chrom="CHR",status="STATUS",add_prefix="",x=("X",23),y=("Y",
             sumstats.loc[:,chrom] = np.floor(pd.to_numeric(sumstats.loc[:,chrom], errors='coerce')).astype('Int64')
         # filter out variants with CHR <=0
-        if verbose: log.write(" -Sanity check for CHR...")
         out_of_range_chr = sumstats[chrom] < minchr
         out_of_range_chr = out_of_range_chr.fillna(False)
-        if verbose:log.write(" -Removed {} variants with CHR < {}...".format(sum(out_of_range_chr),minchr))
-        sumstats = sumstats.loc[~out_of_range_chr,:]
+        if sum(out_of_range_chr)>0:
+            if verbose: log.write(" -Sanity check for CHR...")
+            if verbose:log.write(" -Removed {} variants with CHR < {}...".format(sum(out_of_range_chr),minchr))
+            sumstats = sumstats.loc[~out_of_range_chr,:]
         if verbose: log.write("Finished fixing chromosome notation successfully!")
         return sumstats
 ###############################################################################################################
 # 20230128
-def fixpos(sumstats,pos="POS",status="STATUS",remove=False, verbose=True,limit=250000000, log=Log()):
+def fixpos(sumstats,pos="POS",status="STATUS",remove=False, verbose=True, lower_limit=0 , upper_limit=None , limit=250000000, log=Log()):
+        if upper_limit is None:
+            upper_limit = limit
         if check_col(sumstats,pos,status) is not True:
             if verbose: log.write(".fix_pos: Specified not detected..skipping...")
             return sumstats
         if verbose: log.write("Start to fix basepair positions...{}".format(_get_version()))
-        if verbose: log.write(" -Current Dataframe shape :",len(sumstats)," x ", len(sumstats.columns))
+        check_dataframe_shape(sumstats, log, verbose)
         all_var_num = len(sumstats)
         #convert to numeric
         is_pos_na = sumstats.loc[:,pos].isna()
-        # check if POS is string
-        if pd.api.types.is_string_dtype(sumstats[pos]):
-            # if so, remove thousands separator
-            if verbose: log.write(' -Removing thousands separator "," or underbar "_" ...')
-            sumstats.loc[~is_pos_na, pos] = sumstats.loc[~is_pos_na, pos].astype("string").str.replace(",|_", "",regex=True)
+        try:
+            if str(sumstats[pos].dtype) == "string" or str(sumstats[pos].dtype) == "object":
+                sumstats.loc[:,pos] = sumstats.loc[:,pos].astype('string')
+                # if so, remove thousands separator
+                if verbose: log.write(' -Removing thousands separator "," or underbar "_" ...')
+                sumstats.loc[~is_pos_na, pos] = sumstats.loc[~is_pos_na, pos].str.replace(r'[,_]', '' ,regex=True)
+        except:
+            pass
         # convert POS to integer
         try:
             if verbose: log.write(' -Converting to Int64 data type ...')
-            sumstats.loc[:,pos] = sumstats.loc[:,pos].astype('Int64')
+            sumstats[pos] = sumstats[pos].astype('Int64')
         except:
             if verbose: log.write(' -Force converting to Int64 data type ...')
-            sumstats.loc[:,pos] = np.floor(pd.to_numeric(sumstats.loc[:,pos], errors='coerce')).astype('Int64')
+            sumstats[pos] = np.floor(pd.to_numeric(sumstats[pos], errors='coerce')).astype('Int64')
         is_pos_fixed = ~sumstats.loc[:,pos].isna()
         is_pos_invalid = (~is_pos_na)&(~is_pos_fixed)
@@ -526,11 +606,11 @@ def fixpos(sumstats,pos="POS",status="STATUS",remove=False, verbose=True,limit=2
         sumstats.loc[is_pos_invalid,status] = vchange_status(sumstats.loc[is_pos_invalid,status],4,"975","842")
         # remove outlier, limit:250,000,000
-        if verbose: log.write(" -Position upper_bound is: " + "{:,}".format(limit))
-        out_lier=(sumstats[pos]>limit) & (~is_pos_na)
-        if verbose: log.write(" -Remove outliers:",sum(out_lier))
+        if verbose: log.write(" -Position bound:({} , {:,})".format(lower_limit, upper_limit))
+        is_pos_na = sumstats.loc[:,pos].isna()
+        out_lier= ((sumstats[pos]<=lower_limit) | (sumstats[pos]>=upper_limit)) & (~is_pos_na)
+        if verbose: log.write(" -Removed outliers:",sum(out_lier))
         sumstats = sumstats.loc[~out_lier,:]
         #remove na
         if remove is True:
             sumstats = sumstats.loc[~sumstats[pos].isna(),:]
@@ -539,6 +619,7 @@ def fixpos(sumstats,pos="POS",status="STATUS",remove=False, verbose=True,limit=2
         if verbose: log.write(" -Converted all position to datatype Int64.")
         if verbose: log.write("Finished fixing basepair position successfully!")
         return sumstats
 ###############################################################################################################
@@ -549,11 +630,26 @@ def fixallele(sumstats,ea="EA", nea="NEA",status="STATUS",remove=False,verbose=T
             if verbose: log.write("EA and NEA not detected..skipping...")
             return sumstats
         if verbose: log.write("Start to fix alleles...{}".format(_get_version()))
-        if verbose: log.write(" -Current Dataframe shape :",len(sumstats)," x ", len(sumstats.columns))
+        check_dataframe_shape(sumstats, log, verbose)
         #if (ea not in sumstats.columns) or (nea not in sumstats.columns):
         if verbose: log.write(" -Converted all bases to string datatype and UPPERCASE.")
+        #try:
+        #    ea_missing = sum(sumstats[ea].isna())
+        #    nea_missing = sum(sumstats[nea].isna())
+        #    if sum(ea_missing)>0:
+        #        if verbose: log.write(" -Converting {} missing EA to letter N.".format(ea_missing))
+        #        sumstats.loc[:,ea] = sumstats.loc[:,ea].add_categories("N").fillna("N")
+        #    if sum(sumstats[nea].isna())>0:
+        #        if verbose: log.write(" -Converting {} missing NEA to letter N.".format(nea_missing))
+        #        sumstats.loc[:,nea] = sumstats.loc[:,nea].add_categories("N").fillna("N")
+        #except:
+        #    pass
         categories = set(sumstats.loc[:,ea].str.upper())|set(sumstats.loc[:,nea].str.upper())|set("N")
+        categories = {x for x in categories if pd.notna(x)}
         sumstats.loc[:,ea]=pd.Categorical(sumstats[ea].str.upper(),categories = categories)
         sumstats.loc[:,nea]=pd.Categorical(sumstats[nea].str.upper(),categories = categories)
         all_var_num = len(sumstats)
@@ -620,6 +716,7 @@ def fixallele(sumstats,ea="EA", nea="NEA",status="STATUS",remove=False,verbose=T
             sumstats.loc[is_eanea_fixed&is_normalized,status]     = vchange_status(sumstats.loc[is_eanea_fixed&is_normalized, status],  5,"4","3")
         gc.collect()
         if verbose: log.write("Finished fixing allele successfully!")
         return sumstats
 ###############################################################################################################
@@ -627,11 +724,11 @@ def fixallele(sumstats,ea="EA", nea="NEA",status="STATUS",remove=False,verbose=T
 def parallelnormalizeallele(sumstats,snpid="SNPID",rsid="rsID",pos="POS",nea="NEA",ea="EA" ,status="STATUS",n_cores=1,verbose=True,log=Log()):
     if check_col(sumstats,pos,ea,nea,status) is not True:
-        if verbose: log.write("WARNING:.normalize(): specified columns not detected..skipping...")
+        if verbose: log.write("WARNING! .normalize(): specified columns not detected..skipping...")
         return sumstats
     if verbose: log.write("Start to normalize variants...{}".format(_get_version()))
-    if verbose: log.write(" -Current Dataframe shape :",len(sumstats)," x ", len(sumstats.columns))
+    check_dataframe_shape(sumstats, log, verbose)
     #variants_to_check = status_match(sumstats[status],5,[4,5]) #
     #r'\w\w\w\w[45]\w\w'
     variants_to_check = sumstats[status].str[4].str.match(r'4|5', case=False, flags=0, na=False)
@@ -689,7 +786,8 @@ def parallelnormalizeallele(sumstats,snpid="SNPID",rsid="rsID",pos="POS",nea="NE
 def normalizeallele(sumstats,pos="POS" ,nea="NEA",ea="EA",status="STATUS"):
     #single df
-    normalized = sumstats.apply(lambda x: normalizevariant(x[0],x[1],x[2],x[3]),axis=1)
+    #normalized = sumstats.apply(lambda x: normalizevariant(x[0],x[1],x[2],x[3]),axis=1)
+    normalized = sumstats.apply(lambda x: normalizevariant(x[pos],x[nea],x[ea],x[status]),axis=1)
     sumstats = pd.DataFrame(normalized.to_list(), columns=[pos,nea,ea,status],index=sumstats.index)
     return sumstats
@@ -811,7 +909,7 @@ def sanitycheckstats(sumstats,
     if coltocheck is None:
         coltocheck = ["P","MLOG10P","INFO","Z","BETA","SE","EAF","CHISQ","F","N","N_CASE","N_CONTROL","OR","OR_95L","OR_95U","HR","HR_95L","HR_95U","STATUS"]
     if verbose: log.write("Start sanity check for statistics...{}".format(_get_version()))
-    if verbose: log.write(" -Current Dataframe shape :",len(sumstats)," x ", len(sumstats.columns))
+    check_dataframe_shape(sumstats, log, verbose)
     cols_to_check=[]
     oringinal_number=len(sumstats)
     sumstats = sumstats.copy()
@@ -822,7 +920,7 @@ def sanitycheckstats(sumstats,
     if "N" in coltocheck and "N" in sumstats.columns:
         cols_to_check.append("N")
         if verbose: log.write(" -Checking if ",n[0],"<=N<=",n[1]," ...")
-        sumstats.loc[:,"N"] = np.floor(pd.to_numeric(sumstats.loc[:,"N"], errors='coerce')).astype("Int32")
+        sumstats.loc[:,"N"] = np.floor(pd.to_numeric(sumstats.loc[:,"N"], errors='coerce')).astype("Int64")
         sumstats = sumstats.loc[(sumstats["N"]>=n[0]) & (sumstats["N"]<=n[1]),:]
         after_number=len(sumstats)
         if verbose: log.write(" -Removed "+str(pre_number - after_number)+" variants with bad N.")
@@ -830,7 +928,7 @@ def sanitycheckstats(sumstats,
     if "N_CASE" in coltocheck and "N_CASE" in sumstats.columns:
         cols_to_check.append("N_CASE")
         if verbose: log.write(" -Checking if ",ncase[0],"<=N_CASE<=",ncase[1]," ...")
-        sumstats.loc[:,"N_CASE"] = np.floor(pd.to_numeric(sumstats.loc[:,"N_CASE"], errors='coerce')).astype("Int32")
+        sumstats.loc[:,"N_CASE"] = np.floor(pd.to_numeric(sumstats.loc[:,"N_CASE"], errors='coerce')).astype("Int64")
         sumstats = sumstats.loc[(sumstats["N_CASE"]>=ncase[0]) & (sumstats["N_CASE"]<=ncase[1]),:]
         after_number=len(sumstats)
         if verbose: log.write(" -Removed "+str(pre_number - after_number)+" variants with bad N_CASE.")
@@ -838,17 +936,11 @@ def sanitycheckstats(sumstats,
     if "N_CONTROL" in coltocheck and "N_CONTROL" in sumstats.columns:
         cols_to_check.append("N_CONTROL")
         if verbose: log.write(" -Checking if ",ncontrol[0],"<=N_CONTROL<=",ncontrol[1]," ...")
-        sumstats.loc[:,"N_CONTROL"] = np.floor(pd.to_numeric(sumstats.loc[:,"N_CONTROL"], errors='coerce')).astype("Int32")
+        sumstats.loc[:,"N_CONTROL"] = np.floor(pd.to_numeric(sumstats.loc[:,"N_CONTROL"], errors='coerce')).astype("Int64")
         sumstats = sumstats.loc[(sumstats["N_CONTROL"]>=ncontrol[0]) & (sumstats["N_CONTROL"]<=ncontrol[1]),:]
         after_number=len(sumstats)
         if verbose: log.write(" -Removed "+str(pre_number - after_number)+" variants with bad N_CONTROL.")
-    pre_number=len(sumstats)
-    if "N" in coltocheck and "N" in sumstats.columns and "N_CONTROL" in coltocheck and "N_CONTROL" in sumstats.columns and "N_CASE" in coltocheck and "N_CASE" in sumstats.columns:
-        if verbose: log.write(" -Checking if N = N_CASE + N_CONTROL ...")
-        matched_n = sumstats.loc[:,"N"] == sumstats.loc[:,"N_CASE"] + sumstats.loc[:,"N_CONTROL"]
-        sumstats = sumstats.loc[matched_n,:]
-        after_number=len(sumstats)
-        if verbose: log.write(" -Removed "+str(pre_number - after_number)+" variants with N != N_CASE + N_CONTROL.")
     ###ALLELE FREQUENCY################################################################################################################################################
     pre_number=len(sumstats)
@@ -908,6 +1000,11 @@ def sanitycheckstats(sumstats,
         if verbose: log.write(" -Checking if ",p[0],"< P <",p[1]," ...")
         sumstats.loc[:,"P"] = pd.to_numeric(sumstats.loc[:,"P"], errors='coerce').astype("float64")
         sumstats = sumstats.loc[(sumstats["P"]>p[0]) & (sumstats["P"]<p[1]),:]
+        is_low_p =  sumstats["P"] == 0
+        if sum(is_low_p) >0:
+            log.write(" -WARNING! Extremely low P detected (P=0 or P < minimum positive value of float64) : {}".format(sum(is_low_p)), verbose=verbose)
+            log.write(" -WARNING! Please consider using MLOG10P instead.", verbose=verbose)
         after_number=len(sumstats)
         if verbose: log.write(" -Removed "+str(pre_number - after_number)+" variants with bad P.")
@@ -1008,11 +1105,11 @@ def sanitycheckstats(sumstats,
         if verbose: log.write(" -Checking STATUS and converting STATUS to categories....")
         categories = {str(j+i) for j in [1900000,3800000,9700000,9800000,9900000] for i in range(0,100000)}
         sumstats.loc[:,"STATUS"] = pd.Categorical(sumstats["STATUS"],categories=categories)
-    pre_number=len(sumstats)
-    sumstats = sumstats.dropna(subset=cols_to_check)
+    #pre_number=len(sumstats)
+    #sumstats = sumstats.dropna(subset=cols_to_check)
     after_number=len(sumstats)
-    if verbose:log.write(" -Removed {} variants with NAs in the checked columns...".format(pre_number - after_number))
+    #if verbose:log.write(" -Removed {} variants with NAs in the checked columns...".format(pre_number - after_number))
     if verbose: log.write(" -Removed "+str(oringinal_number - after_number)+" variants with bad statistics in total.")
     if verbose:
@@ -1021,6 +1118,67 @@ def sanitycheckstats(sumstats,
     if verbose: log.write("Finished sanity check successfully!")
     return sumstats
+### check consistency #############################################################################################################################################
+def _check_data_consistency(sumstats, rtol=1e-3, atol=1e-3, equal_nan=True, verbose=True,log=Log()):
+    if verbose: log.write("Start to check data consistency across columns...{}".format(_get_version()))
+    check_dataframe_shape(sumstats, log, verbose)
+    log.write(" -Tolerance: {} (Relative) and {} (Absolute)".format(rtol, atol),verbose=verbose)
+    if "SNPID" not in sumstats.columns:
+        id_to_use = "rsID"
+    else:
+        id_to_use = "SNPID"
+    if "BETA" in sumstats.columns and "SE" in sumstats.columns:
+        if "MLOG10P" in sumstats.columns:
+            log.write(" -Checking if BETA/SE-derived-MLOG10P is consistent with MLOG10P...",verbose=verbose)
+            betase_derived_mlog10p =  _convert_betase_to_mlog10p(sumstats["BETA"], sumstats["SE"])
+            is_close = np.isclose(betase_derived_mlog10p, sumstats["MLOG10P"], rtol=rtol, atol=atol, equal_nan=equal_nan)
+            diff = betase_derived_mlog10p - sumstats["MLOG10P"]
+            if sum(~is_close)>0:
+                log.write("  -Not consistent: {} variant(s)".format(sum(~is_close),verbose=verbose))
+                log.write("  -Variant {} with max difference: {} with {}".format(id_to_use, sumstats.loc[diff.idxmax(),id_to_use], diff.max(),verbose=verbose))
+            else:
+                log.write("  -Variants with inconsistent values were not detected." ,verbose=verbose)
+        if "P" in sumstats.columns:
+            log.write(" -Checking if BETA/SE-derived-P is consistent with P...",verbose=verbose)
+            betase_derived_p =  _convert_betase_to_p(sumstats["BETA"], sumstats["SE"])
+            is_close = np.isclose(betase_derived_p, sumstats["P"], rtol=rtol, atol=atol, equal_nan=equal_nan)
+            diff = betase_derived_p - sumstats["P"]
+            if sum(~is_close)>0:
+                log.write("  -Not consistent: {} variant(s)".format(sum(~is_close),verbose=verbose))
+                log.write("  -Variant {} with max difference: {} with {}".format(id_to_use, sumstats.loc[diff.idxmax(),id_to_use], diff.max(),verbose=verbose))
+            else:
+                log.write("  -Variants with inconsistent values were not detected." ,verbose=verbose)
+    if "MLOG10P" in sumstats.columns and "P" in sumstats.columns:
+        log.write(" -Checking if MLOG10P-derived-P is consistent with P...",verbose=verbose)
+        mlog10p_derived_p = _convert_mlog10p_to_p(sumstats["MLOG10P"])
+        is_close = np.isclose(mlog10p_derived_p, sumstats["P"], rtol=rtol, atol=atol, equal_nan=equal_nan)
+        diff = mlog10p_derived_p - sumstats["P"]
+        if sum(~is_close)>0:
+            log.write("  -Not consistent: {} variant(s)".format(sum(~is_close),verbose=verbose))
+            log.write("  -Variant {} with max difference: {} with {}".format(id_to_use, sumstats.loc[diff.idxmax(),id_to_use], diff.max(),verbose=verbose))
+        else:
+            log.write("  -Variants with inconsistent values were not detected." ,verbose=verbose)
+    if "N" in sumstats.columns and "N_CONTROL" in sumstats.columns and "N_CASE" in sumstats.columns:
+        if verbose: log.write(" -Checking if N is consistent with N_CASE + N_CONTROL ...")
+        is_close = sumstats.loc[:,"N"] == sumstats.loc[:,"N_CASE"] + sumstats.loc[:,"N_CONTROL"]
+        #is_close = np.isclose(sumstats.loc[:,"N"], sumstats.loc[:,"N_CASE"] + sumstats.loc[:,"N_CONTROL"] , rtol=rtol, atol=atol, equal_nan=equal_nan)
+        diff = abs(sumstats.loc[:,"N"] - (sumstats.loc[:,"N_CASE"] + sumstats.loc[:,"N_CONTROL"] ))
+        if sum(~is_close)>0:
+            log.write("  -Not consistent: {} variant(s)".format(sum(~is_close),verbose=verbose))
+            log.write("  -Variant {} with max difference: {} with {}".format(id_to_use, sumstats.loc[diff.idxmax(),id_to_use], diff.max(),verbose=verbose))
+        else:
+            log.write("  -Variants with inconsistent values were not detected." ,verbose=verbose)
+    log.write(" -Note: if the max difference is greater than expected, please check your original sumstats.",verbose=verbose)
+    if verbose: log.write("Finished checking data consistency across columns.")
 ###############################################################################################################
 # 20220426
 def get_reverse_complementary_allele(a):
@@ -1046,7 +1204,7 @@ def flip_direction(string):
 def flipallelestats(sumstats,status="STATUS",verbose=True,log=Log()):
-    if verbose: log.write(" -Current Dataframe shape :",len(sumstats)," x ", len(sumstats.columns))
+    check_dataframe_shape(sumstats, log, verbose)
     ###################get reverse complementary####################
     pattern = r"\w\w\w\w\w[45]\w"
@@ -1245,10 +1403,10 @@ def liftover_variant(sumstats,
 def parallelizeliftovervariant(sumstats,n_cores=1,chrom="CHR", pos="POS", from_build="19", to_build="38",status="STATUS",remove=True, verbose=True,log=Log()):
     if check_col(sumstats,chrom,pos,status) is not True:
-        if verbose: log.write("WARNING:.liftover(): specified columns not detected..skipping...")
+        if verbose: log.write("WARNING! .liftover(): specified columns not detected..skipping...")
         return sumstats
     if verbose: log.write("Start to perform liftover...{}".format(_get_version()))
-    if verbose: log.write(" -Current Dataframe shape :",len(sumstats)," x ", len(sumstats.columns))
+    check_dataframe_shape(sumstats, log, verbose)
     if verbose: log.write(" -CPU Cores to use :",n_cores)
     if verbose: log.write(" -Performing liftover ...")
     if verbose: log.write(" -Creating converter : hg" + from_build +" to hg"+ to_build)
@@ -1292,7 +1450,7 @@ def sortcoordinate(sumstats,chrom="CHR",pos="POS",reindex=True,verbose=True,log=
         return sumstats
     if verbose: log.write("Start to sort the genome coordinates...{}".format(_get_version()))
-    if verbose: log.write(" -Current Dataframe shape :",len(sumstats)," x ", len(sumstats.columns))
+    check_dataframe_shape(sumstats, log, verbose)
     try:
         if sumstats[pos].dtype == "Int64":
@@ -1311,11 +1469,11 @@ def sortcoordinate(sumstats,chrom="CHR",pos="POS",reindex=True,verbose=True,log=
 ###############################################################################################################
 # 20230430 added HR HR_95 BETA_95 N_CASE N_CONTROL
 def sortcolumn(sumstats,verbose=True,log=Log(),order = [
-        "SNPID","rsID", "CHR", "POS", "EA", "NEA", "EAF", "MAF", "BETA", "SE","BETA_95L","BETA_95U", "Z",
+        "SNPID","rsID", "CHR", "POS", "EA", "NEA", "EAF", "MAF", "BETA", "SE","BETA_95L","BETA_95U", "Z","T","F",
         "CHISQ", "P", "MLOG10P", "OR", "OR_95L", "OR_95U","HR", "HR_95L", "HR_95U","INFO", "N","N_CASE","N_CONTROL","DIRECTION","I2","P_HET","DOF","SNPR2","STATUS"
            ]):
     if verbose: log.write("Start to reorder the columns...{}".format(_get_version()))
-    if verbose: log.write(" -Current Dataframe shape :",len(sumstats)," x ", len(sumstats.columns))
+    check_dataframe_shape(sumstats, log, verbose)
     output_columns = []
     for i in order:
@@ -1347,4 +1505,5 @@ def check_col(df,*args):
     if len(not_in_df)>0:
         return False
         print(" -Specified columns names was not detected. Please check:"+",".join(not_in_df))
-    return True
+    return True

gwaslab 3.4.35__py3-none-any.whl → 3.4.37__py3-none-any.whl

Potentially problematic release.

gwaslab 3.4.35py3-none-any.whl → 3.4.37py3-none-any.whl