PyPI - cpgtools - Versions diffs - 2.0.2__py3-none-any.whl → 2.0.3__py3-none-any.whl - Mend

cpgtools 2.0.2py3-none-any.whl → 2.0.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of cpgtools might be problematic. Click here for more details.

Files changed (55) hide show

cpgmodule/data/AltumAge_cpg.pkl ADDED Viewed

Binary file

cpgmodule/data/AltumAge_multi_platform_cpgs.pkl ADDED Viewed

Binary file

cpgmodule/data/AltumAge_scaler.pkl ADDED Viewed

Binary file

cpgmodule/data/GA_Bohlin.pkl ADDED Viewed

Binary file

cpgmodule/data/GA_Haftorn.pkl ADDED Viewed

Binary file

cpgmodule/data/GA_Knight.pkl ADDED Viewed

Binary file

cpgmodule/data/GA_Lee_CPC.pkl ADDED Viewed

Binary file

cpgmodule/data/GA_Lee_RPC.pkl ADDED Viewed

Binary file

cpgmodule/data/GA_Lee_refined_RPC.pkl ADDED Viewed

Binary file

cpgmodule/data/GA_Mayne.pkl ADDED Viewed

Binary file

cpgmodule/data/Hannum.pkl ADDED Viewed

Binary file

cpgmodule/data/Horvath_2013.pkl ADDED Viewed

Binary file

cpgmodule/data/Horvath_2018.pkl ADDED Viewed

Binary file

cpgmodule/data/Levine.pkl ADDED Viewed

Binary file

cpgmodule/data/Lu_DNAmTL.pkl ADDED Viewed

Binary file

cpgmodule/data/Ped_McEwen.pkl ADDED Viewed

Binary file

cpgmodule/data/Ped_Wu.pkl ADDED Viewed

Binary file

cpgmodule/data/Zhang_BLUP.pkl ADDED Viewed

Binary file

cpgmodule/data/Zhang_EN.pkl ADDED Viewed

Binary file

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/dmc_ttest.py RENAMED Viewed

@@ -189,7 +189,7 @@ def main():
 			else:
 				continue
 		line_num += 1
 	printlog("Perfrom Benjamini-Hochberg (aka FDR) correction ...")
 	adjusted_p = {}
 	q_list =  padjust.multiple_testing_correction(p_list)
@@ -204,6 +204,10 @@ def main():
 		else:
 			f = l.split()
 			probe_ID = f[0]
+			if probe_ID in delta_beta:
+				pass
+			else:
+				delta_beta[probe_ID] = 'n/a'
 			try:
 				print (l + '\t' + str(delta_beta[probe_ID]) + '\t' + adjusted_p[probe_ID], file=FOUT)
 			except:

cpgtools-2.0.2.data/scripts/beta_imputation.py → cpgtools-2.0.3.data/scripts/predict_missing.py RENAMED Viewed

@@ -20,6 +20,7 @@ from impyute.cs.em import em
 from impyute.ops.util import toy_df,insert_na
 from impyute.cs.random import random_impute
 from impyute.cs.buck_iterative import buck_iterative
+from impyute.ts.moving_window import moving_window
 from missingpy import MissForest
 #use pip to install fancyimpute
@@ -64,6 +65,7 @@ def nafiller():
                     the same row or column.",
         'FillRef': "Impute missing values using values from an external \
                     reference dataset.",
+        'MW': "Interpolate the missing values with moving window.",
         'KNN': "Impute missing values using scikit-learn's KNNImputer function. \
                 Note: slow for large datasets.",
         'KNN2': "Impute missing values using KNN2",
@@ -98,6 +100,7 @@ def nafiller():
     FillMax_parser = sub_parsers.add_parser('FillMax', help=commands['FillMax'])
     FillRand_parser = sub_parsers.add_parser('FillRand', help=commands['FillRand'])
     FillRef_parser = sub_parsers.add_parser('FillRef', help=commands['FillRef'])
+    MW_parser = sub_parsers.add_parser('MW', help=commands['MW'])
     KNN_parser = sub_parsers.add_parser('KNN', help=commands['KNN'])
     fKNN_parser = sub_parsers.add_parser('fKNN', help=commands['fKNN'])
     EM_parser = sub_parsers.add_parser('EM', help=commands['EM'])
@@ -116,7 +119,7 @@ def nafiller():
         'output', type=str, metavar='out_df',
         help="Output data frame.")
     DropNA_parser.add_argument(
-        '-a', '--axis', type=int, choices=range(2), default=0,
+        '--axis', type=int, choices=range(2), default=0,
         help="0 : drop rows with any missing values, 1 : drop columns with \
             missing values. Default: 0")
     DropNA_parser.add_argument(
@@ -130,7 +133,7 @@ def nafiller():
         'output', type=str, metavar='out_df',
         help="Output data frame.")
     FillValue_parser.add_argument(
-        '-s', '--score', type=float, default=0.0,
+        '--score', type=float, default=0.0,
         help="The value uesd to fill all NAs.")
     FillValue_parser.add_argument(
         '--decimal', type=int, default=5,
@@ -143,7 +146,7 @@ def nafiller():
         'output', type=str, metavar='out_df',
         help="Output data frame.")
     FillMean_parser.add_argument(
-        '-a', '--axis', type=int, choices=range(2), default=1,
+        '--axis', type=int, choices=range(2), default=1,
         help="0 means column, 1 means row. Default: fill NAs with row means")
     FillMean_parser.add_argument(
         '--decimal', type=int, default=5,
@@ -156,7 +159,7 @@ def nafiller():
         'output', type=str, metavar='out_df',
         help="Output data frame.")
     FillMedian_parser.add_argument(
-        '-a', '--axis', type=int, choices=range(2), default=1,
+        '--axis', type=int, choices=range(2), default=1,
         help="0 means column, 1 means row. Default: fill NAs with row medians")
     FillMedian_parser.add_argument(
         '--decimal', type=int, default=5,
@@ -169,7 +172,7 @@ def nafiller():
         'output', type=str, metavar='out_df',
         help="Output data frame.")
     FillMin_parser.add_argument(
-        '-a', '--axis', type=int, choices=range(2), default=1,
+        '--axis', type=int, choices=range(2), default=1,
         help="0 means column, 1 means row. Default: fill NAs with the minimum value of the rows.")
     FillMin_parser.add_argument(
         '--decimal', type=int, default=5,
@@ -182,7 +185,7 @@ def nafiller():
         'output', type=str, metavar='out_df',
         help="Output data frame.")
     FillMax_parser.add_argument(
-        '-a', '--axis', type=int, choices=range(2), default=1,
+        '--axis', type=int, choices=range(2), default=1,
         help="0 means column, 1 means row. Default: fill NAs with the maximum value of the rows.")
     FillMax_parser.add_argument(
         '--decimal', type=int, default=5,
@@ -195,7 +198,7 @@ def nafiller():
         'output', type=str, metavar='out_df',
         help="Output data frame.")
     FillRand_parser.add_argument(
-        '-a', '--axis', type=int, choices=range(2), default=1,
+        '--axis', type=int, choices=range(2), default=1,
         help="0 means column, 1 means row. Default: fill NAs with values randomly selected from rows.")
     FillRand_parser.add_argument(
         '--decimal', type=int, default=5,
@@ -208,12 +211,50 @@ def nafiller():
         'output', type=str, metavar='out_df',
         help="Output data frame.")
     FillRef_parser.add_argument(
-        '-r', '--ref', type=str,
+        '--ref', type=str,
         help="File name of the external reference.")
     FillRef_parser.add_argument(
         '--decimal', type=int, default=5,
         help="Number of decimal places to round each column to. default: %(default)s")
+    MW_parser.add_argument(
+        'input', type=str, metavar='input_df',
+        help="Input data frame.")
+    MW_parser.add_argument(
+        'output', type=str, metavar='out_df',
+        help="Output data frame.")
+    MW_parser.add_argument(
+        '--nindex', type=int, choices=[0, -1, None],
+        default=None,
+        help="Null index. Index of the null value inside the moving average window. \
+            See impyute documentation for details. default: %(default)s")
+    MW_parser.add_argument(
+        '--wsize', type=int, default=5,
+        help="Size of the moving average window/area of values being used \
+            for each local imputation. This number includes the missing value. \
+            default: %(default)s")
+    MW_parser.add_argument(
+        '--errors', type=str, choices=["raise", "coerce", "ignore"],
+        default='coerce',
+        help="Errors will occur with the indexing of the windows - for \
+            example if there is a nan at data[x][0] and `nindex` is set to \
+            -1 or there is a nan at data[x][-1] and `nindex` is set to 0. `\
+            'raise' will raise an error, `coerce` will try again using an \
+            nindex set to the middle and `ignore` will just leave it as a \
+            nan  default: %(default)s")
+    MW_parser.add_argument(
+        '--func', type=str, choices=["mean", "median"],
+        default='mean',
+        help="Function to summerzie values within the moving window. \
+            default: %(default)s")
+    MW_parser.add_argument(
+        '--axis', type=int, choices=range(2), default=1,
+        help="0 means column, 1 means row. Default: fill missing value \
+            with windows moving on rows.")
+    MW_parser.add_argument(
+        '--decimal', type=int, default=5,
+        help="Number of decimal places to round each column to. default: %(default)s")
     KNN_parser.add_argument(
         'input', type=str, metavar='input_df',
         help="Input data frame.")
@@ -306,20 +347,28 @@ def nafiller():
         'output', type=str, metavar='out_df',
         help="Name of the output data frame.")
     ToyDf_parser.add_argument(
-        '-r', '--nrow', type=int, default=10,
+        '--nrow', type=int, default=10,
         help="Number of rows. default: %(default)s")
     ToyDf_parser.add_argument(
-        '-c', '--ncol', type=int, default=10,
+        '--ncol', type=int, default=10,
         help="Number of columns. default: %(default)s")
     ToyDf_parser.add_argument(
-        '--na', type=int, default=5,
+        '--nmiss', type=float, default=5,
         help="Number of missing values ingested into the dataframe. default: %(default)s")
     ToyDf_parser.add_argument(
-        '-s', '--seed', type=int, default=123,
+        '--seed', type=int, default=123,
         help="Seed used to initialize a pseudorandom number generator. default: %(default)s")
     ToyDf_parser.add_argument(
         '--prefix', type=str, default='s',
-        help="Prefix of the column names, a series numbers will be appended to the prefix. default: %(default)s")
+        help="Prefix of the column names, a series numbers will be appended to \
+            the prefix. If this is set to None, as np.ndarray rather than pd.dataframe \
+            will be returned. default: %(default)s")
+    ToyDf_parser.add_argument(
+        '--min', type=float, default=0.0,
+        help="The minimum value. default: %(default)s")
+    ToyDf_parser.add_argument(
+        '--max', type=float, default=1.0,
+        help="The maximum value. default: %(default)s")
     ToyDf_parser.add_argument(
         '--decimal', type=int, default=5,
         help="Number of decimal places to round each column to. default: %(default)s")
@@ -331,10 +380,10 @@ def nafiller():
         'output', type=str, metavar='out_df',
         help="Output data frame.")
     InsertNA_parser.add_argument(
-        '--na', type=int,
+        '--nmiss', type=int,
         help="Number of missing values ingested into the dataframe.")
     InsertNA_parser.add_argument(
-        '-s', '--seed', type=int, default=123,
+        '--seed', type=int, default=123,
         help="Seed used to initialize a pseudorandom number generator. default: %(default)s")
     InsertNA_parser.add_argument(
         '--decimal', type=int, default=5,
@@ -483,6 +532,25 @@ def nafiller():
                     continue
             output_df = input_df
             output_df = output_df.round(args.decimal)
+            output_df.to_csv(args.output, sep="\t", na_rep="NaN")
+            logging.info("File \"%s\" contains %d missing values ..." %
+                        (args.output, output_df.isna().sum().sum()))
+        elif command.lower() == 'mw':
+            input_df = read_df(args.input)
+            logging.info("File \"%s\" contains %d missing values ..." %
+                        (args.input, input_df.isna().sum().sum()))
+            logging.info("Replace missing values using moving window on %s ..." % axis_name[args.axis])
+            if args.axis == 1:
+                output_df = moving_window(
+                    input_df, nindex = args.nindex, wsize=args.wsize,
+                    errors=args.errors, func=getattr(np, args.func))
+                output_df = output_df.round(args.decimal)
+            elif args.axis == 0:
+                output_df = moving_window(
+                    input_df.T, nindex = args.nindex, wsize=args.wsize,
+                    errors=args.errors, func=getattr(np, args.func))
+                output_df = output_df.round(args.decimal).T
             output_df.to_csv(args.output, sep="\t", na_rep="NaN")
             logging.info("File \"%s\" contains %d missing values ..." %
                         (args.output, output_df.isna().sum().sum()))
@@ -576,9 +644,10 @@ def nafiller():
         elif command.lower() == 'toydf':
             logging.info("Generate toy dataframe ...")
-            output_df = toy_df(nrow = args.nrow, ncol = args.ncol,
-                               n_miss = args.na, sample_prefix=args.prefix,
-                               seed=args.seed)
+            output_df = toy_df(n_rows = args.nrow, n_cols = args.ncol,
+                               missingness = args.nmiss, sample_prefix=args.prefix,
+                               min_val = args.min, max_val = args.max,
+                               rand_seed=args.seed)
             #print(output_df)
             output_df = output_df.round(args.decimal)
             output_df.to_csv(args.output, sep="\t", na_rep="NaN")
@@ -589,7 +658,7 @@ def nafiller():
             logging.info("File \"%s\" contains %d missing values ..." %
                          (args.input, input_df.isna().sum().sum()))
             logging.info("Insert %d NAs into dataframe ..." % args.na)
-            output_df = insert_na(df=input_df, n_miss=args.na, seed=args.seed)
+            output_df = insert_na(df=input_df, n_miss=args.nmiss, seed=args.seed)
             output_df = output_df.round(args.decimal)
             output_df.to_csv(args.output, sep="\t", na_rep="NaN")
             logging.info("File \"%s\" contains %d missing values ..." %

{cpgtools-2.0.2.dist-info → cpgtools-2.0.3.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.1
 Name: cpgtools
-Version: 2.0.2
+Version: 2.0.3
 Summary: Tools to analyze and visualize DNA methylation data
 Author-email: Liguo Wang <wangliguo78@gmail.com>
 Maintainer-email: Liguo Wang <wangliguo78@gmail.com>

{cpgtools-2.0.2.dist-info → cpgtools-2.0.3.dist-info}/RECORD RENAMED Viewed

@@ -10,37 +10,56 @@ cpgmodule/methylClock.py,sha256=HyMk3vpVwR3yrkLCPv9fVJs6JCeSchbJEBe7i69jdSs,1202
 cpgmodule/padjust.py,sha256=mvbQ9_crn_S39yvWrv_JPoU5OxZGHaw7cV3deBxTPdk,2389
 cpgmodule/region2gene.py,sha256=iuSYa2-ki-qbL1TqqAlTXGT7g-j1uNIA1y7hzMwVM2U,5347
 cpgmodule/utils.py,sha256=NgKT3aJlRT5pQKKO3_e0WB2_u93pY13F-k-r0pvgKno,16095
+cpgmodule/data/AltumAge_cpg.pkl,sha256=T0pfBWrzQO00-z85QNE2CP0ntU0mtF2WkZeEPiArqTw,264691
+cpgmodule/data/AltumAge_multi_platform_cpgs.pkl,sha256=Bo7ZG6AuxXUmLH6dCFfrlYkiTkeLjyqRgcD7yw4mNZ0,264816
+cpgmodule/data/AltumAge_scaler.pkl,sha256=aDMcC4l0wZJGDi6_MeSpdNoykndfgsUtVKEd6mKf9T0,325509
+cpgmodule/data/GA_Bohlin.pkl,sha256=W72ra6APUZDNPmVJ-kRuaVzpiKGgI_K7nDqSFx3nf3w,2667
+cpgmodule/data/GA_Haftorn.pkl,sha256=ZFCJ2h0DWEaa-pHKdsSuWbQGL1JMwDXBtDyhx9DlZLc,4622
+cpgmodule/data/GA_Knight.pkl,sha256=dsKeIt7PxCcw_tcVObtVKB3KqtF7bPH-vQqbClWI5Tc,25322
+cpgmodule/data/GA_Lee_CPC.pkl,sha256=WfeI1bGnIS5_AIX7qnspyGYUgzGOAJ9JJ9CGQjLgkFo,25373
+cpgmodule/data/GA_Lee_RPC.pkl,sha256=rLhr-sboWqIZ6Y08zODh7bgwXBa4SNkE4ZZaIyQTaYc,25382
+cpgmodule/data/GA_Lee_refined_RPC.pkl,sha256=bXiZIgFSoX7Sr0ai1zHzGXv-EMGBglvx8z5vr3IpccA,25348
+cpgmodule/data/GA_Mayne.pkl,sha256=CUfwiVIywJZwTb0PhRuW-6TQ5H1kO7tR6KHepyzBULg,1899
+cpgmodule/data/Hannum.pkl,sha256=gXJxy6S8lBCUdr_T7ZM3R6hqKI22yev5-2giCPCCdLc,2049
+cpgmodule/data/Horvath_2013.pkl,sha256=qwP614VYmmaESKanQ680sYgaHSWJrP73im_f5duzKgU,8313
+cpgmodule/data/Horvath_2018.pkl,sha256=IQcFNIg-z-Mrq8vEoHI509c64Dt1wtyHInU9YwsYP-w,9225
+cpgmodule/data/Levine.pkl,sha256=OhasOuEAvbDblZfGGFmu82kDqdo5CQ2DjZ8hfCofhvI,11751
+cpgmodule/data/Lu_DNAmTL.pkl,sha256=SdjT9x8A0GbnKoMlDhgslmmINJ8e5Asyk9KQlw_EtJo,3548
+cpgmodule/data/Ped_McEwen.pkl,sha256=-hxOAqFUxORmPLV_FKYZxjOFtabxPzbbzfY6JTitq8k,2654
+cpgmodule/data/Ped_Wu.pkl,sha256=gjXtpdpQ8QVJs1I6UM-VPAvQjNd-JDoy5DzDL-gP-Cg,2924
+cpgmodule/data/Zhang_BLUP.pkl,sha256=dpH0L3qTxMAJ50XtTeNMmqx1khZkZyrH204E37fE37E,7038226
+cpgmodule/data/Zhang_EN.pkl,sha256=RFEOmBQGXZvIwQ7tOYT8itOPU87V2Y02vJA2PfY6TnI,11844
 cpgmodule/data/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-cpgtools-2.0.2.data/scripts/CpG_aggregation.py,sha256=iSSUanCPlTkT3f6Df_f_b6zEP2Ixzse9zFwJLL5z2Qw,7278
-cpgtools-2.0.2.data/scripts/CpG_anno_position.py,sha256=j8l4v7SpGFaJ3pBVE5qK8coMkxe5h4p1bwmhcPnhxMk,4643
-cpgtools-2.0.2.data/scripts/CpG_anno_probe.py,sha256=bACac7x9zX2E1QJnUUmNKS6YNKg_f4K-jxwl_v93--4,3171
-cpgtools-2.0.2.data/scripts/CpG_density_gene_centered.py,sha256=JM2PrvHCnGAvymBbbIBr30AfXwu69WgJkJNy6PCmCrg,5266
-cpgtools-2.0.2.data/scripts/CpG_distrb_chrom.py,sha256=q3xZ1AH4JEif1DQRG6UXiiUb4jZyt2khzTZld1jaXnA,6207
-cpgtools-2.0.2.data/scripts/CpG_distrb_gene_centered.py,sha256=tLfalDRzklBcNfZxhABjhprcBlk4HgUyxXxznOGVTN8,7736
-cpgtools-2.0.2.data/scripts/CpG_distrb_region.py,sha256=nJGgZLhZe2kYCPnxuW--EemxOcoReu2hdkIAgl-7UAE,5391
-cpgtools-2.0.2.data/scripts/CpG_logo.py,sha256=U8RxYPmakKii1xmEgG22tKfdZBPpjhZbAfKxgF_Z-O8,4597
-cpgtools-2.0.2.data/scripts/CpG_to_gene.py,sha256=fciNtI5N6fO-jZX2eyKgiAhDIsus4SljYSCbEQMeTHI,6114
-cpgtools-2.0.2.data/scripts/beta_PCA.py,sha256=cRlqGC5CQlpsmzhAwy2AoI4_lLwjFh_rvn7ObNbHgYg,7155
-cpgtools-2.0.2.data/scripts/beta_UMAP.py,sha256=SJfxtCsM1NTK5rYnZjtXiDj_x1kJiYZvR1NGHKo0IRI,8079
-cpgtools-2.0.2.data/scripts/beta_imputation.py,sha256=o7wM_iHFwhxjRAMQ5_fCxgAfO9VYe48O9dY4BeZF2wA,28928
-cpgtools-2.0.2.data/scripts/beta_jitter_plot.py,sha256=Knja1n1rpD0qe3FHkNPax0p6BYsmAtEQBFB1wBdpHyY,4389
-cpgtools-2.0.2.data/scripts/beta_m_conversion.py,sha256=992tJI0IzkphUaEr_9_CveSRPjKdnyYkCTO10D_xkbg,2848
-cpgtools-2.0.2.data/scripts/beta_profile_gene_centered.py,sha256=Jb9mm8y-1cKH_EepRFhUH5mfBdoAt0zpN_VXETRnQek,7312
-cpgtools-2.0.2.data/scripts/beta_profile_region.py,sha256=GHDPyUFR9XJm2CK0_9wCKossMTWWvn4VwYCCSA8kn2E,5971
-cpgtools-2.0.2.data/scripts/beta_selectNBest.py,sha256=Uu_MvQUm6Zc8MGKuGUEooJ-IL7C1eg_LNRqQsNdLaWs,4638
-cpgtools-2.0.2.data/scripts/beta_stacked_barplot.py,sha256=2fcypD_BE4XqK-vl8hHsgyWqvp3I9oLvg8tF2dd5QZ0,3415
-cpgtools-2.0.2.data/scripts/beta_stats.py,sha256=WBh3Aquk_AHeUcteLPtt2Q2yKpqu5aBA38zaFz_7mVI,3021
-cpgtools-2.0.2.data/scripts/beta_tSNE.py,sha256=0UTxNxyaDb-iNqbeIfFKj9DRURTQcHeJdltr-iY72XM,8450
-cpgtools-2.0.2.data/scripts/beta_topN.py,sha256=gmbmJZoGJt3QljlRHUA8LaKSIurdCNgtn2J9LAIQNCo,3914
-cpgtools-2.0.2.data/scripts/beta_trichotmize.py,sha256=T594UfSCDJHRFyGvov7qetLQs10WU73PGVVCDNrwNPg,7143
-cpgtools-2.0.2.data/scripts/dmc_Bayes.py,sha256=imqKv5x8s_plXQPL3_d9OpqSI-imrSfUj-k39Zf1XqA,13735
-cpgtools-2.0.2.data/scripts/dmc_bb.py,sha256=pOEEHT-hT--r6IswZwQFyGri77OJqbW1y9VVG8pzzpg,8407
-cpgtools-2.0.2.data/scripts/dmc_fisher.py,sha256=t18smNJAtipmDm3xgUg62ccKsFQWcdKBo4Tm2cxx43s,5163
-cpgtools-2.0.2.data/scripts/dmc_glm.py,sha256=_vJiZhbGA-Rv5v5oBU9N9lGND8MTEVAFHHFqW5hgfSw,6516
-cpgtools-2.0.2.data/scripts/dmc_logit.py,sha256=V35wyBgcdiUbsR_NDnEDfs6F2yPyz11ryZvYkkV6Ess,8488
-cpgtools-2.0.2.data/scripts/dmc_nonparametric.py,sha256=eFyUy7jXl8bPyySKZLEi3LVxYkDOKp9S4XBXevYvbVw,4945
-cpgtools-2.0.2.data/scripts/dmc_ttest.py,sha256=jOW0el_NeJlBuF91wKN2UHnu7phoP0OPrKCNCaOAQBs,6704
-cpgtools-2.0.2.data/scripts/predict_sex.py,sha256=ojoMJ6XwBsE1kGpxzKGZ4TZPs5JcUwI_C_9ieEQbB9c,4755
+cpgtools-2.0.3.data/scripts/CpG_aggregation.py,sha256=iSSUanCPlTkT3f6Df_f_b6zEP2Ixzse9zFwJLL5z2Qw,7278
+cpgtools-2.0.3.data/scripts/CpG_anno_position.py,sha256=j8l4v7SpGFaJ3pBVE5qK8coMkxe5h4p1bwmhcPnhxMk,4643
+cpgtools-2.0.3.data/scripts/CpG_anno_probe.py,sha256=bACac7x9zX2E1QJnUUmNKS6YNKg_f4K-jxwl_v93--4,3171
+cpgtools-2.0.3.data/scripts/CpG_density_gene_centered.py,sha256=JM2PrvHCnGAvymBbbIBr30AfXwu69WgJkJNy6PCmCrg,5266
+cpgtools-2.0.3.data/scripts/CpG_distrb_chrom.py,sha256=q3xZ1AH4JEif1DQRG6UXiiUb4jZyt2khzTZld1jaXnA,6207
+cpgtools-2.0.3.data/scripts/CpG_distrb_gene_centered.py,sha256=tLfalDRzklBcNfZxhABjhprcBlk4HgUyxXxznOGVTN8,7736
+cpgtools-2.0.3.data/scripts/CpG_distrb_region.py,sha256=nJGgZLhZe2kYCPnxuW--EemxOcoReu2hdkIAgl-7UAE,5391
+cpgtools-2.0.3.data/scripts/CpG_logo.py,sha256=U8RxYPmakKii1xmEgG22tKfdZBPpjhZbAfKxgF_Z-O8,4597
+cpgtools-2.0.3.data/scripts/CpG_to_gene.py,sha256=fciNtI5N6fO-jZX2eyKgiAhDIsus4SljYSCbEQMeTHI,6114
+cpgtools-2.0.3.data/scripts/beta_PCA.py,sha256=cRlqGC5CQlpsmzhAwy2AoI4_lLwjFh_rvn7ObNbHgYg,7155
+cpgtools-2.0.3.data/scripts/beta_UMAP.py,sha256=SJfxtCsM1NTK5rYnZjtXiDj_x1kJiYZvR1NGHKo0IRI,8079
+cpgtools-2.0.3.data/scripts/beta_jitter_plot.py,sha256=Knja1n1rpD0qe3FHkNPax0p6BYsmAtEQBFB1wBdpHyY,4389
+cpgtools-2.0.3.data/scripts/beta_m_conversion.py,sha256=992tJI0IzkphUaEr_9_CveSRPjKdnyYkCTO10D_xkbg,2848
+cpgtools-2.0.3.data/scripts/beta_profile_gene_centered.py,sha256=Jb9mm8y-1cKH_EepRFhUH5mfBdoAt0zpN_VXETRnQek,7312
+cpgtools-2.0.3.data/scripts/beta_profile_region.py,sha256=GHDPyUFR9XJm2CK0_9wCKossMTWWvn4VwYCCSA8kn2E,5971
+cpgtools-2.0.3.data/scripts/beta_selectNBest.py,sha256=Uu_MvQUm6Zc8MGKuGUEooJ-IL7C1eg_LNRqQsNdLaWs,4638
+cpgtools-2.0.3.data/scripts/beta_stacked_barplot.py,sha256=2fcypD_BE4XqK-vl8hHsgyWqvp3I9oLvg8tF2dd5QZ0,3415
+cpgtools-2.0.3.data/scripts/beta_stats.py,sha256=WBh3Aquk_AHeUcteLPtt2Q2yKpqu5aBA38zaFz_7mVI,3021
+cpgtools-2.0.3.data/scripts/beta_tSNE.py,sha256=0UTxNxyaDb-iNqbeIfFKj9DRURTQcHeJdltr-iY72XM,8450
+cpgtools-2.0.3.data/scripts/beta_topN.py,sha256=gmbmJZoGJt3QljlRHUA8LaKSIurdCNgtn2J9LAIQNCo,3914
+cpgtools-2.0.3.data/scripts/beta_trichotmize.py,sha256=T594UfSCDJHRFyGvov7qetLQs10WU73PGVVCDNrwNPg,7143
+cpgtools-2.0.3.data/scripts/dmc_Bayes.py,sha256=imqKv5x8s_plXQPL3_d9OpqSI-imrSfUj-k39Zf1XqA,13735
+cpgtools-2.0.3.data/scripts/dmc_bb.py,sha256=pOEEHT-hT--r6IswZwQFyGri77OJqbW1y9VVG8pzzpg,8407
+cpgtools-2.0.3.data/scripts/dmc_fisher.py,sha256=t18smNJAtipmDm3xgUg62ccKsFQWcdKBo4Tm2cxx43s,5163
+cpgtools-2.0.3.data/scripts/dmc_glm.py,sha256=_vJiZhbGA-Rv5v5oBU9N9lGND8MTEVAFHHFqW5hgfSw,6516
+cpgtools-2.0.3.data/scripts/dmc_logit.py,sha256=V35wyBgcdiUbsR_NDnEDfs6F2yPyz11ryZvYkkV6Ess,8488
+cpgtools-2.0.3.data/scripts/dmc_nonparametric.py,sha256=eFyUy7jXl8bPyySKZLEi3LVxYkDOKp9S4XBXevYvbVw,4945
+cpgtools-2.0.3.data/scripts/dmc_ttest.py,sha256=DDmWi1udo1gqOAQvFTeRxhIJuAgEmakSNU7P4LKTT7U,6786
+cpgtools-2.0.3.data/scripts/predict_missing.py,sha256=pNSfOD9i7LNLG9BGa80W2-bsCi6qcUlIwoiLnBLbPlo,32465
+cpgtools-2.0.3.data/scripts/predict_sex.py,sha256=ojoMJ6XwBsE1kGpxzKGZ4TZPs5JcUwI_C_9ieEQbB9c,4755
 impyute/__init__.py,sha256=Q07nw2fDjLm_c3EQWMpSo8nZCfC-fvs2lpRG5uha-gg,87
 impyute/contrib/__init__.py,sha256=DgGgN0iBoMfHjzr9edz-ZgtJ2KeyIDlyV1t8hxhcM2c,209
 impyute/contrib/compare.py,sha256=psWygE7PD4Cky4MoTJLAgjaEkTXwqemv3NTKkKVaapo,2852
@@ -62,7 +81,7 @@ impyute/ops/error.py,sha256=lyXJcIDyfdrj_JJbsEI18z-t4UKi1mpLTyt3iS2YvTs,226
 impyute/ops/inverse_distance_weighting.py,sha256=88hmyc-dWltP66MbjrW-VHBcVgPOI0V0BkrV30B-Lyc,1017
 impyute/ops/matrix.py,sha256=-eniwqvbvwXNrYw8PmIMD95uMcPMq6HE6OBOyjzR-Vk,837
 impyute/ops/testing.py,sha256=3ZRVL1sc5IIQLPW2GrD6-lF4_nVnSLo7SBW4rfaOMLA,415
-impyute/ops/util.py,sha256=Tcm8reCrWQf8btKRP5StawBL1UV_GOBWmzy1NYDcPbY,2204
+impyute/ops/util.py,sha256=167Xpwib86kT09-pZnJg-VhyVD9r-z7Gkd_L42A2-EY,2838
 impyute/ops/wrapper.py,sha256=bQj3r9WsZxqNw51y3OobyyXPPxCeISUv2jb-Ga2C_-M,6022
 impyute/ts/__init__.py,sha256=veePCYSBfo1t5Ahh3wrVCNveizcniXZYhjyS7ahkIhI,145
 impyute/ts/locf.py,sha256=qusLWfBrepKzFIkeGxIS0S5KnqRgZde2CV6mcF5nf4c,1876
@@ -75,8 +94,8 @@ missingpy/utils.py,sha256=sMU4OGHPvRgReT8e_HqGCYvjAJZkE_qlAPDzLo-_M6U,4360
 missingpy/tests/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 missingpy/tests/test_knnimpute.py,sha256=rR1OPZ4-IzcIKgWmSEN7UEPvVSRwJe0KU_wTxPr46k0,17527
 missingpy/tests/test_missforest.py,sha256=5YfKZf_xdy9RcXmnlFz7cJDqdnspJDzzrxLnVVWJi3A,13725
-cpgtools-2.0.2.dist-info/LICENSE,sha256=NAIE1kmjlmRNJ1BwR9m9i0jXHmQqqujTnEyIBuIxvwM,1074
-cpgtools-2.0.2.dist-info/METADATA,sha256=EfdjaKSMi75Wo041GCIx9gd9JjFf7rULeCkAhw2uuqY,2943
-cpgtools-2.0.2.dist-info/WHEEL,sha256=GV9aMThwP_4oNCtvEC2ec3qUYutgWeAzklro_0m4WJQ,91
-cpgtools-2.0.2.dist-info/top_level.txt,sha256=L6IX1ORvZ1JssvdU8qOtU99-vbMK9ZSIgYg4zH-rL5Y,28
-cpgtools-2.0.2.dist-info/RECORD,,
+cpgtools-2.0.3.dist-info/LICENSE,sha256=NAIE1kmjlmRNJ1BwR9m9i0jXHmQqqujTnEyIBuIxvwM,1074
+cpgtools-2.0.3.dist-info/METADATA,sha256=N1FqwvSLFmK2DvVyYY4oHcqbo6Vj1B4ii48vESlNPkU,2943
+cpgtools-2.0.3.dist-info/WHEEL,sha256=R06PA3UVYHThwHvxuRWMqaGcr-PuniXahwjmQRFMEkY,91
+cpgtools-2.0.3.dist-info/top_level.txt,sha256=L6IX1ORvZ1JssvdU8qOtU99-vbMK9ZSIgYg4zH-rL5Y,28
+cpgtools-2.0.3.dist-info/RECORD,,

{cpgtools-2.0.2.dist-info → cpgtools-2.0.3.dist-info}/WHEEL RENAMED Viewed

@@ -1,5 +1,5 @@
 Wheel-Version: 1.0
-Generator: setuptools (75.1.0)
+Generator: setuptools (75.5.0)
 Root-Is-Purelib: true
 Tag: py3-none-any

impyute/ops/util.py CHANGED Viewed

@@ -41,20 +41,40 @@ def execute_fn_with_args_and_or_kwargs(fn, args, kwargs):
     except TypeError:
         return fn(*args)
-def toy_df(nrow, ncol, n_miss, sample_prefix, seed):
-    """
-    Make a dataFrame (nrow x ncol) with random values between 0 and 1, add
-    some missing values (n_miss). Generate a toy dataframe for testing purposes.
-    """
-    np.random.seed(seed)
-    data = np.random.rand(nrow*ncol).reshape((nrow, ncol)).astype(float)
-    x_ind = np.random.choice(nrow, n_miss)
-    y_ind = np.random.choice(ncol, n_miss)
-    for x,y in zip(x_ind, y_ind):
-        data[x][y] =  np.nan
-    colNames = [sample_prefix + '_' + str(i) for i in range(0,ncol)]
-    df = pd.DataFrame(data, columns=colNames)
-    return df
+def toy_df(n_rows=20, n_cols=5, missingness=0.2, min_val=0, max_val=1,
+              missing_value=np.nan, rand_seed=1234, sample_prefix=None):
+    """Generate an array or DataFrame with NaNs"""
+    np.random.seed(rand_seed)
+    X = np.random.uniform(
+        low = min_val, high = max_val, size = n_rows * n_cols).reshape(n_rows, n_cols).astype(
+        float)
+    # check missingness
+    if missingness > 0:
+        # If missingness >= 1 then use it as approximate (see below) count
+        if missingness >= 1:
+            n_missing = int(missingness)
+        else:
+            n_missing = int(missingness * n_rows * n_cols)
+            print(n_missing)
+    # Introduce NaNs until n_miss "NAs" are inserted.
+    missing_count = 0
+    for i,j in zip(np.random.choice(n_rows, n_missing), np.random.choice(n_cols, n_missing)):
+        if np.isnan(X[i][j]):
+            continue
+        else:
+            X[i][j] = missing_value
+            missing_count += 1
+        if missing_count >= n_missing:
+            break
+    # check sample_prefix
+    if sample_prefix is None:
+        return X
+    else:
+        colNames = [sample_prefix + '_' + str(i) for i in range(0, n_cols)]
+        return pd.DataFrame(X, columns=colNames)
 def insert_na(df, n_miss, seed):
     np.random.seed(seed)

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/CpG_aggregation.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/CpG_anno_position.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/CpG_anno_probe.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/CpG_density_gene_centered.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/CpG_distrb_chrom.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/CpG_distrb_gene_centered.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/CpG_distrb_region.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/CpG_logo.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/CpG_to_gene.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/beta_PCA.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/beta_UMAP.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/beta_jitter_plot.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/beta_m_conversion.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/beta_profile_gene_centered.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/beta_profile_region.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/beta_selectNBest.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/beta_stacked_barplot.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/beta_stats.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/beta_tSNE.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/beta_topN.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/beta_trichotmize.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/dmc_Bayes.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/dmc_bb.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/dmc_fisher.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/dmc_glm.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/dmc_logit.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/dmc_nonparametric.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.data → cpgtools-2.0.3.data}/scripts/predict_sex.py RENAMED Viewed

File without changes

{cpgtools-2.0.2.dist-info → cpgtools-2.0.3.dist-info}/LICENSE RENAMED Viewed

File without changes

{cpgtools-2.0.2.dist-info → cpgtools-2.0.3.dist-info}/top_level.txt RENAMED Viewed

File without changes

cpgtools 2.0.2__py3-none-any.whl → 2.0.3__py3-none-any.whl

Potentially problematic release.

cpgtools 2.0.2py3-none-any.whl → 2.0.3py3-none-any.whl