PyPI - cpgtools - Versions diffs - 1.12.0__py3-none-any.whl → 2.0.2__py3-none-any.whl - Mend

cpgtools 1.12.0py3-none-any.whl → 2.0.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of cpgtools might be problematic. Click here for more details.

Files changed (77) hide show

cpgmodule/_version.py +1 -0
cpgmodule/data/__init__.py +0 -0
cpgmodule/methylClock.py +53 -0
cpgmodule/utils.py +38 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_aggregation.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_anno_position.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_anno_probe.py +6 -4
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_density_gene_centered.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_distrb_chrom.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_distrb_gene_centered.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_distrb_region.py +1 -3
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_logo.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_to_gene.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_PCA.py +31 -23
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_UMAP.py +29 -22
cpgtools-2.0.2.data/scripts/beta_imputation.py +604 -0
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_jitter_plot.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_m_conversion.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_profile_gene_centered.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_profile_region.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_selectNBest.py +9 -6
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_stacked_barplot.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_stats.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_tSNE.py +31 -24
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_topN.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_trichotmize.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_Bayes.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_bb.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_fisher.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_glm.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_logit.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_nonparametric.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_ttest.py +3 -3
cpgtools-2.0.2.data/scripts/predict_sex.py +126 -0
cpgtools-2.0.2.dist-info/LICENSE +19 -0
cpgtools-2.0.2.dist-info/METADATA +76 -0
cpgtools-2.0.2.dist-info/RECORD +82 -0
{cpgtools-1.12.0.dist-info → cpgtools-2.0.2.dist-info}/WHEEL +1 -1
cpgtools-2.0.2.dist-info/top_level.txt +3 -0
impyute/__init__.py +3 -0
impyute/contrib/__init__.py +7 -0
impyute/contrib/compare.py +69 -0
impyute/contrib/count_missing.py +30 -0
impyute/contrib/describe.py +63 -0
impyute/cs/__init__.py +11 -0
impyute/cs/buck_iterative.py +82 -0
impyute/cs/central_tendency.py +84 -0
impyute/cs/em.py +52 -0
impyute/cs/fast_knn.py +130 -0
impyute/cs/random.py +27 -0
impyute/dataset/__init__.py +6 -0
impyute/dataset/base.py +137 -0
impyute/dataset/corrupt.py +55 -0
impyute/deletion/__init__.py +5 -0
impyute/deletion/complete_case.py +21 -0
impyute/ops/__init__.py +12 -0
impyute/ops/error.py +9 -0
impyute/ops/inverse_distance_weighting.py +31 -0
impyute/ops/matrix.py +47 -0
impyute/ops/testing.py +20 -0
impyute/ops/util.py +76 -0
impyute/ops/wrapper.py +179 -0
impyute/ts/__init__.py +6 -0
impyute/ts/locf.py +57 -0
impyute/ts/moving_window.py +128 -0
missingpy/__init__.py +4 -0
missingpy/knnimpute.py +328 -0
missingpy/missforest.py +556 -0
missingpy/pairwise_external.py +315 -0
missingpy/tests/__init__.py +0 -0
missingpy/tests/test_knnimpute.py +605 -0
missingpy/tests/test_missforest.py +409 -0
missingpy/utils.py +124 -0
cpgtools-1.12.0.dist-info/LICENSE.txt +0 -674
cpgtools-1.12.0.dist-info/METADATA +0 -30
cpgtools-1.12.0.dist-info/RECORD +0 -43
cpgtools-1.12.0.dist-info/top_level.txt +0 -2

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_selectNBest.py RENAMED Viewed

@@ -18,6 +18,7 @@ cg_003	0.845065	0.843957	0.840184	0.824286
 import sys
 import numpy as np
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule.utils import *
 import pandas as pd
@@ -28,7 +29,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"
@@ -40,8 +40,8 @@ def main():
 	parser = OptionParser(usage,version="%prog " + __version__)
 	parser.add_option("-i","--input_file",action="store",type="string",dest="input_file",help="Tab-separated data frame file containing beta values with the 1st row containing sample IDs and the 1st column containing CpG IDs.")
 	parser.add_option("-g","--group",action="store",type="string",dest="group_file",help="Comma-separated group file defining the biological groups of each sample.")
-	parser.add_option("-k","--topK",action="store",type='int', dest="cpg_count", default=100, help="Number of top features to select. default=%default" )
-	parser.add_option("-s","--score-function",action="store",type='string', dest="score_function", default='chi2', help="Scoring function used to measure the dependency between features scores and labels. Must be \"chisq\" (chi-squared statistic), \"anova\" (ANOVA F-value), or \"mutual_info\" (mutual information). default=%default" )
+	parser.add_option("-c","--topK",action="store",type='int', dest="cpg_count", default=100, help="Number of top features to select. default=%default" )
+	parser.add_option("-s","--score-function",action="store",type='string', dest="score_function", default='chisq', help="Scoring function used to measure the dependency between features scores and labels. Must be \"chisq\" (chi-squared statistic), \"anova\" (ANOVA F-value), or \"mi\" (mutual information). default=%default" )
 	parser.add_option("-o","--output",action="store",type='string', dest="out_file",help="The prefix of the output file.")
 	(options,args)=parser.parse_args()
@@ -77,7 +77,7 @@ def main():
 	printlog("Reading group file: \"%s\"" % (options.group_file))
 	group = pd.read_csv(options.group_file, index_col=0, header=0,names=['Sample_ID', 'Group_ID'])
-	a = list(group['Group_ID'])	#a is *string labels* for groups: ['Normal', 'Normal', 'Normal', 'Normal', 'Normal', 'Cancer', 'Cancer', 'Cancer', 'Cancer']
+	a = pd.Series(list(group['Group_ID']))	#a is *string labels* for groups: ['Normal', 'Normal', 'Normal', 'Normal', 'Normal', 'Cancer', 'Cancer', 'Cancer', 'Cancer']
 	#print (a)
 	y, tmp = pd.factorize(a)	#y is *numeric labels* for groups: [0 0 0 0 0 1 1 1 1]
 	#print (np.array(y))
@@ -87,12 +87,15 @@ def main():
 		if options.score_function == 'anova':
 			printlog ("Using ANOVA F value to select features ...")
 			selector = SelectKBest(f_classif, k = options.cpg_count)
-		elif options.score_function == 'mutual_info':
+		elif options.score_function == 'mi':
 			printlog ("Using Mutual Information to select features ...")
 			selector = SelectKBest(mutual_info_classif, k = options.cpg_count)
-		else:
+		elif options.score_function == 'chisq':
 			printlog ("Using Chi Square statistic to select features ...")
 			selector = SelectKBest(chi2, k = options.cpg_count)
+		else:
+			printlog("Unknown function: %s" % options.score_function)
+			sys.exit(0)
 	else:
 		printlog("Doing nothing! '-k' >= the total number of features in \"%s\"" % (options.input_file))
 		sys.exit(0)

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_stacked_barplot.py RENAMED Viewed

@@ -28,6 +28,7 @@ import collections
 import subprocess
 import numpy as np
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
@@ -37,7 +38,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_stats.py RENAMED Viewed

@@ -25,6 +25,7 @@ import collections
 import subprocess
 import numpy as np
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
@@ -33,7 +34,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_tSNE.py RENAMED Viewed

@@ -33,6 +33,7 @@ import sys
 import subprocess
 from optparse import OptionParser
 from cpgmodule.utils import *
+from cpgmodule._version import __version__
 import pandas as pd
 from sklearn.preprocessing import StandardScaler
 from sklearn.manifold import TSNE
@@ -41,15 +42,15 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"
 def pick_colors(n):
-	my_colors = ['#e6194B', '#3cb44b', '#4363d8', '#f58231', '#911eb4', '#42d4f4', '#f032e6', '#bfef45', '#fabebe', '#469990', '#e6beff', '#9A6324', '#fffac8', '#800000', '#aaffc3', '#808000', '#ffd8b1', '#000075', '#a9a9a9','#ffe119']
+	my_colors = [
+	"#F0A3FF", "#0075DC", "#993F00", "#4C005C", "#191919", "#005C31", "#2BCE48", "#FFCC99", "#808080", "#94FFB5", "#8F7C00", "#9DCC00", "#C20088", "#003380", "#FFA405", "#FFA8BB", "#426600", "#FF0010", "#5EF1F2", "#00998F", "#E0FF66", "#740AFF", "#990000", "#FFFF80", "#FFE100", "#FF5005"]
 	if n > len(my_colors):
-		print ("Only support 21 different colors", file = sys.stderr)
+		print ("Only support 26 different colors", file = sys.stderr)
 		sys.exit()
 	return my_colors[0:n]
@@ -99,27 +100,31 @@ def main():
 		printlog("Perplexigty value is set to %d" % options.perplexity_value)
 	#remove NA and transpose
-	df2 = df1.dropna(axis=0, how='any')
-	printlog("%d rows with missing values were removed." % (len(df1) - len(df2)))
+	df2 = df1.dropna(axis=0, how='any').T
+	printlog("%d rows with missing values were removed." % (len(df1.index) - len(df2.columns)))
 	#print (df2.head())
-	printlog("Transposing data frame ...")
-	df2 = df2.T
-	#print (df2.index)
-	printlog("Standarizing values ...")
-	x = df2.values
-	x = StandardScaler().fit_transform(x)
-	#print (x.shape)
 	printlog("Reading group file: \"%s\" ..." % (options.group_file))
 	group = pd.read_csv(options.group_file, index_col=0, header=0,names=['Sample_ID', 'Group_ID'])
-	group.index = group.index.map(str)
 	#check if sample IDs are unique
 	if len(group.index) != len(group.index.unique()):
 		print ("Sample IDs are not unique", file = sys.stderr)
-		sys.exit()
+		sys.exit()
+	group.index = group.index.map(str)
+	printlog("Group file \"%s\" contains %d samples" % (options.group_file, len(group.index)))
+	printlog("Find common sample IDs between group file and data file ...")
+	common_samples = list(set(group.index) & set(df2.index))
+	used_df = df2.loc[common_samples]
+	(usable_sample, usable_cpg) = used_df.shape
+	printlog("Used CpGs: %d, Used samples: %d" % (usable_cpg, usable_sample))
+	printlog("Standarizing values ...")
+	x = used_df.to_numpy()
+	x = StandardScaler().fit_transform(x)
 	group_names = group['Group_ID'].unique().tolist()	# a list of unique group names
 	color_names = pick_colors(len(group_names))	# a list of unique colors
 	group_to_col = dict(zip(group_names, color_names))
@@ -127,13 +132,13 @@ def main():
 	group['Colors'] = color_list
-	tsne = TSNE(n_components = options.n_components, random_state = 0, perplexity = options.perplexity_value, learning_rate = options.learning_rate, n_iter = options.n_iterations)
+	tsne = TSNE(n_components = options.n_components, random_state = 0, perplexity = options.perplexity_value, learning_rate = options.learning_rate, max_iter = options.n_iterations)
 	tsne_components = tsne.fit_transform(x)
 	pc_names = [str(i)+str(j) for i,j in zip(['PC']*options.n_components,range(1,options.n_components+1))]
-	principalDf = pd.DataFrame(data = tsne_components, columns = pc_names, index = df2.index)
+	principalDf = pd.DataFrame(data = tsne_components, columns = pc_names, index = used_df.index)
 	principalDf.index.name = 'Sample_ID'
-	finalDf = pd.concat([principalDf, group], axis=1,sort=False)
+	finalDf = pd.concat([principalDf, group], axis=1,sort=False, join='inner')
 	finalDf.index.name = 'Sample_ID'
 	printlog("Writing t-SNE results to file: \"%s\" ..." % (options.out_file + '.t-SNE.tsv'))
@@ -149,10 +154,12 @@ def main():
 	if options.plot_alpha:
 		print ('library(scales)', file=ROUT)
-		print ('plot(PC1, PC2, col = alpha(Colors, %f), pch=%d, cex=1.5, main="t-SNE 2D map")' % (options.plot_alpha, pch[options.plot_char]), file=ROUT)
+		print ('plot(PC1, PC2, col = alpha(Colors, %f), pch=%d, cex=1.5, main="tSNE 2D map", xlab="tSNE1", ylab="tSNE2")'
+			% (options.plot_alpha, pch[options.plot_char]), file=ROUT)
 	else:
-		print ('plot(PC1, PC2, col = Colors, pch=%d, cex=1.2, main="t-SNE 2D map")' % pch[options.plot_char], file=ROUT)
-		#print ('plot(PC1, PC2, col = Colors, pch=%d, cex=1, main="t-SNE 2D map")' % pch[options.plot_char], file=ROUT)
+		print ('plot(PC1, PC2, col = Colors, pch=%d, cex=1.2, main="tSNE 2D map", xlab="tSNE1", ylab="tSNE2")'
+			% (pch[options.plot_char]), file=ROUT)
 	if options.text_label:
 		print ('text(PC1, PC2, labels=Sample_ID, col = Colors, cex=0.5, pos=1)', file=ROUT)
 	print ('legend("%s", legend=c(%s), col=c(%s), pch=%d,cex=1)' %  (legend_pos[options.legend_location], ','.join(['"' + str(i) + '"' for i in group_names]), ','.join(['"' + str(group_to_col[i]) + '"' for i in group_names]), pch[options.plot_char]), file=ROUT)

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_topN.py RENAMED Viewed

@@ -18,6 +18,7 @@ import collections
 import subprocess
 import numpy as np
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
@@ -27,7 +28,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_trichotmize.py RENAMED Viewed

@@ -18,6 +18,7 @@ import numpy as np
 from optparse import OptionParser
 from sklearn import mixture
 from time import strftime
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 import pandas as pd
@@ -26,7 +27,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_Bayes.py RENAMED Viewed

@@ -27,13 +27,13 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 from multiprocessing import Process, Manager, current_process
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_bb.py RENAMED Viewed

@@ -36,12 +36,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_fisher.py RENAMED Viewed

@@ -34,12 +34,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_glm.py RENAMED Viewed

@@ -18,12 +18,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_logit.py RENAMED Viewed

@@ -31,12 +31,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_nonparametric.py RENAMED Viewed

@@ -19,12 +19,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_ttest.py RENAMED Viewed

@@ -18,12 +18,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"
@@ -146,8 +146,8 @@ def main():
 			# check if sample ID matches
 			for s in s2g:
 				if s not in sample_IDs:
-					printlog("Cannot find sample ID \"%s\" from file \"%s\"" % (s, options.input_file))
-					sys.exit(3)
+					printlog("Cannot find sample ID \"%s\" from file \"%s\". Exclude this sample from differential analysis." % (s, options.input_file))
+					#sys.exit(3)
 		else:
 			g2values = collections.defaultdict(list)
 			probe_ID = f[0]

cpgtools-2.0.2.data/scripts/predict_sex.py ADDED Viewed

@@ -0,0 +1,126 @@
+#!python
+"""
+#==============================================================================
+Predict sex based on the semi-methylation (also known as genomic imprinting)
+ratio. This method leverages the fact that, due to X chromosome inactivation,
+females have a higher proportion of semi-methylated CpGs on their X chromosomes.
+A log2(ratio) greater than 0 indicates a female, while a log2(ratio) less than
+0 indicates a male.
+Example of input data file
+---------------------------
+CpG_ID    Sample_01    Sample_02    Sample_03    Sample_04
+cg_001    0.831035    0.878022    0.794427    0.880911
+cg_002    0.249544    0.209949    0.234294    0.236680
+cg_003    0.845065    0.843957    0.840184    0.824286
+Example of output file
+----------------------
+Sample_ID    log2_SM_ratio    Predicted_sex
+Sample_01    -2.249628052954919      Male
+Sample_02    -2.2671726671830674     Male
+Sample_03    1.4530581933290616      Female
+Sample_04    1.4808015115356654      Female
+...
+"""
+import sys
+import numpy as np
+from optparse import OptionParser
+from cpgmodule.utils import printlog
+from cpgmodule import ireader
+import pandas as pd
+from cpgmodule._version import __version__
+__author__ = "Liguo Wang"
+__copyright__ = "Copyleft"
+__credits__ = []
+__license__ = "GPL"
+__maintainer__ = "Liguo Wang"
+__email__ = "wang.liguo@mayo.edu"
+__status__ = "Development"
+def main():
+    usage="%prog [options]" + "\n"
+    parser = OptionParser(usage,version="%prog " + __version__)
+    parser.add_option("-i","--input_file",action="store", type="string",dest="input_file", help="Tab-separated data frame file containing beta values with the 1st row containing sample IDs and the 1st column containing CpG IDs.")
+    parser.add_option("-x","--xprobe",action="store", type="string",dest="xprobe_file", help="File with CpG IDs mapped to the X chromosome, with one probe listed per row.")
+    parser.add_option("-c","--cut",action="store", type='float', dest="cutoff", default=0.0, help="The cutoff of log2(SM ratio) to determine the sex prediction. Log2(SM ratio) greater than this cutoff indicates a female, while a log2(ratio) less than this cutoff indicates a male. default=%default")
+    parser.add_option("-o","--output",action="store", type='string', dest="out_file", help="The prefix of the output file.")
+    (options,args)=parser.parse_args()
+    print ()
+    if not (options.input_file):
+        print (__doc__)
+        parser.print_help()
+        sys.exit(101)
+    if not (options.xprobe_file):
+        print (__doc__)
+        parser.print_help()
+        sys.exit(102)
+    if not (options.out_file):
+        print (__doc__)
+        parser.print_help()
+        sys.exit(103)
+    printlog("Reading X probes from: \"%s\"" % (options.xprobe_file))
+    x_cpgs = set()
+    for l in ireader.reader(options.xprobe_file):
+        l = l.strip()
+        if l.startswith('#'):
+            continue
+        x_cpgs.add(l)
+    printlog("Total %d X probes loaded." % len(x_cpgs))
+    printlog("Reading input file: \"%s\"" % (options.input_file))
+    df1 = pd.read_csv(options.input_file, index_col = 0, sep="\t")
+    #print (df1)
+    #remove any rows with NAs
+    df2 = df1.dropna(axis=0, how='any')
+    printlog("%d CpGs with missing values were removed." % (len(df1) - len(df2)))
+    #print (df2)
+    sample_cpg_ids = df2.index
+    sample_names = df2.columns
+    found_x_cpgs = list(x_cpgs & set(sample_cpg_ids))
+    printlog("Found %d CpGs located on the chrX from file: %s" % (len(found_x_cpgs), options.input_file))
+    # only X probes in df3
+    df3 = df2.loc[list(found_x_cpgs)]
+    #pd.DataFrame.to_csv(df3, options.out_file + '.tmp.tsv', sep="\t", index_label="sample")
+    low_beta_range = [0, 0.2]
+    mid_beta_range = [0.3, 0.7]
+    high_beta_range = [0.8, 1.0]
+    output = {}
+    for s in sample_names:
+        output[s] = {}
+        low_beta_count = pd.cut(df3[s], low_beta_range).count()
+        mid_beta_count = pd.cut(df3[s], mid_beta_range).count()
+        high_beta_count = pd.cut(df3[s], high_beta_range).count()
+        try:
+            ratio = np.log2(mid_beta_count/(low_beta_count + high_beta_count))
+        except:
+           ratio = np.nan
+        output[s]['log2_SM_ratio'] = ratio
+        if ratio > options.cutoff:
+            output[s]['Predicted_sex'] = 'Female'
+        elif ratio < options.cutoff:
+            output[s]['Predicted_sex'] = 'Male'
+        else:
+            output[s]['Predicted_sex'] = 'Unknown'
+    df_out = pd.DataFrame(output).T
+    outfile = options.out_file + '.predicted_sex.tsv'
+    printlog("Writing to file: \"%s\"" % outfile)
+    pd.DataFrame.to_csv(df_out, outfile, sep="\t", index_label="Sample_ID")
+if __name__=='__main__':
+    main()

cpgtools-2.0.2.dist-info/LICENSE ADDED Viewed

@@ -0,0 +1,19 @@
+Copyright (c) 2024 The Python Packaging Authority
+Permission is hereby granted, free of charge, to any person obtaining a copy
+of this software and associated documentation files (the "Software"), to deal
+in the Software without restriction, including without limitation the rights
+to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+copies of the Software, and to permit persons to whom the Software is
+furnished to do so, subject to the following conditions:
+The above copyright notice and this permission notice shall be included in all
+copies or substantial portions of the Software.
+THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+SOFTWARE.

cpgtools-2.0.2.dist-info/METADATA ADDED Viewed

@@ -0,0 +1,76 @@
+Metadata-Version: 2.1
+Name: cpgtools
+Version: 2.0.2
+Summary: Tools to analyze and visualize DNA methylation data
+Author-email: Liguo Wang <wangliguo78@gmail.com>
+Maintainer-email: Liguo Wang <wangliguo78@gmail.com>
+License: Copyright (c) 2024 The Python Packaging Authority
+        Permission is hereby granted, free of charge, to any person obtaining a copy
+        of this software and associated documentation files (the "Software"), to deal
+        in the Software without restriction, including without limitation the rights
+        to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
+        copies of the Software, and to permit persons to whom the Software is
+        furnished to do so, subject to the following conditions:
+        The above copyright notice and this permission notice shall be included in all
+        copies or substantial portions of the Software.
+        THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
+        IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
+        FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
+        AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
+        LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
+        OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
+        SOFTWARE.
+Project-URL: Documentation, https://cpgtools.readthedocs.io/en/latest/index.html
+Project-URL: Repository, https://github.com/liguowang/cpgtools.git
+Keywords: DNA methylation,EPIC,450K,850K,935K,RRBS,WGBS
+Classifier: Programming Language :: Python :: 3
+Classifier: Development Status :: 4 - Beta
+Classifier: License :: OSI Approved :: MIT License
+Classifier: Environment :: Console
+Classifier: Intended Audience :: Science/Research
+Classifier: Operating System :: MacOS :: MacOS X
+Classifier: Operating System :: POSIX
+Classifier: Topic :: Scientific/Engineering :: Bio-Informatics
+Requires-Python: >=3.5
+Description-Content-Type: text/markdown
+License-File: LICENSE
+Requires-Dist: numpy
+Requires-Dist: scipy
+Requires-Dist: scikit-learn
+Requires-Dist: weblogo
+Requires-Dist: bx-python
+Requires-Dist: pandas
+Requires-Dist: umap-learn
+Requires-Dist: fancyimpute
+## Install CpGtools using [pip](https://pip.pypa.io/en/stable/)
+1. (Optional) Create Virtual Environments (Note: `venv` is available in Python 3.3 and later. You can also use [virtualenv](https://packaging.python.org/en/latest/key_projects/#virtualenv))
+ `$ python3 -m venv my_env` (will create a directory called my_env)
+ `$ source my_env/bin/activate`
+2. Install CpGtools
+ `$ pip install cpgtools`
+ or
+ `$ pip install git+https://github.com/liguowang/cpgtools.git`
+3. Upgrade
+ `$ pip install cpgtools --upgrade`
+4. Uninstall
+ `pip -y uninstall cpgtools`
+## Documentation
+https://cpgtools.readthedocs.io/en/latest/

cpgtools-2.0.2.dist-info/RECORD ADDED Viewed

@@ -0,0 +1,82 @@
+cpgmodule/BED.py,sha256=ZNAhGZPFMFD4UpVwGTDOM0hMLnfXF52zerdMb21sH6s,12675
+cpgmodule/MI.py,sha256=pkUWzKXYeyRuGsGKZdFVxHzFWikkuJavdQ_4fsnN3U4,8649
+cpgmodule/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+cpgmodule/_version.py,sha256=tATvJM5shAzfspHYjdVwpV2w3-gDA119NlEYi5X2lFY,22
+cpgmodule/cgID.py,sha256=DLG5Djm6JP0d6MiFvP_keUXv_rYxESWrISuVClTs8kw,16017914
+cpgmodule/extend_bed.py,sha256=sjRxbRJFRumjYHwd6_AMTAYBG29yXQPYp1lDjTv2Q_Q,4648
+cpgmodule/imotif.py,sha256=j7_MQFnowGsVTGCRQHHLUnEzSD0HehZPEHKKZ68Jv24,9227
+cpgmodule/ireader.py,sha256=NRTdFnQvd1AEkYchfgvTVTixBVwUjn8xNyswc0OWU1Q,720
+cpgmodule/methylClock.py,sha256=HyMk3vpVwR3yrkLCPv9fVJs6JCeSchbJEBe7i69jdSs,1202
+cpgmodule/padjust.py,sha256=mvbQ9_crn_S39yvWrv_JPoU5OxZGHaw7cV3deBxTPdk,2389
+cpgmodule/region2gene.py,sha256=iuSYa2-ki-qbL1TqqAlTXGT7g-j1uNIA1y7hzMwVM2U,5347
+cpgmodule/utils.py,sha256=NgKT3aJlRT5pQKKO3_e0WB2_u93pY13F-k-r0pvgKno,16095
+cpgmodule/data/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+cpgtools-2.0.2.data/scripts/CpG_aggregation.py,sha256=iSSUanCPlTkT3f6Df_f_b6zEP2Ixzse9zFwJLL5z2Qw,7278
+cpgtools-2.0.2.data/scripts/CpG_anno_position.py,sha256=j8l4v7SpGFaJ3pBVE5qK8coMkxe5h4p1bwmhcPnhxMk,4643
+cpgtools-2.0.2.data/scripts/CpG_anno_probe.py,sha256=bACac7x9zX2E1QJnUUmNKS6YNKg_f4K-jxwl_v93--4,3171
+cpgtools-2.0.2.data/scripts/CpG_density_gene_centered.py,sha256=JM2PrvHCnGAvymBbbIBr30AfXwu69WgJkJNy6PCmCrg,5266
+cpgtools-2.0.2.data/scripts/CpG_distrb_chrom.py,sha256=q3xZ1AH4JEif1DQRG6UXiiUb4jZyt2khzTZld1jaXnA,6207
+cpgtools-2.0.2.data/scripts/CpG_distrb_gene_centered.py,sha256=tLfalDRzklBcNfZxhABjhprcBlk4HgUyxXxznOGVTN8,7736
+cpgtools-2.0.2.data/scripts/CpG_distrb_region.py,sha256=nJGgZLhZe2kYCPnxuW--EemxOcoReu2hdkIAgl-7UAE,5391
+cpgtools-2.0.2.data/scripts/CpG_logo.py,sha256=U8RxYPmakKii1xmEgG22tKfdZBPpjhZbAfKxgF_Z-O8,4597
+cpgtools-2.0.2.data/scripts/CpG_to_gene.py,sha256=fciNtI5N6fO-jZX2eyKgiAhDIsus4SljYSCbEQMeTHI,6114
+cpgtools-2.0.2.data/scripts/beta_PCA.py,sha256=cRlqGC5CQlpsmzhAwy2AoI4_lLwjFh_rvn7ObNbHgYg,7155
+cpgtools-2.0.2.data/scripts/beta_UMAP.py,sha256=SJfxtCsM1NTK5rYnZjtXiDj_x1kJiYZvR1NGHKo0IRI,8079
+cpgtools-2.0.2.data/scripts/beta_imputation.py,sha256=o7wM_iHFwhxjRAMQ5_fCxgAfO9VYe48O9dY4BeZF2wA,28928
+cpgtools-2.0.2.data/scripts/beta_jitter_plot.py,sha256=Knja1n1rpD0qe3FHkNPax0p6BYsmAtEQBFB1wBdpHyY,4389
+cpgtools-2.0.2.data/scripts/beta_m_conversion.py,sha256=992tJI0IzkphUaEr_9_CveSRPjKdnyYkCTO10D_xkbg,2848
+cpgtools-2.0.2.data/scripts/beta_profile_gene_centered.py,sha256=Jb9mm8y-1cKH_EepRFhUH5mfBdoAt0zpN_VXETRnQek,7312
+cpgtools-2.0.2.data/scripts/beta_profile_region.py,sha256=GHDPyUFR9XJm2CK0_9wCKossMTWWvn4VwYCCSA8kn2E,5971
+cpgtools-2.0.2.data/scripts/beta_selectNBest.py,sha256=Uu_MvQUm6Zc8MGKuGUEooJ-IL7C1eg_LNRqQsNdLaWs,4638
+cpgtools-2.0.2.data/scripts/beta_stacked_barplot.py,sha256=2fcypD_BE4XqK-vl8hHsgyWqvp3I9oLvg8tF2dd5QZ0,3415
+cpgtools-2.0.2.data/scripts/beta_stats.py,sha256=WBh3Aquk_AHeUcteLPtt2Q2yKpqu5aBA38zaFz_7mVI,3021
+cpgtools-2.0.2.data/scripts/beta_tSNE.py,sha256=0UTxNxyaDb-iNqbeIfFKj9DRURTQcHeJdltr-iY72XM,8450
+cpgtools-2.0.2.data/scripts/beta_topN.py,sha256=gmbmJZoGJt3QljlRHUA8LaKSIurdCNgtn2J9LAIQNCo,3914
+cpgtools-2.0.2.data/scripts/beta_trichotmize.py,sha256=T594UfSCDJHRFyGvov7qetLQs10WU73PGVVCDNrwNPg,7143
+cpgtools-2.0.2.data/scripts/dmc_Bayes.py,sha256=imqKv5x8s_plXQPL3_d9OpqSI-imrSfUj-k39Zf1XqA,13735
+cpgtools-2.0.2.data/scripts/dmc_bb.py,sha256=pOEEHT-hT--r6IswZwQFyGri77OJqbW1y9VVG8pzzpg,8407
+cpgtools-2.0.2.data/scripts/dmc_fisher.py,sha256=t18smNJAtipmDm3xgUg62ccKsFQWcdKBo4Tm2cxx43s,5163
+cpgtools-2.0.2.data/scripts/dmc_glm.py,sha256=_vJiZhbGA-Rv5v5oBU9N9lGND8MTEVAFHHFqW5hgfSw,6516
+cpgtools-2.0.2.data/scripts/dmc_logit.py,sha256=V35wyBgcdiUbsR_NDnEDfs6F2yPyz11ryZvYkkV6Ess,8488
+cpgtools-2.0.2.data/scripts/dmc_nonparametric.py,sha256=eFyUy7jXl8bPyySKZLEi3LVxYkDOKp9S4XBXevYvbVw,4945
+cpgtools-2.0.2.data/scripts/dmc_ttest.py,sha256=jOW0el_NeJlBuF91wKN2UHnu7phoP0OPrKCNCaOAQBs,6704
+cpgtools-2.0.2.data/scripts/predict_sex.py,sha256=ojoMJ6XwBsE1kGpxzKGZ4TZPs5JcUwI_C_9ieEQbB9c,4755
+impyute/__init__.py,sha256=Q07nw2fDjLm_c3EQWMpSo8nZCfC-fvs2lpRG5uha-gg,87
+impyute/contrib/__init__.py,sha256=DgGgN0iBoMfHjzr9edz-ZgtJ2KeyIDlyV1t8hxhcM2c,209
+impyute/contrib/compare.py,sha256=psWygE7PD4Cky4MoTJLAgjaEkTXwqemv3NTKkKVaapo,2852
+impyute/contrib/count_missing.py,sha256=KkCpYeuDP5jRxCcURJbne_k-7Zq1k31oq2aFHpqygx8,742
+impyute/contrib/describe.py,sha256=LI6Xage19-DEEDZVNqaaOjemRAVqVkSlH4mxjjubw-A,2033
+impyute/cs/__init__.py,sha256=ArkuAVHm0z4jl3_UK_FUBF8i2vZUvAZpfVFyryUTm18,373
+impyute/cs/buck_iterative.py,sha256=ceoQ2ij64pXHy7NszErTTRb9h2wctF0CMBexhc6YZSA,3009
+impyute/cs/central_tendency.py,sha256=xHwTVeDL-N-O5refvP536FiVEDODR7s-cgX2Ao9LsfI,2127
+impyute/cs/em.py,sha256=SwvVNMYK3llATR2r1baVCA0hy_fwJIkGD110du9Woos,1631
+impyute/cs/fast_knn.py,sha256=CI4RKMcrbXPi7izUtWo-lnq1BuLYwl8bvbx62dj8Qn0,6246
+impyute/cs/random.py,sha256=-Ti4BwMwUGdsciKTp8OVAgYK6TzGP-R4Nw62UY_xqAs,594
+impyute/dataset/__init__.py,sha256=GK-ktaf86PLZOUlO_oOhvc-55SX1YFLcpjcpgf7a87c,192
+impyute/dataset/base.py,sha256=bNYszhYP62fSeDe8w_Ij4yhEf-dv6NiNGcCdC22OkuY,4445
+impyute/dataset/corrupt.py,sha256=uGCnpofJWfWZYBucQMrwT9yOSpEQAaZSG010Jv6ks1I,1491
+impyute/deletion/__init__.py,sha256=ztemVB8Q6LRaxSv8DDdFzZlGUVUQbsVRA7gvcs_vMhM,124
+impyute/deletion/complete_case.py,sha256=2xBhqNOSmEeW-sBQvl3TVJCcf2Ybmkr8HXNk9xrQ2J0,395
+impyute/ops/__init__.py,sha256=ZP_rQQ0qATGEibUA9I8D1JfD1kRT2Xqw8SsOMPIddog,275
+impyute/ops/error.py,sha256=lyXJcIDyfdrj_JJbsEI18z-t4UKi1mpLTyt3iS2YvTs,226
+impyute/ops/inverse_distance_weighting.py,sha256=88hmyc-dWltP66MbjrW-VHBcVgPOI0V0BkrV30B-Lyc,1017
+impyute/ops/matrix.py,sha256=-eniwqvbvwXNrYw8PmIMD95uMcPMq6HE6OBOyjzR-Vk,837
+impyute/ops/testing.py,sha256=3ZRVL1sc5IIQLPW2GrD6-lF4_nVnSLo7SBW4rfaOMLA,415
+impyute/ops/util.py,sha256=Tcm8reCrWQf8btKRP5StawBL1UV_GOBWmzy1NYDcPbY,2204
+impyute/ops/wrapper.py,sha256=bQj3r9WsZxqNw51y3OobyyXPPxCeISUv2jb-Ga2C_-M,6022
+impyute/ts/__init__.py,sha256=veePCYSBfo1t5Ahh3wrVCNveizcniXZYhjyS7ahkIhI,145
+impyute/ts/locf.py,sha256=qusLWfBrepKzFIkeGxIS0S5KnqRgZde2CV6mcF5nf4c,1876
+impyute/ts/moving_window.py,sha256=G3Z4ohhqZXAVPflptuOhktwucbW3tg8FySb7gTtBraE,4991
+missingpy/__init__.py,sha256=H_yX0CtfoG2UaJPRcoZKv0AFhi4n-1hHmfIwfqQXoPk,96
+missingpy/knnimpute.py,sha256=WxniKg6-3pvwJa9mipiCZBqkRL_GGHUcxDu-7b57x3k,13456
+missingpy/missforest.py,sha256=UYRf2YANPwxvRPruN3P6xlhJ5JPZB1x8o4xVhYfIp74,24696
+missingpy/pairwise_external.py,sha256=XU_vW-rMCPD3aH9k0UrP_p90QUHDZqe3QZPoOQmu2vo,13221
+missingpy/utils.py,sha256=sMU4OGHPvRgReT8e_HqGCYvjAJZkE_qlAPDzLo-_M6U,4360
+missingpy/tests/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
+missingpy/tests/test_knnimpute.py,sha256=rR1OPZ4-IzcIKgWmSEN7UEPvVSRwJe0KU_wTxPr46k0,17527
+missingpy/tests/test_missforest.py,sha256=5YfKZf_xdy9RcXmnlFz7cJDqdnspJDzzrxLnVVWJi3A,13725
+cpgtools-2.0.2.dist-info/LICENSE,sha256=NAIE1kmjlmRNJ1BwR9m9i0jXHmQqqujTnEyIBuIxvwM,1074
+cpgtools-2.0.2.dist-info/METADATA,sha256=EfdjaKSMi75Wo041GCIx9gd9JjFf7rULeCkAhw2uuqY,2943
+cpgtools-2.0.2.dist-info/WHEEL,sha256=GV9aMThwP_4oNCtvEC2ec3qUYutgWeAzklro_0m4WJQ,91
+cpgtools-2.0.2.dist-info/top_level.txt,sha256=L6IX1ORvZ1JssvdU8qOtU99-vbMK9ZSIgYg4zH-rL5Y,28
+cpgtools-2.0.2.dist-info/RECORD,,

cpgtools 1.12.0__py3-none-any.whl → 2.0.2__py3-none-any.whl

Potentially problematic release.

cpgtools 1.12.0py3-none-any.whl → 2.0.2py3-none-any.whl