PyPI - cpgtools - Versions diffs - 2.0.0__py3-none-any.whl → 2.0.3__py3-none-any.whl - Mend

cpgtools 2.0.0py3-none-any.whl → 2.0.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of cpgtools might be problematic. Click here for more details.

Files changed (75) hide show

cpgmodule/_version.py +1 -0
cpgmodule/utils.py +35 -0
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_aggregation.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_anno_position.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_anno_probe.py +1 -2
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_density_gene_centered.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_distrb_chrom.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_distrb_gene_centered.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_distrb_region.py +1 -3
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_logo.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_to_gene.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_PCA.py +31 -23
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_UMAP.py +29 -22
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_jitter_plot.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_m_conversion.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_profile_gene_centered.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_profile_region.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_selectNBest.py +9 -6
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_stacked_barplot.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_stats.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_tSNE.py +31 -24
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_topN.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_trichotmize.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_Bayes.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_bb.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_fisher.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_glm.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_logit.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_nonparametric.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_ttest.py +6 -2
cpgtools-2.0.3.data/scripts/predict_missing.py +673 -0
cpgtools-2.0.3.data/scripts/predict_sex.py +126 -0
cpgtools-2.0.3.dist-info/LICENSE +19 -0
cpgtools-2.0.3.dist-info/METADATA +76 -0
cpgtools-2.0.3.dist-info/RECORD +101 -0
{cpgtools-2.0.0.dist-info → cpgtools-2.0.3.dist-info}/WHEEL +1 -1
cpgtools-2.0.3.dist-info/top_level.txt +3 -0
impyute/__init__.py +3 -0
impyute/contrib/__init__.py +7 -0
impyute/contrib/compare.py +69 -0
impyute/contrib/count_missing.py +30 -0
impyute/contrib/describe.py +63 -0
impyute/cs/__init__.py +11 -0
impyute/cs/buck_iterative.py +82 -0
impyute/cs/central_tendency.py +84 -0
impyute/cs/em.py +52 -0
impyute/cs/fast_knn.py +130 -0
impyute/cs/random.py +27 -0
impyute/dataset/__init__.py +6 -0
impyute/dataset/base.py +137 -0
impyute/dataset/corrupt.py +55 -0
impyute/deletion/__init__.py +5 -0
impyute/deletion/complete_case.py +21 -0
impyute/ops/__init__.py +12 -0
impyute/ops/error.py +9 -0
impyute/ops/inverse_distance_weighting.py +31 -0
impyute/ops/matrix.py +47 -0
impyute/ops/testing.py +20 -0
impyute/ops/util.py +96 -0
impyute/ops/wrapper.py +179 -0
impyute/ts/__init__.py +6 -0
impyute/ts/locf.py +57 -0
impyute/ts/moving_window.py +128 -0
missingpy/__init__.py +4 -0
missingpy/knnimpute.py +328 -0
missingpy/missforest.py +556 -0
missingpy/pairwise_external.py +315 -0
missingpy/tests/__init__.py +0 -0
missingpy/tests/test_knnimpute.py +605 -0
missingpy/tests/test_missforest.py +409 -0
missingpy/utils.py +124 -0
cpgtools-2.0.0.dist-info/LICENSE.txt +0 -674
cpgtools-2.0.0.dist-info/METADATA +0 -28
cpgtools-2.0.0.dist-info/RECORD +0 -64
cpgtools-2.0.0.dist-info/top_level.txt +0 -2

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_tSNE.py RENAMED Viewed

@@ -33,6 +33,7 @@ import sys
 import subprocess
 from optparse import OptionParser
 from cpgmodule.utils import *
+from cpgmodule._version import __version__
 import pandas as pd
 from sklearn.preprocessing import StandardScaler
 from sklearn.manifold import TSNE
@@ -41,15 +42,15 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"
 def pick_colors(n):
-	my_colors = ['#e6194B', '#3cb44b', '#4363d8', '#f58231', '#911eb4', '#42d4f4', '#f032e6', '#bfef45', '#fabebe', '#469990', '#e6beff', '#9A6324', '#fffac8', '#800000', '#aaffc3', '#808000', '#ffd8b1', '#000075', '#a9a9a9','#ffe119']
+	my_colors = [
+	"#F0A3FF", "#0075DC", "#993F00", "#4C005C", "#191919", "#005C31", "#2BCE48", "#FFCC99", "#808080", "#94FFB5", "#8F7C00", "#9DCC00", "#C20088", "#003380", "#FFA405", "#FFA8BB", "#426600", "#FF0010", "#5EF1F2", "#00998F", "#E0FF66", "#740AFF", "#990000", "#FFFF80", "#FFE100", "#FF5005"]
 	if n > len(my_colors):
-		print ("Only support 21 different colors", file = sys.stderr)
+		print ("Only support 26 different colors", file = sys.stderr)
 		sys.exit()
 	return my_colors[0:n]
@@ -99,27 +100,31 @@ def main():
 		printlog("Perplexigty value is set to %d" % options.perplexity_value)
 	#remove NA and transpose
-	df2 = df1.dropna(axis=0, how='any')
-	printlog("%d rows with missing values were removed." % (len(df1) - len(df2)))
+	df2 = df1.dropna(axis=0, how='any').T
+	printlog("%d rows with missing values were removed." % (len(df1.index) - len(df2.columns)))
 	#print (df2.head())
-	printlog("Transposing data frame ...")
-	df2 = df2.T
-	#print (df2.index)
-	printlog("Standarizing values ...")
-	x = df2.values
-	x = StandardScaler().fit_transform(x)
-	#print (x.shape)
 	printlog("Reading group file: \"%s\" ..." % (options.group_file))
 	group = pd.read_csv(options.group_file, index_col=0, header=0,names=['Sample_ID', 'Group_ID'])
-	group.index = group.index.map(str)
 	#check if sample IDs are unique
 	if len(group.index) != len(group.index.unique()):
 		print ("Sample IDs are not unique", file = sys.stderr)
-		sys.exit()
+		sys.exit()
+	group.index = group.index.map(str)
+	printlog("Group file \"%s\" contains %d samples" % (options.group_file, len(group.index)))
+	printlog("Find common sample IDs between group file and data file ...")
+	common_samples = list(set(group.index) & set(df2.index))
+	used_df = df2.loc[common_samples]
+	(usable_sample, usable_cpg) = used_df.shape
+	printlog("Used CpGs: %d, Used samples: %d" % (usable_cpg, usable_sample))
+	printlog("Standarizing values ...")
+	x = used_df.to_numpy()
+	x = StandardScaler().fit_transform(x)
 	group_names = group['Group_ID'].unique().tolist()	# a list of unique group names
 	color_names = pick_colors(len(group_names))	# a list of unique colors
 	group_to_col = dict(zip(group_names, color_names))
@@ -127,13 +132,13 @@ def main():
 	group['Colors'] = color_list
-	tsne = TSNE(n_components = options.n_components, random_state = 0, perplexity = options.perplexity_value, learning_rate = options.learning_rate, n_iter = options.n_iterations)
+	tsne = TSNE(n_components = options.n_components, random_state = 0, perplexity = options.perplexity_value, learning_rate = options.learning_rate, max_iter = options.n_iterations)
 	tsne_components = tsne.fit_transform(x)
 	pc_names = [str(i)+str(j) for i,j in zip(['PC']*options.n_components,range(1,options.n_components+1))]
-	principalDf = pd.DataFrame(data = tsne_components, columns = pc_names, index = df2.index)
+	principalDf = pd.DataFrame(data = tsne_components, columns = pc_names, index = used_df.index)
 	principalDf.index.name = 'Sample_ID'
-	finalDf = pd.concat([principalDf, group], axis=1,sort=False)
+	finalDf = pd.concat([principalDf, group], axis=1,sort=False, join='inner')
 	finalDf.index.name = 'Sample_ID'
 	printlog("Writing t-SNE results to file: \"%s\" ..." % (options.out_file + '.t-SNE.tsv'))
@@ -149,10 +154,12 @@ def main():
 	if options.plot_alpha:
 		print ('library(scales)', file=ROUT)
-		print ('plot(PC1, PC2, col = alpha(Colors, %f), pch=%d, cex=1.5, main="t-SNE 2D map")' % (options.plot_alpha, pch[options.plot_char]), file=ROUT)
+		print ('plot(PC1, PC2, col = alpha(Colors, %f), pch=%d, cex=1.5, main="tSNE 2D map", xlab="tSNE1", ylab="tSNE2")'
+			% (options.plot_alpha, pch[options.plot_char]), file=ROUT)
 	else:
-		print ('plot(PC1, PC2, col = Colors, pch=%d, cex=1.2, main="t-SNE 2D map")' % pch[options.plot_char], file=ROUT)
-		#print ('plot(PC1, PC2, col = Colors, pch=%d, cex=1, main="t-SNE 2D map")' % pch[options.plot_char], file=ROUT)
+		print ('plot(PC1, PC2, col = Colors, pch=%d, cex=1.2, main="tSNE 2D map", xlab="tSNE1", ylab="tSNE2")'
+			% (pch[options.plot_char]), file=ROUT)
 	if options.text_label:
 		print ('text(PC1, PC2, labels=Sample_ID, col = Colors, cex=0.5, pos=1)', file=ROUT)
 	print ('legend("%s", legend=c(%s), col=c(%s), pch=%d,cex=1)' %  (legend_pos[options.legend_location], ','.join(['"' + str(i) + '"' for i in group_names]), ','.join(['"' + str(group_to_col[i]) + '"' for i in group_names]), pch[options.plot_char]), file=ROUT)

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_topN.py RENAMED Viewed

@@ -18,6 +18,7 @@ import collections
 import subprocess
 import numpy as np
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
@@ -27,7 +28,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_trichotmize.py RENAMED Viewed

@@ -18,6 +18,7 @@ import numpy as np
 from optparse import OptionParser
 from sklearn import mixture
 from time import strftime
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 import pandas as pd
@@ -26,7 +27,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_Bayes.py RENAMED Viewed

@@ -27,13 +27,13 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 from multiprocessing import Process, Manager, current_process
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_bb.py RENAMED Viewed

@@ -36,12 +36,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_fisher.py RENAMED Viewed

@@ -34,12 +34,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_glm.py RENAMED Viewed

@@ -18,12 +18,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_logit.py RENAMED Viewed

@@ -31,12 +31,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_nonparametric.py RENAMED Viewed

@@ -19,12 +19,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_ttest.py RENAMED Viewed

@@ -18,12 +18,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import padjust
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"
@@ -189,7 +189,7 @@ def main():
 			else:
 				continue
 		line_num += 1
 	printlog("Perfrom Benjamini-Hochberg (aka FDR) correction ...")
 	adjusted_p = {}
 	q_list =  padjust.multiple_testing_correction(p_list)
@@ -204,6 +204,10 @@ def main():
 		else:
 			f = l.split()
 			probe_ID = f[0]
+			if probe_ID in delta_beta:
+				pass
+			else:
+				delta_beta[probe_ID] = 'n/a'
 			try:
 				print (l + '\t' + str(delta_beta[probe_ID]) + '\t' + adjusted_p[probe_ID], file=FOUT)
 			except:

cpgtools 2.0.0__py3-none-any.whl → 2.0.3__py3-none-any.whl

Potentially problematic release.

cpgtools 2.0.0py3-none-any.whl → 2.0.3py3-none-any.whl