PyPI - cpgtools - Versions diffs - 2.0.0__py3-none-any.whl → 2.0.3__py3-none-any.whl - Mend

cpgtools 2.0.0py3-none-any.whl → 2.0.3py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of cpgtools might be problematic. Click here for more details.

Files changed (75) hide show

cpgmodule/_version.py +1 -0
cpgmodule/utils.py +35 -0
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_aggregation.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_anno_position.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_anno_probe.py +1 -2
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_density_gene_centered.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_distrb_chrom.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_distrb_gene_centered.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_distrb_region.py +1 -3
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_logo.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_to_gene.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_PCA.py +31 -23
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_UMAP.py +29 -22
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_jitter_plot.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_m_conversion.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_profile_gene_centered.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_profile_region.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_selectNBest.py +9 -6
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_stacked_barplot.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_stats.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_tSNE.py +31 -24
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_topN.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_trichotmize.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_Bayes.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_bb.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_fisher.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_glm.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_logit.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_nonparametric.py +1 -1
{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/dmc_ttest.py +6 -2
cpgtools-2.0.3.data/scripts/predict_missing.py +673 -0
cpgtools-2.0.3.data/scripts/predict_sex.py +126 -0
cpgtools-2.0.3.dist-info/LICENSE +19 -0
cpgtools-2.0.3.dist-info/METADATA +76 -0
cpgtools-2.0.3.dist-info/RECORD +101 -0
{cpgtools-2.0.0.dist-info → cpgtools-2.0.3.dist-info}/WHEEL +1 -1
cpgtools-2.0.3.dist-info/top_level.txt +3 -0
impyute/__init__.py +3 -0
impyute/contrib/__init__.py +7 -0
impyute/contrib/compare.py +69 -0
impyute/contrib/count_missing.py +30 -0
impyute/contrib/describe.py +63 -0
impyute/cs/__init__.py +11 -0
impyute/cs/buck_iterative.py +82 -0
impyute/cs/central_tendency.py +84 -0
impyute/cs/em.py +52 -0
impyute/cs/fast_knn.py +130 -0
impyute/cs/random.py +27 -0
impyute/dataset/__init__.py +6 -0
impyute/dataset/base.py +137 -0
impyute/dataset/corrupt.py +55 -0
impyute/deletion/__init__.py +5 -0
impyute/deletion/complete_case.py +21 -0
impyute/ops/__init__.py +12 -0
impyute/ops/error.py +9 -0
impyute/ops/inverse_distance_weighting.py +31 -0
impyute/ops/matrix.py +47 -0
impyute/ops/testing.py +20 -0
impyute/ops/util.py +96 -0
impyute/ops/wrapper.py +179 -0
impyute/ts/__init__.py +6 -0
impyute/ts/locf.py +57 -0
impyute/ts/moving_window.py +128 -0
missingpy/__init__.py +4 -0
missingpy/knnimpute.py +328 -0
missingpy/missforest.py +556 -0
missingpy/pairwise_external.py +315 -0
missingpy/tests/__init__.py +0 -0
missingpy/tests/test_knnimpute.py +605 -0
missingpy/tests/test_missforest.py +409 -0
missingpy/utils.py +124 -0
cpgtools-2.0.0.dist-info/LICENSE.txt +0 -674
cpgtools-2.0.0.dist-info/METADATA +0 -28
cpgtools-2.0.0.dist-info/RECORD +0 -64
cpgtools-2.0.0.dist-info/top_level.txt +0 -2

cpgmodule/_version.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = "2.0.2"

cpgmodule/utils.py CHANGED Viewed

@@ -5,6 +5,8 @@ from time import strftime
 from bx.intervals import *
 import numpy as np
 from cpgmodule import ireader
+import logging
 def revcomp(dna):
 	'''reverse complement DNA sequences'''
@@ -604,4 +606,37 @@ def read_CpG_bed(cpgfile,genefile, bin_count = 100):
 	return np.array(cpg_profile).means(axis=0)
 """
+def config_log(switch, logfile=None):
+    """
+    Configureing the logging module.
+    Parameters
+    ----------
+    switch : bool
+        Debugging switch.
+    Returns
+    -------
+    None.
+    """
+    if switch is True:
+        if logfile is None:
+            logging.basicConfig(
+                format="%(asctime)s [%(levelname)s]  %(message)s",
+                datefmt='%Y-%m-%d %I:%M:%S', level=logging.DEBUG)
+        else:
+            logging.basicConfig(
+                filename=logfile,
+                format="%(asctime)s [%(levelname)s]  %(message)s",
+                datefmt='%Y-%m-%d %I:%M:%S', level=logging.DEBUG)
+    else:
+        if logfile is None:
+            logging.basicConfig(
+                format="%(asctime)s [%(levelname)s]  %(message)s",
+                datefmt='%Y-%m-%d %I:%M:%S', level=logging.INFO)
+        else:
+            logging.basicConfig(
+                filename=logfile,
+                format="%(asctime)s [%(levelname)s]  %(message)s",
+                datefmt='%Y-%m-%d %I:%M:%S', level=logging.INFO)

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_aggregation.py RENAMED Viewed

@@ -34,6 +34,7 @@ import numpy as np
 from scipy.stats import binom
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
@@ -44,7 +45,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_anno_position.py RENAMED Viewed

@@ -18,6 +18,7 @@ import subprocess
 import numpy as np
 from os.path import basename
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
@@ -28,7 +29,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="0.1.9"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_anno_probe.py RENAMED Viewed

@@ -10,13 +10,12 @@ import sys,os
 from optparse import OptionParser
 from cpgmodule import ireader
 from cpgmodule.utils import *
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_density_gene_centered.py RENAMED Viewed

@@ -19,12 +19,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import extend_bed
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_distrb_chrom.py RENAMED Viewed

@@ -14,12 +14,12 @@ import numpy as np
 from optparse import OptionParser
 from cpgmodule import ireader
 from cpgmodule.utils import *
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_distrb_gene_centered.py RENAMED Viewed

@@ -34,12 +34,12 @@ from optparse import OptionParser
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_distrb_region.py RENAMED Viewed

@@ -23,18 +23,16 @@ import sys,os
 import collections
 import subprocess
 import numpy as np
-#import re
 from optparse import OptionParser
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_logo.py RENAMED Viewed

@@ -17,12 +17,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule.imotif import PSSM
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/CpG_to_gene.py RENAMED Viewed

@@ -34,12 +34,12 @@ from optparse import OptionParser
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule.region2gene import *
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_PCA.py RENAMED Viewed

@@ -32,6 +32,7 @@ import sys
 import subprocess
 from optparse import OptionParser
 from cpgmodule.utils import *
+from cpgmodule._version import __version__
 import pandas as pd
 from sklearn.preprocessing import StandardScaler
 from sklearn.decomposition import PCA
@@ -40,15 +41,15 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"
 def pick_colors(n):
-	my_colors = ['#e6194B', '#3cb44b', '#4363d8', '#f58231', '#911eb4', '#42d4f4', '#f032e6', '#bfef45', '#fabebe', '#469990', '#e6beff', '#9A6324', '#fffac8', '#800000', '#aaffc3', '#808000', '#ffd8b1', '#000075', '#a9a9a9','#ffe119']
+	my_colors = [
+	"#F0A3FF", "#0075DC", "#993F00", "#4C005C", "#191919", "#005C31", "#2BCE48", "#FFCC99", "#808080", "#94FFB5", "#8F7C00", "#9DCC00", "#C20088", "#003380", "#FFA405", "#FFA8BB", "#426600", "#FF0010", "#5EF1F2", "#00998F", "#E0FF66", "#740AFF", "#990000", "#FFFF80", "#FFE100", "#FF5005"]
 	if n > len(my_colors):
-		print ("Only support 21 different colors", file = sys.stderr)
+		print ("Only support 26 different colors", file = sys.stderr)
 		sys.exit()
 	return my_colors[0:n]
@@ -86,27 +87,30 @@ def main():
 	df1 = pd.read_csv(options.input_file, index_col = 0, sep="\t")
 	#remove NA and transpose
-	df2 = df1.dropna(axis=0, how='any')
-	printlog("%d rows with missing values were removed." % (len(df1) - len(df2)))
-	#print (df2.head())
-	printlog("Transposing data frame ...")
-	df2 = df2.T
-	#print (df2.head())
-	printlog("Standarizing values ...")
-	x = df2.values
-	x = StandardScaler().fit_transform(x)
+	df2 = df1.dropna(axis=0, how='any').T
+	printlog("%d rows with missing values were removed." % (len(df1.index) - len(df2.columns)))
 	printlog("Reading group file: \"%s\" ..." % (options.group_file))
 	group = pd.read_csv(options.group_file, index_col=0, header=0,names=['Sample_ID', 'Group_ID'])
-	group.index = group.index.map(str)
 	#check if sample IDs are unique
 	if len(group.index) != len(group.index.unique()):
 		print ("Sample IDs are not unique", file = sys.stderr)
 		sys.exit()
+	group.index = group.index.map(str)
+	printlog("Group file \"%s\" contains %d samples" % (options.group_file, len(group.index)))
+	printlog("Find common sample IDs between group file and data file ...")
+	common_samples = list(set(group.index) & set(df2.index))
+	used_df = df2.loc[common_samples]
+	(usable_sample, usable_cpg) = used_df.shape
+	printlog("Used CpGs: %d, Used samples: %d" % (usable_cpg, usable_sample))
+	printlog("Standarizing values ...")
+	x = used_df.to_numpy()
+	x = StandardScaler().fit_transform(x)
 	group_names = group['Group_ID'].unique().tolist()	# a list of unique group names
 	color_names = pick_colors(len(group_names))	# a list of unique colors
 	group_to_col = dict(zip(group_names, color_names))
@@ -116,9 +120,9 @@ def main():
 	pca = PCA(n_components = options.n_components, random_state = 0)
 	principalComponents = pca.fit_transform(x)
 	pca_names = [str(i)+str(j) for i,j in zip(['PC']*options.n_components,range(1,options.n_components+1))]
-	principalDf = pd.DataFrame(data = principalComponents, columns = pca_names, index = df2.index)
+	principalDf = pd.DataFrame(data = principalComponents, columns = pca_names, index = used_df.index)
-	finalDf = pd.concat([principalDf, group], axis = 1, sort=False)
+	finalDf = pd.concat([principalDf, group], axis = 1, sort=False, join='inner')
 	finalDf.index.name = 'Sample_ID'
 	printlog("Writing PCA results to file: \"%s\" ..." % (options.out_file + '.PCA.tsv'))
@@ -133,18 +137,22 @@ def main():
 	print ('pdf(file=\"%s\", width=8, height=8)' % (options.out_file + '.PCA.pdf'),file=ROUT)
 	print ('')
-	print ('d = read.table(file=\"%s\", sep="\\t", header=TRUE,  comment.char = "", stringsAsFactors=FALSE)' % (options.out_file + '.PCA.tsv'), file=ROUT)
+	print ('d = read.table(file=\"%s\", sep="\\t", header=TRUE,  comment.char = "", stringsAsFactors=FALSE)'
+		% (options.out_file + '.PCA.tsv'), file=ROUT)
 	print ('attach(d)', file=ROUT)
 	if options.plot_alpha:
 		print ('library(scales)', file=ROUT)
-		print ('plot(PC1, PC2, col = alpha(Colors, %f), pch=%d, cex=1.5, main="PCA 2D map")' % (options.plot_alpha, pch[options.plot_char]), file=ROUT)
+		print ('plot(PC1, PC2, col = alpha(Colors, %f), pch=%d, cex=1.5, main="PCA 2D map", xlab="PC1 (var. explained: %.2f%%)", ylab="PC2 (var. explained: %.2f%%)")'
+			% (options.plot_alpha, pch[options.plot_char], pca_vars[0]*100, pca_vars[1]*100), file=ROUT)
 	else:
-		print ('plot(PC1, PC2, col = Colors, pch=%d, cex=1.2, main="PCA 2D map")' % pch[options.plot_char], file=ROUT)
+		print ('plot(PC1, PC2, col = Colors, pch=%d, cex=1.2, main="PCA 2D map", xlab="PC1 (var. explained: %.2f%%)", ylab="PC2 (var. explained: %.2f%%)")'
+			% (pca_vars[0]*100, pca_vars[1]*100, pch[options.plot_char], pca_vars[0]*100, pca_vars[1]*100), file=ROUT)
 	if options.text_label:
 		print ('text(PC1, PC2, labels=Sample_ID, col = Colors, cex=0.5, pos=1)', file=ROUT)
-	print ('legend("%s", legend=c(%s), col=c(%s), pch=%d,cex=1)' %  (legend_pos[options.legend_location], ','.join(['"' + str(i) + '"' for i in group_names]), ','.join(['"' + str(group_to_col[i]) + '"' for i in group_names]), pch[options.plot_char]), file=ROUT)
+	print ('legend("%s", legend=c(%s), col=c(%s), pch=%d,cex=1)'
+			% (legend_pos[options.legend_location], ','.join(['"' + str(i) + '"' for i in group_names]), ','.join(['"' + str(group_to_col[i]) + '"' for i in group_names]), pch[options.plot_char]), file=ROUT)
 	print ('dev.off()', file=ROUT)

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_UMAP.py RENAMED Viewed

@@ -32,6 +32,7 @@ import pandas as pd
 import subprocess
 from optparse import OptionParser
 from cpgmodule.utils import *
+from cpgmodule._version import __version__
 from sklearn.preprocessing import StandardScaler
 #import datatable as dt
 #import seaborn as sns
@@ -41,15 +42,15 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"
 def pick_colors(n):
-	my_colors = ['#e6194B', '#3cb44b', '#4363d8', '#f58231', '#911eb4', '#42d4f4', '#f032e6', '#bfef45', '#fabebe', '#469990', '#e6beff', '#9A6324', '#fffac8', '#800000', '#aaffc3', '#808000', '#ffd8b1', '#000075', '#a9a9a9','#ffe119']
+	my_colors = [
+	"#F0A3FF", "#0075DC", "#993F00", "#4C005C", "#191919", "#005C31", "#2BCE48", "#FFCC99", "#808080", "#94FFB5", "#8F7C00", "#9DCC00", "#C20088", "#003380", "#FFA405", "#FFA8BB", "#426600", "#FF0010", "#5EF1F2", "#00998F", "#E0FF66", "#740AFF", "#990000", "#FFFF80", "#FFE100", "#FF5005"]
 	if n > len(my_colors):
-		print ("Only support 21 different colors", file = sys.stderr)
+		print ("Only support 26 different colors", file = sys.stderr)
 		sys.exit()
 	return my_colors[0:n]
@@ -99,26 +100,28 @@ def main():
 	df1 = pd.read_csv(options.input_file, index_col = 0, sep="\t")
 	#remove NA and transpose
-	df2 = df1.dropna(axis=0, how='any')
-	printlog("%d rows with missing values were removed." % (len(df1) - len(df2)))
-	#print (df2.head())
-	printlog("Transposing data frame ...")
-	df2 = df2.T
-	#print (df2.head())
-	printlog("Standarizing values ...")
-	x = df2.values
-	x = StandardScaler().fit_transform(x)
+	df2 = df1.dropna(axis=0, how='any').T
+	printlog("%d rows with missing values were removed." % (len(df1.index) - len(df2.columns)))
 	printlog("Reading group file: \"%s\" ..." % (options.group_file))
 	group = pd.read_csv(options.group_file, index_col=0, header=0,names=['Sample_ID', 'Group_ID'])
-	group.index = group.index.map(str)
 	#check if sample IDs are unique
 	if len(group.index) != len(group.index.unique()):
 		print ("Sample IDs are not unique", file = sys.stderr)
 		sys.exit()
+	group.index = group.index.map(str)
+	printlog("Group file \"%s\" contains %d samples" % (options.group_file, len(group.index)))
+	printlog("Find common sample IDs between group file and data file ...")
+	common_samples = list(set(group.index) & set(df2.index))
+	used_df = df2.loc[common_samples]
+	(usable_sample, usable_cpg) = used_df.shape
+	printlog("Used CpGs: %d, Used samples: %d" % (usable_cpg, usable_sample))
+	printlog("Standarizing values ...")
+	x = used_df.to_numpy()
+	x = StandardScaler().fit_transform(x)
 	group_names = group['Group_ID'].unique().tolist()	# a list of unique group names
 	color_names = pick_colors(len(group_names))	# a list of unique colors
@@ -133,9 +136,9 @@ def main():
 	#pca = PCA(n_components = options.n_components, random_state = 0)
 	#principalComponents = pca.fit_transform(x)
 	pca_names = [str(i)+str(j) for i,j in zip(['UMAP']*options.n_components,range(1,options.n_components+1))]
-	principalDf = pd.DataFrame(data = principalComponents, columns = pca_names, index = df2.index)
+	principalDf = pd.DataFrame(data = principalComponents, columns = pca_names, index = used_df.index)
-	finalDf = pd.concat([principalDf, group], axis = 1, sort=False)
+	finalDf = pd.concat([principalDf, group], axis = 1, sort=False, join='inner')
 	finalDf.index.name = 'Sample_ID'
 	printlog("Writing UMAP results to file: \"%s\" ..." % (options.out_file + '.UMAP.tsv'))
@@ -146,18 +149,22 @@ def main():
 	print ('pdf(file=\"%s\", width=8, height=8)' % (options.out_file + '.UMAP.pdf'),file=ROUT)
 	print ('')
-	print ('d = read.table(file=\"%s\", sep="\\t", header=TRUE,  comment.char = "", stringsAsFactors=FALSE)' % (options.out_file + '.UMAP.tsv'), file=ROUT)
+	print ('d = read.table(file=\"%s\", sep="\\t", header=TRUE,  comment.char = "", stringsAsFactors=FALSE)'
+		% (options.out_file + '.UMAP.tsv'), file=ROUT)
 	print ('attach(d)', file=ROUT)
 	if options.plot_alpha:
 		print ('library(scales)', file=ROUT)
-		print ('plot(UMAP1, UMAP2, col = alpha(Colors, %f), pch=%d, cex=1.5, main="UMAP 2D map", xlab="UMAP_1", ylab="UMAP_2")' % (options.plot_alpha, pch[options.plot_char]), file=ROUT)
+		print ('plot(UMAP1, UMAP2, col = alpha(Colors, %f), pch=%d, cex=1.5, main="UMAP 2D map", xlab="UMAP_1", ylab="UMAP_2")'
+			% (options.plot_alpha, pch[options.plot_char]), file=ROUT)
 	else:
-		print ('plot(UMAP1, UMAP2, col = Colors, pch=%d, cex=1.2, main="UMAP 2D map", xlab="UMAP_1", ylab="UMAP_2")' % pch[options.plot_char], file=ROUT)
+		print ('plot(UMAP1, UMAP2, col = Colors, pch=%d, cex=1.2, main="UMAP 2D map", xlab="UMAP_1", ylab="UMAP_2")'
+			% pch[options.plot_char], file=ROUT)
 	if options.text_label:
 		print ('text(UMAP1, UMAP2, labels=Sample_ID, col = Colors, cex=0.5, pos=1)', file=ROUT)
-	print ('legend("%s", legend=c(%s), col=c(%s), pch=%d,cex=1)' %  (legend_pos[options.legend_location], ','.join(['"' + str(i) + '"' for i in group_names]), ','.join(['"' + str(group_to_col[i]) + '"' for i in group_names]), pch[options.plot_char]), file=ROUT)
+	print ('legend("%s", legend=c(%s), col=c(%s), pch=%d,cex=1)'
+		%  (legend_pos[options.legend_location], ','.join(['"' + str(i) + '"' for i in group_names]), ','.join(['"' + str(group_to_col[i]) + '"' for i in group_names]), pch[options.plot_char]), file=ROUT)
 	print ('dev.off()', file=ROUT)

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_jitter_plot.py RENAMED Viewed

@@ -26,6 +26,7 @@ import sys,os
 import collections
 import subprocess
 import numpy as np
+from cpgmodule._version import __version__
 from optparse import OptionParser
 from cpgmodule import ireader
 from cpgmodule.utils import *
@@ -36,7 +37,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_m_conversion.py RENAMED Viewed

@@ -18,6 +18,7 @@ import sys,os
 import collections
 import numpy as np
 from scipy import stats
+from cpgmodule._version import __version__
 from optparse import OptionParser
 from cpgmodule import ireader
 from cpgmodule.utils import *
@@ -26,7 +27,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_profile_gene_centered.py RENAMED Viewed

@@ -21,6 +21,7 @@ import collections
 import subprocess
 import numpy as np
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
@@ -29,7 +30,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_profile_region.py RENAMED Viewed

@@ -25,6 +25,7 @@ import collections
 import subprocess
 import numpy as np
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
@@ -33,7 +34,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_selectNBest.py RENAMED Viewed

@@ -18,6 +18,7 @@ cg_003	0.845065	0.843957	0.840184	0.824286
 import sys
 import numpy as np
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule.utils import *
 import pandas as pd
@@ -28,7 +29,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"
@@ -40,8 +40,8 @@ def main():
 	parser = OptionParser(usage,version="%prog " + __version__)
 	parser.add_option("-i","--input_file",action="store",type="string",dest="input_file",help="Tab-separated data frame file containing beta values with the 1st row containing sample IDs and the 1st column containing CpG IDs.")
 	parser.add_option("-g","--group",action="store",type="string",dest="group_file",help="Comma-separated group file defining the biological groups of each sample.")
-	parser.add_option("-k","--topK",action="store",type='int', dest="cpg_count", default=100, help="Number of top features to select. default=%default" )
-	parser.add_option("-s","--score-function",action="store",type='string', dest="score_function", default='chi2', help="Scoring function used to measure the dependency between features scores and labels. Must be \"chisq\" (chi-squared statistic), \"anova\" (ANOVA F-value), or \"mutual_info\" (mutual information). default=%default" )
+	parser.add_option("-c","--topK",action="store",type='int', dest="cpg_count", default=100, help="Number of top features to select. default=%default" )
+	parser.add_option("-s","--score-function",action="store",type='string', dest="score_function", default='chisq', help="Scoring function used to measure the dependency between features scores and labels. Must be \"chisq\" (chi-squared statistic), \"anova\" (ANOVA F-value), or \"mi\" (mutual information). default=%default" )
 	parser.add_option("-o","--output",action="store",type='string', dest="out_file",help="The prefix of the output file.")
 	(options,args)=parser.parse_args()
@@ -77,7 +77,7 @@ def main():
 	printlog("Reading group file: \"%s\"" % (options.group_file))
 	group = pd.read_csv(options.group_file, index_col=0, header=0,names=['Sample_ID', 'Group_ID'])
-	a = list(group['Group_ID'])	#a is *string labels* for groups: ['Normal', 'Normal', 'Normal', 'Normal', 'Normal', 'Cancer', 'Cancer', 'Cancer', 'Cancer']
+	a = pd.Series(list(group['Group_ID']))	#a is *string labels* for groups: ['Normal', 'Normal', 'Normal', 'Normal', 'Normal', 'Cancer', 'Cancer', 'Cancer', 'Cancer']
 	#print (a)
 	y, tmp = pd.factorize(a)	#y is *numeric labels* for groups: [0 0 0 0 0 1 1 1 1]
 	#print (np.array(y))
@@ -87,12 +87,15 @@ def main():
 		if options.score_function == 'anova':
 			printlog ("Using ANOVA F value to select features ...")
 			selector = SelectKBest(f_classif, k = options.cpg_count)
-		elif options.score_function == 'mutual_info':
+		elif options.score_function == 'mi':
 			printlog ("Using Mutual Information to select features ...")
 			selector = SelectKBest(mutual_info_classif, k = options.cpg_count)
-		else:
+		elif options.score_function == 'chisq':
 			printlog ("Using Chi Square statistic to select features ...")
 			selector = SelectKBest(chi2, k = options.cpg_count)
+		else:
+			printlog("Unknown function: %s" % options.score_function)
+			sys.exit(0)
 	else:
 		printlog("Doing nothing! '-k' >= the total number of features in \"%s\"" % (options.input_file))
 		sys.exit(0)

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_stacked_barplot.py RENAMED Viewed

@@ -28,6 +28,7 @@ import collections
 import subprocess
 import numpy as np
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
@@ -37,7 +38,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-2.0.0.data → cpgtools-2.0.3.data}/scripts/beta_stats.py RENAMED Viewed

@@ -25,6 +25,7 @@ import collections
 import subprocess
 import numpy as np
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
@@ -33,7 +34,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="2.0.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

cpgtools 2.0.0__py3-none-any.whl → 2.0.3__py3-none-any.whl

Potentially problematic release.

cpgtools 2.0.0py3-none-any.whl → 2.0.3py3-none-any.whl