PyPI - cpgtools - Versions diffs - 1.12.0__py3-none-any.whl → 2.0.2__py3-none-any.whl - Mend

cpgtools 1.12.0py3-none-any.whl → 2.0.2py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of cpgtools might be problematic. Click here for more details.

Files changed (77) hide show

cpgmodule/_version.py +1 -0
cpgmodule/data/__init__.py +0 -0
cpgmodule/methylClock.py +53 -0
cpgmodule/utils.py +38 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_aggregation.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_anno_position.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_anno_probe.py +6 -4
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_density_gene_centered.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_distrb_chrom.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_distrb_gene_centered.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_distrb_region.py +1 -3
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_logo.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_to_gene.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_PCA.py +31 -23
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_UMAP.py +29 -22
cpgtools-2.0.2.data/scripts/beta_imputation.py +604 -0
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_jitter_plot.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_m_conversion.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_profile_gene_centered.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_profile_region.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_selectNBest.py +9 -6
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_stacked_barplot.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_stats.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_tSNE.py +31 -24
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_topN.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_trichotmize.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_Bayes.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_bb.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_fisher.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_glm.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_logit.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_nonparametric.py +1 -1
{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/dmc_ttest.py +3 -3
cpgtools-2.0.2.data/scripts/predict_sex.py +126 -0
cpgtools-2.0.2.dist-info/LICENSE +19 -0
cpgtools-2.0.2.dist-info/METADATA +76 -0
cpgtools-2.0.2.dist-info/RECORD +82 -0
{cpgtools-1.12.0.dist-info → cpgtools-2.0.2.dist-info}/WHEEL +1 -1
cpgtools-2.0.2.dist-info/top_level.txt +3 -0
impyute/__init__.py +3 -0
impyute/contrib/__init__.py +7 -0
impyute/contrib/compare.py +69 -0
impyute/contrib/count_missing.py +30 -0
impyute/contrib/describe.py +63 -0
impyute/cs/__init__.py +11 -0
impyute/cs/buck_iterative.py +82 -0
impyute/cs/central_tendency.py +84 -0
impyute/cs/em.py +52 -0
impyute/cs/fast_knn.py +130 -0
impyute/cs/random.py +27 -0
impyute/dataset/__init__.py +6 -0
impyute/dataset/base.py +137 -0
impyute/dataset/corrupt.py +55 -0
impyute/deletion/__init__.py +5 -0
impyute/deletion/complete_case.py +21 -0
impyute/ops/__init__.py +12 -0
impyute/ops/error.py +9 -0
impyute/ops/inverse_distance_weighting.py +31 -0
impyute/ops/matrix.py +47 -0
impyute/ops/testing.py +20 -0
impyute/ops/util.py +76 -0
impyute/ops/wrapper.py +179 -0
impyute/ts/__init__.py +6 -0
impyute/ts/locf.py +57 -0
impyute/ts/moving_window.py +128 -0
missingpy/__init__.py +4 -0
missingpy/knnimpute.py +328 -0
missingpy/missforest.py +556 -0
missingpy/pairwise_external.py +315 -0
missingpy/tests/__init__.py +0 -0
missingpy/tests/test_knnimpute.py +605 -0
missingpy/tests/test_missforest.py +409 -0
missingpy/utils.py +124 -0
cpgtools-1.12.0.dist-info/LICENSE.txt +0 -674
cpgtools-1.12.0.dist-info/METADATA +0 -30
cpgtools-1.12.0.dist-info/RECORD +0 -43
cpgtools-1.12.0.dist-info/top_level.txt +0 -2

cpgmodule/_version.py ADDED Viewed

	@@ -0,0 +1 @@
1	+ __version__ = "2.0.2"

cpgmodule/data/__init__.py ADDED Viewed

File without changes

cpgmodule/methylClock.py ADDED Viewed

@@ -0,0 +1,53 @@
+#!/usr/bin/env python3
+# -*- coding: utf-8 -*-
+"""
+Created on Fri Nov 25 10:55:14 2022
+@author: Liguo Wang
+"""
+from cpgmodule import ireader
+#import sys,os
+class MethylSig():
+	"""
+	Pack DNA methylation signature file into object.
+	>>> from cpgmodule import methylClock
+	>>> a = methylClock.MethylAge(signature_file = 'coefBlup.tsv', signature_name = 'BLUP', signature_info="")
+	>>> a.name
+	'BLUP'
+	>>> a.Intercept
+	91.15396
+	>>> a.ncpg
+	319607
+	"""
+	def __init__(self, signature_file, signature_name, tissues = [], unit = '', signature_info = '', reference = '', pub_link = '', method = ''):
+		self.name = signature_name
+		self.info = signature_info
+		self.tissues = tissues
+		self.unit = unit
+		self.coef = {}
+		self.cpgs = []
+		self.ncpg = 0
+		self.Intercept = 0.0
+		self.ref = reference
+		self.pubmed = pub_link
+		self.method = method
+		for l in ireader.reader(signature_file):
+			if l.startswith('#'):
+				continue
+			f = l.split()
+			if l.startswith('Intercept'):
+				try:
+					self.Intercept = float(f[1])
+				except:
+					self.Intercept = 0.0
+			else:
+				self.cpgs.append(f[0])
+				self.ncpg  += 1
+				try:
+					self.coef[f[0]] = float(f[1])
+					#self.ncpg  += 1
+				except:
+					continue

cpgmodule/utils.py CHANGED Viewed

@@ -5,6 +5,8 @@ from time import strftime
 from bx.intervals import *
 import numpy as np
 from cpgmodule import ireader
+import logging
 def revcomp(dna):
 	'''reverse complement DNA sequences'''
@@ -266,7 +268,7 @@ def count_over_range(lst, cpg_ranges):
 		total_count += len(tmp)
 	return(total_size,total_count)
-def read_grp_file1(gfile):
+def read_grp_file1(gfile,na_lab="NA"):
 	'''
 	read group file. Group file define the biological groups of data matrix file.
 	(1) It must has header
@@ -292,6 +294,8 @@ def read_grp_file1(gfile):
 		l = l.replace(' ','')
 		line_num += 1
 		f = l.split(',')
+		if f[1] == na_lab:
+			continue
 		if len(f) < 2:
 			print ("Group fle must have 2 columns!", file=sys.stderr)
 			sys.exit(1)
@@ -602,4 +606,37 @@ def read_CpG_bed(cpgfile,genefile, bin_count = 100):
 	return np.array(cpg_profile).means(axis=0)
 """
+def config_log(switch, logfile=None):
+    """
+    Configureing the logging module.
+    Parameters
+    ----------
+    switch : bool
+        Debugging switch.
+    Returns
+    -------
+    None.
+    """
+    if switch is True:
+        if logfile is None:
+            logging.basicConfig(
+                format="%(asctime)s [%(levelname)s]  %(message)s",
+                datefmt='%Y-%m-%d %I:%M:%S', level=logging.DEBUG)
+        else:
+            logging.basicConfig(
+                filename=logfile,
+                format="%(asctime)s [%(levelname)s]  %(message)s",
+                datefmt='%Y-%m-%d %I:%M:%S', level=logging.DEBUG)
+    else:
+        if logfile is None:
+            logging.basicConfig(
+                format="%(asctime)s [%(levelname)s]  %(message)s",
+                datefmt='%Y-%m-%d %I:%M:%S', level=logging.INFO)
+        else:
+            logging.basicConfig(
+                filename=logfile,
+                format="%(asctime)s [%(levelname)s]  %(message)s",
+                datefmt='%Y-%m-%d %I:%M:%S', level=logging.INFO)

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_aggregation.py RENAMED Viewed

@@ -34,6 +34,7 @@ import numpy as np
 from scipy.stats import binom
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
@@ -44,7 +45,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_anno_position.py RENAMED Viewed

@@ -18,6 +18,7 @@ import subprocess
 import numpy as np
 from os.path import basename
 from optparse import OptionParser
+from cpgmodule._version import __version__
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
@@ -28,7 +29,6 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="0.1.9"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_anno_probe.py RENAMED Viewed

@@ -10,13 +10,12 @@ import sys,os
 from optparse import OptionParser
 from cpgmodule import ireader
 from cpgmodule.utils import *
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"
@@ -76,8 +75,11 @@ def main():
 	for l in ireader.reader(options.input_file):
 		line_num += 1
 		f = l.split()
-		if (line_num == 1 and options.header):
-			print (l + '\t' +  '\t'.join(header), file=OUT)
+		if line_num == 1:
+			if options.header:
+				print (l + '\t' +  '\t'.join(header), file=OUT)
+			else:
+				print ('\t'.join(['NA']*len(f)) + '\t' +  '\t'.join(header), file=OUT)
 		else:
 			if options.probe_col >= len(f):
 				print ("Error: column ID must be smaller than %d!" % len(f), file=sys.stderr)

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_density_gene_centered.py RENAMED Viewed

@@ -19,12 +19,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule import extend_bed
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_distrb_chrom.py RENAMED Viewed

@@ -14,12 +14,12 @@ import numpy as np
 from optparse import OptionParser
 from cpgmodule import ireader
 from cpgmodule.utils import *
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_distrb_gene_centered.py RENAMED Viewed

@@ -34,12 +34,12 @@ from optparse import OptionParser
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_distrb_region.py RENAMED Viewed

@@ -23,18 +23,16 @@ import sys,os
 import collections
 import subprocess
 import numpy as np
-#import re
 from optparse import OptionParser
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_logo.py RENAMED Viewed

@@ -17,12 +17,12 @@ from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule import BED
 from cpgmodule.imotif import PSSM
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/CpG_to_gene.py RENAMED Viewed

@@ -34,12 +34,12 @@ from optparse import OptionParser
 from cpgmodule import ireader
 from cpgmodule.utils import *
 from cpgmodule.region2gene import *
+from cpgmodule._version import __version__
 __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_PCA.py RENAMED Viewed

@@ -32,6 +32,7 @@ import sys
 import subprocess
 from optparse import OptionParser
 from cpgmodule.utils import *
+from cpgmodule._version import __version__
 import pandas as pd
 from sklearn.preprocessing import StandardScaler
 from sklearn.decomposition import PCA
@@ -40,15 +41,15 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"
 def pick_colors(n):
-	my_colors = ['#e6194B', '#3cb44b', '#4363d8', '#f58231', '#911eb4', '#42d4f4', '#f032e6', '#bfef45', '#fabebe', '#469990', '#e6beff', '#9A6324', '#fffac8', '#800000', '#aaffc3', '#808000', '#ffd8b1', '#000075', '#a9a9a9','#ffe119']
+	my_colors = [
+	"#F0A3FF", "#0075DC", "#993F00", "#4C005C", "#191919", "#005C31", "#2BCE48", "#FFCC99", "#808080", "#94FFB5", "#8F7C00", "#9DCC00", "#C20088", "#003380", "#FFA405", "#FFA8BB", "#426600", "#FF0010", "#5EF1F2", "#00998F", "#E0FF66", "#740AFF", "#990000", "#FFFF80", "#FFE100", "#FF5005"]
 	if n > len(my_colors):
-		print ("Only support 21 different colors", file = sys.stderr)
+		print ("Only support 26 different colors", file = sys.stderr)
 		sys.exit()
 	return my_colors[0:n]
@@ -86,27 +87,30 @@ def main():
 	df1 = pd.read_csv(options.input_file, index_col = 0, sep="\t")
 	#remove NA and transpose
-	df2 = df1.dropna(axis=0, how='any')
-	printlog("%d rows with missing values were removed." % (len(df1) - len(df2)))
-	#print (df2.head())
-	printlog("Transposing data frame ...")
-	df2 = df2.T
-	#print (df2.head())
-	printlog("Standarizing values ...")
-	x = df2.values
-	x = StandardScaler().fit_transform(x)
+	df2 = df1.dropna(axis=0, how='any').T
+	printlog("%d rows with missing values were removed." % (len(df1.index) - len(df2.columns)))
 	printlog("Reading group file: \"%s\" ..." % (options.group_file))
 	group = pd.read_csv(options.group_file, index_col=0, header=0,names=['Sample_ID', 'Group_ID'])
-	group.index = group.index.map(str)
 	#check if sample IDs are unique
 	if len(group.index) != len(group.index.unique()):
 		print ("Sample IDs are not unique", file = sys.stderr)
 		sys.exit()
+	group.index = group.index.map(str)
+	printlog("Group file \"%s\" contains %d samples" % (options.group_file, len(group.index)))
+	printlog("Find common sample IDs between group file and data file ...")
+	common_samples = list(set(group.index) & set(df2.index))
+	used_df = df2.loc[common_samples]
+	(usable_sample, usable_cpg) = used_df.shape
+	printlog("Used CpGs: %d, Used samples: %d" % (usable_cpg, usable_sample))
+	printlog("Standarizing values ...")
+	x = used_df.to_numpy()
+	x = StandardScaler().fit_transform(x)
 	group_names = group['Group_ID'].unique().tolist()	# a list of unique group names
 	color_names = pick_colors(len(group_names))	# a list of unique colors
 	group_to_col = dict(zip(group_names, color_names))
@@ -116,9 +120,9 @@ def main():
 	pca = PCA(n_components = options.n_components, random_state = 0)
 	principalComponents = pca.fit_transform(x)
 	pca_names = [str(i)+str(j) for i,j in zip(['PC']*options.n_components,range(1,options.n_components+1))]
-	principalDf = pd.DataFrame(data = principalComponents, columns = pca_names, index = df2.index)
+	principalDf = pd.DataFrame(data = principalComponents, columns = pca_names, index = used_df.index)
-	finalDf = pd.concat([principalDf, group], axis = 1, sort=False)
+	finalDf = pd.concat([principalDf, group], axis = 1, sort=False, join='inner')
 	finalDf.index.name = 'Sample_ID'
 	printlog("Writing PCA results to file: \"%s\" ..." % (options.out_file + '.PCA.tsv'))
@@ -133,18 +137,22 @@ def main():
 	print ('pdf(file=\"%s\", width=8, height=8)' % (options.out_file + '.PCA.pdf'),file=ROUT)
 	print ('')
-	print ('d = read.table(file=\"%s\", sep="\\t", header=TRUE,  comment.char = "", stringsAsFactors=FALSE)' % (options.out_file + '.PCA.tsv'), file=ROUT)
+	print ('d = read.table(file=\"%s\", sep="\\t", header=TRUE,  comment.char = "", stringsAsFactors=FALSE)'
+		% (options.out_file + '.PCA.tsv'), file=ROUT)
 	print ('attach(d)', file=ROUT)
 	if options.plot_alpha:
 		print ('library(scales)', file=ROUT)
-		print ('plot(PC1, PC2, col = alpha(Colors, %f), pch=%d, cex=1.5, main="PCA 2D map")' % (options.plot_alpha, pch[options.plot_char]), file=ROUT)
+		print ('plot(PC1, PC2, col = alpha(Colors, %f), pch=%d, cex=1.5, main="PCA 2D map", xlab="PC1 (var. explained: %.2f%%)", ylab="PC2 (var. explained: %.2f%%)")'
+			% (options.plot_alpha, pch[options.plot_char], pca_vars[0]*100, pca_vars[1]*100), file=ROUT)
 	else:
-		print ('plot(PC1, PC2, col = Colors, pch=%d, cex=1.2, main="PCA 2D map")' % pch[options.plot_char], file=ROUT)
+		print ('plot(PC1, PC2, col = Colors, pch=%d, cex=1.2, main="PCA 2D map", xlab="PC1 (var. explained: %.2f%%)", ylab="PC2 (var. explained: %.2f%%)")'
+			% (pca_vars[0]*100, pca_vars[1]*100, pch[options.plot_char], pca_vars[0]*100, pca_vars[1]*100), file=ROUT)
 	if options.text_label:
 		print ('text(PC1, PC2, labels=Sample_ID, col = Colors, cex=0.5, pos=1)', file=ROUT)
-	print ('legend("%s", legend=c(%s), col=c(%s), pch=%d,cex=1)' %  (legend_pos[options.legend_location], ','.join(['"' + str(i) + '"' for i in group_names]), ','.join(['"' + str(group_to_col[i]) + '"' for i in group_names]), pch[options.plot_char]), file=ROUT)
+	print ('legend("%s", legend=c(%s), col=c(%s), pch=%d,cex=1)'
+			% (legend_pos[options.legend_location], ','.join(['"' + str(i) + '"' for i in group_names]), ','.join(['"' + str(group_to_col[i]) + '"' for i in group_names]), pch[options.plot_char]), file=ROUT)
 	print ('dev.off()', file=ROUT)

{cpgtools-1.12.0.data → cpgtools-2.0.2.data}/scripts/beta_UMAP.py RENAMED Viewed

@@ -32,6 +32,7 @@ import pandas as pd
 import subprocess
 from optparse import OptionParser
 from cpgmodule.utils import *
+from cpgmodule._version import __version__
 from sklearn.preprocessing import StandardScaler
 #import datatable as dt
 #import seaborn as sns
@@ -41,15 +42,15 @@ __author__ = "Liguo Wang"
 __copyright__ = "Copyleft"
 __credits__ = []
 __license__ = "GPL"
-__version__="1.12.0"
 __maintainer__ = "Liguo Wang"
 __email__ = "wang.liguo@mayo.edu"
 __status__ = "Development"
 def pick_colors(n):
-	my_colors = ['#e6194B', '#3cb44b', '#4363d8', '#f58231', '#911eb4', '#42d4f4', '#f032e6', '#bfef45', '#fabebe', '#469990', '#e6beff', '#9A6324', '#fffac8', '#800000', '#aaffc3', '#808000', '#ffd8b1', '#000075', '#a9a9a9','#ffe119']
+	my_colors = [
+	"#F0A3FF", "#0075DC", "#993F00", "#4C005C", "#191919", "#005C31", "#2BCE48", "#FFCC99", "#808080", "#94FFB5", "#8F7C00", "#9DCC00", "#C20088", "#003380", "#FFA405", "#FFA8BB", "#426600", "#FF0010", "#5EF1F2", "#00998F", "#E0FF66", "#740AFF", "#990000", "#FFFF80", "#FFE100", "#FF5005"]
 	if n > len(my_colors):
-		print ("Only support 21 different colors", file = sys.stderr)
+		print ("Only support 26 different colors", file = sys.stderr)
 		sys.exit()
 	return my_colors[0:n]
@@ -99,26 +100,28 @@ def main():
 	df1 = pd.read_csv(options.input_file, index_col = 0, sep="\t")
 	#remove NA and transpose
-	df2 = df1.dropna(axis=0, how='any')
-	printlog("%d rows with missing values were removed." % (len(df1) - len(df2)))
-	#print (df2.head())
-	printlog("Transposing data frame ...")
-	df2 = df2.T
-	#print (df2.head())
-	printlog("Standarizing values ...")
-	x = df2.values
-	x = StandardScaler().fit_transform(x)
+	df2 = df1.dropna(axis=0, how='any').T
+	printlog("%d rows with missing values were removed." % (len(df1.index) - len(df2.columns)))
 	printlog("Reading group file: \"%s\" ..." % (options.group_file))
 	group = pd.read_csv(options.group_file, index_col=0, header=0,names=['Sample_ID', 'Group_ID'])
-	group.index = group.index.map(str)
 	#check if sample IDs are unique
 	if len(group.index) != len(group.index.unique()):
 		print ("Sample IDs are not unique", file = sys.stderr)
 		sys.exit()
+	group.index = group.index.map(str)
+	printlog("Group file \"%s\" contains %d samples" % (options.group_file, len(group.index)))
+	printlog("Find common sample IDs between group file and data file ...")
+	common_samples = list(set(group.index) & set(df2.index))
+	used_df = df2.loc[common_samples]
+	(usable_sample, usable_cpg) = used_df.shape
+	printlog("Used CpGs: %d, Used samples: %d" % (usable_cpg, usable_sample))
+	printlog("Standarizing values ...")
+	x = used_df.to_numpy()
+	x = StandardScaler().fit_transform(x)
 	group_names = group['Group_ID'].unique().tolist()	# a list of unique group names
 	color_names = pick_colors(len(group_names))	# a list of unique colors
@@ -133,9 +136,9 @@ def main():
 	#pca = PCA(n_components = options.n_components, random_state = 0)
 	#principalComponents = pca.fit_transform(x)
 	pca_names = [str(i)+str(j) for i,j in zip(['UMAP']*options.n_components,range(1,options.n_components+1))]
-	principalDf = pd.DataFrame(data = principalComponents, columns = pca_names, index = df2.index)
+	principalDf = pd.DataFrame(data = principalComponents, columns = pca_names, index = used_df.index)
-	finalDf = pd.concat([principalDf, group], axis = 1, sort=False)
+	finalDf = pd.concat([principalDf, group], axis = 1, sort=False, join='inner')
 	finalDf.index.name = 'Sample_ID'
 	printlog("Writing UMAP results to file: \"%s\" ..." % (options.out_file + '.UMAP.tsv'))
@@ -146,18 +149,22 @@ def main():
 	print ('pdf(file=\"%s\", width=8, height=8)' % (options.out_file + '.UMAP.pdf'),file=ROUT)
 	print ('')
-	print ('d = read.table(file=\"%s\", sep="\\t", header=TRUE,  comment.char = "", stringsAsFactors=FALSE)' % (options.out_file + '.UMAP.tsv'), file=ROUT)
+	print ('d = read.table(file=\"%s\", sep="\\t", header=TRUE,  comment.char = "", stringsAsFactors=FALSE)'
+		% (options.out_file + '.UMAP.tsv'), file=ROUT)
 	print ('attach(d)', file=ROUT)
 	if options.plot_alpha:
 		print ('library(scales)', file=ROUT)
-		print ('plot(UMAP1, UMAP2, col = alpha(Colors, %f), pch=%d, cex=1.5, main="UMAP 2D map", xlab="UMAP_1", ylab="UMAP_2")' % (options.plot_alpha, pch[options.plot_char]), file=ROUT)
+		print ('plot(UMAP1, UMAP2, col = alpha(Colors, %f), pch=%d, cex=1.5, main="UMAP 2D map", xlab="UMAP_1", ylab="UMAP_2")'
+			% (options.plot_alpha, pch[options.plot_char]), file=ROUT)
 	else:
-		print ('plot(UMAP1, UMAP2, col = Colors, pch=%d, cex=1.2, main="UMAP 2D map", xlab="UMAP_1", ylab="UMAP_2")' % pch[options.plot_char], file=ROUT)
+		print ('plot(UMAP1, UMAP2, col = Colors, pch=%d, cex=1.2, main="UMAP 2D map", xlab="UMAP_1", ylab="UMAP_2")'
+			% pch[options.plot_char], file=ROUT)
 	if options.text_label:
 		print ('text(UMAP1, UMAP2, labels=Sample_ID, col = Colors, cex=0.5, pos=1)', file=ROUT)
-	print ('legend("%s", legend=c(%s), col=c(%s), pch=%d,cex=1)' %  (legend_pos[options.legend_location], ','.join(['"' + str(i) + '"' for i in group_names]), ','.join(['"' + str(group_to_col[i]) + '"' for i in group_names]), pch[options.plot_char]), file=ROUT)
+	print ('legend("%s", legend=c(%s), col=c(%s), pch=%d,cex=1)'
+		%  (legend_pos[options.legend_location], ','.join(['"' + str(i) + '"' for i in group_names]), ','.join(['"' + str(group_to_col[i]) + '"' for i in group_names]), pch[options.plot_char]), file=ROUT)
 	print ('dev.off()', file=ROUT)

cpgtools 1.12.0__py3-none-any.whl → 2.0.2__py3-none-any.whl

Potentially problematic release.

cpgtools 1.12.0py3-none-any.whl → 2.0.2py3-none-any.whl