RubyGems - full_lengther_next - Versions diffs - 0.0.5 → 0.0.6 - Mend

full_lengther_next 0.0.5 → 0.0.6

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

data/History.txt +4 -0
data/bin/full_lengther_next +3 -3
data/lib/full_lengther_next.rb +3 -3
data/lib/full_lengther_next/classes/fl_analysis.rb +3 -3
data/lib/full_lengther_next/classes/fln_stats.rb +417 -316
data/lib/full_lengther_next/classes/my_worker_manager.rb +3 -3
data/lib/full_lengther_next/classes/nc_rna.rb +1 -1
data/lib/full_lengther_next/classes/sequence.rb +3 -1
data/lib/full_lengther_next/classes/test_code.rb +4 -4
metadata +2 -2

data/History.txt CHANGED

@@ -1,3 +1,7 @@
+=== 0.0.6 2012-04-16
+Fixed some cosmetic issues and parameters names
 === 0.0.5 2012-03-09
 Fix NCRNA annotation

data/bin/full_lengther_next CHANGED

@@ -26,7 +26,7 @@ optparse = OptionParser.new do |opts|
 	end
 	options[:user_db] = nil
-	opts.on( '-d', '--blast_db DB_NAME', 'User blast plus database' ) do |db|
+	opts.on( '-u', '--user_db UserDB', 'User blast+ database' ) do |db|
 		options[:user_db] = db
 	end
@@ -46,7 +46,7 @@ optparse = OptionParser.new do |opts|
 	end
 	options[:distance] = 15
-	opts.on( '-a', '--aas_distance DISTANCE', "distance threshold in aminoacids used for some calculations, the less distance the more strict. Default=15\n\n" ) do |distance|
+	opts.on( '-m', '--max_distance maxDIST', "maximal distance between query and subject gene boundaries to be qualified as putative, the less distance the more strict. Default=15\n\n" ) do |distance|
 		options[:distance] = distance.to_i
 	end
@@ -172,7 +172,7 @@ require 'my_worker_manager'
 $LOG = Logger.new(STDOUT)
 $LOG.datetime_format = "%Y-%m-%d %H:%M:%S"
-custom_worker_file = File.join(ROOT_PATH,'classes','my_worker.rb')
+custom_worker_file = File.join(File.dirname(ROOT_PATH),'lib','full_lengther_next','classes','my_worker.rb')
 	$LOG.info 'Starting server'
 	# initialize work manager (open files, etc)

data/lib/full_lengther_next.rb CHANGED

@@ -1,13 +1,13 @@
 $:.unshift(File.dirname(__FILE__)) unless
   $:.include?(File.dirname(__FILE__)) || $:.include?(File.expand_path(File.dirname(__FILE__)))
-ROOT_PATH=File.join(File.dirname(__FILE__),'full_lengther_next')
+root_path=File.join(File.dirname(__FILE__),'full_lengther_next')
-$: << File.expand_path(File.join(ROOT_PATH, 'classes'))
+$: << File.expand_path(File.join(root_path, 'classes'))
 module FullLengtherNext
-   VERSION = '0.0.5'
+   VERSION = '0.0.6'
   FULLLENGHTER_VERSION = VERSION
 end

data/lib/full_lengther_next/classes/fl_analysis.rb CHANGED

@@ -247,7 +247,7 @@ module FlAnalysis
 				if (seq.sec_desc.empty?)
 					if (!q.hits[0].definition.nil?)
 						warnings = "Coding sequence with some errors, #{warnings}"
-						seq.sec_desc = "#{q.query_def}\t#{seq.seq_fasta.length}\t#{q.hits[0].acc}\t#{db_name}\tCoding Seq\t\t#{q.hits[0].e_val}\t#{q.hits[0].ident}\t\t#{q.hits[0].full_subject_length}\t#{warnings}\t\t\t\t\t\t#{q.hits[0].definition}\t"
+						seq.sec_desc = "#{q.query_def}\t#{seq.fasta_length}\t#{q.hits[0].acc}\t#{db_name}\tMisassembled\t\t#{q.hits[0].e_val}\t#{q.hits[0].ident}\t\t#{q.hits[0].full_subject_length}\t#{warnings}\t\t\t\t\t\t#{q.hits[0].definition}\t"
 						seq.annotate(:tmp_annotation,[seq.sec_desc, '','',''],true)
 					else
 						seq.annotate(:apply_tcode,'')
@@ -264,7 +264,7 @@ module FlAnalysis
 			if (seq.sec_desc.empty?)
 				if (!q.hits[0].definition.nil?)
 					warnings = "Coding sequence with some errors, #{warnings}"
-					seq.sec_desc = "#{q.query_def}\t#{seq.seq_fasta.length}\t#{q.hits[0].acc}\t#{db_name}\tCoding Seq\t\t#{q.hits[0].e_val}\t#{q.hits[0].ident}\t\t#{q.hits[0].full_subject_length}\t#{warnings}\t\t\t\t\t\t#{q.hits[0].definition}\t"
+					seq.sec_desc = "#{q.query_def}\t#{seq.fasta_length}\t#{q.hits[0].acc}\t#{db_name}\tMisassembled\t\t#{q.hits[0].e_val}\t#{q.hits[0].ident}\t\t#{q.hits[0].full_subject_length}\t#{warnings}\t\t\t\t\t\t#{q.hits[0].definition}\t"
 				end
 			end
 		end
@@ -529,7 +529,7 @@ module FlAnalysis
 					tmp_prot = ">#{q.query_def}\n#{final_prot}"
 					tmp_align = "#{q.query_def}\t#{final_hit.q_seq}\n#{final_hit.acc}#{spnum}\t#{final_hit.s_seq}\n\n"
 					tmp_annot = "#{q.query_def}\t#{query_fasta.length}\t#{final_hit.acc}\t#{db_name}\t#{final_status}\t\t#{final_hit.e_val}\t#{final_hit.ident}\t#{final_prot.length}\t#{final_hit.full_subject_length}\t#{warnings}\t#{final_hit.q_frame}\t#{final_hit.q_beg.to_i + 1}\t#{final_hit.q_end.to_i + 1}\t#{final_hit.s_beg.to_i + 1}\t#{final_hit.s_end.to_i + 1}\t#{final_hit.definition}\t#{final_prot}"
-					seq.sec_desc = "#{q.query_def}\t#{query_fasta.length}\t#{final_hit.acc}\t#{db_name}\tCoding Seq\t\t#{final_hit.e_val}\t#{final_hit.ident}\t\t#{final_hit.full_subject_length}\t#{warnings}\t\t\t\t\t\t#{final_hit.definition}\t"
+					seq.sec_desc = "#{q.query_def}\t#{query_fasta.length}\t#{final_hit.acc}\t#{db_name}\tMisassembled\t\t#{final_hit.e_val}\t#{final_hit.ident}\t\t#{final_hit.full_subject_length}\t#{warnings}\t\t\t\t\t\t#{final_hit.definition}\t"
 					seq.annotate(:tmp_annotation,[tmp_annot, tmp_prot,tmp_align,[q, final_hit, final_prot, query_fasta, final_status]])
 					# puts "\n\n\n-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.-.---#{q.query_def}\t#{final_status}\n#{tmp_prot}"

data/lib/full_lengther_next/classes/fln_stats.rb CHANGED

@@ -4,384 +4,485 @@ module FlnStats
 	def summary_stats
 		stats_file = File.open('fln_results/summary_stats.html', 'w')
-		(html_head, html_1, html_2, html_3, html_4) = html_code
+		# recogemos los trozos de html fijos
+		(html_head, html_st, html_uni, html_db, html_as, html_end) = html_code
 		total_seqs = 0
+		status_suma = 0
+		#recogemos los datos que necesitamos de los ficheros de resultados
+		(status_array, db_usage, seqs_number1, error_1_num, seq_uniq, complete_uniq, db_uni_500, db_uni_200, db_longest_one) = annotation_stats
+		(tcode_array, seqs_number2, unk_200, tc_uni_500, tc_uni_200, tc_longest_one) = testcode_stats
+		(ncrna_total, nc_uni_500, nc_uni_200, nc_longest_one)=ncrna_stats
-		(status_array, seqs_number1, error_1_num, seq_uniq, complete_uniq, seq_length_stats, complete_seq_length_stats) = annotation_stats
-		(tcode_array, seqs_number2, tcode_length_stats, coding_length_stats, unknown_length_stats) = testcode_stats
-		ncrna_array=ncrna_stats
-		total_seqs = seqs_number1 + seqs_number2 + ncrna_array[4].to_i
+		total_seqs = seqs_number1 + seqs_number2 + ncrna_total.to_i
+		uni_500 = (db_uni_500 + tc_uni_500 + nc_uni_500)
+		uni_200 = (db_uni_200 + tc_uni_200 + nc_uni_200)
+		longest_one = [db_longest_one, tc_longest_one, nc_longest_one].max
 		stats_file.puts html_head
-		stats_file.puts "\t\t\t\t"+'<font color="#FF0000">'+total_seqs.to_s+"</font> sequences in your input fasta\n\t\t\t</h2>\n\t\t</center>"
 		if (total_seqs.to_i > 0)
-			stats_file.puts html_1
-			stats_file.puts '				<tr>
-						<td align="center">YES</td>
-						<td align="right">'+seqs_number1.to_s+'</td>
-						<td align="right">'+'%.2f' % (100*seqs_number1.to_f/total_seqs.to_f).to_s+' %</td>
-						<td align="right">'+seq_uniq.to_s+'</td>
-						<td align="right">'+seq_length_stats[0].to_s+'</td>
-						<td align="right">'+seq_length_stats[1].to_s+'</td>
-						<td align="right">'+seq_length_stats[2].to_s+'</td>
-						<td align="right">'+seq_length_stats[3].to_s+'</td>
-					</tr>'
-			stats_file.puts '				<tr>
-						<td align="center">NO</td>
-						<td align="right">'+seqs_number2.to_s+'</td>
-						<td align="right">'+'%.2f' % (100*seqs_number2.to_f/total_seqs.to_f).to_s+' %</td>
-						<td align="right">-</td>
-						<td align="right">'+tcode_length_stats[0].to_s+'</td>
-						<td align="right">'+tcode_length_stats[1].to_s+'</td>
-						<td align="right">'+tcode_length_stats[2].to_s+'</td>
-						<td align="right">'+tcode_length_stats[3].to_s+'</td>
-					</tr>'
-			stats_file.puts '				<tr>
-						<td align="center">ncRNA</td>
-						<td align="right">'+ncrna_array[4].to_s+'</td>
-						<td align="right">'+'%.2f' % (100*ncrna_array[4].to_f/total_seqs.to_f).to_s+' %</td>
-						<td align="right">-</td>
-						<td align="right">'+ncrna_array[0].to_s+'</td>
-						<td align="right">'+ncrna_array[1].to_s+'</td>
-						<td align="right">'+ncrna_array[2].to_s+'</td>
-						<td align="right">'+ncrna_array[3].to_s+'</td>
-					</tr>
-				</table>'
-			stats_file.puts '			<p><font color="#FF0000">'+error_1_num.to_s+'</font> Sequences with sense and antisense hits error</p>'
-			stats_file.puts '			<p><font color="#FF0000">'+complete_uniq.to_s+'</font> Complete sequences with different ortologue ID</p>'
-			stats_file.puts html_2
+			# imprimimos la tabla Status Report --------------------------------------------------------------------------------------------
+			stats_file.puts html_st
 			status_array.each do |status|
+				if (status[1] == 'Internal') || (status[1] == 'Misassembled')
 				stats_file.puts '				<tr>
-						<td align="right">'+status[4].to_s+'</td>
-						<td align="right">'+status[0].to_s+'</td>
-						<td align="right">'+'%.2f' % (100*status[0].to_f/total_seqs.to_f).to_s+' %</td>
-						<td align="right">'+status[1].to_s+'</td>
-						<td align="right">'+status[2].to_s+'</td>
-						<td align="right">'+status[3].to_s+'</td>
-					</tr>'
+					<td colspan="2" align="left">'+status[1].to_s+'</td>
+					<td align="right">'+status[0].to_s+'</td>
+					<td align="right">'+'%.2f' % (100*status[0].to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				elsif (status[1] =~ /^Putative/)
+				stats_file.puts '				<tr>
+					<td align="left">Putative</td>
+					<td align="right">'+status[0].to_s+'</td>
+					<td align="right">'+'%.2f' % (100*status[0].to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				else
+					stats_file.puts '				<tr>
+					<td rowspan="2" align="left">'+status[1].to_s+'</td>
+					<td align="left">Sure</td>
+					<td align="right">'+status[0].to_s+'</td>
+					<td align="right">'+'%.2f' % (100*status[0].to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				end
+				status_suma += status[0]
 			end
-			stats_file.puts html_3
+			# añadimos los coding, P.coding
 			tcode_array.each do |status|
+				if (status[1] == 'Coding')
 				stats_file.puts '				<tr>
-						<td align="right">'+status[5].to_s+'</td>
-						<td align="right">'+status[4].to_s+'</td>
-						<td align="right">'+'%.2f' % (100*status[4].to_f/total_seqs.to_f).to_s+' %</td>
-						<td align="right">'+status[0].to_s+'</td>
-						<td align="right">'+status[1].to_s+'</td>
-						<td align="right">'+status[2].to_s+'</td>
-						<td align="right">'+status[3].to_s+'</td>
-					</tr>'
+					<td  rowspan="2" align="left">'+status[1].to_s+'</td>
+					<td align="left">Sure</td>
+					<td align="right">'+status[0].to_s+'</td>
+					<td align="right">'+'%.2f' % (100*status[0].to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				elsif (status[1] == 'Putative Coding')
+				stats_file.puts '				<tr>
+					<td align="left">Putative</td>
+					<td align="right">'+status[0].to_s+'</td>
+					<td align="right">'+'%.2f' % (100*status[0].to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				end
+				status_suma += status[0]
 			end
-			# print Non coding RNA
+			# se ponen los ncRNA
 			stats_file.puts '				<tr>
-					<td align="right">Putative ncRNA</td>
-					<td align="right">'+ncrna_array[4].to_s+'</td>
-					<td align="right">'+'%.2f' % (100*ncrna_array[4].to_f/total_seqs.to_f).to_s+' %</td>
-					<td align="right">'+ncrna_array[0].to_s+'</td>
-					<td align="right">'+ncrna_array[1].to_s+'</td>
-					<td align="right">'+ncrna_array[2].to_s+'</td>
-					<td align="right">'+ncrna_array[3].to_s+'</td>
+					<td colspan="2" align="left">Putative ncRNA</td>
+					<td align="right">'+ncrna_total.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*ncrna_total.to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				status_suma += ncrna_total
+			# se ponen los unknown
+			tcode_array.each do |status|
+				if (status[1] =~ /Unknown/i)
+				stats_file.puts '				<tr>
+					<td colspan="2" align="left">'+status[1].to_s+'</td>
+					<td align="right">'+status[0].to_s+'</td>
+					<td align="right">'+'%.2f' % (100*status[0].to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				end
+			end
+			#se añade el total
+				stats_file.puts '				<tr>
+					<td colspan="2" align="left">Total</td>
+					<td align="right">'+status_suma.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*status_suma.to_f/total_seqs.to_f).to_s+' %</td>
 				</tr>
-			</table>
-		</center>'
-		end
-		stats_file.puts html_4
-		stats_file.close
-	end
+			</table>'
+			# imprimimos la tabla Unigene Report --------------------------------------------------------------------------------------------
+			new_genes = tcode_array[0][0] + tcode_array[1][0]
+			total_uni = (seqs_number1 + new_genes + ncrna_total + tcode_array[2][0])
+			stats_file.puts html_uni
+				stats_file.puts '				<tr>
+					<td align="left">With orthologue in DBs</td>
+					<td align="right">'+seqs_number1.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*seqs_number1.to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">Putative New Genes</td>
+					<td align="right">'+new_genes.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*new_genes.to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">ncRNAs</td>
+					<td align="right">'+ncrna_total.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*ncrna_total.to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">Unknown</td>
+					<td align="right">'+tcode_array[2][0].to_s+'</td>
+					<td align="right">'+'%.2f' % (100*tcode_array[2][0].to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">Total</td>
+					<td align="right">'+total_uni.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*total_uni.to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>
+			</table>'
-	def html_code
-		html_head = '<html>
-	<head>
-		<title>FLN Annotation Summary</title>
-	</head>
-	<body bgcolor="#FFFFFF">
-		<center>
-			<h1 ALIGN="center">
-				Full-LengtherNEXT
-				<br/>
-				Annotation summary
-			</h1>
-			<h2 align="center">'
-		html_1 = '
-		<center>
-			<table border=1>
-				<tr>
-					<th>Ortologue found</th>
-					<th>Sequences found</th>
-					<th>%</th>
-					<th>Different IDs</th>
-					<th>&gt;200 bp</th>
-					<th>&lt;200 bp</th>
-					<th>&gt;500 bp</th>
-					<th>&lt;500 bp</th>
+			# imprimimos la tabla Database Usage --------------------------------------------------------------------------------------------
+			stats_file.puts html_db
+			db_names=["UserDB", "SwissProt", "TrEMBL"]
+			total_db = 0
+			for i in 0..db_usage.length-1 do i
+				total_db += db_usage[i]
+				stats_file.puts '				<tr>
+					<td align="left">'+db_names[i].to_s+'</td>
+					<td align="right">'+db_usage[i].to_s+'</td>
+					<td align="right">'+'%.2f' % (100*db_usage[i].to_f/total_seqs.to_f).to_s+' %</td>
 				</tr>'
+			end
+			no_db = seqs_number2 + ncrna_total.to_i
+				stats_file.puts '				<tr>
+					<td align="left">None</td>
+					<td align="right">'+no_db.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*no_db.to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+			total_db += no_db
+				stats_file.puts '				<tr>
+					<td align="left">Total</td>
+					<td align="right">'+total_db.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*total_db.to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>
+			</table>'
-		html_2= '			<br/>
-			<table border=1>
-				<tr>
-					<th>Status</th>
-					<th>Total</th>
-					<th>%</th>
-					<th>UserDB</th>
-					<th>SwissProt</th>
-					<th>TrEMBL</th>
+			# imprimimos la tabla Report guiding assembly quality -------------------------------------------------------------
+			stats_file.puts html_as
+				stats_file.puts '				<tr>
+					<td align="left">Unigenes</td>
+					<td align="right">'+total_seqs.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*total_seqs.to_f/total_seqs.to_f).to_s+' %</td>
 				</tr>'
-		html_3= '			</table>
-			<br/>
-			<table border=1>
-				<tr>
-					<th>Status</th>
-					<th>Total</th>
-					<th>%</th>
-					<th>&gt;200 bp</th>
-					<th>&lt;200 bp</th>
-					<th>&gt;500 bp</th>
-					<th>&lt;500 bp</th>
+				stats_file.puts '				<tr>
+					<td align="left">Unigenes >500pb</td>
+					<td align="right">'+uni_500.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*uni_500.to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">Unigenes >200pb</td>
+					<td align="right">'+uni_200.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*uni_200.to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">Longest unigene</td>
+					<td align="right">'+longest_one.to_s+'</td>
+					<td align="right">-</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">With orthologue <sup>1</sup></td>
+					<td align="right">'+seqs_number1.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*seqs_number1.to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Different orthologue IDs</td>
+					<td align="right">'+seq_uniq.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*seq_uniq.to_f/seqs_number1.to_f).to_s+' %</td>
 				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Complete transcripts</td>
+					<td align="right">'+status_array[0][0].to_s+'</td>
+					<td align="right">'+'%.2f' % (100*status_array[0][0].to_f/seqs_number1.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Different complete transcripts</td>
+					<td align="right">'+complete_uniq.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*complete_uniq.to_f/seqs_number1.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Misassembled</td>
+					<td align="right">'+error_1_num.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*error_1_num.to_f/seqs_number1.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">Without orthologue <sup>1</sup></td>
+					<td align="right">'+no_db.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*seqs_number2.to_f/total_seqs.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Coding</td>
+					<td align="right">'+tcode_array[0][0].to_s+'</td>
+					<td align="right">'+'%.2f' % (100*tcode_array[0][0].to_f/no_db.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Putative Coding</td>
+					<td align="right">'+tcode_array[1][0].to_s+'</td>
+					<td align="right">'+'%.2f' % (100*tcode_array[1][0].to_f/no_db.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Putative ncRNA</td>
+					<td align="right">'+ncrna_total.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*ncrna_total.to_f/no_db.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Unknown (all)</td>
+					<td align="right">'+tcode_array[2][0].to_s+'</td>
+					<td align="right">'+'%.2f' % (100*tcode_array[2][0].to_f/no_db.to_f).to_s+' %</td>
+				</tr>'
+				stats_file.puts '				<tr>
+					<td align="left">&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Unknown < 200bp</td>
+					<td align="right">'+unk_200.to_s+'</td>
+					<td align="right">'+'%.2f' % (100*unk_200.to_f/no_db.to_f).to_s+' %</td>
+				</tr>
+			</table>
+			<sup>1</sup> Percents for subclassifications of this category were calculated using this line as 100% reference.'
-		html_4 = '	</body>
-</html>'
-		return [html_head, html_1, html_2, html_3, html_4]
+		end
+		stats_file.puts html_end
+		stats_file.close
 	end
-	def stats_my_db(db_name, array)
-		if (db_name !~ /^sp_/) && (db_name !~ /^tr_/)
-			array[1] += 1
-		elsif (db_name =~ /^sp_/)
-			array[2] += 1
-		elsif (db_name =~ /^tr_/)
-			array[3] += 1
+		def html_code
+			html_head = '<html>
+		<head>
+			<title>FLN Summary</title>
+		</head>
+		<body bgcolor="#FFFFFF">
+			<center>
+				<h1 align="center">
+					Full-LengtherNEXT Summary
+				</h1>'
+			html_1 = '
+				<h2 align="center">
+					Status report
+				</h2>
+				<table border="2" cellspacing="0" cellpadding="2">
+					<tr>
+						<th colspan="2">Status</th>
+						<th>Unigenes</th>
+						<th>%</th>
+					</tr>'
+			html_2= '
+				<h2 align="center">
+					Unigene report
+				</h2>
+				<table border="2" cellspacing="0" cellpadding="2">
+					<tr>
+						<th></th>
+						<th>Unigenes</th>
+						<th>%</th>
+					</tr>'
+			html_3= '
+				<h2 align="center">
+					Database usage
+				</h2>
+				<table border="2" cellspacing="0" cellpadding="2">
+					<tr>
+						<th></th>
+						<th>Unigenes</th>
+						<th>%</th>
+					</tr>'
+			html_4= '
+				<h2 align="center">
+					Report guiding assembly quality
+				</h2>
+				<table border="2" cellspacing="0" cellpadding="2">
+					<tr>
+						<th></th>
+						<th>Unigenes</th>
+						<th>%</th>
+					</tr>'
+			html_5 = '	</body>
+	</html>'
+			return [html_head, html_1, html_2, html_3, html_4, html_5]
 		end
-		return array
-	end
+		def annotation_stats
-	def annotation_stats
+			seqs_number = 0
+			array_of_all_accs = []
+			array_of_complete_accs = []
+			error_1_num = 0
+			uni_500 = 0
+			uni_200 = 0
+			longest_one = 0
-		seqs_number = 0
-		array_of_all_accs = []
-		array_of_complete_accs = []
-		error_1_num = 0
-		# >200, <200, >500, <500
-		seq_length_stats = [0,0,0,0]
-		# >200, <200, >500, <500
-		complete_seq_length_stats = [0,0,0,0]
-		status_array = []
-		# total, userdb, swissprotdb, trembl, status
-		complete = [0,0,0,0,'Complete']
-		putative_complete = [0,0,0,0,'Putative Complete']
-		c_terminus = [0,0,0,0,'C-terminus']
-		putative_c_terminus = [0,0,0,0,'Putative C-terminus']
-		n_terminus = [0,0,0,0,'N-terminus']
-		putative_n_terminus = [0,0,0,0,'Putative N-terminus']
-		internal = [0,0,0,0,'Internal']
-		cod_seq = [0,0,0,0,'Misassembled']
-		File.open('fln_results/annotations.txt').each do |line|
-			line.chomp!
-			(name,fasta_length,acc,db_name,status,kk1,kk2,kk3,kk4,kk5,msgs) = line.split("\t")
-			if (line !~ /^Query_id\t/) && (!line.empty?)
-				seqs_number += 1
-				array_of_all_accs.push acc
-				# -------------------------------------------------------------------------
-				if (fasta_length.to_i >= 200)
-					seq_length_stats[0] += 1
-					# seqs_longer_200 += 1
-				else
-					seq_length_stats[1] += 1
-					# seqs_shorter_200 += 1
-				end
-				if (fasta_length.to_i >= 500)
-					seq_length_stats[2] += 1
-					# seqs_longer_500 += 1
-				else
-					seq_length_stats[3] += 1
-					# seqs_shorter_500 += 1
-				end
-				# -------------------------------------------------------------------------
-				if (msgs =~ /ERROR#1/)
-					error_1_num += 1
-				end
-				# -------------------------------------------------------------------------
-				if (status == 'Complete')
-					complete[0] += 1
-					array_of_complete_accs.push acc
-					complete = stats_my_db(db_name, complete)
+			status_array = []
+			# total, status
+			complete = [0,'Complete']
+			putative_complete = [0,'Putative Complete']
+			c_terminus = [0,'C-terminus']
+			putative_c_terminus = [0,'Putative C-terminus']
+			n_terminus = [0,'N-terminus']
+			putative_n_terminus = [0,'Putative N-terminus']
+			internal = [0,'Internal']
+			cod_seq = [0,'Misassembled']
+			#userdb, SwissProt, TrEMBL
+			db_usage = [0,0,0]
+			File.open('fln_results/dbannotated.txt').each do |line|
+				line.chomp!
+				(name,fasta_length,acc,db_name,status,kk1,kk2,kk3,kk4,kk5,msgs) = line.split("\t")
+				if (line !~ /^Query_id\t/) && (!line.empty?)
+					seqs_number += 1
+					if (fasta_length.to_i > longest_one)
+						longest_one = fasta_length.to_i
+					end
+					array_of_all_accs.push acc
+					if (db_name !~ /^sp_/) && (db_name !~ /^tr_/)
+						db_usage[0] += 1
+					elsif (db_name =~ /^sp_/)
+						db_usage[1] += 1
+					elsif (db_name =~ /^tr_/)
+						db_usage[2] += 1
+					end
+					# -------------------------------------------------------------------------
 					if (fasta_length.to_i >= 200)
-						complete_seq_length_stats[0] += 1
-						# complete_longer_200 += 1
-					else
-						complete_seq_length_stats[1] += 1
-						# complete_shorter_200 += 1
+						uni_200 += 1
 					end
 					if (fasta_length.to_i >= 500)
-						complete_seq_length_stats[2] += 1
-						# complete_longer_500 += 1
-					else
-						complete_seq_length_stats[3] += 1
-						# complete_shorter_500 += 1
+						uni_500 += 1
+					end
+					# -------------------------------------------------------------------------
+					if (msgs =~ /ERROR#1/)
+						error_1_num += 1
 					end
-				elsif (status == 'Putative Complete')
-					putative_complete[0] += 1
-					putative_complete = stats_my_db(db_name, putative_complete)
-				elsif (status == 'C-terminus')
-					c_terminus[0] += 1
-					c_terminus = stats_my_db(db_name, c_terminus)
-				elsif (status == 'N-terminus')
-					n_terminus[0] += 1
-					n_terminus = stats_my_db(db_name, n_terminus)
-				elsif (status == 'Putative C-terminus')
-					putative_c_terminus[0] += 1
-					putative_c_terminus = stats_my_db(db_name, putative_c_terminus)
-				elsif (status == 'Putative N-terminus')
-					putative_n_terminus[0] += 1
-					putative_n_terminus = stats_my_db(db_name, putative_n_terminus)
-				elsif (status == 'Internal')
-					internal[0] += 1
-					internal = stats_my_db(db_name, internal)
-				elsif (status == 'Coding Seq')
-					cod_seq[0] += 1
-					cod_seq = stats_my_db(db_name, cod_seq)
+					# -------------------------------------------------------------------------
+					if (status == 'Complete')
+						complete[0] += 1
+						array_of_complete_accs.push acc
+					elsif (status == 'Putative Complete')
+						putative_complete[0] += 1
+					elsif (status == 'C-terminus')
+						c_terminus[0] += 1
+					elsif (status == 'N-terminus')
+						n_terminus[0] += 1
+					elsif (status == 'Putative C-terminus')
+						putative_c_terminus[0] += 1
+					elsif (status == 'Putative N-terminus')
+						putative_n_terminus[0] += 1
+					elsif (status == 'Internal')
+						internal[0] += 1
+					elsif (status == 'Misassembled')
+						cod_seq[0] += 1
+					end
+					# -------------------------------------------------------------------------
 				end
-				# -------------------------------------------------------------------------
 			end
+			status_array = [complete, putative_complete, c_terminus, putative_c_terminus, n_terminus, putative_n_terminus, internal, cod_seq]
+			return [status_array, db_usage, seqs_number, error_1_num, array_of_all_accs.uniq.count, array_of_complete_accs.uniq.count, uni_500, uni_200, longest_one]
 		end
-		status_array = [complete, putative_complete, c_terminus, putative_c_terminus, n_terminus, putative_n_terminus, internal, cod_seq]
-		return [status_array, seqs_number, error_1_num, array_of_all_accs.uniq.count, array_of_complete_accs.uniq.count, seq_length_stats, complete_seq_length_stats]
-	end
-	def testcode_stats
+		def testcode_stats
-		seqs_number = 0
-		# >200, <200, >500, <500
-		all_tcode_stats = [0,0,0,0]
+			seqs_number = 0
+			unk_200 = 0
+			uni_500 = 0
+			uni_200 = 0
+			longest_one = 0
-		# >200, <200, >500, <500, total, status
-		coding_length_stats = [0,0,0,0,0,'Coding']
-		p_coding_length_stats = [0,0,0,0,0,'Putative Coding']
-		unknown_length_stats = [0,0,0,0,0,'Unknown']
+			# total, status
+			coding_stats = [0,'Coding']
+			p_coding_stats = [0,'Putative Coding']
+			unknown_stats = [0,'Unknown']
-		File.open('fln_results/tcode_result.txt').each do |line|
-			line.chomp!
-			(name,fasta_length,acc,db_name,status) = line.split("\t")
+			File.open('fln_results/new_coding.txt').each do |line|
+				line.chomp!
+				(name,fasta_length,acc,db_name,status) = line.split("\t")
-			if (line !~ /^Query_id\t/) && (!line.empty?)
-				seqs_number += 1
-				if (fasta_length.to_i >= 200)
-					all_tcode_stats[0] += 1
-					if (status == 'coding')
-						coding_length_stats[4] += 1
-						coding_length_stats[0] += 1
-					elsif (status == 'putative_coding')
-						p_coding_length_stats[4] += 1
-						p_coding_length_stats[0] += 1
-					elsif (status == 'unknown')
-						unknown_length_stats[4] += 1
-						unknown_length_stats[0] += 1
+				if (line !~ /^Query_id\t/) && (!line.empty?)
+					seqs_number += 1
+					if (fasta_length.to_i > longest_one)
+						longest_one = fasta_length.to_i
 					end
-				else
-					all_tcode_stats[1] += 1
-					if (status == 'coding')
-						coding_length_stats[4] += 1
-						coding_length_stats[1] += 1
-					elsif (status == 'putative_coding')
-						p_coding_length_stats[4] += 1
-						p_coding_length_stats[1] += 1
-					elsif (status == 'unknown')
-						unknown_length_stats[4] += 1
-						unknown_length_stats[1] += 1
+					# -------------------------------------------------------------------------
+					if (fasta_length.to_i >= 200)
+						uni_200 += 1
 					end
-				end
-				if (fasta_length.to_i >= 500)
-					all_tcode_stats[2] += 1
-					if (status == 'coding')
-						coding_length_stats[2] += 1
-					elsif (status == 'putative_coding')
-						p_coding_length_stats[2] += 1
-					elsif (status == 'unknown')
-						unknown_length_stats[2] += 1
+					if (fasta_length.to_i >= 500)
+						uni_500 += 1
 					end
-				else
-					all_tcode_stats[3] += 1
+					# -------------------------------------------------------------------------
+					if (fasta_length.to_i < 200)
+						if (status == 'unknown')
+							unk_200 += 1
+						end
+					end
 					if (status == 'coding')
-						coding_length_stats[3] += 1
+						coding_stats[0] += 1
 					elsif (status == 'putative_coding')
-						p_coding_length_stats[3] += 1
+						p_coding_stats[0] += 1
 					elsif (status == 'unknown')
-						unknown_length_stats[3] += 1
+						unknown_stats[0] += 1
 					end
 				end
 			end
+			status_array = [coding_stats, p_coding_stats, unknown_stats]
+			return [status_array, seqs_number, unk_200, uni_500, uni_200, longest_one]
 		end
-		status_array = [coding_length_stats, p_coding_length_stats, unknown_length_stats]
-		return [status_array, seqs_number, all_tcode_stats, coding_length_stats, unknown_length_stats]
-	end
-	def ncrna_stats
+		def ncrna_stats
-		# >200, <200, >500, <500, total
-		ncrna_array = [0,0,0,0,0]
+			uni_500 = 0
+			uni_200 = 0
+			nc_total = 0
+			longest_one = 0
-		File.open('fln_results/nc_rna.txt').each do |line|
-			line.chomp!
-			(name,fasta_length,acc,db_name,status) = line.split("\t")
+			File.open('fln_results/nc_rnas.txt').each do |line|
+				line.chomp!
+				(name,fasta_length,acc,db_name,status) = line.split("\t")
+				if (status == 'Putative ncRNA')
+					if (fasta_length.to_i > longest_one)
+						longest_one = fasta_length.to_i
+					end
+					# -------------------------------------------------------------------------
+					if (fasta_length.to_i >= 200)
+						uni_200 += 1
+					end
+					if (fasta_length.to_i >= 500)
+						uni_500 += 1
+					end
+					# -------------------------------------------------------------------------
+					nc_total += 1
-			if (status == 'Putative ncRNA')
-				ncrna_array[4] += 1
-				if (fasta_length.to_i >= 200)
-					ncrna_array[0] += 1
-				else
-					ncrna_array[1] += 1
-				end
-				if (fasta_length.to_i >= 500)
-					ncrna_array[2] += 1
-				else
-					ncrna_array[3] += 1
 				end
 			end
+			return [nc_total, uni_500, uni_200, longest_one]
 		end
-		return ncrna_array
-	end
 end

data/lib/full_lengther_next/classes/my_worker_manager.rb CHANGED

@@ -22,16 +22,16 @@ class MyWorkerManager < ScbiMapreduce::WorkManager
 		@@chunk_size=chunk_size
 		@@options = options
-		@@annotation_file = File.open("fln_results/annotations.txt", 'w')
+		@@annotation_file = File.open("fln_results/dbannotated.txt", 'w')
 		@@annotation_file.puts file_head
 		@@alignment_file = File.open("fln_results/alignments.txt", 'w')
 		@@prot_file = File.open("fln_results/proteins.fasta", 'w')
 		@@nts_file = File.open("fln_results/nt_seq.txt", 'w')
-		@@tcode_file=File.open("fln_results/tcode_result.txt", 'w')
+		@@tcode_file=File.open("fln_results/new_coding.txt", 'w')
 		@@tcode_file.puts file_head
-		@@nc_rna_file = File.open("fln_results/nc_rna.txt", 'w')
+		@@nc_rna_file = File.open("fln_results/nc_rnas.txt", 'w')
 		@@nc_rna_file.puts file_head
 		# @@error_fasta_file = File.open("fln_results/error_seqs.fasta", 'w')

data/lib/full_lengther_next/classes/nc_rna.rb CHANGED

@@ -11,7 +11,7 @@ module NcRna
 		q=blast_query
 		if (!q.hits[0].nil?) # There is match in blast.
-			nc_annotations = "#{q.query_def}\t#{seq.seq_fasta.length}\t#{q.hits[0].acc}\tncRNA\tPutative ncRNA\t\t#{q.hits[0].e_val}\t#{q.hits[0].ident}\t\t\t\t#{q.hits[0].q_frame}\t#{q.hits[0].q_beg}\t#{q.hits[0].q_end}\t#{q.hits[0].s_beg.to_i}\t#{q.hits[0].s_end.to_i}\t#{q.hits[0].definition}\t"
+			nc_annotations = "#{q.query_def}\t#{seq.fasta_length}\t#{q.hits[0].acc}\tncRNA\tPutative ncRNA\t\t#{q.hits[0].e_val}\t#{q.hits[0].ident}\t\t\t\t#{q.hits[0].q_frame}\t#{q.hits[0].q_beg}\t#{q.hits[0].q_end}\t#{q.hits[0].s_beg.to_i}\t#{q.hits[0].s_end.to_i}\t#{q.hits[0].definition}\t"
 			seq.annotate(:ncrna,nc_annotations,true)
 		else
 			unknown_annot = seq.get_annotations(:tcode_unknown).first

data/lib/full_lengther_next/classes/sequence.rb CHANGED

@@ -3,11 +3,13 @@ require 'orf'
 class Sequence
-	attr_accessor :seq_name,:seq_fasta,:seq_qual,:orfs,:sec_desc
+	attr_accessor :seq_name,:seq_fasta,:seq_qual,:orfs,:sec_desc,:fasta_length
 	def initialize(seq_name,seq_fasta,seq_qual='')
+		fasta_ori = seq_fasta.dup
 		@seq_name=seq_name
 		@seq_fasta = seq_fasta
+		@fasta_length = fasta_ori.length
 		change_degenerated_nt!
 		@seq_qual = ''
 		@sec_desc = ''

data/lib/full_lengther_next/classes/test_code.rb CHANGED

@@ -18,7 +18,7 @@ class TestCode
 		protein = ''
 		p_long = 0
-		if (seq.seq_fasta.length < 200)
+		if (seq.fasta_length < 200)
 			ref_name = seq.seq_name
 			ref_code = 0.0
 			ref_frame = 0
@@ -26,7 +26,7 @@ class TestCode
 			ref_orf = ''
 			ref_msgs = 'Sequence length < 200 nt'
-			seq.annotate(:tcode_unknown,"#{ref_name}\t#{seq.seq_fasta.length}\t\ttestcode\t#{ref_status}\t#{ref_code}\t\t\t\t\t#{ref_msgs}\t#{ref_frame}\t#{ref_start}\t#{ref_end}\t\t\t\t",true)
+			seq.annotate(:tcode_unknown,"#{ref_name}\t#{seq.fasta_length}\t\ttestcode\t#{ref_status}\t#{ref_code}\t\t\t\t\t#{ref_msgs}\t#{ref_frame}\t#{ref_start}\t#{ref_end}\t\t\t\t",true)
 			# seq.annotate(:tcode,"#{ref_name}\t#{seq.seq_fasta.length}\t\ttestcode\t#{ref_status}\t#{ref_code}\t\t\t\t\t#{ref_msgs}\t#{ref_frame}\t#{ref_start}\t#{ref_end}\t\t\t\t",true)
 		else
@@ -45,9 +45,9 @@ class TestCode
 			# see add_region filter
 			(name,t_code,status,ref_start,ref_end,ref_frame,orf,ref_msgs,stop_before_start,more_than_one_frame) = t_code(seq)
 			if (status == :unknown)
-				seq.annotate(:tcode_unknown,"#{name}\t#{seq.seq_fasta.length}\t\ttestcode\t#{status}\t#{t_code}\t\t\t\t\t#{ref_msgs}\t#{ref_frame}\t#{ref_start}\t#{ref_end}\t\t\t\t",true)
+				seq.annotate(:tcode_unknown,"#{name}\t#{seq.fasta_length}\t\ttestcode\t#{status}\t#{t_code}\t\t\t\t\t#{ref_msgs}\t#{ref_frame}\t#{ref_start}\t#{ref_end}\t\t\t\t",true)
 			else
-				seq.annotate(:tcode,"#{name}\t#{seq.seq_fasta.length}\t\ttestcode\t#{status}\t#{t_code}\t\t\t\t\t#{ref_msgs}\t#{ref_frame}\t#{ref_start}\t#{ref_end}\t\t\t\t",true)
+				seq.annotate(:tcode,"#{name}\t#{seq.fasta_length}\t\ttestcode\t#{status}\t#{t_code}\t\t\t\t\t#{ref_msgs}\t#{ref_frame}\t#{ref_start}\t#{ref_end}\t\t\t\t",true)
 			end
 			# if (ref_msgs.nil?)

metadata CHANGED

@@ -2,7 +2,7 @@
 name: full_lengther_next
 version: !ruby/object:Gem::Version
   prerelease:
-  version: 0.0.5
+  version: 0.0.6
 platform: ruby
 authors:
 - Noe Fernandez & Dario Guerrero
@@ -10,7 +10,7 @@ autorequire:
 bindir: bin
 cert_chain: []
-date: 2012-03-09 00:00:00 Z
+date: 2012-04-16 00:00:00 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: xml-simple