RubyGems - protk - Versions diffs - 1.4.3 → 1.4.4.beta1 - Mend

protk 1.4.3 → 1.4.4.beta1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (8) hide show

checksums.yaml +4 -4
data/bin/mzid_to_protxml.rb +7 -0
data/lib/protk/data/template_prot.xml +0 -36
data/lib/protk/mzidentml_doc.rb +17 -5
data/lib/protk/peptide.rb +1 -1
data/lib/protk/protein_summary.rb +113 -0
data/lib/protk/protxml_writer.rb +21 -1
metadata +4 -3

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 31df514a2203236ea9ac25f8d5cc9c282378e04d
-  data.tar.gz: f1bb438ef01003afc166eb5b0342dbd8f6ecd09b
+  metadata.gz: 6b769808b35e55e6f9c74b11704e57153e6276cc
+  data.tar.gz: ba8003573127b2912a64995a76e2204af3213851
 SHA512:
-  metadata.gz: 7f7f0fe81411f17b89037162ad7bf5374be69309888bda2f84b058d69773dd1790469d40dd5797e0306ce49ecc95426cfb80b65bfcb95ac0a052be90db40ea42
-  data.tar.gz: f2db6018ac90079e925f7c5c071be3fbedd77bc3787cfc58a91aa38048f43f60426020a3bff3a5a58c4bea6d71aaad7c0ab10437e050eaf1998792ca6ab2e1dd
+  metadata.gz: 7de51d2b7a77625abd3f0042057a7fc689f986e8fbf30b257b4d48930983445a26c6dac23fe8b1f7e3e96855fa47152f3731a2c29443c72cac84aaf56ae751c5
+  data.tar.gz: 9a4d1fd1644cbb2e6a067173fa59a8bb99570eb4b1d4878272267b36140a01c4893568ca12a0afef77db1b1c626745f162f183ba1cd9afcaef78a0802072f605

data/bin/mzid_to_protxml.rb CHANGED

@@ -12,6 +12,7 @@ require 'protk/constants'
 require 'protk/command_runner'
 require 'protk/mzidentml_doc'
 require 'protk/protein_group'
+require 'protk/protein_summary'
 require 'protk/tool'
 include LibXML
@@ -45,6 +46,10 @@ prot_xml_writer = ProtXMLWriter.new
 $protk.log "Parsing MzIdentML input file" , :info
 mzid_doc = MzIdentMLDoc.new(input_file)
+header = ProteinSummary.from_mzid(mzid_doc)
+prot_xml_writer.append_header(header)
 protein_groups = mzid_doc.protein_groups
 n_prots = protein_groups.length
@@ -77,4 +82,6 @@ end
 $protk.log "Writing #{n_written} proteins to #{output_file_name}", :info
+prot_xml_writer.append_dataset_derivation
 prot_xml_writer.save(output_file_name)

data/lib/protk/data/template_prot.xml CHANGED

@@ -1,39 +1,3 @@
 <?xml version="1.0" encoding="UTF-8"?>
 <protein_summary xmlns="http://regis-web.systemsbiology.net/protXML" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://sashimi.sourceforge.net/schema_revision/protXML/protXML_v6.xsd" summary_xml="">
-<protein_summary_header reference_database="FULLPATH_TO_REFERENCE_DB" residue_substitution_list="I -&gt; L" source_files="FULLPATH_TO_SOURCE_PEPXML" source_files_alt="FULLPATH_TO_SOURCE_PEPXML" min_peptide_probability="" min_peptide_weight="" num_predicted_correct_prots="" num_input_1_spectra="" num_input_2_spectra="" num_input_3_spectra="" num_input_4_spectra="" num_input_5_spectra="" initial_min_peptide_prob="" total_no_spectrum_ids="" sample_enzyme="trypsin">
-<program_details analysis="proteinprophet" time="2014-01-20T14:17:37" version=" Insilicos_LabKey_C++ (TPP v0.0 Development trunk rev 0, Build 201307090846 (linux))">
-<proteinprophet_details occam_flag="Y" groups_flag="Y" degen_flag="Y" nsp_flag="Y" initial_peptide_wt_iters="2" nsp_distribution_iters="2" final_peptide_wt_iters="3">
-      <nsp_information neighboring_bin_smoothing="Y">
-         <nsp_distribution bin_no="0" nsp_lower_bound_incl="0.00" nsp_upper_bound_incl="0.00" pos_freq="0.057" neg_freq="0.625" pos_to_neg_ratio="0.09"/>
-         <nsp_distribution bin_no="1" nsp_lower_bound_excl="0.00" nsp_upper_bound_incl="0.31" pos_freq="0.037" neg_freq="0.152" pos_to_neg_ratio="0.24"/>
-         <nsp_distribution bin_no="2" nsp_lower_bound_excl="0.31" nsp_upper_bound_incl="1.00" pos_freq="0.077" neg_freq="0.032" pos_to_neg_ratio="2.42"/>
-         <nsp_distribution bin_no="3" nsp_lower_bound_excl="1.00" nsp_upper_bound_incl="2.50" pos_freq="0.113" neg_freq="0.033" pos_to_neg_ratio="3.39"/>
-         <nsp_distribution bin_no="4" nsp_lower_bound_excl="2.50" nsp_upper_bound_incl="4.63" pos_freq="0.123" neg_freq="0.032" pos_to_neg_ratio="3.91"/>
-         <nsp_distribution bin_no="5" nsp_lower_bound_excl="4.63" nsp_upper_bound_incl="7.90" pos_freq="0.143" neg_freq="0.032" pos_to_neg_ratio="4.50"/>
-         <nsp_distribution bin_no="6" nsp_lower_bound_excl="7.90" nsp_upper_bound_incl="14.92" pos_freq="0.196" neg_freq="0.041" pos_to_neg_ratio="4.78"/>
-         <nsp_distribution bin_no="7" nsp_lower_bound_excl="14.92" nsp_upper_bound_excl="inf" pos_freq="0.254" neg_freq="0.054" pos_to_neg_ratio="4.72" alt_pos_to_neg_ratio="4.78"/>
-      </nsp_information>
-      <ni_information>
-      </ni_information>
-      <protein_summary_data_filter min_probability="0.00" sensitivity="1.000" false_positive_error_rate="0.835" predicted_num_correct="1787" predicted_num_incorrect="9044"/>
-      <protein_summary_data_filter min_probability="0.10" sensitivity="1.000" false_positive_error_rate="0.235" predicted_num_correct="1787" predicted_num_incorrect="548"/>
-      <protein_summary_data_filter min_probability="0.20" sensitivity="1.000" false_positive_error_rate="0.235" predicted_num_correct="1787" predicted_num_incorrect="548"/>
-      <protein_summary_data_filter min_probability="0.30" sensitivity="0.956" false_positive_error_rate="0.151" predicted_num_correct="1709" predicted_num_incorrect="305"/>
-      <protein_summary_data_filter min_probability="0.40" sensitivity="0.916" false_positive_error_rate="0.095" predicted_num_correct="1638" predicted_num_incorrect="171"/>
-      <protein_summary_data_filter min_probability="0.50" sensitivity="0.887" false_positive_error_rate="0.063" predicted_num_correct="1585" predicted_num_incorrect="106"/>
-      <protein_summary_data_filter min_probability="0.60" sensitivity="0.853" false_positive_error_rate="0.036" predicted_num_correct="1525" predicted_num_incorrect="58"/>
-      <protein_summary_data_filter min_probability="0.70" sensitivity="0.826" false_positive_error_rate="0.020" predicted_num_correct="1477" predicted_num_incorrect="31"/>
-      <protein_summary_data_filter min_probability="0.80" sensitivity="0.805" false_positive_error_rate="0.012" predicted_num_correct="1438" predicted_num_incorrect="18"/>
-      <protein_summary_data_filter min_probability="0.90" sensitivity="0.773" false_positive_error_rate="0.006" predicted_num_correct="1381" predicted_num_incorrect="8"/>
-      <protein_summary_data_filter min_probability="0.95" sensitivity="0.749" false_positive_error_rate="0.004" predicted_num_correct="1339" predicted_num_incorrect="5"/>
-      <protein_summary_data_filter min_probability="0.96" sensitivity="0.738" false_positive_error_rate="0.003" predicted_num_correct="1318" predicted_num_incorrect="4"/>
-      <protein_summary_data_filter min_probability="0.97" sensitivity="0.728" false_positive_error_rate="0.002" predicted_num_correct="1302" predicted_num_incorrect="3"/>
-      <protein_summary_data_filter min_probability="0.98" sensitivity="0.711" false_positive_error_rate="0.002" predicted_num_correct="1272" predicted_num_incorrect="2"/>
-      <protein_summary_data_filter min_probability="0.99" sensitivity="0.609" false_positive_error_rate="0.000" predicted_num_correct="1088" predicted_num_incorrect="0"/>
-      <protein_summary_data_filter min_probability="1.00" sensitivity="0.164" false_positive_error_rate="0.000" predicted_num_correct="294" predicted_num_incorrect="0"/>
-</proteinprophet_details>
-</program_details>
-</protein_summary_header>
-<dataset_derivation generation_no="0">
-</dataset_derivation>
 </protein_summary>

data/lib/protk/mzidentml_doc.rb CHANGED

@@ -37,6 +37,21 @@ class MzIdentMLDoc < Object
 		@document=parser.parse
 	end
+	def source_files
+		@document.find("//#{MZID_NS_PREFIX}:SourceFile","#{MZID_NS_PREFIX}:#{MZID_NS}")
+	end
+	def search_databases
+		@document.find("//#{MZID_NS_PREFIX}:SearchDatabase","#{MZID_NS_PREFIX}:#{MZID_NS}")
+	end
+	def enzymes
+		@document.find("//#{MZID_NS_PREFIX}:Enzyme","#{MZID_NS_PREFIX}:#{MZID_NS}")
+	end
+	def analysis_software
+		@document.find("//#{MZID_NS_PREFIX}:AnalysisSoftware","#{MZID_NS_PREFIX}:#{MZID_NS}")
+	end
 	def spectrum_queries
 		@document.find("//#{MZID_NS_PREFIX}:SpectrumIdentificationResult","#{MZID_NS_PREFIX}:#{MZID_NS}")
@@ -130,10 +145,7 @@ class MzIdentMLDoc < Object
 	# 	<SpectrumIdentificationItemRef spectrumIdentificationItem_ref="SII_1_1"/>
 	# </PeptideHypothesis>
 	def get_best_psm_for_peptide(peptide_node)
-		best_score=-1
+		best_score=nil
 		best_psm=nil
 		spectrumidrefs = self.find(peptide_node,"SpectrumIdentificationItemRef")
 		Constants.instance.log "Searching from among #{spectrumidrefs.length} for best psm" , :debug
@@ -143,7 +155,7 @@ class MzIdentMLDoc < Object
 			# psm_node = self.find(peptide_node,"SpectrumIdentificationItem[@id=\'#{id_ref}\']",true)[0]
 			psm_node = self.psms_cache[id_ref]
 			score = self.get_cvParam(psm_node,"MS:1002466")['value'].to_f
-			if score>best_score
+			if ( best_score == nil ) || ( score > best_score )
 				best_psm=psm_node
 				best_score=score
 			end

data/lib/protk/peptide.rb CHANGED

@@ -49,7 +49,7 @@ class Peptide
 			pep=new()
 			pep.sequence=mzid_doc.get_sequence_for_peptide(xmlnode)
 			best_psm = mzid_doc.get_best_psm_for_peptide(xmlnode)
-			# require 'byebug';byebug
+			# require 'byebug';byebug if !best_psm
 			pep.probability = mzid_doc.get_cvParam(best_psm,"MS:1002466")['value'].to_f
 			pep.theoretical_neutral_mass = mzid_doc.get_cvParam(best_psm,"MS:1001117")['value'].to_f
 			pep.charge = best_psm.attributes['chargeState'].to_i

data/lib/protk/protein_summary.rb ADDED

@@ -0,0 +1,113 @@
+require 'protk/mzidentml_doc'
+require 'protk/protxml_writer'
+include LibXML
+# Represents the protein_summary node of a protXML document
+# This is the root of the document
+#
+class ProteinSummary
+	attr_accessor :reference_database
+	attr_accessor :residue_substitution_list
+	attr_accessor :source_files
+	attr_accessor :source_files_alt
+	attr_accessor :min_peptide_probability
+	attr_accessor :min_peptide_weight
+	attr_accessor :num_predicted_correct_prots
+	attr_accessor :num_input_1_spectra
+	attr_accessor :num_input_2_spectra
+	attr_accessor :num_input_3_spectra
+	attr_accessor :num_input_4_spectra
+	attr_accessor :num_input_5_spectra
+	attr_accessor :initial_min_peptide_prob
+	attr_accessor :total_no_spectrum_ids
+	attr_accessor :sample_enzyme
+	attr_accessor :program_name
+	attr_accessor :analysis_time
+	attr_accessor :program_version
+	class << self
+		def from_mzid(mzid_doc)
+			summary = new()
+			# Things we cant retrieve
+			summary.residue_substitution_list = ""
+			summary.min_peptide_probability = ""
+			summary.min_peptide_weight = ""
+			summary.num_predicted_correct_prots = ""
+			summary.num_input_1_spectra = ""
+			summary.num_input_2_spectra = ""
+			summary.num_input_3_spectra = ""
+			summary.num_input_4_spectra = ""
+			summary.num_input_5_spectra = ""
+			summary.initial_min_peptide_prob = ""
+			summary.total_no_spectrum_ids = ""
+			summary.analysis_time = ""
+			db = mzid_doc.search_databases.first
+			summary.reference_database = db.attributes['location']
+			summary.source_files = mzid_doc.source_files.collect { |sf| sf.attributes['location'] }
+			summary.source_files_alt = summary.source_files
+			summary.sample_enzyme = mzid_doc.enzymes.first.attributes['name']
+			if mzid_doc.enzymes.first.attributes['semiSpecific']=="true"
+				summary.sample_enzyme = "semi#{summary.sample_enzyme}"
+			end
+			analysis_software = mzid_doc.analysis_software.first
+			summary.program_name = analysis_software.attributes['name']
+			summary.program_version = analysis_software.attributes['version']
+			summary
+		end
+		private :new
+	end
+	def initialize()
+	end
+	def as_protxml()
+		node = XML::Node.new('protein_summary_header')
+		# node.space_preserve=true
+		node["reference_database"] = self.reference_database
+		node["min_peptide_probability"] = self.min_peptide_probability
+		node["min_peptide_weight"] = self.min_peptide_weight
+		node["num_predicted_correct_prots"] = self.num_predicted_correct_prots
+		node["num_input_1_spectra"] = self.num_input_1_spectra
+		node["num_input_2_spectra"] = self.num_input_2_spectra
+		node["num_input_3_spectra"] = self.num_input_3_spectra
+		node["num_input_4_spectra"] = self.num_input_4_spectra
+		node["num_input_5_spectra"] = self.num_input_5_spectra
+		node["initial_min_peptide_prob"] = self.initial_min_peptide_prob
+		node["total_no_spectrum_ids"] = self.total_no_spectrum_ids
+		node["sample_enzyme"] = self.sample_enzyme
+		cnode = XML::Node.new('program_details')
+		# node.space_preserve=true
+		cnode["program_name"] = self.program_name
+		cnode["analysis_time"] = self.analysis_time
+		cnode["program_version"] = self.program_version
+#		require 'byebug';byebug
+		node << cnode
+		# ddnode = XML::Node.new('dataset_derivation')
+		# ddnode["generation_no"]="0"
+		# node << ddnode
+  	node
+	end
+end

data/lib/protk/protxml_writer.rb CHANGED

@@ -7,12 +7,22 @@ class ProtXMLWriter < Object
 	attr :template_doc
 	attr :protein_summary_node
+	XML.indent_tree_output = true
 	def initialize
 		template_path="#{File.dirname(__FILE__)}/data/template_prot.xml"
-		template_parser=XML::Parser.file(template_path)
+		template_parser=XML::Parser.file(template_path)#,:options => XML::Parser::Options::NOBLANKS)
 		@template_doc=template_parser.parse
 		@protein_summary_node=@template_doc.root
+		# @protein_summary_node.space_preserve=true
+		@protein_summary_node.content=""
+		puts @template_doc
+	end
+	def append_header(header_node)
+		# require 'byebug';byebug
+		@protein_summary_node << header_node.as_protxml
 	end
 	def append_protein_group(pg_node)
@@ -20,7 +30,17 @@ class ProtXMLWriter < Object
 		@protein_summary_node << pg_node
 	end
+	def append_dataset_derivation()
+		ddnode = XML::Node.new('dataset_derivation')
+		ddnode["generation_no"]="0"
+		@protein_summary_node << ddnode
+	end
 	def save(file_path)
+		# puts XML.indent_tree_output
+		# puts "|#{XML.default_tree_indent_string}|"
+		XML.indent_tree_output = true
+		# puts @template_doc.to_s
 		@template_doc.save(file_path,:indent=>true,:encoding => XML::Encoding::UTF_8)
 	end

metadata CHANGED

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: protk
 version: !ruby/object:Gem::Version
-  version: 1.4.3
+  version: 1.4.4.beta1
 platform: ruby
 authors:
 - Ira Cooke
@@ -299,6 +299,7 @@ files:
 - lib/protk/prophet_tool.rb
 - lib/protk/protein.rb
 - lib/protk/protein_group.rb
+- lib/protk/protein_summary.rb
 - lib/protk/protein_to_genome_mapper.rb
 - lib/protk/protxml_to_gff_tool.rb
 - lib/protk/protxml_writer.rb
@@ -328,9 +329,9 @@ required_ruby_version: !ruby/object:Gem::Requirement
       version: '0'
 required_rubygems_version: !ruby/object:Gem::Requirement
   requirements:
-  - - '>='
+  - - '>'
     - !ruby/object:Gem::Version
-      version: '0'
+      version: 1.3.1
 requirements: []
 rubyforge_project:
 rubygems_version: 2.2.1