RubyGems - protk - Versions diffs - 1.4.1 → 1.4.2 - Mend

protk 1.4.1 → 1.4.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (24) hide show

checksums.yaml +4 -4
data/README.md +32 -15
data/bin/mzid_to_pepxml.rb +75 -0
data/bin/mzid_to_protxml.rb +77 -0
data/bin/protxml_to_gff.rb +1 -1
data/bin/sixframe.rb +24 -5
data/bin/spectrast_create.rb +125 -0
data/bin/spectrast_filter.rb +108 -0
data/lib/protk/command_runner.rb +1 -1
data/lib/protk/data/template_pep.xml +34 -0
data/lib/protk/data/template_prot.xml +39 -0
data/lib/protk/mzidentml_doc.rb +140 -0
data/lib/protk/mzml_parser.rb +9 -0
data/lib/protk/peptide.rb +39 -5
data/lib/protk/pepxml_writer.rb +24 -0
data/lib/protk/physical_constants.rb +1 -0
data/lib/protk/protein.rb +64 -1
data/lib/protk/protein_group.rb +70 -0
data/lib/protk/protxml_writer.rb +27 -0
data/lib/protk/psm.rb +222 -0
data/lib/protk/search_tool.rb +1 -6
data/lib/protk/sniffer.rb +35 -0
data/lib/protk/spectrum_query.rb +132 -0
metadata +20 -2

data/lib/protk/physical_constants.rb ADDED Viewed

	@@ -0,0 +1 @@
1	+ HYDROGEN_MASS=1.00794

data/lib/protk/protein.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 require 'protk/peptide'
+require 'protk/mzidentml_doc'
 include LibXML
@@ -14,6 +15,21 @@ class Protein
 	attr_accessor :percent_coverage
 	attr_accessor :peptides
+	def as_protxml
+		node = XML::Node.new('protein')
+    	node['protein_name']=self.protein_name.to_s
+    	node['n_indistinguishable_proteins']=self.n_indistinguishable_proteins.to_s
+    	node['probability']=self.probability.to_s
+    	node['percent_coverage']=self.percent_coverage.to_s
+    	node['unique_stripped_peptides']=self.peptides.collect {|p| p.sequence }.join("+")
+    	node['total_number_peptides']=self.peptides.length.to_s
+    	self.peptides.each do |peptide|
+    		node<<peptide.as_protxml
+    	end
+    	node
+	end
 	class << self
 		# <protein_group group_number="1" probability="1.0000">
@@ -46,6 +62,52 @@ class Protein
 			prot.peptides = peptide_nodes.collect { |e| Peptide.from_protxml(e) }
 			prot
 		end
+		# <ProteinAmbiguityGroup id="PAG_0">
+		# 	<ProteinDetectionHypothesis id="PAG_0_1" dBSequence_ref="JEMP01000193.1_rev_g3500.t1 280755" passThreshold="false">
+		# 		<PeptideHypothesis peptideEvidence_ref="PepEv_1">
+		# 			<SpectrumIdentificationItemRef spectrumIdentificationItem_ref="SII_1_1"/>
+		# 		</PeptideHypothesis>
+		# 		<cvParam cvRef="PSI-MS" accession="MS:1002403" name="group representative"/>
+		# 		<cvParam cvRef="PSI-MS" accession="MS:1002401" name="leading protein"/>
+		# 		<cvParam cvRef="PSI-MS" accession="MS:1001093" name="sequence coverage" value="0.0"/>
+		# 	</ProteinDetectionHypothesis>
+		# 	<cvParam cvRef="PSI-MS" accession="MS:1002470" name="PeptideShaker protein group score" value="0.0"/>
+		# 	<cvParam cvRef="PSI-MS" accession="MS:1002471" name="PeptideShaker protein group confidence" value="0.0"/>
+		# 	<cvParam cvRef="PSI-MS" accession="MS:1002545" name="PeptideShaker protein confidence type" value="Not Validated"/>
+		# 	<cvParam cvRef="PSI-MS" accession="MS:1002415" name="protein group passes threshold" value="false"/>
+		# </ProteinAmbiguityGroup>
+		# Note:
+		# This is hacked together to work for a specific PeptideShaker output type
+		# Refactor and properly respect cvParams for real conversion
+		#
+		def from_mzid(xmlnode)
+			coverage_cvparam=""
+			prot=new()
+			groupnode = xmlnode.parent
+			prot.group_number=groupnode.attributes['id'].split("_").last.to_i+1
+			prot.protein_name=MzIdentMLDoc.get_dbsequence(xmlnode,xmlnode.attributes['dBSequence_ref']).attributes['accession']
+			prot.n_indistinguishable_proteins=MzIdentMLDoc.get_proteins_for_group(groupnode).length
+			prot.group_probability=MzIdentMLDoc.get_cvParam(groupnode,"MS:1002470").attributes['value'].to_f
+			coverage_node=MzIdentMLDoc.get_cvParam(xmlnode,"MS:1001093")
+			prot.percent_coverage=coverage_node.attributes['value'].to_f if coverage_node
+			prot.probability = MzIdentMLDoc.get_protein_probability(xmlnode)
+			# require 'byebug';byebug
+			peptide_nodes=MzIdentMLDoc.get_peptides_for_protein(xmlnode)
+			prot.peptides = peptide_nodes.collect { |e| Peptide.from_mzid(e) }
+			prot
+		end
 		private :new
 	end
@@ -62,11 +124,12 @@ class Protein
 			if best_peptides[seq].nil?
 				best_peptides[seq]=peptide
 			else
-				best_peptides[seq]=peptide if peptide.nsp_adjusted_probability > best_peptides[seq].nsp_adjusted_probability
+				best_peptides[seq]=peptide if peptide.probability > best_peptides[seq].probability
 			end
 		end
 		best_peptides.values
 	end
 end

data/lib/protk/protein_group.rb ADDED Viewed

@@ -0,0 +1,70 @@
+require 'protk/peptide'
+require 'protk/protein'
+require 'protk/mzidentml_doc'
+require 'protk/protxml_writer'
+include LibXML
+class ProteinGroup
+	attr_accessor :group_number
+	attr_accessor :group_probability
+	attr_accessor :proteins
+	class << self
+		# <ProteinAmbiguityGroup id="PAG_0">
+		# 	<ProteinDetectionHypothesis id="PAG_0_1" dBSequence_ref="JEMP01000193.1_rev_g3500.t1 280755" passThreshold="false">
+		# 		<PeptideHypothesis peptideEvidence_ref="PepEv_1">
+		# 			<SpectrumIdentificationItemRef spectrumIdentificationItem_ref="SII_1_1"/>
+		# 		</PeptideHypothesis>
+		# 		<cvParam cvRef="PSI-MS" accession="MS:1002403" name="group representative"/>
+		# 		<cvParam cvRef="PSI-MS" accession="MS:1002401" name="leading protein"/>
+		# 		<cvParam cvRef="PSI-MS" accession="MS:1001093" name="sequence coverage" value="0.0"/>
+		# 	</ProteinDetectionHypothesis>
+		# 	<cvParam cvRef="PSI-MS" accession="MS:1002470" name="PeptideShaker protein group score" value="0.0"/>
+		# 	<cvParam cvRef="PSI-MS" accession="MS:1002471" name="PeptideShaker protein group confidence" value="0.0"/>
+		# 	<cvParam cvRef="PSI-MS" accession="MS:1002545" name="PeptideShaker protein confidence type" value="Not Validated"/>
+		# 	<cvParam cvRef="PSI-MS" accession="MS:1002415" name="protein group passes threshold" value="false"/>
+		# </ProteinAmbiguityGroup>
+		# Note:
+		# This is hacked together to work for a specific PeptideShaker output type
+		# Refactor and properly respect cvParams for real conversion
+		#
+		def from_mzid(groupnode)
+			group=new()
+			group.group_number=groupnode.attributes['id'].split("_").last.to_i+1
+			group.group_probability=MzIdentMLDoc.get_cvParam(groupnode,"MS:1002470").attributes['value'].to_f
+			# require 'byebug';byebug
+			protein_nodes=MzIdentMLDoc.get_proteins_for_group(groupnode)
+			group.proteins = protein_nodes.collect { |e| Protein.from_mzid(e) }
+			group
+		end
+		private :new
+	end
+	def initialize()
+	end
+	def as_protxml()
+		node = XML::Node.new('protein_group')
+    	node["group_number"] = self.group_number.to_s
+    	node["group_probability"] = self.group_probability.to_s
+    	self.proteins.each { |prot| node << prot.as_protxml }
+    	node
+	end
+end

data/lib/protk/protxml_writer.rb ADDED Viewed

@@ -0,0 +1,27 @@
+include LibXML
+class ProtXMLWriter < Object
+	PROTXML_NS_PREFIX="protxml"
+	PROTXML_NS="http://regis-web.systemsbiology.net/protXML"
+	attr :template_doc
+	attr :protein_summary_node
+	def initialize
+		template_path="#{File.dirname(__FILE__)}/data/template_prot.xml"
+		template_parser=XML::Parser.file(template_path)
+		@template_doc=template_parser.parse
+		@protein_summary_node=@template_doc.root
+	end
+	def append_protein_group(pg_node)
+		# require 'byebug';byebug
+		@protein_summary_node << pg_node
+	end
+	def save(file_path)
+		@template_doc.save(file_path,:indent=>true,:encoding => XML::Encoding::UTF_8)
+	end
+end

data/lib/protk/psm.rb ADDED Viewed

@@ -0,0 +1,222 @@
+require 'protk/mzidentml_doc'
+require 'libxml'
+include LibXML
+class String
+  def to_bool
+    return true if self == true || self =~ (/^(true|t|yes|y|1)$/i)
+    return false if self == false || self =~ (/^(false|f|no|n|0)$/i)
+    raise ArgumentError.new("invalid value for Boolean: \"#{self}\"")
+  end
+end
+class PeptideEvidence
+	attr_accessor :peptide_prev_aa
+	attr_accessor :peptide_next_aa
+	attr_accessor :protein
+	attr_accessor :protein_descr
+	# attr_accessor :peptide_sequence
+	attr_accessor :is_decoy
+# <PeptideEvidence isDecoy="false" pre="K" post="G" start="712"
+#     end="722" peptide_ref="KSPVYKVHFTR"
+#     dBSequence_ref="JEMP01000193.1_rev_g3500.t1" id="PepEv_1" />
+	class << self
+		def from_mzid(pe_node)
+			pe = new()
+			pe.peptide_prev_aa=pe_node.attributes['pre']
+			pe.peptide_next_aa=pe_node.attributes['post']
+			pe.is_decoy=pe_node.attributes['isDecoy'].to_bool
+			# peptide_ref = pe_node.attributes['peptide_ref']
+			prot_ref = pe_node.attributes['dBSequence_ref']
+			# pep_node = MzIdentMLDoc.find(pe_node,"Peptide[@id=\'#{peptide_ref}\']",true)[0]
+			prot_node = MzIdentMLDoc.find(pe_node,"DBSequence[@id=\'#{prot_ref}\']",true)[0]
+			# <DBSequence id="JEMP01000193.1_rev_g3500.t1"
+			# accession="JEMP01000193.1_rev_g3500.t1"
+			# searchDatabase_ref="SearchDB_1">
+			#   <cvParam cvRef="PSI-MS" accession="MS:1001088"
+			#   name="protein description" value="280755|283436" />
+			# </DBSequence>
+			pe.protein=prot_node.attributes['accession']
+			pe.protein_descr=MzIdentMLDoc.get_cvParam(prot_node,"MS:1001088")['value']
+			# pe.peptide_sequence=pep_node
+			pe
+		end
+		private :new
+	end
+	def initialize()
+	end
+#	<alternative_protein protein="lcl|JEMP01000005.1_rev_g4624.t1"
+# protein_descr="652491|654142" num_tol_term="2" peptide_prev_aa="K" peptide_next_aa="Y"/>
+# We use this only for alternative_proteins
+# The first peptide_evidence item is baked into the attributes of a spectrum_query
+	def as_pepxml()
+		alt_node = XML::Node.new('alternative_protein')
+		alt_node['protein']=self.protein
+		alt_node['protein_descr']=self.protein_descr
+		alt_node['peptide_prev_aa']=self.peptide_prev_aa
+		alt_node['peptide_next_aa']=self.peptide_next_aa
+		alt_node
+	end
+end
+# <spectrum_query spectrum="mr176-BSA100fmole_BA3_01_8167.00003.00003.2" start_scan="3" end_scan="3"
+#precursor_neutral_mass="1398.7082" assumed_charge="2" index="2" experiment_label="mr176">
+# <search_result>
+# <search_hit hit_rank="1" peptide="SQVFQLESTFDV" peptide_prev_aa="R" peptide_next_aa="K" protein="tr|Q90853|Q90853_CHICK"
+# protein_descr="Homeobox protein OS=Gallus gallus GN=GH6 PE=2 SV=1" num_tot_proteins="1"
+# num_matched_ions="9" tot_num_ions="22" calc_neutral_pep_mass="1380.6557" massdiff="18.053" num_tol_term="1"
+# num_missed_cleavages="0" is_rejected="0">
+# <search_score name="hyperscore" value="23.9"/>
+# <search_score name="nextscore" value="19.3"/>
+# <search_score name="bscore" value="9.6"/>
+# <search_score name="yscore" value="7.6"/>
+# <search_score name="cscore" value="0"/>
+# <search_score name="zscore" value="0"/>
+# <search_score name="ascore" value="0"/>
+# <search_score name="xscore" value="0"/>
+# <search_score name="expect" value="0.099"/>
+# <analysis_result analysis="peptideprophet">
+# <peptideprophet_result probability="0.9997" all_ntt_prob="(0.0000,0.9997,0.9999)">
+# <search_score_summary>
+# <parameter name="fval" value="2.3571"/>
+# <parameter name="ntt" value="1"/>
+# <parameter name="nmc" value="0"/>
+# <parameter name="massd" value="18.053"/>
+# </search_score_summary>
+# </peptideprophet_result>
+# </analysis_result>
+# </search_hit>
+# </search_result>
+# </spectrum_query>
+class PSM
+	attr_accessor :peptide
+	attr_accessor :calculated_mz
+	attr_accessor :experimental_mz
+	attr_accessor :charge
+	attr_accessor :scores
+	attr_accessor :peptide_evidence
+	class << self
+		# <SpectrumIdentificationResult spectraData_ref="ma201_Vp_1-10.mzML.mgf"
+		# spectrumID="index=3152" id="SIR_1">
+		#   <SpectrumIdentificationItem passThreshold="false"
+		#   rank="1" peptide_ref="KSPVYKVHFTR"
+		#   calculatedMassToCharge="1360.7615466836999"
+		#   experimentalMassToCharge="1362.805053710938"
+		#   chargeState="1" id="SII_1_1">
+		#     <PeptideEvidenceRef peptideEvidence_ref="PepEv_1" />
+		#     <Fragmentation>
+		#       <IonType charge="1" index="1 4">
+		#         <FragmentArray measure_ref="Measure_MZ"
+		#         values="175.2081208 560.3388993" />
+		#         <FragmentArray measure_ref="Measure_Int"
+		#         values="94.0459823608 116.2766723633" />
+		#         <FragmentArray measure_ref="Measure_Error"
+		#         values="0.08916864948798775 0.0449421494880653" />
+		#         <cvParam cvRef="PSI-MS" accession="MS:1001220"
+		#         name="frag: y ion" />
+		#       </IonType>
+		#     </Fragmentation>
+		#     <cvParam cvRef="PSI-MS" accession="MS:1002466"
+		#     name="PeptideShaker PSM score" value="0.0" />
+		#     <cvParam cvRef="PSI-MS" accession="MS:1002467"
+		#     name="PeptideShaker PSM confidence" value="0.0" />
+		#     <cvParam cvRef="PSI-MS" accession="MS:1002052"
+		#     name="MS-GF:SpecEValue" value="1.4757611E-6" />
+		#     <cvParam cvRef="PSI-MS" accession="MS:1001117"
+		#     name="theoretical mass" value="1360.7615466836999" />
+		#     <cvParam cvRef="PSI-MS" accession="MS:1002543"
+		#     name="PeptideShaker PSM confidence type"
+		#     value="Not Validated" />
+		#   </SpectrumIdentificationItem>
+		#   <cvParam cvRef="PSI-MS" accession="MS:1000796"
+		#   name="spectrum title"
+		#   value="Suresh Vp 1 to 10_BAF.3535.3535.1" />
+		#   <cvParam cvRef="PSI-MS" accession="MS:1000894"
+		#   name="retention time" value="6855.00001" unitCvRef="UO"
+		#   unitAccession="UO:0000010" unitName="seconds" />
+		# </SpectrumIdentificationResult>
+		def from_mzid(psm_node)
+			psm = new()
+			psm.peptide = MzIdentMLDoc.get_sequence_for_psm(psm_node)
+			peptide_evidence_nodes = MzIdentMLDoc.get_peptide_evidence_from_psm(psm_node)
+			psm.peptide_evidence = peptide_evidence_nodes.collect { |pe| PeptideEvidence.from_mzid(pe) }
+			psm.calculated_mz = psm_node.attributes['calculatedMassToCharge'].to_f
+			psm.experimental_mz = psm_node.attributes['experimentalMassToCharge'].to_f
+			psm.charge = psm_node.attributes['chargeState'].to_i
+			psm
+		end
+		private :new
+	end
+	def initialize()
+	end
+	# <search_hit hit_rank="1" peptide="GGYNQDGGSGGGYQGGGGYSGGGGGYQGGQR"
+	# peptide_prev_aa="R" peptide_next_aa="N"
+	# protein="lcl|JEMP01000008.1_fwd_g5144.t1"
+	# num_tot_proteins="1"
+	# calc_neutral_pep_mass="2768.11967665812"
+	# massdiff="0.120361328125"
+	# protein_descr="4860|5785"
+	# num_tol_term="2"
+	# num_missed_cleavages="0">
+	# From what I can tell, search_hit is always trivially wrapped in search_result 1:1
+	#
+	def as_pepxml()
+		hit_node = XML::Node.new('search_hit')
+		hit_node['peptide']=self.peptide.to_s
+		# require 'byebug';byebug
+		first_evidence = self.peptide_evidence.first
+		hit_node['peptide_prev_aa']=first_evidence.peptide_prev_aa
+		hit_node['peptide_next_aa']=first_evidence.peptide_next_aa
+		hit_node['protein']=first_evidence.protein
+		hit_node['protein_descr']=first_evidence.protein_descr
+		hit_node['num_tot_proteins']=self.peptide_evidence.length.to_s
+		alt_evidence = peptide_evidence.drop(1)
+		alt_evidence.each { |ae| hit_node << ae.as_pepxml }
+		result_node = XML::Node.new('search_result')
+		result_node << hit_node
+		result_node
+	end
+end

data/lib/protk/search_tool.rb CHANGED Viewed

@@ -5,8 +5,7 @@
 # Provides common functionality used by all msms search tools.
 #
 # It allows;
-# 1. Specification of the search database using a simple name ... this class provides the necessary search for the actual file
-# 2. Output files to be specified via a prefix or suffix to be added to the name of the corresponding input file
+# 1. Output files to be specified via a prefix or suffix to be added to the name of the corresponding input file
 #
 require 'optparse'
@@ -21,10 +20,6 @@ class SearchTool < Tool
   def initialize(option_support=[])
     super(option_support)
-    # if (option_support.include? :database)
-    #   add_value_option(:database,"sphuman",['-d', '--database dbname', 'Specify the database to use for this search. Can be a named protk database or the path to a fasta file'])
-    # end
     if ( option_support.include? :enzyme )
       add_value_option(:enzyme,"Trypsin",['--enzyme enz', 'Enzyme'])
     end

data/lib/protk/sniffer.rb ADDED Viewed

@@ -0,0 +1,35 @@
+class Sniffer
+	@sniff_lines = 100
+	# Return nil if undetectable
+	# Return detected format otherwise
+	def self.sniff_format(filepath)
+		if self.is_mgf_format(filepath)
+			return "mgf"
+		elsif self.is_mzml_format(filepath)
+			return "mzML"
+		end
+		return nil
+	end
+	def self.is_mzml_format(filepath)
+		lines = File.foreach(filepath).first(@sniff_lines).join("\n")
+		if lines =~ /\<mzML.*http\:\/\/psi\.hupo\.org\/ms\/mzml/
+			return true
+		end
+		return false
+	end
+	def self.is_mgf_format(filepath)
+		lines = File.foreach(filepath).first(@sniff_lines).join("\n")
+		if lines =~ /^BEGIN IONS/
+			return true
+		end
+		return false
+	end
+end