RubyGems - protk - Versions diffs - 1.3.1.pre3 → 1.4.0 - Mend

protk 1.3.1.pre3 → 1.4.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (44) hide show

checksums.yaml +4 -4
data/README.md +21 -19
data/bin/add_retention_times.rb +1 -1
data/bin/interprophet.rb +16 -5
data/bin/make_decoy.rb +1 -1
data/bin/manage_db.rb +1 -1
data/bin/mascot_search.rb +2 -2
data/bin/mascot_to_pepxml.rb +1 -1
data/bin/msgfplus_search.rb +26 -9
data/bin/omssa_search.rb +1 -1
data/bin/peptide_prophet.rb +57 -20
data/bin/pepxml_to_table.rb +15 -2
data/bin/protein_prophet.rb +41 -1
data/bin/protk_setup.rb +2 -2
data/bin/protxml_to_gff.rb +50 -42
data/bin/protxml_to_psql.rb +1 -1
data/bin/protxml_to_table.rb +16 -3
data/bin/repair_run_summary.rb +1 -1
data/bin/sixframe.rb +2 -2
data/bin/swissprot_to_table.rb +1 -1
data/bin/tandem_search.rb +1 -1
data/bin/tandem_to_pepxml.rb +1 -1
data/lib/protk/constants.rb +2 -1
data/lib/protk/convert_util.rb +1 -1
data/lib/protk/data/tandem-style.css +349 -0
data/lib/protk/data/tandem-style.xsl +264 -0
data/lib/protk/data/tandem_gpm_defaults.xml +3 -3
data/lib/protk/data/tandem_isb_kscore_defaults.xml +2 -0
data/lib/protk/data/tandem_isb_native_defaults.xml +3 -0
data/lib/protk/data/tandem_params.xml +0 -8
data/lib/protk/fastadb.rb +1 -1
data/lib/protk/galaxy_stager.rb +14 -3
data/lib/protk/galaxy_util.rb +39 -31
data/lib/protk/gffdb.rb +6 -1
data/lib/protk/manage_db_rakefile.rake +1 -1
data/lib/protk/manage_db_tool.rb +1 -1
data/lib/protk/pepxml.rb +159 -7
data/lib/protk/plasmodb.rb +1 -1
data/lib/protk/prophet_tool.rb +20 -52
data/lib/protk/setup_rakefile.rake +18 -11
data/lib/protk/tandem_search_tool.rb +20 -7
data/lib/protk/tool.rb +1 -1
data/lib/protk/uniprot_mapper.rb +1 -1
metadata +10 -14

data/lib/protk/manage_db_rakefile.rake CHANGED

@@ -13,7 +13,7 @@ dbname=ARGV[0]
 # Load database spec file
 #
-$genv=Constants.new()
+$genv=Constants.instance()
 dbdir="#{$genv.protein_database_root}/#{dbname}"
 dbspec_file="#{dbdir}/.protkdb.yaml"

data/lib/protk/manage_db_tool.rb CHANGED

@@ -12,7 +12,7 @@ require 'protk/tool'
 class ManageDBTool < Tool
   def add dbspec, dbname
-    genv=Constants.new()
+    genv=Constants.instance()
     dbdir="#{genv.protein_database_root}/#{dbname}"
     %x[mkdir -p #{dbdir}]

data/lib/protk/pepxml.rb CHANGED

@@ -1,22 +1,174 @@
 require 'rubygems'
-require 'rexml/document'
-require 'rexml/xpath'
+require 'libxml'
+include LibXML
+# require 'rexml/document'
+# require 'rexml/xpath'
 class PepXML
+  attr_accessor :file_name
   def initialize(file_name)
-    @doc=REXML::Document.new(File.new(file_name))
+    @file_name=file_name
+    XML::Error.set_handler(&XML::Error::QUIET_HANDLER)
+    pepxml_parser=XML::Parser.file("#{file_name}")
+    @pepxml_ns_prefix="xmlns:"
+    @pepxml_ns="xmlns:http://regis-web.systemsbiology.net/pepXML"
+    @pepxml_doc=pepxml_parser.parse
+    if not @pepxml_doc.root.namespaces.default
+      @pepxml_ns_prefix=""
+      @pepxml_ns=nil
+    end
+  end
+  # Obtain the database name from the given input file
+  #
+  def extract_db()
+    reader = XML::Reader.file(self.file_name)
+    throw "Failed to open xml file #{file_name}" unless reader!=nil
+    while(reader.read)
+      # For pep.xml files
+      #
+      if ( reader.name == "search_database" )
+        dbnode=reader.expand
+        dbvalue=dbnode['local_path']
+        reader.close
+        return dbvalue
+      end
+      # For prot.xml files
+      #
+      if ( reader.name == "protein_summary_header" )
+        dbnode=reader.expand
+        dbvalue=dbnode['reference_database']
+        reader.close
+        return dbvalue
+      end
+    end
+  end
+  # Obtain the search engine name from the input file
+  # The name of the engine is returned in lowercase and should contain no spaces
+  # Names of common engines are searched for and extracted in simplified form if possible
+  #
+  def extract_engine()
+    reader = XML::Reader.file(self.file_name)
+    throw "Failed to open xml file #{file_name}" unless reader!=nil
+    while(reader.read)
+      if ( reader.name == "search_summary" )
+        dbnode=reader.expand
+        dbvalue=dbnode['search_engine']
+        reader.close
+        engine_name=dbvalue.gsub(/ /,"_")
+        engine_name=engine_name.gsub(/\(/,"")
+        engine_name=engine_name.gsub(/\)/,"")
+        engine_name=engine_name.gsub(/\!/,"")
+        return engine_name.downcase
+      end
+    end
+  end
+  def extract_enzyme()
+    reader = XML::Reader.file(self.file_name)
+    throw "Failed to open xml file #{file_name}" unless reader!=nil
+    while(reader.read)
+      if ( reader.name == "sample_enzyme" )
+        dbnode=reader.expand
+        dbvalue=dbnode['name']
+        reader.close
+        return dbvalue.downcase
+      end
+    end
+  end
+  def type_from_base_name(basename)
+    # A common error is for tools to include the extension in the base_name attribute.
+    # We exploit this to guess the type
+    ext_guess=""
+    case basename
+    when /.mgf$/
+      ext_guess="mgf"
+    when /.mzML$/
+      ext_guess="mzML"
+    when /.mzXML$/
+      ext_guess="mzXML"
+    else
+      ext_guess=""
+    end
+    ext_guess
+  end
+  def type_from_summary_attributes(atts)
+    if is_valid_type(atts["raw_data_type"])
+      return  atts["raw_data_type"]
+    end
+    if is_valid_type(atts["raw_data"])
+      return atts["raw_data"]
+    end
+    return ""
+  end
+  def is_valid_type(type)
+    case type
+    when /^mgf$/i
+      return true
+    when /^mzML$/i
+      return true
+    when /^mzXML$/i
+      return true
+    else
+      return false
+    end
   end
-  def find_runs()
+  # TODO: Make this faster and more memory efficient by using XML::Reader as in the functions above
+  #
+  def find_runs()
+    run_summaries = @pepxml_doc.find("//#{@pepxml_ns_prefix}msms_run_summary", @pepxml_ns)
     runs = {}
-    REXML::XPath.each(@doc,"//msms_run_summary") do |summary|
+    run_summaries.each do |summary|
       base_name = summary.attributes["base_name"]
       if not runs.has_key?(base_name)
-        runs[base_name] = {:base_name => summary.attributes["base_name"],
-                           :type => summary.attributes["raw_data"]}
+        bn = summary.attributes["base_name"]
+        runs[base_name] = {:base_name => summary.attributes["base_name"]}
+        if is_valid_type(type_from_summary_attributes(summary.attributes))
+          runs[base_name][:type] = type_from_summary_attributes(summary.attributes)
+        elsif is_valid_type(type_from_base_name(bn))
+          runs[base_name][:type] = type_from_base_name(bn)
+        else
+          runs[base_name][:type] = "mzML" # Same guess as peptide prophet makes
+        end
       end
     end
     runs
   end
 end

data/lib/protk/plasmodb.rb CHANGED

@@ -11,7 +11,7 @@ class PlasmoDB
     if ( env!=nil)
       @genv=env
     else
-      @genv=Constants.new
+      @genv=Constants.instance
     end
     database_file="#{@genv.protein_database_root}/#{@genv.plasmodb_annotation_database}/raw.txt"

data/lib/protk/prophet_tool.rb CHANGED

@@ -21,63 +21,31 @@ class ProphetTool < SearchTool
     super(option_support)
-  end
-  # Obtain the database name from the given input file
-  #
-  def extract_db(file_name)
-    reader = XML::Reader.file(file_name)
-    throw "Failed to open xml file #{file_name}" unless reader!=nil
-    while(reader.read)
-      # For pep.xml files
-      #
-      if ( reader.name == "search_database" )
-        dbnode=reader.expand
-        dbvalue=dbnode['local_path']
-        reader.close
-        return dbvalue
-      end
-      # For prot.xml files
-      #
-      if ( reader.name == "protein_summary_header" )
-        dbnode=reader.expand
-        dbvalue=dbnode['reference_database']
-        reader.close
-        return dbvalue
-      end
+    if ( option_support.include? :probability_threshold )
+      add_value_option(:probability_threshold,0.05,['--p-thresh val', 'Probability threshold below which PSMs are discarded'])
     end
   end
-  # Obtain the search engine name from the input file
-  # The name of the engine is returned in lowercase and should contain no spaces
-  # Names of common engines are searched for and extracted in simplified form if possible
+  # TODO: Deal with multiple enzyme combos
   #
-  def extract_engine(file_name)
-    reader = XML::Reader.file(file_name)
-    throw "Failed to open xml file #{file_name}" unless reader!=nil
+  def self.xinteract_code_for_enzyme(enzyme_name)
+  	codes = {
+  		'trypsin' => 'T',
+  		'stricttrypsin' => 'S',
+  		'chymotrypsin' => 'C',
+  		'ralphtrypsin' => 'R',
+  		'aspn' => 'A',
+  		'gluc' => 'G',
+  		'glucbicarb' => 'B',
+  		'cnbr' => 'M',
+  		'elastase' => 'E',
+  		'lysn' => 'L',
+  		'nonspecific' => 'N'
+  	}
+  	codes[enzyme_name]
-    while(reader.read)
-      if ( reader.name == "search_summary" )
-        dbnode=reader.expand
-        dbvalue=dbnode['search_engine']
-        reader.close
-        engine_name=dbvalue.gsub(/ /,"_")
-        engine_name=engine_name.gsub(/\(/,"")
-        engine_name=engine_name.gsub(/\)/,"")
-        engine_name=engine_name.gsub(/\!/,"")
-        return engine_name.downcase
-      end
-    end
   end
 end

data/lib/protk/setup_rakefile.rake CHANGED

@@ -1,8 +1,9 @@
 require 'protk/constants.rb'
+require 'rake/clean'
 require 'rbconfig'
-env=Constants.new
+env=Constants.instance
 @build_dir = "#{env.protk_dir}/tmp/build"
 @download_dir = "#{env.protk_dir}/tmp/download"
@@ -10,6 +11,8 @@ env=Constants.new
 directory @build_dir
 directory @download_dir
+CLEAN.include @build_dir, @download_dir
 def package_manager_name
 	package_managers = ["brew","yum","apt-get"]
@@ -30,7 +33,7 @@ def clean_build_dir
 end
 def download_buildfile url, file
-	sh %{cd #{@download_dir}; wget  #{url}}
+	sh %{cd #{@download_dir}; wget -O #{file} #{url}}
 end
 def download_task url, packagefile
@@ -133,10 +136,10 @@ task :perl_locallib => [perl_locallib_installed_file]
 #
 # TPP
 #
-tpp_version="4.6.3"
+tpp_version="4.8.0"
 tpp_packagefile="TPP-#{tpp_version}.tgz"
 tpp_installed_file = "#{env.tpp_root}/bin/xinteract"
-tpp_url = "https://dl.dropbox.com/u/226794/TPP-4.6.3.tgz"
+tpp_url = "http://sourceforge.net/projects/sashimi/files/Trans-Proteomic%20Pipeline%20%28TPP%29/TPP%20v4.8%20%28philae%29%20rev%200/TPP_4.8.0-src.tgz/download"
 tpp_download_file = download_task tpp_url, tpp_packagefile
@@ -229,10 +232,11 @@ def blast_platform
 	'x64-linux'
 end
-blast_version="2.2.27+"
+blast_version="2.2.30+"
 blast_packagefile="ncbi-blast-#{blast_version}-#{blast_platform}.tar.gz"
 blast_url="ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/#{blast_version.chomp('+')}/#{blast_packagefile}"
 blast_installed_file="#{env.blast_root}/bin/makeblastdb"
+blast_required_bin=["makeblastdb", "blastdbcmd"]
 download_task blast_url, blast_packagefile
@@ -241,8 +245,10 @@ file blast_installed_file => [@build_dir,"#{@download_dir}/#{blast_packagefile}"
 	sh %{cp #{@download_dir}/#{blast_packagefile} #{@build_dir}}
     sh %{cd #{@build_dir}; gunzip #{blast_packagefile}}
     sh %{cd #{@build_dir}; tar -xvf #{blast_packagefile.chomp('.gz')}}
-    sh %{mkdir -p #{env.blast_root}}
-    sh %{cd #{@build_dir}; cp -r ncbi-blast-#{blast_version}/* #{env.blast_root}/}
+    sh %{mkdir -p #{env.blast_root}/bin}
+    blast_required_bin.each do |binary|
+        sh %{cd #{@build_dir}; cp -r ncbi-blast-#{blast_version}/bin/#{binary} #{env.blast_root}/bin/}
+    end
 end
 task :blast => blast_installed_file
@@ -251,7 +257,7 @@ task :blast => blast_installed_file
 #
 # MSGFPlus
 #
-msgfplus_version="20140210"
+msgfplus_version="20140630"
 msgfplus_packagefile="MSGFPlus.#{msgfplus_version}.zip"
 msgfplus_url="http://proteomics.ucsd.edu/Software/MSGFPlus/MSGFPlus.#{msgfplus_version}.zip"
 msgfplus_installed_file="#{env.msgfplus_root}/MSGFPlus.jar"
@@ -274,7 +280,7 @@ def pwiz_platform
 	if RbConfig::CONFIG['host_os'] =~ /darwin/
 		return 'darwin-x86-xgcc40'
 	end
-	'linux-x86_64-gcc42'
+	'linux-x86_64-gcc48'
 end
 def platform_bunzip
@@ -284,7 +290,7 @@ def platform_bunzip
 	'bunzip2'
 end
-pwiz_version="3_0_4388"
+pwiz_version="3_0_6790"
 pwiz_folder_name="pwiz-bin-#{pwiz_platform}-release-#{pwiz_version}"
 pwiz_packagefile="#{pwiz_folder_name}.tar.bz2"
 pwiz_url="https://dl.dropbox.com/u/226794/#{pwiz_packagefile}"
@@ -297,7 +303,8 @@ file pwiz_installed_file => [@build_dir,"#{@download_dir}/#{pwiz_packagefile}"]
     sh %{cd #{@build_dir}; #{platform_bunzip} -f #{pwiz_packagefile}}
     sh %{cd #{@build_dir}; tar -xvf #{pwiz_packagefile.chomp('.bz2')}}
     sh %{mkdir -p #{env.pwiz_root}}
-    sh %{cd #{@build_dir}; cp ./#{pwiz_folder_name}/* #{env.pwiz_root}/}
+    sh %{cd #{@build_dir}; cp ./msconvert #{env.pwiz_root}/}
+    sh %{cd #{@build_dir}; cp ./idconvert #{env.pwiz_root}/}
 end
 task :pwiz => pwiz_installed_file

data/lib/protk/tandem_search_tool.rb CHANGED

@@ -48,7 +48,8 @@ class TandemSearchTool < SearchTool
 			:fragment_tolu => "spectrum, fragment monoisotopic mass error units",
 			:acetyl_nterm => "protein, quick acetyl",
 			:output_spectra => "output, spectra",
-			:threads => "spectrum, threads"
+			:threads => "spectrum, threads",
+			:enzyme => "protein, cleavage site"
 		}
 		@xtandem_keys_for_precursor_tol = {
@@ -61,7 +62,7 @@ class TandemSearchTool < SearchTool
 		@option_parser.banner = "Run an X!Tandem msms search on a set of mzML input files.\n\nUsage: tandem_search.rb [options] file1.mzML file2.mzML ..."
 		@options.output_suffix="_tandem"
+		@options.enzyme="[RK]|{P}"
 		add_value_option(:tandem_params,"isb_native",['-T', '--tandem-params tandem', 'Either the full path to an xml file containing a complete set of default parameters, or one of the following (isb_native,isb_kscore,gpm). Default is isb_native'])
 		add_boolean_option(:keep_params_files,false,['-K', '--keep-params-files', 'Keep X!Tandem parameter files'])
 		add_boolean_option(:output_spectra,false,['--output-spectra', 'Include spectra in the output file'])
@@ -71,12 +72,24 @@ class TandemSearchTool < SearchTool
 	private
 	# Galaxy changes things like @ to __at__ we need to change it back
 	#
-	def decode_modification_string(mstring)
+	def decode_galaxy_string(mstring)
   		mstring.gsub!("__at__","@")
   		mstring.gsub!("__oc__","{")
   		mstring.gsub!("__cc__","}")
   		mstring.gsub!("__ob__","[")
   		mstring.gsub!("__cb__","]")
+  		mstring.gsub!("__gt__",">")
+  		mstring.gsub!("__lt__","<")
+  		mstring.gsub!("__sq__","'")
+  		mstring.gsub!("__dq__","\"")
+  		mstring.gsub!("__cn__","\n")
+  		mstring.gsub!("__cr__","\r")
+  		mstring.gsub!("__tc__","\t")
+  		mstring.gsub!("__pd__","#")
+  		# For characters not allowed at all by galaxy
+  		mstring.gsub!("__pc__","|")
   		mstring
 	end
@@ -157,7 +170,6 @@ class TandemSearchTool < SearchTool
 		set_option(std_params,"protein, taxon",db_info.name)
 		# set_option(std_params, "protein, cleavage semi", self.cleavage_semi ? "yes" : "no")
 		# Simple options (unique with a 1:1 mapping to parameters from this tool)
@@ -168,7 +180,7 @@ class TandemSearchTool < SearchTool
 				if opt_val.is_a?(TrueClass) || opt_val.is_a?(FalseClass)
 					opt_val = opt_val ? "yes" : "no"
 				end
-				append_option(std_params,xtandem_key,opt_val.to_s)
+				append_option(std_params,xtandem_key,decode_galaxy_string(opt_val.to_s))
 			end
 		end
@@ -182,6 +194,7 @@ class TandemSearchTool < SearchTool
 			end
 		end
 		# Per residue Fixed and Variable Modifications
 		#
 		# These can be added using a variety of methods in xtandem
@@ -195,7 +208,7 @@ class TandemSearchTool < SearchTool
 		#
 		var_mods = self.var_mods.split(",").collect { |mod| mod.lstrip.rstrip }.reject {|e| e.empty? }
-		var_mods=var_mods.collect {|mod| decode_modification_string(mod) }
+		var_mods=var_mods.collect {|mod| decode_galaxy_string(mod) }
 		# var_mods allows motif's as well as standard mods. These should be in a separate array
 		var_motifs = [].replace(var_mods)
@@ -203,7 +216,7 @@ class TandemSearchTool < SearchTool
 		var_motifs.keep_if {|mod| mod.xtandem_modification_motif? }
 		fix_mods = self.fix_mods.split(",").collect { |mod| mod.lstrip.rstrip }.reject { |e| e.empty? }
-		fix_mods=fix_mods.collect {|mod| decode_modification_string(mod)}
+		fix_mods=fix_mods.collect {|mod| decode_galaxy_string(mod)}
 		# We also support the --glyco and --methionineo shortcuts.
 		# Add these here. No check is made for duplication