RubyGems - ms-in_silico - Versions diffs - 0.4.0 → 0.4.1 - Mend

ms-in_silico 0.4.0 → 0.4.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (15) hide show

data/.gitignore +1 -0
data/VERSION +1 -1
data/bin/digest.rb +50 -0
data/lib/ms/in_silico/digester.rb +21 -15
data/lib/ms/in_silico/fragment.rb +3 -2
data/lib/ms/in_silico/spectrum.rb +0 -0
data/spec/ms/in_silico/digester_spec.rb +110 -58
data/spec/ms/in_silico/fragment_spec.rb +1 -1
data/spec/ms/in_silico/spectrum_spec.rb +1 -1
data/spec/readme_spec.rb +10 -10
metadata +14 -13
data/lib/ms/in_silico/digest.rb +0 -52
data/spec/tap_test_helper.rb +0 -2
data/spec/tap_test_suite.rb +0 -5
data/tap.yml +0 -0

data/.gitignore CHANGED

@@ -3,3 +3,4 @@ pkg/
 rdoc/
 backup/
 .*.swp
+*.gemspec

data/VERSION CHANGED

	@@ -1 +1 @@
1	- 0.4.0
1	+ 0.4.1

data/bin/digest.rb ADDED

@@ -0,0 +1,50 @@
+#!/usr/bin/env ruby
+require 'optparse'
+require 'ms/in_silico/digester'
+def print_enzyme_names
+  puts "(tab delimited)"
+  puts %w(name cuts nocut cterm?).join("\t")
+  Ms::InSilico::Digester::ENZYMES.each do |key, enzyme|
+    puts [:name, :cleave_str, :cterm_exception, :cterm_cleavage].map {|v| enzyme.send(v) }.join("\t")
+  end
+end
+delimiter_hash = {
+  'space' => ' ',
+  'tab' => "\t",
+  'newline' => "\n",
+}
+opt = {
+  :enzyme => 'Trypsin',
+  :missed_cleavages => 0,
+  :delimiter => 'space',
+  :record_delimiter => 'newline',
+}
+opts = OptionParser.new do |op|
+  op.banner = "usage: #{File.basename(__FILE__)} [OPTIONS] SOMEPROTEINSEKUENCE ..."
+  op.separator "output: SOMEPR OTEINSEK UENCE"
+  op.separator "options:"
+  op.on("-e", "--enzyme <#{opt[:enzyme]}>", "specify a valid enzyme name") {|v| opt[:enzyme] = v }
+  op.on("-m", "--missed-cleavages <#{opt[:missed_cleavages]}>", Integer, "number of missed cleavages") {|v| opt[:missed_cleavages] = v }
+  op.on("-d", "--delimiter <#{opt[:delimiter]}>", "delimit the returned peptides",
+        "('space','tab','newline' or some other string)") {|v| opt[:delimiter] = v }
+  op.on("-r", "--record-delimiter <#{opt[:record_delimiter]}>", "included after each protein output") {|v| opt[:record_delimiter] = v }
+  op.separator ""
+  op.on("--print-enzymes", "prints table of valid enzyme names and exits") { print_enzyme_names ; exit }
+end
+opts.parse!
+if ARGV.size == 0
+  puts opts
+  exit
+end
+[:delimiter, :record_delimiter].each {|k| opt[k] = (delimiter_hash[opt[k]] || opt[k]) }
+ARGV.each do |protein|
+  print Ms::InSilico::Digester[opt[:enzyme]].digest(protein, opt[:missed_cleavages]).join(opt[:delimiter])
+  print opt[:record_delimiter]
+end

data/lib/ms/in_silico/digester.rb CHANGED

@@ -105,10 +105,10 @@ module Ms
         @scanner = StringScanner.new('')
       end
-      # Returns sites of digestion sites in sequence, as determined by
-      # thecleave_regexp boundaries.  The digestion sites correspond
-      # to the positions where a peptide begins and ends, such that
-      # [n, (n+1) - n] corresponds to the [index, length] for peptide n.
+      # Returns digestion sites in sequence, as determined by the
+      # cleave_regexp boundaries.  The digestion sites correspond to the
+      # positions where a peptide begins and ends, such that [n, (n+1) - n]
+      # corresponds to the [index, length] for peptide n.
       #
       #   d = Digester.new('Trypsin', 'KR', 'P')
       #   seq = "AARGGR"
@@ -128,19 +128,25 @@ module Ms
       # The digested section of sequence may be specified using offset
       # and length.
       def cleavage_sites(seq, offset=0, length=seq.length-offset)
+        return [0, 1] if seq.size == 1  # adding exceptions is lame--algorithm should just work
         adjustment = cterm_cleavage ? 0 : 1
         limit = offset + length
         positions = [offset]
         pos = scan(seq, offset, limit) do |pos|
-          positions << pos - adjustment
+          positions << (pos - adjustment)
         end
         # add the final position
-        if pos < limit || positions.length == 1
+        if (pos < limit) || (positions.length == 1)
+          positions << limit
+        end
+        # adding exceptions is lame.. this code probably needs to be
+        # refactored (corrected).
+        if !cterm_cleavage && pos == limit
           positions << limit
         end
         positions
       end
@@ -151,14 +157,14 @@ module Ms
       #
       # Each [start_index, end_index] pair is yielded to the block, if given,
       # and the collected results are returned.
-      def site_digest(seq, max_misses=0, offset=0, length=seq.length-offset) # :yields: start_index, end_index
+      def site_digest(seq, max_misses=0, offset=0, length=seq.length-offset, &block) # :yields: start_index, end_index
         frag_sites = cleavage_sites(seq, offset, length)
         overlay(frag_sites.length, max_misses, 1) do |start_index, end_index|
           start_index = frag_sites[start_index]
           end_index = frag_sites[end_index]
-          block_given? ? yield(start_index, end_index) : [start_index, end_index]
+          block ? block.call(start_index, end_index) : [start_index, end_index]
         end
       end
@@ -167,7 +173,7 @@ module Ms
       # as in that method, the digested section of sequence may be specified using
       # offset and length.
       def digest(seq, max_misses=0, offset=0, length=seq.length-offset)
-        site_digest(seq, max_misses, offset, length).collect do |s, e|
+        site_digest(seq, max_misses, offset, length).map do |s, e|
           seq[s, e-s]
         end
       end
@@ -183,7 +189,7 @@ module Ms
       # Scans seq between offset and limit for the cleave_regexp, skipping whitespace
       # and being mindful of exception characters. The positions of the scanner at
       # each match are yielded to the block.
-      def scan(seq, offset, limit) # :nodoc:
+      def scan(seq, offset, limit, &block) # :nodoc:
         scanner.string = seq
         scanner.pos = offset
@@ -197,7 +203,7 @@ module Ms
           # break if you scanned past the upper limit
           break if pos > limit
-          yield pos
+          block.call(pos)
         end
         scanner.pos
@@ -205,14 +211,14 @@ module Ms
       # Performs an overlap-collect algorithm providing the start and end
       # indicies of spans skipping up to max_misses boundaries.
-      def overlay(n, max_misses, offset) # :nodoc:
+      def overlay(n, max_misses, offset, &block) # :nodoc:
         results = []
         0.upto(n-1) do |start_index|
           0.upto(max_misses) do |n_miss|
             end_index = start_index + offset + n_miss
             break if end_index == n
-            results << yield(start_index, end_index)
+            results << block.call(start_index, end_index)
           end
         end
         results

data/lib/ms/in_silico/fragment.rb CHANGED

@@ -1,9 +1,9 @@
-require 'tap/task'
 require 'ms/in_silico/spectrum'
 module Ms
   module InSilico
+=begin
     # :startdoc::task calculates a theoretical ms/ms spectrum
     #
     # Calculates the theoretical ms/ms spectrum for a peptide sequence.
@@ -66,5 +66,6 @@ module Ms
       end
     end
+=end
   end
-end
+end

data/lib/ms/in_silico/spectrum.rb CHANGED

File without changes

data/spec/ms/in_silico/digester_spec.rb CHANGED

@@ -1,4 +1,4 @@
-require File.dirname(__FILE__) + '/../../spec_helper.rb'
+require 'spec_helper.rb'
 require 'ms/in_silico/digester'
 require 'pp'
@@ -28,58 +28,7 @@ describe 'a digester' do
     str.join('')
   end
-  it 'performs digestion and can specify sites of digestion' do
-    trypsin = Ms::InSilico::Digester['Trypsin']
-    expected = [
-    'MIVIGR',
-    'SIVHPYITNEYEPFAAEK',
-    'QQILSIMAG']
-    trypsin.digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG').is expected
-    expected =  [
-    'MIVIGR',
-    'MIVIGRSIVHPYITNEYEPFAAEK',
-    'SIVHPYITNEYEPFAAEK',
-    'SIVHPYITNEYEPFAAEKQQILSIMAG',
-    'QQILSIMAG']
-    trypsin.digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG', 1).is expected
-    expected = [
-    [0,6],
-    [0,24],
-    [6,24],
-    [6,33],
-    [24,33]]
-    trypsin.site_digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG', 1).is expected
-  end
-  it 'completely ignores whitespace inside protein sequences' do
-    expected = [
-    "\tMIVIGR",
-    "SIVHP\nYITNEYEPFAAE K",
-    "QQILSI\rMAG"]
-    Ms::InSilico::Digester['Trypsin'].digest("\tMIVIGRSIVHP\nYITNEYEPFAAE KQQILSI\rMAG").is expected
-  end
-  it 'runs cleavage sites documentation' do
-    d = Ms::InSilico::Digester.new('Trypsin', 'KR', 'P')
-    seq = "AARGGR"
-    sites = d.cleavage_sites(seq)
-    sites.is [0, 3, 6]
-    seq[sites[0], sites[0+1] - sites[0]].is "AAR"
-    seq[sites[1], sites[1+1] - sites[1]].is "GGR"
-    seq = "AAR  \n  GGR"
-    sites = d.cleavage_sites(seq)
-    sites.is [0, 8, 11]
-    seq[sites[0], sites[0+1] - sites[0]].is "AAR  \n  "
-    seq[sites[1], sites[1+1] - sites[1]].is "GGR"
-  end
   it 'finds cleavage site indices' do
     {
       "" => [0,0],
@@ -129,7 +78,9 @@ describe 'a digester' do
        @digester.cleavage_sites(sequence).is expected
     end
   end
   it 'finds cleavage sites with offset and limit' do
     {
       "RxxR" => [2,4],
@@ -165,7 +116,8 @@ describe 'a digester' do
       "RRR" => ["R", "R", "R"]
     }.each do |sequence, expected|
       # spp(sequence)
-       @digester.digest(sequence) {|frag, s, e| frag}.is expected
+       @digester.digest(sequence).is expected
+       #@digester.digest(sequence) {|frag, s, e| frag}.is expected
     end
   end
@@ -182,7 +134,8 @@ describe 'a digester' do
       "RAR" => ["R", "RAR", "AR"],
       "RRR" => ["R", "RR", "R", "RR", "R"]
     }.each do |sequence, expected|
-       @digester.digest(sequence, 1) {|frag, s, e| frag}.is expected
+       @digester.digest(sequence, 1).is expected
+       #@digester.digest(sequence, 1) {|frag, s, e| frag}.is expected
     end
   end
@@ -199,7 +152,8 @@ describe 'a digester' do
       "RAR" => ["R", "RAR", "AR"],
       "RRR" => ["R", "RR", "RRR", "R", "RR", "R"]
     }.each do |sequence, expected|
-       @digester.digest(sequence, 2) {|frag, s, e| frag}.is expected
+       @digester.digest(sequence, 2).is expected
+       #@digester.digest(sequence, 2) {|frag, s, e| frag}.is expected
     end
   end
@@ -273,9 +227,67 @@ describe 'a digester' do
       end
     end
   end
+end
+describe 'performs as documented in readme' do
+ it 'runs cleavage sites documentation' do
+    d = Ms::InSilico::Digester.new('Trypsin', 'KR', 'P')
+    seq = "AARGGR"
+    sites = d.cleavage_sites(seq)
+    sites.is [0, 3, 6]
+    seq[sites[0], sites[0+1] - sites[0]].is "AAR"
+    seq[sites[1], sites[1+1] - sites[1]].is "GGR"
+    seq = "AAR  \n  GGR"
+    sites = d.cleavage_sites(seq)
+    sites.is [0, 8, 11]
+    seq[sites[0], sites[0+1] - sites[0]].is "AAR  \n  "
+    seq[sites[1], sites[1+1] - sites[1]].is "GGR"
+  end
+end
+describe 'basic trypsin digestion' do
+  it 'performs digestion and can specify sites of digestion' do
+    trypsin = Ms::InSilico::Digester['Trypsin']
+    expected = [
+    'MIVIGR',
+    'SIVHPYITNEYEPFAAEK',
+    'QQILSIMAG']
+    trypsin.digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG').is expected
+    expected =  [
+    'MIVIGR',
+    'MIVIGRSIVHPYITNEYEPFAAEK',
+    'SIVHPYITNEYEPFAAEK',
+    'SIVHPYITNEYEPFAAEKQQILSIMAG',
+    'QQILSIMAG']
+    trypsin.digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG', 1).is expected
+    expected = [
+    [0,6],
+    [0,24],
+    [6,24],
+    [6,33],
+    [24,33]]
+    trypsin.site_digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG', 1).is expected
+  end
+  it 'completely ignores whitespace inside protein sequences' do
+    expected = [
+    "\tMIVIGR",
+    "SIVHP\nYITNEYEPFAAE K",
+    "QQILSI\rMAG"]
+    Ms::InSilico::Digester['Trypsin'].digest("\tMIVIGRSIVHP\nYITNEYEPFAAE KQQILSI\rMAG").is expected
+  end
   it 'does a trypsin digest' do
     trypsin = Ms::InSilico::Digester::TRYPSIN
+    # alternate ways to specify the enzyme
+    Ms::InSilico::Digester::TRYPSIN.is Ms::InSilico::Digester['Trypsin']
     {
       "" => [''],
       "A" => ["A"],
@@ -294,8 +306,48 @@ describe 'a digester' do
       "ARPARAA" => ["ARPAR", "AA"],
       "RPRRR" => ["RPR", "R", "R"]
     }.each do |sequence, expected|
-       trypsin.digest(sequence) {|frag, s, e| frag}.is expected
+       trypsin.digest(sequence).is expected
+    end
+  end
+end
+describe 'digestion with other enzymes' do
+  # This is how to create the enzyme:
+  # Ms::InSilico::Digester['Arg-C']
+  # Ms::InSilico::Digester::ARG_C
+  {
+      ['Arg-C', :ARG_C] => {
+      "AARC" => ["AAR", "C"],
+      "AARP" => ["AARP"]
+    },
+      ['Asp-N', :ASP_N] => {
+      "AABDS" => ["AA", "B", "DS"],
+      "ADZBS" => ["A", "DZ", "BS"],
+      "B" => %w(B),
+      "A" => %w(A),
+      "ABD" => %w(A B D),
+    },
+    ['Asp-N_ambic', :ASP_N_AMBIC] => {
+      "AAEDS" => ["AA", "E", "DS"],
+      "ADZES" => ["A", "DZ", "ES"],
+      "AED" => %w(A E D),
+      "GDE" => %w(G D E),
+      "AAECCDGG" => %w(AA ECC DGG),
+    }
+  }.each do |enzyme_names, test_hash|
+    it "digests with '#{enzyme_names.first}'" do
+      digester = Ms::InSilico::Digester[enzyme_names.first]
+      digester.is Ms::InSilico::Digester.const_get(enzyme_names.last)
+      test_hash.each do |sequence, expected|
+        digester.digest(sequence).is expected
+      end
     end
   end
 end

data/spec/ms/in_silico/fragment_spec.rb CHANGED

@@ -1,4 +1,4 @@
-require File.dirname(__FILE__) + '/../../spec_helper.rb'
+require 'spec_helper.rb'
 require 'ms/in_silico/fragment'

data/spec/ms/in_silico/spectrum_spec.rb CHANGED

@@ -1,4 +1,4 @@
-require File.dirname(__FILE__) + '/../../spec_helper'
+require 'spec_helper'
 require 'ms/in_silico/spectrum'
 # class locate_residues tests

data/spec/readme_spec.rb CHANGED

@@ -1,4 +1,4 @@
-require File.dirname(__FILE__) + '/spec_helper.rb'
+require '/spec_helper.rb'
 require 'ms/in_silico/digester'
 require 'ms/in_silico/spectrum'
@@ -8,21 +8,21 @@ describe 'readme documentation' do
     trypsin = Ms::InSilico::Digester['Trypsin']
     peptides = trypsin.digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG')
     expected = [
-    'MIVIGR',
-    'SIVHPYITNEYEPFAAEK',
-    'QQILSIMAG']
+      'MIVIGR',
+      'SIVHPYITNEYEPFAAEK',
+      'QQILSIMAG']
     peptides.sort.is expected.sort
     spectrum = Ms::InSilico::Spectrum.new(peptides[0])
     spectrum.parent_ion_mass.should.be.close 688.417442373391, 10**-12
     expected = [
-    132.047761058391,
-    245.131825038791,
-    344.200238954991,
-    457.284302935391,
-    514.305766658991,
-    670.406877687091]
+      132.047761058391,
+      245.131825038791,
+      344.200238954991,
+      457.284302935391,
+      514.305766658991,
+      670.406877687091]
     spectrum.series('b').zip(expected) do |o,e|
       o.should.be.close e, 10**-12
     end

metadata CHANGED

@@ -5,8 +5,8 @@ version: !ruby/object:Gem::Version
   segments:
   - 0
   - 4
-  - 0
-  version: 0.4.0
+  - 1
+  version: 0.4.1
 platform: ruby
 authors:
 - Simon Chiang
@@ -14,13 +14,14 @@ autorequire:
 bindir: bin
 cert_chain: []
-date: 2010-06-23 00:00:00 -06:00
-default_executable:
+date: 2010-11-15 00:00:00 -07:00
+default_executable: digest.rb
 dependencies:
 - !ruby/object:Gem::Dependency
   name: molecules
   prerelease: false
   requirement: &id001 !ruby/object:Gem::Requirement
+    none: false
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
@@ -35,6 +36,7 @@ dependencies:
   name: tap
   prerelease: false
   requirement: &id002 !ruby/object:Gem::Requirement
+    none: false
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
@@ -49,6 +51,7 @@ dependencies:
   name: tap-test
   prerelease: false
   requirement: &id003 !ruby/object:Gem::Requirement
+    none: false
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
@@ -63,6 +66,7 @@ dependencies:
   name: spec-more
   prerelease: false
   requirement: &id004 !ruby/object:Gem::Requirement
+    none: false
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
@@ -73,8 +77,8 @@ dependencies:
   version_requirements: *id004
 description: peptide fragmentation and protein digestion
 email: jtprince@gmail.com
-executables: []
+executables:
+- digest.rb
 extensions: []
 extra_rdoc_files:
@@ -87,8 +91,8 @@ files:
 - README.rdoc
 - Rakefile
 - VERSION
+- bin/digest.rb
 - lib/ms/in_silico.rb
-- lib/ms/in_silico/digest.rb
 - lib/ms/in_silico/digester.rb
 - lib/ms/in_silico/fragment.rb
 - lib/ms/in_silico/spectrum.rb
@@ -97,9 +101,6 @@ files:
 - spec/ms/in_silico/spectrum_spec.rb
 - spec/readme_spec.rb
 - spec/spec_helper.rb
-- spec/tap_test_helper.rb
-- spec/tap_test_suite.rb
-- tap.yml
 - test/ms/in_silico/digest_test.rb
 - test/ms/in_silico/fragment_test.rb
 has_rdoc: true
@@ -112,6 +113,7 @@ rdoc_options:
 require_paths:
 - lib
 required_ruby_version: !ruby/object:Gem::Requirement
+  none: false
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
@@ -119,6 +121,7 @@ required_ruby_version: !ruby/object:Gem::Requirement
       - 0
       version: "0"
 required_rubygems_version: !ruby/object:Gem::Requirement
+  none: false
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
@@ -128,17 +131,15 @@ required_rubygems_version: !ruby/object:Gem::Requirement
 requirements: []
 rubyforge_project: mspire
-rubygems_version: 1.3.6
+rubygems_version: 1.3.7
 signing_key:
 specification_version: 3
 summary: in-silico calculations for mass spec data
 test_files:
-- spec/tap_test_suite.rb
 - spec/ms/in_silico/fragment_spec.rb
 - spec/ms/in_silico/spectrum_spec.rb
 - spec/ms/in_silico/digester_spec.rb
 - spec/readme_spec.rb
-- spec/tap_test_helper.rb
 - spec/spec_helper.rb
 - test/ms/in_silico/digest_test.rb
 - test/ms/in_silico/fragment_test.rb

data/lib/ms/in_silico/digest.rb DELETED

@@ -1,52 +0,0 @@
-require 'tap/task'
-require 'ms/in_silico/digester'
-module Ms
-  module InSilico
-    # :startdoc::task digest a protein sequence into peptides
-    # Digest a protein sequence into an array of peptides.
-    #
-    #   % rap digest MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG --:i dump
-    #   MIVIGR
-    #   SIVHPYITNEYEPFAAEK
-    #   QQILSIMAG
-    #
-    class Digest < Tap::Task
-      config :digester, 'Trypsin'                # The name of the digester
-      config :min_length, nil, &c.integer_or_nil # Minimum peptide length
-      config :max_length, nil, &c.integer_or_nil # Maximum peptide length
-      config :max_misses, 0, &c.integer          # The max # of missed cleavage sites
-      config :site_digest, false, &c.boolean     # Digest to sites (rather than sequences)
-      def process(sequence)
-        unless d = Digester[digester]
-          raise ArgumentError, "unknown digester: #{digester}"
-        end
-        # extract sequence from FASTA entries
-        sequence = $1 if sequence =~ /\A>.*?\n(.*)\z/m
-        sequence.gsub!(/\s/, "")
-        peptides = if site_digest
-          d.site_digest(sequence, max_misses)
-        else
-          d.digest(sequence, max_misses)
-        end
-        # filter
-        peptides.delete_if do |peptide|
-          peptide.length < min_length
-        end if min_length
-        peptides.delete_if do |peptide|
-          peptide.length > max_length
-        end if max_length
-        log 'digest', "#{sequence[0..10]}#{sequence.length > 10 ? '...' : ''} to #{peptides.length} peptides"
-        peptides
-      end
-    end
-  end
-end

data/spec/tap_test_helper.rb DELETED

	@@ -1,2 +0,0 @@
1	- require 'rubygems'
2	- require 'tap/test/unit'

data/spec/tap_test_suite.rb DELETED

@@ -1,5 +0,0 @@
-$:.unshift File.join(File.dirname(__FILE__), '../lib')
-# runs all subsets (see Tap::Test::SubsetMethods)
-ENV["ALL"] = "true"
-Dir.glob("./**/*_test.rb").each {|test| require test}

data/tap.yml DELETED

File without changes