RubyGems - ms-in_silico - Versions diffs - 0.4.0 → 0.4.1 - Mend

ms-in_silico 0.4.0 → 0.4.1

Files changed (15) hide show

data/.gitignore +1 -0
data/VERSION +1 -1
data/bin/digest.rb +50 -0
data/lib/ms/in_silico/digester.rb +21 -15
data/lib/ms/in_silico/fragment.rb +3 -2
data/lib/ms/in_silico/spectrum.rb +0 -0
data/spec/ms/in_silico/digester_spec.rb +110 -58
data/spec/ms/in_silico/fragment_spec.rb +1 -1
data/spec/ms/in_silico/spectrum_spec.rb +1 -1
data/spec/readme_spec.rb +10 -10
metadata +14 -13
data/lib/ms/in_silico/digest.rb +0 -52
data/spec/tap_test_helper.rb +0 -2
data/spec/tap_test_suite.rb +0 -5
data/tap.yml +0 -0

data/.gitignore CHANGED

@@ -3,3 +3,4 @@ pkg/
 rdoc/
 backup/
 .*.swp
+*.gemspec

data/VERSION CHANGED

	@@ -1 +1 @@
1	- 0.4.0
1	+ 0.4.1

data/bin/digest.rb ADDED

@@ -0,0 +1,50 @@
+#!/usr/bin/env ruby
+require 'optparse'
+require 'ms/in_silico/digester'
+def print_enzyme_names
+  puts "(tab delimited)"
+  puts %w(name cuts nocut cterm?).join("\t")
+  Ms::InSilico::Digester::ENZYMES.each do |key, enzyme|
+    puts [:name, :cleave_str, :cterm_exception, :cterm_cleavage].map {|v| enzyme.send(v) }.join("\t")
+  end
+end
+delimiter_hash = {
+  'space' => ' ',
+  'tab' => "\t",
+  'newline' => "\n",
+}
+opt = {
+  :enzyme => 'Trypsin',
+  :missed_cleavages => 0,
+  :delimiter => 'space',
+  :record_delimiter => 'newline',
+}
+opts = OptionParser.new do |op|
+  op.banner = "usage: #{File.basename(__FILE__)} [OPTIONS] SOMEPROTEINSEKUENCE ..."
+  op.separator "output: SOMEPR OTEINSEK UENCE"
+  op.separator "options:"
+  op.on("-e", "--enzyme <#{opt[:enzyme]}>", "specify a valid enzyme name") {|v| opt[:enzyme] = v }
+  op.on("-m", "--missed-cleavages <#{opt[:missed_cleavages]}>", Integer, "number of missed cleavages") {|v| opt[:missed_cleavages] = v }
+  op.on("-d", "--delimiter <#{opt[:delimiter]}>", "delimit the returned peptides",
+        "('space','tab','newline' or some other string)") {|v| opt[:delimiter] = v }
+  op.on("-r", "--record-delimiter <#{opt[:record_delimiter]}>", "included after each protein output") {|v| opt[:record_delimiter] = v }
+  op.separator ""
+  op.on("--print-enzymes", "prints table of valid enzyme names and exits") { print_enzyme_names ; exit }
+end
+opts.parse!
+if ARGV.size == 0
+  puts opts
+  exit
+end
+[:delimiter, :record_delimiter].each {|k| opt[k] = (delimiter_hash[opt[k]] || opt[k]) }
+ARGV.each do |protein|
+  print Ms::InSilico::Digester[opt[:enzyme]].digest(protein, opt[:missed_cleavages]).join(opt[:delimiter])
+  print opt[:record_delimiter]
+end

data/lib/ms/in_silico/digester.rb CHANGED

@@ -105,10 +105,10 @@ module Ms
         @scanner = StringScanner.new('')
       end
-      # Returns sites of digestion sites in sequence, as determined by
-      # thecleave_regexp boundaries.  The digestion sites correspond
-      # to the positions where a peptide begins and ends, such that
-      # [n, (n+1) - n] corresponds to the [index, length] for peptide n.
+      # Returns digestion sites in sequence, as determined by the
+      # cleave_regexp boundaries.  The digestion sites correspond to the
+      # positions where a peptide begins and ends, such that [n, (n+1) - n]
+      # corresponds to the [index, length] for peptide n.
       #
       #   d = Digester.new('Trypsin', 'KR', 'P')
       #   seq = "AARGGR"
@@ -128,19 +128,25 @@ module Ms
       # The digested section of sequence may be specified using offset
       # and length.
       def cleavage_sites(seq, offset=0, length=seq.length-offset)
+        return [0, 1] if seq.size == 1  # adding exceptions is lame--algorithm should just work
         adjustment = cterm_cleavage ? 0 : 1
         limit = offset + length
         positions = [offset]
         pos = scan(seq, offset, limit) do |pos|
-          positions << pos - adjustment
+          positions << (pos - adjustment)
         end
         # add the final position
-        if pos < limit || positions.length == 1
+        if (pos < limit) || (positions.length == 1)
+          positions << limit
+        end
+        # adding exceptions is lame.. this code probably needs to be
+        # refactored (corrected).
+        if !cterm_cleavage && pos == limit
           positions << limit
         end
         positions
       end
@@ -151,14 +157,14 @@ module Ms
       #
       # Each [start_index, end_index] pair is yielded to the block, if given,
       # and the collected results are returned.
-      def site_digest(seq, max_misses=0, offset=0, length=seq.length-offset) # :yields: start_index, end_index
+      def site_digest(seq, max_misses=0, offset=0, length=seq.length-offset, &block) # :yields: start_index, end_index
         frag_sites = cleavage_sites(seq, offset, length)
         overlay(frag_sites.length, max_misses, 1) do |start_index, end_index|
           start_index = frag_sites[start_index]
           end_index = frag_sites[end_index]
-          block_given? ? yield(start_index, end_index) : [start_index, end_index]
+          block ? block.call(start_index, end_index) : [start_index, end_index]
         end
       end
@@ -167,7 +173,7 @@ module Ms
       # as in that method, the digested section of sequence may be specified using
       # offset and length.
       def digest(seq, max_misses=0, offset=0, length=seq.length-offset)
-        site_digest(seq, max_misses, offset, length).collect do |s, e|
+        site_digest(seq, max_misses, offset, length).map do |s, e|
           seq[s, e-s]
         end
       end
@@ -183,7 +189,7 @@ module Ms
       # Scans seq between offset and limit for the cleave_regexp, skipping whitespace
       # and being mindful of exception characters. The positions of the scanner at
       # each match are yielded to the block.
-      def scan(seq, offset, limit) # :nodoc:
+      def scan(seq, offset, limit, &block) # :nodoc:
         scanner.string = seq
         scanner.pos = offset
@@ -197,7 +203,7 @@ module Ms
           # break if you scanned past the upper limit
           break if pos > limit
-          yield pos
+          block.call(pos)
         end
         scanner.pos
@@ -205,14 +211,14 @@ module Ms
       # Performs an overlap-collect algorithm providing the start and end
       # indicies of spans skipping up to max_misses boundaries.
-      def overlay(n, max_misses, offset) # :nodoc:
+      def overlay(n, max_misses, offset, &block) # :nodoc:
         results = []
         0.upto(n-1) do |start_index|
           0.upto(max_misses) do |n_miss|
             end_index = start_index + offset + n_miss
             break if end_index == n
-            results << yield(start_index, end_index)
+            results << block.call(start_index, end_index)
           end
         end
         results

data/lib/ms/in_silico/fragment.rb CHANGED

@@ -1,9 +1,9 @@
-require 'tap/task'
 require 'ms/in_silico/spectrum'
 module Ms
   module InSilico
+=begin
     # :startdoc::task calculates a theoretical ms/ms spectrum
     #
     # Calculates the theoretical ms/ms spectrum for a peptide sequence.
@@ -66,5 +66,6 @@ module Ms
       end
     end
+=end
   end
-end
+end

data/lib/ms/in_silico/spectrum.rb CHANGED

File without changes

data/spec/ms/in_silico/digester_spec.rb CHANGED

@@ -1,4 +1,4 @@
-require File.dirname(__FILE__) + '/../../spec_helper.rb'
+require 'spec_helper.rb'
 require 'ms/in_silico/digester'
 require 'pp'
@@ -28,58 +28,7 @@ describe 'a digester' do
     str.join('')
   end
-  it 'performs digestion and can specify sites of digestion' do
-    trypsin = Ms::InSilico::Digester['Trypsin']
-    expected = [
-    'MIVIGR',
-    'SIVHPYITNEYEPFAAEK',
-    'QQILSIMAG']
-    trypsin.digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG').is expected
-    expected =  [
-    'MIVIGR',
-    'MIVIGRSIVHPYITNEYEPFAAEK',
-    'SIVHPYITNEYEPFAAEK',
-    'SIVHPYITNEYEPFAAEKQQILSIMAG',
-    'QQILSIMAG']
-    trypsin.digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG', 1).is expected
-    expected = [
-    [0,6],
-    [0,24],
-    [6,24],
-    [6,33],
-    [24,33]]
-    trypsin.site_digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG', 1).is expected
-  end
-  it 'completely ignores whitespace inside protein sequences' do
-    expected = [
-    "\tMIVIGR",
-    "SIVHP\nYITNEYEPFAAE K",
-    "QQILSI\rMAG"]
-    Ms::InSilico::Digester['Trypsin'].digest("\tMIVIGRSIVHP\nYITNEYEPFAAE KQQILSI\rMAG").is expected
-  end
-  it 'runs cleavage sites documentation' do
-    d = Ms::InSilico::Digester.new('Trypsin', 'KR', 'P')
-    seq = "AARGGR"
-    sites = d.cleavage_sites(seq)
-    sites.is [0, 3, 6]
-    seq[sites[0], sites[0+1] - sites[0]].is "AAR"
-    seq[sites[1], sites[1+1] - sites[1]].is "GGR"
-    seq = "AAR  \n  GGR"
-    sites = d.cleavage_sites(seq)
-    sites.is [0, 8, 11]
-    seq[sites[0], sites[0+1] - sites[0]].is "AAR  \n  "
-    seq[sites[1], sites[1+1] - sites[1]].is "GGR"
-  end
   it 'finds cleavage site indices' do
     {
       "" => [0,0],
@@ -129,7 +78,9 @@ describe 'a digester' do
        @digester.cleavage_sites(sequence).is expected
     end
   end
   it 'finds cleavage sites with offset and limit' do
     {
       "RxxR" => [2,4],
@@ -165,7 +116,8 @@ describe 'a digester' do
       "RRR" => ["R", "R", "R"]
     }.each do |sequence, expected|
       # spp(sequence)
-       @digester.digest(sequence) {|frag, s, e| frag}.is expected
+       @digester.digest(sequence).is expected
+       #@digester.digest(sequence) {|frag, s, e| frag}.is expected
     end
   end
@@ -182,7 +134,8 @@ describe 'a digester' do
       "RAR" => ["R", "RAR", "AR"],
       "RRR" => ["R", "RR", "R", "RR", "R"]
     }.each do |sequence, expected|
-       @digester.digest(sequence, 1) {|frag, s, e| frag}.is expected
+       @digester.digest(sequence, 1).is expected
+       #@digester.digest(sequence, 1) {|frag, s, e| frag}.is expected
     end
   end
@@ -199,7 +152,8 @@ describe 'a digester' do
       "RAR" => ["R", "RAR", "AR"],
       "RRR" => ["R", "RR", "RRR", "R", "RR", "R"]
     }.each do |sequence, expected|
-       @digester.digest(sequence, 2) {|frag, s, e| frag}.is expected
+       @digester.digest(sequence, 2).is expected
+       #@digester.digest(sequence, 2) {|frag, s, e| frag}.is expected
     end
   end
@@ -273,9 +227,67 @@ describe 'a digester' do
       end
     end
   end
+end
+describe 'performs as documented in readme' do
+ it 'runs cleavage sites documentation' do
+    d = Ms::InSilico::Digester.new('Trypsin', 'KR', 'P')
+    seq = "AARGGR"
+    sites = d.cleavage_sites(seq)
+    sites.is [0, 3, 6]
+    seq[sites[0], sites[0+1] - sites[0]].is "AAR"
+    seq[sites[1], sites[1+1] - sites[1]].is "GGR"
+    seq = "AAR  \n  GGR"
+    sites = d.cleavage_sites(seq)
+    sites.is [0, 8, 11]
+    seq[sites[0], sites[0+1] - sites[0]].is "AAR  \n  "
+    seq[sites[1], sites[1+1] - sites[1]].is "GGR"
+  end
+end
+describe 'basic trypsin digestion' do
+  it 'performs digestion and can specify sites of digestion' do
+    trypsin = Ms::InSilico::Digester['Trypsin']
+    expected = [
+    'MIVIGR',
+    'SIVHPYITNEYEPFAAEK',
+    'QQILSIMAG']
+    trypsin.digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG').is expected
+    expected =  [
+    'MIVIGR',
+    'MIVIGRSIVHPYITNEYEPFAAEK',
+    'SIVHPYITNEYEPFAAEK',
+    'SIVHPYITNEYEPFAAEKQQILSIMAG',
+    'QQILSIMAG']
+    trypsin.digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG', 1).is expected
+    expected = [
+    [0,6],
+    [0,24],
+    [6,24],
+    [6,33],
+    [24,33]]
+    trypsin.site_digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG', 1).is expected
+  end
+  it 'completely ignores whitespace inside protein sequences' do
+    expected = [
+    "\tMIVIGR",
+    "SIVHP\nYITNEYEPFAAE K",
+    "QQILSI\rMAG"]
+    Ms::InSilico::Digester['Trypsin'].digest("\tMIVIGRSIVHP\nYITNEYEPFAAE KQQILSI\rMAG").is expected
+  end
   it 'does a trypsin digest' do
     trypsin = Ms::InSilico::Digester::TRYPSIN
+    # alternate ways to specify the enzyme
+    Ms::InSilico::Digester::TRYPSIN.is Ms::InSilico::Digester['Trypsin']
     {
       "" => [''],
       "A" => ["A"],
@@ -294,8 +306,48 @@ describe 'a digester' do
       "ARPARAA" => ["ARPAR", "AA"],
       "RPRRR" => ["RPR", "R", "R"]
     }.each do |sequence, expected|
-       trypsin.digest(sequence) {|frag, s, e| frag}.is expected
+       trypsin.digest(sequence).is expected
+    end
+  end
+end
+describe 'digestion with other enzymes' do
+  # This is how to create the enzyme:
+  # Ms::InSilico::Digester['Arg-C']
+  # Ms::InSilico::Digester::ARG_C
+  {
+      ['Arg-C', :ARG_C] => {
+      "AARC" => ["AAR", "C"],
+      "AARP" => ["AARP"]
+    },
+      ['Asp-N', :ASP_N] => {
+      "AABDS" => ["AA", "B", "DS"],
+      "ADZBS" => ["A", "DZ", "BS"],
+      "B" => %w(B),
+      "A" => %w(A),
+      "ABD" => %w(A B D),
+    },
+    ['Asp-N_ambic', :ASP_N_AMBIC] => {
+      "AAEDS" => ["AA", "E", "DS"],
+      "ADZES" => ["A", "DZ", "ES"],
+      "AED" => %w(A E D),
+      "GDE" => %w(G D E),
+      "AAECCDGG" => %w(AA ECC DGG),
+    }
+  }.each do |enzyme_names, test_hash|
+    it "digests with '#{enzyme_names.first}'" do
+      digester = Ms::InSilico::Digester[enzyme_names.first]
+      digester.is Ms::InSilico::Digester.const_get(enzyme_names.last)
+      test_hash.each do |sequence, expected|
+        digester.digest(sequence).is expected
+      end
     end
   end
 end

data/spec/ms/in_silico/fragment_spec.rb CHANGED

@@ -1,4 +1,4 @@
-require File.dirname(__FILE__) + '/../../spec_helper.rb'
+require 'spec_helper.rb'
 require 'ms/in_silico/fragment'

data/spec/ms/in_silico/spectrum_spec.rb CHANGED

@@ -1,4 +1,4 @@
-require File.dirname(__FILE__) + '/../../spec_helper'
+require 'spec_helper'
 require 'ms/in_silico/spectrum'
 # class locate_residues tests

data/spec/readme_spec.rb CHANGED

@@ -1,4 +1,4 @@
-require File.dirname(__FILE__) + '/spec_helper.rb'
+require '/spec_helper.rb'
 require 'ms/in_silico/digester'
 require 'ms/in_silico/spectrum'
@@ -8,21 +8,21 @@ describe 'readme documentation' do
     trypsin = Ms::InSilico::Digester['Trypsin']
     peptides = trypsin.digest('MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG')
     expected = [
-    'MIVIGR',
-    'SIVHPYITNEYEPFAAEK',
-    'QQILSIMAG']
+      'MIVIGR',
+      'SIVHPYITNEYEPFAAEK',
+      'QQILSIMAG']
     peptides.sort.is expected.sort
     spectrum = Ms::InSilico::Spectrum.new(peptides[0])
     spectrum.parent_ion_mass.should.be.close 688.417442373391, 10**-12
     expected = [
-    132.047761058391,
-    245.131825038791,
-    344.200238954991,
-    457.284302935391,
-    514.305766658991,
-    670.406877687091]
+      132.047761058391,
+      245.131825038791,
+      344.200238954991,
+      457.284302935391,
+      514.305766658991,
+      670.406877687091]
     spectrum.series('b').zip(expected) do |o,e|
       o.should.be.close e, 10**-12
     end

metadata CHANGED

@@ -5,8 +5,8 @@ version: !ruby/object:Gem::Version
   segments:
   - 0
   - 4
-  - 0
-  version: 0.4.0
+  - 1
+  version: 0.4.1
 platform: ruby
 authors:
 - Simon Chiang
@@ -14,13 +14,14 @@ autorequire:
 bindir: bin
 cert_chain: []
-date: 2010-06-23 00:00:00 -06:00
-default_executable:
+date: 2010-11-15 00:00:00 -07:00
+default_executable: digest.rb
 dependencies:
 - !ruby/object:Gem::Dependency
   name: molecules
   prerelease: false
   requirement: &id001 !ruby/object:Gem::Requirement
+    none: false
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
@@ -35,6 +36,7 @@ dependencies:
   name: tap
   prerelease: false
   requirement: &id002 !ruby/object:Gem::Requirement
+    none: false
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
@@ -49,6 +51,7 @@ dependencies:
   name: tap-test
   prerelease: false
   requirement: &id003 !ruby/object:Gem::Requirement
+    none: false
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
@@ -63,6 +66,7 @@ dependencies:
   name: spec-more
   prerelease: false
   requirement: &id004 !ruby/object:Gem::Requirement
+    none: false
     requirements:
     - - ">="
       - !ruby/object:Gem::Version
@@ -73,8 +77,8 @@ dependencies:
   version_requirements: *id004
 description: peptide fragmentation and protein digestion
 email: jtprince@gmail.com
-executables: []
+executables:
+- digest.rb
 extensions: []
 extra_rdoc_files:
@@ -87,8 +91,8 @@ files:
 - README.rdoc
 - Rakefile
 - VERSION
+- bin/digest.rb
 - lib/ms/in_silico.rb
-- lib/ms/in_silico/digest.rb
 - lib/ms/in_silico/digester.rb
 - lib/ms/in_silico/fragment.rb
 - lib/ms/in_silico/spectrum.rb
@@ -97,9 +101,6 @@ files:
 - spec/ms/in_silico/spectrum_spec.rb
 - spec/readme_spec.rb
 - spec/spec_helper.rb
-- spec/tap_test_helper.rb
-- spec/tap_test_suite.rb
-- tap.yml
 - test/ms/in_silico/digest_test.rb
 - test/ms/in_silico/fragment_test.rb
 has_rdoc: true
@@ -112,6 +113,7 @@ rdoc_options:
 require_paths:
 - lib
 required_ruby_version: !ruby/object:Gem::Requirement
+  none: false
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
@@ -119,6 +121,7 @@ required_ruby_version: !ruby/object:Gem::Requirement
       - 0
       version: "0"
 required_rubygems_version: !ruby/object:Gem::Requirement
+  none: false
   requirements:
   - - ">="
     - !ruby/object:Gem::Version
@@ -128,17 +131,15 @@ required_rubygems_version: !ruby/object:Gem::Requirement
 requirements: []
 rubyforge_project: mspire
-rubygems_version: 1.3.6
+rubygems_version: 1.3.7
 signing_key:
 specification_version: 3
 summary: in-silico calculations for mass spec data
 test_files:
-- spec/tap_test_suite.rb
 - spec/ms/in_silico/fragment_spec.rb
 - spec/ms/in_silico/spectrum_spec.rb
 - spec/ms/in_silico/digester_spec.rb
 - spec/readme_spec.rb
-- spec/tap_test_helper.rb
 - spec/spec_helper.rb
 - test/ms/in_silico/digest_test.rb
 - test/ms/in_silico/fragment_test.rb

data/lib/ms/in_silico/digest.rb DELETED

@@ -1,52 +0,0 @@
-require 'tap/task'
-require 'ms/in_silico/digester'
-module Ms
-  module InSilico
-    # :startdoc::task digest a protein sequence into peptides
-    # Digest a protein sequence into an array of peptides.
-    #
-    #   % rap digest MIVIGRSIVHPYITNEYEPFAAEKQQILSIMAG --:i dump
-    #   MIVIGR
-    #   SIVHPYITNEYEPFAAEK
-    #   QQILSIMAG
-    #
-    class Digest < Tap::Task
-      config :digester, 'Trypsin'                # The name of the digester
-      config :min_length, nil, &c.integer_or_nil # Minimum peptide length
-      config :max_length, nil, &c.integer_or_nil # Maximum peptide length
-      config :max_misses, 0, &c.integer          # The max # of missed cleavage sites
-      config :site_digest, false, &c.boolean     # Digest to sites (rather than sequences)
-      def process(sequence)
-        unless d = Digester[digester]
-          raise ArgumentError, "unknown digester: #{digester}"
-        end
-        # extract sequence from FASTA entries
-        sequence = $1 if sequence =~ /\A>.*?\n(.*)\z/m
-        sequence.gsub!(/\s/, "")
-        peptides = if site_digest
-          d.site_digest(sequence, max_misses)
-        else
-          d.digest(sequence, max_misses)
-        end
-        # filter
-        peptides.delete_if do |peptide|
-          peptide.length < min_length
-        end if min_length
-        peptides.delete_if do |peptide|
-          peptide.length > max_length
-        end if max_length
-        log 'digest', "#{sequence[0..10]}#{sequence.length > 10 ? '...' : ''} to #{peptides.length} peptides"
-        peptides
-      end
-    end
-  end
-end

data/spec/tap_test_helper.rb DELETED

	@@ -1,2 +0,0 @@
1	- require 'rubygems'
2	- require 'tap/test/unit'

data/spec/tap_test_suite.rb DELETED

@@ -1,5 +0,0 @@
-$:.unshift File.join(File.dirname(__FILE__), '../lib')
-# runs all subsets (see Tap::Test::SubsetMethods)
-ENV["ALL"] = "true"
-Dir.glob("./**/*_test.rb").each {|test| require test}

data/tap.yml DELETED

File without changes