RubyGems - mspire - Versions diffs - 0.4.9 → 0.5.0 - Mend

mspire 0.4.9 → 0.5.0

Files changed (255) hide show

data/README +27 -17
data/changelog.txt +31 -62
data/lib/ms/calc.rb +32 -0
data/lib/ms/data/interleaved.rb +60 -0
data/lib/ms/data/lazy_io.rb +73 -0
data/lib/ms/data/lazy_string.rb +15 -0
data/lib/ms/data/simple.rb +59 -0
data/lib/ms/data/transposed.rb +41 -0
data/lib/ms/data.rb +57 -0
data/lib/ms/format/format_error.rb +12 -0
data/lib/ms/spectrum.rb +25 -384
data/lib/ms/support/binary_search.rb +126 -0
data/lib/ms.rb +10 -10
metadata +38 -350
data/INSTALL +0 -58
data/README.rdoc +0 -18
data/Rakefile +0 -330
data/bin/aafreqs.rb +0 -23
data/bin/bioworks2excel.rb +0 -14
data/bin/bioworks_to_pepxml.rb +0 -148
data/bin/bioworks_to_pepxml_gui.rb +0 -225
data/bin/fasta_shaker.rb +0 -5
data/bin/filter_and_validate.rb +0 -5
data/bin/gi2annot.rb +0 -14
data/bin/id_class_anal.rb +0 -112
data/bin/id_precision.rb +0 -172
data/bin/ms_to_lmat.rb +0 -67
data/bin/pepproph_filter.rb +0 -16
data/bin/prob_validate.rb +0 -6
data/bin/protein_summary.rb +0 -6
data/bin/protxml2prots_peps.rb +0 -32
data/bin/raw_to_mzXML.rb +0 -55
data/bin/run_percolator.rb +0 -122
data/bin/sqt_group.rb +0 -26
data/bin/srf_group.rb +0 -27
data/bin/srf_to_sqt.rb +0 -40
data/lib/align/chams.rb +0 -78
data/lib/align.rb +0 -154
data/lib/archive/targz.rb +0 -94
data/lib/bsearch.rb +0 -120
data/lib/core_extensions.rb +0 -16
data/lib/fasta.rb +0 -626
data/lib/gi.rb +0 -124
data/lib/group_by.rb +0 -10
data/lib/index_by.rb +0 -11
data/lib/merge_deep.rb +0 -21
data/lib/ms/converter/mzxml.rb +0 -77
data/lib/ms/gradient_program.rb +0 -170
data/lib/ms/msrun.rb +0 -244
data/lib/ms/msrun_index.rb +0 -108
data/lib/ms/parser/mzdata/axml.rb +0 -67
data/lib/ms/parser/mzdata/dom.rb +0 -175
data/lib/ms/parser/mzdata/libxml.rb +0 -7
data/lib/ms/parser/mzdata.rb +0 -31
data/lib/ms/parser/mzxml/axml.rb +0 -70
data/lib/ms/parser/mzxml/dom.rb +0 -182
data/lib/ms/parser/mzxml/hpricot.rb +0 -253
data/lib/ms/parser/mzxml/libxml.rb +0 -19
data/lib/ms/parser/mzxml/regexp.rb +0 -122
data/lib/ms/parser/mzxml/rexml.rb +0 -72
data/lib/ms/parser/mzxml/xmlparser.rb +0 -248
data/lib/ms/parser/mzxml.rb +0 -282
data/lib/ms/parser.rb +0 -108
data/lib/ms/precursor.rb +0 -25
data/lib/ms/scan.rb +0 -81
data/lib/mspire.rb +0 -4
data/lib/pi_zero.rb +0 -244
data/lib/qvalue.rb +0 -161
data/lib/roc.rb +0 -187
data/lib/sample_enzyme.rb +0 -160
data/lib/scan_i.rb +0 -21
data/lib/spec_id/aa_freqs.rb +0 -170
data/lib/spec_id/bioworks.rb +0 -497
data/lib/spec_id/digestor.rb +0 -138
data/lib/spec_id/mass.rb +0 -179
data/lib/spec_id/parser/proph.rb +0 -335
data/lib/spec_id/precision/filter/cmdline.rb +0 -218
data/lib/spec_id/precision/filter/interactive.rb +0 -134
data/lib/spec_id/precision/filter/output.rb +0 -148
data/lib/spec_id/precision/filter.rb +0 -637
data/lib/spec_id/precision/output.rb +0 -60
data/lib/spec_id/precision/prob/cmdline.rb +0 -160
data/lib/spec_id/precision/prob/output.rb +0 -94
data/lib/spec_id/precision/prob.rb +0 -249
data/lib/spec_id/proph/pep_summary.rb +0 -104
data/lib/spec_id/proph/prot_summary.rb +0 -484
data/lib/spec_id/proph.rb +0 -4
data/lib/spec_id/protein_summary.rb +0 -489
data/lib/spec_id/sequest/params.rb +0 -316
data/lib/spec_id/sequest/pepxml.rb +0 -1458
data/lib/spec_id/sequest.rb +0 -33
data/lib/spec_id/sqt.rb +0 -349
data/lib/spec_id/srf.rb +0 -973
data/lib/spec_id.rb +0 -778
data/lib/spec_id_xml.rb +0 -99
data/lib/transmem/phobius.rb +0 -147
data/lib/transmem/toppred.rb +0 -368
data/lib/transmem.rb +0 -157
data/lib/validator/aa.rb +0 -48
data/lib/validator/aa_est.rb +0 -112
data/lib/validator/background.rb +0 -77
data/lib/validator/bias.rb +0 -95
data/lib/validator/cmdline.rb +0 -431
data/lib/validator/decoy.rb +0 -107
data/lib/validator/digestion_based.rb +0 -70
data/lib/validator/probability.rb +0 -51
data/lib/validator/prot_from_pep.rb +0 -234
data/lib/validator/q_value.rb +0 -32
data/lib/validator/transmem.rb +0 -272
data/lib/validator/true_pos.rb +0 -46
data/lib/validator.rb +0 -197
data/lib/xml.rb +0 -38
data/lib/xml_style_parser.rb +0 -119
data/lib/xmlparser_wrapper.rb +0 -19
data/release_notes.txt +0 -2
data/script/compile_and_plot_smriti_final.rb +0 -97
data/script/create_little_pepxml.rb +0 -61
data/script/degenerate_peptides.rb +0 -47
data/script/estimate_fpr_by_cysteine.rb +0 -226
data/script/extract_gradient_programs.rb +0 -56
data/script/find_cysteine_background.rb +0 -137
data/script/genuine_tps_and_probs.rb +0 -136
data/script/get_apex_values_rexml.rb +0 -44
data/script/histogram_probs.rb +0 -61
data/script/mascot_fix_pepxml.rb +0 -123
data/script/msvis.rb +0 -42
data/script/mzXML2timeIndex.rb +0 -25
data/script/peps_per_bin.rb +0 -67
data/script/prep_dir.rb +0 -121
data/script/simple_protein_digestion.rb +0 -27
data/script/smriti_final_analysis.rb +0 -103
data/script/sqt_to_meta.rb +0 -24
data/script/top_hit_per_scan.rb +0 -67
data/script/toppred_to_yaml.rb +0 -47
data/script/tpp_installer.rb +0 -249
data/specs/align_spec.rb +0 -79
data/specs/bin/bioworks_to_pepxml_spec.rb +0 -79
data/specs/bin/fasta_shaker_spec.rb +0 -259
data/specs/bin/filter_and_validate__multiple_vals_helper.yaml +0 -199
data/specs/bin/filter_and_validate_spec.rb +0 -180
data/specs/bin/ms_to_lmat_spec.rb +0 -34
data/specs/bin/prob_validate_spec.rb +0 -86
data/specs/bin/protein_summary_spec.rb +0 -14
data/specs/fasta_spec.rb +0 -354
data/specs/gi_spec.rb +0 -22
data/specs/load_bin_path.rb +0 -7
data/specs/merge_deep_spec.rb +0 -13
data/specs/ms/gradient_program_spec.rb +0 -77
data/specs/ms/msrun_spec.rb +0 -498
data/specs/ms/parser_spec.rb +0 -92
data/specs/ms/spectrum_spec.rb +0 -87
data/specs/pi_zero_spec.rb +0 -115
data/specs/qvalue_spec.rb +0 -39
data/specs/roc_spec.rb +0 -251
data/specs/rspec_autotest.rb +0 -149
data/specs/sample_enzyme_spec.rb +0 -126
data/specs/spec_helper.rb +0 -135
data/specs/spec_id/aa_freqs_spec.rb +0 -52
data/specs/spec_id/bioworks_spec.rb +0 -148
data/specs/spec_id/digestor_spec.rb +0 -75
data/specs/spec_id/precision/filter/cmdline_spec.rb +0 -20
data/specs/spec_id/precision/filter/output_spec.rb +0 -31
data/specs/spec_id/precision/filter_spec.rb +0 -246
data/specs/spec_id/precision/prob_spec.rb +0 -44
data/specs/spec_id/precision/prob_spec_helper.rb +0 -0
data/specs/spec_id/proph/pep_summary_spec.rb +0 -98
data/specs/spec_id/proph/prot_summary_spec.rb +0 -128
data/specs/spec_id/protein_summary_spec.rb +0 -189
data/specs/spec_id/sequest/params_spec.rb +0 -68
data/specs/spec_id/sequest/pepxml_spec.rb +0 -374
data/specs/spec_id/sequest_spec.rb +0 -38
data/specs/spec_id/sqt_spec.rb +0 -246
data/specs/spec_id/srf_spec.rb +0 -172
data/specs/spec_id/srf_spec_helper.rb +0 -139
data/specs/spec_id_helper.rb +0 -33
data/specs/spec_id_spec.rb +0 -366
data/specs/spec_id_xml_spec.rb +0 -33
data/specs/transmem/phobius_spec.rb +0 -425
data/specs/transmem/toppred_spec.rb +0 -298
data/specs/transmem_spec.rb +0 -60
data/specs/transmem_spec_shared.rb +0 -64
data/specs/validator/aa_est_spec.rb +0 -66
data/specs/validator/aa_spec.rb +0 -40
data/specs/validator/background_spec.rb +0 -67
data/specs/validator/bias_spec.rb +0 -122
data/specs/validator/decoy_spec.rb +0 -51
data/specs/validator/fasta_helper.rb +0 -26
data/specs/validator/prot_from_pep_spec.rb +0 -141
data/specs/validator/transmem_spec.rb +0 -146
data/specs/validator/true_pos_spec.rb +0 -58
data/specs/validator_helper.rb +0 -33
data/specs/xml_spec.rb +0 -12
data/test_files/000_pepxml18_small.xml +0 -206
data/test_files/020a.mzXML.timeIndex +0 -4710
data/test_files/4-03-03_mzXML/000.mzXML.timeIndex +0 -3973
data/test_files/4-03-03_mzXML/020.mzXML.timeIndex +0 -3872
data/test_files/4-03-03_small-prot.xml +0 -321
data/test_files/4-03-03_small.xml +0 -3876
data/test_files/7MIX_STD_110802_1.sequest_params_fragment.srf +0 -0
data/test_files/bioworks-3.3_10prots.xml +0 -5999
data/test_files/bioworks31.params +0 -77
data/test_files/bioworks32.params +0 -62
data/test_files/bioworks33.params +0 -63
data/test_files/bioworks_single_run_small.xml +0 -7237
data/test_files/bioworks_small.fasta +0 -212
data/test_files/bioworks_small.params +0 -63
data/test_files/bioworks_small.phobius +0 -109
data/test_files/bioworks_small.toppred.out +0 -2847
data/test_files/bioworks_small.xml +0 -5610
data/test_files/bioworks_with_INV_small.xml +0 -3753
data/test_files/bioworks_with_SHUFF_small.xml +0 -2503
data/test_files/corrupted_900.srf +0 -0
data/test_files/head_of_7MIX.srf +0 -0
data/test_files/interact-opd1_mods_small-prot.xml +0 -304
data/test_files/messups.fasta +0 -297
data/test_files/opd1/000.my_answer.100lines.xml +0 -101
data/test_files/opd1/000.tpp_1.2.3.first10.xml +0 -115
data/test_files/opd1/000.tpp_2.9.2.first10.xml +0 -126
data/test_files/opd1/000.v2.1.mzXML.timeIndex +0 -3748
data/test_files/opd1/000_020-prot.png +0 -0
data/test_files/opd1/000_020_3prots-prot.mod_initprob.xml +0 -62
data/test_files/opd1/000_020_3prots-prot.xml +0 -62
data/test_files/opd1/opd1_cat_inv_small-prot.xml +0 -139
data/test_files/opd1/sequest.3.1.params +0 -77
data/test_files/opd1/sequest.3.2.params +0 -62
data/test_files/opd1/twenty_scans.mzXML +0 -418
data/test_files/opd1/twenty_scans.v2.1.mzXML +0 -382
data/test_files/opd1/twenty_scans_answ.lmat +0 -0
data/test_files/opd1/twenty_scans_answ.lmata +0 -9
data/test_files/opd1_020_beginning.RAW +0 -0
data/test_files/opd1_2runs_2mods/data/020.mzData.xml +0 -683
data/test_files/opd1_2runs_2mods/data/020.readw.mzXML +0 -382
data/test_files/opd1_2runs_2mods/data/040.mzData.xml +0 -683
data/test_files/opd1_2runs_2mods/data/040.readw.mzXML +0 -382
data/test_files/opd1_2runs_2mods/data/README.txt +0 -6
data/test_files/opd1_2runs_2mods/interact-opd1_mods__small.xml +0 -753
data/test_files/orbitrap_mzData/000_cut.xml +0 -1920
data/test_files/pepproph_small.xml +0 -4691
data/test_files/phobius.small.noheader.txt +0 -50
data/test_files/phobius.small.small.txt +0 -53
data/test_files/s01_anC1_ld020mM.key.txt +0 -25
data/test_files/s01_anC1_ld020mM.meth +0 -0
data/test_files/small.fasta +0 -297
data/test_files/small.sqt +0 -87
data/test_files/smallraw.RAW +0 -0
data/test_files/tf_bioworks2excel.bioXML +0 -14340
data/test_files/tf_bioworks2excel.txt.actual +0 -1035
data/test_files/toppred.small.out +0 -416
data/test_files/toppred.xml.out +0 -318
data/test_files/validator_hits_separate/bias_bioworks_small_HS.fasta +0 -7
data/test_files/validator_hits_separate/bioworks_small_HS.xml +0 -5651
data/test_files/yeast_gly_small-prot.xml +0 -265
data/test_files/yeast_gly_small.1.0_1.0_1.0.parentTimes +0 -6
data/test_files/yeast_gly_small.xml +0 -3807
data/test_files/yeast_gly_small2.parentTimes +0 -6

data/lib/ms/parser/mzxml/hpricot.rb DELETED Viewed

@@ -1,253 +0,0 @@
-require 'xml_style_parser'
-require 'ms/spectrum'
-require 'ms/scan'
-class MS::Parser::MzXML::Hpricot
-  include XMLStyleParser
-  include MS::Parser::MzXML
-  @@scan_atts = %w(num msLevel retentionTime startMz endMz precursor spectrum)
-  def initialize(parse_type=:msrun, version='1.0')
-    @method = parse_type
-    @version = version
-  end
-  def new_scan_from_hash(node)
-    scan = MS::Scan.new  # array class creates one with 9 positions
-    scan[0] = node['num'].to_i
-    scan[1] = node['msLevel'].to_i
-    scan[2] = node['retentionTime'][2...-1].to_f
-    if x = node['startMz']
-      scan[3] = x.to_f
-      scan[4] = node['endMz'].to_f
-    end
-    scan
-  end
-  # takes a scan node and creates a scan object
-  # the parent scan is the one directly above it in mslevel
-  # if the
-  def create_scan(scan_n, scans_by_num, get_spectra=true)
-    if @version < '3.0'
-      scan = new_scan_from_hash(scan_n)
-      precs = []
-      scan_n.each_child do |node|
-        case node.name
-        when 'precursorMz'
-          # should be able to do this!!!
-          #scan[5] = scan_n.find('child::precursorMz').map do |prec_n|
-          prec = MS::Precursor.new
-          prec[1] = node['precursorIntensity'].to_f
-          prec[0] = node.content.to_f
-          if x = node['precursorScanNum']
-            prec[2] = scans_by_num[x.to_i]
-          end
-          precs << prec
-        when 'peaks'
-          next unless get_spectra
-          # SHOULD be able to do this!!
-          #peaks_n = scan_n.find_first('child::peaks')
-          scan[6] = MS::Spectrum.from_base64_peaks(node.content, node['precision'].to_i)
-        end
-      end
-      scan[5] = precs
-      scan
-    else  # for version > 3.0
-      abort 'not supporting version 3.0 just yet'
-      # note that mzXML version 3.0 *can* have more than one peak...
-      # I'm not sure how to deal with that since I have one spectrum/scan
-    end
-  end
-  # returns an array of msrun objects
-  def msruns(file)
-    raise NotImplementedError
-  end
-  # returns a string with double </scan></scan> tags into single and missing
-  # </scan> tags after peaks added in
-  # we do this in windows style since these are generated off a windows
-  # machine only
-  def fix_bad_scan_tags(file)
-    IO.read(file).gsub(/<\/scan>\s+<\/scan>/m, '</scan>').gsub(/<\/peaks>\s+<scan/m, "</peaks>\r\n  </scan>\r\n  <scan")
-  end
-  # right now cannot parse multiple runs out of an mzXML version 2 file since
-  # this is built around a single run per file
-  # OPTIONS:
-  #   :msrun => MSRun    # use this object instead of creating one
-  #   :spectra => *true|false   # if false don't get spectra
-  def msrun(file, opts={})
-    unless opts.key?(:spectra)
-      opts[:spectra] = true
-    end
-    msrun_obj =
-      if x = opts[:msrun]
-        msrun_obj = x
-      else
-        MS::MSRun.new
-      end
-    doc = File.open(file) {|fh| ::Hpricot.XML(fh) }
-      #if @version == '2.0'
-      #  # may not be necessary in hpricot!
-      #  #string = fix_bad_scan_tags(file)
-      #  #XML::Parser.string(string).parse
-      #else
-      #  XML::Document.file(file)
-      #end
-    msrun_n = doc.at('msRun')
-    ## HEADER
-    scan_count = msrun_n['scanCount'].to_i
-    msrun_obj.scan_count = scan_count
-    scans_by_num = Array.new(scan_count + 1)
-    ## SPECTRUM
-    parent = nil
-    scans = Array.new( scan_count )
-    scn_index = 0
-    # we should be able to do this, but it's not working!!!
-    #scan_n = msrun_n.find_first('scan')
-    #while (scn_index < scan_count)
-    get_spectra = opts[:spectra]
-    msrun_n.each_child do |scan_n|
-      p scan_n
-      abort
-      next unless scan_n.name == 'scan'
-      scan = create_scan(scan_n, scans_by_num, get_spectra)
-      scans[scn_index] = scan
-      sc = scan_n.next
-      scans_by_num[scan[0]] = scan
-      scn_index += 1
-    end
-    ## update the scan's parents
-    MS::MSRun.add_parent_scan(scans)
-    # note that startTime and endTime are optional AND in >2.2 are dateTime
-    # instead of duration types!, so we will just use scan times...
-    # Also, note that startTime and endTime are BROKEN on readw -> mzXML 2.0
-    # export.  They give the start and end time in seconds, but they are
-    # really minutes.  All the more reason to use the first and last scans!
-    msrun_obj.start_time = scans.first.time
-    msrun_obj.end_time = scans.last.time
-    msrun_obj.scans = scans
-  end
-end
-=begin
-## THIS IS THE SAX PARSER VERSION.  IT NEEDS A BIT OF BRUSH UP AND IT WOULD
-## WORK.  I THINK THE default guy is probably faster
-  def msrun(file, msrun_obj)
-    # Figure out where the first scan is at in the file:
-    pos_after_first_scan = nil
-    File.open(file) do |fh|
-      fh.each do |line|
-        if line =~ /<scan/
-          pos_after_first_scan = fh.pos
-        end
-      end
-    end
-    # Get only the header:
-    header_string = IO.read(file, pos_after_first_scan)
-    @msrun_obj = msrun_obj
-    # Parse out the header info:
-    parser = XML::SaxParser.new
-    parser.string = header_string
-    parser.on_start_element do |name, attrs|
-      if name == 'msRun'
-        @msrun_obj.scan_count = attrs['scanCount'].to_i
-        @msrun_obj.start_time = attrs['startTime'][2...-1].to_f
-        @msrun_obj.end_time = attrs['endTime'][2...-1].to_f
-      end
-    end
-    parser.parse
-    # Parse the scans out:
-    scan_st = 'scan'
-    prec_st = 'precursorMz'
-    peaks_st = 'peaks'
-    prec_inten_st = 'precursorIntensity'
-    precision_st = 'precision'
-    #parser = MS::Parser::MzXML::Hpricot::SaxParser::MSRun.new
-    parser = XML::SaxParser.new
-    parser.filename = file
-    parser.on_start_document do
-      @scans = []
-      @current_scan = nil
-      @get_peaks = false
-      @get_prec_mz = false
-    end
-    parser.on_characters do |chars|
-      if @get_peaks
-        @get_peaks << chars
-      elsif @get_prec_mz
-        @get_prec_mz << chars
-      end
-    end
-    parser.on_end_element do |el|
-      case el
-      when 'peaks'
-        @current_scan.spectrum = Spectrum.from_base64_peaks(@get_peaks, @precision, true)
-        @get_peaks = false
-      when 'precursorMz'
-        @current_scan[5] = [Precursor.new([@get_prec_mz.to_f])]
-        @get_prec_mz = false
-      end
-    end
-    parser.on_start_element do |name, attr_hash|
-      case name
-      when scan_st
-        @current_scan = new_scan_from_hash(attr_hash)
-        sz = @scans.size
-        @scans << @current_scan
-      when prec_st
-        @current_scan[5].first[1] = attr_hash[prec_inten_st].to_f
-        @get_prec_mz = ''
-      when peaks_st
-        @precision = attr_hash[precision_st].to_i
-        case @version[0,1].to_ip
-        when 3
-          if ch['pairOrder'] != 'm/z-int' # only version 3.0 has others
-            abort "cannot yet read anything but 'm/z-int' pair order"
-          end
-        end
-        @get_peaks = ''
-      end
-    end
-    parser.parse
-    @msrun_obj.scans = @scans
-    @msrun_obj.scans.each_with_index do |sc,i|
-      if sc.spectrum.mz == nil
-        abort "INDEX: #{i}"
-      end
-    end
-    @msrun_obj
-  end
-=end

data/lib/ms/parser/mzxml/libxml.rb DELETED Viewed

@@ -1,19 +0,0 @@
-require 'ms/parser/mzxml/dom'
-class MS::Parser::MzXML::LibXML < MS::Parser::MzXML::DOM
-  def get_root_node_from_string(string)
-    XML::Parser.string(string).parse.root
-  end
-  def get_root_node_from_file(file)
-    XML::Parser.filename(file).parse.root
-  end
-  def get_root_node_from_io(io)
-    XML::Parser.io(io).parse.root
-  end
-end

data/lib/ms/parser/mzxml/regexp.rb DELETED Viewed

@@ -1,122 +0,0 @@
-require 'strscan'
-module MS::Parser::MzXML ; end
-class MS::Parser::MzXML::Regexp
-  @@first_scan_regexp = /<scan /o
-  include MS::Parser::MzXML
-  def initialize(method=:msrun, version='1.0')
-    @method = method
-    @version = version
-  end
-  def parse(file)
-    send(@method, file)
-  end
-  # returns a MS::MsRun Object
-  def msrun(file)
-    fh = File.open(file)
-    get_header(fh)
-    fh.close
-  end
-  #def msrun(file, opts={})
-  #end
-  @@scan_re = /<scan.*?num="(\d+)"(.*?)<\/scan>/mo
-  def self.precursor_mz_and_intensity_by_scan(file)
-    prec_re = /msLevel="2".*?<precursorMz precursorIntensity="([\d\.]+)".*?>([\d\.]+)<\/precursorMz>/mo
-    self.by_scan_num(file, prec_re) {|match_obj| match_obj.captures.reverse}
-  end
-  # (array will likely start at 1!)
-  def self.by_scan_num(file, regex)
-    arr = []
-    File.open(file) do |fh|
-      string = fh.read
-      matches = string.scan(@@scan_re)
-      matches.each do |matched|
-        if inner_match = regex.match(matched[1])
-          index = matched[0].to_i
-          arr[index] = yield(inner_match)
-        end
-      end
-    end
-    arr
-  end
-  # Returns array where array[scan_num] = precursorMz
-  # Parent scans armme not arrayed
-  # Values are strings.  Array index likely starts at 1!
-  # @TODO: replace the use of a yield block
-  def self.precursor_mz_by_scan(file)
-    prec_re = /msLevel="2".*?<precursorMz.*?>([\d\.]+)<\/precursorMz>/mo
-    self.by_scan_num(file, prec_re) {|match_obj| match_obj.captures[0]}
-  end
-end
-class MS::Parser::MzXML::Regexp::MsRun
-  @@scan_count_regexp = /scanCount="(\d+)"/o
-  @@start_time_regexp = /startTime="PT([\d\.]+)S"/o
-  @@end_time_regexp = /endTime="PT([\d\.]+)S"/o
-  @@first_scan_regexp = /<scan /
-  def initialize(version='1.0')
-    @version = version
-  end
-  def parse(io, msrun_object)
-    atts = {}
-    [:scan_count, :start_time, :end_time].zip(get_header_info(io)) {|v,k| atts[k] = v }
-    ###
-    # HERE <------------------------------------
-    abort "NEED TO FINISH WRITING SCANS EXTRACTOR!"
-    get_scans(io)
-    # HERE <------------------------------------
-    # set the attributes
-    atts.each do |k,v|
-      msrun_object.send(k,v)
-    end
-    # need to fill in the scan_counts array
-  end
-  # assumes the attributes are each on a line
-  def get_scans(io)
-    io.each do |line|
-    end
-  end
-  # returns [total_num_scans, start_time, end_time] and positions the handle
-  # so that the next 'gets' will call a scan
-  def get_header_info(io)
-    scan_count = nil
-    start_time = nil
-    end_time = nil
-    previous_position = nil
-    io.each do |line|
-      if line =~ @@scan_count_regexp
-        scan_count = $1.dup
-      end
-      if line =~ @@start_time_regexp
-        start_time = $1.dup
-      end
-      if line =~  @@end_time_regexp
-        end_time = $1.dup
-      end
-      if line =~ @@first_scan_regexp
-        io.pos = previous_position
-        break
-      end
-      previous_position = io.pos
-    end
-    [scan_count, start_time, end_time]
-  end
-end

data/lib/ms/parser/mzxml/rexml.rb DELETED Viewed

@@ -1,72 +0,0 @@
-require 'rexml/document'
-require 'rexml/streamlistener'
-module MS::Parser::MzXML::REXMLStreamListener; end
-class MS::Parser::MzXML::REXMLStreamListener::PrecMzByNum; end
-module REXMLStreamListenerHelper
-  def parse_and_report(file, const, report_method=:report)
-    listener = self.const_get(const).new
-    File.open(file) do |fh|
-      REXML::Document.parse_stream(fh, listener)
-    end
-    listener.send(report_method)
-  end
-end
-class MS::Parser::MzXML::REXML
-  include MS::Parser::MzXML
-  def initialize(version='1.0', method=:msrun)
-    @version = version
-    @method = parse_type
-  end
-  # returns an array indexed by scan_num that gives the precursor_mz
-  def precursor_mz_by_scan(file, opts={})
-    parse_and_report(file, PrecMzByNum)
-  end
-end
-# for REXML
-class MS::Parser::MzXML::REXML::PrecMzByNum
-  include REXML::StreamListener
-  attr_accessor :prec_mz
-  alias_method :report, :prec_mz
-  def initialize
-    @prec_mz = []
-    @scan_num = nil
-    @get_data = false
-  end
-  def tag_start(name,attrs)
-    if name == "scan"
-      @scan_num = attrs["num"].to_i
-    elsif name == "precursorMz"
-      @get_data = true
-    end
-  end
-  def tag_end(name)
-    if name == "precursorMz"
-      @get_data = false
-    end
-  end
-  def text(txt)
-    if @get_data
-      @prec_mz[@scan_num] = txt
-    end
-  end
-end

data/lib/ms/parser/mzxml/xmlparser.rb DELETED Viewed

@@ -1,248 +0,0 @@
-require 'xmlparser_wrapper'
-# this is the wrapper class
-class MS::Parser::MzXML::XMLParser
-  include XMLStyleParser
-  include MS::Parser::MzXML
-  include XMLParserWrapper
-  def initialize(parse_type=:msrun, version='1.0')
-    @method = parse_type
-    @version = version
-  end
-  # returns: [times_arr, [m/z,inten,m/z,inten...]]
-  # where times are time strings (in seconds)
-  def times_and_spectra(file, opts={})
-    parse_and_report(file, 'TimesAndSpectra')
-  end
-  ## IN PROGRESS ...
-  # opts is actually the msrun object that will be fleshed out in the parsing
-  def msrun(file, opts={})
-    p opts
-    fh = File.open(file)
-    reply = parse_and_report_io(fh, 'MsRunHeader')
-    p reply
-    abort
-    fh.close
-  end
-  def prec_mz_by_scan_num(file, opts={})
-  end
-  # could easily do this for all these guys
-  #def method_missing(*args)
-  #  method = args.shift
-  #  parse_and_report(
-  #end
-end
-class MS::Parser::MzXML::XMLParser::MsRunHeader < XMLParser
-  def initialize(version='1.0')
-    @version = version
-    @atts = []
-  end
-  def startElement(name,attrs)
-    case name
-    when 'msRun'
-      @atts = attrs.values_at(%w(scanCount startTime endTime))
-    end
-  end
-  def endElement(name)
-    if name == 'dataProcessing'
-      done
-      reset
-    end
-  end
-end
-class MS::Parser::MzXML::XMLParser::Spectrum < XMLParser
-  @@scan_atts = %w(num msLevel retentionTime startMz endMz)
-  @@precursor_mz_atts = %w(precursorIntensity)
-  def initialize(version='1.0')
-    @version = version
-    @spectrum = []
-    @current_scan = nil
-  end
-  def report
-    @spectrum
-  end
-  def startElement(name,attrs)
-    if name == 'scan'
-      vals = attrs.values_at(@@scan_atts)
-      vals[2] = vals[2][2...-1].to_f  #remove PT and trailing S
-      [0, 1].each do |i| vals[i] = vals[i].to_i end # num and ms_level
-      [3, 4].each do |i| vals[i] = vals[i].to_f end # start_mz and end_mz
-      @current_scan = MS::Scan.new(vals)
-    elsif name == 'precursorMz'
-      # 5, 6, 7 are the scans indices for prec_mz prec_inten and parent
-      @current_scan[6] = attrs['precursorIntensity'].to_f
-      @current_scan[5] = ''
-      @get_precursor_mz = true
-    elsif name == 'peaks'
-      @precision = attrs['precision'].to_i
-      @get_peaks = true
-      @current_peaks_string = ''
-    end
-  end
-  def endElement(name)
-    if name == 'peaks'
-      @get_peaks = false
-      @spectrum << Spectrum.new(@current_peaks_string, @precision)
-      @spectrum.context = @current_scan
-    elsif name == 'precursorMz'
-      @current_scan[5] = @current_scan[5].to_f
-      @get_precursor_mz = false
-    end
-  end
-  def character(data)
-    if @get_peaks
-      @current_peaks_string << data
-    elsif @get_precursor_mz
-      @current_scan[5] << data
-    end
-  end
-end
-class MS::Parser::MzXML::XMLParser::PrecMzByNum < XMLParser
-  @scan_num = nil
-  @get_data = false
-  attr_accessor :prec_mz
-  alias_method :report, :prec_mz
-  def initialize
-    @prec_mz = []
-  end
-  def startElement(name,attrs)
-    if name == "scan"
-      @scan_num = attrs["num"].to_i
-    elsif name == "precursorMz"
-      @current_prec_mz = ""
-      @get_data = true
-    end
-  end
-  def endElement(name)
-    if name == "precursorMz"
-      @get_data = false
-      @prec_mz[@scan_num] = @current_prec_mz.to_f
-    end
-  end
-  def character(data)
-    if @get_data
-      @current_prec_mz << data
-    end
-  end
-end
-=begin
-# Returns parallel arrays (times, spectra) where each spectra is an array
-# containing alternating mz and intensity (MS1 scans only)
-# and times are strings with the time in seconds
-class MS::Parser::MzXML::XMLParser::TimesAndSpectra < XMLParser
-  include MS::Parser::MzXML
-  @@get_data = false
-  @@get_peaks = false
-  @@precision = 32 # @TODO: set dynamic
-  attr_accessor :times, :spectra
-  def times_and_spectra
-    [@times, @spectra]
-  end
-  alias_method :report, :times_and_spectra
-  def initialize(ms_level=1)
-    @ms_level = "#{ms_level}"
-    @times = []
-    @spectra = []
-  end
-  def startElement(name,attrs)
-    if name == "scan" && attrs["msLevel"] == @ms_level
-      @times << attrs["retentionTime"][2...-1]  # strip PT and S: "PTx.xxxxS"
-      @@get_peaks = true
-    elsif name == "peaks" && @@get_peaks
-      @@get_data = true
-      @data = ""
-    end
-  end
-  def character(data)
-    if @@get_data
-      @data << data
-    end
-  end
-  def endElement(name)
-    if name == "peaks" && @@get_peaks
-      @spectra << base64_peaks_to_array(@data, @@precision)
-      @@get_data = false
-      @@get_peaks = false
-    end
-  end
-end
-class MS::Parser::MzXML::XMLParser::TimeMzIntenIndexer < XMLParser
-  @@scan_num = nil
-  @@get_data = false
-  attr_accessor :scans_by_num
-  alias_method :report, :scans_by_num
-  def initialize
-    @current_scan = nil
-    @scans_by_num = []
-  end
-  def startElement(name,attrs)
-    if name == "scan"
-      num = attrs["num"].to_i
-      @current_scan = MS::Scan.new(num, attrs["msLevel"].to_i, attrs["retentionTime"].gsub(/^PT/,'').gsub(/S$/,'').to_f)
-      scans_by_num[num] = @current_scan
-    elsif name == "precursorMz"
-      @current_scan.prec_inten = attrs["precursorIntensity"].to_f
-      @@get_data = true
-    end
-  end
-  def endElement(name)
-    if name == "precursorMz"
-      @@get_data = false
-    end
-  end
-  def character(data)
-    if @@get_data
-      @current_scan.prec_mz = data
-    end
-  end
-end
-=end