RubyGems - mspire - Versions diffs - 0.4.9 → 0.5.0 - Mend

mspire 0.4.9 → 0.5.0

Files changed (255) hide show

data/README +27 -17
data/changelog.txt +31 -62
data/lib/ms/calc.rb +32 -0
data/lib/ms/data/interleaved.rb +60 -0
data/lib/ms/data/lazy_io.rb +73 -0
data/lib/ms/data/lazy_string.rb +15 -0
data/lib/ms/data/simple.rb +59 -0
data/lib/ms/data/transposed.rb +41 -0
data/lib/ms/data.rb +57 -0
data/lib/ms/format/format_error.rb +12 -0
data/lib/ms/spectrum.rb +25 -384
data/lib/ms/support/binary_search.rb +126 -0
data/lib/ms.rb +10 -10
metadata +38 -350
data/INSTALL +0 -58
data/README.rdoc +0 -18
data/Rakefile +0 -330
data/bin/aafreqs.rb +0 -23
data/bin/bioworks2excel.rb +0 -14
data/bin/bioworks_to_pepxml.rb +0 -148
data/bin/bioworks_to_pepxml_gui.rb +0 -225
data/bin/fasta_shaker.rb +0 -5
data/bin/filter_and_validate.rb +0 -5
data/bin/gi2annot.rb +0 -14
data/bin/id_class_anal.rb +0 -112
data/bin/id_precision.rb +0 -172
data/bin/ms_to_lmat.rb +0 -67
data/bin/pepproph_filter.rb +0 -16
data/bin/prob_validate.rb +0 -6
data/bin/protein_summary.rb +0 -6
data/bin/protxml2prots_peps.rb +0 -32
data/bin/raw_to_mzXML.rb +0 -55
data/bin/run_percolator.rb +0 -122
data/bin/sqt_group.rb +0 -26
data/bin/srf_group.rb +0 -27
data/bin/srf_to_sqt.rb +0 -40
data/lib/align/chams.rb +0 -78
data/lib/align.rb +0 -154
data/lib/archive/targz.rb +0 -94
data/lib/bsearch.rb +0 -120
data/lib/core_extensions.rb +0 -16
data/lib/fasta.rb +0 -626
data/lib/gi.rb +0 -124
data/lib/group_by.rb +0 -10
data/lib/index_by.rb +0 -11
data/lib/merge_deep.rb +0 -21
data/lib/ms/converter/mzxml.rb +0 -77
data/lib/ms/gradient_program.rb +0 -170
data/lib/ms/msrun.rb +0 -244
data/lib/ms/msrun_index.rb +0 -108
data/lib/ms/parser/mzdata/axml.rb +0 -67
data/lib/ms/parser/mzdata/dom.rb +0 -175
data/lib/ms/parser/mzdata/libxml.rb +0 -7
data/lib/ms/parser/mzdata.rb +0 -31
data/lib/ms/parser/mzxml/axml.rb +0 -70
data/lib/ms/parser/mzxml/dom.rb +0 -182
data/lib/ms/parser/mzxml/hpricot.rb +0 -253
data/lib/ms/parser/mzxml/libxml.rb +0 -19
data/lib/ms/parser/mzxml/regexp.rb +0 -122
data/lib/ms/parser/mzxml/rexml.rb +0 -72
data/lib/ms/parser/mzxml/xmlparser.rb +0 -248
data/lib/ms/parser/mzxml.rb +0 -282
data/lib/ms/parser.rb +0 -108
data/lib/ms/precursor.rb +0 -25
data/lib/ms/scan.rb +0 -81
data/lib/mspire.rb +0 -4
data/lib/pi_zero.rb +0 -244
data/lib/qvalue.rb +0 -161
data/lib/roc.rb +0 -187
data/lib/sample_enzyme.rb +0 -160
data/lib/scan_i.rb +0 -21
data/lib/spec_id/aa_freqs.rb +0 -170
data/lib/spec_id/bioworks.rb +0 -497
data/lib/spec_id/digestor.rb +0 -138
data/lib/spec_id/mass.rb +0 -179
data/lib/spec_id/parser/proph.rb +0 -335
data/lib/spec_id/precision/filter/cmdline.rb +0 -218
data/lib/spec_id/precision/filter/interactive.rb +0 -134
data/lib/spec_id/precision/filter/output.rb +0 -148
data/lib/spec_id/precision/filter.rb +0 -637
data/lib/spec_id/precision/output.rb +0 -60
data/lib/spec_id/precision/prob/cmdline.rb +0 -160
data/lib/spec_id/precision/prob/output.rb +0 -94
data/lib/spec_id/precision/prob.rb +0 -249
data/lib/spec_id/proph/pep_summary.rb +0 -104
data/lib/spec_id/proph/prot_summary.rb +0 -484
data/lib/spec_id/proph.rb +0 -4
data/lib/spec_id/protein_summary.rb +0 -489
data/lib/spec_id/sequest/params.rb +0 -316
data/lib/spec_id/sequest/pepxml.rb +0 -1458
data/lib/spec_id/sequest.rb +0 -33
data/lib/spec_id/sqt.rb +0 -349
data/lib/spec_id/srf.rb +0 -973
data/lib/spec_id.rb +0 -778
data/lib/spec_id_xml.rb +0 -99
data/lib/transmem/phobius.rb +0 -147
data/lib/transmem/toppred.rb +0 -368
data/lib/transmem.rb +0 -157
data/lib/validator/aa.rb +0 -48
data/lib/validator/aa_est.rb +0 -112
data/lib/validator/background.rb +0 -77
data/lib/validator/bias.rb +0 -95
data/lib/validator/cmdline.rb +0 -431
data/lib/validator/decoy.rb +0 -107
data/lib/validator/digestion_based.rb +0 -70
data/lib/validator/probability.rb +0 -51
data/lib/validator/prot_from_pep.rb +0 -234
data/lib/validator/q_value.rb +0 -32
data/lib/validator/transmem.rb +0 -272
data/lib/validator/true_pos.rb +0 -46
data/lib/validator.rb +0 -197
data/lib/xml.rb +0 -38
data/lib/xml_style_parser.rb +0 -119
data/lib/xmlparser_wrapper.rb +0 -19
data/release_notes.txt +0 -2
data/script/compile_and_plot_smriti_final.rb +0 -97
data/script/create_little_pepxml.rb +0 -61
data/script/degenerate_peptides.rb +0 -47
data/script/estimate_fpr_by_cysteine.rb +0 -226
data/script/extract_gradient_programs.rb +0 -56
data/script/find_cysteine_background.rb +0 -137
data/script/genuine_tps_and_probs.rb +0 -136
data/script/get_apex_values_rexml.rb +0 -44
data/script/histogram_probs.rb +0 -61
data/script/mascot_fix_pepxml.rb +0 -123
data/script/msvis.rb +0 -42
data/script/mzXML2timeIndex.rb +0 -25
data/script/peps_per_bin.rb +0 -67
data/script/prep_dir.rb +0 -121
data/script/simple_protein_digestion.rb +0 -27
data/script/smriti_final_analysis.rb +0 -103
data/script/sqt_to_meta.rb +0 -24
data/script/top_hit_per_scan.rb +0 -67
data/script/toppred_to_yaml.rb +0 -47
data/script/tpp_installer.rb +0 -249
data/specs/align_spec.rb +0 -79
data/specs/bin/bioworks_to_pepxml_spec.rb +0 -79
data/specs/bin/fasta_shaker_spec.rb +0 -259
data/specs/bin/filter_and_validate__multiple_vals_helper.yaml +0 -199
data/specs/bin/filter_and_validate_spec.rb +0 -180
data/specs/bin/ms_to_lmat_spec.rb +0 -34
data/specs/bin/prob_validate_spec.rb +0 -86
data/specs/bin/protein_summary_spec.rb +0 -14
data/specs/fasta_spec.rb +0 -354
data/specs/gi_spec.rb +0 -22
data/specs/load_bin_path.rb +0 -7
data/specs/merge_deep_spec.rb +0 -13
data/specs/ms/gradient_program_spec.rb +0 -77
data/specs/ms/msrun_spec.rb +0 -498
data/specs/ms/parser_spec.rb +0 -92
data/specs/ms/spectrum_spec.rb +0 -87
data/specs/pi_zero_spec.rb +0 -115
data/specs/qvalue_spec.rb +0 -39
data/specs/roc_spec.rb +0 -251
data/specs/rspec_autotest.rb +0 -149
data/specs/sample_enzyme_spec.rb +0 -126
data/specs/spec_helper.rb +0 -135
data/specs/spec_id/aa_freqs_spec.rb +0 -52
data/specs/spec_id/bioworks_spec.rb +0 -148
data/specs/spec_id/digestor_spec.rb +0 -75
data/specs/spec_id/precision/filter/cmdline_spec.rb +0 -20
data/specs/spec_id/precision/filter/output_spec.rb +0 -31
data/specs/spec_id/precision/filter_spec.rb +0 -246
data/specs/spec_id/precision/prob_spec.rb +0 -44
data/specs/spec_id/precision/prob_spec_helper.rb +0 -0
data/specs/spec_id/proph/pep_summary_spec.rb +0 -98
data/specs/spec_id/proph/prot_summary_spec.rb +0 -128
data/specs/spec_id/protein_summary_spec.rb +0 -189
data/specs/spec_id/sequest/params_spec.rb +0 -68
data/specs/spec_id/sequest/pepxml_spec.rb +0 -374
data/specs/spec_id/sequest_spec.rb +0 -38
data/specs/spec_id/sqt_spec.rb +0 -246
data/specs/spec_id/srf_spec.rb +0 -172
data/specs/spec_id/srf_spec_helper.rb +0 -139
data/specs/spec_id_helper.rb +0 -33
data/specs/spec_id_spec.rb +0 -366
data/specs/spec_id_xml_spec.rb +0 -33
data/specs/transmem/phobius_spec.rb +0 -425
data/specs/transmem/toppred_spec.rb +0 -298
data/specs/transmem_spec.rb +0 -60
data/specs/transmem_spec_shared.rb +0 -64
data/specs/validator/aa_est_spec.rb +0 -66
data/specs/validator/aa_spec.rb +0 -40
data/specs/validator/background_spec.rb +0 -67
data/specs/validator/bias_spec.rb +0 -122
data/specs/validator/decoy_spec.rb +0 -51
data/specs/validator/fasta_helper.rb +0 -26
data/specs/validator/prot_from_pep_spec.rb +0 -141
data/specs/validator/transmem_spec.rb +0 -146
data/specs/validator/true_pos_spec.rb +0 -58
data/specs/validator_helper.rb +0 -33
data/specs/xml_spec.rb +0 -12
data/test_files/000_pepxml18_small.xml +0 -206
data/test_files/020a.mzXML.timeIndex +0 -4710
data/test_files/4-03-03_mzXML/000.mzXML.timeIndex +0 -3973
data/test_files/4-03-03_mzXML/020.mzXML.timeIndex +0 -3872
data/test_files/4-03-03_small-prot.xml +0 -321
data/test_files/4-03-03_small.xml +0 -3876
data/test_files/7MIX_STD_110802_1.sequest_params_fragment.srf +0 -0
data/test_files/bioworks-3.3_10prots.xml +0 -5999
data/test_files/bioworks31.params +0 -77
data/test_files/bioworks32.params +0 -62
data/test_files/bioworks33.params +0 -63
data/test_files/bioworks_single_run_small.xml +0 -7237
data/test_files/bioworks_small.fasta +0 -212
data/test_files/bioworks_small.params +0 -63
data/test_files/bioworks_small.phobius +0 -109
data/test_files/bioworks_small.toppred.out +0 -2847
data/test_files/bioworks_small.xml +0 -5610
data/test_files/bioworks_with_INV_small.xml +0 -3753
data/test_files/bioworks_with_SHUFF_small.xml +0 -2503
data/test_files/corrupted_900.srf +0 -0
data/test_files/head_of_7MIX.srf +0 -0
data/test_files/interact-opd1_mods_small-prot.xml +0 -304
data/test_files/messups.fasta +0 -297
data/test_files/opd1/000.my_answer.100lines.xml +0 -101
data/test_files/opd1/000.tpp_1.2.3.first10.xml +0 -115
data/test_files/opd1/000.tpp_2.9.2.first10.xml +0 -126
data/test_files/opd1/000.v2.1.mzXML.timeIndex +0 -3748
data/test_files/opd1/000_020-prot.png +0 -0
data/test_files/opd1/000_020_3prots-prot.mod_initprob.xml +0 -62
data/test_files/opd1/000_020_3prots-prot.xml +0 -62
data/test_files/opd1/opd1_cat_inv_small-prot.xml +0 -139
data/test_files/opd1/sequest.3.1.params +0 -77
data/test_files/opd1/sequest.3.2.params +0 -62
data/test_files/opd1/twenty_scans.mzXML +0 -418
data/test_files/opd1/twenty_scans.v2.1.mzXML +0 -382
data/test_files/opd1/twenty_scans_answ.lmat +0 -0
data/test_files/opd1/twenty_scans_answ.lmata +0 -9
data/test_files/opd1_020_beginning.RAW +0 -0
data/test_files/opd1_2runs_2mods/data/020.mzData.xml +0 -683
data/test_files/opd1_2runs_2mods/data/020.readw.mzXML +0 -382
data/test_files/opd1_2runs_2mods/data/040.mzData.xml +0 -683
data/test_files/opd1_2runs_2mods/data/040.readw.mzXML +0 -382
data/test_files/opd1_2runs_2mods/data/README.txt +0 -6
data/test_files/opd1_2runs_2mods/interact-opd1_mods__small.xml +0 -753
data/test_files/orbitrap_mzData/000_cut.xml +0 -1920
data/test_files/pepproph_small.xml +0 -4691
data/test_files/phobius.small.noheader.txt +0 -50
data/test_files/phobius.small.small.txt +0 -53
data/test_files/s01_anC1_ld020mM.key.txt +0 -25
data/test_files/s01_anC1_ld020mM.meth +0 -0
data/test_files/small.fasta +0 -297
data/test_files/small.sqt +0 -87
data/test_files/smallraw.RAW +0 -0
data/test_files/tf_bioworks2excel.bioXML +0 -14340
data/test_files/tf_bioworks2excel.txt.actual +0 -1035
data/test_files/toppred.small.out +0 -416
data/test_files/toppred.xml.out +0 -318
data/test_files/validator_hits_separate/bias_bioworks_small_HS.fasta +0 -7
data/test_files/validator_hits_separate/bioworks_small_HS.xml +0 -5651
data/test_files/yeast_gly_small-prot.xml +0 -265
data/test_files/yeast_gly_small.1.0_1.0_1.0.parentTimes +0 -6
data/test_files/yeast_gly_small.xml +0 -3807
data/test_files/yeast_gly_small2.parentTimes +0 -6

data/lib/spec_id_xml.rb DELETED Viewed

@@ -1,99 +0,0 @@
-# I would prefer to call this SpecID::XML, but I keep getting an error:
-# /home/john/Proteomics/msprot/lib/spec_id/bioworks.rb:412: warning: toplevel
-# constant XML referenced by SpecID::XML' This works around that for now.
-# Any major xml elements should return a newline at the end for simple
-# concatenation into a file
-module SpecIDXML
-  MSial_chrs_hash = {
-    '"' => '&quot;',
-    '&' => '&amp;',
-    "'" => '&apos;',
-    '<' => '&lt;',
-    '>' => '&gt;',
-  }
-  # substitutes special xml chars
-  def escape_special_chars(string)
-    string.split('').map do |char|
-      if MSial_chrs_hash.key? char ; MSial_chrs_hash[char]
-        # if x = MSial_chrs_hash[char] ; x  # <-- that's slightly slower
-      else ; char end
-    end.join
-  end
-  $DEPTH = 0
-  def tabs
-    # this is ugly
-    string = ""
-    $DEPTH.times { string << "\t" }
-    string
-  end
-  def param_xml(obj, symbol)
-    tabs + '<parameter name="' + "#{symbol}" + '" value="' + "#{obj.send(symbol)}" + '"/>'
-  end
-  def params_xml(obj, *symbol_list)
-    symbol_list.collect { |sy|
-      param_xml(obj, sy)
-    }.join("\n") + "\n"
-  end
-  def short_element_xml(element, att_list)
-    "#{tabs}<#{element} #{attrs_xml(att_list)}/>\n"
-  end
-  def short_element_xml_and_att_string(element, att_string)
-    "#{tabs}<#{element} #{att_string}/>\n"
-  end
-  # requires that obj have attribute '@xml_element_name'
-  # displays all *instance_variables* (does not call methods!)
-  def short_element_xml_from_instance_vars(element_name)
-    string = instance_variables.map{|v| "#{v[1..-1]}=\"#{instance_variable_get(v)}\"" }.join(' ')
-    "#{tabs}<#{element_name} #{string}/>\n"
-  end
-  # takes an element as a symbol and returns the
-  def element_xml_no_atts(element)
-    start = "#{tabs}<#{element}>\n"
-    $DEPTH += 1
-    if block_given? ; middle = yield else ; middle = '' end
-    $DEPTH -= 1
-    start + middle + "#{tabs}</#{element}>\n"
-  end
-  # takes an element as a symbol and returns the
-  def element_xml(element, att_list)
-    start = "#{tabs}<#{element} #{attrs_xml(att_list)}>\n"
-    $DEPTH += 1
-    if block_given? ; middle = yield else ; middle = '' end
-    $DEPTH -= 1
-    start + middle + "#{tabs}</#{element}>\n"
-  end
-  # element as symbol and att_string as attributes
-  # takes a block of whatever
-  def element_xml_and_att_string(element, att_string)
-    start = "#{tabs}<#{element} #{att_string}>\n"
-    $DEPTH += 1
-    if block_given? ; middle = yield else ; middle = '' end
-    $DEPTH -= 1
-    start + middle + "#{tabs}</#{element}>\n"
-  end
-  def attr_xml(symbol)
-    "#{symbol}=\"#{send(symbol)}\""
-  end
-  def attrs_xml(list_of_symbols)
-    list_of_symbols.collect {|sy| attr_xml(sy) }.join(" ")
-  end
-end

data/lib/transmem/phobius.rb DELETED Viewed

@@ -1,147 +0,0 @@
-require 'transmem'
-class Phobius ; end
-# This class will probably change its interface some in the future
-# That's the web portal
-# http://phobius.cgb.ki.se/
-# How to run:
-# Select output format as 'Short'
-# then hit 'Submit Query'
-# note: to implement some of the TransmemIndex features, the update_aaseq
-# method must be called!
-class Phobius::Index < Hash
-  include TransmemIndex
-  # will update_aaseq if given a fasta_obj
-  def initialize(file, fasta_obj = nil )
-    Phobius.default_index(file, self)
-    if fasta_obj
-      update_aaseq(fasta_obj)
-    end
-  end
-  # we need to match whatever function toppred uses to generate identifiers if
-  # we want derivative processes to be fast and accurate
-  def reference_to_key(reference)
-    if reference
-      if reference.size > 0
-        index = reference.index(' ')
-        string =
-          if index
-            reference[0...index]
-          else
-            reference
-          end
-        string.gsub('"','')
-      else
-        ''
-      end
-    else
-      nil
-    end
-  end
-  # adds an :aaseq key to each hash (necessary for avg_overlap method)
-  # these are shallow references to the aaseq in the fasta obj
-  def update_aaseq(fasta)
-    fasta.each do |prot|
-      self[reference_to_key(prot.reference)][:aaseq] = prot.aaseq
-    end
-  end
-end
-class Phobius
-  include TransmemIndex
-  # returns the default index
-  def self.default_index(file, index={})
-    parser = Phobius::Parser.new(:short)
-    parser.file_to_index(file, index)
-  end
-end
-module Phobius::Parser
-  def self.new(parser_type=:short)
-    klass =
-      case parser_type
-      when :short
-        Phobius::ParserShort
-      else
-        raise ArgumentError, "don't recognize parser type: #{parser_type}"
-      end
-    klass.new
-  end
-  def file_to_index(file, index={})
-    File.open(file) {|fh| to_index(fh, index) }
-  end
-end
-class Phobius::ParserShort
-  include Phobius::Parser
-  # takes a phobius prediction string (e.g., i12-31o37-56i63-84o96-116i123-143o149-169i)
-  # and returns an array of hashes with the keys :start and :stop
-  def prediction_to_array(string)
-    segments = []
-    string.scan(/[io](\d+)-(\d+)/) do |m1, m2|
-      segments << { :start => m1.to_i, :stop => m2.to_i }
-    end
-    segments
-  end
-  # returns a hash structure in this form: { identifier => {
-  # :num_certain_transmembrane_segments => Int,
-  # :transmembrane_segments => [:start => Int, :stop
-  # => Int] }
-  # can parse io even if there is no header to key in on.
-  def to_index(io, index={})
-    init_pos = io.pos
-    cnt = 0
-    found_header = false
-    loop do
-      if io.gets =~ /SEQENCE/
-        found_header = true
-        break
-      end
-      cnt += 1
-      break if cnt > 10
-    end
-    if !found_header
-      io.pos = init_pos
-    end
-    current_record = nil
-    io.each do |line|
-      line.chomp!
-      # grab values
-      ar = line.split(/\s+/)
-      next if ar.size != 4
-      (key, num_tms, signal_peptide, prediction) = ar
-      # cast the values
-      num_tms = num_tms.to_i
-      signal_peptide =
-        case signal_peptide
-        when 'Y'
-          true
-        when '0'
-          false
-        end
-      index[key] = {
-        :num_certain_transmembrane_segments => num_tms,
-        :signal_peptide => signal_peptide,
-      }
-      if num_tms > 0
-        index[key][:transmembrane_segments] = prediction_to_array(prediction)
-      end
-    end
-    index
-  end
-end

data/lib/transmem/toppred.rb DELETED Viewed

@@ -1,368 +0,0 @@
-require 'transmem'
-require 'xml_style_parser'
-class TopPred ; end
-class TopPred::Index < Hash
-  include TransmemIndex
-  # we need to match whatever function toppred uses to generate identifiers if
-  # we want derivative processes to be fast and accurate
-  def reference_to_key(reference)
-    if reference
-      ri = reference.index(' ')
-      frst =
-        if ri
-          reference[0...reference.index(' ')]
-        else
-          reference
-        end
-      if frst
-        frst.gsub(/[^0-9a-zA-Z]/,'_')
-      else
-        nil
-      end
-    else
-      nil
-    end
-  end
-  def initialize(file, kind=:default)
-    case kind
-    when :default
-      TopPred.default_index(file, self)
-    else
-      abort "can't do #{kind}"
-    end
-  end
-  # This class will probably change its interface some in the future
-  # That's the web portal
-  # http://bioweb.pasteur.fr/seqanal/interfaces/toppred.html
-  # How to run:
-  # uncheck 'Produce hydrophobicity graph image (-g)'
-  # choose 'Xml' or 'New: new text' output
-  # type in your email, then hit 'Run toppred'
-end
-class TopPred
-  include TransmemIndex
-  # returns the default index
-  def self.default_index(file, index={})
-    TopPred::Parser.new(TopPred::Parser.filetype(file)).file_to_index(file, index)
-  end
-end
-module TopPred::Parser
-  # returns :xml or :text
-  def self.filetype(file)
-    File.open(file) do |fh|
-      case fh.gets
-      when /<\?xml version.*>/
-        :xml
-      when /Algorithm specific/
-        :text
-      else
-        nil
-      end
-    end
-  end
-  # type = :xml or :text
-  def self.new(parser_type=:xml)
-    klass =
-      case parser_type
-      when :xml
-        TopPred::Parser_XML
-      when :text
-        TopPred::Parser_Text
-      else
-        abort "don't recognize parser type: #{parser_type}"
-      end
-    klass.new
-  end
-  def file_to_index(file, index={})
-    File.open(file) {|fh| to_index(fh, index) }
-  end
-  # where each segment = [prob, first, last] and aaseq is a string each
-  # segment may also be a hash => first, last, probability (adding key
-  # 'aaseq')
-  # first/last '1' indexed returns segments where each is [prob,
-  # first, last, aaseq] or hash (above)
-  def add_sequences_to_segments(segments, aaseq)
-    if segments.first.is_a? Array
-      segments.each do |seg|
-        first_index = seg[1] - 1
-        length = (seg[2] - seg[1]) + 1
-        seg.push( aaseq[first_index, length] )
-      end
-    else
-      segments.each do |seg|
-        first_index = seg[:start] - 1
-        length = (seg[:stop] - seg[:start]) + 1
-        seg[:aaseq] = ( aaseq[first_index, length] )
-      end
-    end
-    segments
-  end
-end
-module TopPred::Parser_XML
-  include TopPred::Parser
-  include XMLStyleParser
-  def self.new(meth=:to_index)
-    parser = XMLStyleParser.choose_parser(self, meth).new
-    @method = meth
-    parser
-  end
-  def parse(file)
-    send(@method, file)
-  end
-end
-class TopPred::Parser_XML::DOM
-  include TopPred::Parser_XML
-  include XMLStyleParser
-=begin
-  YAL010C:
-  num_putative_transmembrane_segments: 1
-  aaseq: MLPYMDQVLRAFYQSTHWSTQNSYEDITATSRTLLDFRIPSAIHLQISNKSTPNTFNSLDFSTRSRINGSLSYLYSDAQQLEKFMRNSTDIPLQDATETYRQLQPNLNFSVSSANTLSSDNTTVDNDKKLLHDSKFVKKSLYYGRMYYPSSDLEAMIIKRLSPQTQFMLKGVSSFKESLNVLTCYFQRDSHRNLQEWIFSTSDLLCGYRVLHNFLTTPSKFNTSLYNNSSLSLGAEFWLGLVSLSPGCSTTLRYYTHSTNTGRPLTLTLSWQPLFGHISSTYSAKTGTNSTFCAKYDFNLYSIESNLSFGCEFWQKKHHLLETNKNNNDKLEPISDELVDINPNSRATKLLHENVPDLNSAVNDIPSTLDIPVHKQKLLNDLTYAFSSSLRKIDEERSTIEKFDNKINSSIFTSVWKLSTSLRDKTLKLLWEGKWRGFLISAGTELVFTRGFQESLSDDEKNDNAISISATDTENGNIPVFPAKFGIQFQYST
-  best_structure_probability: 1.0
-  transmembrane_segments:
-  - aaseq: SLGAEFWLGLVSLSPGCSTTL
-    stop: 252
-    start: 232
-    probability: 1.0
-  num_certain_transmembrane_segments: 1
-  num_found: 2
-=end
-  # should return a index
-  def to_index(io, index = {})
-    get_root_node_from_io(io) do |toppreds_n|
-      abort if toppreds_n.name != 'toppreds'
-      toppreds_n.find('child::toppred').each do |toppred_n|
-        att_hash = {}
-        sequence_n = toppred_n.find_first('child::sequence')
-        index[sequence_n['id']] = att_hash
-        att_hash[:aaseq] = sequence_n.content.gsub(/[\s\n]/,'')
-        abort if att_hash[:aaseq].size != sequence_n['size'].to_i
-        tmsummary_n = sequence_n.find_first('following-sibling::tmsummary')
-        num_found = tmsummary_n['segments'].to_i
-        att_hash[:num_found] = num_found
-        if num_found > 0
-          num_certain_transmembrane_segments = 0
-          num_putative_transmembrane_segments = 0
-          tmsummary_n.find('child::segment').each do |segment_n|
-            abort if segment_n.name != 'segment'
-            case segment_n['type']
-            when 'certain'
-              num_certain_transmembrane_segments += 1
-            else # putative
-              num_putative_transmembrane_segments += 1
-            end
-          end
-          att_hash[:num_putative_transmembrane_segments] = num_putative_transmembrane_segments
-          att_hash[:num_certain_transmembrane_segments] = num_certain_transmembrane_segments
-          topologies_n = tmsummary_n.next
-          abort if topologies_n.name != 'topologies'
-          # get the top probability topology:
-          top_prob_topology_n = topologies_n.find('child::topology').to_a.max {|a,b| a['prob'].to_f <=> b['prob'].to_f }
-          tmsegments = []
-          top_prob_topology_n.find('child::tmsegment').each do |tmsegment_n|
-            tmhash = {}
-            tmhash[:start] = tmsegment_n['start'].to_i
-            tmhash[:stop] = tmsegment_n['stop'].to_i
-            ## WARNING! it appears the probability is broken on xml output!!
-            tmhash[:probability] = tmsegment_n['prob'].to_f
-            tmsegments << tmhash
-          end
-          add_sequences_to_segments(tmsegments, att_hash[:aaseq])
-          att_hash[:transmembrane_segments] = tmsegments
-        end
-      end
-    end
-    index
-  end
-end
-class TopPred::Parser_Text
-  include TopPred::Parser
-  # returns a hash structure in this form: {identifier => {aaseq => String,
-  # num_found: Int, num_certain_transmembrane_segments => Int,
-  # num_putative_transmembrane_segments => Int, best_structure_probability =>
-  # Float, transmembrane_segments => [probability => Float, start => Int, stop
-  # => Int, aaseq => String] } }
-  def to_index(io, index={})
-    current_record = nil
-    io.each do |line|
-      if line =~ /^Sequence : (.*?) +\(/
-        current_identifier = $1.dup
-        index[current_identifier] = {}
-        current_record = index[current_identifier]
-        current_record[:aaseq] = read_aaseq(io)
-        read_segment_summary(io, current_record)
-      elsif line =~ /^HEADER\s+START\s+STOP/
-        top_struc = top_structure( read_structures(io) )
-        current_record[:best_structure_probability] = top_struc[:probability]
-        current_record[:transmembrane_segments] = top_struc[:tm]
-        add_sequences_to_segments(current_record[:transmembrane_segments], current_record[:aaseq])
-        segment_arrays_to_hashes(current_record[:transmembrane_segments])
-      end
-    end
-    index
-  end
-  private
-  # returns a list of all structures given a filehandle starting just after
-  # the first "HEADER START STOP ..." line
-  def read_structures(fh)
-    structures = []
-    loop do
-      structures.push( read_structure(fh) )
-      break if fh.eof?
-      line = fh.readline
-      unless line =~ /^HEADER\s+START\s+STOP/
-        break
-      end
-    end
-    structures
-  end
-  # returns a hash with key :probability and key :tm contains an array of
-  # arrays: [prob(Float), start(Int), stop(Int)]
-  def read_structure(fh)
-    structure = {}
-    # READ the first line
-    line = fh.readline
-    structure[:probability] = line.split(/\s+/)[2].to_f
-    structure[:tm] = read_segments(fh)
-    structure
-  end
-  # returns an array of arrays of transmembrane segments: [prob(Float),
-  # start(Int), stop(Int)]
-  # returns after seeing '//'
-  def read_segments(fh)
-    segments = []
-    st = Regexp.escape('//') ; end_regex = /#{st}/
-    fh.each do |line|
-      if line =~ /^TRANSMEM/
-        (header, start, stop, len, prob) = line.split(/\s+/)[0,5]
-        segments << [prob.to_f, start.to_i, stop.to_i]
-      elsif line =~ end_regex
-        break
-      end
-    end
-    segments
-  end
-  # returns the top probability structure (first on tie)
-  def top_structure(list)
-    top_prob = list.first[:probability]
-    top_struc = list.first
-    list.each do |st|
-      if st[:probability] > top_prob
-        top_struc = st
-        top_prob = st[:probability]
-      end
-    end
-    top_struc
-  end
-  def read_aaseq(fh)
-    aaseq = ''
-    fh.each do |line|
-      line.chomp!
-      unless line =~ /[\w\*]/
-        break
-      end
-      aaseq << line
-    end
-    aaseq
-  end
-  def segment_arrays_to_hashes(list)
-    list.map! do |ar|
-      { :probability => ar[0],
-      :start => ar[1],
-      :stop => ar[2],
-      :aaseq => ar[3],
-      }
-    end
-  end
-  # returns [certain, putative]
-  # expects first line to be a tm segment
-  def num_certain_putative(fh)
-    certain = 0
-    putative = 0
-    fh.each do |line|
-      certainty = line.chomp.split(/\s+/).last
-      if !certainty
-        break
-      else
-        certain += 1 if certainty == 'Certain'
-        putative += 1 if certainty == 'Putative'
-      end
-    end
-    [certain, putative]
-  end
-  def read_segment_summary(fh, rec)
-    fh.each do |line|
-      if line =~ /Found: (.*?) segments/
-        rec[:num_found] = $1.to_i
-        break if rec[:num_found] == 0
-      elsif line =~ /Helix\s+Begin/
-        (cert, putat) = num_certain_putative(fh)
-        rec[:num_certain_transmembrane_segments] = cert
-        rec[:num_putative_transmembrane_segments] = putat
-        break
-      end
-    end
-  end
-end
-class TopPred::Parser_XML::LibXML < TopPred::Parser_XML::DOM
-  def get_root_node_from_io(io, &block)
-    # turn off warnings because this doesn't seem to work:
-    # XML::Parser.default_load_external_dtd = false
-    # (There is a warning about not finding DTD)
-    xml_parser_warnings = XML::Parser.default_warnings
-    XML::Parser.default_warnings = false
-    doc = XML::Parser.io(io).parse
-    root = doc.root
-    block.call(root)
-    # reset the warning level of XML::Parser:
-    XML::Parser.default_warnings = xml_parser_warnings
-  end
-end
-class TopPred::Parser_XML::AXML < TopPred::Parser_XML::DOM
-  def get_root_node_from_io(io, &block)
-    root = ::AXML.parse(io)
-    block.call(root)
-  end
-end