RubyGems - bio - Versions diffs - 1.3.1 → 1.4.0 - Mend

bio 1.3.1 → 1.4.0

Files changed (303) hide show

data/ChangeLog +2105 -3728
data/KNOWN_ISSUES.rdoc +35 -3
data/README.rdoc +8 -2
data/RELEASE_NOTES.rdoc +166 -0
data/bin/bioruby +4 -1
data/bioruby.gemspec +146 -1
data/bioruby.gemspec.erb +3 -1
data/doc/ChangeLog-before-1.3.1 +3961 -0
data/doc/Tutorial.rd +154 -22
data/doc/Tutorial.rd.html +125 -68
data/lib/bio.rb +21 -6
data/lib/bio/appl/bl2seq/report.rb +11 -202
data/lib/bio/appl/blast/format0.rb +0 -193
data/lib/bio/appl/blast/report.rb +2 -147
data/lib/bio/appl/blast/wublast.rb +0 -208
data/lib/bio/appl/fasta.rb +4 -19
data/lib/bio/appl/fasta/format10.rb +0 -14
data/lib/bio/appl/genscan/report.rb +0 -176
data/lib/bio/appl/hmmer.rb +1 -15
data/lib/bio/appl/hmmer/report.rb +0 -100
data/lib/bio/appl/meme/mast.rb +156 -0
data/lib/bio/appl/meme/mast/report.rb +91 -0
data/lib/bio/appl/meme/motif.rb +48 -0
data/lib/bio/appl/psort.rb +0 -111
data/lib/bio/appl/psort/report.rb +1 -45
data/lib/bio/appl/pts1.rb +2 -4
data/lib/bio/appl/sosui/report.rb +5 -54
data/lib/bio/appl/targetp/report.rb +1 -104
data/lib/bio/appl/tmhmm/report.rb +0 -36
data/lib/bio/command.rb +94 -10
data/lib/bio/data/aa.rb +1 -77
data/lib/bio/data/codontable.rb +1 -95
data/lib/bio/data/na.rb +1 -26
data/lib/bio/db/aaindex.rb +1 -38
data/lib/bio/db/fasta.rb +1 -134
data/lib/bio/db/fasta/format_qual.rb +204 -0
data/lib/bio/db/fasta/qual.rb +102 -0
data/lib/bio/db/fastq.rb +645 -0
data/lib/bio/db/fastq/fastq_to_biosequence.rb +40 -0
data/lib/bio/db/fastq/format_fastq.rb +175 -0
data/lib/bio/db/genbank/genbank.rb +1 -86
data/lib/bio/db/gff.rb +0 -17
data/lib/bio/db/go.rb +4 -72
data/lib/bio/db/kegg/common.rb +112 -0
data/lib/bio/db/kegg/compound.rb +29 -20
data/lib/bio/db/kegg/drug.rb +74 -34
data/lib/bio/db/kegg/enzyme.rb +26 -5
data/lib/bio/db/kegg/genes.rb +128 -15
data/lib/bio/db/kegg/genome.rb +3 -41
data/lib/bio/db/kegg/glycan.rb +19 -24
data/lib/bio/db/kegg/orthology.rb +16 -56
data/lib/bio/db/kegg/reaction.rb +81 -28
data/lib/bio/db/kegg/taxonomy.rb +1 -52
data/lib/bio/db/litdb.rb +1 -16
data/lib/bio/db/phyloxml/phyloxml.xsd +582 -0
data/lib/bio/db/phyloxml/phyloxml_elements.rb +1174 -0
data/lib/bio/db/phyloxml/phyloxml_parser.rb +954 -0
data/lib/bio/db/phyloxml/phyloxml_writer.rb +228 -0
data/lib/bio/db/prosite.rb +2 -95
data/lib/bio/db/rebase.rb +5 -6
data/lib/bio/db/sanger_chromatogram/abif.rb +120 -0
data/lib/bio/db/sanger_chromatogram/chromatogram.rb +133 -0
data/lib/bio/db/sanger_chromatogram/chromatogram_to_biosequence.rb +32 -0
data/lib/bio/db/sanger_chromatogram/scf.rb +210 -0
data/lib/bio/io/das.rb +0 -44
data/lib/bio/io/ddbjxml.rb +1 -181
data/lib/bio/io/flatfile.rb +1 -7
data/lib/bio/io/flatfile/autodetection.rb +6 -0
data/lib/bio/io/keggapi.rb +0 -442
data/lib/bio/io/ncbirest.rb +130 -132
data/lib/bio/io/ncbisoap.rb +2 -1
data/lib/bio/io/pubmed.rb +0 -88
data/lib/bio/location.rb +0 -73
data/lib/bio/pathway.rb +0 -171
data/lib/bio/sequence.rb +18 -1
data/lib/bio/sequence/adapter.rb +3 -0
data/lib/bio/sequence/format.rb +16 -0
data/lib/bio/sequence/quality_score.rb +205 -0
data/lib/bio/tree.rb +70 -5
data/lib/bio/util/restriction_enzyme/single_strand.rb +3 -2
data/lib/bio/util/sirna.rb +1 -23
data/lib/bio/version.rb +1 -1
data/sample/demo_aaindex.rb +67 -0
data/sample/demo_aminoacid.rb +101 -0
data/sample/demo_bl2seq_report.rb +220 -0
data/sample/demo_blast_report.rb +285 -0
data/sample/demo_codontable.rb +119 -0
data/sample/demo_das.rb +105 -0
data/sample/demo_ddbjxml.rb +212 -0
data/sample/demo_fasta_remote.rb +51 -0
data/sample/demo_fastaformat.rb +105 -0
data/sample/demo_genbank.rb +132 -0
data/sample/demo_genscan_report.rb +202 -0
data/sample/demo_gff1.rb +49 -0
data/sample/demo_go.rb +98 -0
data/sample/demo_hmmer_report.rb +149 -0
data/sample/demo_kegg_compound.rb +57 -0
data/sample/demo_kegg_drug.rb +65 -0
data/sample/demo_kegg_genome.rb +74 -0
data/sample/demo_kegg_glycan.rb +72 -0
data/sample/demo_kegg_orthology.rb +62 -0
data/sample/demo_kegg_reaction.rb +66 -0
data/sample/demo_kegg_taxonomy.rb +92 -0
data/sample/demo_keggapi.rb +502 -0
data/sample/demo_litdb.rb +42 -0
data/sample/demo_locations.rb +99 -0
data/sample/demo_ncbi_rest.rb +130 -0
data/sample/demo_nucleicacid.rb +49 -0
data/sample/demo_pathway.rb +196 -0
data/sample/demo_prosite.rb +120 -0
data/sample/demo_psort.rb +138 -0
data/sample/demo_psort_report.rb +70 -0
data/sample/demo_pubmed.rb +118 -0
data/sample/demo_sirna.rb +63 -0
data/sample/demo_sosui_report.rb +89 -0
data/sample/demo_targetp_report.rb +135 -0
data/sample/demo_tmhmm_report.rb +68 -0
data/sample/pmfetch.rb +13 -4
data/sample/pmsearch.rb +15 -4
data/sample/test_phyloxml_big.rb +205 -0
data/test/bioruby_test_helper.rb +61 -0
data/test/data/KEGG/1.1.1.1.enzyme +935 -0
data/test/data/KEGG/C00025.compound +102 -0
data/test/data/KEGG/D00063.drug +104 -0
data/test/data/KEGG/G00024.glycan +47 -0
data/test/data/KEGG/G01366.glycan +18 -0
data/test/data/KEGG/K02338.orthology +902 -0
data/test/data/KEGG/R00006.reaction +14 -0
data/test/data/fastq/README.txt +109 -0
data/test/data/fastq/error_diff_ids.fastq +20 -0
data/test/data/fastq/error_double_qual.fastq +22 -0
data/test/data/fastq/error_double_seq.fastq +22 -0
data/test/data/fastq/error_long_qual.fastq +20 -0
data/test/data/fastq/error_no_qual.fastq +20 -0
data/test/data/fastq/error_qual_del.fastq +20 -0
data/test/data/fastq/error_qual_escape.fastq +20 -0
data/test/data/fastq/error_qual_null.fastq +0 -0
data/test/data/fastq/error_qual_space.fastq +21 -0
data/test/data/fastq/error_qual_tab.fastq +21 -0
data/test/data/fastq/error_qual_unit_sep.fastq +20 -0
data/test/data/fastq/error_qual_vtab.fastq +20 -0
data/test/data/fastq/error_short_qual.fastq +20 -0
data/test/data/fastq/error_spaces.fastq +20 -0
data/test/data/fastq/error_tabs.fastq +21 -0
data/test/data/fastq/error_trunc_at_plus.fastq +19 -0
data/test/data/fastq/error_trunc_at_qual.fastq +19 -0
data/test/data/fastq/error_trunc_at_seq.fastq +18 -0
data/test/data/fastq/error_trunc_in_plus.fastq +19 -0
data/test/data/fastq/error_trunc_in_qual.fastq +20 -0
data/test/data/fastq/error_trunc_in_seq.fastq +18 -0
data/test/data/fastq/error_trunc_in_title.fastq +17 -0
data/test/data/fastq/illumina_full_range_as_illumina.fastq +8 -0
data/test/data/fastq/illumina_full_range_as_sanger.fastq +8 -0
data/test/data/fastq/illumina_full_range_as_solexa.fastq +8 -0
data/test/data/fastq/illumina_full_range_original_illumina.fastq +8 -0
data/test/data/fastq/longreads_as_illumina.fastq +40 -0
data/test/data/fastq/longreads_as_sanger.fastq +40 -0
data/test/data/fastq/longreads_as_solexa.fastq +40 -0
data/test/data/fastq/longreads_original_sanger.fastq +120 -0
data/test/data/fastq/misc_dna_as_illumina.fastq +16 -0
data/test/data/fastq/misc_dna_as_sanger.fastq +16 -0
data/test/data/fastq/misc_dna_as_solexa.fastq +16 -0
data/test/data/fastq/misc_dna_original_sanger.fastq +16 -0
data/test/data/fastq/misc_rna_as_illumina.fastq +16 -0
data/test/data/fastq/misc_rna_as_sanger.fastq +16 -0
data/test/data/fastq/misc_rna_as_solexa.fastq +16 -0
data/test/data/fastq/misc_rna_original_sanger.fastq +16 -0
data/test/data/fastq/sanger_full_range_as_illumina.fastq +8 -0
data/test/data/fastq/sanger_full_range_as_sanger.fastq +8 -0
data/test/data/fastq/sanger_full_range_as_solexa.fastq +8 -0
data/test/data/fastq/sanger_full_range_original_sanger.fastq +8 -0
data/test/data/fastq/solexa_full_range_as_illumina.fastq +8 -0
data/test/data/fastq/solexa_full_range_as_sanger.fastq +8 -0
data/test/data/fastq/solexa_full_range_as_solexa.fastq +8 -0
data/test/data/fastq/solexa_full_range_original_solexa.fastq +8 -0
data/test/data/fastq/wrapping_as_illumina.fastq +12 -0
data/test/data/fastq/wrapping_as_sanger.fastq +12 -0
data/test/data/fastq/wrapping_as_solexa.fastq +12 -0
data/test/data/fastq/wrapping_original_sanger.fastq +24 -0
data/test/data/meme/db +0 -0
data/test/data/meme/mast +0 -0
data/test/data/meme/mast.out +13 -0
data/test/data/meme/meme.out +3 -0
data/test/data/phyloxml/apaf.xml +666 -0
data/test/data/phyloxml/bcl_2.xml +2097 -0
data/test/data/phyloxml/made_up.xml +144 -0
data/test/data/phyloxml/ncbi_taxonomy_mollusca_short.xml +65 -0
data/test/data/phyloxml/phyloxml_examples.xml +415 -0
data/test/data/sanger_chromatogram/test_chromatogram_abif.ab1 +0 -0
data/test/data/sanger_chromatogram/test_chromatogram_scf_v2.scf +0 -0
data/test/data/sanger_chromatogram/test_chromatogram_scf_v3.scf +0 -0
data/test/functional/bio/appl/test_pts1.rb +7 -5
data/test/functional/bio/io/test_ensembl.rb +4 -3
data/test/functional/bio/io/test_pubmed.rb +9 -3
data/test/functional/bio/io/test_soapwsdl.rb +5 -4
data/test/functional/bio/io/test_togows.rb +5 -4
data/test/functional/bio/sequence/test_output_embl.rb +6 -4
data/test/functional/bio/test_command.rb +54 -5
data/test/runner.rb +5 -3
data/test/unit/bio/appl/bl2seq/test_report.rb +5 -4
data/test/unit/bio/appl/blast/test_ncbioptions.rb +4 -2
data/test/unit/bio/appl/blast/test_report.rb +5 -4
data/test/unit/bio/appl/blast/test_rpsblast.rb +5 -4
data/test/unit/bio/appl/gcg/test_msf.rb +5 -5
data/test/unit/bio/appl/genscan/test_report.rb +8 -9
data/test/unit/bio/appl/hmmer/test_report.rb +5 -4
data/test/unit/bio/appl/iprscan/test_report.rb +6 -5
data/test/unit/bio/appl/mafft/test_report.rb +6 -5
data/test/unit/bio/appl/meme/mast/test_report.rb +46 -0
data/test/unit/bio/appl/meme/test_mast.rb +103 -0
data/test/unit/bio/appl/meme/test_motif.rb +38 -0
data/test/unit/bio/appl/paml/codeml/test_rates.rb +5 -4
data/test/unit/bio/appl/paml/codeml/test_report.rb +5 -4
data/test/unit/bio/appl/paml/test_codeml.rb +5 -4
data/test/unit/bio/appl/sim4/test_report.rb +5 -4
data/test/unit/bio/appl/sosui/test_report.rb +6 -5
data/test/unit/bio/appl/targetp/test_report.rb +5 -3
data/test/unit/bio/appl/test_blast.rb +5 -4
data/test/unit/bio/appl/test_fasta.rb +4 -2
data/test/unit/bio/appl/test_pts1.rb +4 -2
data/test/unit/bio/appl/tmhmm/test_report.rb +6 -5
data/test/unit/bio/data/test_aa.rb +5 -3
data/test/unit/bio/data/test_codontable.rb +5 -4
data/test/unit/bio/data/test_na.rb +5 -3
data/test/unit/bio/db/biosql/tc_biosql.rb +5 -1
data/test/unit/bio/db/embl/test_common.rb +4 -2
data/test/unit/bio/db/embl/test_embl.rb +6 -6
data/test/unit/bio/db/embl/test_embl_rel89.rb +6 -6
data/test/unit/bio/db/embl/test_embl_to_bioseq.rb +7 -8
data/test/unit/bio/db/embl/test_sptr.rb +6 -8
data/test/unit/bio/db/embl/test_uniprot.rb +6 -5
data/test/unit/bio/db/fasta/test_format_qual.rb +346 -0
data/test/unit/bio/db/kegg/test_compound.rb +146 -0
data/test/unit/bio/db/kegg/test_drug.rb +194 -0
data/test/unit/bio/db/kegg/test_enzyme.rb +241 -0
data/test/unit/bio/db/kegg/test_genes.rb +32 -4
data/test/unit/bio/db/kegg/test_glycan.rb +260 -0
data/test/unit/bio/db/kegg/test_orthology.rb +50 -0
data/test/unit/bio/db/kegg/test_reaction.rb +96 -0
data/test/unit/bio/db/pdb/test_pdb.rb +4 -2
data/test/unit/bio/db/sanger_chromatogram/test_abif.rb +76 -0
data/test/unit/bio/db/sanger_chromatogram/test_scf.rb +98 -0
data/test/unit/bio/db/test_aaindex.rb +6 -6
data/test/unit/bio/db/test_fasta.rb +5 -46
data/test/unit/bio/db/test_fastq.rb +829 -0
data/test/unit/bio/db/test_gff.rb +4 -2
data/test/unit/bio/db/test_lasergene.rb +7 -5
data/test/unit/bio/db/test_medline.rb +4 -2
data/test/unit/bio/db/test_newick.rb +6 -6
data/test/unit/bio/db/test_nexus.rb +4 -2
data/test/unit/bio/db/test_phyloxml.rb +769 -0
data/test/unit/bio/db/test_phyloxml_writer.rb +328 -0
data/test/unit/bio/db/test_prosite.rb +6 -5
data/test/unit/bio/db/test_qual.rb +63 -0
data/test/unit/bio/db/test_rebase.rb +5 -3
data/test/unit/bio/db/test_soft.rb +7 -6
data/test/unit/bio/io/flatfile/test_autodetection.rb +6 -7
data/test/unit/bio/io/flatfile/test_buffer.rb +6 -5
data/test/unit/bio/io/flatfile/test_splitter.rb +4 -4
data/test/unit/bio/io/test_ddbjxml.rb +4 -3
data/test/unit/bio/io/test_ensembl.rb +5 -3
data/test/unit/bio/io/test_fastacmd.rb +4 -3
data/test/unit/bio/io/test_flatfile.rb +6 -5
data/test/unit/bio/io/test_soapwsdl.rb +4 -3
data/test/unit/bio/io/test_togows.rb +4 -2
data/test/unit/bio/sequence/test_aa.rb +5 -3
data/test/unit/bio/sequence/test_common.rb +4 -2
data/test/unit/bio/sequence/test_compat.rb +4 -2
data/test/unit/bio/sequence/test_dblink.rb +5 -3
data/test/unit/bio/sequence/test_na.rb +4 -2
data/test/unit/bio/sequence/test_quality_score.rb +330 -0
data/test/unit/bio/shell/plugin/test_seq.rb +5 -3
data/test/unit/bio/test_alignment.rb +5 -3
data/test/unit/bio/test_command.rb +4 -3
data/test/unit/bio/test_db.rb +5 -3
data/test/unit/bio/test_feature.rb +4 -2
data/test/unit/bio/test_location.rb +4 -2
data/test/unit/bio/test_map.rb +5 -3
data/test/unit/bio/test_pathway.rb +4 -2
data/test/unit/bio/test_reference.rb +4 -2
data/test/unit/bio/test_sequence.rb +5 -3
data/test/unit/bio/test_shell.rb +5 -3
data/test/unit/bio/test_tree.rb +6 -6
data/test/unit/bio/util/restriction_enzyme/analysis/test_calculated_cuts.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/analysis/test_cut_ranges.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/analysis/test_sequence_range.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/double_stranded/test_aligned_strands.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/double_stranded/test_cut_location_pair.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/double_stranded/test_cut_location_pair_in_enzyme_notation.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/double_stranded/test_cut_locations.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/double_stranded/test_cut_locations_in_enzyme_notation.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/single_strand/test_cut_locations_in_enzyme_notation.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/test_analysis.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/test_cut_symbol.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/test_double_stranded.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/test_single_strand.rb +17 -13
data/test/unit/bio/util/restriction_enzyme/test_single_strand_complement.rb +17 -13
data/test/unit/bio/util/restriction_enzyme/test_string_formatting.rb +4 -2
data/test/unit/bio/util/test_color_scheme.rb +5 -3
data/test/unit/bio/util/test_contingency_table.rb +5 -3
data/test/unit/bio/util/test_restriction_enzyme.rb +4 -2
data/test/unit/bio/util/test_sirna.rb +6 -4
metadata +147 -2

data/lib/bio/db/sanger_chromatogram/chromatogram.rb ADDED

@@ -0,0 +1,133 @@
+#
+# = bio/db/sanger_chromatogram/chromatogram.rb - Sanger Chromatogram class
+#
+# Copyright::	Copyright (C) 2009 Anthony Underwood <anthony.underwood@hpa.org.uk>, <email2ants@gmail.com>
+# License::	The Ruby License
+#
+# $Id:$
+#
+require 'bio/sequence/adapter'
+module Bio
+  # == Description
+  #
+  # This is the Superclass for the Abif and Scf classes that allow importing of the common scf
+  # and abi sequence chromatogram formats
+  # The following attributes are Common to both the Abif and Scf subclasses
+  #
+  # * *chromatogram_type* (String): This is extracted from the chromatogram file itself and will
+  #   probably be either .scf or ABIF for Scf and Abif files respectively.
+  # * *version* (String): The version of the Scf or Abif file
+  # * *sequence* (String): the sequence contained within the chromatogram as a string.
+  # * *qualities* (Array): the quality scores of each base as an array of integers. These will
+  #   probably be phred scores.
+  # * *peak_indices* (Array): if the sequence traces contained within the chromatogram are imagined
+  #   as being plotted on an x,y graph, the peak indices are the x positions of the peaks that
+  #   represent the nucleotides bases found in the sequence from the chromatogram. For example if
+  #   the peak_indices are [16,24,37,49 ....] and the sequence is AGGT...., at position 16 the
+  #   traces in the chromatogram were base-called as an A, position 24 a G, position 37 a G,
+  #   position 49 a T etc
+  # * *atrace*, *ctrace*, *gtrace*, *ttrace* (Array): If the sequence traces contained within
+  #   the chromatogram are imagined as being plotted on an x,y graph, these attributes are arrays of
+  #   y positions for each of the 4 nucleotide bases along the length of the x axis. If these were
+  #   plotted joined by lines of different colours then the resulting graph should look like the
+  #   original chromatogram file when viewed in a chromtogram viewer such as Chromas, 4Peaks or
+  #   FinchTV.
+  # * *dye_mobility* (String):  The mobility of the dye used when sequencing. This can influence the
+  #   base calling
+  #
+  # == Usage
+  #   filename = "path/to/sequence_chromatogram_file"
+  #
+  # for Abif files
+  #   chromatogram_ff = Bio::Abif.open(filename)
+  # for Scf files
+  #   chromatogram_ff = Bio::Scf.open(filename)
+  #
+  #   chromatogram = chromatogram_ff.next_entry
+  #   chromatogram.to_seq # => returns a Bio::Sequence object
+  #   chromatogram.sequence # => returns the sequence contained within the chromatogram as a string
+  #   chromatogram.qualities # => returns an array of quality values for each base
+  #   chromatogram.atrace # => returns an array of the a trace y positions
+  #
+  class SangerChromatogram
+    # The type of chromatogram file .scf for Scf files and ABIF doe Abif files
+    attr_accessor :chromatogram_type
+    # The Version of the Scf or Abif file (String)
+    attr_accessor :version
+    # The sequence contained within the chromatogram (String)
+    attr_accessor :sequence
+    # An array of quality scores for each base in the sequence (Array)
+    attr_accessor :qualities
+    # An array  'x' positions (see description) on the trace where the bases occur/have been called (Array)
+    attr_accessor :peak_indices
+    # An array of 'y' positions (see description) for the 'A' trace from the chromatogram (Array
+    attr_accessor :atrace
+    # An array of 'y' positions (see description) for the 'C' trace from the chromatogram (Array
+    attr_accessor :ctrace
+    # An array of 'y' positions (see description) for the 'G' trace from the chromatogram (Array
+    attr_accessor :gtrace
+    # An array of 'y' positions (see description) for the 'T' trace from the chromatogram (Array
+    attr_accessor :ttrace
+    #The mobility of the dye used when sequencing (String)
+    attr_accessor :dye_mobility
+    def self.open(filename)
+      Bio::FlatFile.open(self, filename)
+    end
+    # Returns a Bio::Sequence::NA object based on the sequence from the chromatogram
+    def seq
+      Bio::Sequence::NA.new(@sequence)
+    end
+    # Returns a Bio::Sequence object based on the sequence from the chromatogram
+    def to_biosequence
+      Bio::Sequence.adapter(self, Bio::Sequence::Adapter::SangerChromatogram)
+    end
+    alias :to_seq :to_biosequence
+    # Returns the sequence from the chromatogram as a string
+    def sequence_string
+      @sequence
+    end
+    # Reverses and complements the current chromatogram object including its sequence, traces
+    # and qualities
+    def complement!
+      # reverse traces
+      tmp_trace = @atrace
+      @atrace = @ttrace.reverse
+      @ttrace = tmp_trace.reverse
+      tmp_trace = @ctrace
+      @ctrace = @gtrace.reverse
+      @gtrace = tmp_trace.reverse
+      # reverse base qualities
+      if !@aqual.nil? # if qualities exist
+        tmp_qual = @aqual
+        @aqual = @tqual.reverse
+        @tqual = tmp_qual.reverse
+        tmp_qual = @cqual
+        @cqual = @gqual.reverse
+        @gqual = tmp_qual.reverse
+      end
+      #reverse qualities
+      @qualities = @qualities.reverse
+      #reverse peak indices
+      @peak_indices = @peak_indices.map{|index| @atrace.size - index}
+      @peak_indices.reverse!
+      # reverse sequence
+      @sequence = @sequence.reverse.tr('atgcnrykmswbvdh','tacgnyrmkswvbhd')
+    end
+    # Returns a new chromatogram object of the appropriate subclass (scf or abi) where the
+    # sequence, traces and qualities have all been revesed and complemented
+    def complement
+      chromatogram = self.dup
+      chromatogram.complement!
+      return chromatogram
+    end
+  end
+end

data/lib/bio/db/sanger_chromatogram/chromatogram_to_biosequence.rb ADDED

@@ -0,0 +1,32 @@
+#
+# = bio/db/sanger_chromatogram/chromatogram_to_biosequence.rb - Bio::SangerChromatogram to Bio::Sequence adapter module
+#
+# Copyright::	Copyright (C) 2009 Anthony Underwood <anthony.underwood@hpa.org.uk>, <email2ants@gmail.com>
+# License::	The Ruby License
+#
+# $Id:$
+#
+require 'bio/sequence'
+require 'bio/sequence/adapter'
+# Internal use only. Normal users should not use this module.
+#
+# Bio::SangerChromatogram to Bio::Sequence adapter module.
+# It is internally used in Bio::SangerChromatogram#to_biosequence.
+#
+module Bio::Sequence::Adapter::SangerChromatogram
+  extend Bio::Sequence::Adapter
+  private
+  def_biosequence_adapter :seq
+  # primary accession
+  def_biosequence_adapter :primary_accession do |orig|
+    orig.version
+  end
+end #module Bio::Sequence::Adapter::SangerChromatogram

data/lib/bio/db/sanger_chromatogram/scf.rb ADDED

@@ -0,0 +1,210 @@
+#
+# = bio/db/sanger_chromatogram/scf.rb - Scf class
+#
+# Copyright::	Copyright (C) 2009 Anthony Underwood <anthony.underwood@hpa.org.uk>, <email2ants@gmail.com>
+# License::	The Ruby License
+#
+require 'bio/db/sanger_chromatogram/chromatogram'
+module Bio
+  # == Description
+  #
+  # This class inherits from the SangerChromatogram superclass. It captures the information contained
+  # within an scf format chromatogram file generated by DNA sequencing. See the SangerChromatogram class
+  # for usage
+  class Scf < SangerChromatogram
+    # sequence attributes
+    # The quality of each base at each position along the length of the sequence is captured
+    # by the nqual attributes where n is one of a, c, g or t. Generally the quality will be
+    # high for the base that is called at a particular position and low for all the other bases.
+    # However at positions of poor sequence quality, more than one base may have similar top scores.
+    # By analysing the nqual attributes it may be possible to determine if the base calling was
+    # correct or not.
+    # The quality of the A base at each sequence position
+    attr_accessor :aqual
+    # The quality of the C base at each sequence position
+    attr_accessor :cqual
+    # The quality of the G base at each sequence position
+    attr_accessor :gqual
+    # The quality of the T base at each sequence position
+    attr_accessor :tqual
+    # A hash of extra information extracted from the chromatogram file
+    attr_accessor :comments
+    # see SangerChromatogram class for how to create an Scf object and its usage
+    def initialize(string)
+      header = string.slice(0,128)
+      # read in header info
+      @chromatogram_type, @samples, @sample_offset, @bases, @bases_left_clip, @bases_right_clip, @bases_offset, @comment_size, @comments_offset, @version, @sample_size, @code_set, @header_spare = header.unpack("a4 NNNNNNNN a4 NN N20")
+      get_traces(string)
+      get_bases_peakIndices_and_qualities(string)
+      get_comments(string)
+      if @comments["DYEP"]
+        @dye_mobility = @comments["DYEP"]
+      else
+        @dye_mobility = "Unnown"
+      end
+    end
+    private
+    def get_traces(string)
+      if @version == "3.00"
+        # read in trace info
+        offset = @sample_offset
+        length = @samples * @sample_size
+        # determine whether the data is stored in 1 byte as an unsigned byte or 2 bytes as an  unsigned short
+        @sample_size == 2 ? byte = "n" : byte = "c"
+        for base in ["a" , "c" , "g" , "t"]
+          trace_read = string.slice(offset,length).unpack("#{byte}#{@samples}")
+          # convert offsets
+          for sample_num in (0..trace_read.size-1)
+            if trace_read[sample_num] > 30000
+              trace_read[sample_num] = trace_read[sample_num] - 65536
+            end
+          end
+          # For 8-bit data we need to emulate a signed/unsigned
+          # cast that is implicit in the C implementations.....
+          if @sample_size == 1
+            for sample_num in (0..trace_read.size-1)
+              trace_read[sample_num] += 256 if trace_read[sample_num] < 0
+            end
+          end
+          trace_read = convert_deltas_to_values(trace_read)
+          self.instance_variable_set("@#{base}trace", trace_read)
+          offset += length
+        end
+      elsif @version == "2.00"
+        @atrace = []
+        @ctrace = []
+        @gtrace = []
+        @ttrace = []
+        # read in trace info
+        offset = @sample_offset
+        length = @samples * @sample_size * 4
+        # determine whether the data is stored in 1 byte as an unsigned byte or 2 bytes as an  unsigned short
+        @sample_size == 2 ? byte = "n" : byte = "c"
+        trace_read = string.slice(offset,length).unpack("#{byte}#{@samples*4}")
+        (0..(@samples-1)*4).step(4) do |offset2|
+          @atrace << trace_read[offset2]
+          @ctrace << trace_read[offset2+1]
+          @gtrace << trace_read[offset2+2]
+          @ttrace << trace_read[offset2+3]
+        end
+      end
+    end
+    def get_bases_peakIndices_and_qualities(string)
+      if @version == "3.00"
+        # now go and get the peak index information
+        offset = @bases_offset
+        length = @bases * 4
+        get_v3_peak_indices(string,offset,length)
+        # now go and get the accuracy information
+        offset += length;
+        get_v3_accuracies(string,offset,length)
+        # OK, now go and get the base information.
+        offset += length;
+        length = @bases;
+        get_v3_sequence(string,offset,length)
+        #combine accuracies to get quality scores
+        @qualities= convert_accuracies_to_qualities
+      elsif @version == "2.00"
+        @peak_indices = []
+        @aqual = []
+        @cqual = []
+        @gqual = []
+        @tqual = []
+        @qualities = []
+        @sequence = ""
+        # now go and get the base information
+        offset = @bases_offset
+        length = @bases * 12
+        all_bases_info = string.slice(offset,length)
+        (0..length-1).step(12) do |offset2|
+          base_info = all_bases_info.slice(offset2,12).unpack("N C C C C a C3")
+          @peak_indices << base_info[0]
+          @aqual << base_info[1]
+          @cqual << base_info[2]
+          @gqual << base_info[3]
+          @tqual << base_info[4]
+          @sequence += base_info[5].downcase
+          case base_info[5].downcase
+          when "a"
+            @qualities << base_info[1]
+          when "c"
+            @qualities << base_info[2]
+          when "g"
+            @qualities << base_info[3]
+          when "t"
+            @qualities << base_info[4]
+          else
+            @qualities << 0
+          end
+        end
+      end
+    end
+    def get_v3_peak_indices(string,offset,length)
+      @peak_indices = string.slice(offset,length).unpack("N#{length/4}")
+    end
+    def get_v3_accuracies(string,offset,length)
+      qualities   = string.slice(offset,length)
+      qual_length = length/4;
+      qual_offset = 0;
+      for base in ["a" , "c" , "g" , "t"]
+        self.instance_variable_set("@#{base}qual",qualities.slice(qual_offset,qual_length).unpack("C#{qual_length}"))
+        qual_offset += qual_length
+      end
+    end
+    def get_v3_sequence(string,offset,length)
+      @sequence = string.slice(offset,length).unpack("a#{length}").join('').downcase
+    end
+    def convert_deltas_to_values(trace_read)
+      p_sample = 0;
+      for sample_num in (0..trace_read.size-1)
+        trace_read[sample_num] = trace_read[sample_num] + p_sample
+        p_sample = trace_read[sample_num];
+      end
+      p_sample = 0;
+      for sample_num in (0..trace_read.size-1)
+        trace_read[sample_num] = trace_read[sample_num] + p_sample
+        p_sample = trace_read[sample_num];
+      end
+      return trace_read
+    end
+    def convert_accuracies_to_qualities
+      qualities = Array.new
+      for base_pos in (0..@sequence.length-1)
+        case sequence.slice(base_pos,1)
+        when "a"
+          qualities << @aqual[base_pos]
+        when "c"
+          qualities << @cqual[base_pos]
+        when "g"
+          qualities << @gqual[base_pos]
+        when "t"
+          qualities << @tqual[base_pos]
+        else
+          qualities << 0
+        end
+      end
+      return qualities
+    end
+    def get_comments(string)
+      @comments = Hash.new
+      comment_string = string.slice(@comments_offset,@comment_size)
+      comment_string.gsub!(/\0/, "")
+      comment_array = comment_string.split("\n")
+      comment_array.each do |comment|
+        comment =~ /(\w+)=(.*)/
+        @comments[$1] = $2
+      end
+    end
+  end
+end

data/lib/bio/io/das.rb CHANGED

@@ -415,47 +415,3 @@ end
 end # module Bio
-if __FILE__ == $0
-# begin
-#   require 'pp'
-#   alias p pp
-# rescue LoadError
-# end
-  puts "### WormBase"
-  wormbase = Bio::DAS.new('http://www.wormbase.org/db/')
-  puts ">>> test get_dsn"
-  p wormbase.get_dsn
-  puts ">>> create segment obj Bio::DAS::SEGMENT.region('I', 1, 1000)"
-  seg = Bio::DAS::SEGMENT.region('I', 1, 1000)
-  p seg
-  puts ">>> test get_dna"
-  p wormbase.get_dna('elegans', seg)
-  puts "### test get_features"
-  p wormbase.get_features('elegans', seg)
-  puts "### KEGG DAS"
-  kegg_das = Bio::DAS.new("http://das.hgc.jp/cgi-bin/")
-  dsn_list = kegg_das.get_dsn
-  org_list = dsn_list.collect {|x| x.source}
-  puts ">>> dsn : entry_points"
-  org_list.each do |org|
-    print "#{org} : "
-    list = kegg_das.get_entry_points(org)
-    list.segments.each do |seg|
-      print " #{seg.entry_id}"
-    end
-    puts
-  end
-end

data/lib/bio/io/ddbjxml.rb CHANGED

@@ -5,7 +5,7 @@
 #		Toshiaki Katayama <k@bioruby.org>
 # License::	The Ruby License
 #
-# $Id: ddbjxml.rb,v 1.14 2007/04/05 23:35:41 trevor Exp $
+# $Id:$
 #
 require 'bio/io/soapwsdl'
@@ -456,183 +456,3 @@ end # XML
 end # DDBJ
 end # Bio
-if __FILE__ == $0
-  begin
-    require 'pp'
-    alias p pp
-  rescue LoadError
-  end
-  puts ">>> Bio::DDBJ::XML::Blast"
-  serv = Bio::DDBJ::XML::Blast.new
-# serv.log = STDERR
-  query = "MSSRIARALALVVTLLHLTRLALSTCPAACHCPLEAPKCAPGVGLVRDGCGCCKVCAKQL"
-  puts "### searchSimple('blastp', 'SWISS', query)"
-  puts serv.searchSimple('blastp', 'SWISS', query)
-  puts "### searchParam('tblastn', 'ddbjvrl', query, '-m 8')"
-  puts serv.searchParam('tblastn', 'ddbjvrl', query, '-m 8')
-  puts ">>> Bio::DDBJ::XML::ClustalW"
-  serv = Bio::DDBJ::XML::ClustalW.new
-  query = <<END
-> RABSTOUT   rabbit Guinness receptor
-   LKMHLMGHLKMGLKMGLKGMHLMHLKHMHLMTYTYTTYRRWPLWMWLPDFGHAS
-   ADSCVCAHGFAVCACFAHFDVCFGAVCFHAVCFAHVCFAAAVCFAVCAC
-> MUSNOSE   mouse nose drying factor
-    mhkmmhkgmkhmhgmhmhglhmkmhlkmgkhmgkmkytytytryrwtqtqwtwyt
-    fdgfdsgafdagfdgfsagdfavdfdvgavfsvfgvdfsvdgvagvfdv
-> HSHEAVEN    human Guinness receptor repeat
- mhkmmhkgmkhmhgmhmhg   lhmkmhlkmgkhmgkmk  ytytytryrwtqtqwtwyt
- fdgfdsgafdagfdgfsag   dfavdfdvgavfsvfgv  dfsvdgvagvfdv
- mhkmmhkgmkhmhgmhmhg   lhmkmhlkmgkhmgkmk  ytytytryrwtqtqwtwyt
- fdgfdsgafdagfdgfsag   dfavdfdvgavfsvfgv  dfsvdgvagvfdv
-END
-  puts "### analyzeSimple(query)"
-  puts serv.analyzeSimple(query)
-  puts "### analyzeParam(query, '-align -matrix=blosum')"
-  puts serv.analyzeParam(query, '-align -matrix=blosum')
-  puts ">>> Bio::DDBJ::XML::DDBJ"
-  serv = Bio::DDBJ::XML::DDBJ.new
-  puts "### getFFEntry('AB000050')"
-  puts serv.getFFEntry('AB000050')
-  puts "### getXMLEntry('AB000050')"
-  puts serv.getXMLEntry('AB000050')
-  puts "### getFeatureInfo('AB000050', 'cds')"
-  puts serv.getFeatureInfo('AB000050', 'cds')
-  puts "### getAllFeatures('AB000050')"
-  puts serv.getAllFeatures('AB000050')
-  puts "### getRelatedFeatures('AL121903', '59000', '64000')"
-  puts serv.getRelatedFeatures('AL121903', '59000', '64000')
-  puts "### getRelatedFeaturesSeq('AL121903', '59000', '64000')"
-  puts serv.getRelatedFeaturesSeq('AL121903', '59000', '64000')
-  puts ">>> Bio::DDBJ::XML::Fasta"
-  serv = Bio::DDBJ::XML::Fasta.new
-  query = ">Test\nMSDGAVQPDG GQPAVRNERA TGSGNGSGGG GGGGSGGVGI"
-  puts "### searchSimple('fasta34', 'PDB', query)"
-  puts serv.searchSimple('fasta34', 'PDB', query)
-  query = ">Test\nAGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC"
-  puts "### searchParam('fastx34_t', 'PDB', query, '-n')"
-  puts serv.searchParam('fastx34_t', 'PDB', query, '-n')
-  puts ">>> Bio::DDBJ::XML::GetEntry"
-  serv = Bio::DDBJ::XML::GetEntry.new
-  puts "### getDDBJEntry('AB000050')"
-  puts serv.getDDBJEntry('AB000050')
-  puts "### getPDBEntry('1AAR')"
-  puts serv. getPDBEntry('1AAR')
-  puts ">>> Bio::DDBJ::XML::Gib"
-  serv = Bio::DDBJ::XML::Gib.new
-  puts "### getOrganismList"
-  puts serv.getOrganismList
-  puts "### getChIDList"
-  puts serv.getChIDList
-  puts "### getOrganismNameFromChid('Sent_CT18:')"
-  puts serv.getOrganismNameFromChid('Sent_CT18:')
-  puts "### getChIDFromOrganismName('Aquifex aeolicus VF5')"
-  puts serv.getChIDFromOrganismName('Aquifex aeolicus VF5')
-  puts "### getAccession('Ecol_K12_MG1655:')"
-  puts serv.getAccession('Ecol_K12_MG1655:')
-  puts "### getPieceNumber('Mgen_G37:')"
-  puts serv.getPieceNumber('Mgen_G37:')
-  puts "### getDivision('Mgen_G37:')"
-  puts serv.getDivision('Mgen_G37:')
-  puts "### getType('Mgen_G37:')"
-  puts serv.getType('Mgen_G37:')
-  puts "### getCDS('Aaeo_VF5:ece1')"
-  puts serv.getCDS('Aaeo_VF5:ece1')
-  puts "### getFlatFile('Nost_PCC7120:pCC7120zeta')"
-  puts serv.getFlatFile('Nost_PCC7120:pCC7120zeta')
-  puts "### getFastaFile('Nost_PCC7120:pCC7120zeta')"
-  puts serv.getFastaFile('Nost_PCC7120:pCC7120zeta', 'cdsaa')
-  puts ">>> Bio::DDBJ::XML::Gtop"
-  serv = Bio::DDBJ::XML::Gtop.new
-  puts "### getOrganismList"
-  puts serv.getOrganismList
-  puts "### getMasterInfo"
-  puts serv.getMasterInfo('thrA', 'ecol0')
-#  puts ">>> Bio::DDBJ::XML::PML"
-#  serv = Bio::DDBJ::XML::PML.new
-#
-#  puts "### getVariation('1')"
-#  puts serv.getVariation('1')
-  puts ">>> Bio::DDBJ::XML::SRS"
-  serv = Bio::DDBJ::XML::SRS.new
-  puts "### searchSimple('[pathway-des:sugar]')"
-  puts serv.searchSimple('[pathway-des:sugar]')
-  puts "### searchParam('[swissprot-des:cohesin]', '-f seq -sf fasta')"
-  puts serv.searchParam('[swissprot-des:cohesin]', '-f seq -sf fasta')
-  puts ">>> Bio::DDBJ::XML::TxSearch"
-  serv = Bio::DDBJ::XML::TxSearch.new
-  puts "### searchSimple('*coli')"
-  puts serv.searchSimple('*coli')
-  puts "### searchSimple('*tardigrada*')"
-  puts serv.searchSimple('*tardigrada*')
-  puts "### getTxId('Escherichia coli')"
-  puts serv.getTxId('Escherichia coli')
-  puts "### getTxName('562')"
-  puts serv.getTxName('562')
-  query = "Campylobacter coli\nEscherichia coli"
-  rank = "family\ngenus"
-  puts "### searchLineage(query, rank, 'Bacteria')"
-  puts serv.searchLineage(query, rank, 'Bacteria')
-end