RubyGems - bio - Versions diffs - 1.3.1 → 1.4.0 - Mend

bio 1.3.1 → 1.4.0

Files changed (303) hide show

data/ChangeLog +2105 -3728
data/KNOWN_ISSUES.rdoc +35 -3
data/README.rdoc +8 -2
data/RELEASE_NOTES.rdoc +166 -0
data/bin/bioruby +4 -1
data/bioruby.gemspec +146 -1
data/bioruby.gemspec.erb +3 -1
data/doc/ChangeLog-before-1.3.1 +3961 -0
data/doc/Tutorial.rd +154 -22
data/doc/Tutorial.rd.html +125 -68
data/lib/bio.rb +21 -6
data/lib/bio/appl/bl2seq/report.rb +11 -202
data/lib/bio/appl/blast/format0.rb +0 -193
data/lib/bio/appl/blast/report.rb +2 -147
data/lib/bio/appl/blast/wublast.rb +0 -208
data/lib/bio/appl/fasta.rb +4 -19
data/lib/bio/appl/fasta/format10.rb +0 -14
data/lib/bio/appl/genscan/report.rb +0 -176
data/lib/bio/appl/hmmer.rb +1 -15
data/lib/bio/appl/hmmer/report.rb +0 -100
data/lib/bio/appl/meme/mast.rb +156 -0
data/lib/bio/appl/meme/mast/report.rb +91 -0
data/lib/bio/appl/meme/motif.rb +48 -0
data/lib/bio/appl/psort.rb +0 -111
data/lib/bio/appl/psort/report.rb +1 -45
data/lib/bio/appl/pts1.rb +2 -4
data/lib/bio/appl/sosui/report.rb +5 -54
data/lib/bio/appl/targetp/report.rb +1 -104
data/lib/bio/appl/tmhmm/report.rb +0 -36
data/lib/bio/command.rb +94 -10
data/lib/bio/data/aa.rb +1 -77
data/lib/bio/data/codontable.rb +1 -95
data/lib/bio/data/na.rb +1 -26
data/lib/bio/db/aaindex.rb +1 -38
data/lib/bio/db/fasta.rb +1 -134
data/lib/bio/db/fasta/format_qual.rb +204 -0
data/lib/bio/db/fasta/qual.rb +102 -0
data/lib/bio/db/fastq.rb +645 -0
data/lib/bio/db/fastq/fastq_to_biosequence.rb +40 -0
data/lib/bio/db/fastq/format_fastq.rb +175 -0
data/lib/bio/db/genbank/genbank.rb +1 -86
data/lib/bio/db/gff.rb +0 -17
data/lib/bio/db/go.rb +4 -72
data/lib/bio/db/kegg/common.rb +112 -0
data/lib/bio/db/kegg/compound.rb +29 -20
data/lib/bio/db/kegg/drug.rb +74 -34
data/lib/bio/db/kegg/enzyme.rb +26 -5
data/lib/bio/db/kegg/genes.rb +128 -15
data/lib/bio/db/kegg/genome.rb +3 -41
data/lib/bio/db/kegg/glycan.rb +19 -24
data/lib/bio/db/kegg/orthology.rb +16 -56
data/lib/bio/db/kegg/reaction.rb +81 -28
data/lib/bio/db/kegg/taxonomy.rb +1 -52
data/lib/bio/db/litdb.rb +1 -16
data/lib/bio/db/phyloxml/phyloxml.xsd +582 -0
data/lib/bio/db/phyloxml/phyloxml_elements.rb +1174 -0
data/lib/bio/db/phyloxml/phyloxml_parser.rb +954 -0
data/lib/bio/db/phyloxml/phyloxml_writer.rb +228 -0
data/lib/bio/db/prosite.rb +2 -95
data/lib/bio/db/rebase.rb +5 -6
data/lib/bio/db/sanger_chromatogram/abif.rb +120 -0
data/lib/bio/db/sanger_chromatogram/chromatogram.rb +133 -0
data/lib/bio/db/sanger_chromatogram/chromatogram_to_biosequence.rb +32 -0
data/lib/bio/db/sanger_chromatogram/scf.rb +210 -0
data/lib/bio/io/das.rb +0 -44
data/lib/bio/io/ddbjxml.rb +1 -181
data/lib/bio/io/flatfile.rb +1 -7
data/lib/bio/io/flatfile/autodetection.rb +6 -0
data/lib/bio/io/keggapi.rb +0 -442
data/lib/bio/io/ncbirest.rb +130 -132
data/lib/bio/io/ncbisoap.rb +2 -1
data/lib/bio/io/pubmed.rb +0 -88
data/lib/bio/location.rb +0 -73
data/lib/bio/pathway.rb +0 -171
data/lib/bio/sequence.rb +18 -1
data/lib/bio/sequence/adapter.rb +3 -0
data/lib/bio/sequence/format.rb +16 -0
data/lib/bio/sequence/quality_score.rb +205 -0
data/lib/bio/tree.rb +70 -5
data/lib/bio/util/restriction_enzyme/single_strand.rb +3 -2
data/lib/bio/util/sirna.rb +1 -23
data/lib/bio/version.rb +1 -1
data/sample/demo_aaindex.rb +67 -0
data/sample/demo_aminoacid.rb +101 -0
data/sample/demo_bl2seq_report.rb +220 -0
data/sample/demo_blast_report.rb +285 -0
data/sample/demo_codontable.rb +119 -0
data/sample/demo_das.rb +105 -0
data/sample/demo_ddbjxml.rb +212 -0
data/sample/demo_fasta_remote.rb +51 -0
data/sample/demo_fastaformat.rb +105 -0
data/sample/demo_genbank.rb +132 -0
data/sample/demo_genscan_report.rb +202 -0
data/sample/demo_gff1.rb +49 -0
data/sample/demo_go.rb +98 -0
data/sample/demo_hmmer_report.rb +149 -0
data/sample/demo_kegg_compound.rb +57 -0
data/sample/demo_kegg_drug.rb +65 -0
data/sample/demo_kegg_genome.rb +74 -0
data/sample/demo_kegg_glycan.rb +72 -0
data/sample/demo_kegg_orthology.rb +62 -0
data/sample/demo_kegg_reaction.rb +66 -0
data/sample/demo_kegg_taxonomy.rb +92 -0
data/sample/demo_keggapi.rb +502 -0
data/sample/demo_litdb.rb +42 -0
data/sample/demo_locations.rb +99 -0
data/sample/demo_ncbi_rest.rb +130 -0
data/sample/demo_nucleicacid.rb +49 -0
data/sample/demo_pathway.rb +196 -0
data/sample/demo_prosite.rb +120 -0
data/sample/demo_psort.rb +138 -0
data/sample/demo_psort_report.rb +70 -0
data/sample/demo_pubmed.rb +118 -0
data/sample/demo_sirna.rb +63 -0
data/sample/demo_sosui_report.rb +89 -0
data/sample/demo_targetp_report.rb +135 -0
data/sample/demo_tmhmm_report.rb +68 -0
data/sample/pmfetch.rb +13 -4
data/sample/pmsearch.rb +15 -4
data/sample/test_phyloxml_big.rb +205 -0
data/test/bioruby_test_helper.rb +61 -0
data/test/data/KEGG/1.1.1.1.enzyme +935 -0
data/test/data/KEGG/C00025.compound +102 -0
data/test/data/KEGG/D00063.drug +104 -0
data/test/data/KEGG/G00024.glycan +47 -0
data/test/data/KEGG/G01366.glycan +18 -0
data/test/data/KEGG/K02338.orthology +902 -0
data/test/data/KEGG/R00006.reaction +14 -0
data/test/data/fastq/README.txt +109 -0
data/test/data/fastq/error_diff_ids.fastq +20 -0
data/test/data/fastq/error_double_qual.fastq +22 -0
data/test/data/fastq/error_double_seq.fastq +22 -0
data/test/data/fastq/error_long_qual.fastq +20 -0
data/test/data/fastq/error_no_qual.fastq +20 -0
data/test/data/fastq/error_qual_del.fastq +20 -0
data/test/data/fastq/error_qual_escape.fastq +20 -0
data/test/data/fastq/error_qual_null.fastq +0 -0
data/test/data/fastq/error_qual_space.fastq +21 -0
data/test/data/fastq/error_qual_tab.fastq +21 -0
data/test/data/fastq/error_qual_unit_sep.fastq +20 -0
data/test/data/fastq/error_qual_vtab.fastq +20 -0
data/test/data/fastq/error_short_qual.fastq +20 -0
data/test/data/fastq/error_spaces.fastq +20 -0
data/test/data/fastq/error_tabs.fastq +21 -0
data/test/data/fastq/error_trunc_at_plus.fastq +19 -0
data/test/data/fastq/error_trunc_at_qual.fastq +19 -0
data/test/data/fastq/error_trunc_at_seq.fastq +18 -0
data/test/data/fastq/error_trunc_in_plus.fastq +19 -0
data/test/data/fastq/error_trunc_in_qual.fastq +20 -0
data/test/data/fastq/error_trunc_in_seq.fastq +18 -0
data/test/data/fastq/error_trunc_in_title.fastq +17 -0
data/test/data/fastq/illumina_full_range_as_illumina.fastq +8 -0
data/test/data/fastq/illumina_full_range_as_sanger.fastq +8 -0
data/test/data/fastq/illumina_full_range_as_solexa.fastq +8 -0
data/test/data/fastq/illumina_full_range_original_illumina.fastq +8 -0
data/test/data/fastq/longreads_as_illumina.fastq +40 -0
data/test/data/fastq/longreads_as_sanger.fastq +40 -0
data/test/data/fastq/longreads_as_solexa.fastq +40 -0
data/test/data/fastq/longreads_original_sanger.fastq +120 -0
data/test/data/fastq/misc_dna_as_illumina.fastq +16 -0
data/test/data/fastq/misc_dna_as_sanger.fastq +16 -0
data/test/data/fastq/misc_dna_as_solexa.fastq +16 -0
data/test/data/fastq/misc_dna_original_sanger.fastq +16 -0
data/test/data/fastq/misc_rna_as_illumina.fastq +16 -0
data/test/data/fastq/misc_rna_as_sanger.fastq +16 -0
data/test/data/fastq/misc_rna_as_solexa.fastq +16 -0
data/test/data/fastq/misc_rna_original_sanger.fastq +16 -0
data/test/data/fastq/sanger_full_range_as_illumina.fastq +8 -0
data/test/data/fastq/sanger_full_range_as_sanger.fastq +8 -0
data/test/data/fastq/sanger_full_range_as_solexa.fastq +8 -0
data/test/data/fastq/sanger_full_range_original_sanger.fastq +8 -0
data/test/data/fastq/solexa_full_range_as_illumina.fastq +8 -0
data/test/data/fastq/solexa_full_range_as_sanger.fastq +8 -0
data/test/data/fastq/solexa_full_range_as_solexa.fastq +8 -0
data/test/data/fastq/solexa_full_range_original_solexa.fastq +8 -0
data/test/data/fastq/wrapping_as_illumina.fastq +12 -0
data/test/data/fastq/wrapping_as_sanger.fastq +12 -0
data/test/data/fastq/wrapping_as_solexa.fastq +12 -0
data/test/data/fastq/wrapping_original_sanger.fastq +24 -0
data/test/data/meme/db +0 -0
data/test/data/meme/mast +0 -0
data/test/data/meme/mast.out +13 -0
data/test/data/meme/meme.out +3 -0
data/test/data/phyloxml/apaf.xml +666 -0
data/test/data/phyloxml/bcl_2.xml +2097 -0
data/test/data/phyloxml/made_up.xml +144 -0
data/test/data/phyloxml/ncbi_taxonomy_mollusca_short.xml +65 -0
data/test/data/phyloxml/phyloxml_examples.xml +415 -0
data/test/data/sanger_chromatogram/test_chromatogram_abif.ab1 +0 -0
data/test/data/sanger_chromatogram/test_chromatogram_scf_v2.scf +0 -0
data/test/data/sanger_chromatogram/test_chromatogram_scf_v3.scf +0 -0
data/test/functional/bio/appl/test_pts1.rb +7 -5
data/test/functional/bio/io/test_ensembl.rb +4 -3
data/test/functional/bio/io/test_pubmed.rb +9 -3
data/test/functional/bio/io/test_soapwsdl.rb +5 -4
data/test/functional/bio/io/test_togows.rb +5 -4
data/test/functional/bio/sequence/test_output_embl.rb +6 -4
data/test/functional/bio/test_command.rb +54 -5
data/test/runner.rb +5 -3
data/test/unit/bio/appl/bl2seq/test_report.rb +5 -4
data/test/unit/bio/appl/blast/test_ncbioptions.rb +4 -2
data/test/unit/bio/appl/blast/test_report.rb +5 -4
data/test/unit/bio/appl/blast/test_rpsblast.rb +5 -4
data/test/unit/bio/appl/gcg/test_msf.rb +5 -5
data/test/unit/bio/appl/genscan/test_report.rb +8 -9
data/test/unit/bio/appl/hmmer/test_report.rb +5 -4
data/test/unit/bio/appl/iprscan/test_report.rb +6 -5
data/test/unit/bio/appl/mafft/test_report.rb +6 -5
data/test/unit/bio/appl/meme/mast/test_report.rb +46 -0
data/test/unit/bio/appl/meme/test_mast.rb +103 -0
data/test/unit/bio/appl/meme/test_motif.rb +38 -0
data/test/unit/bio/appl/paml/codeml/test_rates.rb +5 -4
data/test/unit/bio/appl/paml/codeml/test_report.rb +5 -4
data/test/unit/bio/appl/paml/test_codeml.rb +5 -4
data/test/unit/bio/appl/sim4/test_report.rb +5 -4
data/test/unit/bio/appl/sosui/test_report.rb +6 -5
data/test/unit/bio/appl/targetp/test_report.rb +5 -3
data/test/unit/bio/appl/test_blast.rb +5 -4
data/test/unit/bio/appl/test_fasta.rb +4 -2
data/test/unit/bio/appl/test_pts1.rb +4 -2
data/test/unit/bio/appl/tmhmm/test_report.rb +6 -5
data/test/unit/bio/data/test_aa.rb +5 -3
data/test/unit/bio/data/test_codontable.rb +5 -4
data/test/unit/bio/data/test_na.rb +5 -3
data/test/unit/bio/db/biosql/tc_biosql.rb +5 -1
data/test/unit/bio/db/embl/test_common.rb +4 -2
data/test/unit/bio/db/embl/test_embl.rb +6 -6
data/test/unit/bio/db/embl/test_embl_rel89.rb +6 -6
data/test/unit/bio/db/embl/test_embl_to_bioseq.rb +7 -8
data/test/unit/bio/db/embl/test_sptr.rb +6 -8
data/test/unit/bio/db/embl/test_uniprot.rb +6 -5
data/test/unit/bio/db/fasta/test_format_qual.rb +346 -0
data/test/unit/bio/db/kegg/test_compound.rb +146 -0
data/test/unit/bio/db/kegg/test_drug.rb +194 -0
data/test/unit/bio/db/kegg/test_enzyme.rb +241 -0
data/test/unit/bio/db/kegg/test_genes.rb +32 -4
data/test/unit/bio/db/kegg/test_glycan.rb +260 -0
data/test/unit/bio/db/kegg/test_orthology.rb +50 -0
data/test/unit/bio/db/kegg/test_reaction.rb +96 -0
data/test/unit/bio/db/pdb/test_pdb.rb +4 -2
data/test/unit/bio/db/sanger_chromatogram/test_abif.rb +76 -0
data/test/unit/bio/db/sanger_chromatogram/test_scf.rb +98 -0
data/test/unit/bio/db/test_aaindex.rb +6 -6
data/test/unit/bio/db/test_fasta.rb +5 -46
data/test/unit/bio/db/test_fastq.rb +829 -0
data/test/unit/bio/db/test_gff.rb +4 -2
data/test/unit/bio/db/test_lasergene.rb +7 -5
data/test/unit/bio/db/test_medline.rb +4 -2
data/test/unit/bio/db/test_newick.rb +6 -6
data/test/unit/bio/db/test_nexus.rb +4 -2
data/test/unit/bio/db/test_phyloxml.rb +769 -0
data/test/unit/bio/db/test_phyloxml_writer.rb +328 -0
data/test/unit/bio/db/test_prosite.rb +6 -5
data/test/unit/bio/db/test_qual.rb +63 -0
data/test/unit/bio/db/test_rebase.rb +5 -3
data/test/unit/bio/db/test_soft.rb +7 -6
data/test/unit/bio/io/flatfile/test_autodetection.rb +6 -7
data/test/unit/bio/io/flatfile/test_buffer.rb +6 -5
data/test/unit/bio/io/flatfile/test_splitter.rb +4 -4
data/test/unit/bio/io/test_ddbjxml.rb +4 -3
data/test/unit/bio/io/test_ensembl.rb +5 -3
data/test/unit/bio/io/test_fastacmd.rb +4 -3
data/test/unit/bio/io/test_flatfile.rb +6 -5
data/test/unit/bio/io/test_soapwsdl.rb +4 -3
data/test/unit/bio/io/test_togows.rb +4 -2
data/test/unit/bio/sequence/test_aa.rb +5 -3
data/test/unit/bio/sequence/test_common.rb +4 -2
data/test/unit/bio/sequence/test_compat.rb +4 -2
data/test/unit/bio/sequence/test_dblink.rb +5 -3
data/test/unit/bio/sequence/test_na.rb +4 -2
data/test/unit/bio/sequence/test_quality_score.rb +330 -0
data/test/unit/bio/shell/plugin/test_seq.rb +5 -3
data/test/unit/bio/test_alignment.rb +5 -3
data/test/unit/bio/test_command.rb +4 -3
data/test/unit/bio/test_db.rb +5 -3
data/test/unit/bio/test_feature.rb +4 -2
data/test/unit/bio/test_location.rb +4 -2
data/test/unit/bio/test_map.rb +5 -3
data/test/unit/bio/test_pathway.rb +4 -2
data/test/unit/bio/test_reference.rb +4 -2
data/test/unit/bio/test_sequence.rb +5 -3
data/test/unit/bio/test_shell.rb +5 -3
data/test/unit/bio/test_tree.rb +6 -6
data/test/unit/bio/util/restriction_enzyme/analysis/test_calculated_cuts.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/analysis/test_cut_ranges.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/analysis/test_sequence_range.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/double_stranded/test_aligned_strands.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/double_stranded/test_cut_location_pair.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/double_stranded/test_cut_location_pair_in_enzyme_notation.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/double_stranded/test_cut_locations.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/double_stranded/test_cut_locations_in_enzyme_notation.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/single_strand/test_cut_locations_in_enzyme_notation.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/test_analysis.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/test_cut_symbol.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/test_double_stranded.rb +4 -2
data/test/unit/bio/util/restriction_enzyme/test_single_strand.rb +17 -13
data/test/unit/bio/util/restriction_enzyme/test_single_strand_complement.rb +17 -13
data/test/unit/bio/util/restriction_enzyme/test_string_formatting.rb +4 -2
data/test/unit/bio/util/test_color_scheme.rb +5 -3
data/test/unit/bio/util/test_contingency_table.rb +5 -3
data/test/unit/bio/util/test_restriction_enzyme.rb +4 -2
data/test/unit/bio/util/test_sirna.rb +6 -4
metadata +147 -2

data/lib/bio/db/phyloxml/phyloxml_writer.rb ADDED

@@ -0,0 +1,228 @@
+#
+# = bio/db/phyloxml_writer.rb - PhyloXML writer
+#
+# Copyright::   Copyright (C) 2009
+#               Diana Jaunzeikare <latvianlinuxgirl@gmail.com>
+# License::     The Ruby License
+#
+# $Id:$
+#
+# == Description
+#
+# This file containts writer for PhyloXML.
+#
+# == Requirements
+#
+# Libxml2 XML parser is required. Install libxml-ruby bindings from
+# http://libxml.rubyforge.org or
+#
+#   gem install -r libxml-ruby
+#
+# == References
+#
+# * http://www.phyloxml.org
+#
+# * https://www.nescent.org/wg_phyloinformatics/PhyloSoC:PhyloXML_support_in_BioRuby
+require 'libxml'
+require 'bio/db/phyloxml/phyloxml_elements'
+module Bio
+  module PhyloXML
+  # == Description
+  #
+  # Bio::PhyloXML::Writer is for writing phyloXML (version 1.10) format files.
+  #
+  # == Requirements
+  #
+  # Libxml2 XML parser is required. Install libxml-ruby bindings from
+  # http://libxml.rubyforge.org or
+  #
+  #   gem install -r libxml-ruby
+  #
+  # == Usage
+  #
+  #   require 'bio'
+  #
+  #  # Create new phyloxml parser
+  #  phyloxml = Bio::PhyloXML::Parser.open('example.xml')
+  #
+  #  # Read in some trees from file
+  #  tree1 = phyloxml.next_tree
+  #  tree2 = phyloxml.next_tree
+  #
+  #  # Create new phyloxml writer
+  #  writer = Bio::PhyloXML::Writer.new('tree.xml')
+  #
+  #  # Write tree to the file tree.xml
+  #  writer.write(tree1)
+  #
+  #  # Add another tree to the file
+  #  writer.write(tree2)
+  #
+  # == References
+  #
+  # http://www.phyloxml.org/documentation/version_100/phyloxml.xsd.html
+    class Writer
+      include LibXML
+      SCHEMA_LOCATION = 'http://www.phyloxml.org http://www.phyloxml.org/1.10/phyloxml.xsd'
+      attr_accessor :write_branch_length_as_subelement
+      #
+      # Create new Writer object. As parameters provide filename of xml file
+      # you wish to create. Optional parameter is whether to indent or no.
+      # Default is true. By default branch_length is written as subelement of
+      # clade element.
+      #
+      def initialize(filename, indent=true)
+      @write_branch_length_as_subelement = true #default value
+      @filename = filename
+      @indent = indent
+      @doc = XML::Document.new()
+      @doc.root = XML::Node.new('phyloxml')
+      @root = @doc.root
+      @root['xmlns:xsi'] = 'http://www.w3.org/2001/XMLSchema-instance'
+      @root['xsi:schemaLocation'] = SCHEMA_LOCATION
+      @root['xmlns'] = 'http://www.phyloxml.org'
+      #@todo save encoding to be UTF-8. (However it is the default one).
+      #it gives error NameError: uninitialized constant LibXML::XML::Encoding
+      #@doc.encoding = XML::Encoding::UTF_8
+      @doc.save(@filename, :indent => true)
+      end
+      #
+      # Write a tree to a file in phyloxml format.
+      #
+      #  require 'Bio'
+      #  writer = Bio::PhyloXML::Writer.new
+      #  writer.write(tree)
+      #
+      def write(tree)
+        @root << phylogeny = XML::Node.new('phylogeny')
+        PhyloXML::Writer.generate_xml(phylogeny, tree, [
+            [:attr, 'rooted'],
+            [:simple, 'name', tree.name],
+            [:complex, 'id', tree.phylogeny_id],
+            [:simple, 'description', tree.description],
+            [:simple, 'date', tree.date],
+            [:objarr, 'confidence', 'confidences']])
+        root_clade = tree.root.to_xml(nil, @write_branch_length_as_subelement)
+        phylogeny << root_clade
+        tree.children(tree.root).each do |node|
+          root_clade << node_to_xml(tree, node, tree.root)
+        end
+        Bio::PhyloXML::Writer::generate_xml(phylogeny, tree, [
+            [:objarr, 'clade_relation', 'clade_relations'],
+            [:objarr, 'sequence_relation', 'sequence_relations'],
+            [:objarr, 'property', 'properties']] )
+        @doc.save(@filename, :indent => @indent)
+      end #writer#write
+      #
+      # PhyloXML Schema allows to save data in different xml format after all
+      # phylogeny elements. This method is to write these additional data.
+      #
+      #  parser = PhyloXML::Parser.open('phyloxml_examples.xml')
+      #  writer = PhyloXML::Writer.new('new.xml')
+      #
+      #  parser.each do |tree|
+      #    writer.write(tree)
+      #  end
+      #
+      #  # When all the trees are read in by the parser, whats left is saved at
+      #  # PhyloXML::Parser#other
+      #  writer.write(parser.other)
+      #
+      def write_other(other_arr)
+        other_arr.each do |other_obj|
+          @root << other_obj.to_xml
+        end
+        @doc.save(@filename, :indent => @indent)
+      end
+      #class method
+      #
+      # Used by to_xml methods of PhyloXML element classes. Generally not to be
+      # invoked directly.
+      #
+      def self.generate_xml(root, elem, subelement_array)
+       #example usage: generate_xml(node, self, [[ :complex,'accession', ], [:simple, 'name',  @name], [:simple, 'location', @location]])
+      subelement_array.each do |subelem|
+        if subelem[0] == :simple
+          root << XML::Node.new(subelem[1], subelem[2].to_s) if subelem[2] != nil and not subelem[2].to_s.empty?
+        elsif subelem[0] == :complex
+          root << subelem[2].send("to_xml") if subelem[2] != nil
+        elsif subelem[0] == :pattern
+          #seq, self, [[:pattern, 'symbol', @symbol, "\S{1,10}"]
+          if subelem[2] != nil
+            if subelem[2] =~ subelem[3]
+              root << XML::Node.new(subelem[1], subelem[2])
+            else
+              raise "#{subelem[2]} is not a valid value of #{subelem[1]}. It should follow pattern #{subelem[3]}"
+            end
+          end
+        elsif subelem[0] == :objarr
+          #[:objarr, 'annotation', 'annotations']])
+          obj_arr = elem.send(subelem[2])
+          obj_arr.each do |arr_elem|
+            root << arr_elem.to_xml
+          end
+        elsif subelem[0] == :simplearr
+          #  [:simplearr, 'common_name', @common_names]
+          subelem[2].each do |elem_val|
+            root << XML::Node.new(subelem[1], elem_val)
+          end
+        elsif subelem[0] == :attr
+          #[:attr, 'rooted']
+          obj = elem.send(subelem[1])
+          if obj != nil
+            root[subelem[1]] = obj.to_s
+          end
+        else
+          raise "Not supported type of element by method generate_xml."
+        end
+      end
+      return root
+     end
+      private
+      def node_to_xml(tree, node, parent)
+        edge = tree.get_edge(parent, node)
+        branch_length = edge.distance
+        clade = node.to_xml(branch_length, @write_branch_length_as_subelement)
+        tree.children(node).each do |new_node|
+          clade << node_to_xml(tree, new_node, node)
+        end
+        return clade
+      end
+    end
+  end
+end

data/lib/bio/db/prosite.rb CHANGED

@@ -2,9 +2,9 @@
 # = bio/db/prosite.rb - PROSITE database class
 #
 # Copyright::  Copyright (C) 2001 Toshiaki Katayama <k@bioruby.org>
-# Licence::    Ruby's
+# License::    The Ruby License
 #
-# $Id: prosite.rb,v 0.16 2006/09/19 06:03:51 k Exp $
+# $Id:$
 #
 require 'bio/db'
@@ -502,96 +502,3 @@ end # PROSITE
 end # Bio
-if __FILE__ == $0
-  begin
-    require 'pp'
-    alias p pp
-  rescue LoadError
-  end
-  ps = Bio::PROSITE.new(ARGF.read)
-  list = %w(
-    name
-    division
-    ac
-    entry_id
-    dt
-    date
-    de
-    definition
-    pa
-    pattern
-    ma
-    profile
-    ru
-    rule
-    nr
-    statistics
-    release
-    swissprot_release_number
-    swissprot_release_sequences
-    total
-    total_hits
-    total_sequences
-    positive
-    positive_hits
-    positive_sequences
-    unknown
-    unknown_hits
-    unknown_sequences
-    false_pos
-    false_positive_hits
-    false_positive_sequences
-    false_neg
-    false_negative_hits
-    partial
-    cc
-    comment
-    max_repeat
-    site
-    skip_flag
-    dr
-    sp_xref
-    pdb_xref
-    pdoc_xref
-  )
-  list.each do |method|
-    puts ">>> #{method}"
-    p ps.send(method)
-  end
-  puts ">>> taxon_range"
-  p ps.taxon_range
-  puts ">>> taxon_range(expand)"
-  p ps.taxon_range(true)
-  puts ">>> list_truepositive"
-  p ps.list_truepositive
-  puts ">>> list_truepositive(by_name)"
-  p ps.list_truepositive(true)
-  puts ">>> list_falsenegative"
-  p ps.list_falsenegative
-  puts ">>> list_falsenegative(by_name)"
-  p ps.list_falsenegative(true)
-  puts ">>> list_falsepositive"
-  p ps.list_falsepositive
-  puts ">>> list_falsepositive(by_name)"
-  p ps.list_falsepositive(true)
-  puts ">>> list_potentialhit"
-  p ps.list_potentialhit
-  puts ">>> list_potentialhit(by_name)"
-  p ps.list_potentialhit(true)
-  puts ">>> list_unknown"
-  p ps.list_unknown
-  puts ">>> list_unknown(by_name)"
-  p ps.list_unknown(true)
-end

data/lib/bio/db/rebase.rb CHANGED

@@ -40,7 +40,7 @@ module Bio
 # To easily get started with the data you can simply type this command
 # at your shell prompt:
 #
-#   % wget ftp://ftp.neb.com/pub/rebase/emboss*
+#   % wget "ftp://ftp.neb.com/pub/rebase/emboss_*"
 #
 #
 # = Usage
@@ -195,7 +195,7 @@ class REBASE
   # * _none_
   # *Returns*:: +Array+ sorted enzyme names
   def enzymes
-    @data.keys.sort
+    @enzyme_names
   end
   # Check if supplied name is the name of an available enzyme
@@ -205,10 +205,7 @@ class REBASE
   # * +name+: Enzyme name
   # *Returns*:: +true/false+
   def enzyme_name?(name)
-    enzymes.each do |e|
-      return true if e.downcase == name.downcase
-    end
-    return false
+    @enzyme_names_downcased.include?(name.downcase)
   end
   # Save the current data
@@ -290,6 +287,8 @@ class REBASE
       d.references = []
     end
+    @enzyme_names = @data.keys.sort
+    @enzyme_names_downcased = @enzyme_names.map{|a| a.downcase}
     setup_enzyme_and_reference_association
   end

data/lib/bio/db/sanger_chromatogram/abif.rb ADDED

@@ -0,0 +1,120 @@
+#
+# = bio/db/sanger_chromatogram/abif.rb - Abif class
+#
+# Copyright::	Copyright (C) 2009 Anthony Underwood <anthony.underwood@hpa.org.uk>, <email2ants@gmail.com>
+# License::	The Ruby License
+#
+require 'bio/db/sanger_chromatogram/chromatogram'
+module Bio
+  # == Description
+  #
+  # This class inherits from the SangerChromatogram superclass. It captures the information contained
+  # within an ABIF format chromatogram file generated by DNA sequencing. See the SangerChromatogram class
+  # for usage.
+  class Abif < SangerChromatogram
+    DATA_TYPES = { 1 => 'byte', 2 => 'char', 3 => 'word', 4 => 'short', 5 => 'long',
+      7 => 'float', 8 => 'double', 10 => 'date', 11 => 'time', 18 => 'pString',
+      19 => 'cString', 12 => 'thumb', 13 => 'bool', 6 => 'rational', 9 => 'BCD',
+      14 => 'point', 15 => 'rect', 16 => 'vPoint', 17 => 'vRect', 20 => 'tag',
+      128 => 'deltaComp', 256 => 'LZWComp', 384 => 'deltaLZW', 1024 => 'user'} # User defined data types have tags numbers >= 1024
+    PACK_TYPES = { 'byte' => 'C', 'char' => 'c', 'word' => 'n', 'short' => 'n', 'long' => 'N',
+      'date' => 'nCC', 'time' => 'CCCC', 'pString' => 'CA*', 'cString' => 'Z*',
+      'float' => 'g', 'double' => 'G',
+      'bool' => 'C', 'thumb' => 'NNCC', 'rational' => 'NN', 'point' => 'nn',
+      'rect' => 'nnnn', 'vPoint' => 'NN', 'vRect' => 'NNNN', 'tag' => 'NN'} # Specifies how to pack each data type
+    #sequence attributes
+    # The sample title as entered when sequencing the sample (String)
+    attr_accessor :sample_title
+    # The chemistry used when sequencing e.g Dye terminators => 'term.' (String)
+    attr_accessor :chemistry
+    # see SangerChromatogram class for how to create an Abif object and its usage
+    def initialize(string)
+      header = string.slice(0,128)
+      # read in header info
+      @chromatogram_type, @version, @directory_tag_name, @directory_tag_number, @directory_element_type, @directory_element_size, @directory_number_of_elements, @directory_data_size, @directory_data_offset, @directory_data_handle= header.unpack("a4 n a4 N n n N N N N")
+      @version = @version/100.to_f
+      get_directory_entries(string)
+      # get sequence
+      @sequence = @directory_entries["PBAS"][1].data.map{|char| char.chr.downcase}.join("")
+      #get peak indices
+      @peak_indices = @directory_entries["PLOC"][1].data
+      #get qualities
+      @qualities = @directory_entries["PCON"][1].data
+      # get sample title
+      @sample_title = @directory_entries["SMPL"][1].data
+      @directory_entries["PDMF"].size > 2 ? @dye_mobility = @directory_entries["PDMF"][2].data : @dye_mobility = @directory_entries["PDMF"][1].data
+      #get trace data
+      @chemistry = @directory_entries["phCH"][1].data
+      base_order = @directory_entries["FWO_"][1].data.map{|char| char.chr.downcase}
+      (9..12).each do |data_index|
+        self.instance_variable_set("@#{base_order[data_index-9]}trace", @directory_entries["DATA"][data_index].data)
+      end
+    end
+    # Returns the data for the name.
+    # If not found, returns nil.
+    # ---
+    # *Arguments*:
+    # * (required) _name_: (String) name of the data
+    # * (required) <em>tag_number</em>: (Integer) tag number (default 1)
+    # *Returns*:: any data type or nil
+    def data(name, tag_number = 1)
+      d = @directory_entries[name]
+      d ? d[tag_number].data : nil
+    end
+    private
+    def get_directory_entries(string)
+      @directory_entries = Hash.new
+      offset = @directory_data_offset
+      @directory_number_of_elements.times do
+        entry = DirectoryEntry.new
+        entry_fields = string.slice(offset, @directory_element_size)
+        entry.name, entry.tag_number, entry.element_type, entry.element_size, entry.number_of_elements, entry.data_size, entry.data_offset = entry_fields.unpack("a4 N n n N N N")
+        # populate the entry with the data it refers to
+        if entry.data_size > 4
+          get_entry_data(entry, string)
+        else
+          get_entry_data(entry, entry_fields)
+        end
+        if @directory_entries.has_key?(entry.name)
+          @directory_entries[entry.name][entry.tag_number] = entry
+        else
+          @directory_entries[entry.name] = Array.new
+          @directory_entries[entry.name][entry.tag_number] = entry
+        end
+        offset += @directory_element_size
+      end
+    end
+    def get_entry_data(entry, string)
+      if entry.data_size > 4
+        raw_data = string.slice(entry.data_offset, entry.data_size)
+      else
+        raw_data = string.slice(20,4)
+      end
+      if entry.element_type > 1023
+        # user defined data: not processed as yet by this bioruby module
+        entry.data = raw_data
+      else
+        pack_type = PACK_TYPES[DATA_TYPES[entry.element_type]]
+        pack_type.match(/\*/) ? unpack_string = pack_type : unpack_string = "#{pack_type}#{entry.number_of_elements}"
+        entry.data = raw_data.unpack(unpack_string)
+        if pack_type == "CA*" # pascal string where the first byte is a charcter count and should therefore be removed
+          entry.data.shift
+        end
+      end
+    end
+    class DirectoryEntry
+      attr_accessor :name, :tag_number, :element_type, :element_size, :number_of_elements, :data_size, :data_offset
+      attr_accessor :data
+    end
+  end
+end