RubyGems - bio-ucsc-api - Versions diffs - 0.0.1 → 0.0.3 - Mend

bio-ucsc-api 0.0.1 → 0.0.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (25) hide show

data/README.rdoc +9 -2
data/Rakefile +1 -1
data/VERSION +1 -1
data/bio-ucsc-api.gemspec +29 -7
data/lib/bio-ucsc.rb +2 -2
data/lib/bio-ucsc/hg18.rb +3 -0
data/lib/bio-ucsc/hg18/reference.rb +171 -0
data/lib/bio-ucsc/hg19.rb +46 -9
data/lib/bio-ucsc/hg19/description.rb +23 -0
data/lib/bio-ucsc/hg19/gbcdnainfo.rb +24 -0
data/lib/bio-ucsc/hg19/kgxref.rb +19 -0
data/lib/bio-ucsc/hg19/reference.rb +171 -0
data/lib/bio-ucsc/hg19/refseqsummary.rb +23 -0
data/lib/bio-ucsc/hg19/trnas.rb +20 -0
data/samples/hg19-2bit-retrieve.rb +39 -0
data/samples/hg19-sample.rb +22 -1
data/samples/symbol2summary.rb +47 -0
data/spec/hg18/reference_spec.rb +144 -0
data/spec/hg19/description_spec.rb +25 -0
data/spec/hg19/gbcdnainfo_spec.rb +25 -0
data/spec/hg19/kgxref_spec.rb +14 -0
data/spec/hg19/reference_spec.rb +137 -0
data/spec/hg19/refseqsummary_spec.rb +15 -0
data/spec/hg19/trnas_spec.rb +23 -0
metadata +29 -56

data/lib/bio-ucsc/hg19/description.rb ADDED

@@ -0,0 +1,23 @@
+#
+# = hg19/descriptioin.rb
+# Copyright::
+#  Copyright (C) 2011 MISHIMA, Hiroyuki <missy at be.to / hmishima at nagasaki-u.ac.jp>
+# License::     The Ruby licence (Ryby's / GPLv2 dual)
+#
+# = Table description in UCSC Table Browser This track shows multiple
+# Description of a genbank sequence
+module Bio
+  module Ucsc
+    module Hg19
+      class Description < DBConnection
+        set_table_name 'description'
+        set_primary_key :id
+        Bio::Ucsc::Hg19::GbCdnaInfo
+        belongs_to(:gbCdnaInfo,
+                   :class_name => "Bio::Ucsc::Hg19::GbCdnaInfo",
+                   :foreign_key => :id)
+       end
+    end
+  end
+end

data/lib/bio-ucsc/hg19/gbcdnainfo.rb ADDED

@@ -0,0 +1,24 @@
+#
+# = hg19/gbcdnainfo.rb
+# Copyright::
+#  Copyright (C) 2011 MISHIMA, Hiroyuki <missy at be.to / hmishima at nagasaki-u.ac.jp>
+# License::     The Ruby licence (Ryby's / GPLv2 dual)
+#
+# = Table description in UCSC Table Browser This track shows multiple
+# Links together various info associated with a GenBank mRNA or EST
+module Bio
+  module Ucsc
+    module Hg19
+      class GbCdnaInfo < DBConnection
+        set_table_name 'gbCdnaInfo'
+        set_primary_key :id
+        Bio::Ucsc::Hg19::Description
+        has_one(:description,
+                :class_name => "Bio::Ucsc::Hg19::Description",
+                :foreign_key => :id)
+        columns_hash.delete("type")
+       end
+    end
+  end
+end

data/lib/bio-ucsc/hg19/kgxref.rb ADDED

@@ -0,0 +1,19 @@
+#
+# = hg19/kgxref.rb
+# Copyright::
+#  Copyright (C) 2011 MISHIMA, Hiroyuki <missy at be.to / hmishima at nagasaki-u.ac.jp>
+# License::     The Ruby licence (Ryby's / GPLv2 dual)
+#
+# = Table description in UCSC Table Browser This track shows multiple
+# Link together a Known Gene ID and a gene alias
+module Bio
+  module Ucsc
+    module Hg19
+      class KgXref < DBConnection
+        set_table_name 'kgXref'
+        set_primary_key nil
+      end
+    end
+  end
+end

data/lib/bio-ucsc/hg19/reference.rb ADDED

@@ -0,0 +1,171 @@
+#
+# = reference.rb
+# handle UCSC's 2bit file (locally stored) to retrieve the reference sequence
+#
+# Copyright::   Cioyrught (C) 2011
+#               MISHIMA, Hiroyuki <missy at be.to / hmishima at nagasaki-u.ac.jp>
+# License::     Ruby license (Ryby's / GPLv2 dual)
+# require 'bio'
+module Bio
+  module Ucsc
+    module Hg19
+      TwoBitHeader =
+        Struct.new(:signature, :version, :sequence_count, :reserved)
+      TwoBitRecord =
+        Struct.new(:dna_size,
+                   :n_block_intervals, :mask_block_intervals,
+                   :reserved, :packed_dna_offset)
+      class ByteQueue
+        def initialize(str)
+          @str = str
+          @index = 0
+        end
+        attr_accessor :index
+        def next(n)
+          result = @str[@index, n]
+          @index += n
+          result
+        end
+      end # class ByteQueue
+      class Reference
+        BINCODE = {0b00 => "T", 0b01 => "C", 0b10 => "A", 0b11 => "G"}
+        cattr_reader :filename, :header, :offsets
+        def self.load(filename)
+          two_bit = nil
+          open(filename, 'rb') {|f| two_bit = f.read}
+          @@tbq = ByteQueue.new(two_bit)
+          @@filename = filename
+          twobit_header = TwoBitHeader.new
+          twobit_header.signature      = @@tbq.next(4).unpack('L').first
+          twobit_header.version        = @@tbq.next(4).unpack('L').first
+          twobit_header.sequence_count = @@tbq.next(4).unpack('L').first
+          twobit_header.reserved       = @@tbq.next(4).unpack('L').first
+          @@header = twobit_header
+          @@offsets = Hash.new
+          @@header.sequence_count.times do
+            name_length = @@tbq.next(1).unpack('C').first
+            @@offsets[@@tbq.next(name_length).unpack('a*').first] =
+              @@tbq.next(4).unpack('L').first
+          end
+          @@records = Hash.new
+        end
+        def self.records(chrom)
+          return @@records[chrom] if @@records[chrom]
+          @@tbq.index = @@offsets[chrom]
+          @@records[chrom] = TwoBitRecord.new
+          @@records[chrom].dna_size = @@tbq.next(4).unpack('L').first
+          n_block_count = @@tbq.next(4).unpack('L').first
+          n_block_starts = Array.new
+          n_block_count.times do
+            n_block_starts << @@tbq.next(4).unpack('L').first
+          end
+          n_block_sizes = Array.new
+          n_block_count.times do
+            n_block_sizes << @@tbq.next(4).unpack('L').first
+          end
+          @@records[chrom].n_block_intervals = Array.new
+          n_block_count.times do |idx|
+            @@records[chrom].n_block_intervals <<
+              Bio::GenomicInterval.zero_based(chrom,
+                                             n_block_starts[idx],
+                                             n_block_starts[idx]+n_block_sizes[idx])
+          end
+          mask_block_count = @@tbq.next(4).unpack('L').first
+          mask_block_starts = Array.new
+          mask_block_count.times do
+            mask_block_starts << @@tbq.next(4).unpack('L').first
+          end
+          mask_block_sizes = Array.new
+          mask_block_count.times do
+            mask_block_sizes << @@tbq.next(4).unpack('L').first
+          end
+          @@records[chrom].mask_block_intervals = Array.new
+          mask_block_count.times do |idx|
+            @@records[chrom].mask_block_intervals <<
+              Bio::GenomicInterval.zero_based(chrom,
+                                             mask_block_starts[idx],
+                                             mask_block_starts[idx]+mask_block_sizes[idx])
+          end
+          @@records[chrom].reserved = @@tbq.next(4).unpack('L').first
+          @@records[chrom].packed_dna_offset = @@tbq.index
+          @@records[chrom]
+        end
+        def self.find_by_interval(interval)
+          seq = self.find_by_interval_raw(interval)
+          @@records[interval.chrom].n_block_intervals.map do |nb|
+            if interval.overlapped?(nb)
+              case interval.compare(nb)
+              when :equal,:contained_by
+                seq = 'N' * interval.overlap(nb)
+              when :contains
+                left_len  = nb.chr_start - interval.chr_start + 1
+                right_len = interval.chr_end - nb.chr_end + 1
+                seq[0, left_len] = 'N' * left_len
+                seq[-right_len, right_len] = 'N' * right_len
+              when :left_overlapped
+                left_len = nb.chr_end - interval.chr_start + 1
+                seq[0, left_len] = 'N' * left_len
+              when :right_overlapped
+                right_len = interval.chr_end - nb.chr_start + 1
+                seq[-right_len, right_len] = 'N' * right_len
+              when :right_adjacent, :right_off
+                # expecting that N-blocks are sorted
+                # return Bio::Sequence::NA.new(seq)
+                seq
+              end
+            end
+          end
+          #Bio::Sequence::NA.new(seq)
+          seq
+        end
+        def self.find_by_interval_raw(interval)
+          byte_count, byte_mod = interval.zero_start.divmod 4
+          chrom_top = self.records(interval.chrom).packed_dna_offset
+          div_start, mod_start = interval.zero_start.divmod 4
+          div_end, mod_end     = interval.zero_end.divmod 4
+          div_len, mod_len     = interval.length.divmod 4
+          byte_length = div_end - div_start + 1
+          @@tbq.index = chrom_top + div_start
+          bytes = @@tbq.next(byte_length).unpack('C*')
+          seq = Bio::Ucsc::Hg19::Reference.bytes_to_nucleotides(bytes)
+          seq[mod_start..(-1-(4-mod_end))]
+        end
+        def self.bytes_to_nucleotides(bytes)
+          results = ""
+          bytes.each do |byte|
+            results << Bio::Ucsc::Hg19::Reference.byte_to_nucleotides(byte)
+          end
+          results
+        end
+        def self.byte_to_nucleotides(byte)
+          BINCODE[byte >> 6] +
+            BINCODE[(byte >> 4) & 0b11] +
+            BINCODE[(byte >> 2) & 0b11] +
+            BINCODE[byte & 0b11]
+        end
+      end # class Reference
+    end # module Hg19
+  end # module Ucsc
+end # module Bio

data/lib/bio-ucsc/hg19/refseqsummary.rb ADDED

@@ -0,0 +1,23 @@
+#
+# = hg19/refseqsummary.rb
+# Copyright::
+#  Copyright (C) 2011 MISHIMA, Hiroyuki <missy at be.to / hmishima at nagasaki-u.ac.jp>
+# License::     The Ruby licence (Ryby's / GPLv2 dual)
+#
+# = Table description in UCSC Table Browser This track shows multiple
+# Summary or completeness info for RefSeqs (when given in comments)
+#
+# mrnaAcc column: see http://www.ncbi.nlm.nih.gov/RefSeq/key.html#accessions
+# exsamples - NM_000546 (mRNA), NR_029476 (small RNA, unaligned)
+#
+module Bio
+  module Ucsc
+    module Hg19
+      class RefSeqSummary < DBConnection
+        set_table_name 'refSeqSummary'
+        set_primary_key nil
+      end
+    end
+  end
+end

data/lib/bio-ucsc/hg19/trnas.rb ADDED

@@ -0,0 +1,20 @@
+#
+# = hg19/trnas.rb
+# Copyright::
+#  Copyright (C) 2011 MISHIMA, Hiroyuki <missy at be.to / hmishima at nagasaki-u.ac.jp>
+# License::     The Ruby licence (Ryby's / GPLv2 dual)
+#
+# = Table description in UCSC Table Browser
+# This track displays tRNA genes predicted by using tRNAscan-SE v.1.23.
+module Bio
+  module Ucsc
+    module Hg19
+      class TRNAs < DBConnection
+        extend Bio::Ucsc::Hg19::QueryUsingChromBin
+        set_table_name 'tRNAs'
+        set_primary_key nil
+      end
+    end
+  end
+end

data/samples/hg19-2bit-retrieve.rb ADDED

@@ -0,0 +1,39 @@
+#!/usr/local/bin/ruby-1.9
+#
+# Usage:: hg19-2bit-retrieve.rb <genomic interval>
+#         (default is "chr1:9,500-10,499")
+#
+# Copyright::
+#   Copyright (C) 2011 MISHIMA, Hiroyuki
+#                      <missy at be.to / hmishima at ngit agasaki-u.ac.jp>
+# License::     The Ruby licence (Ryby's / GPLv2 dual)
+#
+require 'nkf'
+HG19_2BIT_FILE = "hg19.2bit"
+require File.dirname(__FILE__) + '/../lib/bio-ucsc'
+class Hg19Ref
+  include Bio::Ucsc::Hg19
+  def run(interval)
+    DBConnection.connect
+    Reference.load(HG19_2BIT_FILE)
+    itv = Bio::GenomicInterval.parse(interval)
+    puts itv.to_s
+    puts NKF.nkf("-wf50-0", Reference.find_by_interval(itv))
+  end
+end
+if $0 == __FILE__
+  interval = ARGV[0]
+  interval ||= "chr1:9,500-10,999"
+  Hg19Ref.new.run(interval)
+end

data/samples/hg19-sample.rb CHANGED

@@ -1,5 +1,7 @@
 #!/usr/local/bin/ruby-1.9
 #
+# hg19-sample.rb: chunks of codes handling hg19 tables
+#
 # Copyright::
 #   Copyright (C) 2011 MISHIMA, Hiroyuki
 #                      <missy at be.to / hmishima at nagasaki-u.ac.jp>
@@ -7,10 +9,10 @@
 #
 require File.dirname(__FILE__) + '/../lib/bio-ucsc'
+require 'nkf'
 include Bio::Ucsc
-Hg19::DBConnection.default
 Hg19::DBConnection.connect
 itvs_a =
@@ -64,3 +66,22 @@ names.each do |n|
   i = Bio::GenomicInterval.zero_based(r.chrom, r.chromStart, r.chromEnd)
   puts "Query: #{n}\t#{i.chrom}\t#{i.chr_start}\t#{i.chr_end}\t#{r[:class]}"
 end
+#
+#
+results = GbCdnaInfo.find([1,2,3,4,5], :include => :description)
+results.each{|e| puts "#{e.acc}\t#{e.description.name}"}
+p GbCdnaInfo.find_by_acc("AA411542",  :include => :description)
+results = KgXref.find_all_by_geneSymbol("TP53")
+results.each{|e| puts "#{e.mRNA}\t#{e.description}"}
+#
+#
+puts
+puts NKF.nkf("-wF72", RefSeqSummary.find_by_mrnaAcc("NM_000546").summary)
+puts
+puts NKF.nkf("-wF72", RefSeqSummary.find_by_mrnaAcc("NR_029476").summary)

data/samples/symbol2summary.rb ADDED

@@ -0,0 +1,47 @@
+#!/usr/local/bin/ruby-1.9
+#
+# Usage:: symbol2summary.rb <Gene_Symbol> (default is "TP53")
+#
+# Copyright::
+#   Copyright (C) 2011 MISHIMA, Hiroyuki
+#                      <missy at be.to / hmishima at ngit agasaki-u.ac.jp>
+# License::     The Ruby licence (Ryby's / GPLv2 dual)
+#
+require File.dirname(__FILE__) + '/../lib/bio-ucsc'
+require 'nkf'
+class Sym2Sum
+  include Bio::Ucsc::Hg19
+  def run(genesym)
+    DBConnection.connect
+    known_gene = KgXref.find_by_geneSymbol(genesym)
+    ref_gene = RefGene.find_by_name2(genesym)
+    summary  = RefSeqSummary.find_by_mrnaAcc(ref_gene.name).summary
+    puts "---"
+    puts "Gene symbol: #{genesym}" if known_gene
+    puts "Description: #{known_gene.description}" if known_gene
+    if summary
+      puts "Summary:"
+      puts NKF.nkf("-wF72", summary)
+    end
+  end
+end
+if $0 == __FILE__
+  genesym = ARGV[0]
+  genesym ||= "TP53"
+  Sym2Sum.new.run(genesym)
+end

data/spec/hg18/reference_spec.rb ADDED

@@ -0,0 +1,144 @@
+require 'bio-ucsc'
+describe "Bio::Ucsc::Hg18::Reference" do
+  describe ".load" do
+    context 'given "../samples/hg18.2bit"' do
+      it "returns true" do
+        Bio::Ucsc::Hg18::Reference.load("samples/hg18.2bit")
+      end
+    end
+  end
+  describe ".header.signarue" do
+    context 'given "../samples/hg18.2bit"' do
+      it "returns 0x1A412743" do
+        Bio::Ucsc::Hg18::Reference.load("samples/hg18.2bit")
+        Bio::Ucsc::Hg18::Reference.header.signature.should == 0x1A412743
+      end
+    end
+  end
+  describe ".header.version" do
+    context 'given "../samples/hg18.2bit"' do
+      it "returns 0" do
+        Bio::Ucsc::Hg18::Reference.load("samples/hg18.2bit")
+        Bio::Ucsc::Hg18::Reference.header.version.should == 0
+      end
+    end
+  end
+  describe ".header.sequence_count" do
+    context 'given "../samples/hg18.2bit"' do
+      it "returns 0x5d" do
+        Bio::Ucsc::Hg18::Reference.load("samples/hg18.2bit")
+        Bio::Ucsc::Hg18::Reference.header.sequence_count.should == 49
+      end
+    end
+  end
+  describe '.offsets["chr1"]' do
+    context 'given "../samples/hg18.2bit"' do
+      it "returns 0x100bbd2b" do
+        Bio::Ucsc::Hg18::Reference.load("samples/hg18.2bit")
+        Bio::Ucsc::Hg18::Reference.offsets["chr1"].should == 0x100bbd2b
+      end
+    end
+  end
+  describe ".records" do
+    context 'given "chr1"' do
+      it 'returns (TwoBitRecord.reserved == 0)' do
+        Bio::Ucsc::Hg18::Reference.load("samples/hg18.2bit")
+        Bio::Ucsc::Hg18::Reference.records("chr1").reserved == 0
+      end
+    end
+  end
+  describe ".records" do
+    context 'given "chr1"' do
+      it 'returns (TwoBitRecord.dna_size == 249_250_621)' do
+        Bio::Ucsc::Hg18::Reference.load("samples/hg18.2bit")
+        Bio::Ucsc::Hg18::Reference.records("chr1").dna_size.should == 247249719
+      end
+    end
+  end
+  describe ".byte_to_nucleotides" do
+    context 'given 0b00011011' do
+      it 'returns "TCAG"' do
+        r = Bio::Ucsc::Hg18::Reference.byte_to_nucleotides(0b00011011)
+        r.should == "TCAG"
+      end
+    end
+  end
+  describe ".bytes_to_nucleotides" do
+    context 'given [0b00011011, 0b11100100]' do
+      it 'returns "TCAGGACT"' do
+        ary = [0b00011011, 0b11100100]
+        r = Bio::Ucsc::Hg18::Reference.bytes_to_nucleotides(ary)
+        r.should == "TCAGGACT"
+      end
+    end
+  end
+  describe ".find_by_interval_raw" do
+    context "given range chr1:1,000,000-1,000,030" do
+      it 'returens "TACGTGGCTGCTCTCACACATGGGCCATGTG"' do
+        Bio::Ucsc::Hg18::Reference.load("samples/hg18.2bit")
+        itv = Bio::GenomicInterval.parse("chr1:1,000,000-1,000,030")
+        r = Bio::Ucsc::Hg18::Reference.find_by_interval_raw(itv)
+        r.should == "TACGTGGCTGCTCTCACACATGGGCCATGTG"
+      end
+    end
+    context "given range chr2:1,123,456-1,123,499" do
+      it 'returens "TAATGGCATACATGTAGAAAATGCAACTCATGAAGAAGTGGTAA"' do
+        Bio::Ucsc::Hg18::Reference.load("samples/hg18.2bit")
+        itv = Bio::GenomicInterval.parse("chr2:1,123,456-1,123,499")
+        r = Bio::Ucsc::Hg18::Reference.find_by_interval_raw(itv)
+        r.should == "TAATGGCATACATGTAGAAAATGCAACTCATGAAGAAGTGGTAA"
+      end
+    end
+    context "given range chr2:1,123,456-1,123,456" do
+      it 'returens "T"' do
+        Bio::Ucsc::Hg18::Reference.load("samples/hg18.2bit")
+        itv = Bio::GenomicInterval.parse("chr2:1,123,456-1,123,456")
+        r = Bio::Ucsc::Hg18::Reference.find_by_interval_raw(itv)
+        r.should == "T"
+      end
+    end
+  end
+ describe ".find_by_interval" do
+    context "given range chr1:217,260-217,299" do
+      it 'returns "NNNNNNNNNNNNNNNNNNNNNGATTCATGGCTGAAATCGT"' do
+        Bio::Ucsc::Hg18::Reference.load("samples/hg18.2bit")
+        itv = Bio::GenomicInterval.parse("chr1:217,260-217,299")
+        r = Bio::Ucsc::Hg18::Reference.find_by_interval(itv)
+        r.should == "NNNNNNNNNNNNNNNNNNNNNGATTCATGGCTGAAATCGT"
+      end
+    end
+    # N-block => chr1:267,720-317,719
+    context "given range chr1:257,560-257,600" do
+      it 'returns "CAGGCGCCCGCATCCAGCTGGATNNNNNNNNNNNNNNNNNN"' do
+        Bio::Ucsc::Hg18::Reference.load("samples/hg18.2bit")
+        itv = Bio::GenomicInterval.parse("chr1:257,560-257,600")
+        r = Bio::Ucsc::Hg18::Reference.find_by_interval(itv)
+        r.should == "CAGGCGCCCGCATCCAGCTGGATNNNNNNNNNNNNNNNNNN"
+      end
+    end
+  end
+end
+# N-Blocks
+#  chr1:167281-217280,
+#  chr1:257583-307582,
+#  chr1:461232-511231,
+#  chr1:2624081-2674080,