RubyGems - exodb - Versions diffs - 0.1.2 → 0.1.3 - Mend

exodb 0.1.2 → 0.1.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (24) hide show

checksums.yaml +4 -4
data/lib/exodb.rb +23 -0
data/lib/exodb/addon/string.rb +139 -0
data/lib/exodb/constant.rb +64 -0
data/lib/exodb/datamodel.rb +4 -1
data/lib/exodb/datamodel/genelocfield.rb +177 -0
data/lib/exodb/datamodel/generef.rb +193 -0
data/lib/exodb/datamodel/isoform.rb +237 -0
data/lib/exodb/datamodel/reference.rb +23 -327
data/lib/exodb/datamodel/region.rb +7 -5
data/lib/exodb/datamodel/source.rb +1 -10
data/lib/exodb/datamodel/variant.rb +14 -81
data/lib/exodb/datamodel/varlocfield.rb +106 -0
data/lib/exodb/datamodel/xrefsfield.rb +4 -0
data/lib/exodb/extra.rb +17 -0
data/lib/exodb/extra/upload.rb +43 -0
data/lib/exodb/{utils → extra}/upload_generef.rb +35 -21
data/lib/exodb/rositza/load.rb +56 -42
data/lib/exodb/utils.rb +1 -2
data/lib/exodb/utils/ensemblrest.rb +31 -3
data/lib/exodb/utils/miriamrest.rb +23 -0
data/lib/exodb/version.rb +1 -1
metadata +10 -3
data/lib/exodb/datamodel/locationfield.rb +0 -116

data/lib/exodb/datamodel/generef.rb ADDED

@@ -0,0 +1,193 @@
+#
+# Exodb
+# Copyright (C) 2014
+#
+# author: Natapol Pornputtapong <natapol.por@gmail.com>
+#
+# Documentation: Natapol Pornputtapong (RDoc'd and embellished by William Webber)
+#
+# raise "Please, use ruby 1.9.0 or later." if RUBY_VERSION < "1.9.0"
+module Exodb
+	class Chrref < Reference
+		include Exodb::GeneLocationField
+		index({oid: 1}, background: true)
+	end
+	class Generef < Reference
+		include Exodb::GeneLocationField
+		@@expanding = 500
+		field :psuedo,				type: Boolean
+		index({sequence: 'text'}, background: true)
+		index({oid: 1, psudo: 1, chrrefseq: 1, assembly: 1}, background: true)
+		has_many :genes
+		embeds_many :isoforms
+		embeds_many :occurrents
+		validates_format_of :chrrefseq, with: /\A(urn:miriam:refseq)/
+		#oid = "chrrefseq:start..stop"
+		def self.expanding
+			return @@expanding
+		end
+		# Download gene symbol from HGNC service
+		#
+		def dl_symbol!
+			baseuri = "http://rest.genenames.org/search"
+			query = ""
+			if self.get_xref('urn:miriam:refseq')
+				query = "#{baseuri}/refseq_accession/#{self.chrrefseq.id.split('.')[0]}"
+			elsif self.get_xref('urn:miriam:ncbigene')
+				query = ""
+			end
+			if !query.empty?
+				response = JSON.parse(open(query, 'Accept' => 'application/json').read)['response']
+				if !response['docs'].empty?
+					response['docs'].each do |e|
+						self.add_to_set(:xrefs, "urn:miriam:hgnc:#{e["hgnc_id"]}")
+						self.add_to_set(:xrefs, "urn:miriam:hgnc.symbol:#{e["symbol"]}")
+					end
+					self.save!
+				end
+			end
+		end
+		# Download incident data from TCGA
+		#
+		def dl_occurrent!
+			if self.get_xref('urn:miriam:hgnc.symbol')
+				cancerstudies = []
+				open("http://www.cbioportal.org/public-portal/webservice.do?cmd=getCancerStudies") {|f|
+					f.each_line {|line| cancerstudies.push(line.chomp.split("\t")[0])}
+				}
+				occurrents = {}
+				totalcase = {}
+				cancerstudies.each do |study|
+					totalcase[study] = 0 if !totalcase.has_key?(study)
+					open("http://www.cbioportal.org/public-portal/webservice.do?cmd=getCaseLists&cancer_study_id=#{study}") do |f|
+						f.each_line do |line|
+							totalcase[study] += line.chomp.split(/\t/)[4].split(' ').length if line =~ /\tSequenced Tumors\t/
+						end
+					end
+					occurrents[study] = {} if !occurrents.has_key?(study)
+					open("http://www.cbioportal.org/public-portal/webservice.do?cmd=getMutationData&genetic_profile_id=#{study}_mutations&gene_list=#{self.get_xref('urn:miriam:hgnc.symbol').id}") do |f|
+						f.each_line do |line|
+							dat = line.chomp.split(/\t/)
+							if dat[5] == 'Missense_Mutation'
+								occurrents[study][dat[7].split(/(\d+)/)[1]] = [] if !occurrents[study].has_key?(dat[7].split(/(\d+)/)[1])
+								occurrents[study][dat[7].split(/(\d+)/)[1]].push(dat[2])
+							end
+						end
+					end
+				end
+				self.occurrents.clear if self.occurrents
+				occurrents.each_pair do |cancertype, v|
+					v.each_pair do |position, occur|
+						self.occurrents << Occurrent.new({cancertype: cancertype, position: position, occur: occur.uniq.sort, casenumber: totalcase[cancertype]})
+					end
+				end
+				self.save!
+			end
+		end
+		# return longest splice of this gene
+		def longest_splice()
+			length = 0
+			longest = nil
+			self.isoforms.each do |e|
+				if e.prot_len > length
+					length = e.prot_len
+					longest = e
+				end
+			end
+			return longest
+		end
+		alias_method :longest_isoform, :longest_splice
+		# Check that this gene has any splice variant
+		#
+		# @return [Boolean] true if has any splices
+		def has_splices?
+			return self.isoforms.exists?
+		end
+		alias_method :has_isoforms?, :has_splices?
+		# Check if Generef has sequence
+		#
+		# @return [Boolean] Return true if there is a sequence
+		def has_sequence?()
+			return self[:sequence] ? true : false
+		end
+		# Check if Generef can translate
+		#
+		# @return [Boolean] Return true if this can be translate
+		def can_translated?()
+			return self.has_sequence? && self.has_splices? && self.longest_splice != nil ? true : false
+		end
+		# Get gene symbol
+		#
+		# @return [String] Return gene symbol or any id from xrefs or 'nosymbol'
+		def symbol
+			if self.get_xref('urn:miriam:hgnc.symbol')
+				return self.get_xref('urn:miriam:hgnc.symbol').id
+			elsif self.xrefs && !self.xrefs.empty?
+				return self.xrefs.sort[0].id
+			else
+				return 'nosymbol'
+			end
+		end
+	end
+end

data/lib/exodb/datamodel/isoform.rb ADDED

@@ -0,0 +1,237 @@
+#
+# Exodb
+# Copyright (C) 2014
+#
+# author: Natapol Pornputtapong <natapol.por@gmail.com>
+#
+# Documentation: Natapol Pornputtapong (RDoc'd and embellished by William Webber)
+#
+# raise "Please, use ruby 1.9.0 or later." if RUBY_VERSION < "1.9.0"
+module Exodb
+	class Isoform
+		include Mongoid::Document
+		include Exodb::XrefsField
+		field :exon,				type: Array # array of [start, stop]
+		field :cds,					type: Array # array of [start, stop]
+		embedded_in :generef
+		# generate genbank style location string
+		#
+		# @param [Symbol] field to generate [:exon, :cds]
+		# @param [Symbol] type to generate [:rel, :abs, :trela]
+		#
+		# @return [String] a location string
+		def genbank_loc(field, type)
+			reducer = case type.to_sym
+			when :rel
+				self.generef[:start] - 1
+			when :trela
+				self.generef[:seqstart] - 1
+			else
+				0
+			end
+			loc = []
+			self[field.to_sym].each do |pos|
+				loc.push("#{pos[0] - reducer}..#{pos[1] - reducer}")
+			end
+			return self.generef.strand == '+' ? "join(#{loc.join(',')})" : "complement(join(#{loc.join(',')}))"
+		end
+		protected :genbank_loc
+		# Get exon location
+		#
+		# @return [Bio::Locations] of exon
+		def exon_location
+			return Bio::Locations.new(genbank_loc(:exon, :abs))
+		end
+		# Get exon location
+		#
+		# @return [Bio::Locations] of exon
+		def cds_location
+			return Bio::Locations.new(genbank_loc(:cds, :abs))
+		end
+		# Get spliced RNA sequence
+		#
+		# @return [Bio::Sequence] an RNA sequence
+		def mrna_seq
+			return self.return self.generef.whole_seq.splice(genbank_loc(:exon, :trela)).rna
+		end
+		# Get spliced coding region sequence
+		#
+		# @param [Integer] end position to get sequence
+		#
+		# @return [Bio::Sequence] an coding region sequence
+		def cds_seq
+			return self.generef.whole_seq.splice(genbank_loc(:cds, :trela))
+		end
+		# Get spliced protein sequence
+		#
+		# @return [Bio::Sequence] an protein sequence
+		def prot_seq
+			return self.cds_seq().translate
+		end
+		# get length of spliced RNA
+		#
+		# @return [Integer] length of spliced RNA
+		def mrna_len
+			return self.exon_location.length
+		end
+		# get length of protein product
+		#
+		# @return [Integer] length of protein product
+		def prot_len
+			return self.cds_location.length
+		end
+		# Get the codon sequence at the giving position base on position of amino acid
+		#
+		# @param [Integer] codon position
+		# @return [Bio::Sequence] the codon at given position
+		def codon_at(codon_pos)
+			return self.cds_seq.subseq(((codon_pos - 1) * 3) + 1 , ((codon_pos - 1) * 3) + 3)
+		end
+		# convert genomic position to cds position
+		#
+		# @param [Integer] genomic position
+		# @return [Integer] Return all information of cds at given position
+		def genomic2cds_pos(pos)
+			cds_location.relative(pos)
+		end
+		# convert genomic position to cds position
+		#
+		# @param [Integer] genomic position
+		# @return [Array] Return [codon and position in codon]
+		def genomic2prot_pos(pos)
+			cds_location.relative(pos, :aa)
+		end
+		# get splice related position 1-3 base into exon and 3-8 base into intron
+		#
+		# @return [Array] Return position of splice related site in array of [start, stop]
+		# SPL-D		splice_donor_variant		SO:0001575
+		# SPL-A		splice_acceptor_variant		SO:0001574
+		# SPL-R		splice_region_variant		SO:0001630
+		def splice_rel_location
+			if @splice_location == nil
+				results = {}
+				right = nil
+				self[:exon].each do |exon|
+					if !right.blank?
+						if self.generef.strand == '+'
+							results[right + 1] = 'SPL-D'
+							results[right + 2] = 'SPL-D'
+							results[exon[0] - 1] = 'SPL-A'
+							results[exon[0] - 2] = 'SPL-A'
+						else
+							results[right + 1] = 'SPL-A'
+							results[right + 2] = 'SPL-A'
+							results[exon[0] - 1] = 'SPL-D'
+							results[exon[0] - 2] = 'SPL-D'
+						end
+						Range.new(right - 2, right).each {|e| results[e] = 'SPL-R'}
+						Range.new(right + 3, right + 8).each {|e| results[e] = 'SPL-R'}
+						Range.new(exon[0], exon[0] + 2).each {|e| results[e] = 'SPL-R'}
+						Range.new(exon[0] - 3, exon[0] - 8).each {|e| results[e] = 'SPL-R'}
+						right = exon[1]
+					else
+						right = exon[1]
+					end
+				end
+				@splice_location = results
+				return results
+			else
+				return @splice_location
+			end
+		end
+		def utr5location
+			return Bio::Locations.new(self.generef.strand == '+' ? "#{self[:exon][0][0]}..#{self[:cds][0][0] - 1}" : "complement(#{self[:cds][-1][1] + 1}..#{self[:exon][-1][1]})")
+		end
+		def utr3location
+			return Bio::Locations.new(self.generef.strand == '+' ? "#{self[:cds][-1][1] + 1}..#{self[:exon][-1][1]}" : "complement(#{self[:exon][0][0]}..#{self[:cds][0][0] - 1})")
+		end
+		# predict efect of variants
+		#
+		# @param [array] list of variants
+		#
+		# @return [array] list of predicted effect
+		# SPL-D		splice_donor_variant		SO:0001575
+		# SPL-A		splice_acceptor_variant		SO:0001574
+		# SPL-R		splice_region_variant		SO:0001630
+		# COD-SS
+		# COD-SN
+		# COD-DS
+		# COD-DN
+		# COD-IS
+		# COD-IN
+		# UTR-3
+		# UTR-5
+		# INT
+		# INI
+		# STO-L
+		# STO-G
+		# PRO
+		# TFB
+		def effect_pred(position, alt)
+			results = []
+			prot_pos = genomic2prot_pos(position)
+			if prot_pos
+				case alt
+				when /^-([ATCG])+/
+					results.push({vartype: $1.length % 3 == 0 ? 'COD-DS' : 'COD-DN'})
+				when /^\+([ATCG])+/
+					results.push({vartype: ($1.length - 1) % 3 == 0 ? 'COD-IS' : 'COD-IN'})
+				else
+					results.push({vartype: 'COD-SS'})
+				end
+			else
+				#case
+				#when test
+				#	#code
+				#when test
+				#	#code
+				#else
+				#	results.push({vartype: 'INT'})
+				#end
+			end
+			results.push({vartype: splice_rel_location[position]}) if splice_rel_location.has_key?(position)
+			return results
+		end
+	end
+end

data/lib/exodb/datamodel/reference.rb CHANGED

@@ -28,7 +28,7 @@ module Exodb
 		PATTERN = /(?<gene>[A-Z0-9]+)-?(?<position>[0-9,]*|[is]?)(?<to>[A-Z=]*)/
 		SILENTSIGN = '='
-		include Exodb::GenomeLocationField
+		include Exodb::VarLocationField
 		field :reference,			type: String
 		field :alternate,			type: String
@@ -48,339 +48,35 @@ module Exodb
 	end
-	class Generef < Reference
-		include Exodb::GenomeLocationField
-		field :sequence,			type: String
-		field :chrrefseq,			type: String # refseq id of chromomose
-		field :psuedo,				type: Boolean
-		field :genomeref,			type: String
-		index({sequence: 'text'}, background: true)
-		has_many :genes
-		embeds_many :isoforms
-		embeds_many :occurrents
-		validates_format_of :chrrefseq, with: /\A(urn:miriam:refseq)/
-		# Download sequence from web service please use by caution. NCBI will block scamming sequest
-		#
-		def dl_seq!
-			case self.chrrefseq
-			when /\Aurn:miriam:refseq:/
-				self.sequence = Bio::FastaFormat.new(Bio::NCBI::REST.efetch(self.chrrefseq.split(':', 4), {"db"=>"nucleotide", "rettype"=>"fasta", "retmode"=>"text", "seq_start"=>self.start, "seq_stop"=>self.end})).seq
-			end
-			self.save!
-		end
-		# Download gene symbol from HGNC service
-		#
-		def dl_symbol!
-			baseuri = "http://rest.genenames.org/search"
-			query = ""
-			if self.get_xref('urn:miriam:refseq')
-				query = "#{baseuri}/refseq_accession/#{self.chrrefseq.id.split('.')[0]}"
-			elsif self.get_xref('urn:miriam:ncbigene')
-				query = ""
-			end
-			if !query.empty?
-				response = JSON.parse(open(query, 'Accept' => 'application/json').read)['response']
-				if !response['docs'].empty?
-					response['docs'].each do |e|
-						self.add_to_set(:xrefs, "urn:miriam:hgnc:#{e["hgnc_id"]}")
-						self.add_to_set(:xrefs, "urn:miriam:hgnc.symbol:#{e["symbol"]}")
-					end
-					self.save!
-				end
-			end
-		end
-		# Download incident data from TCGA
-		#
-		def dl_occurrent!
-			if self.get_xref('urn:miriam:hgnc.symbol')
-				cancerstudies = []
-				open("http://www.cbioportal.org/public-portal/webservice.do?cmd=getCancerStudies") {|f|
-					f.each_line {|line| cancerstudies.push(line.chomp.split("\t")[0])}
-				}
-				occurrents = {}
-				totalcase = {}
-				cancerstudies.each do |study|
-					totalcase[study] = 0 if !totalcase.has_key?(study)
-					open("http://www.cbioportal.org/public-portal/webservice.do?cmd=getCaseLists&cancer_study_id=#{study}") do |f|
-						f.each_line do |line|
-							totalcase[study] += line.chomp.split(/\t/)[4].split(' ').length if line =~ /\tSequenced Tumors\t/
-						end
-					end
-					occurrents[study] = {} if !occurrents.has_key?(study)
-					open("http://www.cbioportal.org/public-portal/webservice.do?cmd=getMutationData&genetic_profile_id=#{study}_mutations&gene_list=#{self.get_xref('urn:miriam:hgnc.symbol').id}") do |f|
-						f.each_line do |line|
-							dat = line.chomp.split(/\t/)
-							if dat[5] == 'Missense_Mutation'
-								occurrents[study][dat[7].split(/(\d+)/)[1]] = [] if !occurrents[study].has_key?(dat[7].split(/(\d+)/)[1])
-								occurrents[study][dat[7].split(/(\d+)/)[1]].push(dat[2])
-							end
-						end
-					end
-				end
-				self.occurrents.clear if self.occurrents
-				occurrents.each_pair do |cancertype, v|
-					v.each_pair do |position, occur|
-						self.occurrents << Occurrent.new({cancertype: cancertype, position: position, occur: occur.uniq.sort, casenumber: totalcase[cancertype]})
-					end
-				end
-				self.save!
-			end
-		end
-		# return sequence as Bio::Sequence object
-		#
-		# @return [Bio::Sequence] the contents reversed lexically
-		def to_seq
-			return self.sequence ? Bio::Sequence.auto(self.sequence) : Bio::Sequence.auto("")
-		end
-		# return longest splice of this gene
-		def longest_splice()
-			length = 0
-			longest = nil
-			self.isoforms.each do |e|
-				if e.prot_len > length
-					length = e.prot_len
-					longest = e
-				end
-			end
-			return longest
-		end
-		# Check that this gene has any splice variant
-		#
-		# @return [Boolean] true if has any splices
-		def has_splices?
-			return self.isoforms.exists?
-		end
-		# Check if Generef has sequence
-		#
-		# @return [Boolean] Return true if there is a sequence
-		def has_sequence?()
-			return self[:sequence] ? true : false
-		end
-		# Check if Generef can translate
-		#
-		# @return [Boolean] Return true if this can be translate
-		def can_translated?()
-			return self.has_sequence? && self.has_splices? && self.longest_splice != nil ? true : false
-		end
-		# Get gene symbol
-		#
-		# @return [String] Return gene symbol or any id from xrefs or 'nosymbol'
-		def symbol
-			if self.get_xref('urn:miriam:hgnc.symbol')
-				return self.get_xref('urn:miriam:hgnc.symbol').id
-			elsif self.xrefs && !self.xrefs.empty?
-				return self.xrefs.sort[0].id
-			else
-				return 'nosymbol'
-			end
-		end
-	end
-	class Isoform
+	class Mapping
 		include Mongoid::Document
-		include Exodb::XrefsField
-		field :exon,				type: Array
-		field :cds,					type: Array
-		embedded_in :generef
-		# join exon or cds position into a string
-		#
-		# @param [Array] input array exon or cds
-		# @param [Interger] Position to stop positive value for forward read negative value for complement
-		#
-		# @return [String] a string in start..end,start..end,...
-		def get_join_str(arr, position = 0)
-			reducer = self.generef.start - 1
-			tmparr = []
-			found = false
-			if position > 0
-				add = true
-				arr.each do |e|
-					if e[0] <= position && position <= e[1]
-						tmparr.push([e[0], position])
-						add = false
-						found = true
-					else
-						tmparr.push(e) if add
-					end
-				end
-			elsif position < 0
-				position = position.abs
-				add = false
-				arr.each do |e|
-					if e[0] <= position && position <= e[1]
-						tmparr.push([position, e[1]])
-						add = true
-						found = true
-					else
-						tmparr.push(e) if add
-					end
-				end
-			else
-				tmparr = arr
-			end
-			tmparr = [] if !found && position != 0
-			str = []
-			tmparr.each do |e|
-				str.push("#{e[0] - reducer}..#{e[1] - reducer}")
-			end
-			return str.join(',')
-		end
-		def get_exon_join(position = 0)
-			get_join_str(self[:exon], position)
-		end
-		def get_cds_join(position = 0)
-			get_join_str(self[:cds], position)
-		end
-		# Get spliced DNA sequence
-		#
-		# @return [Bio::Sequence] an DNA sequence
-		def get_dna_seq
-			parent =  self.generef
-			return parent.strand == '+' ? parent.to_seq.splicing("join(#{self.get_exon_join})") : parent.to_seq.splicing("complement(join(#{self.get_exon_join}))")
-		end
-		# Get spliced RNA sequence
-		#
-		# @return [Bio::Sequence] an RNA sequence
-		def get_mrna_seq
-			parent =  self.generef
-			return parent.strand == '+' ? parent.to_seq.splicing("join(#{self.get_exon_join})").rna : parent.to_seq.splicing("complement(join(#{self.get_exon_join}))").rna
-		end
-		# Get spliced coding region sequence
-		#
-		# @param [Integer] end position to get sequence
-		#
-		# @return [Bio::Sequence] an coding region sequence
-		def get_cds_seq(position = 0)
-			parent =  self.generef
-			if parent.strand == '+'
-				join = self.get_cds_join(position)
-				return !join.empty? ? parent.to_seq.splicing("join(#{join})") : ""
-			else
-				join = self.get_cds_join(-position)
-				return !join.empty? ? parent.to_seq.splicing("join(#{join})") : ""
+		field :chr,					type: String
+		field :start,				type: Integer
+		field :stop,				type: Integer
+		field :tchr,				type: String
+		field :tstart,				type: Integer
+		field :tstop,				type: Integer
+		field :coeff,				type: Integer # coefficient for conversion
+		field :from,				type: String # from assembly version
+		field :to,					type: String # to assembly version
+		index({oid: 1, chr: 1, start: 1, stop: 1, from: 1, to: 1}, background: true)
+		def self.convert(locstr, target = Exodb::LATESTASSEMBLY)
+			begin
+				query = parse_locstr(locstr)
+				return self.where({from: query['assembly'], to: target, :start.lte => query[:pos], :stop.gte => query[:pos]}).first.convert(query[:pos])
+			rescue
 			end
 		end
-		# Get spliced protein sequence
-		#
-		# @return [Bio::Sequence] an protein sequence
-		def get_prot_seq
-			parent =  self.generef
-			return parent.strand == '+' ? parent.to_seq.splicing("join(#{self.get_cds_join})").translate : parent.to_seq.splicing("complement(join(#{self.get_cds_join}))").translate
-		end
-		# get length of spliced RNA
-		#
-		# @return [Integer] length of spliced RNA
-		def rna_len
-			return self.get_mrna_seq.length
-		end
-		# get length of protein product
-		#
-		# @return [Integer] length of protein product
-		def prot_len
-			return self.get_prot_seq.length
-		end
-		# Get the codon sequence at the giving position base on position of amino acid
-		#
-		# @param [Integer] codon position
-		# @return [Bio::Sequence] the codon at given position
-		def get_codon(codon_pos)
-			return self.get_cds_seq().subseq(((codon_pos - 1) * 3) + 1 , ((codon_pos - 1) * 3) + 3)
-		end
-		# convert genomic position to codon position
-		#
-		# @param [Integer] genomic position
-		# @return [Array] Return all information of codon at given position
-		def get_prot_pos(pos)
-			seqlen = self.get_cds_seq(pos).length
-			if seqlen != 0
-				return [((seqlen - 1) / 3) + 1, ((seqlen - 1) % 3) + 1]
-			else
-				return []
-			end
+		def convert(pos)
+			return  "#{self[:tchr]}:#{(coeff > 0 ? tstart : tstop) + ((pos - self[:start]) * coeff)}:#{to}"
 		end
 	end
-end
+end