RubyGems - rbbt-sources - Versions diffs - 3.1.16 → 3.1.17 - Mend

rbbt-sources 3.1.16 → 3.1.17

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (10) hide show

checksums.yaml +4 -4
data/etc/allowed_biomart_archives +1 -0
data/lib/rbbt/sources/CASCADE.rb +177 -0
data/lib/rbbt/sources/phospho_ELM.rb +59 -0
data/lib/rbbt/sources/phospho_site_plus.rb +39 -0
data/lib/rbbt/sources/reactome.rb +68 -8
data/lib/rbbt/sources/signor.rb +77 -0
data/share/Ensembl/release_dates +10 -0
data/share/install/Organism/organism_helpers.rb +2 -0
metadata +6 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: feef731c1d37abc9fcaf618086634f4bebde968c
-  data.tar.gz: 58d28f8048a043d406c0cc1f72fe3b44186ead5e
+  metadata.gz: bf8a7403301523a87252057d4be1ac9e0f348708
+  data.tar.gz: '0939814d7b68cb713e05b5f1af2a572a8fffee75'
 SHA512:
-  metadata.gz: b5fa5a78fe7e152691a92b6119202fdb0066fcf7377bafeb907b02519477221762c8b563239c26024700ee48f301e4377527f95441d87cadb50a26bc884dc626
-  data.tar.gz: cdb897373677da35b65aa93964af005ac1048a4097643a4ae0b1a67024f67dc90da5204b5eea928429039cc63c9da275c6faf3b99cc920f3e46ca893c8f3dcab
+  metadata.gz: 779c0aa427ee0335a2533533179e05ef0c42c543316ea7cd9eb3c5b793f6603ea46cf63bffba71df9aed9cec0fc08df984255c1c3a83fe85c9bb5b51048395d1
+  data.tar.gz: 8a78a7bc1e4ba4819849c0375a1d6744e20bce89cdaf91e1c21cd26d4541f2ff91bd1d5aa9bed05e38b211051cc51774df2b0d2eb198bd4500d94c95196d48ac

data/etc/allowed_biomart_archives CHANGED Viewed

@@ -1,5 +1,6 @@
 may2009
 may2012
+sep2013
 jan2013
 feb2014
 dec2013

data/lib/rbbt/sources/CASCADE.rb ADDED Viewed

@@ -0,0 +1,177 @@
+require 'rbbt-util'
+require 'rbbt/resource'
+module CASCADE
+  extend Resource
+  self.subdir = 'share/databases/CASCADE'
+  #def self.organism(org="Hsa")
+  #  Organism.default_code(org)
+  #end
+  #self.search_paths = {}
+  #self.search_paths[:default] = :lib
+  URL = 'https://bitbucket.org/asmundf/cascade'
+  CASCADE.claim CASCADE.interactions, :proc do
+    io = nil
+    TmpFile.with_file do |tmp|
+      Misc.in_dir tmp do
+        Log.warn "Please enter bitbucket credentials to access the asmundf/cascade repo"
+        `git clone #{URL}`
+        io = Open.open("cascade/cascade.tsv")
+      end
+    end
+    tsv = TSV.open(io, :merge => true, :header_hash => '')
+    new_fields = ["ENTITYB"] + (tsv.fields - ["ENTITYB"])
+    tsv = tsv.reorder :key, new_fields
+    tsv.key_field = "ENTITYA (Associated Gene Name)"
+    tsv.rename_field "ENTITYB", "ENTITYB (Associated Gene Name)"
+    tsv.process "PMID" do |values|
+      values.collect{|v| v.scan(/\d+/) * ";;"}
+    end
+    tsv.to_s
+  end
+  CASCADE.claim CASCADE.members, :proc do
+    io = nil
+    TmpFile.with_file do |tmp|
+      Misc.in_dir tmp do
+        Log.warn "Please enter bitbucket credentials to access the asmundf/cascade repo"
+        `git clone #{URL}`
+        io = Open.open("cascade/cascade_translation.tsv")
+      end
+    end
+    tsv = TSV.open(io, :merge => true, :header_hash => '', :type => :flat, :sep2 => /[,.]\s*/)
+  end
+  CASCADE.claim CASCADE.paradigm, :proc do
+    tsv = CASCADE.interactions.tsv
+    members = CASCADE.members.tsv
+    proteins = Set.new members.values.flatten.uniq
+    outputs = Set.new
+    associations = {}
+    tsv.through do |source, values|
+      values.zip_fields.each do |target,typea,ida,databasea,typeb,idb,databaseb,effect|
+        next if typea == 'gene'
+        if typeb == 'gene'
+          target.sub!('_g','')
+          type = '-t'
+        elsif typeb == 'output' or typea == 'output'
+          type = '-ap'
+        else
+          type = '-a'
+        end
+        proteins << source unless source.include? '_f' or source.include? '_c'
+        proteins << target unless target.include? '_f' or target.include? '_c'
+        outputs << source if typea == 'output'
+        outputs << target if typeb == 'output'
+        effect_symbol = '>'
+        effect_symbol = '|' if effect.include? 'inhibit'
+        associations[[source,target]] = [type, effect_symbol]
+      end
+    end
+    str = StringIO.new
+    proteins.each do |p|
+      next if outputs.include? p
+      str.puts ["protein", p] * "\t"
+    end
+    outputs.each do |o|
+      str.puts ["abstract", o] * "\t"
+    end
+    members.each do |e, targets|
+      e = e.dup
+      case
+      when e.include?('_c')
+        str.puts ["complex", e] * "\t"
+        type = 'component'
+      when e.include?('_f')
+        str.puts ["family", e] * "\t"
+        type = 'member'
+      else
+        next
+      end
+      targets.each do |target|
+        associations[[target,e]] = [type, '>']
+      end
+    end
+    associations.each do |p,i|
+      source, target = p
+      type, symbol = i
+      str.puts [source, target, [type,symbol]*""] * "\t"
+    end
+    str.rewind
+    str
+  end
+  CASCADE.claim CASCADE["topology.sif"], :proc do
+    tsv = CASCADE.interactions.tsv
+    str = StringIO.new
+    tsv.through do |source, values|
+      values.zip_fields.each do |target,typea,ida,databasea,typeb,idb,databaseb,effect|
+        effect_symbol = '->'
+        effect_symbol = '-|' if effect.include? 'inhibit'
+        str.puts [source, effect_symbol, target] * " "
+      end
+    end
+    str.rewind
+    str
+  end
+  CASCADE.claim CASCADE.output_nodes, :proc do
+    tsv = CASCADE.interactions.tsv
+    output = TSV.setup({}, :key_field => "Node", :fields => ["Sign"], :type => :single)
+    tsv.through do |source, values|
+      values.zip_fields.each do |target,typea,ida,databasea,typeb,idb,databaseb,effect|
+        case target
+        when "Antisurvival"
+          output[source] = -1
+        when "Prosurvival"
+          output[source] = 1
+        end
+      end
+    end
+    output.to_s
+  end
+end
+iif CASCADE.interactions.produce.find if __FILE__ == $0
+iif CASCADE.members.produce.find if __FILE__ == $0
+iif CASCADE.paradigm.produce.find if __FILE__ == $0
+iif CASCADE["topology.sif"].produce.find if __FILE__ == $0
+iif CASCADE.output_nodes.produce(true).find if __FILE__ == $0

data/lib/rbbt/sources/phospho_ELM.rb ADDED Viewed

@@ -0,0 +1,59 @@
+require 'rbbt-util'
+require 'rbbt/resource'
+module PhosphoELM
+  extend Resource
+  self.subdir = 'share/databases/PhosphoELM'
+  def self.organism(org="Hsa")
+    require 'rbbt/sources/organism'
+    Organism.default_code(org)
+  end
+  #self.search_paths = {}
+  #self.search_paths[:default] = :lib
+  PhosphoELM.claim PhosphoELM[".source/dump.tgz"], :proc do |file|
+    raise "Place phosphoELM_all_latest.dump.tgz from http://phospho.elm.eu.org at #{file}. Please consult license."
+  end
+  PhosphoELM.claim PhosphoELM.data, :proc do
+    tgz = PhosphoELM[".source/dump.tgz"].produce.find
+    organism = PhosphoELM.organism
+    uni2ensp = Organism.identifiers(organism).tsv :key_field => "UniProt/SwissProt Accession", :fields => ["Ensembl Protein ID"], :type => :flat, :persist => true
+    ensp2seq = Organism.protein_sequence(organism).tsv :persist => true
+    dumper = TSV::Dumper.new(:key_field => "Phosphosite", :fields => ["Kinases", "Source", "PMID"], :type => :list)
+    dumper.init
+    TmpFile.with_file do |dir|
+      Misc.in_dir dir do
+        CMD.cmd("tar xvfz #{tgz}")
+        f = Dir.glob("*.dump").first
+        TSV.traverse Open.open(f), :type => :array, :into => dumper do |line|
+          next unless line =~ /Homo sapiens/
+          acc, sequence, position, code, pmids, kinases, source, species, entry_date = line.split("\t")
+          ensps = uni2ensp[acc]
+          Log.warn "No Ensembl Protein ID for #{acc}" if ensps.nil?
+          next if ensps.nil?
+          sequence << "*"
+          good = ensps.select{|ensp| sequence == ensp2seq[ensp]}
+          Log.warn "No sequence match for #{acc} - #{ensps*", "}" if good.empty?
+          next if good.empty?
+          res = []
+          good.each do |ensp|
+            phospho_site = [ensp,":", code, position] * ""
+            res << [phospho_site, [kinases, source, pmids]]
+          end
+          res.extend MultipleResult
+          res
+        end
+      end
+    end
+    dumper.stream
+  end
+end
+iif PhosphoELM.data.produce(true).find if __FILE__ == $0

data/lib/rbbt/sources/phospho_site_plus.rb ADDED Viewed

@@ -0,0 +1,39 @@
+require 'rbbt-util'
+require 'rbbt/resource'
+module PhosphoSitePlues
+  extend Resource
+  self.subdir = 'share/databases/PhosphoSitePlues'
+  def self.organism(org="Hsa")
+    require 'rbbt/sources/organism'
+    Organism.default_code(org)
+  end
+  #self.search_paths = {}
+  #self.search_paths[:default] = :lib
+  #self.search_paths = {}
+  #self.search_paths[:default] = :lib
+  ALL_FILES = %(Acetylation_site_dataset.gz Disease-associated_sites.gz
+Kinase_Substrate_Dataset.gz Methylation_site_dataset.gz
+O-GalNAc_site_dataset.gz O-GlcNAc_site_dataset.gz
+Phosphorylation_site_dataset.gz Phosphosite_PTM_seq.fasta.gz
+Phosphosite_seq.fasta.gz Regulatory_sites.gz Sumoylation_site_dataset.gz
+Ubiquitination_site_dataset.gz)
+  ALL_FILES.each do |file|
+    PhosphoSitePlues.claim PhosphoSitePlues[".source"][file], :proc do |f|
+      raise "Place #{file} from http://www.phosphosite.org/ at #{f}. Please consult license."
+    end
+  end
+  PhosphoSitePlues.claim PhosphoSitePlues.kinase_substrate, :proc do
+    PhosphoSitePlues[".source/Kinase_Substrate_Dataset.gz"]
+  end
+end
+iif PhosphoSitePlues.data.produce.find if __FILE__ == $0

data/lib/rbbt/sources/reactome.rb CHANGED Viewed

@@ -1,27 +1,53 @@
-require 'rbbt'
+require 'rbbt-util'
 require 'rbbt/resource'
 module Reactome
   extend Resource
   self.subdir = "share/databases/Reactome"
+  def self.organism(org="Hsa")
+    require 'rbbt/sources/organism'
+    Organism.default_code(org)
+  end
   Reactome.claim Reactome.protein_pathways, :proc  do
     #url = "http://www.reactome.org/download/current/uniprot_2_pathways.stid.txt"
-    url = "http://www.reactome.org/download/current/UniProt2Reactome.txt"
-    tsv = TSV.open(Open.open(url), :key_field => 0, :fields => [1], :merge => true, :type => :double)
-    tsv.key_field = "UniProt/SwissProt Accession"
+    url = "http://reactome.org/download/current/Ensembl2Reactome.txt"
+    tsv = TSV.open(url, :key_field => 0, :fields => [1], :merge => true, :type => :flat, :tsv_grep => "Homo sapiens")
+    tsv.key_field = "Ensembl Gene ID"
+    tsv.fields = ["Reactome Pathway ID"]
+    tsv.namespace = Reactome.organism
+    tsv.to_s
+  end
+  Reactome.claim Reactome.protein_pathways_all, :proc  do
+    #url = "http://www.reactome.org/download/current/uniprot_2_pathways.stid.txt"
+    url = "http://reactome.org/download/current/Ensembl2Reactome_All_Levels.txt"
+    tsv = TSV.open(url, :key_field => 0, :fields => [1], :merge => true, :type => :flat, :tsv_grep => "Homo sapiens")
+    tsv.key_field = "Ensembl Gene ID"
     tsv.fields = ["Reactome Pathway ID"]
-    tsv.namespace = "Hsa"
+    tsv.namespace = Reactome.organism
     tsv.to_s
   end
   Reactome.claim Reactome.pathway_names, :proc  do
     #url = "http://www.reactome.org/download/current/uniprot_2_pathways.stid.txt"
     url = "http://www.reactome.org/download/current/UniProt2Reactome.txt"
-    tsv = TSV.open(Open.open(url), :key_field => 1, :fields => [2], :type => :single)
+    tsv = TSV.open(Open.open(url), :key_field => 1, :fields => [3], :type => :single)
     tsv.key_field = "Reactome Pathway ID"
     tsv.fields = ["Pathway Name"]
-    tsv.namespace = "Hsa"
+    tsv.namespace = Reactome.organism
+    tsv.to_s
+  end
+  Reactome.claim Reactome.pathway_pathway, :proc  do
+    #url = "http://www.reactome.org/download/current/uniprot_2_pathways.stid.txt"
+    url = "http://reactome.org/download/current/ReactomePathwaysRelation.txt"
+    tsv = TSV.open(Open.open(url), :type => :flat, :merge => true)
+    tsv.key_field = "Reactome Pathway ID"
+    tsv.fields = ["Reactome Pathway ID"]
+    tsv.namespace = Reactome.organism
     tsv.to_s
   end
@@ -30,10 +56,39 @@ module Reactome
     tsv = TSV.open(CMD.cmd('cut -f 1,4,7,8,9|sed "s/UniProt://g;s/,/;/g"', :in => Open.open(url), :pipe => true), :type => :double, :merge => true)
     tsv.key_field = "UniProt/SwissProt Accession"
     tsv.fields = ["Interactor UniProt/SwissProt Accession", "Interaction type", "Reactions", "PMID"]
-    tsv.namespace = "Hsa"
+    tsv.namespace = Reactome.organism
     tsv.to_s
   end
+  #Reactome.claim Reactome.protein_pathways, :proc  do
+  #  #url = "http://www.reactome.org/download/current/uniprot_2_pathways.stid.txt"
+  #  url = "http://www.reactome.org/download/current/UniProt2Reactome.txt"
+  #  tsv = TSV.open(Open.open(url), :key_field => 0, :fields => [1], :merge => true, :type => :double)
+  #  tsv.key_field = "UniProt/SwissProt Accession"
+  #  tsv.fields = ["Reactome Pathway ID"]
+  #  tsv.namespace = Reactome.organism
+  #  tsv.to_s
+  #end
+  #Reactome.claim Reactome.pathway_names, :proc  do
+  #  #url = "http://www.reactome.org/download/current/uniprot_2_pathways.stid.txt"
+  #  url = "http://www.reactome.org/download/current/UniProt2Reactome.txt"
+  #  tsv = TSV.open(Open.open(url), :key_field => 1, :fields => [2], :type => :single)
+  #  tsv.key_field = "Reactome Pathway ID"
+  #  tsv.fields = ["Pathway Name"]
+  #  tsv.namespace = Reactome.organism
+  #  tsv.to_s
+  #end
+  #Reactome.claim Reactome.protein_protein, :proc  do
+  #  url = "http://www.reactome.org/download/current/homo_sapiens.interactions.txt.gz"
+  #  tsv = TSV.open(CMD.cmd('cut -f 1,4,7,8,9|sed "s/UniProt://g;s/,/;/g"', :in => Open.open(url), :pipe => true), :type => :double, :merge => true)
+  #  tsv.key_field = "UniProt/SwissProt Accession"
+  #  tsv.fields = ["Interactor UniProt/SwissProt Accession", "Interaction type", "Reactions", "PMID"]
+  #  tsv.namespace = Reactome.organism
+  #  tsv.to_s
+  #end
 end
 if defined? Entity
@@ -82,3 +137,8 @@ if defined? Entity
     end
   end
 end
+Log.tsv Reactome.protein_pathways.produce.tsv if __FILE__ == $0
+Log.tsv Reactome.protein_pathways_all.produce.tsv if __FILE__ == $0
+Log.tsv Reactome.pathway_names.produce(true).tsv if __FILE__ == $0
+Log.tsv Reactome.pathway_pathway.produce.tsv if __FILE__ == $0

data/lib/rbbt/sources/signor.rb ADDED Viewed

@@ -0,0 +1,77 @@
+require 'rbbt-util'
+require 'rbbt/resource'
+module Signor
+  extend Resource
+  self.subdir = 'share/databases/Signor'
+  def self.organism(org="Hsa")
+    require 'rbbt/sources/organism'
+    Organism.default_code(org)
+  end
+  #self.search_paths = {}
+  #self.search_paths[:default] = :lib
+  Signor.claim Signor[".source/all.csv"], :proc do |file|
+    raise "Download all human data in CSV format from 'http://signor.uniroma2.it/downloads.php#all_download' and place in #{file}"
+  end
+  Signor.claim Signor.data, :proc do
+    #io = Misc.open_pipe do |sin|
+    #  Signor[".source/all.csv"].open do |f|
+    #    quoted = false
+    #    while c = f.getc
+    #      if c == '"'
+    #        quoted = ! quoted
+    #      end
+    #      c = " " if c == "\n" and quoted
+    #      sin << c
+    #    end
+    #  end
+    #end
+    sio = Signor[".source/all.csv"].open
+    io_tmp = Misc.remove_quoted_new_line(sio)
+    io = Misc.swap_quoted_character(io_tmp, ';', '--SEMICOLON--')
+    tsv = TSV.open io, :header_hash => "", :sep => ";", :merge => true, :type => :double, :zipped => true, :monitor => true
+    tsv.each do |k,values|
+      clean_values = values.collect{|vs| vs.collect{|v| (v[0] == '"' and v[-1] = '"') ? v[1..-2] : v }.collect{|v| v.gsub("--SEMICOLON--", ';') } }
+      values.replace clean_values
+    end
+    tsv
+  end
+  Signor.claim Signor.protein_protein, :proc do
+    parser = TSV::Parser.new Signor.data
+    fields = parser.fields
+    dumper = TSV::Dumper.new :key_field => "Source (UniProt/SwissProt Accession)", :fields => ["Target (UniProt/SwissProt Accession)", "Effect", "Mechanism", "Residue"], :type => :double, :organism => Signor.organism
+    dumper.init
+    TSV.traverse parser, :into => dumper do |k,values|
+      info = {}
+      fields.zip(values).each do |field, value|
+        info[field] = value
+      end
+      next unless info["TYPEA"].first == "protein"
+      unia = info["IDA"].first
+      res = []
+      res.extend MultipleResult
+      info["TYPEB"].zip(info["IDB"]).zip(info["EFFECT"]).zip(info["MECHANISM"]).zip(info["RESIDUE"]).each do |v|
+        typeb,idb,eff,mech,resi = v.flatten
+        next unless typeb == "protein"
+        res << [unia, [idb, eff, mech,resi]]
+      end
+      res
+    end
+    Misc.collapse_stream dumper.stream
+  end
+end
+iif Signor.protein_protein.produce(true).find if __FILE__ == $0

data/share/Ensembl/release_dates CHANGED Viewed

@@ -1,5 +1,15 @@
 #: :type=:single
 #Release	build
+release-89	may2017
+release-88	mar2017
+release-87	dec2016
+release-86	oct2016
+release-85	jul2016
+release-84	mar2016
+release-83	dec2015
+release-82	sep2015
+release-81	jul2015
+release-80	may2015
 release-79	mar2015
 release-78	dec2014
 release-77	oct2014

data/share/install/Organism/organism_helpers.rb CHANGED Viewed

@@ -672,6 +672,8 @@ file 'transcript_5utr' => ["exons", "transcript_exons", "transcripts"] do |t|
     transcript = transcript2ensembl[transcript_id]
     protein    = transcript_protein[transcript]
+    next if transcript =~ /^LRG/
     start_exon = exon2ensembl[start_exon]
     eend_exon = exon2ensembl[eend_exon]

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rbbt-sources
 version: !ruby/object:Gem::Version
-  version: 3.1.16
+  version: 3.1.17
 platform: ruby
 authors:
 - Miguel Vazquez
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2017-06-15 00:00:00.000000000 Z
+date: 2017-08-10 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: rbbt-util
@@ -89,6 +89,7 @@ files:
 - etc/allowed_biomart_archives
 - etc/biomart/missing_in_archive
 - etc/organisms
+- lib/rbbt/sources/CASCADE.rb
 - lib/rbbt/sources/COSTART.rb
 - lib/rbbt/sources/CTCAE.rb
 - lib/rbbt/sources/HPRD.rb
@@ -115,10 +116,13 @@ files:
 - lib/rbbt/sources/organism.rb
 - lib/rbbt/sources/pfam.rb
 - lib/rbbt/sources/pharmagkb.rb
+- lib/rbbt/sources/phospho_ELM.rb
+- lib/rbbt/sources/phospho_site_plus.rb
 - lib/rbbt/sources/pina.rb
 - lib/rbbt/sources/polysearch.rb
 - lib/rbbt/sources/pubmed.rb
 - lib/rbbt/sources/reactome.rb
+- lib/rbbt/sources/signor.rb
 - lib/rbbt/sources/stitch.rb
 - lib/rbbt/sources/string.rb
 - lib/rbbt/sources/synapse.rb