RubyGems - rbbt-study - Versions diffs - 0.2.19 → 0.2.20 - Mend

rbbt-study 0.2.19 → 0.2.20

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (6) hide show

checksums.yaml +8 -8
data/lib/rbbt/entity/study/genotypes.rb +28 -0
data/lib/rbbt/entity/study.rb +1 -0
data/share/R/data.R +76 -0
data/share/R/plots.R +122 -0
metadata +4 -2

checksums.yaml CHANGED Viewed

@@ -1,15 +1,15 @@
 ---
 !binary "U0hBMQ==":
   metadata.gz: !binary |-
-    ODg5YzNlNzAzMDA4NjUzNzNlYTc0MTIxMzI3MmZiNzI4N2VhZjg0Yw==
+    MmU0YmUxZDUxOTZhMmU1MjJlMmI3MWUwYzU4NzYxODY1NWZhNjk0NQ==
   data.tar.gz: !binary |-
-    ZWNmM2VjZjJhY2FkMGYzM2JlOWMxYjBiYTEwNjA1YjVlYzM2N2Y0Yw==
+    NGI4ODVjZThmOTk5ODI2NTRhYzRlN2RlNDA0NTc0ZWIyNDk4NGYzOA==
 SHA512:
   metadata.gz: !binary |-
-    MmU0NjNlZGY0YzM3ZTBkYjQ1YWEyNjNkNzE0ODdkYTE4OWE1MzUxZjg4Y2Ji
-    NzRjOGZmODI5MTUxMzJlYzMyOWZlOTA0MjBmNmQyZDM1MDhiMzA4MTc1ZDgx
-    ZmJjZTYwMzM4ZTU3NzQzMzQ5ZWNiNTIwZTk1NjhjNzM0ZDYxMWQ=
+    MjI1Yzc5YmZjM2ZhY2NmNzI0Zjk3MTZhNTFlMzM0YWZkZWZkZjEwNDVkZGI0
+    NjVkM2Q4ZTY5OGQwZjkyMDRkYWM4Yzg0YmU3MWVjNzY4OGNjNWNiMDM2M2U4
+    YTQxYmZiMDQwM2VjNzI3MTNjOTgzNjdmNzg5ZTQ2NDM4OTJmYTM=
   data.tar.gz: !binary |-
-    MzUwNzIzYWM0MDE1MjNhNTFjMGZkYTdjNzU5ZjVhNDcwZGNiY2NlZGUwYTBj
-    ODY5ODZhMzMxMDUzOGFhM2M4ZDU4YzM2MzVhMTZkN2QyN2I1YzEwOTg1ZDJk
-    ZDNiYmM0OTExOWZhMjJmOGYxMmRlMDJmZTYxYTMyMDRkMWMzOTA=
+    MTk5MjBlZTc1NDQ4OTZiNjE0M2VlZGVkYWE0YWZiM2VhYzJkNjk0MjhjYTI2
+    OTc2YzhiZTAxMTBmOWQwZGI0OGNiZjM5NmZiZjk3ODMxMjYwNzYzNDJmZGRj
+    ZTMyY2EzZjg1Y2I2MDkwNzM0OGRhOGJkYTllMmVmNTEwNzQzODY=

data/lib/rbbt/entity/study/genotypes.rb CHANGED Viewed

@@ -13,6 +13,34 @@ module StudyWorkflow
     study.metadata[:organism]
   end
+  task :binomial_significance => :tsv do
+    tsv = TSV.setup({}, :key_field => "Ensembl Gene ID", :fields => ["Matches", "Bases", "Frequency", "p.value"], :namespace => organism)
+    matches = study.knowledge_base.get_index(:mutation_genes).keys
+    genes = matches.collect{|m| m.partition("~").last}.uniq
+    all_mutations = matches.collect{|m| m.partition("~").first}.uniq
+    total_bases = Gene.gene_list_exon_bases(genes)
+    global_frequency = all_mutations.length.to_f / total_bases
+    gene2exon_size = Misc.process_to_hash(genes){|genes| genes.collect{|gene| Gene.gene_list_exon_bases([gene]) }}
+    genes.each do |gene|
+      mutations = study.knowledge_base.parents(:mutation_genes, gene).target
+      mutations = study.knowledge_base.subset(:sample_mutations, "Genomic Mutation" => mutations).source
+      next if mutations.empty?
+      matches = mutations.length
+      exon_bases = gene2exon_size[gene]
+      next if exon_bases == 0
+      frequency = matches.to_f / exon_bases
+      pvalue = RSRuby.instance.binom_test(matches, exon_bases, global_frequency, 'greater')["p.value"]
+      tsv[gene] = [matches, exon_bases, frequency, pvalue]
+    end
+    tsv
+  end
   task :genotype_overview => :tsv do
     gene_overview = TSV.setup({},
                           :key_field => "Ensembl Gene ID",

data/lib/rbbt/entity/study.rb CHANGED Viewed

@@ -10,6 +10,7 @@ Workflow.require_workflow "Genomics"
 require 'rbbt/entity/study'
 require 'rbbt/entity/study/knowledge_base'
 require 'rbbt/entity/study/samples'
 require 'rbbt/expression/matrix'
 module StudyWorkflow

data/share/R/data.R ADDED Viewed

@@ -0,0 +1,76 @@
+rbbt.SE.sample.mutated.genes <- function(study){
+    sample.mutated.genes <- rbbt.ruby.substitutions(
+        "
+        require 'rbbt/workflow'
+        Workflow.require_workflow 'StudyExplorer'
+        YAML::ENGINE.yamler = 'syck' if defined? YAML::ENGINE and YAML::ENGINE.respond_to? :yamler
+        Log.severity = 0
+        study = Study.setup('STUDY')
+        relevant_genes = study.job(:relevant_genes, study).run.uniq
+        tsv = TSV.setup({}, :key_field => 'Sample', :fields => relevant_genes.name, :type => :single)
+        study.cohort.each do |genotype|
+            sample = genotype.jobname
+            mutated_genes = genotype.genes.compact.flatten.uniq
+            tsv[sample] = relevant_genes.collect{|gene| mutated_genes.include?(gene)? 'TRUE' : 'FALSE' }
+        end
+        tsv
+        ", substitutions = list(STUDY=study))
+}
+rbbt.SE.gene.kegg.pathway <- function(genes){
+    gene_str = rbbt.a.to.string(genes);
+    gene.pathways = rbbt.ruby.substitutions(
+        "
+        require 'rbbt/entity/gene'
+        require 'rbbt/sources/kegg'
+        YAML::ENGINE.yamler = 'syck' if defined? YAML::ENGINE and YAML::ENGINE.respond_to? :yamler
+        Log.severity=0
+        genes = [GENE_STR];
+        Gene.setup(genes, 'Associated Gene Name', 'Hsa/jun2011')
+        pathways = genes.kegg_pathways.compact.flatten.uniq
+        gene_pathways = {}
+        genes.each do |gene|
+            gene_pathway_list = gene.kegg_pathways || []
+            gene_pathways[gene] = pathways.collect{|p| gene_pathway_list.include?(p) ? 1 : 0 }
+        end
+        tsv = TSV.setup(gene_pathways, :key_field => 'Associated Gene Name', :fields => [pathways], :type => :flat)
+        ", substitutions = list(GENE_STR=gene_str));
+    gene.pathways$Gene = rownames(gene.pathways)
+    return(gene.pathways)
+}
+rbbt.SE.study.samples <- function(study){
+    samples <- rbbt.ruby.substitutions(
+        "
+        require 'rbbt/workflow'
+        Workflow.require_workflow 'StudyExplorer'
+        YAML::ENGINE.yamler = 'syck' if defined? YAML::ENGINE and YAML::ENGINE.respond_to? :yamler
+        Log.severity = 0
+        study = Study.setup('STUDY')
+        study.samples
+        ", substitutions = list(STUDY=study));
+    return(samples);
+}

data/share/R/plots.R ADDED Viewed

@@ -0,0 +1,122 @@
+rbbt.SE.plot.sort.by.field <- function(plot, field){
+    d = plot$data;
+    d[[field]] = reorder(d[[field]], d$Mutated, sum)
+    sample.best.gene.pos.df = ddply(d, "Sample", function(x){ min(match(subset(x, Mutated==TRUE)[[field]], rev(levels(d[[field]]))), na.rm=T)})
+    d$sample.best.gene.pos = NULL
+    names(sample.best.gene.pos.df) <- c("Sample", "sample.best.gene.pos");
+    d = merge(d, sample.best.gene.pos.df, all.x=TRUE)
+    d$Sample = reorder(d$Sample, d$sample.best.gene.pos)
+    plot$data = d;
+    return(plot);
+}
+rbbt.SE.plot.sort.by.mutations <- function(plot){
+    d = plot$data;
+    d$Gene = reorder(d$Gene, d$Mutated, sum);
+    num.elems = length(levels(d$Gene));
+    #sample.best.gene.pos.df = ddply(d, "Sample", function(x){ 1/mean(1/match(subset(x, Mutated==TRUE)$Gene, rev(levels(d$Gene)))^2)})
+    sample.best.gene.pos.df = ddply(d, "Sample", function(x){ 1/sum(2^(num.elems - match(subset(x, Mutated==TRUE)$Gene, rev(levels(d$Gene)))))})
+    d$sample.best.gene.pos = NULL
+    names(sample.best.gene.pos.df) <- c("Sample", "sample.best.gene.pos");
+    d = merge(d, sample.best.gene.pos.df, all.x=TRUE)
+    d$Sample = reorder(d$Sample, d$sample.best.gene.pos)
+    plot$data = d;
+    return(plot);
+}
+rbbt.SE.plot.sort.by.pathway.mutations <- function(plot){
+    d = plot$data;
+    d$Pathway = reorder(d$Pathway, d$Mutated, sum);
+    num.elems = length(levels(d$Pathway));
+    #sample.best.gene.pos.df = ddply(d, "Sample", function(x){ min(match(subset(x, Mutated==TRUE)$Pathway, rev(levels(d$Pathway))), na.rm=T)})
+    #sample.best.gene.pos.df = ddply(d, "Sample", function(x){ 1/mean(1/match(subset(x, Mutated==TRUE)$Pathway, rev(levels(d$Pathway)))^2)})
+    sample.best.gene.pos.df = ddply(d, "Sample", function(x){ 1/sum(2^(num.elems - match(subset(x, Mutated==TRUE)$Pathway, rev(levels(d$Pathway)))))})
+    d$sample.best.gene.pos = NULL
+    names(sample.best.gene.pos.df) <- c("Sample", "sample.best.gene.pos");
+    d = merge(d, sample.best.gene.pos.df, all.x=TRUE)
+    d$Sample = reorder(d$Sample, d$sample.best.gene.pos)
+    plot$data = d;
+    return(plot);
+}
+rbbt.SE.plot.mutations <- function(study, cutoff = 3, sample.info = NULL){
+    sample.mutated.genes = rbbt.SE.sample.mutated.genes(study);
+    gene.mutation.counts = apply(sample.mutated.genes, 2, function(x){sum(x==TRUE)})
+    recurrent.genes = names(gene.mutation.counts[gene.mutation.counts >= cutoff])
+    d.recurrent = sample.mutated.genes[, recurrent.genes]
+    d.recurrent$Sample = rownames(d.recurrent)
+    d.recurrent.m = melt(d.recurrent, "Sample")
+    names(d.recurrent.m) <- c("Sample", "Gene", "Mutated")
+    if (is.null(sample.info)){
+        d = d.recurrent.m
+    }else{
+        d = merge(d.recurrent.m, sample.info, all.x=TRUE)
+    }
+    layer.mutations = geom_tile(data=d,aes(x=Sample, y=Gene, alpha=Mutated))
+    rbbt.SE.plot.sort.by.mutations(layer.mutations);
+    return(layer.mutations);
+}
+rbbt.SE.plot.add.expression <- function(plot, study, ...){
+    genes = unique(plot$data$Gene);
+    gene.expression <- rbbt.SE.expression(study, genes, ...);
+    gene.expression.m <- melt(gene.expression);
+    names(gene.expression.m) <- c("Gene", "Sample", "Expression");
+    gene.expression.3rd = summary(gene.expression.m$Expression)[["3rd Qu."]]
+    gene.expression.1st = summary(gene.expression.m$Expression)[["1st Qu."]]
+    unpadd = as.character(as.numeric(gene.expression.m$Sample));
+    unpadd[is.na(unpadd)] = gene.expression.m$Sample[is.na(unpadd)];
+    gene.expression.m$Sample = unpadd;
+    mean.gene.expression <- aggregate(Expression ~ Gene, gene.expression.m, mean, trim=0.1, na.rm=T);
+    names(mean.gene.expression) <- c("Gene", "Mean");
+    gene.expression.m[gene.expression.m[,"Expression"] > gene.expression.3rd, "Expression"] = gene.expression.3rd
+    gene.expression.m[gene.expression.m[,"Expression"] < gene.expression.1st, "Expression"] = gene.expression.1st
+    sd.gene.expression <- aggregate(Expression ~ Gene, gene.expression.m, mad, na.rm=T);
+    names(sd.gene.expression) <- c("Gene", "SD");
+    gene.expression.m <- merge(gene.expression.m, mean.gene.expression);
+    gene.expression.m <- merge(gene.expression.m, sd.gene.expression);
+    #d = merge(d, gene.expression.m, by=c("Sample", "Gene"), all.x=TRUE);
+    plot$data = merge(plot$data, gene.expression.m, all.x=TRUE);
+    layer.expression = geom_point(data=plot$data, aes(x=Sample, y=Gene, size=abs((Expression - Mean) / SD), color=((Expression - Mean) / SD)));
+    return(layer.expression)
+}

metadata CHANGED Viewed

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: rbbt-study
 version: !ruby/object:Gem::Version
-  version: 0.2.19
+  version: 0.2.20
 platform: ruby
 authors:
 - Miguel Vazquez
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2013-12-05 00:00:00.000000000 Z
+date: 2013-12-16 00:00:00.000000000 Z
 dependencies: []
 description: This gem add the study entity with suport for NGS, Microarray and other
   types of data
@@ -43,6 +43,8 @@ files:
 - lib/rbbt/entity/study/plots.rb
 - lib/rbbt/entity/study/samples.rb
 - lib/rbbt/entity/study/snp.rb
+- share/R/data.R
+- share/R/plots.R
 homepage: http://github.com/mikisvaz/rbbt-study
 licenses:
 - MIT