RubyGems - bio-publisci - Versions diffs - 0.0.6 → 0.0.7 - Mend

bio-publisci 0.0.6 → 0.0.7

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (84) hide show

checksums.yaml +4 -4
data/Gemfile +1 -0
data/Rakefile +1 -1
data/examples/prov_dsl.prov +2 -1
data/examples/safe_gen.rb +7 -0
data/examples/visualization/primer.prov +66 -0
data/examples/visualization/prov_viz.rb +140 -0
data/examples/visualization/viz.rb +35 -0
data/features/metadata_steps.rb +2 -4
data/features/orm_steps.rb +4 -4
data/features/reader_steps.rb +1 -1
data/features/store_steps.rb +1 -1
data/features/writer.feature +1 -1
data/features/writer_steps.rb +1 -1
data/lib/bio-publisci.rb +10 -2
data/lib/bio-publisci/analyzer.rb +4 -4
data/lib/bio-publisci/{spira.rb → datacube_model.rb} +4 -5
data/lib/bio-publisci/dataset/ORM/data_cube_orm.rb +12 -12
data/lib/bio-publisci/dataset/ORM/observation.rb +1 -1
data/lib/bio-publisci/dataset/configuration.rb +31 -0
data/lib/bio-publisci/dataset/data_cube.rb +28 -17
data/lib/bio-publisci/dataset/dataset.rb +11 -0
data/lib/bio-publisci/dataset/dataset_for.rb +19 -9
data/lib/bio-publisci/dataset/interactive.rb +1 -1
data/lib/bio-publisci/dsl/config.rb +34 -0
data/lib/bio-publisci/dsl/dataset_dsl.rb +91 -0
data/lib/bio-publisci/dsl/dsl.rb +69 -0
data/lib/bio-publisci/dsl/metadata_dsl.rb +85 -0
data/lib/bio-publisci/{metadata/prov/dsl.rb → dsl/prov_dsl.rb} +30 -6
data/lib/bio-publisci/metadata/generator.rb +323 -0
data/lib/bio-publisci/metadata/metadata.rb +3 -314
data/lib/bio-publisci/metadata/prov/activity.rb +3 -1
data/lib/bio-publisci/metadata/prov/agent.rb +1 -1
data/lib/bio-publisci/metadata/prov/association.rb +2 -2
data/lib/bio-publisci/metadata/prov/config.rb +34 -0
data/lib/bio-publisci/metadata/prov/derivation.rb +7 -2
data/lib/bio-publisci/metadata/prov/element.rb +2 -2
data/lib/bio-publisci/metadata/prov/entity.rb +1 -22
data/lib/bio-publisci/metadata/prov/model/prov_models.rb +8 -9
data/lib/bio-publisci/metadata/prov/plan.rb +1 -1
data/lib/bio-publisci/metadata/prov/prov.rb +23 -21
data/lib/bio-publisci/metadata/prov/role.rb +1 -1
data/lib/bio-publisci/metadata/prov/usage.rb +1 -1
data/lib/bio-publisci/metadata/publisher.rb +25 -0
data/lib/bio-publisci/mixins/dereferencable.rb +1 -1
data/lib/bio-publisci/mixins/registry.rb +27 -0
data/lib/bio-publisci/output.rb +1 -1
data/lib/bio-publisci/parser.rb +1 -1
data/lib/bio-publisci/query/query_helper.rb +14 -14
data/lib/bio-publisci/r_client.rb +5 -5
data/lib/bio-publisci/readers/arff.rb +5 -5
data/lib/bio-publisci/readers/csv.rb +3 -3
data/lib/bio-publisci/readers/dataframe.rb +3 -3
data/lib/bio-publisci/readers/r_cross.rb +4 -4
data/lib/bio-publisci/readers/r_matrix.rb +3 -3
data/lib/bio-publisci/store.rb +3 -3
data/lib/bio-publisci/writers/arff.rb +6 -6
data/lib/bio-publisci/writers/dataframe.rb +5 -5
data/scripts/islet_mlratio.rb +1 -1
data/scripts/scan_islet.rb +1 -1
data/scripts/update_reference.rb +2 -2
data/spec/ORM/data_cube_orm_spec.rb +2 -2
data/spec/ORM/prov_model_spec.rb +19 -0
data/spec/analyzer_spec.rb +7 -7
data/spec/data_cube_spec.rb +13 -13
data/spec/dataset_for_spec.rb +11 -4
data/spec/dsl_spec.rb +90 -0
data/spec/generators/csv_spec.rb +4 -4
data/spec/generators/dataframe_spec.rb +6 -6
data/spec/generators/r_cross_spec.rb +2 -2
data/spec/generators/r_matrix_spec.rb +2 -2
data/spec/metadata/metadata_dsl_spec.rb +68 -0
data/spec/prov/activity_spec.rb +4 -4
data/spec/prov/agent_spec.rb +3 -4
data/spec/prov/association_spec.rb +1 -2
data/spec/prov/config_spec.rb +28 -0
data/spec/prov/derivation_spec.rb +30 -0
data/spec/prov/entity_spec.rb +3 -4
data/spec/prov/role_spec.rb +1 -2
data/spec/prov/usage_spec.rb +1 -2
data/spec/r_builder_spec.rb +3 -3
data/spec/turtle/bacon +20 -4
data/spec/turtle/reference +20 -4
metadata +37 -4

data/lib/bio-publisci/writers/dataframe.rb CHANGED Viewed

@@ -1,4 +1,4 @@
-module R2RDF
+module PubliSci
   module Writer
     module Dataframe
@@ -39,7 +39,7 @@ module R2RDF
   end
   class Builder
-    include R2RDF::Writer::Dataframe
+    include PubliSci::Writer::Dataframe
     def from_turtle(turtle_file, connection, variable_in=nil, variable_out=nil, verbose=true, save=true)
@@ -51,7 +51,7 @@ module R2RDF
       repo = RDF::Repository.load(turtle_file)
       puts "loaded #{repo.size} statements into temporary repo" if verbose
       # connection = Rserve::Connection.new
-      query = R2RDF::QueryHelper.new
+      query = PubliSci::QueryHelper.new
       rows = get_rownames(variable_in, query, repo)
       puts "frame has #{rows.size} rows" if verbose
@@ -69,8 +69,8 @@ module R2RDF
       end
       puts "connecting to endpoint at #{endpoint_url}" if verbose
       sparql = SPARQL::Client.new(endpoint_url)
-      # client = R2RDF::Client.new
-      query = R2RDF::QueryHelper.new
+      # client = PubliSci::Client.new
+      query = PubliSci::QueryHelper.new
       rows = query.get_ary(sparql.query(query.row_names(variable_in))).flatten

data/scripts/islet_mlratio.rb CHANGED Viewed

@@ -1,6 +1,6 @@
 load File.dirname(__FILE__) + '/../lib/bio-publisci.rb'
-gen = R2RDF::Reader::RMatrix.new
+gen = PubliSci::Reader::RMatrix.new
 con = Rserve::Connection.new
 con.eval("load('#{ARGV[0] || './.RData'}')")
 gen.generate_n3(con, "islet.mlratio", "pheno", {measures: ["probe","individual","pheno"], no_labels: true})

data/scripts/scan_islet.rb CHANGED Viewed

@@ -1,6 +1,6 @@
 load File.dirname(__FILE__) + '/../lib/bio-publisci.rb'
-gen = R2RDF::Reader::RMatrix.new
+gen = PubliSci::Reader::RMatrix.new
 con = Rserve::Connection.new
 con.eval("load('#{ARGV[0] || './.RData'}')")
 gen.generate_n3(con, "scan.islet", "scan", {measures: ["probe","marker","lod"], no_labels: true})

data/scripts/update_reference.rb CHANGED Viewed

@@ -4,12 +4,12 @@ exit unless gets.chomp == 'y'
 puts "overwriting #{File.absolute_path(File.dirname(__FILE__) + '/../spec/turtle/bacon')}"
 load File.dirname(__FILE__) + '/../lib/bio-publisci.rb'
-gen = R2RDF::Reader::CSV.new
+gen = PubliSci::Reader::CSV.new
 turtle_string = gen.generate_n3(File.dirname(__FILE__) + '/../spec/csv/bacon.csv','bacon',{dimensions:["producer","pricerange"], label_column:0})
 open(File.dirname(__FILE__) + '/../spec/turtle/bacon', 'w'){|f| f.write turtle_string}
 rcon = Rserve::Connection.new
-gen = R2RDF::Reader::Dataframe.new
+gen = PubliSci::Reader::Dataframe.new
 rcon.void_eval <<-EOF
 library(qtl)
 data(listeria)

data/spec/ORM/data_cube_orm_spec.rb CHANGED Viewed

@@ -1,10 +1,10 @@
 require_relative '../../lib/bio-publisci.rb'
-describe R2RDF::ORM::DataCube do
+describe PubliSci::ORM::DataCube do
   it "should load and save a turtle file without loss of information" do
     ref = IO.read(File.dirname(__FILE__) + '/../turtle/bacon')
-    cube = R2RDF::ORM::DataCube.load(ref, {skip_metadata: true, generator_options: {label_column: 0}})
+    cube = PubliSci::ORM::DataCube.load(ref, {skip_metadata: true, generator_options: {label_column: 0}})
     cube.abbreviate_known(cube.to_n3).should == ref
     # cube.to_n3.should == ref
   end

data/spec/ORM/prov_model_spec.rb ADDED Viewed

@@ -0,0 +1,19 @@
+require_relative '../../lib/bio-publisci.rb'
+include PubliSci::Prov::DSL
+# include PubliSci::Prov
+describe PubliSci::Prov::Model do
+  it "can be loaded from" do
+    ev = PubliSci::Prov::DSL::Instance.new
+    r = ev.instance_eval do
+      entity :datathing
+      activity :process, generated: :datathing
+      to_repository
+    end
+    Spira.add_repository :default, r
+    PubliSci::Prov::Model::Entity.first.should_not be nil
+  end
+end

data/spec/analyzer_spec.rb CHANGED Viewed

@@ -1,25 +1,25 @@
 require_relative '../lib/bio-publisci.rb'
-describe R2RDF::Analyzer do
-	class Ana
-		include R2RDF::Analyzer
+describe PubliSci::Analyzer do
+	class Ana
+		include PubliSci::Analyzer
 	end
 	before(:all) do
 		@analyzer = Ana.new
 		@measures = ['chunkiness','deliciousness']
 		@dimensions = ['producer', 'pricerange']
 		@labels = %w(hormel newskies whys)
-		@data =
+		@data =
 		{
 			"producer" =>      ["hormel","newskies",  "whys"],
 			"pricerange" =>    ["low",   "medium",    "nonexistant"],
 			"chunkiness"=>     [1,         6,          9001],
-			"deliciousness"=>  [1,         9,          6]
+			"deliciousness"=>  [1,         9,          6]
 		}
 	end
 	it "should run a basic validation" do
 		newdata = []

data/spec/data_cube_spec.rb CHANGED Viewed

@@ -7,13 +7,13 @@
 require_relative '../lib/bio-publisci.rb'
-describe R2RDF::Dataset::DataCube do
+describe PubliSci::Dataset::DataCube do
 	context "with Plain Old Ruby objects" do
 		#define a temporary class to use module methods
 		before(:all) do
 			class Gen
-				include R2RDF::Dataset::DataCube
+				include PubliSci::Dataset::DataCube
 			end
 			@generator = Gen.new
@@ -21,20 +21,20 @@ describe R2RDF::Dataset::DataCube do
 			@dimensions = ['producer', 'pricerange']
 			@codes = @dimensions #all dimensions coded for the tests
 			@labels = %w(hormel newskies whys)
-			@data =
+			@data =
 			{
 				"producer" =>      ["hormel","newskies",  "whys"],
 				"pricerange" =>    ["low",   "medium",    "nonexistant"],
 				"chunkiness"=>     [1,         6,          9001],
-				"deliciousness"=>  [1,         9,          6]
+				"deliciousness"=>  [1,         9,          6]
 			}
 		end
 		it "should have correct output according to the reference file" do
 			turtle_string = @generator.generate(@measures, @dimensions, @codes,	@data, @labels, 'bacon')
 			ref = IO.read(File.dirname(__FILE__) + '/turtle/bacon')
-			turtle_string.should == ref
+      turtle_string.should == ref
 		end
 		context "with missing values" do
@@ -45,12 +45,12 @@ describe R2RDF::Dataset::DataCube do
 					"producer" =>      "missingbacon",
 					"pricerange" =>    "unknown",
 					"chunkiness"=>     nil,
-					"deliciousness"=>  nil,
+					"deliciousness"=>  nil,
 				}
 				missingobs.map{|k,v| @missing_data[k] << v}
 			end
-			it "skips observations with missing values by default" do
+			it "skips observations with missing values by default" do
 				turtle_string = @generator.generate(@measures, @dimensions, @codes,	@missing_data, @labels + ["missingbacon"], 'bacon')
 				turtle_string[/.*obsmissingbacon.*\n/].should be nil
 			end
@@ -78,7 +78,7 @@ describe R2RDF::Dataset::DataCube do
 			end
 			it 'generates component specifications' do
-				components = @generator.component_specifications(@measures , @dimensions, "bacon")
+				components = @generator.component_specifications(@measures , @dimensions, @codes, "bacon")
 				components.is_a?(Array).should == true
 				components.first.is_a?(String).should == true
 			end
@@ -97,16 +97,16 @@ describe R2RDF::Dataset::DataCube do
 			it 'generates observations' do
 				#measures, dimensions, codes, var, observation_labels, data, options={}
 				observations = @generator.observations(@measures, @dimensions, @codes, @data, @labels, "bacon")
 				observations.is_a?(Array).should == true
 				observations.first.is_a?(String).should == true
 			end
 	end
   context "under official integrity constraints" do
   	before(:all) do
-  		@graph = RDF::Graph.load(File.dirname(__FILE__) + '/turtle/reference', :format => :ttl)
+  		@graph = RDF::Graph.load(File.dirname(__FILE__) + '/turtle/reference', :format => :ttl)
 			@checks = {}
 			Dir.foreach(File.dirname(__FILE__) + '/queries/integrity') do |file|
 				if file.split('.').last == 'rq'
@@ -156,7 +156,7 @@ describe R2RDF::Dataset::DataCube do
   		# SPARQL.execute(@checks['19_2'], @graph).first.should be_nil
   	end
   end
 		it "can set dimensions vs measures via hash" do

data/spec/dataset_for_spec.rb CHANGED Viewed

@@ -1,18 +1,18 @@
 require_relative '../lib/bio-publisci.rb'
-describe R2RDF::Dataset do
+describe PubliSci::Dataset do
   context 'with a csv file' do
     before(:all) do
       @file = File.dirname(__FILE__) + '/csv/bacon.csv'
     end
     it "should load with no prompts if all details are specified" do
-      turtle_string = R2RDF::Dataset.for(@file,{dimensions:["producer"],measures:["pricerange"]},false)
+      turtle_string = PubliSci::Dataset.for(@file,{dimensions:["producer"],measures:["pricerange"]},false)
       (turtle_string =~ /qb:Observation/).should_not be nil
     end
     it "will request user input if not provided" do
-      gen = R2RDF::Reader::CSV.new
+      gen = PubliSci::Reader::CSV.new
       gen.stub(:gets).and_return('pricerange,producer')
       gen.stub(:puts)
       turtle_string = gen.automatic(@file,nil,{measures:["chunkiness"]})
@@ -21,7 +21,14 @@ describe R2RDF::Dataset do
     end
     it "will try to guess if told not to be interactive" do
-      turtle_string = R2RDF::Dataset.for(@file,false)
+      turtle_string = PubliSci::Dataset.for(@file,false)
+      (turtle_string =~ /prop:pricerange/).should_not be nil
+      (turtle_string =~ /prop:producer/).should_not be nil
+    end
+    it "will attempt to load remote file if given URI" do
+      loc = 'https://raw.github.com/wstrinz/bioruby-publisci/master/spec/csv/bacon.csv'
+      turtle_string = PubliSci::Dataset.for(loc,false)
       (turtle_string =~ /prop:pricerange/).should_not be nil
       (turtle_string =~ /prop:producer/).should_not be nil
     end

data/spec/dsl_spec.rb ADDED Viewed

@@ -0,0 +1,90 @@
+require_relative '../lib/bio-publisci.rb'
+describe PubliSci::DSL do
+  include PubliSci::DSL
+  before(:each) do
+    PubliSci::Prov.registry.clear
+    PubliSci::Metadata.registry.clear
+    PubliSci::Dataset.registry.clear
+  end
+  it "can generate dataset, metadata, and provenance when given a script" do
+    dat = data do
+      object 'spec/csv/bacon.csv'
+    end
+    met = metadata do
+      name "Will"
+    end
+    prv = provenance do
+      entity :a_thing
+    end
+    met.should_not be nil
+    prv.should_not be nil
+    dat.should_not be nil
+    generate_n3.size.should > 0
+  end
+  it "can generate dataset, metadata, and provenance when given a script" do
+    dat = data do
+      object 'https://raw.github.com/wstrinz/bioruby-publisci/master/spec/csv/bacon.csv'
+    end
+    dat.should_not be nil
+    generate_n3.size.should > 0
+  end
+  it "can set generator options" do
+    dat = data do
+      object 'spec/csv/bacon.csv'
+      option :no_labels, true
+    end
+    str = generate_n3
+    str[/rdfs:label "\d"/].should == nil
+  end
+  it "can output to in-memory repository" do
+    dat = data do
+      object 'spec/csv/bacon.csv'
+    end
+    repo = to_repository
+    repo.is_a?(RDF::Repository).should be true
+    repo.size.should > 0
+  end
+  it "can output to 4store repository", no_travis: true do
+    configure do |cfg|
+      cfg.repository = :fourstore
+    end
+    dat = data do
+      object 'spec/csv/bacon.csv'
+    end
+    repo = RDF::FourStore::Repository.new('http://localhost:8080/')
+    old_size = repo.size
+    repo = to_repository
+    repo.is_a?(RDF::FourStore::Repository).should be true
+    repo.size.should > old_size
+  end
+  it "can output provenance to 4store", no_travis: true do
+    ev = PubliSci::Prov::DSL::Instance.new
+    str = IO.read('examples/primer-full.prov')
+    ev.instance_eval(str,'examples/primer-full.prov')
+    ev.instance_eval <<-EOF
+      configure do |cfg|
+        cfg.repository = :fourstore
+      end
+    EOF
+    repo = RDF::FourStore::Repository.new('http://localhost:8080/')
+    old_size = repo.size
+    repo = ev.to_repository
+    repo.is_a?(RDF::FourStore::Repository).should be true
+    repo.size.should > old_size
+  end
+end

data/spec/generators/csv_spec.rb CHANGED Viewed

@@ -5,8 +5,8 @@ require_relative '../../lib/bio-publisci.rb'
 # require 'rdf/turtle'
 require 'tempfile'
-describe R2RDF::Reader::CSV do
+describe PubliSci::Reader::CSV do
 	def create_graph(turtle_string)
 		f = Tempfile.new('graph')
 		f.write(turtle_string)
@@ -16,8 +16,8 @@ describe R2RDF::Reader::CSV do
 		graph
 	end
-	before(:each) do
-		@generator = R2RDF::Reader::CSV.new
+	before(:each) do
+		@generator = PubliSci::Reader::CSV.new
 	end
 	context 'with reference CSV' do

data/spec/generators/dataframe_spec.rb CHANGED Viewed

@@ -1,7 +1,7 @@
 require_relative '../../lib/bio-publisci.rb'
-describe R2RDF::Reader::Dataframe do
+describe PubliSci::Reader::Dataframe do
 	def create_graph(turtle_string)
 		f = Tempfile.new('graph')
 		f.write(turtle_string)
@@ -12,9 +12,9 @@ describe R2RDF::Reader::Dataframe do
 	end
   context "with r/qtl dataframe", no_travis: true do
-		before(:all) do
+		before(:all) do
 			@r = Rserve::Connection.new
-			@generator = R2RDF::Reader::Dataframe.new
+			@generator = PubliSci::Reader::Dataframe.new
 			@r.eval <<-EOF
 				library(qtl)
 				data(listeria)
@@ -28,7 +28,7 @@ EOF
 			turtle = @generator.generate_n3(@rexp,'mr')
 			turtle.is_a?(String).should be true
 		end
 		it "creates correct graph according to refrence file" do
 			reference = IO.read(File.dirname(__FILE__) + '/../turtle/reference')
 			@turtle.should eq reference
@@ -39,6 +39,6 @@ EOF
 		end
 	end
 end

data/spec/generators/r_cross_spec.rb CHANGED Viewed

@@ -2,7 +2,7 @@ require_relative '../../lib/bio-publisci.rb'
 require 'tempfile'
-describe R2RDF::Reader::RCross do
+describe PubliSci::Reader::RCross do
   def create_graph(turtle_string)
     f = Tempfile.new('graph')
@@ -16,7 +16,7 @@ describe R2RDF::Reader::RCross do
   context "with reduced listeria cross", no_travis: true do
     before(:all) do
       @r = Rserve::Connection.new
-      @generator = R2RDF::Reader::RCross.new
+      @generator = PubliSci::Reader::RCross.new
       @r.eval <<-EOF
         library(qtl)
         data(listeria)

data/spec/generators/r_matrix_spec.rb CHANGED Viewed

@@ -6,7 +6,7 @@ require_relative '../../lib/bio-publisci.rb'
 require 'tempfile'
-describe R2RDF::Reader::RMatrix do
+describe PubliSci::Reader::RMatrix do
 	def create_graph(turtle_string)
 		f = Tempfile.new('graph')
@@ -18,7 +18,7 @@ describe R2RDF::Reader::RMatrix do
 	end
 	before(:each) do
-		@generator = R2RDF::Reader::RMatrix.new
+		@generator = PubliSci::Reader::RMatrix.new
 		@connection = Rserve::Connection.new
 	end