RubyGems - bio-publisci - Versions diffs - 0.0.2 → 0.0.3 - Mend

bio-publisci 0.0.2 → 0.0.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (41) hide show

checksums.yaml +7 -0
data/.travis.yml +1 -1
data/Gemfile +1 -1
data/Rakefile +4 -6
data/features/integration_steps.rb +1 -1
data/features/metadata.feature +24 -0
data/features/metadata_steps.rb +21 -0
data/lib/bio-publisci/dataset/ORM/data_cube_orm.rb +36 -14
data/lib/bio-publisci/dataset/ORM/observation.rb +1 -1
data/lib/bio-publisci/dataset/data_cube.rb +192 -131
data/lib/bio-publisci/dataset/dataset_for.rb +150 -0
data/lib/bio-publisci/dataset/interactive.rb +70 -55
data/lib/bio-publisci/metadata/metadata.rb +81 -8
data/lib/bio-publisci/parser.rb +76 -1
data/lib/bio-publisci/readers/big_cross.rb +118 -117
data/lib/bio-publisci/readers/csv.rb +37 -2
data/lib/bio-publisci/readers/r_matrix.rb +1 -1
data/lib/bio-publisci/store.rb +31 -31
data/lib/bio-publisci/writers/arff.rb +48 -49
data/lib/bio-publisci.rb +3 -0
data/resources/queries/code_resources.rq +10 -0
data/resources/queries/dimension_ranges.rq +3 -3
data/resources/queries/dimensions.rq +3 -3
data/resources/queries/measures.rq +3 -3
data/resources/queries/observation_labels.rq +8 -0
data/resources/queries/properties.rq +8 -0
data/scripts/islet_mlratio.rb +6 -0
data/scripts/scan_islet.rb +6 -0
data/scripts/update_reference.rb +20 -0
data/spec/ORM/data_cube_orm_spec.rb +12 -0
data/spec/data_cube_spec.rb +1 -1
data/spec/generators/dataframe_spec.rb +1 -1
data/spec/generators/r_matrix_spec.rb +1 -1
data/spec/r_builder_spec.rb +6 -6
data/spec/resource/.RData +0 -0
data/spec/resource/example.Rhistory +3 -0
data/spec/turtle/bacon +4 -22
data/spec/turtle/reference +9 -27
metadata +37 -56
data/lib/bio-publisci/loader.rb +0 -36
data/spec/bio-publisci_spec.rb +0 -7

data/lib/bio-publisci/dataset/dataset_for.rb ADDED Viewed

@@ -0,0 +1,150 @@
+module R2RDF
+  class Dataset
+    extend R2RDF::Interactive
+    def self.for(object, options={}, ask_on_ambiguous=true)
+      if object.is_a? String
+        if File.exist? object
+          if File.extname(object).size > 0
+            extension = File.extname(object)
+          elsif File.basename(object)[0] == '.' && File.basename(object).count('.') == 1
+            extension = File.basename(object)
+          else
+            raise "Can't load file #{object}; type inference not yet implemented"
+          end
+          case extension
+          when ".RData"
+            r_object(object, options, ask_on_ambiguous)
+          when /.csv/i
+            R2RDF::Reader::CSV.new.automatic(object,nil,options,ask_on_ambiguous)
+          end
+        else
+          raise "Unable to find reader for File or String"
+        end
+      elsif object.is_a? Rserve::REXP
+        r_object(object, options, ask_on_ambiguous)
+      else
+        raise "not recognize Ruby objects of this type yet (#{object})"
+      end
+    end
+    def self.r_object(object, options={}, ask_on_ambiguous=true)
+      if object.is_a? String
+        con = Rserve::Connection.new
+        vars = con.eval("load('#{File.absolute_path object}')")
+        if vars.to_ruby.size > 1 && ask_on_ambiguous
+          puts "Which variable? #{vars.to_ruby}"
+          var = vars.to_ruby[gets.to_i]
+        else
+          var = vars.to_ruby[0]
+        end
+        r_classes = con.eval("class(#{var})").to_ruby
+        if r_classes.include? "data.frame"
+          df = R2RDF::Reader::Dataframe.new
+          unless options[:dimensions] || !ask_on_ambiguous
+            dims = con.eval("names(#{var})").to_ruby
+            puts "Which dimensions? #{dims}"
+            selection = gets.chomp
+            if selection.size > 0
+              options[:dimensions] = selection.split(',').map(&:to_i).map{|i| dims[i]}
+            end
+          end
+          unless options[:measures] || !ask_on_ambiguous
+            meas = con.eval("names(#{var})").to_ruby
+            puts "Which measures? #{meas} "
+            selection = gets.chomp
+            if selection.size > 0
+              options[:measures] = selection.split(',').map(&:to_i).map{|i| meas[i]}
+            end
+          end
+          df.generate_n3(con.eval(var),var,options)
+        elsif r_classes.include? "cross"
+          bc = R2RDF::Reader::BigCross.new
+          unless options[:measures] || !ask_on_ambiguous
+            pheno_names = con.eval("names(#{var}$pheno)").to_ruby
+            puts "Which phenotype traits? #{pheno_names}"
+            selection = gets.chomp
+            if selection.size > 0
+              options[:measures] = selection.split(',').map(&:to_i).map{|i| pheno_names[i]}
+            end
+          end
+          base = var
+          if ask_on_ambiguous
+            puts "Output file base?"
+            base = gets.chomp
+            base = var unless base.size > 0
+          end
+          bc.generate_n3(con, var, base, options)
+        elsif r_classes.include? "matrix"
+          mat = R2RDF::Reader::RMatrix.new
+          unless options[:measures] || !ask_on_ambiguous
+            puts "Row label"
+            rows = gets.chomp
+            rows = "row" unless rows.size > 0
+            puts "Column label"
+            cols = gets.chomp
+            cols = "column" unless cols.size > 0
+            puts "Entry label"
+            vals = gets.chomp
+            vals = "value" unless vals.size > 0
+            options[:measures] = [cols,rows,vals]
+          end
+          base = var
+          if ask_on_ambiguous
+            puts "Output file base?"
+            base = gets.chomp
+            base = var unless base.size > 0
+          end
+          mat.generate_n3(con, var, base, options)
+        else
+          raise "no R2RDF::Reader found for #{r_classes}"
+        end
+      elsif object.is_a? Rserve::REXP
+        if object.attr.payload["class"].payload.first
+          df = R2RDF::Reader::Dataframe.new
+          var = nil
+          if ask_on_ambiguous
+            var = interact("Dataset name?",nil)
+          end
+          unless options[:dimensions] || !ask_on_ambiguous
+            dims = object.payload.names
+            selection = interact("Which dimensions?","row",dims){|s| puts s; nil}
+            options[:dimensions] = selection if selection
+          end
+          unless options[:measures] || !ask_on_ambiguous
+            meas = object.payload.names
+            options[:measures] = interact("Which measures?",meas,meas)
+          end
+          df.generate_n3(object,var,options)
+        else
+          raise "support for other Rserve objects coming shortly"
+        end
+      else
+        raise "#{object} is not an R object"
+      end
+    end
+  end
+end

data/lib/bio-publisci/dataset/interactive.rb CHANGED Viewed

@@ -1,57 +1,72 @@
 module R2RDF
-	module Dataset
-		module Interactive
-			#to be called by other classes if user input is required
-			def defaults
-				{
-					load_from_file: false
-				}
-			end
-			def interactive(options={})
-				options = defaults.merge(options)
-				qb = {}
-				puts "load config from file? [y/N]"
-				if gets.chomp == "y"
-					#use yaml or DSL file to configure
-				else
-					qb[:dimensions] = dimensions()
-					qb[:measures] = measures()
-				end
-				puts "load data from file? [y/N]"
-				if gets.chomp == "y"
-					#attempt to load dataset from file, ask user to resolve problems or ambiguity
-				else
-				end
-				qb
-			end
-			def dimensions
-				puts "Enter a list of dimensions, separated by commas"
-				arr = gets.chomp.split(",")
-				dims = {}
-				arr.map{|dim|
-					puts "What is the range of #{dim.chomp.strip}? [:coded]"
-					type = gets.chomp
-					type = :coded if type == ":coded" || type == ""
-					dims[dim.chomp.strip] = {type: type}
-				}
-				dims
-			end
-			def measures
-				puts "Enter a list of measures, separated by commas"
-				arr = gets.chomp.split(",")
-				meas = []
-				arr.map{|m| meas << m.chomp.strip}
-				meas
-			end
-		end
-	end
+  module Interactive
+    #to be called by other classes if user input is required
+    #take message, options, defaults. can be passed block to handle default as well
+    def interact(message, default, options=nil)
+      puts message + " (#{default})\n[#{options}]"
+      str = gets.chomp
+      if str.size > 0
+        if options
+          if str.split(',').all?{|s| Integer(s) rescue nil}
+            str.split(',').map(&:to_i).map{|i| options[i]}
+          else
+            str.split(',').each{|s| raise "unkown selection #{s}" unless options.include? s.strip}
+            str.split(',').map(&:strip)
+          end
+        else
+          str
+        end
+      elsif block_given?
+        yield str
+      else
+        default
+      end
+    end
+    # def interactive(options={})
+    #   options = defaults.merge(options)
+    #   qb = {}
+    #   puts "load config from file? [y/N]"
+    #   if gets.chomp == "y"
+    #     #use yaml or DSL file to configure
+    #   else
+    #     qb[:dimensions] = dimensions()
+    #     qb[:measures] = measures()
+    #   end
+    #   puts "load data from file? [y/N]"
+    #   if gets.chomp == "y"
+    #     #attempt to load dataset from file, ask user to resolve problems or ambiguity
+    #   else
+    #   end
+    #   qb
+    # end
+    # def dimensions
+    #   puts "Enter a list of dimensions, separated by commas"
+    #   arr = gets.chomp.split(",")
+    #   dims = {}
+    #   arr.map{|dim|
+    #     puts "What is the range of #{dim.chomp.strip}? [:coded]"
+    #     type = gets.chomp
+    #     type = :coded if type == ":coded" || type == ""
+    #     dims[dim.chomp.strip] = {type: type}
+    #   }
+    #   dims
+    # end
+    # def measures
+    #   puts "Enter a list of measures, separated by commas"
+    #   arr = gets.chomp.split(",")
+    #   meas = []
+    #   arr.map{|m| meas << m.chomp.strip}
+    #   meas
+    # end
+  end
 end

data/lib/bio-publisci/metadata/metadata.rb CHANGED Viewed

@@ -6,6 +6,8 @@ end
 module R2RDF
   module Metadata
+    include R2RDF::Parser
     def defaults
     {
       encode_nulls: false,
@@ -18,7 +20,20 @@ module R2RDF
       #make it just "var", and try to make that clear to calling classes
       fields[:var] = sanitize([fields[:var]]).first
+      unless fields[:creator]
+        if ENV['USER']
+          fields[:creator] = ENV['USER']
+        elsif ENV['USERNAME']
+          fields[:creator] = ENV['USERNAME']
+        end
+      end
+      fields[:date] = Time.now.strftime("%Y-%m-%d") unless fields[:date]
       options = defaults().merge(options)
+      #TODO some of these should probably be resources, eg dct:creator, or put under DC namespace
       str = <<-EOF.unindent
       ns:dataset-#{fields[:var]} rdfs:label "#{fields[:title]}";
         dct:title "#{fields[:title]}";
@@ -52,19 +67,77 @@ module R2RDF
     def provenance(fields, options={})
       #TODO: should either add a prefixes method or replace some with full URIs
       var = sanitize([fields[:var]]).first
+      creator = fields[:creator] if fields[:creator] #should be URI
+      org = fields[:organization] if fields[:organization] #should be URI
       source_software = fields[:software] # software name, object type, optionally steps list for, eg, R
+      str = "ns:dataset-#{var} a prov:Entity.\n\n"
+      assoc_id = Time.now.nsec.to_s(32)
+      endstr = <<-EOF.unindent
+        </ns/R2RDF> a prov:Agent .
+        ns:dataset-#{var} prov:wasGeneratredBy ns:activity-0 .
+        ns:activity-0 a prov:Activity ;
+          prov:qualifiedAssociation ns:assoc-0_#{assoc_id};
+          prov:generated ns:dataset-#{var} .
+        ns:assoc-0_#{assoc_id} a prov:Assocation ;
+          prov:entity </ns/R2RDF>;
+          prov:hadPlan ns:plan-0.
+        ns:plan-0 a prov:Plan ;
+          rdfs:comment "generation of dataset-#{var} by R2RDF gem".
+      EOF
+      if creator
+        str << "<#{creator}> a prov:Agent, prov:Person .\n"
+        str << "</ns/R2RDF> prov:actedOnBehalfOf <#{creator}> .\n\n"
+        if org
+          str << "<#{org}> a prov:Agent, prov:Organization .\n"
+          str << "<#{creator}> prov:actedOnBehalfOf <#{org}> .\n"
+        end
+      end
-      str = "qb:dataset-#{var} a prov:Entity.\n"
-      endstr = "qb:dataset-#{var} prov:wasGeneratredBy <#{options[:base_url]}/ns/R2RDF>\n" #replace once gem has an actual name
       if source_software
-        source_software = [source_software] unless source_software.respond_to? :map
-        source_software.map{|soft|
-          str << "<#{options[:base_url]}/ns/prov/software/#{soft}> a prov:Entity .\n"
+        source_software = [source_software] unless source_software.is_a? Array
+        source_software.each_with_index.map{|soft,i|
+          str << "</ns/prov/software/#{soft[:name]}> a prov:Agent .\n"
-          #Note: probably should say derived from the software object, then software object from software.
-          endstr << "qb:dataset-#{var} prov:wasDerivedFrom <#{options[:base_url]}/ns/prov/#{soft}> .\n"
+          endstr << "ns:activity-0 prov:used </ns/dataset/#{var}#var> .\n"
+          endstr << "ns:dataset-#{var} prov:wasDerivedFrom </ns/dataset/#{var}#var> .\n\n"
+          if soft[:process]
+            if File.exist? soft[:process]
+              soft[:process] = IO.read(soft[:process])
+            end
+            endstr << "</ns/dataset/#{var}#var> prov:wasGeneratredBy ns:activity-#{i+1} .\n"
+            endstr << process(i+1, soft[:process],"/ns/prov/software/#{soft[:name]}", var)
+          end
         }
       end
+      str + "\n" + endstr
+    end
+    def process(id, step_string, software_resource, software_var, options={})
+      #TODO a better predicate for the steplist than rdfs:comment
+      # and make sure it looks good.
+      steps = '"' + step_string.split("\n").join('" "') + '"'
+      assoc_id = Time.now.nsec.to_s(32)
+      str = <<-EOF.unindent
+        ns:activity-#{id} a prov:Activity ;
+          prov:qualifiedAssociation ns:assoc-#{assoc_id} ;
+          prov:used </ns/dataset/#{software_var}#var>.
+        ns:assoc-#{id}_#{assoc_id} a prov:Assocation ;
+          prov:entity <#{software_resource}>;
+          prov:hadPlan ns:plan-#{id}.
+        ns:plan-#{id} a prov:Plan ;
+          rdfs:comment (#{steps});
+      EOF
     end
     def r2rdf_metadata
@@ -77,7 +150,7 @@ module R2RDF
     def org_metadata
       str <<-EOF.unindent
-        <http://sciruby.com/> a org:Organization;
+        <http://sciruby.com/> a org:Organization, prov:Organization;
           skos:prefLabel "SciRuby";
           rdfs:description "A Project to Build and Improve Tools for Scientific Computing in Ruby".
       EOF

data/lib/bio-publisci/parser.rb CHANGED Viewed

@@ -1,5 +1,34 @@
 module R2RDF
 	module Parser
+    def sanitize(array)
+      #remove spaces and other special characters
+      processed = []
+      array.map{|entry|
+        if entry.is_a? String
+          processed << entry.gsub(/[\s\.]/,'_')
+        else
+          processed << entry
+        end
+      }
+      processed
+    end
+    def sanitize_hash(h)
+      mappings = {}
+      h.keys.map{|k|
+        if(k.is_a? String)
+          mappings[k] = k.gsub(' ','_')
+        end
+      }
+      h.keys.map{|k|
+        h[mappings[k]] = h.delete(k) if mappings[k]
+      }
+      h
+    end
 		def create_graph(string)
 			f = Tempfile.new('graph')
 			f.write(string)
@@ -57,8 +86,54 @@ module R2RDF
 	    end
     end
+    def to_resource(obj, options)
+      if obj.is_a? String
+        obj = "<#{obj}>" if obj =~ /^http:\/\//
+        #TODO decide the right way to handle missing values, since RDF has no null
+        #probably throw an error here since a missing resource is a bigger problem
+        obj = "NA" if obj.empty?
+        #TODO  remove special characters (faster) as well (eg '?')
+        obj.gsub(' ','_').gsub('?','')
+      elsif obj == nil && options[:encode_nulls]
+        '"NA"'
+      elsif obj.is_a? Numeric
+        #resources cannot be referred to purely by integer (?)
+        "n"+obj.to_s
+      else
+        obj
+      end
+    end
+    def to_literal(obj, options)
+      if obj.is_a? String
+        # Depressing that there's no more elegant way to check if a string is
+        # a number...
+        if val = Integer(obj) rescue nil
+          val
+        elsif val = Float(obj) rescue nil
+          val
+        else
+          '"'+obj+'"'
+        end
+      elsif obj == nil && options[:encode_nulls]
+        #TODO decide the right way to handle missing values, since RDF has no null
+        '"NA"'
+      else
+        obj
+      end
+    end
     def strip_uri(uri)
-    	uri.to_s.split('/').last.split('#').last
+      uri = uri.to_s.dup
+      uri[-1] = '' if uri[-1] == '>'
+      uri.to_s.split('/').last.split('#').last
+    end
+    def strip_prefixes(string)
+      string.to_s.split(':').last
     end
 	end
 end