RubyGems - publisci - Versions diffs - 0.1.2 - Mend

publisci 0.1.2

Files changed (220) hide show

checksums.yaml +7 -0
data/.document +5 -0
data/.rspec +1 -0
data/.travis.yml +13 -0
data/Gemfile +36 -0
data/LICENSE.txt +20 -0
data/README.md +51 -0
data/README.rdoc +48 -0
data/Rakefile +68 -0
data/bin/bio-publisci +106 -0
data/bin/bio-publisci-server +50 -0
data/examples/bio-band_integration.rb +9 -0
data/examples/no_magic.prov +58 -0
data/examples/no_magic.rb +58 -0
data/examples/orm.prov +48 -0
data/examples/primer-full.prov +120 -0
data/examples/primer.prov +66 -0
data/examples/prov_dsl.prov +85 -0
data/examples/safe_gen.rb +7 -0
data/examples/visualization/primer.prov +66 -0
data/examples/visualization/prov_viz.rb +140 -0
data/examples/visualization/viz.rb +35 -0
data/features/create_generator.feature +21 -0
data/features/integration.feature +12 -0
data/features/integration_steps.rb +10 -0
data/features/metadata.feature +37 -0
data/features/metadata_steps.rb +40 -0
data/features/orm.feature +60 -0
data/features/orm_steps.rb +74 -0
data/features/prov_dsl.feature +14 -0
data/features/prov_dsl_steps.rb +11 -0
data/features/reader.feature +25 -0
data/features/reader_steps.rb +61 -0
data/features/step_definitions/bio-publisci_steps.rb +0 -0
data/features/store.feature +27 -0
data/features/store_steps.rb +42 -0
data/features/support/env.rb +13 -0
data/features/writer.feature +14 -0
data/features/writer_steps.rb +24 -0
data/lib/bio-publisci.rb +64 -0
data/lib/bio-publisci/analyzer.rb +57 -0
data/lib/bio-publisci/datacube_model.rb +111 -0
data/lib/bio-publisci/dataset/ORM/data_cube_orm.rb +240 -0
data/lib/bio-publisci/dataset/ORM/observation.rb +20 -0
data/lib/bio-publisci/dataset/configuration.rb +31 -0
data/lib/bio-publisci/dataset/data_cube.rb +418 -0
data/lib/bio-publisci/dataset/dataset.rb +11 -0
data/lib/bio-publisci/dataset/dataset_for.rb +186 -0
data/lib/bio-publisci/dataset/interactive.rb +72 -0
data/lib/bio-publisci/dsl/config.rb +34 -0
data/lib/bio-publisci/dsl/dataset_dsl.rb +93 -0
data/lib/bio-publisci/dsl/dsl.rb +72 -0
data/lib/bio-publisci/dsl/metadata_dsl.rb +85 -0
data/lib/bio-publisci/dsl/prov_dsl.rb +143 -0
data/lib/bio-publisci/metadata/generator.rb +323 -0
data/lib/bio-publisci/metadata/metadata.rb +5 -0
data/lib/bio-publisci/metadata/metadata_model.rb +25 -0
data/lib/bio-publisci/metadata/prov/activity.rb +88 -0
data/lib/bio-publisci/metadata/prov/agent.rb +100 -0
data/lib/bio-publisci/metadata/prov/association.rb +107 -0
data/lib/bio-publisci/metadata/prov/config.rb +34 -0
data/lib/bio-publisci/metadata/prov/derivation.rb +60 -0
data/lib/bio-publisci/metadata/prov/element.rb +120 -0
data/lib/bio-publisci/metadata/prov/entity.rb +64 -0
data/lib/bio-publisci/metadata/prov/model/prov_models.rb +109 -0
data/lib/bio-publisci/metadata/prov/plan.rb +32 -0
data/lib/bio-publisci/metadata/prov/prov.rb +78 -0
data/lib/bio-publisci/metadata/prov/role.rb +40 -0
data/lib/bio-publisci/metadata/prov/usage.rb +64 -0
data/lib/bio-publisci/metadata/publisher.rb +25 -0
data/lib/bio-publisci/mixins/custom_predicate.rb +38 -0
data/lib/bio-publisci/mixins/dereferencable.rb +34 -0
data/lib/bio-publisci/mixins/registry.rb +27 -0
data/lib/bio-publisci/mixins/vocabulary.rb +8 -0
data/lib/bio-publisci/output.rb +27 -0
data/lib/bio-publisci/parser.rb +266 -0
data/lib/bio-publisci/post_processor.rb +95 -0
data/lib/bio-publisci/query/query_helper.rb +123 -0
data/lib/bio-publisci/r_client.rb +54 -0
data/lib/bio-publisci/readers/arff.rb +49 -0
data/lib/bio-publisci/readers/base.rb +57 -0
data/lib/bio-publisci/readers/csv.rb +88 -0
data/lib/bio-publisci/readers/dataframe.rb +67 -0
data/lib/bio-publisci/readers/maf.rb +199 -0
data/lib/bio-publisci/readers/r_cross.rb +112 -0
data/lib/bio-publisci/readers/r_matrix.rb +176 -0
data/lib/bio-publisci/store.rb +56 -0
data/lib/bio-publisci/writers/arff.rb +91 -0
data/lib/bio-publisci/writers/base.rb +93 -0
data/lib/bio-publisci/writers/csv.rb +31 -0
data/lib/bio-publisci/writers/dataframe.rb +81 -0
data/lib/bio-publisci/writers/json.rb +18 -0
data/lib/r2rdf.rb +226 -0
data/lib/template_bak.rb +12 -0
data/lib/template_bak/publisci.rb +3 -0
data/lib/vocabs/cc.rb +18 -0
data/lib/vocabs/cert.rb +13 -0
data/lib/vocabs/dc.rb +63 -0
data/lib/vocabs/dc11.rb +23 -0
data/lib/vocabs/doap.rb +45 -0
data/lib/vocabs/exif.rb +168 -0
data/lib/vocabs/foaf.rb +69 -0
data/lib/vocabs/geo.rb +13 -0
data/lib/vocabs/http.rb +26 -0
data/lib/vocabs/ma.rb +78 -0
data/lib/vocabs/owl.rb +59 -0
data/lib/vocabs/rdfs.rb +17 -0
data/lib/vocabs/rsa.rb +12 -0
data/lib/vocabs/rss.rb +14 -0
data/lib/vocabs/sioc.rb +93 -0
data/lib/vocabs/skos.rb +36 -0
data/lib/vocabs/wot.rb +21 -0
data/lib/vocabs/xhtml.rb +9 -0
data/lib/vocabs/xsd.rb +58 -0
data/resources/maf_example.maf +10 -0
data/resources/maf_rdf.ttl +1173 -0
data/resources/primer.ttl +38 -0
data/resources/queries/code_resources.rq +10 -0
data/resources/queries/codes.rq +18 -0
data/resources/queries/dataset.rq +7 -0
data/resources/queries/dimension_ranges.rq +8 -0
data/resources/queries/dimensions.rq +12 -0
data/resources/queries/gene.rq +16 -0
data/resources/queries/hugo_to_ensembl.rq +7 -0
data/resources/queries/maf_column.rq +26 -0
data/resources/queries/measures.rq +12 -0
data/resources/queries/observation_labels.rq +8 -0
data/resources/queries/observations.rq +13 -0
data/resources/queries/patient.rq +11 -0
data/resources/queries/patient_list.rq +11 -0
data/resources/queries/patients_with_mutation.rq +18 -0
data/resources/queries/properties.rq +8 -0
data/resources/queries/test.rq +3 -0
data/resources/weather.numeric.arff +28 -0
data/scripts/get_gene_lengths.rb +50 -0
data/scripts/islet_mlratio.rb +6 -0
data/scripts/scan_islet.rb +6 -0
data/scripts/update_reference.rb +25 -0
data/server/helpers.rb +215 -0
data/server/public/src-min-noconflict/LICENSE +24 -0
data/server/public/src-min-noconflict/ace.js +11 -0
data/server/public/src-min-noconflict/ext-chromevox.js +1 -0
data/server/public/src-min-noconflict/ext-elastic_tabstops_lite.js +1 -0
data/server/public/src-min-noconflict/ext-emmet.js +1 -0
data/server/public/src-min-noconflict/ext-keybinding_menu.js +1 -0
data/server/public/src-min-noconflict/ext-language_tools.js +1 -0
data/server/public/src-min-noconflict/ext-modelist.js +1 -0
data/server/public/src-min-noconflict/ext-old_ie.js +1 -0
data/server/public/src-min-noconflict/ext-searchbox.js +1 -0
data/server/public/src-min-noconflict/ext-settings_menu.js +1 -0
data/server/public/src-min-noconflict/ext-spellcheck.js +1 -0
data/server/public/src-min-noconflict/ext-split.js +1 -0
data/server/public/src-min-noconflict/ext-static_highlight.js +1 -0
data/server/public/src-min-noconflict/ext-statusbar.js +1 -0
data/server/public/src-min-noconflict/ext-textarea.js +1 -0
data/server/public/src-min-noconflict/ext-themelist.js +1 -0
data/server/public/src-min-noconflict/ext-whitespace.js +1 -0
data/server/public/src-min-noconflict/keybinding-emacs.js +1 -0
data/server/public/src-min-noconflict/keybinding-vim.js +1 -0
data/server/public/src-min-noconflict/mode-ruby.js +1 -0
data/server/public/src-min-noconflict/snippets/ruby.js +1 -0
data/server/public/src-min-noconflict/theme-twilight.js +1 -0
data/server/public/src-min-noconflict/worker-coffee.js +1 -0
data/server/public/src-min-noconflict/worker-css.js +1 -0
data/server/public/src-min-noconflict/worker-javascript.js +1 -0
data/server/public/src-min-noconflict/worker-json.js +1 -0
data/server/public/src-min-noconflict/worker-lua.js +1 -0
data/server/public/src-min-noconflict/worker-php.js +1 -0
data/server/public/src-min-noconflict/worker-xquery.js +1 -0
data/server/routes.rb +123 -0
data/server/views/dsl.haml +65 -0
data/server/views/dump.haml +3 -0
data/server/views/import.haml +35 -0
data/server/views/new_repository.haml +25 -0
data/server/views/query.haml +28 -0
data/server/views/repository.haml +25 -0
data/spec/ORM/data_cube_orm_spec.rb +33 -0
data/spec/ORM/prov_model_spec.rb +72 -0
data/spec/analyzer_spec.rb +36 -0
data/spec/bnode_spec.rb +66 -0
data/spec/csv/bacon.csv +4 -0
data/spec/csv/moar_bacon.csv +11 -0
data/spec/data_cube_spec.rb +169 -0
data/spec/dataset_for_spec.rb +77 -0
data/spec/dsl_spec.rb +134 -0
data/spec/generators/csv_spec.rb +44 -0
data/spec/generators/dataframe_spec.rb +44 -0
data/spec/generators/maf_spec.rb +40 -0
data/spec/generators/r_cross_spec.rb +51 -0
data/spec/generators/r_matrix_spec.rb +44 -0
data/spec/length_lookup_spec.rb +0 -0
data/spec/maf_query_spec.rb +343 -0
data/spec/metadata/metadata_dsl_spec.rb +68 -0
data/spec/prov/activity_spec.rb +74 -0
data/spec/prov/agent_spec.rb +54 -0
data/spec/prov/association_spec.rb +55 -0
data/spec/prov/config_spec.rb +28 -0
data/spec/prov/derivation_spec.rb +30 -0
data/spec/prov/entity_spec.rb +52 -0
data/spec/prov/role_spec.rb +94 -0
data/spec/prov/usage_spec.rb +98 -0
data/spec/queries/integrity/1.rq +21 -0
data/spec/queries/integrity/11.rq +29 -0
data/spec/queries/integrity/12.rq +37 -0
data/spec/queries/integrity/14.rq +25 -0
data/spec/queries/integrity/19_1.rq +21 -0
data/spec/queries/integrity/19_2.rq +15 -0
data/spec/queries/integrity/2.rq +22 -0
data/spec/queries/integrity/3.rq +19 -0
data/spec/queries/integrity/4.rq +13 -0
data/spec/queries/integrity/5.rq +14 -0
data/spec/r_builder_spec.rb +33 -0
data/spec/resource/.RData +0 -0
data/spec/resource/example.Rhistory +3 -0
data/spec/spec_helper.rb +17 -0
data/spec/turtle/bacon +147 -0
data/spec/turtle/reference +2064 -0
data/spec/turtle/weather +275 -0
data/spec/writer_spec.rb +75 -0
metadata +589 -0

data/lib/bio-publisci/readers/r_cross.rb ADDED Viewed

@@ -0,0 +1,112 @@
+module PubliSci
+  module Readers
+    class RCross
+      include PubliSci::Dataset::DataCube
+      include PubliSci::Readers::Output
+      def generate_n3(client, var, outfile_base, options={})
+        meas = measures(client,var,options)
+        dim = dimensions(client,var,options)
+        codes = codes(client,var,options)
+        #write structure
+        open(outfile_base+'_structure.ttl','w'){|f| f.write structure(client,var,options)}
+        n_individuals = client.eval("length(#{var}$pheno[[1]])").payload.first
+        chromosome_list = (1..19).to_a.map(&:to_s) + ["X"]
+        chromosome_list.map{|chrom|
+          open(outfile_base+"_#{chrom}.ttl",'w'){|f| f.write prefixes(var,options)}
+          entries_per_individual = client.eval("length(#{var}$geno$'#{chrom}'$map)").to_ruby
+          #get genotype data (currently only for chromosome 1)
+          geno_chr = client.eval("#{var}$geno$'#{chrom}'")
+          #get number of markers per individual
+          #write observations
+          n_individuals.times{|indi|
+            obs_data = observation_data(client,var,chrom.to_s,indi,geno_chr,entries_per_individual,options)
+            labels = labels_for(obs_data,chrom.to_s,indi)
+            open(outfile_base+"_#{chrom}.ttl",'a'){|f| observations(meas,dim,codes,obs_data,labels,var,options).map{|obs| f.write obs}}
+            puts "(#{chrom}) #{indi}/#{n_individuals}" unless options[:quiet]
+          }
+        }
+      end
+      def structure(client,var,options={})
+        meas = measures(client,var,options)
+        dim = dimensions(client,var,options)
+        codes = codes(client,var,options)
+        str = prefixes(var,options)
+        str << data_structure_definition(meas,dim,codes,var,options)
+        str << dataset(var,options)
+        component_specifications(meas, dim, codes, var, options).map{ |c| str << c }
+        measure_properties(meas,var,options).map{|m| str << m}
+        str
+      end
+      def measures(client, var, options={})
+        pheno_names = client.eval("names(#{var}$pheno)").to_ruby
+        if options[:measures]
+          (pheno_names & options[:measures]) | ["genotype","markerpos","marker"]
+        else
+          pheno_names | ["genotype","markerpos","marker"]
+        end
+        # measure_properties(measures,var,options)
+      end
+      def dimensions(client, var, options={})
+        # dimension_properties([""],var)
+        []
+      end
+      def codes(client, var, options={})
+        []
+      end
+      def labels_for(data,chr,individual,options={})
+        labels=(((data.first.last.size*individual)+1)..(data.first.last.size*(individual+1))).to_a.map(&:to_s)
+        labels.map{|l| l.insert(0,"#{chr}_")}
+        labels
+      end
+      def observation_data(client, var, chr, row_individ, geno_chr, entries_per_individual, options={})
+        data = {}
+        data["chr"] = []
+        data["genotype"] = []
+        data["individual"] = []
+        data["marker"] = []
+        data["markerpos"] = []
+        pheno_names = client.eval("names(#{var}$pheno)").to_ruby
+        pheno_names.map{|name|
+          data[name] = []
+        }
+        data["individual"] << (1..entries_per_individual).to_a.fill(row_individ)
+        pheno_names.map{|name|
+          data[name] << (1..entries_per_individual).to_a.fill(client.eval("#{var}$pheno$#{name}").to_ruby[row_individ])
+        }
+        num_markers = geno_chr.payload.first.to_ruby.column_size
+        data["chr"] << (1..num_markers).to_a.fill(chr)
+        data["genotype"] << geno_chr.payload["data"].to_ruby.row(row_individ).to_a
+        data["marker"] << client.eval("names(#{var}$geno$'#{chr}'$map)").payload
+        data["markerpos"] << geno_chr.payload["map"].to_a
+        data.map{|k,v| v.flatten!}
+        data
+      end
+      def num_individuals(client, var, options={})
+        client.eval("#{var}$pheno").payload.first.to_ruby.size
+      end
+    end
+  end
+end

data/lib/bio-publisci/readers/r_matrix.rb ADDED Viewed

@@ -0,0 +1,176 @@
+module PubliSci
+	module Readers
+		class RMatrix
+			include PubliSci::Dataset::DataCube
+			#NOTE; this is pretty much hard coded for Karl's application right now, and doesn't
+			# do any dimension or code generation. Since its a set of LOD scores indexed by dimension
+			# and marker the usual datacube generator wont work (I think). In the future adding an option
+			# to specify this kind of a dataset would probably be useful
+			def generate_n3(client, var, outfile_base, options={})
+				meas = measures(client,var,options)
+				dim = dimensions(client,var,options)
+				codes = codes(client,var,options)
+				outvar = sanitize([var]).first
+				probes_per_file = options[:probes_per_file] || 100
+				col_select = "colnames"
+				col_select = "names" if options[:type] == :dataframe
+				#write structure
+				open(outfile_base+'_structure.ttl','w'){|f| f.write structure(client,var,outvar,options)}
+				probes=client.eval("#{col_select}(#{var})").to_ruby
+				if probes == nil
+					client.eval("colnames(#{var})=1:ncol(#{var})")
+					probes=client.eval("#{col_select}(#{var})").to_ruby
+				end
+				markers = rows(client,var,options)
+        if options[:print]
+            puts prefixes(var,options)
+        end
+        if options[:output] == :string
+            str = prefixes(var,options)
+        end
+				probes.each_with_index{|probe,i|
+					#write prefixes and erase old file on first run
+          unless options[:print] || options[:output] == :string
+  					open(outfile_base+"_#{i/probes_per_file}.ttl",'w'){|f| f.write prefixes(var,options)} if i % probes_per_file == 0
+          end
+					i+=1
+					obs_data = observation_data(client,var,i,markers,options)
+					labels = labels_for(client,var,probe)
+					# labels = sanitize(labels)
+					# return obs_data
+          if options[:print]
+            observations(meas,dim,codes,obs_data,labels,outvar,options).each{|obs| puts obs}
+          end
+          if options[:output] == :string
+            observations(meas,dim,codes,obs_data,labels,outvar,options).each{|obs| str << obs}
+          end
+          unless options[:print] || options[:output] == :string
+  					open(outfile_base+"_#{i/probes_per_file}.ttl",'a'){|f| observations(meas,dim,codes,obs_data,labels,outvar,options).map{|obs| f.write obs}}
+  					puts "#{i}/#{probes.size}" unless options[:quiet]
+          end
+				}
+        if options[:output] == :string
+          str
+        end
+			end
+			def structure(client,var,outvar,options={})
+				meas = measures(client,var,options)
+				dim = dimensions(client,var,options)
+				codes = codes(client,var,options)
+				str = prefixes(var, options)
+				str << data_structure_definition(meas,[],codes,outvar,options)
+				str << dataset(outvar,options)
+    		component_specifications(meas, dim, codes, var, options).map{ |c| str << c }
+				measure_properties(meas,var,options).map{|m| str << m}
+				str
+			end
+			#for now just make everything a measure
+			def measures(client, var, options={})
+				if options[:measures]
+						options[:measures]
+				else
+					["probe","marker","value"]
+				end
+				# measure_properties(measures,var,options)
+			end
+			def dimensions(client, var, options={})
+				# dimension_properties([""],var)
+				[]
+			end
+			def codes(client, var, options={})
+				[]
+			end
+			def labels_for(connection,var,probe_id,options={})
+				row_names = connection.eval("row.names(#{var})")
+				# row_names = (1..@rexp.payload.first.to_ruby.size).to_a unless row_names.first
+				if row_names == connection.eval('NULL')
+					row_names = (1..connection.eval("nrow(#{var})").payload.first).to_a
+				else
+					row_names = row_names.payload
+				end
+	      labels = (1..(row_names.size)).to_a.map(&:to_s)
+	      labels = labels.map{|l|
+	      	l.insert(0,probe_id.to_s + "_")
+	      }
+	      labels
+			end
+			def rows(connection,var,options={})
+				row_names = connection.eval("row.names(#{var})")
+				#hacky solution because rserve client's .to_ruby method doesn't fully work
+				if row_names == connection.eval('NULL')
+					row_names = (1..connection.eval("nrow(#{var})").payload.first).to_a
+				else
+					row_names = row_names.payload
+				end
+	      row_names
+			end
+			def observation_data(client, var, probe_number, row_names, options={})
+				data = {}
+				# geno_chr = client.eval("#{var}$geno$'#{chr}'")
+				# n_individuals = client.eval("#{var}$pheno[[1]]").to_ruby.size
+				# entries_per_individual = @rexp.payload["geno"].payload[row_individ].payload["map"].payload.size * @rexp.payload["geno"].payload.names.size
+				col_label = "probe"
+				row_label = "marker"
+				val_label = "value"
+				if options[:measures]
+					col_label = options[:measures][0] || "probe"
+					row_label = options[:measures][1] || "marker"
+					val_label = options[:measures][2] || "value"
+				end
+				data["#{col_label}"] = []
+				data["#{row_label}"] = []
+				data["#{val_label}"] = []
+				# n_individuals.times{|row_individ|
+					# puts "#{row_individ}/#{n_individuals}"
+				col_select = "colnames"
+				col_select = "names" if options[:type] == :dataframe
+				if options[:type] == :dataframe
+					probe_obj = client.eval("#{var}[[#{probe_number}]]").to_ruby
+				else
+					probe_obj = client.eval("#{var}[,#{probe_number}]").to_ruby
+				end
+				# puts probe_obj
+				probe_id = client.eval("#{col_select}(#{var})[[#{probe_number}]]").to_ruby
+				data["#{col_label}"] = (1..(probe_obj.size)).to_a.fill(probe_id)
+				probe_obj.each_with_index{|lod,i|
+					data["#{row_label}"] << row_names[i]
+					data["#{val_label}"] << lod
+				}
+				data.map{|k,v| v.flatten!}
+				data
+			end
+		end
+	end
+end

data/lib/bio-publisci/store.rb ADDED Viewed

@@ -0,0 +1,56 @@
+module PubliSci
+  # handles connection and messaging to/from the triple store
+  class Store
+    include PubliSci::Query
+    def defaults
+      {
+        type: :fourstore,
+        url: "http://localhost:8080", #TODO port etc should eventually be extracted from URI if given
+        replace: false
+      }
+    end
+    def add(file,graph)
+      if @options[:type] == :graph
+        throw "please provide an RDF::Repository" unless graph.is_a? RDF::Repository
+        graph.load(file)
+        @store = graph
+        @store
+      elsif @options[:type] == :fourstore
+        if @options[:replace]
+          `curl -T #{file} -H 'Content-Type: application/x-turtle' #{@options[:url]}/data/http%3A%2F%2Frqtl.org%2F#{graph}`
+        else
+          `curl --data-urlencode data@#{file} -d 'graph=http%3A%2F%2Frqtl.org%2F#{graph}' -d 'mime-type=application/x-turtle' #{@options[:url]}/data/`
+        end
+      end
+    end
+    def add_all(dir, graph, pattern=nil)
+      pattern = /.+\.ttl/ if pattern == :turtle || pattern == :ttl
+      files = Dir.entries(dir) - %w(. ..)
+      files = files.grep(pattern) if pattern.is_a? Regexp
+      nfiles = files.size
+      n = 0
+      files.each{|file| puts file + " #{n+=1}/#{nfiles} files"; puts add(file,graph)}
+    end
+    def initialize(options={})
+      @options = defaults.merge(options)
+    end
+    def query(string)
+      # execute(string, )
+      if @options[:type] == :graph
+        execute(string, @store, :graph)
+      elsif @options[:type] == :fourstore
+        execute(string, @options[:url], :fourstore)
+      end
+    end
+    def url
+      @options[:url]
+    end
+  end
+end

data/lib/bio-publisci/writers/arff.rb ADDED Viewed

@@ -0,0 +1,91 @@
+module PubliSci
+  module Writers
+    class ARFF < Base
+      # include PubliSci::Query
+      # include PubliSci::Parser
+      # include PubliSci::Analyzer
+      def build_arff(relation, attributes, data, source)
+        str = <<-EOS
+% 1. Title: #{relation.capitalize} Database
+%
+% 2. Sources:
+%    (a) Generated from RDF source #{source}
+%
+@RELATION #{relation}
+EOS
+        Hash[attributes.sort].map{|attribute,type|
+          str << "@ATTRIBUTE #{attribute} #{type}\n"
+        }
+        str << "\n@DATA\n"
+        data.map { |d| str << Hash[d[1].sort].values.join(',') + "\n" }
+        str
+      end
+      def from_turtle(turtle_file, verbose=false)
+        puts "loading #{turtle_file}" if verbose
+        repo = RDF::Repository.load(turtle_file)
+        puts "loaded #{repo.size} statements into temporary repo" if verbose
+        dims = dimensions(repo)
+        meas = measures(repo)
+        data = observations(repo)
+        relation = dataSet(repo)
+        codes = codes(repo)
+        attributes = {}
+        (dims | meas).map{|component|
+          attributes[component] = case recommend_range(data.map{|o| o[1][component]})
+            when "xsd:int"
+              "integer"
+            when "xsd:double"
+              "real"
+            when :coded
+              if dims.include? component
+                "{#{codes[component].join(', ')}}"
+              else
+                "string"
+              end
+            end
+        }
+        build_arff(relation, attributes, data, turtle_file)
+      end
+      def from_store(repo, dataset=nil, title=nil, verbose=false)
+        # data = observation_hash(execute_from_file("observations.rq",repo,:graph,{"%{dataSet}"=>"<#{dataSet}>"}), true)
+        dims = dimensions(repo,dataset)
+        meas = measures(repo,dataset)
+        data = observations(repo,dataset)
+        codes = codes(repo,dataset)
+        attributes = {}
+        (dims | meas).map{|component|
+          attributes[component] = case recommend_range(data.map{|o| o[1][component]})
+            when "xsd:int"
+              "integer"
+            when "xsd:double"
+              "real"
+            when :coded
+              if dims.include? component
+                "{#{codes[component].join(', ')}}"
+              else
+                "string"
+              end
+            end
+        }
+        dataset = dataSet(repo) unless dataset
+        title = dataset unless title
+        build_arff(title,attributes,data,dataset)
+      end
+    end
+  end
+end

data/lib/bio-publisci/writers/base.rb ADDED Viewed

@@ -0,0 +1,93 @@
+module PubliSci
+  module Writers
+    class Base
+      include PubliSci::Query
+      include PubliSci::Parser
+      include PubliSci::Analyzer
+      def handle_input(input)
+        if input.is_a? String
+          if File.exist? input
+            RDF::Repository.load(input)
+          else
+            raise "UnkownStringInput: #{input}"
+          end
+        elsif input.is_a? RDF::Repository
+          input
+        else
+          raise "UnkownInput: #{input}, #{input.class}"
+        end
+      end
+      def dimensions(input, data_set=nil, select=:label)
+        repo = handle_input(input)
+        if data_set
+          dims = execute_from_file("dimensions.rq",repo,:graph,{"?dataSet"=>"<#{data_set}>"})
+        else
+          dims = execute_from_file("dimensions.rq",repo,:graph)
+        end
+        dims.to_h.map{|d| d[select].to_s}
+      end
+      def measures(input, data_set=nil, select=:label)
+        repo = handle_input(input)
+        if data_set
+          meas = execute_from_file("measures.rq",repo,:graph,{"?dataSet"=>"<#{data_set}>"})
+        else
+          meas = execute_from_file("measures.rq",repo,:graph)
+        end
+        meas.to_h.map{|d| d[select].to_s}
+      end
+      def observations(input, data_set = nil, shorten_url = true)
+        repo = handle_input(input)
+        if data_set
+          obs = execute_from_file("observations.rq",repo,:graph,{"?dataSet"=>"<#{data_set}>"})
+        else
+          obs = execute_from_file("observations.rq",repo,:graph)
+        end
+        observation_hash(obs,shorten_url)
+      end
+      def dataSet(input, select = :label)
+        repo = handle_input(input)
+        execute_from_file("dataset.rq",repo,:graph).to_h.first[select].to_s
+      end
+      def codes(input, data_set = nil, select = :label)
+        repo = handle_input(input)
+        if data_set
+          codes = execute_from_file("codes.rq",repo,:graph,{"?dataSet"=>"<#{data_set}>"}).to_h
+        else
+          codes = execute_from_file("codes.rq",repo,:graph).to_h
+        end
+        codes.map{|c| c.values.map(&:to_s)}.inject({}){|h,el|
+          (h[el.first]||=[]) << el.last; h
+        }
+      end
+      def turtle_to_ruby(turtle_file, select_dataset=nil, shorten_url=true)
+        repo = RDF::Repository.load(turtle_file)
+        repo_to_ruby(repo,select_dataset,shorten_url)
+      end
+      def repo_to_ruby(repo,select_dataset=nil, shorten_url=true)
+        select_dataset = dataSet(repo,:dataset) unless select_dataset
+        dims = dimensions(repo,select_dataset)
+        meas = measures(repo,select_dataset)
+        codes = codes(repo,select_dataset)
+        data = observations(repo,select_dataset,shorten_url)
+        {measures: meas, dimensions: dims, coded_dimensions: codes, data: data}
+      end
+    end
+  end
+end