RubyGems - bio-velvet - Versions diffs - 0.2.0 → 0.3.0 - Mend

bio-velvet 0.2.0 → 0.3.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (13) hide show

checksums.yaml +4 -4
data/Gemfile +2 -0
data/README.md +24 -0
data/VERSION +1 -1
data/lib/bio-velvet.rb +1 -0
data/lib/bio-velvet/graph.rb +3 -1
data/lib/bio-velvet/sequence_names.rb +56 -0
data/lib/bio-velvet/sequences.rb +1 -1
data/spec/{bio-velvet_arc_array_spec.rb → arc_array_spec.rb} +0 -0
data/spec/{bio-velvet_graph_spec.rb → graph_spec.rb} +13 -0
data/spec/{bio-velvet_runner_spec.rb → runner_spec.rb} +0 -0
data/spec/sequence_names_spec.rb +70 -0
metadata +35 -5

checksums.yaml CHANGED

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: f88fe95bdfceafceb78b65c763675780ee12f1cf
-  data.tar.gz: 40f0b257c9e15ca861c844a51dbce319ee17453b
+  metadata.gz: 8098d77f70e2f60c9c4a820198b9e7839cc3f770
+  data.tar.gz: 924a25a11fbacfdcc24f2ec68bf435efbe1a2502
 SHA512:
-  metadata.gz: d4de2138c28eb006fd872e518f7aa5172c04016aded296aeca1bdbeb27e98c7b99fa6f64b5fcf2252c0eff7dacccf08d9b2b4db3e38f05256d12b270cbc3fe19
-  data.tar.gz: f2fe259725937d1995f5a0269a3b6a3a2c3a55b8ecb30abc8e7f54dadfe6311a4d43a3df3bd588c49f3567a7ca9a1846885f0d51bbfb6d66bd84e3cf3b00937c
+  metadata.gz: 16960ccbec0e2a781d928171581702cbea22b1374aff05b950af5fee4fd15f4e598c4d5baa4043fe37878b6828ee16c6c7261a4bd747ae2726003c8e0516daba
+  data.tar.gz: b357398f3aa8f8e4ad80d033c7912d17cd2e219bb2c7e1fb97c944a50bdc890b1b1e81dc54b0429e8d8a48a462f51aa4864337f697dc45b308a39626ab884dec

data/Gemfile CHANGED

@@ -4,6 +4,7 @@ gem 'bio-logger', '~>1.0'
 gem 'systemu', '~>2.6'
 gem 'files', '~>0.3'
 gem 'hopcsv', '~> 0.4'
+gem 'bio-commandeer', '~>0.1'
 # Add dependencies to develop your gem here.
 # Include everything needed to run rake, tests, features, etc.
@@ -13,4 +14,5 @@ group :development do
   gem "bundler", "~> 1.0"
   gem "bio", "~> 1.4"
   gem "rdoc", "~> 4.1"
+  gem 'pry', '~>0.9'
 end

data/README.md CHANGED

@@ -51,6 +51,30 @@ graph.nodes[5].noded_reads #=> array of Bio::Velvet::Graph::NodedRead objects, f
 ```
 There is much more that can be done to interact with the graph object and its components - see the [rubydoc](http://rubydoc.info/gems/bio-velvet/Bio/Velvet/Graph).
+### Parsers for `Sequences` and `CnyUnifiedSeq.names` files
+With default parameters velvet generates a `Seqeunces` file, that includes read ID information and the sequences themselves.
+```ruby
+seqs = Bio::Velvet::Sequences.parse_from_file(File.join velvet_result.result_directory, 'Sequences')
+seqs[1] => 'AAAATTGTCAGACTAGCTATCAGCATATCAGCGCGCATCTCAGACGAGCACTATC'
+```
+If the `-create_binary` flag is set when running `velveth`, a names file is generated that encodes the read names and IDs.
+```ruby
+entries = Bio::Velvet::CnyUnifiedSeqNamesFile.extract_entries(
+  File.join(velvet_result.result_directory, 'CnyUnifiedSeq.names'),
+  ['read1','read2']
+  ) #=> Hash of read name to Array of CnyUnifiedSeqNamesFileEntry objects
+entries['read1'] #=> Array of CnyUnifiedSeqNamesFileEntry objects
+entries['read1'][0].read_id #=> 1 (i.e. '1'.to_i)
+```
+When speed is required, grep can come to the rescue (at the cost of some portability)
+```ruby
+entries = Bio::Velvet::CnyUnifiedSeqNamesFile.extract_entries_using_grep_hack(
+  File.join(velvet_result.result_directory, 'CnyUnifiedSeq.names'),
+  ['read1','read2']
+  ) #=> same returned object as above
+```
+The sequences themselves are stored in a separate file when `-create_binary` is used - an interface for this is included in the [bio-velvet_underground](https://github.com/wwood/bioruby-velvet_underground) biogem.
 ## Project home page
 Information on the source tree, documentation, examples, issues and

data/VERSION CHANGED

	@@ -1 +1 @@
1	- 0.2.0
1	+ 0.3.0

data/lib/bio-velvet.rb CHANGED

@@ -12,3 +12,4 @@ end
 require 'bio-velvet/graph'
 require 'bio-velvet/runner'
 require 'bio-velvet/sequences'
+require 'bio-velvet/sequence_names'

data/lib/bio-velvet/graph.rb CHANGED

@@ -1,4 +1,4 @@
-require 'hopcsv'
+#require 'hopcsv'
 require 'bio'
 require 'tempfile'
@@ -30,6 +30,7 @@ module Bio
       # into a Bio::Velvet::Graph object
       #
       # Options:
+      # * :dont_parse_noded_reads: if true, then parsing of the NR section is skipped
       # * :interesting_read_ids: If not nil, is a Set of nodes that we are interested in. Reads
       # not of interest will not be parsed in (the NR part of the velvet LastGraph file). Regardless all
       # nodes and edges are parsed in. Using this options saves both memory and CPU.
@@ -130,6 +131,7 @@ module Bio
             # $READ_ID2 etc.
             #p row
             if row[0] == 'NR'
+              break if options[:dont_parse_noded_reads] # We are done if NR things aren't parsed
               if options[:grep_hack]
                 unless options[:interesting_read_ids] or options[:interesting_node_ids]
                   raise "Programming error using bio-velvet: if :grep_hack is specified, then :interesting_read_ids or :interesting_node_ids must also be"

data/lib/bio-velvet/sequence_names.rb ADDED

@@ -0,0 +1,56 @@
+require 'tempfile'
+require 'bio-commandeer'
+require 'hopcsv'
+module Bio
+  module Velvet
+    # Methods for dealing with the CnyUnifiedSeq.names file output when
+    # the -create_binary flag is set in velveth.
+    class CnyUnifiedSeqNamesFile
+      # Return a hash of seqname => (Array of CnyUnifiedSeqNamesFileEntry objects)
+      # created by parsing the CnyUnifiedSeq.names file. Sometimes sequences
+      # can be found multiple times e.g. if fwd and rev of a pair is delineated
+      # after a space in the input names.
+      def self.extract_entries(path_to_cny_unified_seq_names_file, entry_names)
+        # Create results hash
+        to_return = {}
+        entry_names.each do |name|
+          to_return[name] = []
+        end
+        Hopcsv.foreach(path_to_cny_unified_seq_names_file,"\t") do |row|
+          name = row[0][1...row[0].length] #remove '>' at the start of the name
+          next unless to_return.key?(name) #ignore uninsteresting sequences
+          entry = CnyUnifiedSeqNamesFileEntry.new
+          entry.name = name
+          entry.read_id = row[1].to_i
+          entry.category = row[2].to_i
+          to_return[name].push entry
+        end
+        return to_return
+      end
+      # These files can be quite big, so this method
+      def self.extract_entries_using_grep_hack(path_to_cny_unified_seq_names_file, entry_names)
+        to_return = nil
+        Tempfile.open('velvet_names_grep_hack_in') do |input|
+          entry_names.each do |name|
+            input.puts ">#{name}\t"
+          end
+          input.close #flush
+          Tempfile.open('velvet_names_grep_hack_result') do |output|
+            Bio::Commandeer.run "grep -F -f #{input.path} #{path_to_cny_unified_seq_names_file.inspect} >#{output.path}"
+            to_return = extract_entries output.path, entry_names
+          end
+        end
+        return to_return
+      end
+    end
+    class CnyUnifiedSeqNamesFileEntry
+      attr_accessor :name, :read_id, :category
+    end
+  end
+end

data/lib/bio-velvet/sequences.rb CHANGED

@@ -1,4 +1,4 @@
-require 'hopcsv'
+#require 'hopcsv'
 require 'bio'
 require 'tempfile'

data/spec/{bio-velvet_arc_array_spec.rb → arc_array_spec.rb} RENAMED

File without changes

data/spec/{bio-velvet_graph_spec.rb → graph_spec.rb} RENAMED

@@ -254,6 +254,19 @@ describe "BioVelvet" do
     node.short_reads.collect{|r| r.read_id}.should == [47210]
   end
+  it 'should not parse NR when option is set' do
+    graph = Bio::Velvet::Graph.parse_from_file(
+      File.join(TEST_DATA_DIR, 'velvet_test_reads_assembly_read_tracking','Graph2'),
+      {:dont_parse_noded_reads => true}
+      )
+    graph.should be_kind_of(Bio::Velvet::Graph)
+    node = graph.nodes[967]
+    node.short_reads.should == nil
+    node = graph.nodes[951]
+    node.short_reads.should == nil
+  end
   it 'should return sets of arcs by id' do
     graph = Bio::Velvet::Graph.parse_from_file File.join(TEST_DATA_DIR, 'velvet_test_reads_assembly','LastGraph')
     #    ARC     2       -578    1

data/spec/{bio-velvet_runner_spec.rb → runner_spec.rb} RENAMED

File without changes

data/spec/sequence_names_spec.rb ADDED

@@ -0,0 +1,70 @@
+require File.expand_path(File.dirname(__FILE__) + '/spec_helper')
+require 'bio'
+include Bio::Velvet
+describe "SeqeunceNames" do
+  it 'should parse a whole file' do
+    string = <<EOF
+>read1	1	0
+>read2	2	0
+EOF
+    Tempfile.open('test') do |tempfile|
+      tempfile.print string
+      tempfile.close
+      names = Bio::Velvet::CnyUnifiedSeqNamesFile.extract_entries(
+        tempfile.path,
+        %w(read1 read2)
+        )
+      names.keys.should == %w(read1 read2)
+      names['read1'].kind_of?(Array).should == true
+      names['read1'].length.should == 1
+      names['read1'][0].kind_of?(Bio::Velvet::CnyUnifiedSeqNamesFileEntry).should == true
+      names['read1'].collect{|e| e.name}.should == ['read1']
+      names['read1'].collect{|e| e.read_id}.should == [1]
+      names['read1'].collect{|e| e.category}.should == [0]
+      names['read2'].collect{|e| e.name}.should == ['read2']
+      names['read2'].collect{|e| e.read_id}.should == [2]
+      names['read2'].collect{|e| e.category}.should == [0]
+    end
+  end
+  it 'should handle the grep hack' do
+    string = <<EOF
+>read1	1	0
+>read2	2	0
+EOF
+    Tempfile.open('test') do |tempfile|
+      tempfile.print string
+      tempfile.close
+      names = Bio::Velvet::CnyUnifiedSeqNamesFile.extract_entries_using_grep_hack(
+        tempfile.path,
+        %w(read1 read2)
+        )
+      names.keys.should == %w(read1 read2)
+      names['read1'].kind_of?(Array).should == true
+      names['read1'].length.should == 1
+      names['read1'][0].kind_of?(Bio::Velvet::CnyUnifiedSeqNamesFileEntry).should == true
+      names['read1'].collect{|e| e.name}.should == ['read1']
+      names['read1'].collect{|e| e.read_id}.should == [1]
+      names['read1'].collect{|e| e.category}.should == [0]
+      names['read2'].collect{|e| e.name}.should == ['read2']
+      names['read2'].collect{|e| e.read_id}.should == [2]
+      names['read2'].collect{|e| e.category}.should == [0]
+      names = Bio::Velvet::CnyUnifiedSeqNamesFile.extract_entries_using_grep_hack(
+        tempfile.path,
+        %w(read2)
+        )
+      names.keys.should == %w(read2)
+      names['read2'].kind_of?(Array).should == true
+      names['read2'].length.should == 1
+      names['read2'][0].kind_of?(Bio::Velvet::CnyUnifiedSeqNamesFileEntry).should == true
+      names['read2'].collect{|e| e.name}.should == ['read2']
+      names['read2'].collect{|e| e.read_id}.should == [2]
+      names['read2'].collect{|e| e.category}.should == [0]
+    end
+  end
+end

metadata CHANGED

@@ -1,14 +1,14 @@
 --- !ruby/object:Gem::Specification
 name: bio-velvet
 version: !ruby/object:Gem::Version
-  version: 0.2.0
+  version: 0.3.0
 platform: ruby
 authors:
 - Ben J Woodcroft
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2014-04-01 00:00:00.000000000 Z
+date: 2014-06-10 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bio-logger
@@ -66,6 +66,20 @@ dependencies:
     - - "~>"
       - !ruby/object:Gem::Version
         version: '0.4'
+- !ruby/object:Gem::Dependency
+  name: bio-commandeer
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.1'
+  type: :runtime
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.1'
 - !ruby/object:Gem::Dependency
   name: rspec
   requirement: !ruby/object:Gem::Requirement
@@ -136,6 +150,20 @@ dependencies:
     - - "~>"
       - !ruby/object:Gem::Version
         version: '4.1'
+- !ruby/object:Gem::Dependency
+  name: pry
+  requirement: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.9'
+  type: :development
+  prerelease: false
+  version_requirements: !ruby/object:Gem::Requirement
+    requirements:
+    - - "~>"
+      - !ruby/object:Gem::Version
+        version: '0.9'
 description: Parser to work with some file formats used in the velvet DNA assembler
 email: donttrustben@gmail.com
 executables: []
@@ -155,10 +183,9 @@ files:
 - lib/bio-velvet.rb
 - lib/bio-velvet/graph.rb
 - lib/bio-velvet/runner.rb
+- lib/bio-velvet/sequence_names.rb
 - lib/bio-velvet/sequences.rb
-- spec/bio-velvet_arc_array_spec.rb
-- spec/bio-velvet_graph_spec.rb
-- spec/bio-velvet_runner_spec.rb
+- spec/arc_array_spec.rb
 - spec/data/node_sequence/LastGraph
 - spec/data/node_sequence/contigs.fa
 - spec/data/runner_input.fa
@@ -173,6 +200,9 @@ files:
 - spec/data/velvet_test_reads_assembly_read_tracking/Graph2
 - spec/data/velvet_test_reads_assembly_read_tracking/HOWTO_RECREATE
 - spec/data/velvet_test_trail_sequence_assembly/reads1.fa
+- spec/graph_spec.rb
+- spec/runner_spec.rb
+- spec/sequence_names_spec.rb
 - spec/sequences_spec.rb
 - spec/spec_helper.rb
 homepage: http://github.com/wwood/bioruby-velvet