RubyGems - lederhosen - Versions diffs - 0.3.7 → 0.3.8 - Mend

lederhosen 0.3.7 → 0.3.8

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (5) hide show

data/lederhosen.gemspec +2 -2
data/lib/lederhosen/tasks/uniquify.rb +12 -8
data/lib/lederhosen/version.rb +1 -1
data/spec/cli_spec.rb +19 -18
metadata +4 -4

data/lederhosen.gemspec CHANGED Viewed

@@ -5,11 +5,11 @@
 Gem::Specification.new do |s|
   s.name = "lederhosen"
-  s.version = "0.3.7"
+  s.version = "0.3.8"
   s.required_rubygems_version = Gem::Requirement.new(">= 0") if s.respond_to? :required_rubygems_version=
   s.authors = ["Austin G. Davis-Richardson"]
-  s.date = "2012-08-14"
+  s.date = "2012-08-20"
   s.description = "Various tools for OTU clustering"
   s.email = "harekrishna@gmail.com"
   s.executables = ["lederhosen"]

data/lib/lederhosen/tasks/uniquify.rb CHANGED Viewed

@@ -1,16 +1,14 @@
 ##
-# uniquify - uniquify a fasta file, also output table with md5 -> number of reads
+# uniquify - uniquify a fasta file, also output table with sequence_id -> number of reads
 #
-require 'digest/md5'
 module Lederhosen
   class CLI
     desc 'uniquify',
-      'uniquify a fasta file and generate a table with md5 -> abundance'
+      'uniquify a fasta file and generate a table with sequence_id -> abundance'
-    method_option :input, :type     => :string, :required => true
-    method_option :output, :type    => :string, :required => true
+    method_option :input,     :type => :string, :required => true
+    method_option :output,    :type => :string, :required => true
     method_option :table_out, :type => :string, :required => true
     def uniquify
@@ -21,15 +19,21 @@ module Lederhosen
       ohai "uniquifying #{input} to #{output} w/ table #{table_out}"
       sequence_counts = Hash.new { |h, k| h[k] = 0 }
+      sequence_to_id = Hash.new
       out = File.open(output, 'w')
       no_records = `grep -c '^>' #{input}`.split.first.to_i
       pbar = ProgressBar.new 'loading', no_records
       File.open(input) do |handle|
         Dna.new(handle).each do |record|
           pbar.inc
           unless sequence_counts.has_key? record.sequence
+            # store the sequence and id so we can have ids in the
+            # table. If the file is sorted by length then this
+            # should also be a seed sequence.
+            sequence_to_id[record.sequence] = record.name
             out.puts record
           end
           sequence_counts[record.sequence] += 1
@@ -44,8 +48,8 @@ module Lederhosen
       File.open(table_out, 'w') do |out|
         sequence_counts.each_pair do |sequence, count|
           pbar.inc
-          digest = Digest::MD5.hexdigest(sequence)
-          out.puts "#{digest},#{count}"
+          id = sequence_to_id[sequence]
+          out.puts "#{id}\t#{count}"
         end
       end
       pbar.finish

data/lib/lederhosen/version.rb CHANGED Viewed

@@ -2,7 +2,7 @@ module Lederhosen
   module Version
     MAJOR = 0
     MINOR = 3
-    PATCH = 7
+    PATCH = 8
     STRING = [MAJOR, MINOR, PATCH].join('.')
   end

data/spec/cli_spec.rb CHANGED Viewed

@@ -8,49 +8,54 @@ describe Lederhosen::CLI do
   end
   it 'should have a version command' do
-    `./bin/lederhosen version`.strip.should == "lederhosen-#{Lederhosen::Version::STRING}"
+    `./bin/lederhosen version 2>/dev/null`.strip.should == "lederhosen-#{Lederhosen::Version::STRING}"
   end
   it 'should trim reads' do
-    `./bin/lederhosen trim --reads-dir=spec/data/IL*.txt.gz --out-dir=#{$test_dir}/trimmed`
+    `./bin/lederhosen trim --reads-dir=spec/data/IL*.txt.gz --out-dir=#{$test_dir}/trimmed 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should join reads' do
-    `./bin/lederhosen join --trimmed=#{$test_dir}/trimmed/*.fasta --output=#{$test_dir}/joined.fasta`
+    `./bin/lederhosen join --trimmed=#{$test_dir}/trimmed/*.fasta --output=#{$test_dir}/joined.fasta 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should sort reads' do
-    `./bin/lederhosen sort --input=#{$test_dir}/joined.fasta --output=#{$test_dir}/sorted.fasta`
+    `./bin/lederhosen sort --input=#{$test_dir}/joined.fasta --output=#{$test_dir}/sorted.fasta 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should k_filter reads' do
-    `./bin/lederhosen k_filter --input=#{$test_dir}/sorted.fasta --output=#{$test_dir}/filtered.fasta -k=15 --cutoff 1`
+    `./bin/lederhosen k_filter --input=#{$test_dir}/sorted.fasta --output=#{$test_dir}/filtered.fasta -k=15 --cutoff 1 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should cluster reads' do
-    `./bin/lederhosen cluster --identity=0.80 --input=#{$test_dir}/filtered.fasta --output=#{$test_dir}/clusters.uc`
+    `./bin/lederhosen cluster --identity=0.80 --input=#{$test_dir}/filtered.fasta --output=#{$test_dir}/clusters.uc 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should build OTU abundance matrices' do
-    `./bin/lederhosen otu_table --clusters=#{$test_dir}/clusters.uc --output=#{$test_dir}/otu_table.csv`
+    `./bin/lederhosen otu_table --clusters=#{$test_dir}/clusters.uc --output=#{$test_dir}/otu_table.csv 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should filter OTU abundance matrices' do
-    `./bin/lederhosen otu_filter --input=#{$test_dir}/otu_table.csv --output=#{$test_dir}/otu_table.filtered.csv --reads 1 --samples 1`
+    `./bin/lederhosen otu_filter --input=#{$test_dir}/otu_table.csv --output=#{$test_dir}/otu_table.filtered.csv --reads 1 --samples 1 2>/dev/null`
+  end
+  it 'should uniquify reads' do
+    `./bin/lederhosen uniquify --input=#{$test_dir}/sorted.fasta --output=#{$test_dir}/uniqued.fasta --table-out=#{$test_dir}/uniquify.txt 2>/dev/null`
+    $?.success?.should be_true
   end
   it 'should split joined.fasta into reads for each cluster' do
-    `./bin/lederhosen split --reads=#{$test_dir}/joined.fasta --clusters=#{$test_dir}/clusters.uc --out-dir=#{$test_dir}/split --min-clst-size=1`
+    `./bin/lederhosen split --reads=#{$test_dir}/joined.fasta --clusters=#{$test_dir}/clusters.uc --out-dir=#{$test_dir}/split --min-clst-size=1 2>/dev/null`
   end
   it 'should create a fasta file containing representative reads for each cluster' do
-    `./bin/lederhosen rep_reads --clusters=#{$test_dir}/clusters.uc --joined=#{$test_dir}/filtered.fasta --output=#{$test_dir}/representatives.fasta`
+    `./bin/lederhosen rep_reads --clusters=#{$test_dir}/clusters.uc --joined=#{$test_dir}/filtered.fasta --output=#{$test_dir}/representatives.fasta 2>/dev/null`
     $?.success?.should be_true
   end
@@ -59,18 +64,14 @@ describe Lederhosen::CLI do
   it 'should add names to otu abundance matrix given blat output' do
     levels = %w{kingdom domain phylum class order genus speces}
-    level =
-      begin
-        levels.sample # 1.9 and up
-      rescue
-        levels.choice # 1.8 and lower
-      end
-    `./bin/lederhosen add_names --table=spec/data/otus.csv --blat=spec/data/blat.txt --level=#{level} --output=#{$test_dir}/named_otus.csv`
+    # Ruby 1.9 vs Ruby 1.8
+    level = levels.sample rescue levels.choice
+    `./bin/lederhosen add_names --table=spec/data/otus.csv --blat=spec/data/blat.txt --level=#{level} --output=#{$test_dir}/named_otus.csv 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should squish otu abundance matrix by same name' do
-    `./bin/lederhosen squish --csv-file=#{$test_dir}/named_otus.csv --output=#{$test_dir}/squished.csv`
+    `./bin/lederhosen squish --csv-file=#{$test_dir}/named_otus.csv --output=#{$test_dir}/squished.csv 2>/dev/null`
     $?.success?.should be_true
   end
 end

metadata CHANGED Viewed

@@ -1,13 +1,13 @@
 --- !ruby/object:Gem::Specification
 name: lederhosen
 version: !ruby/object:Gem::Version
-  hash: 29
+  hash: 3
   prerelease:
   segments:
   - 0
   - 3
-  - 7
-  version: 0.3.7
+  - 8
+  version: 0.3.8
 platform: ruby
 authors:
 - Austin G. Davis-Richardson
@@ -15,7 +15,7 @@ autorequire:
 bindir: bin
 cert_chain: []
-date: 2012-08-14 00:00:00 Z
+date: 2012-08-20 00:00:00 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   type: :runtime