RubyGems - lederhosen - Versions diffs - 0.3.7 → 0.3.8 - Mend

lederhosen 0.3.7 → 0.3.8

Files changed (5) hide show

data/lederhosen.gemspec +2 -2
data/lib/lederhosen/tasks/uniquify.rb +12 -8
data/lib/lederhosen/version.rb +1 -1
data/spec/cli_spec.rb +19 -18
metadata +4 -4

data/lederhosen.gemspec CHANGED Viewed

@@ -5,11 +5,11 @@
 Gem::Specification.new do |s|
   s.name = "lederhosen"
-  s.version = "0.3.7"
+  s.version = "0.3.8"
   s.required_rubygems_version = Gem::Requirement.new(">= 0") if s.respond_to? :required_rubygems_version=
   s.authors = ["Austin G. Davis-Richardson"]
-  s.date = "2012-08-14"
+  s.date = "2012-08-20"
   s.description = "Various tools for OTU clustering"
   s.email = "harekrishna@gmail.com"
   s.executables = ["lederhosen"]

data/lib/lederhosen/tasks/uniquify.rb CHANGED Viewed

@@ -1,16 +1,14 @@
 ##
-# uniquify - uniquify a fasta file, also output table with md5 -> number of reads
+# uniquify - uniquify a fasta file, also output table with sequence_id -> number of reads
 #
-require 'digest/md5'
 module Lederhosen
   class CLI
     desc 'uniquify',
-      'uniquify a fasta file and generate a table with md5 -> abundance'
+      'uniquify a fasta file and generate a table with sequence_id -> abundance'
-    method_option :input, :type     => :string, :required => true
-    method_option :output, :type    => :string, :required => true
+    method_option :input,     :type => :string, :required => true
+    method_option :output,    :type => :string, :required => true
     method_option :table_out, :type => :string, :required => true
     def uniquify
@@ -21,15 +19,21 @@ module Lederhosen
       ohai "uniquifying #{input} to #{output} w/ table #{table_out}"
       sequence_counts = Hash.new { |h, k| h[k] = 0 }
+      sequence_to_id = Hash.new
       out = File.open(output, 'w')
       no_records = `grep -c '^>' #{input}`.split.first.to_i
       pbar = ProgressBar.new 'loading', no_records
       File.open(input) do |handle|
         Dna.new(handle).each do |record|
           pbar.inc
           unless sequence_counts.has_key? record.sequence
+            # store the sequence and id so we can have ids in the
+            # table. If the file is sorted by length then this
+            # should also be a seed sequence.
+            sequence_to_id[record.sequence] = record.name
             out.puts record
           end
           sequence_counts[record.sequence] += 1
@@ -44,8 +48,8 @@ module Lederhosen
       File.open(table_out, 'w') do |out|
         sequence_counts.each_pair do |sequence, count|
           pbar.inc
-          digest = Digest::MD5.hexdigest(sequence)
-          out.puts "#{digest},#{count}"
+          id = sequence_to_id[sequence]
+          out.puts "#{id}\t#{count}"
         end
       end
       pbar.finish

data/lib/lederhosen/version.rb CHANGED Viewed

@@ -2,7 +2,7 @@ module Lederhosen
   module Version
     MAJOR = 0
     MINOR = 3
-    PATCH = 7
+    PATCH = 8
     STRING = [MAJOR, MINOR, PATCH].join('.')
   end

data/spec/cli_spec.rb CHANGED Viewed

@@ -8,49 +8,54 @@ describe Lederhosen::CLI do
   end
   it 'should have a version command' do
-    `./bin/lederhosen version`.strip.should == "lederhosen-#{Lederhosen::Version::STRING}"
+    `./bin/lederhosen version 2>/dev/null`.strip.should == "lederhosen-#{Lederhosen::Version::STRING}"
   end
   it 'should trim reads' do
-    `./bin/lederhosen trim --reads-dir=spec/data/IL*.txt.gz --out-dir=#{$test_dir}/trimmed`
+    `./bin/lederhosen trim --reads-dir=spec/data/IL*.txt.gz --out-dir=#{$test_dir}/trimmed 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should join reads' do
-    `./bin/lederhosen join --trimmed=#{$test_dir}/trimmed/*.fasta --output=#{$test_dir}/joined.fasta`
+    `./bin/lederhosen join --trimmed=#{$test_dir}/trimmed/*.fasta --output=#{$test_dir}/joined.fasta 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should sort reads' do
-    `./bin/lederhosen sort --input=#{$test_dir}/joined.fasta --output=#{$test_dir}/sorted.fasta`
+    `./bin/lederhosen sort --input=#{$test_dir}/joined.fasta --output=#{$test_dir}/sorted.fasta 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should k_filter reads' do
-    `./bin/lederhosen k_filter --input=#{$test_dir}/sorted.fasta --output=#{$test_dir}/filtered.fasta -k=15 --cutoff 1`
+    `./bin/lederhosen k_filter --input=#{$test_dir}/sorted.fasta --output=#{$test_dir}/filtered.fasta -k=15 --cutoff 1 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should cluster reads' do
-    `./bin/lederhosen cluster --identity=0.80 --input=#{$test_dir}/filtered.fasta --output=#{$test_dir}/clusters.uc`
+    `./bin/lederhosen cluster --identity=0.80 --input=#{$test_dir}/filtered.fasta --output=#{$test_dir}/clusters.uc 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should build OTU abundance matrices' do
-    `./bin/lederhosen otu_table --clusters=#{$test_dir}/clusters.uc --output=#{$test_dir}/otu_table.csv`
+    `./bin/lederhosen otu_table --clusters=#{$test_dir}/clusters.uc --output=#{$test_dir}/otu_table.csv 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should filter OTU abundance matrices' do
-    `./bin/lederhosen otu_filter --input=#{$test_dir}/otu_table.csv --output=#{$test_dir}/otu_table.filtered.csv --reads 1 --samples 1`
+    `./bin/lederhosen otu_filter --input=#{$test_dir}/otu_table.csv --output=#{$test_dir}/otu_table.filtered.csv --reads 1 --samples 1 2>/dev/null`
+  end
+  it 'should uniquify reads' do
+    `./bin/lederhosen uniquify --input=#{$test_dir}/sorted.fasta --output=#{$test_dir}/uniqued.fasta --table-out=#{$test_dir}/uniquify.txt 2>/dev/null`
+    $?.success?.should be_true
   end
   it 'should split joined.fasta into reads for each cluster' do
-    `./bin/lederhosen split --reads=#{$test_dir}/joined.fasta --clusters=#{$test_dir}/clusters.uc --out-dir=#{$test_dir}/split --min-clst-size=1`
+    `./bin/lederhosen split --reads=#{$test_dir}/joined.fasta --clusters=#{$test_dir}/clusters.uc --out-dir=#{$test_dir}/split --min-clst-size=1 2>/dev/null`
   end
   it 'should create a fasta file containing representative reads for each cluster' do
-    `./bin/lederhosen rep_reads --clusters=#{$test_dir}/clusters.uc --joined=#{$test_dir}/filtered.fasta --output=#{$test_dir}/representatives.fasta`
+    `./bin/lederhosen rep_reads --clusters=#{$test_dir}/clusters.uc --joined=#{$test_dir}/filtered.fasta --output=#{$test_dir}/representatives.fasta 2>/dev/null`
     $?.success?.should be_true
   end
@@ -59,18 +64,14 @@ describe Lederhosen::CLI do
   it 'should add names to otu abundance matrix given blat output' do
     levels = %w{kingdom domain phylum class order genus speces}
-    level =
-      begin
-        levels.sample # 1.9 and up
-      rescue
-        levels.choice # 1.8 and lower
-      end
-    `./bin/lederhosen add_names --table=spec/data/otus.csv --blat=spec/data/blat.txt --level=#{level} --output=#{$test_dir}/named_otus.csv`
+    # Ruby 1.9 vs Ruby 1.8
+    level = levels.sample rescue levels.choice
+    `./bin/lederhosen add_names --table=spec/data/otus.csv --blat=spec/data/blat.txt --level=#{level} --output=#{$test_dir}/named_otus.csv 2>/dev/null`
     $?.success?.should be_true
   end
   it 'should squish otu abundance matrix by same name' do
-    `./bin/lederhosen squish --csv-file=#{$test_dir}/named_otus.csv --output=#{$test_dir}/squished.csv`
+    `./bin/lederhosen squish --csv-file=#{$test_dir}/named_otus.csv --output=#{$test_dir}/squished.csv 2>/dev/null`
     $?.success?.should be_true
   end
 end

metadata CHANGED Viewed

@@ -1,13 +1,13 @@
 --- !ruby/object:Gem::Specification
 name: lederhosen
 version: !ruby/object:Gem::Version
-  hash: 29
+  hash: 3
   prerelease:
   segments:
   - 0
   - 3
-  - 7
-  version: 0.3.7
+  - 8
+  version: 0.3.8
 platform: ruby
 authors:
 - Austin G. Davis-Richardson
@@ -15,7 +15,7 @@ autorequire:
 bindir: bin
 cert_chain: []
-date: 2012-08-14 00:00:00 Z
+date: 2012-08-20 00:00:00 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   type: :runtime