RubyGems - npsearch - Versions diffs - 2.0.1 → 2.1.0 - Mend

npsearch 2.0.1 → 2.1.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (28) hide show

checksums.yaml +4 -4
data/.gitignore +2 -1
data/README.md +3 -2
data/Rakefile +14 -5
data/bin/npsearch +45 -33
data/lib/npsearch/arg_validator.rb +70 -241
data/lib/npsearch/output.rb +6 -5
data/lib/npsearch/pool.rb +1 -1
data/lib/npsearch/scoresequence.rb +62 -60
data/lib/npsearch/sequence.rb +12 -9
data/lib/npsearch/signalp.rb +29 -10
data/lib/npsearch/version.rb +1 -1
data/lib/npsearch.rb +27 -52
data/npsearch.gemspec +2 -1
data/templates/contents.slim +3 -3
data/test/files/mixed_content.fa +167 -0
data/test/test_argument_validator.rb +50 -0
data/test/test_helper.rb +1 -0
data/test/test_sequence.rb +81 -0
data/test/test_sequence_scoring.rb +142 -0
metadata +27 -17
data/test/files/1_protein.fa +0 -204
data/test/files/2_orf.fa +0 -1330
data/test/files/3_signalp_out.txt +0 -667
data/test/files/4_secretome.fa +0 -6
data/test/files/5_output.fa +0 -6
data/test/files/5_output.html +0 -37
data/test/test_np_search.rb +0 -122

data/lib/npsearch/scoresequence.rb CHANGED Viewed

@@ -1,108 +1,110 @@
-require 'csv'
-require 'tempfile'
+# Top level module / namespace.
 module NpSearch
   # A class to score the Sequences
   class ScoreSequence
     class << self
-      DI_CLV = 'KR|RR|KK'
-      MONO_NP_CLV_2 = '[KR]..R'
-      MONO_NP_CLV_4 = '[KR]....R'
-      MONO_NP_CLV_6 = '[KR]......R'
+      DI_CLV        = 'KR|RR|KK'.freeze
+      MONO_NP_CLV_2 = '[KR]..R'.freeze
+      MONO_NP_CLV_4 = '[KR]....R'.freeze
+      MONO_NP_CLV_6 = '[KR]......R'.freeze
       NP_CLV = "(#{DI_CLV})|(#{MONO_NP_CLV_2})|(#{MONO_NP_CLV_4})|" \
-               "(#{MONO_NP_CLV_6})"
+               "(#{MONO_NP_CLV_6})".freeze
-      def run(sequence)
-        @sequence = sequence
-        split_into_neuropeptides
-        count_np_cleavage_sites
-        count_c_terminal_glycines
-        np_similarity
-        acidic_spacers
+      def run(sequence, opt)
+        split_into_potential_neuropeptides(sequence)
+        count_np_cleavage_sites(sequence)
+        count_c_terminal_glycines(sequence)
+        np_similarity(sequence, opt[:temp_dir])
+        acidic_spacers(sequence)
       end
       private
-      def split_into_neuropeptides
+      def split_into_potential_neuropeptides(sequence)
         potential_nps = []
-        results = @sequence.seq.scan(/(?<=^|#{NP_CLV})(\w+?)(?=#{NP_CLV}|$)/i)
+        results = sequence.seq.scan(/(?<=^|#{NP_CLV})(\w+?)(?=#{NP_CLV}|$)/i)
         headers = %w(di_clv_st mono_2_clv_st mono_4_clv_st mono_6_clv_st np
                      di_clv_end mono_2_clv_end mono_4_clv_end mono_6_clv_end)
         results.each { |e| potential_nps << Hash[headers.map(&:to_sym).zip(e)] }
-        @sequence.potential_cleaved_nps = potential_nps
+        sequence.potential_cleaved_nps = potential_nps
       end
-      def count_np_cleavage_sites
-        @sequence.potential_cleaved_nps.each do |e|
-          count_dibasic_np_clv(e[:di_clv_end])
-          count_mono_basic_np_clv(e[:mono_2_clv_end], e[:mono_4_clv_end],
-                                  e[:mono_6_clv_end])
+      def count_np_cleavage_sites(sequence)
+        return if sequence.potential_cleaved_nps.empty?
+        sequence.potential_cleaved_nps.each do |e|
+          count_dibasic_np_clv(sequence, e[:di_clv_end])
+          count_mono_basic_np_clv(sequence, e[:mono_2_clv_end],
+                                  e[:mono_4_clv_end], e[:mono_6_clv_end])
         end
       end
-      def count_dibasic_np_clv(dibasic_clv)
+      def count_dibasic_np_clv(sequence, dibasic_clv)
         case dibasic_clv
         when 'KR'
-          @sequence.score += 0.09
+          sequence.score += 0.09
         when 'RR', 'KK'
-          @sequence.score += 0.05
+          sequence.score += 0.05
         end
       end
-      def count_mono_basic_np_clv(mono_2_clv, mono_4_clv, mono_6_clv)
+      def count_mono_basic_np_clv(sequence, mono_2_clv, mono_4_clv, mono_6_clv)
         return if mono_2_clv.nil? && mono_4_clv.nil? && mono_6_clv.nil?
-        @sequence.score += 0.02
+        sequence.score += 0.02
       end
       # Counts the number of C-terminal glycines
-      def count_c_terminal_glycines
-        @sequence.potential_cleaved_nps.each do |e|
-          if e[:np] =~ /G$/ && e[:di_clv_end] == 'KR'
-            @sequence.score += 0.25
+      def count_c_terminal_glycines(sequence)
+        return if sequence.potential_cleaved_nps.empty?
+        sequence.potential_cleaved_nps.each do |e|
+          if e[:np] =~ /FG$/ && e[:di_clv_end] == 'KR'
+            sequence.score += 0.40
+          elsif e[:np] =~ /G$/ && e[:di_clv_end] == 'KR'
+            sequence.score += 0.25
           elsif e[:np] =~ /G$|GK$|GR$/
-            @sequence.score += 0.10
+            sequence.score += 0.10
           end
         end
       end
-      def acidic_spacers
-        @sequence.potential_cleaved_nps.each do |e|
-          acidic_residue = e[:np].count('DE')
-          percentage_acidic = acidic_residue / e[:np].length
-          @sequence.score += 0.10 if percentage_acidic > 0.5
+      # Adds 0.10 if the acidic spacer is detected.
+      # Acidic Spacer is defined as being less than 25% of the precursor length
+      # (not including the Signalp) && having more than 50% D and E amino acids.
+      def acidic_spacers(sequence)
+        sequence.potential_cleaved_nps.each do |e|
+          next if e[:np].length / sequence.seq.length > 0.25
+          sequence.score += 0.10 if e[:np].count('DE') / e[:np].length > 0.5
         end
       end
-      def np_similarity
-        results = run_uclust
-        results.gsub!(/^[^C].*\n/, '')
-        results.each_line do |c|
-          cluster = c.split(/\t/)
-          no_of_seq_in_cluster = cluster[3].to_i
-          if no_of_seq_in_cluster > 1
-            @sequence.score += (0.15 * no_of_seq_in_cluster)
+      def np_similarity(sequence, temp_dir, results = nil)
+        results  = run_cdhit(sequence, temp_dir) if results.nil?
+        clusters = results.split(/^>Cluster \d+\n/)
+        clusters.each do |c|
+          next if c.nil?
+          no_of_seqs_in_cluster = c.split("\n").length
+          if no_of_seqs_in_cluster > 1
+            sequence.score += (0.15 * no_of_seqs_in_cluster)
           end
         end
       end
-      def run_uclust
-        f = Tempfile.new('uclust')
-        fo = Tempfile.new('uclust_out')
-        write_sequence_content_to_tempfile(f)
-        `usearch -cluster_fast #{f.path} -id 0.5 -uc #{fo.path} >/dev/null 2>&1`
-        IO.read(fo.path)
-      ensure
-        f.unlink
-        fo.unlink
+      def run_cdhit(sequence, temp_dir)
+        f = Tempfile.new('clust', temp_dir)
+        fo = Tempfile.new('clust_out', temp_dir)
+        return unless write_potential_peptides_to_tempfile(sequence, f)
+        `cd-hit -c 0.5 -n 3 -l 4 -i #{f.path} -o #{fo.path}`
+        IO.read("#{fo.path}.clstr")
       end
-      def write_sequence_content_to_tempfile(tempfile)
-        content = ''
-        @sequence.potential_cleaved_nps.each_with_index do |e, i|
-          content += ">seq#{i}\n#{e[:np]}\n"
+      def write_potential_peptides_to_tempfile(sequence, tempfile)
+        return false if sequence.potential_cleaved_nps.empty?
+        sequences = ''
+        sequence.potential_cleaved_nps.each_with_index do |e, i|
+          sequences += ">seq#{i}\n#{e[:np]}\n"
         end
-        tempfile.write(content)
+        tempfile.write(sequences)
         tempfile.close
+        true
       end
     end
   end

data/lib/npsearch/sequence.rb CHANGED Viewed

@@ -1,23 +1,26 @@
+# Top level module / namespace.
 module NpSearch
+  # Adapted from GeneValidator's Query Class..
   # A class to hold sequence data
   class Sequence
-    DI_NP_CLV = 'KR|KK|RR'
-    MONO_NP_CLV = '[KRH]..R|[KRH]....R|[KRH]......R'
+    DI_NP_CLV   = 'KR|KK|RR'.freeze
+    MONO_NP_CLV = '[KRH]..R|[KRH]....R|[KRH]......R'.freeze
     attr_reader :id
+    attr_reader :defline
     attr_reader :signalp
     attr_reader :seq
     attr_reader :html_seq
-    attr_reader :signalp_output
     attr_reader :translated_frame
     attr_accessor :score
     attr_accessor :potential_cleaved_nps
-    def initialize(id, seq, signalp_output, frame = nil)
-      @id                    = id
-      sp_cleavage_site_idx   = signalp_output[:ymax_pos].to_i - 1
-      @signalp               = seq[0..(sp_cleavage_site_idx - 1)]
-      @seq                   = seq[sp_cleavage_site_idx..-1]
+    def initialize(entry, sp, frame = nil)
+      @id                    = entry.entry_id
+      @defline               = entry.definition
+      sp_cleavage_site_idx   = sp[:ymax_pos].to_i - 1
+      @signalp               = sp[:orf][0..(sp_cleavage_site_idx - 1)]
+      @seq                   = sp[:orf][sp_cleavage_site_idx..-1]
       @html_seq              = format_seq_for_html
       @translated_frame      = frame
       @score                 = 0
@@ -27,7 +30,7 @@ module NpSearch
     def format_seq_for_html
       seq = @seq.gsub(/C/, '<span class=cysteine>C</span>')
       seq.gsub!(/#{DI_NP_CLV}/i, '<span class=np_clv>\0</span>')
-      seq.gsub!(/#{MONO_NP_CLV}/i, '\0::NP_CLV::') # so that we can target R >>
+      seq.gsub!(/#{MONO_NP_CLV}/i, '\0::NP_CLV::') # so that we can target 'R'
       seq.gsub!('R::NP_CLV::', '<span class=mono_np_clv>R</span>')
       seq.gsub!('G<span class=np_clv>',
                 '<span class=glycine>G</span><span class=np_clv>')

data/lib/npsearch/signalp.rb CHANGED Viewed

@@ -1,6 +1,6 @@
 require 'forwardable'
-require 'tempfile'
+# Top level module / namespace.
 module NpSearch
   # A class to hold sequence data
   class Signalp
@@ -10,15 +10,34 @@ module NpSearch
       def analyse_sequence(seq)
         sp_headers = %w(name cmax cmax_pos ymax ymax_pos smax smax_pos smean d
-                        sp dmaxcut networks)
-        f = Tempfile.new('signalp')
-        f.write(">seq\n#{seq}")
-        f.close
-        s = `#{opt[:signalp_path]} -t euk -f short -U 0.3 -u 0.3 '#{f.path}' | \
-             sed -n '3 p'`
-        Hash[sp_headers.map(&:to_sym).zip(s.split)]
-      ensure
-        f.unlink
+                        sp dmaxcut networks orf)
+        data       = setup_analysis(seq)
+        orf_results = []
+        s = `echo "#{data[:fasta]}\n" | #{opt[:signalp_path]} -t euk \
+             -f short -U 0.34 -u 0.34`
+        sp_results = s.split("\n").delete_if { |l| l[0] == '#' }
+        sp_results.each_with_index do |line, idx|
+          line = line + ' ' + data[:seq][idx].to_s
+          orf_results << Hash[sp_headers.map(&:to_sym).zip(line.split)]
+        end
+        orf_results.sort_by { |h| h[:d] }.reverse[0]
+      end
+      def setup_analysis(seq)
+        if opt[:type] == :protein
+          data = { seq: [seq], fasta: ">seq\n#{seq}" }
+        else
+          orfs = seq.scan(/(?=(M\w+))./).flatten
+          orfs.unshift(seq)
+          data = { seq: orfs, fasta: create_orf_fasta(orfs) }
+        end
+        data
+      end
+      def create_orf_fasta(m_orf)
+        fasta = ''
+        m_orf.each_with_index { |seq, idx| fasta << ">#{idx}\n#{seq}\n" }
+        fasta
       end
     end
   end

data/lib/npsearch/version.rb CHANGED Viewed

@@ -1,4 +1,4 @@
 # Top level module / namespace.
 module NpSearch
-  VERSION = '2.0.1'
+  VERSION = '2.1.0'.freeze
 end

data/lib/npsearch.rb CHANGED Viewed

@@ -1,7 +1,7 @@
 require 'bio'
 require 'fileutils'
-# require 'npsearch/arg_validator'
+require 'npsearch/arg_validator'
 require 'npsearch/output'
 require 'npsearch/pool'
 require 'npsearch/scoresequence'
@@ -11,33 +11,39 @@ require 'npsearch/signalp'
 # Top level module / namespace.
 module NpSearch
   class <<self
-    MIN_ORF_SIZE = 30 # amino acids (including potential signal peptide)
     attr_accessor :opt
     attr_accessor :sequences
     attr_reader :sorted_sequences
     def init(opt)
-      # @opt = args_validation(opt)
-      @opt        = opt
-      @sequences  = []
+      @opt              = ArgumentsValidators.run(opt)
+      @sequences        = []
       @sorted_sequences = nil
-      @opt[:type] = guess_sequence_type
-      @pool       = Pool.new(@opt[:num_threads]) if @opt[:num_threads] > 1
+      @pool             = Pool.new(@opt[:num_threads]) if @opt[:num_threads] > 1
+      FileUtils.mkdir_p(@opt[:temp_dir])
+      extract_orf if @opt[:type] == :genetic
     end
     def run
-      iterate_input_file
+      input_file = @opt[:type] == :protein ? @opt[:input_file] : @opt[:orf]
+      iterate_input_file(input_file)
       @sorted_sequences = @sequences.sort_by(&:score).reverse
       Output.to_fasta(@opt[:input_file], @sorted_sequences, @opt[:type])
       Output.to_html(@opt[:input_file])
+      remove_temp_dir
     end
     private
-    def iterate_input_file
-      biofastafile = Bio::FlatFile.open(Bio::FastaFormat, @opt[:input_file])
-      biofastafile.each_entry do |entry|
+    # Uses getorf from EMBOSS package to extract all ORF
+    def extract_orf(input = @opt[:input_file], minsize = 90)
+      @opt[:orf] = File.join(@opt[:temp_dir], 'input.orf.fa')
+      system "getorf -sequence #{input} -outseq #{@opt[:orf]}" \
+             " -minsize #{minsize} >/dev/null 2>&1"
+    end
+    def iterate_input_file(input_file)
+      Bio::FlatFile.open(Bio::FastaFormat, input_file).each_entry do |entry|
         if @opt[:num_threads] > 1
           @pool.schedule(entry) { |e| initialise_seqs(e) }
         else
@@ -48,49 +54,18 @@ module NpSearch
     end
     def initialise_seqs(entry)
-      if @opt[:type] == :protein
-        initialise_protein_seq(entry.entry_id, entry.aaseq)
-      else
-        initialise_transcriptomic_seq(entry.entry_id, entry.naseq)
-      end
-    end
-    def initialise_protein_seq(id, seq)
-      sp = Signalp.analyse_sequence(seq)
-      return unless sp[:sp] == 'Y'
-      seq = Sequence.new(id, seq, sp)
-      ScoreSequence.run(seq)
+      return if entry.aaseq.length > @opt[:max_seq_length]
+      sp = Signalp.analyse_sequence(entry.aaseq)
+      return if sp[:sp] == 'N'
+      # seq = Sequence.new(entry.entry_id, entry.definition, entry.aaseq, sp)
+      seq = Sequence.new(entry, sp)
+      ScoreSequence.run(seq, @opt)
       @sequences << seq
     end
-    def initialise_transcriptomic_seq(id, naseq)
-      (1..6).each do |f|
-        translated_seq = naseq.translate(f)
-        orfs = translated_seq.to_s.scan(/(?=(M\w{#{MIN_ORF_SIZE},}))./).flatten
-        initialise_orfs(id, orfs, f)
-      end
-    end
-    def initialise_orfs(id, orfs, frame)
-      orfs.each do |orf|
-        sp = Signalp.analyse_sequence(orf)
-        next if sp[:sp] == 'N'
-        seq = Sequence.new(id, orf, sp, frame)
-        ScoreSequence.run(seq)
-        @sequences << seq
-        # The remaining ORF in this frame are simply shorter versions of the
-        # same orf so break loop once signal peptide is found.
-        break if sp[:sp] == 'Y'
-      end
-    end
-    def guess_sequence_type
-      fasta_content = IO.binread(@opt[:input_file])
-      # removing non-letter and ambiguous characters
-      cleaned_sequence = fasta_content.gsub(/[^A-Z]|[NX]/i, '')
-      return nil if cleaned_sequence.length < 10 # conservative
-      type = Bio::Sequence.new(cleaned_sequence).guess(0.9)
-      (type == Bio::Sequence::NA) ? :nucleotide : :protein
+    def remove_temp_dir
+      return unless File.directory?(@opt[:temp_dir])
+      FileUtils.rm_rf(@opt[:temp_dir])
     end
   end
 end

data/npsearch.gemspec CHANGED Viewed

@@ -16,7 +16,7 @@ Gem::Specification.new do |s|
                     ' For more information: https://github.com/wurmlab/npsearch'
   s.summary       = 'Search for neuropeptides based on the common' \
                     ' neuropeptides markers'
-  s.homepage      = 'https://github.com/IsmailM/NeuroPeptideSearch'
+  s.homepage      = 'https://github.com/wurmlab/npsearch'
   s.license       = 'AGPL'
   s.files         = `git ls-files -z`.split("\x0")
@@ -28,6 +28,7 @@ Gem::Specification.new do |s|
   s.add_development_dependency 'bundler', '~> 1.6'
   s.add_development_dependency 'rake', '~>10.3'
   s.add_development_dependency 'coveralls'
+  s.add_development_dependency 'minitest', '~> 5.4'
   s.add_dependency 'bio', '~> 1.4'
   s.add_dependency 'slim', '~> 3.0'

data/templates/contents.slim CHANGED Viewed

@@ -29,9 +29,9 @@ html lang="en"
           p.sequence
             span.id
               - if @opt[:type] == :protein
-                | >#{seq.id}
+                | >#{seq.defline}
               - elsif @opt[:type] == :nucleotide
-                | >#{seq.id}-(frame:#{seq.translated_frame})
+                | >#{seq.defline}-(frame:#{seq.translated_frame})
             br
             span.seq== seq.html_seq
       br
@@ -50,5 +50,5 @@ html lang="en"
         a href="http://www.sbcs.qmul.ac.uk" target="_blank" QMUL
         br
         | This page was created by
-        a href="https://github.com/wurmlab/NpSearch" target="_blank"  NpSearch
+        a href="https://github.com/wurmlab/npsearch" target="_blank"  NpSearch
         | v#{NpSearch::VERSION}

data/test/files/mixed_content.fa ADDED Viewed

@@ -0,0 +1,167 @@
+>isotig00006  gene=isogroup00003  length=1747  numContigs=6
+AGTTAAAAGTTGAAAAATTGGTGACCATATTTTGACACTCTAGCATATTTGGGAGCTATA
+TACTGATTTGGGTTTCACCATGCACAGATGAGGTATATACATAAGTTGAAAGCCTGCAGC
+TCTATATTAAAGGCATTGAAGACtcGCCcAAaccgtgTGcgcccTCTGAAAAaGTTAACT
+TTCcGTTgCTTGCAaGTGAAGTTTtcTtCTTGTCGCTACAAAATGCAGACAGTAATGAAA
+>isotig00007  gene=isogroup00003  length=1749  numContigs=5
+TGTGTGTGTGTGGTGCTTCCccTCTAGGGCTGTAAATTTCAAAGGAACCTTGCGCAAGAA
+CAGtAGCTTGCGaCGTTTTTCAAaaCCAGAGGTTCTGAACTGAACTGTACTGACTACTGT
+AGGGtacTTAAaGGCATTGAAGACTCGCCcAAaCCatgTGCCGCGctttGAAAAAGTTAA
+CTTTCCGTTGCTTGCAAATGAcGTTTtcTtCTtGTCgCTACAAAATGCAGACAGTAaTgA
+AACGTGATACcTtGTtATCTTTtATCTAgACctGAGATGtCcACGCTGCTATGTACACTG
+TGTTGTGGgTATTGACcGTAGCTGTATGTATtGACTGTACACTAGTGTCTAATtACCGAC
+GGTAGCAAGCTGTGTGTGTATTTTCTGGGATCaaTGGTGgTGTCTAACACTTCtGTTACA
+CCtCAtTcGAAACTAGGTCAGAtTAcCgGCATAGACGTTTCTTTGTGCcgAGTCtTCACA
+cccttttaaggagaagtattttatatcccattaaTAGAGAAAGAATTATGTTTCAATTGG
+TAGCATGCAACTTAAAAtTTTGCAAACaTTAGATACAATCAAACAATAACAAGGTTCATT
+ACAAGGttAAtCtacTGCCCTTTATTtCACATTaGTCTGTCACATCAGAAGgTCACAGCT
+TtCAaTAaTTATACAAACAAATtCCCTtGATGGgTGCTtGgTtAGATTCCTGCaatTTTC
+AAGTTTATCAATGTAATAAGTTCTGAATGTGGCAATGTGGaaGAAGCtTtGGGATAATCT
+GTGGATAAGACTGCCAGACTATCAACAAGATTCCACATCCATGCAACTCCAACTGCTTCC
+TTCACCTCCTTGCAGATGTACCACATGTCCaaAAAAAAGTCAGCATTGGTTAATGTAATT
+AAAATCTGGCTTCCTcCTGAGCTGGCAAATACACATGAATTGTCAAGTACAGAGGTCAGT
+GTGAAACCACTGAAAGATCTTCTCAGCTTTCAAGAAAACAAAGACTTGAAGCCAAATTGA
+CAGAGGCCACACTGATACCATTCCACTCTCATAAGATGAAGGTATCACACACACTTCATT
+TTGCTTCTGCGATGCAGTGCCTGGTAGACTGTGAGGgTCACCCAATGGATgtTTTAaCAa
+CTGCCtGGTTtAtAGAGCTCTGCAACAGATAATTCATCCTAaTGTCTAGTCGTCATCCTG
+TCATGGCCTTGAGCAAGTTGAACCCACTTCAACACAAAGCAGCTATTGAATTCTTGTCTA
+GGTACTGTcAAATCCACATCACCATCATTGCttGGTTCCAGCTaCGcTGACCATGaTAAA
+AGAGTACAATGAGGGTTTTTTAATTCACCCAACAGAGCTTGCATTCCAGTACCTTTGGGC
+AGCTGaaaaGATATTCAGAAaTTGTTATATATGAGTGTGTTTGTATGCATGCAtATGtGT
+GATTTtCTtGCTTTACAGAACAGCTCCaTTTTGATAAGCTAtgTAAcgtGgAAACCTGCC
+AATCAaTGTTtgAAataGGAcaGgCTGAAACGATTCTTAAATGAAAAGCTTAAtgaCTTc
+TTgCAtttttaTACATCACTGTTCAGGtAaGGCCAGTAAGGgCAGTATgAaGAAtAaGTA
+ACAATtAATAATTATCATTATGGCCATTTGCTGtcTGCATAAtAaCAAACTGAATGATGT
+CATCAGCCCTgTGCTCAGTTGACAgAACTGACAAGTAGGCACACaaTGTCAGTGTGATCC
+ATGAAACCT
+>isotig00008  gene=isogroup00003  length=1726  numContigs=6
+AGGTTTCATGGATCACACTGACAtTGTGTGCCTACTTGTCAGTTcTGTCAACTGAGCAcA
+GGGCTGATGACATCATTCAGTTTGttattATGCAggaCAGCAAATGGCCATAATGATAAT
+TATTAaTTGTTACTtaTTCTtcATACTGCCcTTACTGGCCTtaCCTGAACAGTGATGTAt
+caaaaTGcAAgAAGtcaTTAAGCTTTTCATTTAAGAATCGTTTCAGCctgTCCtaatTTt
+cAAaCAtTGATTGGCAGGTTTCcacgTTAcaTAGCTTATCAAAAtGGAGCTGTTCTGTAA
+AGCAAGaAAATCACaCATaTGCATGCATACAAACACACTCATATATAACAAtTTCTGAAT
+ATCTtttCAGCTGCCCAAAGGTACTGGAATGCAAGCTCTGTTGGGTGAATTAAAAAaCCc
+TCATTGTACTCTTTTATCATGGTCAGCGTAGCTGGAACCAGCAATGATGGTGATGTGGAT
+TTGACAGTACCTAGACAAGAATTCAATAGCTGCTTTGTGTTGAAGTGGGTTCAACTTGCT
+CAAGGCCATGACAGGATGACGACTAGACATtAGGATGAATTATCTGTTGCAGAGCTCTAT
+AAaCCAGGCAGTtGTtAAAaCATCCATTGGGTGACCcTCACAGTCTACCAGGCACTGCAT
+CGCAGAAGCAAAATGAAGTGTGTGTgATACCTTCATCTTATGAGAGTGGAATGGTATCAG
+TGTGGCCTCTGTCAATTTGGCTTCAAGTCTTTGTTTTCTTGAAAGCTGAGAaGATCTTTC
+AGTGGTTTCACACTGACCTCTGTACTTGACAATTCATGTGTATTTGCCAGCTCAGgAGGA
+AGCCAGATTTTAATTACATTAACCAATGCTGACTTTTTTttGGACATGTGGTACATCTGC
+AAGGAGGTGAAGGAAGCAGTTGGAGTTGCATGGATGTGGAATCTTGTTGATAGTCTGGCA
+GTCTTATCCACAGATTATCCCAAAGCTTCTCCACATTGCCACATTCAGAACTTATTACAT
+TGATAAACTTGAAAATtGCAGGAATCTAaCcAaGCACCcATCAaGGGAaTTTGTTTGTAT
+AATtATtGAAaGCTGTGACcTTCTGATGTGACAGACTAATGTGAAaTAAAGGgCAgtaGa
+TTaCCTTGTaaTGAACCttGTTATTGTTTGATTGTATCTAAtGTTTGCAaaTTTTAAGTT
+GCATGCTACCAATTGAAACATAATTCTTTCTCTAttaatgggatataaaatacttctcct
+taaaagggTGTgAaGACTcggCACAAAGAAACGTCtaTGCcGgtAaTCTGACCTAGTTTc
+gAatGaGGTGTAACagAAGTgTtAGACACcACCAttGATCCcAGAAAATACACACACAGC
+TTGCTACCGTCGGTAaTTAGACACTAGTGTACAGTCAaTACATACAGCTAcGgTCAATAC
+CCACAaCACAgTGTAcATAGCAGCGaTGgACATCTCAGGTCTAGATAAAAGATAaCAAGG
+TATCACGTTTCATtaCTGTCTGCATTTtGTAGCgaCAagAAGAAAAcgtCATTtGCAAGC
+AaTGgAAAGTtAACTTTTTCaGAGCGcagCAcGCgggTTGGGGCAAGTCTTCCAAGCCTT
+TAAGTtGACAtcTTGCCTTTGGCTATCCAGGgTGACAAGATGATACTAGCAGGTAgagtg
+actaattgagccctgtgtgagaaaccaatgcagaatctagcctagt
+>isotig00009  gene=isogroup00003  length=1827  numContigs=2
+TAGCTGTGATCTAGTGGATCTGACTGGCCTTTTGATTATTTCAGCacGATTCTCAGACTA
+CAGTTGTAAaCCTACTTCGACTACTACTACTActagtacTAACGGTGCAACGTTGTTATA
+AGTTTGCCAAAGGTGAAACTTTAGCCTTAGGACtGTGTTTATTTTATTTGCAGTCGCATT
+CgCCTAACTGTTTTCTGTTACTGGGTGCATTTAACTCACATTAATAGAGGATTTTtGACT
+AGTtCcTAGAGAGTGGTGTTTCTGTTTTACCACCATGGCAAAAAAGGGAAaGCCTCGCCC
+TGACCATAGGCCTCCTGCACACAACCCGCATTATGCTCATGATCCACCACCTTATTCACA
+ACAGCAACCACCACTTCAACAGCAGAACTATGCACAACAAATGCATCATGGTGGAGGTGG
+TGGAAATAGACAACATGCACGACcTAGACCTAGTCCACCTTCAGAAGTCAGTGACTGTGT
+CAAGTACTCCCTTTTCTtGTATAACTGCATCTTTTGgaTTGtCGGCCTTttCTTTATtGC
+AGCAGGTATCTGGgCATTTCACGATAGGGGTGTTTTTAATGAATTCCAGTCACTTAGTAC
+CAATGAGGTCTCCTTTCTCACTGATCCTGTTATTTGGCTGTTCGTCCTCGGAGGTGTAGT
+TTTCATGCTGGGAACCCTCGGATGTCTgGGGgCCCTCAGAGAAAaTATCTGCATGCTGAA
+GTGTTTTAGCATAATCATGGGGCTTATACTGCTGCTGGAAATTGGAGGTGGATGTGCGAT
+ATACTTCTATCGTGCACAGATTCAGGCACAGTTTCAAAAGTCCTTAACAGATGTGaCCAT
+AACAGATTACAGAGAAAATGCTGATTTCCAGGATCTCATAGACGCATTACAATCCGGTCT
+TTCTTGTTGTGGTGTCAATTCCTatGAAGACTGGGATAATAATATTTATTTCAACTGTAG
+TGGTCCTGCCAATAACCCTGAAGCcttGTGGTGTGCCTTtCTCCTGTTGTATACCGGATC
+AAGCAAGCGGAGTAGCCAACACCCAGTGCGGTTATGGAGTTCGTTCCCCCGAACAACAAA
+ATACTTTCCACACAAAGATTTACACCACTGGCTGTGCGGATATGTTTACAATGTGGATTA
+ATAGGTACCTATATTACATAGCAGGCATTGCTGGGGTCATTGTCTTGGTCGAGTtGTTTG
+GATTCTGTTTTGCACATTCCCTCATCAACGACATCAAACGCCAAAAGGCCCGCTGGGCGC
+ATCGATAATTCATTCCAGGATGTTGGTGgATGATGCTACTCAAGGGagAAGACTGACAGT
+GCCTTTtGGTCAaTATCGTGTAGCATCAGGAAGGAGGTAGTACCTCCTCAACTAACCaTA
+ACAGAATTTGTCCAGTTTGTAACATCGTCAAGAAATAAACAGACTTTTTTTACCATTAGG
+ACgTGATAATACTACCACGTAACCTCTCAAAGCACAAAAAGCAAAAAGCAAATATCTCCT
+TGTTTTAAAATTAGaagGTCTATCTCAGATAACAACCACAGAACATgTGGAGTTTTCCtT
+TATGCTATCATAAAGATATAAATATATATAAAATTGAGGTAGcATCtTGGCTACCCACCA
+AAATCATTTTTTTTCCAGTTTGaAACATCATGGAACATTTCAGAACAAAGATCATTTCAG
+TCGTTACCACACTCAAGAgaTTGCTGTcGTCAaCaTTTtGtaGCTTTTtAAtGTCTTGAT
+CTTCGTCGACATCGTCAATGTGTAAACTATTCTCGACGAGAGATTAGTGTCTAATACTGC
+GGGTgATTTGATATAAATCTCACTTGG
+>isotig00010  gene=isogroup00003  length=1650  numContigs=5
+TGAATGAGAAAtGAAATTTAGCGAAGAAATCACCTTGTAAATTAAAAACTAAAATGGCTT
+TCACACAAATTAaCAGTAAAtGgAGAATGTTTTTAAAGCAATATATGCAGTACAGCcATT
+CATTGGAAAACAGTAAcAAAaTACATTTATCTTGTtcATTTTtACctCctGCAAaacTTA
+cAaCcGTTAATTATGTAGATTGGATGGCACTAACAGGGTACTTGTCTTATCTGCCTATTG
+GATAATGTGGcATTAATACTACTGTGTATGGGCACTGAGGCTGAGAGTGCAGTAAGTTtA
+AAGGCATTGAAGACTCtCCCCGAaCcGCGtGCCGGGCTctGAAAAAGTtAaCTGCTCGCA
+AaTtAcGTTTtCTtCTTGTCaCTaCAAAaTGCAGACATTaaTGAAACGTGATACCTTGTt
+ATCTTTTATCTAGACCTGAGATGTCcAtCGCTGCTATgTACAcTGTGTTGTGGGTATTGA
+CcgTAGCTGTATGTATtGACTGTACACTAGTGTCTAATtACCGACGGTAGCAAGCTGTGT
+GTGTATTTTCTGGGATCaaTGGTGgTGTCTAACACTTCtGTTACACCtCAtTcGAAACTA
+GGTCAGAtTAcCgGCATAGACGTTTCTTTGTGCcgAGTCtTCACAcccttttaaggagaa
+gtattttatatcccattaaTAGAGAAAGAATTATGTTTCAATTGGTAGCATGCAACTTAA
+AAtTTTGCAAACaTTAGATACAATCAAACAATAACAAGGTTCATTACAAGGttAAtCtac
+TGCCCTTTATTtCACATTaGTCTGTCACATCAGAAGgTCACAGCTTtCAaTAaTTATACA
+AACAAATtCCCTtGATGGgTGCTtGgTtAGATTCCTGCaatTTTCAAGTTTATCAATGTA
+ATAAGTTCTGAATGTGGCAATGTGGaaGAAGCtTtGGGATAATCTGTGGATAAGACTGCC
+AGACTATCAACAAGATTCCACATCCATGCAACTCCAACTGCTTCCTTCACCTCCTTGCAG
+ATGTACCACATGTCCaaAAAAAAGTCAGCATTGGTTAATGTAATTAAAATCTGGCTTCCT
+cCTGAGCTGGCAAATACACATGAATTGTCAAGTACAGAGGTCAGTGTGAAACCACTGAAA
+GATCTTCTCAGCTTTCAAGAAAACAAAGACTTGAAGCCAAATTGACAGAGGCCACACTGA
+TACCATTCCACTCTCATAAGATGAAGGTATCACACACACTTCATTTTGCTTCTGCGATGC
+AGTGCCTGGTAGACTGTGAGGgTCACCCAATGGATgtTTTAaCAaCTGCCtGGTTtAtAG
+AGCTCTGCAACAGATAATTCATCCTAaTGTCTAGTCGTCATCCTGTCATGGCCTTGAGCA
+AGTTGAACCCACTTCAACACAAAGCAGCTATTGAATTCTTGTCTAGGTACTGTcAAATCC
+ACATCACCATCATTGCttGGTTCCAGCTaCGcTGACCATGaTAAAAGAGTACAATGAGGG
+TTTTTTAATTCACCCAACAGAGCTTGCATTCCAGTACCTTTGGGCAGCTGATATCCATTT
+TGTTCCTCGTATgCCTGTCAAAATCTGACATTctGagTCGCTTCGTTTGTTCGCAACGAG
+CACAGTGTGCAAAGctGCTATATATTGTCC
+>isotig00011  gene=isogroup00003  length=1525  numContigs=6
+ACATTCTTCAAGAGCTCTGCACCCACCAATCTAAAGTGACCAGCCAAGTGACTGACCTCA
+GGGCACAGTTAGCAGCTTTGACCACAGGATGAGCTATGTAACAACTGAAtgaaTGGTGTT
+CAtcGTTGATTGGGCAgTCAAAACAGCTGAATTTCTCTTGCGgAAGACATAAAGGCATTG
+AAGACtcGCCcAAaccGtGTGcgcccTCTGAAAAaGTTAACTTTctGTTgCTTGCAaGTG
+AAGTTTtcTtCTtGTCgCTACAAAATGCAGACAGTAaTgAAACGTGATACcTtGTtATCT
+TTtATCTAgACctGAGATGtCcACGCTGCTATGTACACTGTGTTGTGGgTATTGACcGTA
+GCTGTATGTATtGACTGTACACTAGTGTCTAATtACCGACGGTAGCAAGCTGTGTGTGTA
+TTTTCTGGGATCaaTGGTGgTGTCTAACACTTCtGTTACACCtCAtTcGAAACTAGGTCA
+GAtTAcCgGCATAGACGTTTCTTTGTGCcgAGTCtTCACAcccttttaaggagaagtatt
+ttatatcccattaaTAGAGAAAGAATTATGTTTCAATTGGTAGCATGCAACTTAAAAtTT
+TGCAAACaTTAGATACAATCAAACAATAACAAGGTTCATTACAAGGttAAtCtacTGCCC
+TTTATTtCACATTaGTCTGTCACATCAGAAGgTCACAGCTTtCAaTAaTTATACAAACAA
+ATtCCCTtGATGGgTGCTtGgTtAGATTCCTGCaatTTTCAAGTTTATCAATGTAATAAG
+TTCTGAATGTGGCAATGTGGaaGAAGCtTtGGGATAATCTGTGGATAAGACTGCCAGACT
+ATCAACAAGATTCCACATCCATGCAACTCCAACTGCTTCCTTCACCTCCTTGCAGATGTA
+CCACATGTCCaaAAAAAAGTCAGCATTGGTTAATGTAATTAAAATCTGGCTTCCTcCTGA
+GCTGGCAAATACACATGAATTGTCAAGTACAGAGGTCAGTGTGAAACCACTGAAAGATCT
+TCTCAGCTTTCAAGAAAACAAAGACTTGAAGCCAAATTGACAGAGGCCACACTGATACCA
+TTCCACTCTCATAAGATGAAGGTATCACACACACTTCATTTTGCTTCTGCGATGCAGTGC
+CTGGTAGACTGTGAGGgTCACCCAATGGATgtTTTAaCAaCTGCCtGGTTtAtAGAGCTC
+TGCAACAGATAATTCATCCTAaTGTCTAGTCGTCATCCTGTCATGGCCTTGAGCAAGTTG
+AACCCACTTCAACACAAAGCAGCTATTGAATTCTTGTCTAGGTACTGTcAAATCCACATC
+ACCATCATTGCttGGTTCCAGCTaCGcTGACCATGaTAAAAGAGTACAATGAGGGTTTTT
+TAATTCACCCAACAGAGCTTGCATTCCAGTACCTTTGGGCAGCTGATATCCATTTTGTTC
+CTCGTATgCCTGTCAAAATCTGACATTctGagTCGCTTCGTTTGTTCGCAACGAGCACAG
+TGTGCAAAGctGCTATATATTGTCC
+>isotig00001_f6
+FRIYKNYALQYVSKDAHLSLLWSAVTHLGTQYFGKTPFVLTYILLTECAVESCMEACIETLINNYEKDKLLPLQYYTSYFLCRHLAKCDYSKTDKILNVCQRNLMAFLLKINPFHLLRHRLAPNRMQPYEKVNFLLLASDVLFVSLQNADSNETRYIVIFSWTDVHRCTVCTLCCGCLQLYVLTVHCLITDGSKLCVYFLGSMVVSNTSVTPHSKLGQITAPFFLRESSHRIMIIGFSNLEPLTKCVTELIFLVTKKTLVHMRERYINMSIRGRVVYLLPDSADNSQLFENTLCYISSSFKAPKPNQQNKKPNEQRNCMTNVNFSKIELLKHISQHISHRANRTELELTVHCTFHFFLYLKVTTKLHRKTKTSSLHFNHKNIFALITKKIRYTIRQTLPYLKPLRLCSTLSVLNCLYSTVLTRQISIIKISKIYYIHNLKDVECLSGVKAGAFQSGPLFESLQDCMSSSYRVVENRQFIIMDVKYETKRLTSVSLRLANEASSRVPACRMTNTYIYITVMRNAYLPKRCSYTRKGSTHSHLLKVDVVVHVVYFHHLHHDAFVVHSSAVEVVVAVVNKVVDHEHNAGCVQEAYGQGEAFPFLPWWNRNTTLELVKNPLLMVKCTQQKTVRRMRLQIKTQSGSFTFGKLITTLHRYSKVYNCSLRIVLKSKGQSDPLDHS
+>isotig00002_f1
+MRNEIRRNHLVNKLKWLSHKLTVNGECFSNICSTAIHWKTVTKYIYLVHFYLLQNLQPLIMIGWHQGTCLICLLDNVALILLCMGTEAESAVSLKALKTLPEPRAGLKSLLANYVFFLSLQNADINETYLVIFYLDLRCPSLLCTLCCGYPLYVLTVHCLITDGSKLCVYFLGSMVVSNTSVTPHSKLGQITGIDVSLCRVFTPFGEVFYIPLIEKELCFNWHATNFANIRYNQTITRFITRLIYCPLFHISLSHQKVTAFNNYTNKFPWVLGIPAIFKFINVISSECGNVEEALGSVDKTARLSTRFHIHATPTASFTSLQMYHMSKKKSALVNVIKIWLPPELANTHELSSTEVSVKPLKDLLSFQENKDLKPNQRPHYHSTLIRRYHTHFILLLRCSAWTVRVTQWMFQLPGLSSATDNSSCLVVILSWPASTHFNTKQLLNSCLGTVKSTSPSLLGSSYADHDKRVQGFFNSPNRACIPVPLGSKDIQKLLYMSVFVCMHMCDFLALQNSSILISYVTWKPANQCLKDRLKRFLNEKLNDFLHFYTSLFRGQGQYEEVTINNYHYGHLLSAQTECHQPCAQLTELTSRHTMSVSMKP
+>isotig00008_f3
+VSWITLTLCAYLSVLSTEHRADDIIQFVIMQDSKWPLLIVTYSSYCPYWPYLNSDVSKCKKSLSFSFKNRFSLSFSNIDWQVSTLHSLSKWSCSVKQENHTYACIQTHSYITISEYLFSCPKVLECKLCWVNKTLIVLFYHGQRSWNQQWCGFDSTTRIQLLCVEVGSTCSRPQDDDTLGIICCRALTRQLLKHPLGDPHSLPGTASQKQNEVCVIPSSYESGMVSVWPLSIWLQVFVFLKAEKIFQWFHTDLCTQFMCICQLRRKPDFNYINQCLFFGHVVHLQGGEGSSWSCMDVESCSGSLIHRLSQSFSTLPHSELITLINLKIAGIPSTHQGNLFVLLKAVTFCDRLMNKGQITLTLLLFDCICLQILSCMLPIETFFLYWDIKYFSLKGCEDSAQRNVYAGNLTFRMRCNRSVRHHHSQKIHTQLATVGNTLVYSQYIQLRSIPTTQCTQRWTSQVIKDNKVSRFITVCILRQEENVICKQWKVNFFRAQHAGWGKSSKPLSHLAFGYPGQDDTSRSDLSPVETNAESSL
+>isotig00010_f3
+NEKNLAKKSPCKLKTKMAFTQINSKWRMFLKQYMQYSHSLENSNKIHLSCSFLPPAKLTTVNYVDWMALTGYLSYLPIGCGINTTVYGHGECSKFKGIEDSPRTACRALKKLTARKLRFLLVTTKCRHNVIPCYLLSRPEMSIAAMYTVLWVLTVAVCIDCTLVSNYRRQAVCVFSGINGGVHFCYTSFETRSDYRHRRFFVPSLHTLLRRSILYPINRERIMFQLVACNLKFCKHIQSNNNKVHYKVNLLPFISHSVTSEGHSFQLYKQIPLMGAWLDSCNFQVYQCNKFMWQCGRSFGIICGDCQTINKIPHPCNSNCFLHLLADVPHVQKKVSIGCNNLASSAGKYTIVKYRGQCETTERSSQLSRKQRLEAKLTEATLIPFHSHKMKVSHTLHFASAMQCLVDCEGHPMDVLTTAWFIELCNRFILMSSRHPVMALSKLNPLQHKAAIEFLSRYCQIHITIIAWFQLRPKSTMRVFFTQQSLHSSTFGQLISILFLVCLSKSDILSRFVCSQRAQCAKLLYIV
+>isotig00012_f3
+LKVEKLVTIFHSSIFGSYILIWVSPCTDEVYTVESLQLYIKGIEDSPKPCAPSEKVNFPLLASEVFFLSLQNADSNETYLVIFYLDLRCPRCYVHCVVGIDRSCMYLYTSVLPTVASCVCIFWDQWWCLTLLLHLIRNVRLPATFLCAESSHPFKEKYFISHRKNYVSIGSMQLKILQTLDTIKQQGSLQGSTALYFTLVCHIRRSQLSIIIQTNSLDGCLVRFLQFSSLSMVLNVAMWKKLWDNLWIRLPDYQQDSTSMQLQLLPSPPCRCTTCPKKSQHWLMLKSGFLLSWQIHMNCQVQRSVNHKIFSAFKKTKTSQIDRGHTDTIPLSDEGITHTSFCFCDAVPGRLGSPNGCFNNCLVYRALQQIIHPNVSSSCHGLEQVEPTSTQSSYILVVLSNPHHHHCLVPATLTMIKEYNEGFLIHPTELAFQYLWAADIHFVPRMPVKIHSESLRLFATSTVCKAAIYC
+>isotig00015_f4
+RRPYVARVKVINQWLSLELFLQIKVSTKKITVFEGGHRYERSTGQTRTILTAFHPISRTRIEPQTILHCGRTGHSSWDRGVEHTFTTMLPLYNTSFVSSMLPWCMEFCNQQKSLSSVSIATSIRAASMELQGVNVTFYCSVVRNHVCQHGVALKGCEDSRKKNVCRSDLVSNEVQKCTLPSIPENTNTACYRRLDTSVQSIHTATVNTHNTVYIAAMDISGLDKRQGITFHCLHFVVTRRKRNLRAVNFFRARHAVRGESSMPLNLLHSQPQCPYTVVLMPHYPIGRDKYPVSAIQSTLTVVSFAGGKNEQDKCILLLFSNEWLYCIYCFKNILHLLLICVKAILVFNLQGDFFAKFHFSF

data/test/test_argument_validator.rb ADDED Viewed

@@ -0,0 +1,50 @@
+require_relative 'test_helper'
+require 'npsearch/arg_validator'
+# Class to test the how well the CLI arguments are validated.
+class TestInputArgumentValidator < Minitest::Test
+  def setup
+    @c = NpSearch::ArgumentsValidators
+    @opt = { num_threads: 1, min_orf_length: 30 }
+  end
+  def test_assert_file_present
+    @c.send(:assert_file_present, 'existing file',
+            'test/files/genetic.fa', 1)
+    assert_raises(SystemExit) do
+      @c.send(:assert_file_present, 'non-existing file',
+              'test/files/nope_dont_exist.fa', 1)
+    end
+  end
+  def test_assert_input_file_not_empty
+    f = 'test/files/genetic.fa'
+    @c.send(:assert_input_file_not_empty, f)
+    f = 'test/files/empty_file.fa'
+    assert_raises(SystemExit) { @c.send(:assert_input_file_not_empty, f) }
+  end
+  def test_assert_input_file_probably_fasta
+    f = 'test/files/genetic.fa'
+    @c.send(:assert_input_file_probably_fasta, f)
+    f = 'test/files/not_fasta.fa'
+    assert_raises(SystemExit) { @c.send(:assert_input_file_probably_fasta, f) }
+  end
+  def test_assert_input_sequence
+    f = 'test/files/genetic.fa'
+    @c.send(:assert_input_sequence, f)
+    f = 'test/files/protein.fa'
+    @c.send(:assert_input_sequence, f)
+    f = 'test/files/mixed_content.fa'
+    assert_raises(SystemExit) { @c.send(:assert_input_sequence, f) }
+  end
+  def test_check_num_threads
+    [1, 50, 300].each do |t|
+      @c.send(:check_num_threads, t)
+    end
+    assert_equal(1, @c.send(:check_num_threads, -3))
+  end
+end

data/test/test_helper.rb ADDED Viewed

	@@ -0,0 +1 @@
1	+ require 'minitest/autorun'