RubyGems - seqtrimnext - Versions diffs - 2.0.62 → 2.0.66 - Mend

seqtrimnext 2.0.62 → 2.0.66

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (20) hide show

checksums.yaml +4 -4
data/bin/resume_execution_times.rb +15 -6
data/bin/resume_stn_contaminants.rb +37 -0
data/bin/resume_stn_stats.rb +2 -1
data/bin/seqtrimnext +8 -6
data/bin/split_fastq.rb +1 -1
data/lib/seqtrimnext/classes/em_classes/seqtrim_work_manager.rb +17 -0
data/lib/seqtrimnext/classes/em_classes/seqtrim_worker.rb +2 -2
data/lib/seqtrimnext/classes/params.rb +14 -2
data/lib/seqtrimnext/classes/seqtrim.rb +16 -8
data/lib/seqtrimnext/plugins/plugin.rb +16 -5
data/lib/seqtrimnext/plugins/plugin_ab_adapters.rb +29 -1
data/lib/seqtrimnext/plugins/plugin_adapters.rb +1 -1
data/lib/seqtrimnext/plugins/plugin_contaminants.rb +34 -5
data/lib/seqtrimnext/plugins/plugin_low_complexity.rb +2 -0
data/lib/seqtrimnext/plugins/plugin_low_quality.rb +4 -3
data/lib/seqtrimnext/plugins/plugin_user_contaminants.rb +28 -4
data/lib/seqtrimnext/plugins/plugin_vectors.rb +12 -2
data/lib/seqtrimnext/version.rb +1 -1
metadata +5 -3

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: 1fb6845331e9b46e2a53f29312fce204869a91cf
-  data.tar.gz: 18d138fe1b899582daae2e4118cd6118853afc29
+  metadata.gz: ab74e9c551c43eb30da4a881ab544c9d7754ecaa
+  data.tar.gz: acdf2c4e6d4e5d36d5fafbe1e2004178ed33b145
 SHA512:
-  metadata.gz: d22ad436ce0b15ff783d15b871491adaa5947f9c1da4a7247712f7d6e9e790978ad90ab22657dc7768b51a61d6122f874c7853e9d0279f0dd408702a681ca5f0
-  data.tar.gz: 67d4af5e0bb8dc2eba127b6fe1ff04684c7b96db3fbad9e94cb6a222d88d4da3b5b5fd204022f70c0e14d2511ae476a7814f3ec32d21900c73f2370462207faa
+  metadata.gz: d60d9cb31be6eab17ff47e81e77ae3246408dee62f4061e040a9efdcfc9e6f54997e873e244a337091be391a00ca05eec2cd8d5da7b6ecdebf468b76540b5a39
+  data.tar.gz: bf2c6174ca48e5ea0d1bf9b7da3e58b01d89016674fa7050473a6dca2dc105d6156281c080e25d5906384a4587b7a51571b51ed9155043e0dee71546fff5ecb7

data/bin/resume_execution_times.rb CHANGED Viewed

@@ -3,7 +3,7 @@
 require 'json'
 if ARGV.count<1
-  puts "Usage: #{$0} [-t] [-j] stats1.json"
+  puts "Usage: #{$0} [-t] [-j] [-h] stats1.json"
   exit -1
 end
@@ -20,6 +20,15 @@ if ARGV[0]=='-j'
 	ARGV.shift
 end
+time_divider=1
+# print header
+if ARGV[0]=='-h'
+	time_divider=3600
+	puts "Times are in hours"
+	ARGV.shift
+end
 ARGV.each do |file_path|
 	sample_name = File.basename(File.expand_path(File.join(file_path,'..','..')))
@@ -34,7 +43,7 @@ ARGV.each do |file_path|
 	begin
 		stats.keys.each do |k|
 			if stats[k]['execution_time']
-				res[k]=stats[k]['execution_time']['total_seconds']
+				res[k]=stats[k]['execution_time']['total_seconds'].to_f/time_divider
 				total+=res[k]
 			end
 		end
@@ -48,10 +57,10 @@ ARGV.each do |file_path|
 	if stats['scbi_mapreduce']
 		res['TOTAL_workers']=stats['scbi_mapreduce']['connected_workers']
-		res['TOTAL_read']=stats['scbi_mapreduce']['total_read_time']
-		res['TOTAL_write']=stats['scbi_mapreduce']['total_write_time']
-		res['TOTAL_manager_idle']=stats['scbi_mapreduce']['total_manager_idle_time']
-		res['TOTAL_execution']=stats['scbi_mapreduce']['total_seconds']
+		res['TOTAL_read']=stats['scbi_mapreduce']['total_read_time']/time_divider
+		res['TOTAL_write']=stats['scbi_mapreduce']['total_write_time']/time_divider
+		res['TOTAL_manager_idle']=stats['scbi_mapreduce']['total_manager_idle_time']/time_divider
+		res['TOTAL_execution']=stats['scbi_mapreduce']['total_seconds']/time_divider
 	end
 	if puts_json

data/bin/resume_stn_contaminants.rb ADDED Viewed

@@ -0,0 +1,37 @@
+#!/usr/bin/env ruby
+require 'json'
+if ARGV.count<1
+  puts "Usage: #{$0} stats1.json [stats2.json stats3.json,...]"
+  exit -1
+end
+# print header
+if ARGV[0]=='-t'
+	#heads=['sample_name','input_count','sequence_count_paired','sequence_count_single','rejected','rejected_percent']
+	#puts heads.join("\t")
+	ARGV.shift
+end
+contaminants={}
+ARGV.each do |file_path|
+	sample_name = File.basename(File.expand_path(File.join(file_path,'..','..')))
+	stats=JSON::parse(File.read(file_path))
+	res=[]
+	cont=stats['PluginContaminants']['contaminants_ids']
+	limit=60
+	cont.keys.sort{|c1,c2| cont[c2].to_i <=> cont[c1].to_i}.each do |k|
+		#puts "#{k} => #{cont[k]}"
+		contaminants[k]=(contaminants[k] || 0 ) + cont[k]
+		limit = limit -1
+		break if limit==0
+	end
+end
+puts JSON::pretty_generate(contaminants)

data/bin/resume_stn_stats.rb CHANGED Viewed

@@ -10,10 +10,11 @@ end
 # print header
 if ARGV[0]=='-t'
 	heads=['sample_name','input_count','sequence_count_paired','sequence_count_single','rejected','rejected_percent']
-	puts heads.join("\t")
+	puts heads.join("\t")
 	ARGV.shift
 end
 ARGV.each do |file_path|
 	sample_name = File.basename(File.expand_path(File.join(file_path,'..','..')))

data/bin/seqtrimnext CHANGED Viewed

@@ -216,7 +216,7 @@ optparse = OptionParser.new do |opts|
         options[:workers] = Integer(workers)
       rescue
         STDERR.puts "ERROR:Invalid workers parameter #{options[:workers]}"
-        exit
+        exit -1
       end
     end
@@ -268,7 +268,7 @@ optparse = OptionParser.new do |opts|
     options[:format] = value
     if !['sanger','illumina15', 'illumina18'].include?(value)
       STDERR.puts "ERROR: Invalid FASTQ format parameter #{value}"
-      exit
+      exit -1
     end
   end
@@ -301,7 +301,7 @@ optparse = OptionParser.new do |opts|
     options[:template] = file
   end
-  options[:chunk_size] = 100
+  options[:chunk_size] = 5000
   opts.on( '-g', '--group_size chunk_size', 'Group sequences in chunks of size <chunk_size>' ) do |cs|
     options[:chunk_size] = cs.to_i
   end
@@ -332,7 +332,7 @@ optparse = OptionParser.new do |opts|
   opts.on_tail( '-h', '--help', 'Display this screen' ) do
     puts opts
     show_additional_help
-    exit
+    exit -1
   end
 end
@@ -342,13 +342,13 @@ optparse.parse!
 if options[:list_db] then
   # List database entries in a database
   ListDb.new($DB_PATH,options[:list_db_name])
-  exit
+  exit -1
 end
 if options[:gen_params] then
   # Generates a sample params file in current directory
   Params.generate_sample_params
-  exit
+  exit -1
 end
 #set logger
@@ -453,3 +453,5 @@ else
   $LOG.info "If you want a detailed report in PDF format, be sure you have installed the optional seqtrimnext_report gem (gem install seqtrimnext_report)#{skip_text}"
 end
+exit(Seqtrim.exit_status)

data/bin/split_fastq.rb CHANGED Viewed

@@ -14,7 +14,7 @@ output_name = ARGV.shift
 split_by = ARGV.shift.to_i
 gz_arg=ARGV.shift
-gz=false
+gz=''
 if !gz_arg.nil? and gz_arg.index('-gz')
 	gz='.gz'

data/lib/seqtrimnext/classes/em_classes/seqtrim_work_manager.rb CHANGED Viewed

@@ -17,6 +17,7 @@ class SeqtrimWorkManager < ScbiMapreduce::WorkManager
     @@full_stats={}
     @@params= params
     @@exit = false
+    @@exit_status=0
     @@ongoing_stats={}
     @@ongoing_stats[:sequence_count] = 0
@@ -85,6 +86,10 @@ class SeqtrimWorkManager < ScbiMapreduce::WorkManager
   end
+  def self.exit_status
+    return @@exit_status
+  end
   def self.end_work_manager
     # if initial files doesn't exists, create it
@@ -115,6 +120,14 @@ class SeqtrimWorkManager < ScbiMapreduce::WorkManager
   end
+  def self.global_error_received(error_exception)
+    $LOG.error "Global error:\n" + error_exception.message + ":\n" +error_exception.backtrace.join("\n")
+    @@errors_file.puts "Global error:\n" + error_exception.message + ":\n" +error_exception.backtrace.join("\n")
+    @@errors_file.puts "="*60
+    @@exit_status=-1
+    SeqtrimWorkManager.controlled_exit
+  end
   def self.work_manager_finished
     @@full_stats['scbi_mapreduce']=@@stats
@@ -129,10 +142,14 @@ class SeqtrimWorkManager < ScbiMapreduce::WorkManager
   def error_received(worker_error, obj)
     @@errors_file.puts "Error while processing object #{obj.inspect}\n" + worker_error.original_exception.message + ":\n" +worker_error.original_exception.backtrace.join("\n")
     @@errors_file.puts "="*60
+    @@exit_status=-1
+    SeqtrimWorkManager.controlled_exit
   end
   def too_many_errors_received
     $LOG.error "Too many errors: #{@@error_count} errors on #{@@count} executed sequences, exiting before finishing"
+    @@exit_status=-1
   end
   def worker_initial_config

data/lib/seqtrimnext/classes/em_classes/seqtrim_worker.rb CHANGED Viewed

@@ -81,8 +81,8 @@ class SeqtrimWorker <  ScbiMapreduce::Worker
   def starting_worker
     # $WORKER_LOG.level = Logger::ERROR
-    $WORKER_LOG.level = Logger::WARN
-    #$WORKER_LOG.level = Logger::INFO
+    #$WORKER_LOG.level = Logger::WARN
+    $WORKER_LOG.level = Logger::INFO
     $WORKER_LOG.info "Loading actions"
     @action_manager = ActionManager.new

data/lib/seqtrimnext/classes/params.rb CHANGED Viewed

@@ -33,8 +33,18 @@ class Params
         if !line.empty?
           if !(line =~ /^\s*#/)   # if line is not a comment
             # extract the parameter's name in params[0] and the parameter's value in params[1]
-            params = line.split(/\s*=\s*/)
+            #params = line.split(/\s*=\s*/)
+            # store in the hash the pair key/value, in our case will be name/numeric-value ,
+            # that are save in params[0] and params[1],  respectively
+            #if (!params[0].nil?) && (!params[1].nil?)
+            #  set_param(params[0].strip,params[1].strip,comments)
+            #  comments=[]
+            #end
+            line =~ /^\s*([^=]*)\s*=\s*(.*)\s*$/
+            params=[$1,$2]
             # store in the hash the pair key/value, in our case will be name/numeric-value ,
             # that are save in params[0] and params[1],  respectively
             if (!params[0].nil?) && (!params[1].nil?)
@@ -42,7 +52,9 @@ class Params
               comments=[]
             end
-            #$LOG.debug "read: #{params[1]}"
+            $LOG.debug "read: #{params[0]}=#{params[1]}" if !$LOG.nil?
           else
             comments << line.gsub(/^\s*#/,'')
           end # end if comentario

data/lib/seqtrimnext/classes/seqtrim.rb CHANGED Viewed

@@ -15,6 +15,12 @@ require 'action_manager'
 class Seqtrim
+  def self.exit_status
+    return SeqtrimWorkManager.exit_status
+  end
   # First of all, reads the file's parameters, where are the values of all parameters and the 'plugin_list'  that specifies the order of execution from the plugins.
   #
   # Secondly, loads the plugins in a folder .
@@ -24,7 +30,6 @@ class Seqtrim
   # After that, creates a thread's pool of a determinate number of workers, e.g. 10 threads,
   # reads the sequences from files 'fasta' , until now without qualities,
   # and executes the plugins over the sequences in the pool of threads
   def get_custom_cdhit(cd_hit_input_file,params)
     cmd=''
@@ -136,7 +141,6 @@ class Seqtrim
 		default_value=Seqtrimnext::SEQTRIM_VERSION
 		params.check_param(errors,'seqtrim_version','String',default_value,comment)
 		if !errors.empty?
           $LOG.error 'Please, define the following global parameters in params file:'
           errors.each do |error|
@@ -166,7 +170,7 @@ class Seqtrim
     if File.exists?(ScbiMapreduce::CHECKPOINT_FILE)
       if !options[:use_checkpoint]
         STDERR.puts "ERROR: A checkpoint file exists, either delete it or provide -C flag to use it"
-        exit
+        exit(-1)
       end
     end
@@ -230,7 +234,7 @@ class Seqtrim
     $LOG.info "Checking global params"
     if !check_global_params(params)
-    		exit
+    		exit(-1)
     end
     # Load actions
@@ -253,8 +257,7 @@ class Seqtrim
 	    	# save used params to file
         params.save_file('used_params.txt')
-      exit
+        exit(-1)
     end
     if !Dir.exists?(OUTPUT_PATH)
@@ -297,7 +300,7 @@ class Seqtrim
 	        params.load_repeated_seqs('clusters.fasta.clstr')
         else
           $LOG.error("Exiting due to not found clusters.fasta.clstr. Maybe cd-hit failed. Check cd-hit.out")
-          exit
+          exit(-1)
         end
 	    end
@@ -367,7 +370,12 @@ class Seqtrim
 				sequence_readers.each do |file|
 				  file.close
 				end
+        if SeqtrimWorkManager.exit_status>=0
+				  $LOG.info "Exit status: #{SeqtrimWorkManager.exit_status}"
+        else
+          $LOG.error "Exit status: #{SeqtrimWorkManager.exit_status}"
+        end
 				$LOG.info 'Closing server'
 			end

data/lib/seqtrimnext/plugins/plugin.rb CHANGED Viewed

@@ -23,12 +23,15 @@ class Plugin
       t1=Time.now
       execute(seq)
       t2=Time.now
+      add_plugin_stats('execution_time','total_seconds',t2-t1)
     end
-    @stats['execution_time']={}
+  end
-    @stats['execution_time']['total_seconds']=t2-t1
+  def add_plugin_stats(cat,item,elapsed_time)
+      @stats[cat]={} if @stats[cat].nil?
+      @stats[cat][item]=elapsed_time
   end
   def can_execute?
@@ -40,7 +43,9 @@ class Plugin
   #Begins the plugin's execution whit the sequence "seq"
   def execute(seqs)
+    t1=Time.now
     blasts=do_blasts(seqs)
     if !blasts.empty?
@@ -49,18 +54,24 @@ class Plugin
       else
         queries = blasts.querys
       end
+      add_plugin_stats('execution_time','blast_and_parse',Time.now-t1)
+      t1=Time.now
       seqs.each_with_index do |s,i|
         exec_seq(s,queries[i])
       end
     else # there is no blast
+      t1=Time.now
       seqs.each do |s|
         exec_seq(s,nil)
       end
     end
+    add_plugin_stats('execution_time','exec_seq',Time.now-t1)
   end
   def do_blasts(seqs)

data/lib/seqtrimnext/plugins/plugin_ab_adapters.rb CHANGED Viewed

@@ -18,6 +18,9 @@ class PluginAbAdapters < Plugin
     # find MIDS  with less results than max_target_seqs value
     blast=BatchBlast.new("-db #{@params.get_param('adapters_ab_db')}",'blastn'," -task blastn-short -perc_identity #{@params.get_param('blast_percent_ab')} -word_size #{MIN_ADAPTER_SIZE}")
+    # con culling limit hay situaciones en las que un hit largo con 1 mismatch es ignorado porque hay otro más corto que no tiene ningun error, no es aceptable.
+    #blast=BatchBlast.new("-db #{@params.get_param('adapters_ab_db')}",'blastn'," -task blastn-short -perc_identity #{@params.get_param('blast_percent_ab')} -word_size #{MIN_ADAPTER_SIZE} -culling_limit=1")
     $LOG.debug('BLAST:'+blast.get_blast_cmd)
     fastas=[]
@@ -29,7 +32,32 @@ class PluginAbAdapters < Plugin
     # fastas=fastas.join("\n")
-    blast_table_results = blast.do_blast(fastas)
+    #blast_table_results = blast.do_blast(fastas)
+    #blast_table_results = BlastTableResult.new(blast_table_results)
+    t1=Time.now
+    blast_table_results = blast.do_blast(fastas,:table,false)
+    add_plugin_stats('execution_time','blast',Time.now-t1)
+    #f=File.new("/tmp/salida_#{fastas.first.gsub('>','').gsub('/','_')}.blast",'w+')
+    #f.puts blast.get_blast_cmd
+    #f.puts blast_table_results
+    #f.close
+    t1=Time.now
+    blast_table_results = BlastTableResult.new(blast_table_results)
+    add_plugin_stats('execution_time','parse',Time.now-t1)
+    # t1=Time.now
+    # blast_table_results = blast.do_blast(fastas,:xml,false)
+    # add_plugin_stats('execution_time','blast',Time.now-t1)
+    # t1=Time.now
+    # blast_table_results = BlastStreamxmlResult.new(blast_table_results)
+    # add_plugin_stats('execution_time','parse',Time.now-t1)
     # puts blast_table_results.inspect

data/lib/seqtrimnext/plugins/plugin_adapters.rb CHANGED Viewed

@@ -27,7 +27,7 @@ class PluginAdapters < Plugin
     # fastas=fastas.join("\n")
-    blast_table_results = blast.do_blast(fastas,:xml)
+    blast_table_results = blast.do_blast(fastas,:table)
     # puts blast_table_results.inspect

data/lib/seqtrimnext/plugins/plugin_contaminants.rb CHANGED Viewed

@@ -23,12 +23,22 @@ class PluginContaminants < Plugin
     # find MIDS  with less results than max_target_seqs value
     # blast = BatchBlast.new("-db #{@params.get_param('contaminants_db')}",'blastn'," -task blastn-short -evalue #{@params.get_param('blast_evalue_contaminants')} -perc_identity #{@params.get_param('blast_percent_contaminants')} -culling_limit 1")  #get contaminants -max_target_seqs #{MAX_TARGETS_SEQS}
+    # This message is due to short sequences
+    #Warning: Could not calculate ungapped Karlin-Altschul parameters due to an invalid query sequence or its translation. Please verify the query sequence(s) and/or filtering options
     # TODO - Culling limit = 2 porque el blast falla con este comando cuando se le pasa cl=1 y dust=no
     # y una secuencia de baja complejidad como entrada
-    blast = BatchBlast.new("-db #{@params.get_param('contaminants_db')}",'blastn'," -task blastn -evalue #{@params.get_param('blast_evalue_contaminants')} -perc_identity #{@params.get_param('blast_percent_contaminants')} -culling_limit 1")  #get contaminants -max_target_seqs #{MAX_TARGETS_SEQS}
+    task_template=@params.get_param('blast_task_template_contaminants')
+    extra_params=@params.get_param('blast_extra_params_contaminants')
+    extra_params=extra_params.gsub(/^\"|\"?$/, '')
+    #blast = BatchBlast.new("-db #{@params.get_param('contaminants_db')}",'blastn'," -task blastn  -evalue #{@params.get_param('blast_evalue_contaminants')} -perc_identity #{@params.get_param('blast_percent_contaminants')} -culling_limit 1")  #get contaminants -max_target_seqs #{MAX_TARGETS_SEQS}
+    blast = BatchBlast.new("-db #{@params.get_param('contaminants_db')}",'blastn'," -task #{task_template} #{extra_params} -evalue #{@params.get_param('blast_evalue_contaminants')} -perc_identity #{@params.get_param('blast_percent_contaminants')} -culling_limit 1")  #get contaminants -max_target_seqs #{MAX_TARGETS_SEQS}
-    $LOG.debug('BLAST:'+blast.get_blast_cmd(:xml))
+    $LOG.debug('BLAST:'+blast.get_blast_cmd(:table))
     fastas=[]
@@ -43,7 +53,16 @@ class PluginContaminants < Plugin
     # $LOG.info(fastas)
     # $LOG.info('-'*20)
-    blast_table_results = blast.do_blast(fastas,:xml)
+    #blast_table_results = blast.do_blast(fastas,:xml)
+    t1=Time.now
+    #blast_table_results = blast.do_blast(fastas,:xml,false)
+    blast_table_results = blast.do_blast(fastas,:table,false)
+    add_plugin_stats('execution_time','blast',Time.now-t1)
+    t1=Time.now
+    #blast_table_results = BlastStreamxmlResult.new(blast_table_results)
+    blast_table_results = BlastTableResult.new(blast_table_results)
+    add_plugin_stats('execution_time','parse',Time.now-t1)
     # $LOG.info(blast_table_results.inspect)
@@ -62,12 +81,14 @@ class PluginContaminants < Plugin
       return
     end
+    #if blast_query.query_def != seq.seq_name
     if blast_query.query_id != seq.seq_name
-      # raise "Blast and seq names does not match, blast:#{blast_query.query_id} sn:#{seq.seq_name}"
+      raise "Blast and seq names does not match, blast:#{blast_query.query_id} sn:#{seq.seq_name}"
     end
     $LOG.debug "[#{self.class.to_s}, seq: #{seq.seq_name}]: looking for contaminants into the sequence"
+    #add_plugin_stats('hsp_count',seq.seq_name,blast_query.hits.count)
     #blast = BatchBlast.new('-db DB/formatted/contaminants.fasta','blastn',' -task blastn -evalue 1e-10 -perc_identity 95')  #get contaminants
     # blast = BatchBlast.new("-db #{@params.get_param('contaminants_db')}",'blastn'," -task blastn-short -evalue #{@params.get_param('blast_evalue_contaminants')} -perc_identity #{@params.get_param('blast_percent_contaminants')} -culling_limit 1")  #get contaminants -max_target_seqs #{MAX_TARGETS_SEQS}
@@ -195,11 +216,19 @@ class PluginContaminants < Plugin
     default_value = 'true'
     params.check_param(errors,'contaminants_reject','String',default_value,comment)
     comment='Path for contaminants database'
     default_value = File.join($FORMATTED_DB_PATH,'contaminants.fasta')
     params.check_param(errors,'contaminants_db','DB',default_value,comment)
+    comment='Blast task template for contaminations'
+    #default_value = 'blastn'
+    default_value = 'megablast'
+    params.check_param(errors,'blast_task_template_contaminants','String',default_value,comment)
+    comment='Blast extra params for contaminations'
+    #default_value = ''
+    default_value = '"-word_size=22"'
+    params.check_param(errors,'blast_extra_params_contaminants','String',default_value,comment)
     return errors
   end

data/lib/seqtrimnext/plugins/plugin_low_complexity.rb CHANGED Viewed

@@ -73,6 +73,7 @@ class PluginLowComplexity < Plugin
       if !actions.empty?
         add_stats('low_complexity',total_dust)
+        seq.add_file_tag(0, 'low_complexity', :both, 100)
         seq.add_actions(actions)
       end
@@ -92,6 +93,7 @@ class PluginLowComplexity < Plugin
     # default_value = 80
     # params.check_param(errors,'poly_t_percent','Integer',default_value,comment)
     #
     return errors
   end

data/lib/seqtrimnext/plugins/plugin_low_quality.rb CHANGED Viewed

@@ -170,9 +170,10 @@ class PluginLowQuality < Plugin
 		default_value = 20
 		params.check_param(errors,'min_quality','Integer',default_value,comment)
-	  comment='Quality window for scanning low quality segments'
-		default_value = 15
-		params.check_param(errors,'window_width','Integer',default_value,comment)
+	  #comment='Quality window for scanning low quality segments'
+		#default_value = 15
+		#params.check_param(errors,'window_width','Integer',default_value,comment)
 	  comment='Minimum length of a bad quality segment inside the sequence'

data/lib/seqtrimnext/plugins/plugin_user_contaminants.rb CHANGED Viewed

@@ -43,9 +43,14 @@ class PluginUserContaminants < Plugin
     # TODO - Culling limit = 2 porque el blast falla con este comando cuando se le pasa cl=1 y dust=no
     # y una secuencia de baja complejidad como entrada
-    blast = BatchBlast.new("-db #{@params.get_param('user_contaminant_db')}",'blastn'," -task blastn -evalue #{@params.get_param('blast_evalue_user_contaminant')} -perc_identity #{@params.get_param('blast_percent_user_contaminant')} -culling_limit 1")  #get classify -max_target_seqs #{MAX_TARGETS_SEQS}
+    task_template=@params.get_param('blast_task_template_user_contaminants')
+    extra_params=@params.get_param('blast_extra_params_user_contaminants')
-    $LOG.debug('BLAST:'+blast.get_blast_cmd(:xml))
+    extra_params=extra_params.gsub(/^\"|\"?$/, '')
+    blast = BatchBlast.new("-db #{@params.get_param('user_contaminant_db')}",'blastn'," -task #{task_template} #{extra_params} -evalue #{@params.get_param('blast_evalue_user_contaminant')} -perc_identity #{@params.get_param('blast_percent_user_contaminant')} -culling_limit 1")  #get classify -max_target_seqs #{MAX_TARGETS_SEQS}
+    $LOG.debug('BLAST:'+blast.get_blast_cmd(:table))
     fastas=[]
@@ -55,7 +60,16 @@ class PluginUserContaminants < Plugin
     end
-    blast_table_results = blast.do_blast(fastas,:xml)
+    #blast_table_results = blast.do_blast(fastas,:xml)
+    t1=Time.now
+    blast_table_results = blast.do_blast(fastas,:table,false)
+    add_plugin_stats('execution_time','blast',Time.now-t1)
+    t1=Time.now
+    #blast_table_results = BlastStreamxmlResult.new(blast_table_results)
+    blast_table_results = BlastTableResult.new(blast_table_results)
+    add_plugin_stats('execution_time','parse',Time.now-t1)
     return blast_table_results
   end
@@ -63,7 +77,7 @@ class PluginUserContaminants < Plugin
   def exec_seq(seq,blast_query)
     if blast_query.query_id != seq.seq_name
-      # raise "Blast and seq names does not match, blast:#{blast_query.query_id} sn:#{seq.seq_name}"
+      raise "Blast and seq names does not match, blast:#{blast_query.query_id} sn:#{seq.seq_name}"
     end
     $LOG.debug "[#{self.class.to_s}, seq: #{seq.seq_name}]: looking for classify into the sequence"
@@ -144,6 +158,16 @@ class PluginUserContaminants < Plugin
     default_value = "" #File.join($FORMATTED_DB_PATH,'user_contaminant.fasta')
     params.check_param(errors,'user_contaminant_db','DB',default_value,comment)
+    comment='Blast task template for user contaminations'
+    #default_value = 'blastn'
+    default_value = 'megablast'
+    params.check_param(errors,'blast_task_template_user_contaminants','String',default_value,comment)
+    comment='Blast extra params for user contaminations'
+    #default_value = ''
+    default_value = '"-word_size=22"'
+    params.check_param(errors,'blast_extra_params_user_contaminants','String',default_value,comment)
     return errors
   end

data/lib/seqtrimnext/plugins/plugin_vectors.rb CHANGED Viewed

@@ -40,7 +40,17 @@ class PluginVectors < Plugin
     # fastas=fastas.join("\n")
-    blast_table_results = blast.do_blast(fastas,:xml)
+    #blast_table_results = blast.do_blast(fastas,:xml)
+    t1=Time.now
+    blast_table_results = blast.do_blast(fastas,:table,false)
+    add_plugin_stats('execution_time','blast',Time.now-t1)
+    t1=Time.now
+    #blast_table_results = BlastStreamxmlResult.new(blast_table_results)
+    blast_table_results = BlastTableResult.new(blast_table_results)
+    add_plugin_stats('execution_time','parse',Time.now-t1)
     # puts blast_table_results.inspect
@@ -50,7 +60,7 @@ class PluginVectors < Plugin
  def exec_seq(seq,blast_query)
    if blast_query.query_id != seq.seq_name
-     # raise "Blast and seq names does not match, blast:#{blast_query.query_id} sn:#{seq.seq_name}"
+     raise "Blast and seq names does not match, blast:#{blast_query.query_id} sn:#{seq.seq_name}"
    end
     $LOG.debug "[#{self.class.to_s}, seq: #{seq.seq_name}]: looking for vectors into the sequence "

data/lib/seqtrimnext/version.rb CHANGED Viewed

@@ -1,4 +1,4 @@
 module Seqtrimnext
-  VERSION = "2.0.62"
+  VERSION = "2.0.66"
   SEQTRIM_VERSION = VERSION
 end

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: seqtrimnext
 version: !ruby/object:Gem::Version
-  version: 2.0.62
+  version: 2.0.66
 platform: ruby
 authors:
 - Dario Guerrero
@@ -9,7 +9,7 @@ authors:
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2016-01-20 00:00:00.000000000 Z
+date: 2016-05-25 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bundler
@@ -219,6 +219,7 @@ executables:
 - resume_clusters.rb
 - resume_execution_times.rb
 - resume_rejected.rb
+- resume_stn_contaminants.rb
 - resume_stn_stats.rb
 - reverse_paired.rb
 - seqtrimnext
@@ -252,6 +253,7 @@ files:
 - bin/resume_clusters.rb
 - bin/resume_execution_times.rb
 - bin/resume_rejected.rb
+- bin/resume_stn_contaminants.rb
 - bin/resume_stn_stats.rb
 - bin/reverse_paired.rb
 - bin/seqtrimnext
@@ -380,7 +382,7 @@ required_rubygems_version: !ruby/object:Gem::Requirement
       version: '0'
 requirements: []
 rubyforge_project:
-rubygems_version: 2.4.4
+rubygems_version: 2.4.8
 signing_key:
 specification_version: 4
 summary: Sequences preprocessing and cleaning software