RubyGems - seqtrimnext - Versions diffs - 2.0.29 - Mend

seqtrimnext 2.0.29

Files changed (115) hide show

data/History.txt +3 -0
data/Manifest.txt +114 -0
data/PostInstall.txt +7 -0
data/README.rdoc +159 -0
data/Rakefile +38 -0
data/bin/create_graphs.rb +46 -0
data/bin/extract_seqs.rb +45 -0
data/bin/extract_seqs_from_fasta.rb +56 -0
data/bin/extract_seqs_from_fastq.rb +45 -0
data/bin/fasta2fastq.rb +38 -0
data/bin/fastq2fasta.rb +35 -0
data/bin/gen_qual.rb +46 -0
data/bin/get_seq.rb +46 -0
data/bin/group_by_range.rb +17 -0
data/bin/join_ilumina_paired.rb +130 -0
data/bin/parse_amplicons.rb +95 -0
data/bin/parse_json_results.rb +66 -0
data/bin/parse_params.rb +82 -0
data/bin/resume_clusters.rb +48 -0
data/bin/resume_rejected.sh +9 -0
data/bin/reverse_paired.rb +49 -0
data/bin/seqtrimnext +368 -0
data/bin/split_fastq.rb +42 -0
data/bin/split_ilumina_paired.rb +65 -0
data/bin/split_paired.rb +70 -0
data/lib/seqtrimnext/actions/action_ab_adapter.rb +32 -0
data/lib/seqtrimnext/actions/action_ab_far_adapter.rb +32 -0
data/lib/seqtrimnext/actions/action_ab_left_adapter.rb +32 -0
data/lib/seqtrimnext/actions/action_empty_insert.rb +22 -0
data/lib/seqtrimnext/actions/action_ignore_repeated.rb +24 -0
data/lib/seqtrimnext/actions/action_indetermination.rb +30 -0
data/lib/seqtrimnext/actions/action_induced_low_complexity.rb +29 -0
data/lib/seqtrimnext/actions/action_insert.rb +32 -0
data/lib/seqtrimnext/actions/action_is_contaminated.rb +30 -0
data/lib/seqtrimnext/actions/action_key.rb +30 -0
data/lib/seqtrimnext/actions/action_left_adapter.rb +32 -0
data/lib/seqtrimnext/actions/action_left_primer.rb +17 -0
data/lib/seqtrimnext/actions/action_linker.rb +30 -0
data/lib/seqtrimnext/actions/action_low_complexity.rb +30 -0
data/lib/seqtrimnext/actions/action_low_high_size.rb +31 -0
data/lib/seqtrimnext/actions/action_low_quality.rb +33 -0
data/lib/seqtrimnext/actions/action_mid.rb +30 -0
data/lib/seqtrimnext/actions/action_multiple_linker.rb +29 -0
data/lib/seqtrimnext/actions/action_paired_reads.rb +28 -0
data/lib/seqtrimnext/actions/action_poly_a.rb +29 -0
data/lib/seqtrimnext/actions/action_poly_t.rb +29 -0
data/lib/seqtrimnext/actions/action_rem_adit_artifacts.rb +32 -0
data/lib/seqtrimnext/actions/action_right_adapter.rb +29 -0
data/lib/seqtrimnext/actions/action_right_primer.rb +25 -0
data/lib/seqtrimnext/actions/action_short_insert.rb +32 -0
data/lib/seqtrimnext/actions/action_unexpected_poly_t.rb +29 -0
data/lib/seqtrimnext/actions/action_unexpected_vector.rb +31 -0
data/lib/seqtrimnext/actions/action_vectors.rb +31 -0
data/lib/seqtrimnext/actions/seqtrim_action.rb +136 -0
data/lib/seqtrimnext/classes/action_manager.rb +47 -0
data/lib/seqtrimnext/classes/em_classes/seqtrim_work_manager.rb +335 -0
data/lib/seqtrimnext/classes/em_classes/seqtrim_worker.rb +290 -0
data/lib/seqtrimnext/classes/extract_stats.rb +255 -0
data/lib/seqtrimnext/classes/gnu_plot_graph.rb +140 -0
data/lib/seqtrimnext/classes/graph_stats.rb +74 -0
data/lib/seqtrimnext/classes/install_database.rb +43 -0
data/lib/seqtrimnext/classes/install_requirements.rb +123 -0
data/lib/seqtrimnext/classes/list_db.rb +49 -0
data/lib/seqtrimnext/classes/make_blast_db.rb +113 -0
data/lib/seqtrimnext/classes/one_blast.rb +41 -0
data/lib/seqtrimnext/classes/params.rb +387 -0
data/lib/seqtrimnext/classes/piro.rb +78 -0
data/lib/seqtrimnext/classes/plugin_manager.rb +153 -0
data/lib/seqtrimnext/classes/scan_for_restr_site.rb +138 -0
data/lib/seqtrimnext/classes/scbi_stats.rb +68 -0
data/lib/seqtrimnext/classes/seqtrim.rb +317 -0
data/lib/seqtrimnext/classes/sequence.rb +55 -0
data/lib/seqtrimnext/classes/sequence_group.rb +72 -0
data/lib/seqtrimnext/classes/sequence_with_action.rb +503 -0
data/lib/seqtrimnext/plugins/plugin.rb +267 -0
data/lib/seqtrimnext/plugins/plugin_ab_adapters.rb +189 -0
data/lib/seqtrimnext/plugins/plugin_adapters.rb +165 -0
data/lib/seqtrimnext/plugins/plugin_amplicons.rb +221 -0
data/lib/seqtrimnext/plugins/plugin_contaminants.rb +209 -0
data/lib/seqtrimnext/plugins/plugin_extract_inserts.rb +438 -0
data/lib/seqtrimnext/plugins/plugin_find_poly_at.rb +393 -0
data/lib/seqtrimnext/plugins/plugin_ignore_repeated.rb +101 -0
data/lib/seqtrimnext/plugins/plugin_indeterminations.rb +199 -0
data/lib/seqtrimnext/plugins/plugin_key.rb +70 -0
data/lib/seqtrimnext/plugins/plugin_linker.rb +232 -0
data/lib/seqtrimnext/plugins/plugin_low_complexity.rb +98 -0
data/lib/seqtrimnext/plugins/plugin_low_high_size.rb +74 -0
data/lib/seqtrimnext/plugins/plugin_low_quality.rb +394 -0
data/lib/seqtrimnext/plugins/plugin_mids.rb +231 -0
data/lib/seqtrimnext/plugins/plugin_rem_adit_artifacts.rb +246 -0
data/lib/seqtrimnext/plugins/plugin_short_insert.rb +244 -0
data/lib/seqtrimnext/plugins/plugin_vectors.rb +191 -0
data/lib/seqtrimnext/templates/amplicons.txt +16 -0
data/lib/seqtrimnext/templates/genomics_454.txt +5 -0
data/lib/seqtrimnext/templates/genomics_454_with_paired.txt +5 -0
data/lib/seqtrimnext/templates/low_quality.txt +5 -0
data/lib/seqtrimnext/templates/low_quality_and_low_complexity.txt +5 -0
data/lib/seqtrimnext/templates/transcriptomics_454.txt +8 -0
data/lib/seqtrimnext/templates/transcriptomics_plants.txt +8 -0
data/lib/seqtrimnext/utils/extract_samples.rb +52 -0
data/lib/seqtrimnext/utils/fasta2xml.rb +69 -0
data/lib/seqtrimnext/utils/global_match.rb +65 -0
data/lib/seqtrimnext/utils/hash_stats.rb +29 -0
data/lib/seqtrimnext/utils/json_utils.rb +50 -0
data/lib/seqtrimnext/utils/load_fasta_names_in_hash.rb +37 -0
data/lib/seqtrimnext/utils/load_qual_in_hash.rb +37 -0
data/lib/seqtrimnext/utils/recover_mid.rb +95 -0
data/lib/seqtrimnext/utils/string_utils.rb +56 -0
data/lib/seqtrimnext.rb +37 -0
data/script/console +10 -0
data/script/destroy +14 -0
data/script/generate +14 -0
data/test/test_helper.rb +3 -0
data/test/test_seqtrimnext.rb +11 -0
metadata +318 -0

data/lib/seqtrimnext/plugins/plugin_amplicons.rb ADDED Viewed

@@ -0,0 +1,221 @@
+require "plugin"
+########################################################
+# Author: Almudena Bocinos Rioboo
+#
+# Defines the main methods that are necessary to execute PluginAdapters
+# Inherit: Plugin
+########################################################
+class PluginAmplicons < Plugin
+  # adapters found at end of sequence are even 2 nt wide, cut in 5 because of statistics
+  # MIN_PRIMER_SIZE = 5
+  # MIN_FAR_ADAPTER_SIZE = 13
+  # MIN_LEFT_ADAPTER_SIZE = 9
+  #Begins the plugin1's execution to warn that there are contaminants in the sequence "seq"
+  def execute(seqs)
+    blasts= do_blasts(seqs)
+    seqs.each_with_index do |s,i|
+      exec_seq(s,blasts.querys[i])
+    end
+  end
+  def do_blasts(seqs)
+    # find MIDS  with less results than max_target_seqs value
+    blast=BatchBlast.new("-db #{@params.get_param('primers_db')}",'blastn'," -task blastn-short -perc_identity #{@params.get_param('blast_percent_primers')}")
+    $LOG.info('BLAST:'+blast.get_blast_cmd)
+    fastas=[]
+    seqs.each do |seq|
+      fastas.push ">"+seq.seq_name
+      fastas.push seq.seq_fasta
+    end
+    # fastas=fastas.join("\n")
+    blast_table_results = blast.do_blast(fastas)
+    # puts blast_table_results.inspect
+    return blast_table_results
+  end
+  def exec_seq(seq,blast_query)
+    if blast_query.query_id != seq.seq_name
+      raise "Blast and seq names does not match, blast:#{blast_query.query_id} sn:#{seq.seq_name}"
+    end
+    $LOG.info "[#{self.class.to_s}, seq: #{seq.seq_name}]: looking for primers into the sequence"
+    # puts blast_query.inspect
+    # merge hits
+    # primers=blast_query.merged_hits!
+    # do not merge hits, since id is important
+    primers=blast_query.hits
+    min_primer_size=@params.get_param('min_primer_size').to_i
+    # puts "MERGED:"
+    # puts primers.inspect
+    # type = 'ActionAbAdapter'
+    actions=[]
+    adapter_size=0
+    # filter primers by size
+    primers = primers.select{|primer| (primer.size >= min_primer_size)}.sort{|p1,p2| p1.size<=>p2.size}.reverse
+    # puts "FILTERED:"
+    # puts primers.inspect
+    # reject sequences with less than two primers
+    if primers.count < 2
+      seq.seq_rejected=true
+      seq.seq_rejected_by_message='Primer pair not found'
+      # @stats[:rejected_seqs]={'rejected_seqs_by_contaminants' => 1}
+      add_stats('rejected','primers_not_found')
+    else # has two primers, or more
+      if seq.seq_fasta.index('N')
+        seq.seq_rejected=true
+        seq.seq_rejected_by_message='At least one N found'
+        # @stats[:rejected_seqs]={'rejected_seqs_by_contaminants' => 1}
+        add_stats('rejected','one_n_found')
+      else
+        # puts "EL DE ARRIBA"
+        # take first two primers and order them by qbeg
+        left_primer = primers[0..1].sort{|p1,p2| p1.q_beg<=>p2.q_beg}.first
+        right_primer = primers[0..1].sort{|p1,p2| p1.q_beg<=>p2.q_beg}.last
+        # puts "LEFT_PRIMER:"
+        # puts left_primer.inspect
+        # puts "RIGHT_PRIMER:"
+        # puts right_primer.inspect
+        # if (left_primer.size>= min_primer_size) && (right_primer.size>= min_primer_size)
+          a = seq.new_action(left_primer.q_beg,left_primer.q_end,'ActionLeftPrimer')
+          a.message = left_primer.subject_id
+          a.tag_id = left_primer.subject_id
+          a.reversed = left_primer.reversed
+          a.left_action = true
+          actions.push a
+          add_stats('primer_size',left_primer.size)
+          add_stats('primer_id',left_primer.subject_id)
+          a = seq.new_action(right_primer.q_beg,right_primer.q_end,'ActionRightPrimer')
+          a.message = right_primer.subject_id
+          a.reversed = right_primer.reversed
+          a.tag_id = right_primer.subject_id
+          a.right_action = true
+          actions.push a
+          add_stats('primer_size',right_primer.size)
+          add_stats('primer_id',right_primer.subject_id)
+          seq.add_file_tag(2, left_primer.subject_id, :file)
+          seq.add_file_tag(2, right_primer.subject_id, :file)
+        # end
+        if !actions.empty?
+          seq.add_actions(actions)
+          add_stats('sequences_with_primers','count')
+          # add_stats('sequences',seq.seq_fasta)
+        end
+      end
+      #
+    end
+  end
+  #Returns an array with the errors due to parameters are missing
+  def self.check_params(params)
+    errors=[]
+    comment='Blast E-value used as cut-off when searching for primers'
+    # default_value = 1e-6
+    default_value = 1
+    params.check_param(errors,'blast_evalue_primers','Float',default_value,comment)
+    comment='Minimum required identity (%) for a reliable primer'
+    default_value = 95
+    params.check_param(errors,'blast_percent_primers','Integer',default_value,comment)
+    comment='Minimun primer size'
+    default_value = 15
+    params.check_param(errors,'min_primer_size','Integer',default_value,comment)
+    comment='Path for primers database'
+    # default_value = File.join($FORMATTED_DB_PATH,'adapters_ab.fasta')
+    default_value=nil
+    params.check_param(errors,'primers_db','DB',default_value,comment)
+    return errors
+  end
+  # def self.get_graph_title(plugin_name,stats_name)
+  #   case stats_name
+  #   when 'adapter_type'
+  #     'AB adapters by type'
+  #   when 'adapter_size'
+  #     'AB adapters by size'
+  #   end
+  # end
+  #
+  # def self.get_graph_filename(plugin_name,stats_name)
+  #   return stats_name
+  #
+  #   # case stats_name
+  #   # when 'adapter_type'
+  #   #   'AB adapters by type'
+  #   # when 'adapter_size'
+  #   #   'AB adapters by size'
+  #   # end
+  # end
+  #
+  # def self.valid_graphs
+  #   return ['adapter_type']
+  # end
+  # def self.plot_setup(stats_value,stats_name,x,y,init_stats,plot)
+  #
+  #   # puts "============== #{stats_name}"
+  #
+  #   # puts stats_name
+  #   case stats_name
+  #
+  #   when 'primer_size'
+  #     plot.x_label= "Length"
+  #     plot.y_label= "Count"
+  #     # plot.x_range="[0:#{init_stats['biggest_sequence_size'].to_i}]"
+  #     plot.x_range="[0:200]"
+  #     puts x.class
+  #     plot.add_x(x)
+  #     plot.add_y(y)
+  #
+  #     plot.do_graph
+  #
+  #     return true
+  #   else
+  #     return false
+  #   end
+  #
+  # end
+end

data/lib/seqtrimnext/plugins/plugin_contaminants.rb ADDED Viewed

@@ -0,0 +1,209 @@
+require "plugin"
+require "make_blast_db"
+########################################################
+# Author: Almudena Bocinos Rioboo
+#
+# Defines the main methods that are necessary to execute PluginContaminants
+# Inherit: Plugin
+########################################################
+class PluginContaminants < Plugin
+  MAX_TARGETS_SEQS=4 #MAXIMUM NUMBER OF DIFFERENT ALIGNED SEQUENCES TO  KEEP FROM BLAST DATABASE
+  def near_to_extrem(c,seq,min_cont_size)
+    max_to_extreme=(min_cont_size/2).to_i
+    return ((c.q_beg-max_to_extreme<0) || (( c.q_end+max_to_extreme)>=seq.seq_fasta.size-1) ) #return if vector is very near to the extremes of insert)
+  end
+  #Begins the plugin1's execution to warn that there are contaminants in the sequence "seq"
+  def execute(seqs)
+    blasts= do_blasts(seqs)
+    seqs.each_with_index do |s,i|
+      exec_seq(s,blasts.querys[i])
+    end
+  end
+  def do_blasts(seqs)
+    # find MIDS  with less results than max_target_seqs value
+    # blast = BatchBlast.new("-db #{@params.get_param('contaminants_db')}",'blastn'," -task blastn-short -evalue #{@params.get_param('blast_evalue_contaminants')} -perc_identity #{@params.get_param('blast_percent_contaminants')} -culling_limit 1")  #get contaminants -max_target_seqs #{MAX_TARGETS_SEQS}
+    # TODO - Culling limit = 2 porque el blast falla con este comando cuando se le pasa cl=1 y dust=no
+    # y una secuencia de baja complejidad como entrada
+    blast = BatchBlast.new("-db #{@params.get_param('contaminants_db')}",'blastn'," -task blastn -evalue #{@params.get_param('blast_evalue_contaminants')} -perc_identity #{@params.get_param('blast_percent_contaminants')} -culling_limit 1")  #get contaminants -max_target_seqs #{MAX_TARGETS_SEQS}
+    $LOG.info('BLAST:'+blast.get_blast_cmd(:xml))
+    fastas=[]
+    seqs.each do |seq|
+      fastas.push ">"+seq.seq_name
+      fastas.push seq.seq_fasta
+    end
+    # fastas=fastas.join("\n")
+    # $LOG.info('doing blast to:')
+    # $LOG.info('-'*20)
+    # $LOG.info(fastas)
+    # $LOG.info('-'*20)
+    blast_table_results = blast.do_blast(fastas,:xml)
+    # $LOG.info(blast_table_results.inspect)
+    return blast_table_results
+  end
+  # TODO - Contaminants databases grouped by folders
+  # TODO - User can select a set of contaminants folders
+  def exec_seq(seq,blast_query)
+    if blast_query.query_id != seq.seq_name
+      # raise "Blast and seq names does not match, blast:#{blast_query.query_id} sn:#{seq.seq_name}"
+    end
+    $LOG.info "[#{self.class.to_s}, seq: #{seq.seq_name}]: looking for contaminants into the sequence"
+    #blast = BatchBlast.new('-db DB/formatted/contaminants.fasta','blastn',' -task blastn -evalue 1e-10 -perc_identity 95')  #get contaminants
+    # blast = BatchBlast.new("-db #{@params.get_param('contaminants_db')}",'blastn'," -task blastn-short -evalue #{@params.get_param('blast_evalue_contaminants')} -perc_identity #{@params.get_param('blast_percent_contaminants')} -culling_limit 1")  #get contaminants -max_target_seqs #{MAX_TARGETS_SEQS}
+    # blast_table_results = blast.do_blast(seq.seq_fasta,:xml)             #rise seq to contaminants  executing over blast
+    #blast_table_results = BlastTableResult.new(res)
+    type = "ActionIsContaminated"
+    contaminants=[]
+    contaminants_ids=[]
+    # blast_table_results.querys.each do |query|     #first round to save contaminants without overlap
+    # contaminants_ids.push query.hits.definition if (not contaminants_ids.include?(query.hits.definition))
+    merge_hits(blast_query.hits,contaminants,contaminants_ids)
+    # end
+    begin
+      contaminants2=contaminants
+      contaminants = []                            #second round to save contaminants without overlap
+      merge_hits(contaminants2,contaminants)
+      #  DONE describir cada ID contaminante encontradomerge_hits(contaminants2,contaminants,ids_contaminants)
+    end until (contaminants2.count == contaminants.count)
+    actions=[]
+    contaminants_size=0
+    # @stats[:contaminants_size]={}
+    @stats['contaminants_size']={}
+    @stats['rejected_seqs']={}
+    min_cont_size=@params.get_param('min_contam_seq_presence').to_i
+    contaminants.each do |c|
+      contaminants_size=c.q_end - c.q_beg + 1
+      #if ( (@params.get_param('genus')!=c.subject_id.split('_')[1]) &&
+      valid_genus=@params.get_param('genus').empty? || !c.definition.upcase.index(@params.get_param('genus').upcase)
+      if (valid_genus) &&
+          (contaminants_size>=min_cont_size)
+        #( (min_cont_size<=contaminants_size) || (near_to_extrem(c,seq,min_cont_size)) ) )
+        if !seq.range_inside_action_type?(c.q_beg,c.q_end,ActionVectors)
+          # puts "DIFFERENT SPECIE #{specie} ,#{hit.subject_id.split('_')[1].to_s}"
+          a = seq.new_action(c.q_beg,c.q_end,type) # adds the correspondent action to the sequence
+          a.message = c.definition
+          a.found_definition = contaminants_ids    # save the contaminants definitions, each separately
+          actions.push a
+          contaminants_size=c.q_end-c.q_beg+1
+          # if @stats[:contaminants_size][contaminants_size].nil?
+          #           @stats[:contaminants_size][contaminants_size] = 0
+          #        end
+          #
+          #        @stats[:contaminants_size][contaminants_size] += 1
+          add_stats('contaminants_size',contaminants_size)
+          contaminants_ids.each do |c|
+            add_stats('contaminants_ids',c)
+          end
+        end
+      else
+        $LOG.info('Contaminant ignored due to genus match: '+c.definition)
+      end
+    end
+    reject=@params.get_param('contaminants_reject')
+    # cond_if=false
+    #   cond_if=true if (not actions.empty? ) && (reject=='true')
+    #
+    #   puts "Before check SEQ_REJECTED= TRUE  (reject= .#{reject}. #{reject.class}&& not actions empty= #{not actions.empty?} ) == #{cond_if} >>> "
+    if ((not actions.empty? ) && (reject=='true'))
+      #reject sequence
+      # puts "SEQ_REJECTED= TRUE >>> "
+      seq.seq_rejected=true
+      seq.seq_rejected_by_message='contaminated'
+      # @stats[:rejected_seqs]={'rejected_seqs_by_contaminants' => 1}
+      add_stats('rejected','contaminated')
+    end
+    seq.add_actions(actions)
+  end
+  #Returns an array with the errors due to parameters are missing
+  def self.check_params(params)
+    errors=[]
+    comment='Blast E-value used as cut-off when searching for contaminations'
+    default_value = 1e-10
+    params.check_param(errors,'blast_evalue_contaminants','Float',default_value,comment)
+    comment='Minimum required identity (%) for a reliable contamination'
+    default_value = 85
+    params.check_param(errors,'blast_percent_contaminants','Integer',default_value,comment)
+    comment='Minimum hit size (nt) for considering a true contamination'
+    default_value = 40
+    params.check_param(errors,'min_contam_seq_presence','Integer',default_value,comment)
+    comment='Genus of input data: contaminations belonging to this genus will be ignored'
+    default_value = ''
+    params.check_param(errors,'genus','String',default_value,comment)
+    comment='Is a contamination considered a source of sequence rejection? (setting to false will only trim contaminated sequences instead of rejecting the complete read)'
+    default_value = 'true'
+    params.check_param(errors,'contaminants_reject','String',default_value,comment)
+    comment='Path for contaminants database'
+    default_value = File.join($FORMATTED_DB_PATH,'contaminants.fasta')
+    params.check_param(errors,'contaminants_db','DB',default_value,comment)
+    return errors
+  end
+end