RubyGems - bio-polymarker - Versions diffs - 1.3.2 - Mend

bio-polymarker 1.3.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (177) hide show

checksums.yaml +7 -0
data/.travis.yml +24 -0
data/Gemfile +23 -0
data/README.md +205 -0
data/Rakefile +61 -0
data/SECURITY.md +16 -0
data/VERSION +1 -0
data/bin/bfr.rb +128 -0
data/bin/blast_triads.rb +166 -0
data/bin/blast_triads_promoters.rb +192 -0
data/bin/count_variations.rb +36 -0
data/bin/filter_blat_by_target_coverage.rb +69 -0
data/bin/filter_exonerate_by_identity.rb +38 -0
data/bin/find_best_blat_hit.rb +33 -0
data/bin/find_best_exonerate.rb +17 -0
data/bin/get_longest_hsp_blastx_triads.rb +66 -0
data/bin/hexaploid_primers.rb +168 -0
data/bin/homokaryot_primers.rb +183 -0
data/bin/mafft_triads.rb +120 -0
data/bin/mafft_triads_promoters.rb +403 -0
data/bin/map_markers_to_contigs.rb +66 -0
data/bin/marker_to_vcf.rb +241 -0
data/bin/markers_in_region.rb +42 -0
data/bin/mask_triads.rb +169 -0
data/bin/polymarker.rb +410 -0
data/bin/polymarker_capillary.rb +443 -0
data/bin/polymarker_deletions.rb +350 -0
data/bin/snp_position_to_polymarker.rb +101 -0
data/bin/snps_between_bams.rb +107 -0
data/bin/tag_stats.rb +75 -0
data/bin/vcfLineToTable.rb +56 -0
data/bin/vcfToPolyMarker.rb +82 -0
data/bio-polymarker.gemspec +227 -0
data/conf/defaults.rb +1 -0
data/conf/primer3_config/dangle.dh +128 -0
data/conf/primer3_config/dangle.ds +128 -0
data/conf/primer3_config/interpretations/dangle_i.dh +131 -0
data/conf/primer3_config/interpretations/dangle_i.ds +131 -0
data/conf/primer3_config/interpretations/loops_i.dh +34 -0
data/conf/primer3_config/interpretations/loops_i.ds +31 -0
data/conf/primer3_config/interpretations/stack_i.dh +257 -0
data/conf/primer3_config/interpretations/stack_i.ds +256 -0
data/conf/primer3_config/interpretations/stackmm_i_mm.dh +257 -0
data/conf/primer3_config/interpretations/stackmm_i_mm.ds +256 -0
data/conf/primer3_config/interpretations/tetraloop_i.dh +79 -0
data/conf/primer3_config/interpretations/tetraloop_i.ds +81 -0
data/conf/primer3_config/interpretations/triloop_i.dh +21 -0
data/conf/primer3_config/interpretations/triloop_i.ds +18 -0
data/conf/primer3_config/interpretations/tstack2_i.dh +256 -0
data/conf/primer3_config/interpretations/tstack2_i.ds +256 -0
data/conf/primer3_config/interpretations/tstack_i.dh +256 -0
data/conf/primer3_config/interpretations/tstack_i.ds +256 -0
data/conf/primer3_config/interpretations/tstack_tm_inf_i.dh +256 -0
data/conf/primer3_config/interpretations/tstack_tm_inf_i.ds +256 -0
data/conf/primer3_config/loops.dh +30 -0
data/conf/primer3_config/loops.ds +30 -0
data/conf/primer3_config/stack.dh +256 -0
data/conf/primer3_config/stack.ds +256 -0
data/conf/primer3_config/stackmm.dh +256 -0
data/conf/primer3_config/stackmm.ds +256 -0
data/conf/primer3_config/tetraloop.dh +77 -0
data/conf/primer3_config/tetraloop.ds +77 -0
data/conf/primer3_config/triloop.dh +16 -0
data/conf/primer3_config/triloop.ds +16 -0
data/conf/primer3_config/tstack.dh +256 -0
data/conf/primer3_config/tstack2.dh +256 -0
data/conf/primer3_config/tstack2.ds +256 -0
data/conf/primer3_config/tstack_tm_inf.ds +256 -0
data/lib/bio/BFRTools.rb +465 -0
data/lib/bio/BIOExtensions.rb +153 -0
data/lib/bio/PolyploidTools/ChromosomeArm.rb +63 -0
data/lib/bio/PolyploidTools/ExonContainer.rb +245 -0
data/lib/bio/PolyploidTools/Marker.rb +175 -0
data/lib/bio/PolyploidTools/Mask.rb +116 -0
data/lib/bio/PolyploidTools/NoSNPSequence.rb +292 -0
data/lib/bio/PolyploidTools/PrimerRegion.rb +30 -0
data/lib/bio/PolyploidTools/SNP.rb +804 -0
data/lib/bio/PolyploidTools/SNPMutant.rb +86 -0
data/lib/bio/PolyploidTools/SNPSequence.rb +55 -0
data/lib/bio/db/blast.rb +114 -0
data/lib/bio/db/exonerate.rb +333 -0
data/lib/bio/db/primer3.rb +820 -0
data/lib/bio-polymarker.rb +28 -0
data/test/data/7B_amplicon_test.fa +12 -0
data/test/data/7B_amplicon_test.fa.fai +1 -0
data/test/data/7B_amplicon_test_reference.fa +110 -0
data/test/data/7B_amplicon_test_reference.fa.fai +3 -0
data/test/data/7B_marker_test.txt +1 -0
data/test/data/BS00068396_51.fa +2 -0
data/test/data/BS00068396_51_blast.tab +4 -0
data/test/data/BS00068396_51_contigs.aln +1412 -0
data/test/data/BS00068396_51_contigs.dnd +7 -0
data/test/data/BS00068396_51_contigs.fa +8 -0
data/test/data/BS00068396_51_contigs.fa.fai +4 -0
data/test/data/BS00068396_51_contigs.fa.nhr +0 -0
data/test/data/BS00068396_51_contigs.fa.nin +0 -0
data/test/data/BS00068396_51_contigs.fa.nsq +0 -0
data/test/data/BS00068396_51_contigs.nhr +0 -0
data/test/data/BS00068396_51_contigs.nin +0 -0
data/test/data/BS00068396_51_contigs.nsq +0 -0
data/test/data/BS00068396_51_exonerate.tab +6 -0
data/test/data/BS00068396_51_for_polymarker.txt +1 -0
data/test/data/BS00068396_51_genes.txt +14 -0
data/test/data/IWGSC_CSS_1AL_scaff_1455974.fa +112 -0
data/test/data/IWGSC_CSS_1AL_scaff_1455974_aln_contigs.fa +2304 -0
data/test/data/IWGSC_CSS_1AL_scaff_1455974_aln_contigs.fa.fai +11 -0
data/test/data/LIB1716.bam +0 -0
data/test/data/LIB1716.bam.bai +0 -0
data/test/data/LIB1719.bam +0 -0
data/test/data/LIB1719.bam.bai +0 -0
data/test/data/LIB1721.bam +0 -0
data/test/data/LIB1721.bam.bai +0 -0
data/test/data/LIB1722.bam +0 -0
data/test/data/LIB1722.bam.bai +0 -0
data/test/data/PST130_7067.csv +1 -0
data/test/data/PST130_7067.fa +2 -0
data/test/data/PST130_7067.fa.fai +1 -0
data/test/data/PST130_7067.fa.ndb +0 -0
data/test/data/PST130_7067.fa.nhr +0 -0
data/test/data/PST130_7067.fa.nin +0 -0
data/test/data/PST130_7067.fa.not +0 -0
data/test/data/PST130_7067.fa.nsq +0 -0
data/test/data/PST130_7067.fa.ntf +0 -0
data/test/data/PST130_7067.fa.nto +0 -0
data/test/data/PST130_reverse_primer.csv +1 -0
data/test/data/S22380157.fa +16 -0
data/test/data/S22380157.fa.fai +1 -0
data/test/data/S22380157.vcf +67 -0
data/test/data/S58861868/LIB1716.bam +0 -0
data/test/data/S58861868/LIB1716.sam +651 -0
data/test/data/S58861868/LIB1719.bam +0 -0
data/test/data/S58861868/LIB1719.sam +805 -0
data/test/data/S58861868/LIB1721.bam +0 -0
data/test/data/S58861868/LIB1721.sam +1790 -0
data/test/data/S58861868/LIB1722.bam +0 -0
data/test/data/S58861868/LIB1722.sam +1271 -0
data/test/data/S58861868/S58861868.fa +16 -0
data/test/data/S58861868/S58861868.fa.fai +1 -0
data/test/data/S58861868/S58861868.vcf +76 -0
data/test/data/S58861868/header.txt +9 -0
data/test/data/S58861868/merged.bam +0 -0
data/test/data/S58861868/merged_reheader.bam +0 -0
data/test/data/S58861868/merged_reheader.bam.bai +0 -0
data/test/data/Test3Aspecific.csv +2 -0
data/test/data/Test3Aspecific_contigs.fa +6 -0
data/test/data/bfr_out_test.csv +5 -0
data/test/data/chr1A_C1145499T/chr1A_C1145499T.csv +1 -0
data/test/data/chr1A_G540414846C/chr1A_G540414846C.csv +1 -0
data/test/data/chr1A_G540414846C/chr1A_G540414846C.fa +2 -0
data/test/data/chr1A_T517634750C/chr1A_T517634750C.csv +1 -0
data/test/data/chr2D_C112180134A/chr2D_C112180134A.csv +1 -0
data/test/data/chr4D_C14473543T/chr4D_C14473543T.csv +1 -0
data/test/data/chr4D_C14473543T/chr4D_C14473543T.fa +2 -0
data/test/data/headerMergeed.txt +9 -0
data/test/data/headerS2238015 +1 -0
data/test/data/mergedLibs.bam +0 -0
data/test/data/mergedLibsReheader.bam +0 -0
data/test/data/mergedLibsSorted.bam +0 -0
data/test/data/mergedLibsSorted.bam.bai +0 -0
data/test/data/patological_cases5D.csv +1 -0
data/test/data/primer_3_input_header_test +5 -0
data/test/data/short_primer_design_test.csv +10 -0
data/test/data/some_tests/some_tests.csv +201 -0
data/test/data/test_from_mutant.csv +3 -0
data/test/data/test_iselect.csv +196 -0
data/test/data/test_iselect_reference.fa +1868 -0
data/test/data/test_iselect_reference.fa.fai +934 -0
data/test/data/test_primer3_error.csv +4 -0
data/test/data/test_primer3_error_contigs.fa +10 -0
data/test/test_bfr.rb +135 -0
data/test/test_blast.rb +47 -0
data/test/test_exon_container.rb +17 -0
data/test/test_exonearate.rb +48 -0
data/test/test_integration.rb +76 -0
data/test/test_snp_parsing.rb +121 -0
data/test/test_wrong_selection.sh +5 -0
metadata +356 -0

data/bin/map_markers_to_contigs.rb ADDED Viewed

@@ -0,0 +1,66 @@
+#!/usr/bin/env ruby
+require 'bio'
+require 'optparse'
+$: << File.expand_path(File.dirname(__FILE__) + '/../lib')
+$: << File.expand_path('.')
+path= File.expand_path(File.dirname(__FILE__) + '/../lib/bio-polymarker.rb')
+require path
+def log(msg)
+  time=Time.now.strftime("%Y-%m-%d %H:%M:%S.%L")
+  puts "#{time}: #{msg}"
+end
+markers = nil
+options = {}
+OptionParser.new do |opts|
+  opts.banner = "Usage: polymarker.rb [options]"
+  opts.on("-c", "--chromosome CHR", "chromosome (1A, 3B, etc)") do |o|
+    options[:chromosome] = o.upcase
+  end
+  opts.on("-r", "--reference FASTA", "reference with the contigs") do |o|
+    options[:reference] = o
+  end
+  opts.on("-m", "--map CSV", "File with the map and sequence \n Header: INDEX_90K,SNP_ID,SNP_NAME,CHR,COORDINATES_CHR,MAP_ORDER,CHR_ARM,DISTANCE_CM,SEQUENCE") do |o|
+    options[:map] = o
+  end
+end.parse!
+#reference="/Users/ramirezr/Documents/TGAC/references/Triticum_aestivum.IWGSP1.21.dna_rm.genome.fa"
+reference = options[:reference] if options[:reference]
+throw raise Exception.new(), "Reference has to be provided" unless reference
+map = Bio::PolyploidTools::ArmMap.new
+map.chromosome = options[:chromosome]
+map.global_reference(reference)
+log "Reading markers file"
+Bio::PolyploidTools::Marker.parse(options[:map]) do |marker|
+ if options[:chromosome] == marker.chr
+    map.markers[marker.snp_name] = marker
+  end
+end
+fasta_tmp="markers_#{options[:chromosome]}.fa"
+contigs_tmp="contigs_#{options[:chromosome]}.fa"
+aln_tmp="align_#{options[:chromosome]}.psl"
+contigs_map="contigs_map_#{options[:chromosome]}.fa"
+map_with_contigs="contigs_map_#{options[:chromosome]}.csv"
+#1. Prints the sequences to print according to the chromosome to search
+log "Writing markers: #{fasta_tmp}"
+map.print_fasta_markers(fasta_tmp)
+log "Writing contigs: #{contigs_tmp}"
+map.print_fasta_contigs_from_reference(contigs_tmp)
+log "Aligning markers #{aln_tmp}"
+map.align_markers(aln_tmp)
+log "printing contigs with markers #{contigs_map}"
+map.print_fasta_contigs_for_markers(contigs_map)
+log "printing map with contigs #{map_with_contigs}"
+map.print_map_with_contigs(map_with_contigs)

data/bin/marker_to_vcf.rb ADDED Viewed

@@ -0,0 +1,241 @@
+#!/usr/bin/env ruby
+require 'bio'
+require 'rubygems'
+require 'pathname'
+require 'bio-samtools-wrapper'
+require 'optparse'
+require 'set'
+$: << File.expand_path(File.dirname(__FILE__) + '/../lib')
+$: << File.expand_path('.')
+path= File.expand_path(File.dirname(__FILE__) + '/../lib/bio-polymarker.rb')
+require path
+options = {}
+options[:min_identity] = 90
+options[:filter_best]  = false
+options[:debug]  = false
+OptionParser.new do |opts|
+  opts.banner = "Usage: marler_to_vcf.rb [options]"
+  opts.on("-c", "--contigs FILE", "File with contigs to use as database") do |o|
+    options[:path_to_contigs] = o
+  end
+  opts.on("-m", "--marker_list FILE", "File with the list of markers to search from") do |o|
+    options[:marker_list] = o
+  end
+  opts.on("-b", "--filter_best", "If set, only keep the best alignment for each chromosome") do
+    options[:filter_best]  = false
+  end
+    opts.on("-D", "--debug", "Validate that the flanking sequences are correct") do
+    options[:debug]  = true
+  end
+  opts.on("-i", "--min_identity INT", "Minimum identity to consider a hit (default 90)") do |o|
+    options[:min_identity] = o.to_i
+  end
+  opts.on("-o", "--output FOLDER", "Output folder") do |o|
+    options[:output_folder] = o
+  end
+  opts.on("-a", "--arm_selection #{Bio::PolyploidTools::ChromosomeArm.getValidFunctions.join('|')}", "Function to decide the chromome arm") do |o|
+    options[:arm_selection] = Bio::PolyploidTools::ChromosomeArm.getArmSelection(o)
+   end
+  opts.on("-A", "--aligner exonerate|blast", "Select the aligner to use. Default: blast") do |o|
+    raise "Invalid aligner" unless o == "exonerate" or o == "blast"
+    options[:aligner] = o.to_sym
+  end
+  opts.on("-d", "--database PREFIX", "Path to the blast database. Only used if the aligner is blast. The default is the name of the contigs file without extension.") do |o|
+    options[:database] = o
+  end
+end.parse!
+options[:database] = options[:path_to_contigs]
+p options
+p ARGV
+path_to_contigs=options[:path_to_contigs]
+original_name="A"
+snp_in="B"
+fasta_reference = nil
+test_file=options[:marker_list]
+output_folder="#{test_file}_primer_design_#{Time.now.strftime('%Y%m%d-%H%M%S')}"
+output_folder= options[:output_folder] if  options[:output_folder]
+Dir.mkdir(output_folder)
+#T
+temp_fasta_query="#{output_folder}/to_align.fa"
+temp_contigs="#{output_folder}/contigs_tmp.fa"
+exonerate_file="#{output_folder}/exonerate_tmp.tab"
+vcf_file="#{output_folder}/snp_positions.vcf"
+min_identity= options[:min_identity]
+@status_file="#{output_folder}/status.txt"
+def write_status(status)
+  f=File.open(@status_file, "a")
+  f.puts "#{Time.now.to_s},#{status}"
+  f.close
+end
+snps = Hash.new
+fasta_reference_db=nil
+#if options[:debug]
+write_status "Loading Reference"
+fasta_reference_db = Bio::DB::Fasta::FastaFile.new({:fasta=>path_to_contigs})
+fasta_reference_db.load_fai_entries
+write_status "Fasta reference: #{fasta_reference}"
+#end
+#1. Read all the SNP files
+#chromosome = nil
+write_status "Reading SNPs"
+File.open(test_file) do | f |
+  f.each_line do | line |
+    snp = Bio::PolyploidTools::SNPSequence.parse(line)
+    snp.genomes_count = options[:genomes_count]
+    snp.snp_in = snp_in
+    snp.original_name = original_name
+    if snp.position
+      snps[snp.gene] = snp
+    else
+      $stderr.puts "ERROR: #{snp.gene} doesn't contain a SNP"
+    end
+  end
+end
+#2. Generate all the fasta files
+write_status "Writing sequences to align"
+written_seqs = Set.new
+file = File.open(temp_fasta_query, "w")
+snps.each_pair do |k,snp|
+  unless written_seqs.include?(snp.gene)
+    written_seqs << snp.gene
+    file.puts snp.to_fasta
+  end
+end
+file.close
+#3. Run exonerate on each of the possible chromosomes for the SNP
+#puts chromosome
+#chr_group = chromosome[0]
+write_status "Searching markers in genome"
+exo_f = File.open(exonerate_file, "w")
+contigs_f = File.open(temp_contigs, "w") if options[:extract_found_contigs]
+filename=path_to_contigs
+#puts filename
+target=filename
+fasta_file = Bio::DB::Fasta::FastaFile.new({:fasta=>target})
+fasta_file.load_fai_entries
+found_contigs = Set.new
+def do_align(aln, exo_f, found_contigs, min_identity,fasta_file,options)
+  if aln.identity > min_identity
+    exo_f.puts aln.line
+  end
+end
+Bio::DB::Blast.align({:query=>temp_fasta_query, :target=>options[:database]}) do |aln|
+  do_align(aln, exo_f, found_contigs,min_identity, fasta_file,options)
+end
+exo_f.close()
+def print_positions(min_identity:90, filter_best:false, exonerate_filename:"test.exo", snps:{}, reference:nil, out:$stdout)
+  marker_count=Hash.new { |h, k| h[k] = 1 }
+  File.open(exonerate_filename) do |f|
+    f.each_line do | line |
+      record = Bio::DB::Exonerate::Alignment.parse_custom(line)
+      next unless  record and record.identity >= min_identity
+      snp = snps[record.query_id]
+      next unless snp != nil and snp.position.between?( (record.query_start + 1) , record.query_end)
+      begin
+        position = record.query_position_on_target(snp.position)
+        q_strand = record.query_strand
+        t_strand = record.target_strand
+        template = snp.template_sequence
+        vulgar = record.exon_on_gene_position(snp.position)
+        tr = vulgar.target_region
+        qr = vulgar.query_region
+        template_pre = template[qr.start - 1 .. snp.position - 1 ]
+        tr.orientation == :forward ? tr.end = position : tr.start = position
+        region = tr
+        target_seq = reference.fetch_sequence(region)
+        target_seq[-1] = target_seq[-1].upcase
+        ref_base = target_seq[-1]
+        ma = ref_base
+        alt_base = [snp.snp, snp.original].join(",")
+        if snp.original == ref_base
+          alt_base = snp.snp
+        elsif snp.snp == ref_base
+          alt_base = snp.original
+        end
+        if record.target_strand == :reverse
+          alt_base = Bio::Sequence::NA.new(alt_base)
+          ref_base = Bio::Sequence::NA.new(ref_base)
+          alt_base.complement!.upcase!
+          ref_base.complement!.upcase!
+        end
+        info =  ["OR=#{record.target_strand}"]
+        info <<  "SC=#{record.score}"
+        info <<  "PI=#{record.pi}"
+        info <<  "MA=#{ma}"
+        info <<  "TS=#{target_seq}"
+        vcf_line="#{record.target_id}\t#{position}\t#{record.query_id}.path#{marker_count[record.query_id]}\t#{ref_base}\t#{alt_base}\t#{record.pi}\t.\t#{info.join(";")}"
+        #snp2 = Bio::PolyploidTools::SNP.parseVCF( vcf_line )
+        #snp2.setTemplateFromFastaFile(reference)
+        #seq2=snp2.to_polymarker_sequence(50)
+        #info << "PS=#{seq2}"
+        vcf_line="#{record.target_id}\t#{position}\t#{record.query_id}.path#{marker_count[record.query_id]}\t#{ref_base}\t#{alt_base}\t#{record.pi}\t.\t#{info.join(";")}"
+        out.puts(vcf_line)
+        marker_count[record.query_id] += 1
+      rescue Bio::DB::Exonerate::ExonerateException
+        $stderr.puts "Failed for the range #{record.query_start}-#{record.query_end} for position #{snp.position}"
+      end
+    end
+  end
+end
+write_status "Printing VCF file"
+#puts snps.inspect
+out = File.open(vcf_file, "w")
+out.puts "##fileformat=VCFv4.2"
+out.puts "##fileDate=#{Time.now.strftime("%Y%m%d")}"
+out.puts "##source=#{$0}"
+out.puts "##reference=file://#{options[:path_to_contigs]}"
+out.puts "##INFO=<ID=OR,Number=1,Type=String,Description=\"Orientation of the alignment of the marker\">"
+out.puts "##INFO=<ID=SC,Number=1,Type=Float,Description=\"Alignment score of the marker\">"
+out.puts "##INFO=<ID=PI,Number=1,Type=Float,Description=\"Percentage of identity of the alignment to the marker\">"
+out.puts "##INFO=<ID=PS,Number=1,Type=String,Description=\"SNP sequence for PolyMarker\">"
+out.puts "##INFO=<ID=MA,Number=1,Type=String,Description=\"Allele based on the original marker sequence\">"
+out.puts "##INFO=<ID=TS,Number=1,Type=String,Description=\"Target sequence before the SNP from the reference\">"
+out.puts "#CHROM\tPOS\tID\tREF\tALT\tQUAL\tFILTER\tINFO"
+print_positions(exonerate_filename:exonerate_file, min_identity:95, snps:snps, reference: fasta_reference_db, out:out)
+out.close
+write_status "DONE"

data/bin/markers_in_region.rb ADDED Viewed

@@ -0,0 +1,42 @@
+#!/usr/bin/env ruby
+#This uses the map output from map_markers_to_contigs.rb
+#You need a reference with the name of the contigs, containing the chromosome
+#arm and a list of sequences to map. The algorithm creates a smaller reference
+#file, so the search only spans across the contigs in the region. This should
+#allow to use a refined mapping algorithm.
+require 'bio'
+require 'optparse'
+$: << File.expand_path(File.dirname(__FILE__) + '/../lib')
+$: << File.expand_path('.')
+path= File.expand_path(File.dirname(__FILE__) + '/../lib/bio-polymarker.rb')
+require path
+def log(msg)
+  time=Time.now.strftime("%Y-%m-%d %H:%M:%S.%L")
+  puts "#{time}: #{msg}"
+end
+markers = nil
+options = {}
+OptionParser.new do |opts|
+  opts.banner = "Usage: markers_in_region.rb [options]"
+  opts.on("-c", "--chromosome CHR", "chromosome (1A, 3B, etc)") do |o|
+    options[:chromosome] = o.upcase
+  end
+  opts.on("-r", "--reference FASTA", "reference with the contigs") do |o|
+    options[:reference] = o
+  end
+  opts.on("-m", "--map CSV", "File with the map and sequence \n Header: INDEX_90K,SNP_ID,SNP_NAME,CHR,COORDINATES_CHR,MAP_ORDER,CHR_ARM,DISTANCE_CM,SEQUENCE") do |o|
+    options[:map] = o
+  end
+end.parse!
+#reference="/Users/ramirezr/Documents/TGAC/references/Triticum_aestivum.IWGSP1.21.dna_rm.genome.fa"
+reference = options[:reference] if options[:reference]
+throw raise Exception.new(), "Reference has to be provided" unless reference

data/bin/mask_triads.rb ADDED Viewed

@@ -0,0 +1,169 @@
+#!/usr/bin/env ruby
+require 'optparse'
+require 'csv'
+require 'fileutils'
+require 'tmpdir'
+require 'bio-samtools-wrapper'
+require 'bio'
+$: << File.expand_path(File.dirname(__FILE__) + '/../lib')
+$: << File.expand_path('.')
+path= File.expand_path(File.dirname(__FILE__) + '/../lib/bio-polymarker.rb')
+require path
+opts = {}
+opts[:identity] = 50
+opts[:min_bases] = 200
+opts[:split_token] = "."
+opts[:tmp_folder]  = Dir.mktmpdir
+opts[:random_sample] = 0
+opts[:output_folder] = "."
+OptionParser.new do |o|
+  o.banner = "Usage: mask_triads.rb [options]"
+  o.on("-t", "--triads FILE", "CSV file with the gene triad names in the named columns 'A','B' and 'D' ") do |o|
+    opts[:triads] = o
+  end
+  o.on("-f", "--fasta FILE" , "FASTA file containing all the possible peptide sequences. ") do |o|
+    opts[:fasta] = o
+  end
+  o.on("-s", "--split_token CHAR", "Character used to split the sequence name. The name will be evarything before this token on the name of the sequences") do |o|
+    opts[:split_token] = o
+  end
+  o.on("-o", "--output_folder DIR", "Location to save the alignment masks. If the alignment exists, it is recycled to avoid calling MAFFT again") do |o|
+    opts[:output_folder] = o
+  end
+end.parse!
+split_token = opts[:split_token]
+reference_name = File.basename opts[:fasta]
+output_folder = opts[:output_folder]
+@fasta_reference_db = Bio::DB::Fasta::FastaFile.new(fasta: opts[:fasta])
+@fasta_reference_db.load_fai_entries
+#puts @fasta_reference_db.index.entries
+@cannonical = Hash.new
+@fasta_reference_db.index.entries.each do |e|
+  gene = e.id.split(split_token)[0]
+  @cannonical[gene] = e unless @cannonical[gene]
+  @cannonical[gene]  = e if   e.length > @cannonical[gene].length
+end
+$stderr.puts "#Loaded #{@cannonical.length} canonical sequences from #{@fasta_reference_db.index.size} in reference"
+$stderr.puts "TMP dir: #{opts[:tmp_folder]}"
+def write_fasta_from_hash(sequences, filename)
+  out = File.new(filename, "w")
+  sequences.each_pair do | chromosome, exon_seq |
+    out.puts ">#{chromosome}\n#{exon_seq}\n"
+  end
+  out.close
+end
+def mafft_align(a, b, d)
+  to_align = Bio::Alignment::SequenceHash.new
+  seq_a = @fasta_reference_db.fetch_sequence(@cannonical[a].get_full_region)
+  seq_b = @fasta_reference_db.fetch_sequence(@cannonical[b].get_full_region)
+  seq_d = @fasta_reference_db.fetch_sequence(@cannonical[d].get_full_region)
+  to_align[a] = seq_a
+  to_align[b] = seq_b
+  to_align[d] = seq_d
+  report = mafft.query_alignment(to_align)
+  aln = report.alignment
+  aln
+end
+def read_alignment(path)
+  aln = Bio::Alignment::SequenceHash.new
+  i = 0
+  Bio::FlatFile.open(Bio::FastaFormat, path) do |fasta_file|
+    fasta_file.each do |entry|
+      aln[entry.entry_id] = entry.seq if i < 3
+      i += 1
+    end
+  end
+  aln
+end
+mafft_opts = ['--maxiterate', '1000', '--localpair', '--quiet']
+mafft = Bio::MAFFT.new( "mafft" , mafft_opts)
+header_printed = false
+stats     = File.open("#{output_folder}/#{reference_name}.identity_stats.csv", "w")
+distances = File.open("#{output_folder}/#{reference_name}.distance_between_snps.csv.gz", "w")
+gz = Zlib::GzipWriter.new(distances)
+gz.write "triad,gene,genome,reference,type,distance\n"
+#gz.close
+def write_distances(distances, triad, gene, genome, reference, type, out)
+  distances.each { |e| out.write "#{triad},#{gene},#{genome},#{reference},#{type},#{e}\n" }
+end
+i = 0
+CSV.foreach(opts[:triads], headers:true ) do |row|
+  next unless row["cardinality_abs"] == "1:1:1" and row["HC.LC"] == "HC-only"
+   a = row['A']
+   b = row['B']
+   d = row['D']
+   triad = row['group_id']
+   cent_triad = triad.to_i / 100
+   folder = "#{output_folder}/alignments/#{reference_name}/#{cent_triad}/"
+   save_cds = "#{folder}/#{triad}.fa"
+   aligned = File.file?(save_cds)
+   aln = aligned ? read_alignment(save_cds)  : mafft_align(a,b,d)
+   folder = "#{output_folder}/alignments_new/#{reference_name}/#{cent_triad}/" if aligned
+   FileUtils.mkdir_p folder
+   save_cds = "#{folder}/#{triad}.fa"
+   aln2 = Bio::Alignment.new aln
+   seq_start = Bio::PolyploidTools::Mask.find_start(aln)
+   seq_end   = Bio::PolyploidTools::Mask.find_end(aln)
+   #puts "#{triad}: #{seq_start}-#{seq_end}"
+   aln2.add_seq(Bio::PolyploidTools::Mask.get(aln,seq_start: seq_start, seq_end: seq_end, target: a), "A")
+   aln2.add_seq(Bio::PolyploidTools::Mask.get(aln,seq_start: seq_start, seq_end: seq_end, target: b), "B")
+   aln2.add_seq(Bio::PolyploidTools::Mask.get(aln,seq_start: seq_start, seq_end: seq_end, target: d), "D")
+   a_stats =  Bio::PolyploidTools::Mask.stats(aln2["A"], triad, a, "A", reference_name)
+   b_stats =  Bio::PolyploidTools::Mask.stats(aln2["B"], triad, b, "B", reference_name)
+   d_stats =  Bio::PolyploidTools::Mask.stats(aln2["D"], triad, d, "D", reference_name)
+   write_distances(a_stats[:specific], triad, a, "A", reference_name, "specific", gz)
+   write_distances(b_stats[:specific], triad, b, "B", reference_name, "specific", gz)
+   write_distances(d_stats[:specific], triad, d, "D", reference_name, "specific", gz)
+   write_distances(a_stats[:semispecific], triad, a, "A", reference_name, "semispecific", gz)
+   write_distances(b_stats[:semispecific], triad, b, "B", reference_name, "semispecific", gz)
+   write_distances(d_stats[:semispecific], triad, d, "D", reference_name, "semispecific", gz)
+   a_stats.delete(:semispecific)
+   b_stats.delete(:semispecific)
+   d_stats.delete(:semispecific)
+   a_stats.delete(:specific)
+   b_stats.delete(:specific)
+   d_stats.delete(:specific)
+   a_stats[:length] = @cannonical[a].length
+   b_stats[:length] = @cannonical[b].length
+   d_stats[:length] = @cannonical[d].length
+   stats.puts a_stats.keys.join(",") unless header_printed
+   stats.puts a_stats.values.join(",")
+   stats.puts b_stats.values.join(",")
+   stats.puts d_stats.values.join(",")
+   header_printed = true
+   write_fasta_from_hash(aln2, save_cds)
+   i += 1
+end
+gz.close
+distances.close
+stats.close