RubyGems - bio-polyploid-tools - Versions diffs - 0.7.3 → 0.8.0 - Mend

bio-polyploid-tools 0.7.3 → 0.8.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (66) hide show

checksums.yaml +5 -5
data/.travis.yml +17 -0
data/Gemfile +10 -7
data/README.md +44 -0
data/Rakefile +14 -14
data/VERSION +1 -1
data/bin/bfr.rb +2 -2
data/bin/blast_triads.rb +166 -0
data/bin/blast_triads_promoters.rb +192 -0
data/bin/find_homoeologue_variations.rb +385 -0
data/bin/get_longest_hsp_blastx_triads.rb +66 -0
data/bin/hexaploid_primers.rb +2 -2
data/bin/homokaryot_primers.rb +2 -2
data/bin/mafft_triads.rb +120 -0
data/bin/mafft_triads_promoters.rb +403 -0
data/bin/polymarker.rb +73 -17
data/bin/polymarker_capillary.rb +416 -0
data/bin/snp_position_to_polymarker.rb +5 -3
data/bin/snps_between_bams.rb +0 -29
data/bin/vcfLineToTable.rb +56 -0
data/bio-polyploid-tools.gemspec +74 -32
data/lib/bio/BFRTools.rb +1 -0
data/lib/bio/PolyploidTools/ChromosomeArm.rb +2 -6
data/lib/bio/PolyploidTools/ExonContainer.rb +31 -8
data/lib/bio/PolyploidTools/NoSNPSequence.rb +286 -0
data/lib/bio/PolyploidTools/PrimerRegion.rb +9 -1
data/lib/bio/PolyploidTools/SNP.rb +58 -18
data/lib/bio/PolyploidTools/SNPMutant.rb +5 -3
data/lib/bio/db/blast.rb +112 -0
data/lib/bio/db/exonerate.rb +4 -5
data/lib/bio/db/primer3.rb +83 -14
data/test/data/BS00068396_51_blast.tab +4 -0
data/test/data/BS00068396_51_contigs.nhr +0 -0
data/test/data/BS00068396_51_contigs.nin +0 -0
data/test/data/BS00068396_51_contigs.nsq +0 -0
data/test/data/BS00068396_51_for_polymarker.fa +1 -0
data/test/data/IWGSC_CSS_1AL_scaff_1455974_aln_contigs.fa.fai +11 -0
data/test/data/S22380157.vcf +67 -0
data/test/data/S58861868/LIB1716.bam +0 -0
data/test/data/S58861868/LIB1716.sam +651 -0
data/test/data/S58861868/LIB1719.bam +0 -0
data/test/data/S58861868/LIB1719.sam +805 -0
data/test/data/S58861868/LIB1721.bam +0 -0
data/test/data/S58861868/LIB1721.sam +1790 -0
data/test/data/S58861868/LIB1722.bam +0 -0
data/test/data/S58861868/LIB1722.sam +1271 -0
data/test/data/S58861868/S58861868.fa +16 -0
data/test/data/S58861868/S58861868.fa.fai +1 -0
data/test/data/S58861868/S58861868.vcf +76 -0
data/test/data/S58861868/header.txt +9 -0
data/test/data/S58861868/merged.bam +0 -0
data/test/data/S58861868/merged_reheader.bam +0 -0
data/test/data/S58861868/merged_reheader.bam.bai +0 -0
data/test/data/bfr_out_test.csv +5 -5
data/test/data/headerMergeed.txt +9 -0
data/test/data/headerS2238015 +1 -0
data/test/data/mergedLibs.bam +0 -0
data/test/data/mergedLibsReheader.bam +0 -0
data/test/data/mergedLibsSorted.bam +0 -0
data/test/data/mergedLibsSorted.bam.bai +0 -0
data/test/test_bfr.rb +26 -34
data/test/test_blast.rb +47 -0
data/test/test_exonearate.rb +4 -9
data/test/test_snp_parsing.rb +42 -22
metadata +81 -20
data/Gemfile.lock +0 -67

data/bin/snp_position_to_polymarker.rb CHANGED

@@ -42,7 +42,8 @@ OptionParser.new do |opts|
   opts.on("-f", "--flanking_size INT", "Flanking size around the SNP") do |o|
     options[:flanking_size] = o.to_i
   end
-  opts.on("-t", "--mutant_list FILE", "File with the list of positions with mutation and the mutation line.\n\
+  opts.on("-t", "--mutant_list FILE", "File with the list of positions with mutation and the mutation line. Example: IWGSC_CSS_1AL_scaff_1455974,Kronos2281,127,C,T\n\
     requires --reference to get the sequence using a position") do |o|
     options[:mutant_list] = o
      test_file = o
@@ -76,9 +77,10 @@ File.open(test_file) do | f |
        		if region != lastRegion
              lastTemplate = fasta_reference_db.fetch_sequence(region)
           end
-          snp.template_sequence = lastTemplate
+          snp.full_sequence = lastTemplate
           lastRegion = region
-       		out.puts "#{snp.gene}_#{snp.snp_id_in_seq},#{snp.chromosome},#{snp.to_polymarker_sequence(options[:flanking_size])}"
+       		out.puts "#{snp.gene}_#{snp.snp_id_in_seq},#{snp.chromosome},#{snp.sequence_original}"
     	else
     	   $stderr.puts "ERROR: Unable to find entry for #{snp.gene}"
     	end

data/bin/snps_between_bams.rb CHANGED

@@ -54,7 +54,6 @@ fasta_db.index.entries.each do | r |
   begin
-<<<<<<< HEAD
     reg_a = bam1.fetch_region({:region=>region,  :min_cov=>min_cov, :A=>1})
     reg_b = bam2.fetch_region({:region=>region,  :min_cov=>min_cov, :A=>1})
     cons_1 = reg_a.consensus
@@ -85,34 +84,6 @@ fasta_db.index.entries.each do | r |
     fasta_file.puts ">#{r.id}_2"
     fasta_file.puts "#{cons_2}"
-=======
-    cons_1 = bam1.consensus_with_ambiguities({:region=>region, :case=>true, :min_cov=>min_cov})
-    cons_2 = bam2.consensus_with_ambiguities({:region=>region, :case=>true, :min_cov=>min_cov})
-    if cons_1 != cons_2
-      snps_1 = cons_1.count_ambiguities
-      snps_2 = cons_2.count_ambiguities
-      snps_tot = Bio::Sequence.snps_between(cons_1, cons_2)
-      snps_per_1k_1   = (block_size * snps_1.to_f   ) / region.size
-      snps_per_1k_2   = (block_size * snps_2.to_f   ) / region.size
-      snps_per_1k_tot = (block_size * snps_tot.to_f ) / region.size
-      hist_1[snps_per_1k_1.to_i] += 1
-      hist_2[snps_per_1k_2.to_i] += 1
-      table_file.print "#{r.id}\t#{region.size}\t"
-      table_file.print "#{snps_1}\t#{called_1}\t#{snps_per_1k_1}\t"
-      table_file.print "#{snps_2}\t#{called_2}\t#{snps_per_1k_2}\t"
-      table_file.print "#{snps_tot}\t#{snps_per_1k_tot}\n"
-      fasta_file.puts ">#{r.id}_1"
-      fasta_file.puts "#{cons_1}"
-      fasta_file.puts ">#{r.id}_2"
-      fasta_file.puts "#{cons_2}"
-    end
->>>>>>> 1b60bd09fdb1b087d6cb53c643ff36e536efe4a3
   rescue Exception => e
     $stderr.puts "Unable to process #{region}: #{e.to_s}"
   end

data/bin/vcfLineToTable.rb ADDED

@@ -0,0 +1,56 @@
+require 'bio-samtools'
+require 'optparse'
+$: << File.expand_path(File.dirname(__FILE__) + '/../lib')
+$: << File.expand_path('.')
+path=File.expand_path(File.dirname(__FILE__) + '/../lib/bioruby-polyploid-tools.rb')
+def parseVCFheader(head_line="")
+	##INFO=<ID=NS,Number=1,Type=Integer,Description="Number of samples with data">
+	m=/##INFO=<ID=(.+),Number=(.+),Type=(.+),Description="(.+)">/.match(head_line)
+	{:id=>m[1],:number=>m[2],:type=>m[3],:desc=>m[4]}
+end
+header_info = Hash.new
+ARGF.each_line do |line|
+	h = nil
+	h = parseVCFheader(line) if line.start_with? "##INFO"
+	header_info[h[:id]] = h[:desc] if h
+	#puts header_info.inspect
+	next if line.start_with? "##"
+	if line.start_with? "#CHROM"
+		arr = line.split
+		arr = arr.drop(9)
+		arr2 = arr.map { |s| [s.clone().prepend('Cov'), s.clone().prepend('Hap') ]}
+		#header += arr2.join("\t")
+		#puts header
+		next
+	end
+	line.chomp!
+	vcf = Bio::DB::Vcf.new(line, arr)
+#	puts arr.join("\t") if vcf.info["TYPE"] == "snp"
+#	puts vcf.inspect
+	#pus vcf.pos.inspect
+	#next if vcf.info["AO"].to_i != 1
+	vcf.info.each_pair { |name, val| puts "#{name}\t#{val}\t#{header_info[name]}" }
+    arr2 = Array.new
+    puts "____"
+    i = 0
+	vcf.samples.each do |sample|
+		#puts sample.inspect
+		puts sample[1].keys.join("\t") if i == 0
+        puts sample[1].values.join("\t")
+        i+=1
+    end
+end

data/bio-polyploid-tools.gemspec CHANGED

@@ -1,44 +1,52 @@
-# Generated by jeweler
+# Generated by juwelier
 # DO NOT EDIT THIS FILE DIRECTLY
-# Instead, edit Jeweler::Tasks in Rakefile, and run 'rake gemspec'
+# Instead, edit Juwelier::Tasks in Rakefile, and run 'rake gemspec'
 # -*- encoding: utf-8 -*-
-# stub: bio-polyploid-tools 0.7.3 ruby lib
+# stub: bio-polyploid-tools 0.8.0 ruby lib
 Gem::Specification.new do |s|
-  s.name = "bio-polyploid-tools"
-  s.version = "0.7.3"
+  s.name = "bio-polyploid-tools".freeze
+  s.version = "0.8.0"
-  s.required_rubygems_version = Gem::Requirement.new(">= 0") if s.respond_to? :required_rubygems_version=
-  s.require_paths = ["lib"]
-  s.authors = ["Ricardo H.  Ramirez-Gonzalez"]
-  s.date = "2015-08-10"
-  s.description = "Repository of tools developed in TGAC and Crop Genetics in JIC to work with polyploid wheat"
-  s.email = "ricardo.ramirez-gonzalez@tgac.ac.uk"
-  s.executables = ["bfr.rb", "count_variations.rb", "filter_blat_by_target_coverage.rb", "filter_exonerate_by_identity.rb", "find_best_blat_hit.rb", "find_best_exonerate.rb", "hexaploid_primers.rb", "homokaryot_primers.rb", "map_markers_to_contigs.rb", "markers_in_region.rb", "polymarker.rb", "snp_position_to_polymarker.rb", "snps_between_bams.rb"]
+  s.required_rubygems_version = Gem::Requirement.new(">= 0".freeze) if s.respond_to? :required_rubygems_version=
+  s.require_paths = ["lib".freeze]
+  s.authors = ["Ricardo H.  Ramirez-Gonzalez".freeze]
+  s.date = "2018-01-18"
+  s.description = "Repository of tools developed at Crop Genetics in JIC to work with polyploid wheat".freeze
+  s.email = "ricardo.ramirez-gonzalez@jic.ac.uk".freeze
+  s.executables = ["bfr.rb".freeze, "blast_triads.rb".freeze, "blast_triads_promoters.rb".freeze, "count_variations.rb".freeze, "filter_blat_by_target_coverage.rb".freeze, "filter_exonerate_by_identity.rb".freeze, "find_best_blat_hit.rb".freeze, "find_best_exonerate.rb".freeze, "find_homoeologue_variations.rb".freeze, "get_longest_hsp_blastx_triads.rb".freeze, "hexaploid_primers.rb".freeze, "homokaryot_primers.rb".freeze, "mafft_triads.rb".freeze, "mafft_triads_promoters.rb".freeze, "map_markers_to_contigs.rb".freeze, "markers_in_region.rb".freeze, "polymarker.rb".freeze, "polymarker_capillary.rb".freeze, "snp_position_to_polymarker.rb".freeze, "snps_between_bams.rb".freeze, "vcfLineToTable.rb".freeze]
   s.extra_rdoc_files = [
     "README",
     "README.md"
   ]
   s.files = [
+    ".travis.yml",
     "Gemfile",
-    "Gemfile.lock",
     "README",
     "README.md",
     "Rakefile",
     "VERSION",
     "bin/bfr.rb",
+    "bin/blast_triads.rb",
+    "bin/blast_triads_promoters.rb",
     "bin/count_variations.rb",
     "bin/filter_blat_by_target_coverage.rb",
     "bin/filter_exonerate_by_identity.rb",
     "bin/find_best_blat_hit.rb",
     "bin/find_best_exonerate.rb",
+    "bin/find_homoeologue_variations.rb",
+    "bin/get_longest_hsp_blastx_triads.rb",
     "bin/hexaploid_primers.rb",
     "bin/homokaryot_primers.rb",
+    "bin/mafft_triads.rb",
+    "bin/mafft_triads_promoters.rb",
     "bin/map_markers_to_contigs.rb",
     "bin/markers_in_region.rb",
     "bin/polymarker.rb",
+    "bin/polymarker_capillary.rb",
     "bin/snp_position_to_polymarker.rb",
     "bin/snps_between_bams.rb",
+    "bin/vcfLineToTable.rb",
     "bio-polyploid-tools.gemspec",
     "conf/defaults.rb",
     "conf/primer3_config/dangle.dh",
@@ -80,21 +88,29 @@ Gem::Specification.new do |s|
     "lib/bio/PolyploidTools/ChromosomeArm.rb",
     "lib/bio/PolyploidTools/ExonContainer.rb",
     "lib/bio/PolyploidTools/Marker.rb",
+    "lib/bio/PolyploidTools/NoSNPSequence.rb",
     "lib/bio/PolyploidTools/PrimerRegion.rb",
     "lib/bio/PolyploidTools/SNP.rb",
     "lib/bio/PolyploidTools/SNPMutant.rb",
     "lib/bio/PolyploidTools/SNPSequence.rb",
+    "lib/bio/db/blast.rb",
     "lib/bio/db/exonerate.rb",
     "lib/bio/db/primer3.rb",
     "lib/bioruby-polyploid-tools.rb",
     "test/data/BS00068396_51.fa",
+    "test/data/BS00068396_51_blast.tab",
     "test/data/BS00068396_51_contigs.aln",
     "test/data/BS00068396_51_contigs.dnd",
     "test/data/BS00068396_51_contigs.fa",
+    "test/data/BS00068396_51_contigs.nhr",
+    "test/data/BS00068396_51_contigs.nin",
+    "test/data/BS00068396_51_contigs.nsq",
     "test/data/BS00068396_51_exonerate.tab",
+    "test/data/BS00068396_51_for_polymarker.fa",
     "test/data/BS00068396_51_genes.txt",
     "test/data/IWGSC_CSS_1AL_scaff_1455974.fa",
     "test/data/IWGSC_CSS_1AL_scaff_1455974_aln_contigs.fa",
+    "test/data/IWGSC_CSS_1AL_scaff_1455974_aln_contigs.fa.fai",
     "test/data/LIB1716.bam",
     "test/data/LIB1716.bam.bai",
     "test/data/LIB1719.bam",
@@ -109,9 +125,31 @@ Gem::Specification.new do |s|
     "test/data/PST130_reverse_primer.csv",
     "test/data/S22380157.fa",
     "test/data/S22380157.fa.fai",
+    "test/data/S22380157.vcf",
+    "test/data/S58861868/LIB1716.bam",
+    "test/data/S58861868/LIB1716.sam",
+    "test/data/S58861868/LIB1719.bam",
+    "test/data/S58861868/LIB1719.sam",
+    "test/data/S58861868/LIB1721.bam",
+    "test/data/S58861868/LIB1721.sam",
+    "test/data/S58861868/LIB1722.bam",
+    "test/data/S58861868/LIB1722.sam",
+    "test/data/S58861868/S58861868.fa",
+    "test/data/S58861868/S58861868.fa.fai",
+    "test/data/S58861868/S58861868.vcf",
+    "test/data/S58861868/header.txt",
+    "test/data/S58861868/merged.bam",
+    "test/data/S58861868/merged_reheader.bam",
+    "test/data/S58861868/merged_reheader.bam.bai",
     "test/data/Test3Aspecific.csv",
     "test/data/Test3Aspecific_contigs.fa",
     "test/data/bfr_out_test.csv",
+    "test/data/headerMergeed.txt",
+    "test/data/headerS2238015",
+    "test/data/mergedLibs.bam",
+    "test/data/mergedLibsReheader.bam",
+    "test/data/mergedLibsSorted.bam",
+    "test/data/mergedLibsSorted.bam.bai",
     "test/data/patological_cases5D.csv",
     "test/data/primer_3_input_header_test",
     "test/data/short_primer_design_test.csv",
@@ -122,38 +160,42 @@ Gem::Specification.new do |s|
     "test/data/test_primer3_error.csv",
     "test/data/test_primer3_error_contigs.fa",
     "test/test_bfr.rb",
+    "test/test_blast.rb",
     "test/test_exon_container.rb",
     "test/test_exonearate.rb",
     "test/test_snp_parsing.rb",
     "test/test_wrong_selection.sh"
   ]
-  s.homepage = "http://github.com/tgac/bioruby-polyploid-tools"
-  s.licenses = ["MIT"]
-  s.rubygems_version = "2.4.7"
-  s.summary = "Tool to work with polyploids, NGS and molecular biology"
+  s.homepage = "http://github.com/tgac/bioruby-polyploid-tools".freeze
+  s.licenses = ["MIT".freeze]
+  s.rubygems_version = "2.7.4".freeze
+  s.summary = "Tool to work with polyploids, NGS and molecular biology".freeze
   if s.respond_to? :specification_version then
     s.specification_version = 4
     if Gem::Version.new(Gem::VERSION) >= Gem::Version.new('1.2.0') then
-      s.add_runtime_dependency(%q<bio>, [">= 1.4.3"])
-      s.add_runtime_dependency(%q<bio-samtools>, [">= 2.0.4"])
-      s.add_runtime_dependency(%q<rake>, [">= 0"])
-      s.add_runtime_dependency(%q<jeweler>, [">= 0"])
-      s.add_runtime_dependency(%q<systemu>, [">= 2.5.2"])
+      s.add_runtime_dependency(%q<bio>.freeze, [">= 1.5.1"])
+      s.add_runtime_dependency(%q<bio-samtools>.freeze, [">= 2.6.2"])
+      s.add_runtime_dependency(%q<systemu>.freeze, [">= 2.5.2"])
+      s.add_development_dependency(%q<shoulda>.freeze, [">= 2.10"])
+      s.add_development_dependency(%q<test-unit>.freeze, [">= 0"])
+      s.add_development_dependency(%q<juwelier>.freeze, [">= 0"])
     else
-      s.add_dependency(%q<bio>, [">= 1.4.3"])
-      s.add_dependency(%q<bio-samtools>, [">= 2.0.4"])
-      s.add_dependency(%q<rake>, [">= 0"])
-      s.add_dependency(%q<jeweler>, [">= 0"])
-      s.add_dependency(%q<systemu>, [">= 2.5.2"])
+      s.add_dependency(%q<bio>.freeze, [">= 1.5.1"])
+      s.add_dependency(%q<bio-samtools>.freeze, [">= 2.6.2"])
+      s.add_dependency(%q<systemu>.freeze, [">= 2.5.2"])
+      s.add_dependency(%q<shoulda>.freeze, [">= 2.10"])
+      s.add_dependency(%q<test-unit>.freeze, [">= 0"])
+      s.add_dependency(%q<juwelier>.freeze, [">= 0"])
     end
   else
-    s.add_dependency(%q<bio>, [">= 1.4.3"])
-    s.add_dependency(%q<bio-samtools>, [">= 2.0.4"])
-    s.add_dependency(%q<rake>, [">= 0"])
-    s.add_dependency(%q<jeweler>, [">= 0"])
-    s.add_dependency(%q<systemu>, [">= 2.5.2"])
+    s.add_dependency(%q<bio>.freeze, [">= 1.5.1"])
+    s.add_dependency(%q<bio-samtools>.freeze, [">= 2.6.2"])
+    s.add_dependency(%q<systemu>.freeze, [">= 2.5.2"])
+    s.add_dependency(%q<shoulda>.freeze, [">= 2.10"])
+    s.add_dependency(%q<test-unit>.freeze, [">= 0"])
+    s.add_dependency(%q<juwelier>.freeze, [">= 0"])
   end
 end

data/lib/bio/BFRTools.rb CHANGED

@@ -114,6 +114,7 @@ module Bio::BFRTools
       self.entry = reg.entry
       self.start = reg.start
       self.end   = reg.end
+      @BFRs = nil
       opts[:region] = reg
       @container = opts[:container]

data/lib/bio/PolyploidTools/ChromosomeArm.rb CHANGED

@@ -22,6 +22,7 @@ module Bio::PolyploidTools
      # puts entry
       @fasta_db.fetch_sequence(entry.get_full_region)
     end
     #Loads all the chromosome arms in a folder.
     #The current version requires that all the references end with .fa, and start with XXX_*.fa
     #Where XXX is the chromosome name
@@ -29,16 +30,11 @@ module Bio::PolyploidTools
       chromosomeArms = Hash.new
       Dir.foreach(path_to_contigs) do |filename |
         if  File.fnmatch("*.fa", filename)
           parsed = /^(?<arm>\d\w+)/.match(filename)
           target="#{path_to_contigs}/#{filename}"
-         # fasta_file = Bio::DB::Fasta::FastaFile.new(target)
+          #fasta_file = Bio::DB::Fasta::FastaFile.new(target)
           #fasta_file.load_fai_entries
           arm = ChromosomeArm.new(parsed[:arm], target)
           chromosomeArms[arm.name] = arm

data/lib/bio/PolyploidTools/ExonContainer.rb CHANGED

@@ -19,15 +19,31 @@ module Bio::PolyploidTools
     def gene_models(path)
       @gene_models_db = Bio::DB::Fasta::FastaFile.new({:fasta=>path})
+      @gene_models_db.index
       @gene_models_path = path
     end
     #Returns the sequence for a region in the gene models (exon)
     def gene_model_sequence(region)
-      #puts region
-      seq=@gene_models_db.fetch_sequence(region)
+      #puts "Region: "
+      #puts region.inspect
+      target_reg = @gene_models_db.index.region_for_entry(region.entry)
+      #puts target_reg.inspect
+      region.end = target_reg.length if region.end > target_reg.length
+      #entries[region.entry]
+      seq=@gene_models_db.fetch_sequence(region)
+      #puts "sequence: "
+      #This is a patch that we need to fix in biosamtools:
+      #puts seq
+      index = seq.index('>')
+      if(index )
+        index -= 1
+        #puts "Index: #{index}"
+        seq = seq.slice(0..index)
+      end
+      #puts seq
+      seq
     end
     #Sets the reference file for the gene models
@@ -40,10 +56,10 @@ module Bio::PolyploidTools
     def chromosome_sequence(region)
       left_pad = 0
       #TODO: Padd if it goes to the right
-      if(region.start < 0)
+      if(region.start < 1)
         left_pad = region.start * -1
         left_pad += 1
-        region.start = 0
+        region.start = 1
       end
       str = "-" * left_pad << @chromosomes_db.fetch_sequence(region)
       #str << "n" * (region.size - str.size + 1) if region.size > str.size
@@ -116,12 +132,17 @@ module Bio::PolyploidTools
       @snp_map.each do | gene, snp_array|
         snp_array.each do |snp|
           #file.puts snp.primer_fasta_string
+          #puts "In print_fast_np_exones"
+          #puts snp.inspect
           begin
             file.puts snp.aligned_sequences_fasta
           rescue Exception=>e
             @missing_exons << snp.to_s
-            $stderr.puts e.to_s
+            $stderr.puts "print_fasta_snp_exones:" + snp.to_s + ":" + e.to_s
+            $stderr.puts "Local position: #{snp.local_position}"
+            $stderr.puts "Local position: #{snp.parental_sequences.to_s}"
+            $stderr.puts e.backtrace
           end
         end
       end
@@ -143,8 +164,10 @@ module Bio::PolyploidTools
             end
            rescue Exception=>e
               @missing_exons << snp.to_s
+             # $stderr.puts ""
-              $stderr.puts e.to_s
+              $stderr.puts "print_primer_3_exons: #{e.to_s} : snp.to_s"
+              $stderr.puts e.backtrace
             end
         end
       end

data/lib/bio/PolyploidTools/NoSNPSequence.rb ADDED

@@ -0,0 +1,286 @@
+require_relative "SNP"
+require 'bio-samtools'
+module Bio::PolyploidTools
+  class SNPSequenceException < RuntimeError
+  end
+  class NoSNPSequence < SNP
+    attr_accessor :sequence_original
+    #Format:
+    #snp name,chromsome from contig,microarray sequence
+    #BS00068396_51,2AS,CGAAGCGATCCTACTACATTGCGTTCCTTTCCCACTCCCAGGTCCCCCTA[T/C]ATGCAGGATCTTGATTAGTCGTGTGAACAACTGAAATTTGAGCGCCACAA
+    def self.parse(reg_str)
+      reg_str.chomp!
+      snp = NoSNPSequence.new
+      arr = reg_str.split(",")
+      if arr.size == 3
+        snp.gene, snp.chromosome, snp.sequence_original = reg_str.split(",")
+      elsif arr.size == 2
+       snp.gene, snp.sequence_original = arr
+     else
+       throw SNPSequenceException.new "Need two or three fields to parse, and got #{arr.size} in #{reg_str}"
+      end
+      #snp.position = snp.position.to_i
+      #snp.original.upcase!
+      #snp.snp.upcase!
+      snp.chromosome. strip!
+      snp.snp_in = snp.chromosome
+      snp.parse_sequence_snp
+      snp.exon_list = Hash.new()
+      snp
+    end
+    def parse_snp
+    end
+    def parse_sequence_snp
+       @position = (sequence_original.length / 2).to_i
+       @original = sequence_original[@position]
+       @snp = @original
+    end
+    def to_s
+      "#{gene}:#{chromosome}"
+    end
+    def sequences_to_align
+      @sequences_to_align = surrounding_exon_sequences unless @sequences_to_align
+      @sequences_to_align
+    end
+     def mask_aligned_chromosomal_snp(chromosome)
+      return nil if  aligned_sequences.values.size == 0
+      names = exon_sequences.keys
+      masked_snps = aligned_sequences[chromosome].downcase if aligned_sequences[chromosome]
+      masked_snps = "-" * aligned_sequences.values[0].size  unless aligned_sequences[chromosome]
+      #TODO: Make this chromosome specific, even when we have more than one alignment going to the region we want.
+      i = 0
+      while i < masked_snps.size
+        different = 0
+        cov = 0
+        from_group = 0
+        names.each do | chr |
+          if aligned_sequences[chr] and aligned_sequences[chr][i]  != "-"
+            cov += 1
+            from_group += 1 if chr[0] == chromosome_group
+            #puts "Comparing #{chromosome_group} and #{chr[0]} as chromosomes"
+            if chr != chromosome
+              $stderr.puts "WARN: No base for #{masked_snps} : ##{i}" unless masked_snps[i].upcase
+              $stderr.puts "WARN: No base for #{aligned_sequences[chr]} : ##{i}" unless masked_snps[i].upcase
+              different += 1  if masked_snps[i].upcase != aligned_sequences[chr][i].upcase
+            end
+          end
+        end
+        masked_snps[i] = "-" if different == 0
+        masked_snps[i] = "-" if cov == 1
+        masked_snps[i] = "*" if cov == 0
+        expected_snps = names.size - 1
+       #puts "Diferences: #{different} to expected: #{ expected_snps } [#{i}] Genome count (#{from_group} == #{genomes_count})"
+        masked_snps[i] = masked_snps[i].upcase if different == expected_snps and from_group == genomes_count
+        i += 1
+      end
+      masked_snps
+    end
+    def count_deletions_around(position,target_chromosome)
+      first_aligned = aligned_sequences[target_chromosome]
+      pos_start = position - flanking_size
+      pos_end = position + flanking_size
+      pos_start = 0 if pos_start < 0
+      pos_end = first_aligned.size - 1 if pos_end >= first_aligned.size
+      count = 0
+      for i in pos_start..pos_end
+        has_del = false
+        aligned_sequences.each_pair do |name, val|
+          has_del = true if val[i] == '-'
+          print "#{val[i]}\t"
+        end
+        count += 1 if has_del
+        print "#{count}\n"
+      end
+      return count
+    end
+    def primer_region(target_chromosome, parental_chr )
+      chromosome_seq = aligned_sequences[target_chromosome]
+      #chromosome_seq = "-" * parental.size unless chromosome_seq
+      if aligned_sequences.size == 0
+        #puts aligned_sequences.inspect
+        #puts surrounding_exon_sequences.inspect
+        #puts self.inspect
+        chromosome_seq = surrounding_exon_sequences[target_chromosome]
+      end
+      chromosome_seq = chromosome_seq.downcase
+      mask = mask_aligned_chromosomal_snp(target_chromosome)
+      pr = PrimerRegion.new
+      pr.homoeologous = false
+      position_in_region = 0
+      parental = chromosome_seq.clone
+      (0..chromosome_seq.size-1).each do |i|
+        if chromosome_seq[i] != '-'
+          case
+          when mask[i] == '-'
+            #When the mask doesnt detect a SNP, so we take the parental
+            parental[i] = chromosome_seq[i] unless Bio::NucleicAcid::is_unambiguous(parental[i])
+          when /[[:upper:]]/.match(mask[i])
+            #This is a good candidate for marking a SNP
+            #We validate that the consensus from the sam file accepts the variation from the chromosomal sequence
+            if parental[i] == '-'
+              parental[i] = mask[i]
+              pr.crhomosome_specific_intron << position_in_region
+            elsif Bio::NucleicAcid.is_valid(parental[i], mask[i])
+              parental[i] = mask[i]
+              pr.chromosome_specific << position_in_region if count_deletions_around(1,target_chromosome) < 3
+              pr.chromosome_specific_in_mask << i
+            end
+          when /[[:lower:]]/.match(mask[i])
+            #this is not that good candidate, but sitll gives specificity
+            if parental[i] == '-'
+              parental[i] = mask[i]
+              pr.almost_crhomosome_specific_intron << position_in_region
+            elsif Bio::NucleicAcid.is_valid(parental[i], mask[i])
+              parental[i] = mask[i].upcase
+              pr.almost_chromosome_specific << position_in_region
+              pr.almost_chromosome_specific_in_mask << i
+            end
+          end #Case closes
+          pr.position_in_mask_from_template[position_in_region] = i
+          position_in_region += 1
+        end #Closes region with bases
+      end
+      pr.sequence=parental.gsub('-','')
+      pr
+    end
+    def return_primer_3_string_test(opts={})
+      left = opts[:right_pos]
+      right = opts[:right_pos]
+      sequence =  opts[:sequence]
+      orientation = "forward"
+      if opts[:right_pos]
+        orientation = "forward"
+        if left > right
+          left = sequence.size - left - 1
+          right = sequence.size - right - 1
+          sequence = reverse_complement_string(sequence)
+          orientation = "reverse"
+        end
+        if @variation_free_region > 0
+          check_str = sequence[right+1, @variation_free_region]
+          return nil if check_str != check_str.downcase
+        end
+      end
+      str = "SEQUENCE_ID=#{opts[:name]} #{orientation}\n"
+      str << "SEQUENCE_FORCE_LEFT_END=#{left}\n"
+      str << "SEQUENCE_FORCE_RIGHT_END=#{right}\n" if opts[:right_pos]
+      str << "SEQUENCE_TEMPLATE=#{sequence}\n"
+      str << "=\n"
+      #In case that we don't have a right primer, we do both orientations
+      unless opts[:right_pos]
+        sequence =  opts[:sequence]
+        left = sequence.size - left - 1
+        orientation = "reverse"
+        sequence = reverse_complement_string(sequence)
+        str << "SEQUENCE_ID=#{opts[:name]} #{orientation}\n"
+        str << "SEQUENCE_FORCE_LEFT_END=#{left}\n"
+        str << "SEQUENCE_TEMPLATE=#{sequence}\n"
+        str << "=\n"
+      end
+      str
+    end
+    def get_base_in_different_chromosome(position, target_chromosome)
+        aligned_sequences.each_pair do |name, val|
+          next if target_chromosome == name
+          return val[position]
+        end
+    end
+    def primer_3_all_strings(target_chromosome, parental)
+      pr = primer_region(target_chromosome, parental )
+      primer_3_propertes = Array.new
+      seq_original = String.new(pr.sequence)
+      #puts seq_original.size.to_s << "-" << primer_3_min_seq_length.to_s
+      return primer_3_propertes if seq_original.size < primer_3_min_seq_length
+      if pr.homoeologous
+        snp_type = "homoeologous"
+      else
+        snp_type = "non-homoeologous"
+      end
+      pr.chromosome_specific.each do |pos|
+        seq_snp =  String.new(pr.sequence)
+        orgiginal_base = seq_snp[pos]
+        other_chromosome_base = get_base_in_different_chromosome(pos, target_chromosome)
+        args = {
+          :name =>"#{gene} A chromosome_specific exon #{snp_type} #{chromosome}",
+          :left_pos => pos,
+          :sequence=>seq_original
+        }
+        primer_3_propertes << return_primer_3_string(args)
+        args[:name] = "#{gene} B chromosome_specific exon #{snp_type} #{chromosome}"
+        args[:sequence] = seq_snp
+        #TODO: Find base from another chromosome
+        seq_snp[pos] =  other_chromosome_base.upcase
+        primer_3_propertes << return_primer_3_string(args)
+      end
+      primer_3_propertes
+    end
+    def aligned_sequences
+      return @aligned_sequences if @aligned_sequences
+      if sequences_to_align.size == 1
+        @aligned_sequences = sequences_to_align
+        return @aligned_sequences
+      end
+      options = ['--maxiterate', '1000', '--localpair', '--quiet']
+      mafft = Bio::MAFFT.new( "mafft" , options)
+    #  puts "Before MAFT:#{sequences_to_align.inspect}"
+      report = mafft.query_align(sequences_to_align)
+      @aligned_sequences = report.alignment
+   #   puts "MAFFT: #{report.alignment.inspect}"
+      @aligned_sequences
+    end
+  end
+end