RubyGems - miga-base - Versions diffs - 0.7.3.1 → 0.7.8.0 - Mend

miga-base 0.7.3.1 → 0.7.8.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (120) hide show

checksums.yaml +4 -4
data/lib/miga/cli.rb +10 -8
data/lib/miga/cli/action.rb +2 -3
data/lib/miga/cli/action/about.rb +5 -6
data/lib/miga/cli/action/add.rb +18 -12
data/lib/miga/cli/action/add_result.rb +2 -3
data/lib/miga/cli/action/archive.rb +1 -2
data/lib/miga/cli/action/classify_wf.rb +8 -6
data/lib/miga/cli/action/console.rb +0 -1
data/lib/miga/cli/action/daemon.rb +7 -7
data/lib/miga/cli/action/date.rb +0 -1
data/lib/miga/cli/action/derep_wf.rb +5 -4
data/lib/miga/cli/action/doctor.rb +71 -82
data/lib/miga/cli/action/doctor/base.rb +102 -0
data/lib/miga/cli/action/edit.rb +14 -2
data/lib/miga/cli/action/files.rb +8 -8
data/lib/miga/cli/action/find.rb +5 -6
data/lib/miga/cli/action/generic.rb +7 -7
data/lib/miga/cli/action/get.rb +20 -17
data/lib/miga/cli/action/get_db.rb +8 -2
data/lib/miga/cli/action/index_wf.rb +1 -1
data/lib/miga/cli/action/init.rb +53 -41
data/lib/miga/cli/action/init/daemon_helper.rb +65 -43
data/lib/miga/cli/action/lair.rb +7 -7
data/lib/miga/cli/action/ln.rb +6 -6
data/lib/miga/cli/action/ls.rb +1 -2
data/lib/miga/cli/action/ncbi_get.rb +11 -3
data/lib/miga/cli/action/new.rb +4 -4
data/lib/miga/cli/action/next_step.rb +0 -1
data/lib/miga/cli/action/preproc_wf.rb +3 -3
data/lib/miga/cli/action/quality_wf.rb +1 -1
data/lib/miga/cli/action/rm.rb +2 -3
data/lib/miga/cli/action/run.rb +8 -8
data/lib/miga/cli/action/stats.rb +8 -4
data/lib/miga/cli/action/summary.rb +7 -6
data/lib/miga/cli/action/tax_dist.rb +8 -4
data/lib/miga/cli/action/tax_index.rb +3 -4
data/lib/miga/cli/action/tax_set.rb +7 -6
data/lib/miga/cli/action/tax_test.rb +6 -5
data/lib/miga/cli/action/wf.rb +25 -19
data/lib/miga/cli/base.rb +34 -32
data/lib/miga/cli/objects_helper.rb +27 -18
data/lib/miga/cli/opt_helper.rb +3 -2
data/lib/miga/common.rb +2 -5
data/lib/miga/common/base.rb +15 -16
data/lib/miga/common/format.rb +8 -5
data/lib/miga/common/hooks.rb +1 -4
data/lib/miga/common/path.rb +4 -9
data/lib/miga/common/with_daemon.rb +5 -2
data/lib/miga/common/with_daemon_class.rb +1 -1
data/lib/miga/common/with_result.rb +2 -1
data/lib/miga/daemon.rb +93 -44
data/lib/miga/daemon/base.rb +30 -11
data/lib/miga/dataset.rb +47 -37
data/lib/miga/dataset/base.rb +52 -37
data/lib/miga/dataset/hooks.rb +3 -4
data/lib/miga/dataset/result.rb +17 -1
data/lib/miga/dataset/status.rb +6 -5
data/lib/miga/json.rb +5 -7
data/lib/miga/lair.rb +4 -0
data/lib/miga/metadata.rb +4 -3
data/lib/miga/project.rb +29 -20
data/lib/miga/project/base.rb +52 -37
data/lib/miga/project/dataset.rb +33 -26
data/lib/miga/project/hooks.rb +0 -3
data/lib/miga/project/result.rb +14 -5
data/lib/miga/remote_dataset.rb +85 -72
data/lib/miga/remote_dataset/base.rb +11 -13
data/lib/miga/remote_dataset/download.rb +34 -12
data/lib/miga/result.rb +48 -53
data/lib/miga/result/base.rb +0 -2
data/lib/miga/result/dates.rb +1 -3
data/lib/miga/result/source.rb +15 -16
data/lib/miga/result/stats.rb +37 -27
data/lib/miga/tax_dist.rb +6 -3
data/lib/miga/tax_index.rb +17 -17
data/lib/miga/taxonomy.rb +6 -1
data/lib/miga/taxonomy/base.rb +19 -15
data/lib/miga/version.rb +19 -16
data/scripts/project_stats.bash +3 -0
data/scripts/stats.bash +1 -1
data/test/common_test.rb +3 -11
data/test/daemon_helper.rb +38 -0
data/test/daemon_test.rb +91 -99
data/test/dataset_test.rb +63 -59
data/test/format_test.rb +3 -11
data/test/hook_test.rb +50 -55
data/test/json_test.rb +7 -8
data/test/lair_test.rb +22 -28
data/test/metadata_test.rb +6 -14
data/test/project_test.rb +33 -40
data/test/remote_dataset_test.rb +26 -32
data/test/result_stats_test.rb +17 -27
data/test/result_test.rb +41 -34
data/test/tax_dist_test.rb +2 -4
data/test/tax_index_test.rb +4 -10
data/test/taxonomy_test.rb +7 -9
data/test/test_helper.rb +42 -1
data/test/with_daemon_test.rb +14 -22
data/utils/adapters.fa +13 -0
data/utils/cleanup-databases.rb +6 -5
data/utils/distance/base.rb +0 -1
data/utils/distance/commands.rb +19 -12
data/utils/distance/database.rb +24 -21
data/utils/distance/pipeline.rb +23 -10
data/utils/distance/runner.rb +20 -16
data/utils/distance/temporal.rb +1 -3
data/utils/distances.rb +1 -1
data/utils/domain-ess-genes.rb +7 -7
data/utils/index_metadata.rb +5 -4
data/utils/mytaxa_scan.rb +18 -16
data/utils/representatives.rb +5 -4
data/utils/requirements.txt +1 -1
data/utils/subclade/base.rb +0 -1
data/utils/subclade/pipeline.rb +7 -6
data/utils/subclade/runner.rb +9 -9
data/utils/subclade/temporal.rb +0 -2
data/utils/subclades-compile.rb +39 -37
data/utils/subclades.rb +1 -1
metadata +6 -4

data/lib/miga/result/base.rb CHANGED

@@ -1,4 +1,3 @@
 class MiGA::Result < MiGA::MiGA
   class << self
     def RESULT_DIRS
@@ -10,4 +9,3 @@ end
 module MiGA::Result::Base
 end

data/lib/miga/result/dates.rb CHANGED

@@ -1,4 +1,3 @@
 require 'miga/result/base'
 ##
@@ -29,7 +28,7 @@ module MiGA::Result::Dates
   end
   private
   ##
   # Internal function to detect start and end dates
   def date_at(event)
@@ -42,4 +41,3 @@ module MiGA::Result::Dates
     Time.parse(date) unless date.nil?
   end
 end

data/lib/miga/result/source.rb CHANGED

@@ -1,30 +1,30 @@
 require 'miga/result/base'
 ##
 # Helper module including functions to access the source of results
 module MiGA::Result::Source
   ##
   # Load and return the source (parent object) of a result
   def source
-    @source ||= if MiGA::Project.RESULT_DIRS[key]
-      project
-    else
-      project.dataset(File.basename(path, '.json'))
-    end
+    @source ||=
+      if MiGA::Project.RESULT_DIRS[key]
+        project
+      else
+        project.dataset(File.basename(path, '.json'))
+      end
   end
   ##
   # Detect the result key assigned to this result
   def key
-    @key ||= if relative_dir == 'data/90.stats' && file_path(:metadata_index)
-      :project_stats
-    else
-      MiGA::Result.RESULT_DIRS.find do |k, v|
-        "data/#{v}" == relative_dir
-      end.first
-    end
+    @key ||=
+      if relative_dir == 'data/90.stats' && file_path(:metadata_index)
+        :project_stats
+      else
+        MiGA::Result.RESULT_DIRS.find do |k, v|
+          "data/#{v}" == relative_dir
+        end.first
+      end
   end
   ##
@@ -51,7 +51,6 @@ module MiGA::Result::Source
   # so the path referencing is identical to that of +self.path+ whenever they
   # need to be compared.
   def project_path
-    path[ 0 .. path.rindex('/data/') - 1 ]
+    path[0..path.rindex('/data/') - 1]
   end
 end

data/lib/miga/result/stats.rb CHANGED

@@ -1,11 +1,9 @@
 require 'zlib'
 require 'miga/result/base'
 ##
 # Helper module including stats-specific functions for results
 module MiGA::Result::Stats
   ##
   # (Re-)calculate and save the statistics for the result
   def compute_stats
@@ -23,46 +21,55 @@ module MiGA::Result::Stats
   def compute_stats_raw_reads
     stats = {}
     if self[:files][:pair1].nil?
-      s = MiGA::MiGA.seqs_length(file_path(:single), :fastq, gc: true)
+      s = MiGA::MiGA.seqs_length(file_path(:single), :fastq, gc: true, x: true)
       stats = {
         reads: s[:n],
         length_average: [s[:avg], 'bp'],
         length_standard_deviation: [s[:sd], 'bp'],
-        g_c_content: [s[:gc], '%']}
+        g_c_content: [s[:gc], '%'],
+        x_content: [s[:x], '%']
+      }
     else
-      s1 = MiGA::MiGA.seqs_length(file_path(:pair1), :fastq, gc: true)
-      s2 = MiGA::MiGA.seqs_length(file_path(:pair2), :fastq, gc: true)
+      s1 = MiGA::MiGA.seqs_length(file_path(:pair1), :fastq, gc: true, x: true)
+      s2 = MiGA::MiGA.seqs_length(file_path(:pair2), :fastq, gc: true, x: true)
       stats = {
         read_pairs: s1[:n],
         forward_length_average: [s1[:avg], 'bp'],
         forward_length_standard_deviation: [s1[:sd], 'bp'],
         forward_g_c_content: [s1[:gc], '%'],
+        forward_x_content: [s1[:x], '%'],
         reverse_length_average: [s2[:avg], 'bp'],
         reverse_length_standard_deviation: [s2[:sd], 'bp'],
-        reverse_g_c_content: [s2[:gc], '%']}
+        reverse_g_c_content: [s2[:gc], '%'],
+        reverse_x_content: [s2[:x], '%']
+      }
     end
     stats
   end
   def compute_stats_trimmed_fasta
     f = self[:files][:coupled].nil? ? file_path(:single) : file_path(:coupled)
-    s = MiGA::MiGA.seqs_length(f, :fasta, gc: true)
+    s = MiGA::MiGA.seqs_length(f, :fasta, gc: true, x: true)
     {
       reads: s[:n],
       length_average: [s[:avg], 'bp'],
       length_standard_deviation: [s[:sd], 'bp'],
-      g_c_content: [s[:gc], '%']
+      g_c_content: [s[:gc], '%'],
+      x_content: [s[:x], '%']
     }
   end
   def compute_stats_assembly
-    s = MiGA::MiGA.seqs_length(file_path(:largecontigs), :fasta,
-      n50: true, gc: true)
+    s = MiGA::MiGA.seqs_length(
+      file_path(:largecontigs), :fasta, n50: true, gc: true, x: true
+    )
     {
       contigs: s[:n],
       n50: [s[:n50], 'bp'],
       total_length: [s[:tot], 'bp'],
-      g_c_content: [s[:gc], '%']
+      longest_sequence: [s[:max], 'bp'],
+      g_c_content: [s[:gc], '%'],
+      x_content: [s[:x], '%']
     }
   end
@@ -70,7 +77,8 @@ module MiGA::Result::Stats
     s = MiGA::MiGA.seqs_length(file_path(:proteins), :fasta)
     stats = {
       predicted_proteins: s[:n],
-      average_length: [s[:avg], 'aa']}
+      average_length: [s[:avg], 'aa']
+    }
     asm = source.result(:assembly)
     unless asm.nil? or asm[:stats][:total_length].nil?
       stats[:coding_density] =
@@ -92,7 +100,7 @@ module MiGA::Result::Stats
   def compute_stats_essential_genes
     stats = {}
     if source.is_multi?
-      stats = {median_copies: 0, mean_copies: 0}
+      stats = { median_copies: 0, mean_copies: 0 }
       File.open(file_path(:report), 'r') do |fh|
         fh.each_line do |ln|
           if /^! (Mean|Median) number of copies per model: (.*)\./.match(ln)
@@ -103,8 +111,8 @@ module MiGA::Result::Stats
     else
       # Fix estimate by domain
       if !(tax = source.metadata[:tax]).nil? &&
-            %w[Archaea Bacteria].include?(tax[:d]) &&
-            file_path(:raw_report).nil?
+         %w[Archaea Bacteria].include?(tax[:d]) &&
+         file_path(:raw_report).nil?
         scr = "#{MiGA::MiGA.root_path}/utils/domain-ess-genes.rb"
         rep = file_path(:report)
         rc_p = File.expand_path('.miga_rc', ENV['HOME'])
@@ -115,7 +123,7 @@ module MiGA::Result::Stats
         add_file(:report, "#{source.name}.ess/log.domain")
       end
       # Extract/compute quality values
-      stats = {completeness: [0.0, '%'], contamination: [0.0, '%']}
+      stats = { completeness: [0.0, '%'], contamination: [0.0, '%'] }
       File.open(file_path(:report), 'r') do |fh|
         fh.each_line do |ln|
           if /^! (Completeness|Contamination): (.*)%/.match(ln)
@@ -124,22 +132,24 @@ module MiGA::Result::Stats
         end
       end
       stats[:quality] = stats[:completeness][0] - stats[:contamination][0] * 5
-      source.metadata[:quality] = case stats[:quality]
-        when 80..100 ; :excellent
-        when 50..80  ; :high
-        when 20..50  ; :intermediate
-        else         ; :low
-      end
+      source.metadata[:quality] =
+        case stats[:quality]
+        when 80..100; :excellent
+        when 50..80; :high
+        when 20..50; :intermediate
+        else; :low
+        end
       source.save
     end
     stats
   end
   def compute_stats_ssu
-    stats = {ssu: 0, complete_ssu: 0}
+    stats = { ssu: 0, complete_ssu: 0 }
     Zlib::GzipReader.open(file_path(:gff)) do |fh|
       fh.each_line do |ln|
         next if ln =~ /^#/
         rl = ln.chomp.split("\t")
         len = (rl[4].to_i - rl[3].to_i).abs + 1
         stats[:max_length] = [stats[:max_length] || 0, len].max
@@ -158,9 +168,9 @@ module MiGA::Result::Stats
       stats[:aai] = [$2.to_f, '%']
       3.times { fh.gets }
       fh.each_line do |ln|
-        row = ln.chomp.gsub(/^\s*/,'').split(/\s+/)
-        break if row.empty?
-        stats[:"#{row[0]}_pvalue"] = row[2].to_f unless row[0] == 'root'
+        next unless ln.chomp =~ /^\s*(\S+)\s+(.+)\s+([0-9\.e-]+)\s+\**\s*$/
+        stats[:"#{$1}_pvalue"] = $3.to_f unless $1 == 'root'
       end
     end
     stats

data/lib/miga/tax_dist.rb CHANGED

@@ -10,7 +10,6 @@ require 'zlib'
 module MiGA::TaxDist
   # Class-level
   class << self
     ##
     # Absolute path to the :intax or :novel data file (determined by +test+) for
     # AAI, determined for options +opts+. Supported options:
@@ -20,8 +19,10 @@ module MiGA::TaxDist
       engine = opts[:engine].to_s.downcase.to_sym
       test = test.to_s.downcase.to_sym
       return nil unless %i[intax novel].include? test
       engine = :blast if %i[blast+ blat].include? engine
       return nil unless %i[blast diamond].include? engine
       File.expand_path("../_data/aai-#{test}-#{engine}.tsv.gz", __FILE__)
     end
@@ -43,6 +44,7 @@ module MiGA::TaxDist
             keys.each do |i|
               v = row.shift
               next if v == 'NA' # <- missing data
               rank = i.zero? ? :root : MiGA::Taxonomy.KNOWN_RANKS[i]
               vals[rank] = v.to_f
             end
@@ -63,8 +65,8 @@ module MiGA::TaxDist
     # with cannonical rank (as in MiGA::Taxonomy) and estimated p-value.
     def aai_taxtest(aai, test, opts = {})
       meaning = {
-        most_likely:   [0.00, 0.01],
-        probably:      [0.01, 0.10],
+        most_likely: [0.00, 0.01],
+        probably: [0.01, 0.10],
         possibly_even: [0.10, 0.50]
       }
       pvalues = aai_pvalues(aai, test, opts)
@@ -73,6 +75,7 @@ module MiGA::TaxDist
         lwr, upr = thresholds
         min = pvalues.values.select { |v| v < upr }.max
         return out if min.nil?
         if min >= lwr
           v = pvalues.select { |_, vj| vj == min }
           out[phrase] = (test == :intax ? v.reverse_each : v).first

data/lib/miga/tax_index.rb CHANGED

@@ -6,7 +6,6 @@ require 'miga/taxonomy'
 ##
 # Indexing methods based on taxonomy.
 class MiGA::TaxIndex < MiGA::MiGA
   # Instance-level
   ##
@@ -26,9 +25,11 @@ class MiGA::TaxIndex < MiGA::MiGA
   # Index +dataset+, a MiGA::Dataset object.
   def <<(dataset)
     return nil if dataset.metadata[:tax].nil?
     taxon = @root
     MiGA::Taxonomy.KNOWN_RANKS.each do |rank|
       next if rank == :ns
       taxon = taxon.add_child(rank, dataset.metadata[:tax][rank])
     end
     taxon.add_dataset dataset
@@ -43,7 +44,7 @@ class MiGA::TaxIndex < MiGA::MiGA
     select = []
     loop do
       new_taxa = []
-      taxa.map{ |tx| tx.children }.flatten.each do |ch|
+      taxa.map { |tx| tx.children }.flatten.each do |ch|
         if ch.rank == rank
           select << ch
         elsif not ch.children.empty?
@@ -59,7 +60,8 @@ class MiGA::TaxIndex < MiGA::MiGA
   # Generate JSON String for the index.
   def to_json
     MiGA::Json.generate(
-      { root: root.to_hash, datasets: datasets.map{ |d| d.name } })
+      { root: root.to_hash, datasets: datasets.map { |d| d.name } }
+    )
   end
   ##
@@ -72,7 +74,6 @@ end
 ##
 # Helper class for MiGA::TaxIndex.
 class MiGA::TaxIndexTaxon < MiGA::MiGA
   # Instance-level
   ##
@@ -96,14 +97,14 @@ class MiGA::TaxIndexTaxon < MiGA::MiGA
   ##
   # String representation of the taxon.
-  def tax_str ; "#{rank}:#{name.nil? ? '?' : name}" ; end
+  def tax_str; "#{rank}:#{name.nil? ? '?' : name}"; end
   ##
   # Add child at +rank+ with +name+.
   def add_child(rank, name)
     rank = rank.to_sym
     name = name.miga_name unless name.nil?
-    child = children.find{ |it| it.rank==rank and it.name==name }
+    child = children.find { |it| it.rank == rank and it.name == name }
     if child.nil?
       child = MiGA::TaxIndexTaxon.new(rank, name)
       @children << child
@@ -113,45 +114,44 @@ class MiGA::TaxIndexTaxon < MiGA::MiGA
   ##
   # Add dataset at the current taxon (not children).
-  def add_dataset(dataset) @datasets << dataset ; end
+  def add_dataset(dataset) @datasets << dataset; end
   ##
   # Get the number of datasets in the taxon (including children).
   def datasets_count
-    children.map{ |it| it.datasets_count }.reduce(datasets.size, :+)
+    children.map { |it| it.datasets_count }.reduce(datasets.size, :+)
   end
   ##
   # Get all the datasets in the taxon (including children).
   def all_datasets
-    children.map{ |it| it.datasets }.reduce(datasets, :+)
+    children.map { |it| it.datasets }.reduce(datasets, :+)
   end
   ##
   # JSON String of the taxon.
   def to_json(*a)
-    { str:tax_str, datasets:datasets.map{|d| d.name},
-      children:children }.to_json(a)
+    { str: tax_str, datasets: datasets.map { |d| d.name },
+      children: children }.to_json(a)
   end
   ##
   # Hash representation of the taxon.
   def to_hash
-    { str:tax_str, datasets:datasets.map{|d| d.name},
-      children:children.map{ |it| it.to_hash } }
+    { str: tax_str, datasets: datasets.map { |d| d.name },
+      children: children.map { |it| it.to_hash } }
   end
   ##
   # Tabular String of the taxon.
-  def to_tab(unknown, indent=0)
+  def to_tab(unknown, indent = 0)
     o = ''
     if unknown or not datasets.empty? or not name.nil?
       o = "#{' ' * indent}#{tax_str}: #{datasets_count}\n"
     end
     indent += 2
-    datasets.each{ |ds| o << "#{' ' * indent}# #{ds.name}\n" }
-    children.each{ |it| o << it.to_tab(unknown, indent) }
+    datasets.each { |ds| o << "#{' ' * indent}# #{ds.name}\n" }
+    children.each { |it| o << it.to_tab(unknown, indent) }
     o
   end
 end

data/lib/miga/taxonomy.rb CHANGED

@@ -45,6 +45,7 @@ class MiGA::Taxonomy < MiGA::MiGA
     when Hash
       value.each do |r, n|
         next if n.nil? || n == ''
         @ranks[self.class.normalize_rank(r)] = n.tr('_', ' ')
       end
     when Array
@@ -87,6 +88,7 @@ class MiGA::Taxonomy < MiGA::MiGA
   # the alternative (or master) is replaced instead if +replace+ is true.
   def add_alternative(tax, replace = true)
     raise 'Unsupported taxonomy class.' unless tax.is_a? MiGA::Taxonomy
     alt_ns = alternative(tax.namespace)
     if !replace || tax.namespace.nil? || alt_ns.nil?
       @alt << tax
@@ -96,7 +98,7 @@ class MiGA::Taxonomy < MiGA::MiGA
   end
   ##
-  # Removes (and returns) all alternative taxonomies.
+  # Removes (and returns) all alternative taxonomies.
   def delete_alternative
     alt = @alt.dup
     @alt = []
@@ -109,6 +111,7 @@ class MiGA::Taxonomy < MiGA::MiGA
   def in?(taxon)
     r = taxon.ranks.keys.first
     return false if self[r].nil?
     self[r].casecmp(taxon[r]).zero?
   end
@@ -120,6 +123,7 @@ class MiGA::Taxonomy < MiGA::MiGA
     @@KNOWN_RANKS.map do |r|
       next if
         (r == :ns && !with_namespace) || (ranks[r].nil? && !force_ranks)
       [r, ranks[r]]
     end.compact
   end
@@ -179,6 +183,7 @@ class MiGA::Taxonomy < MiGA::MiGA
     unless ranks.size == str.size
       raise "Unequal number of ranks and names: #{ranks} => #{str}"
     end
     str.each_with_index { |i, k| self << "#{ranks[k]}:#{i}" }
   end
 end