RubyGems - miga-base - Versions diffs - 0.7.26.1 → 1.0.2.0 - Mend

miga-base 0.7.26.1 → 1.0.2.0

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (111) hide show

checksums.yaml +4 -4
data/lib/miga/_data/aai-intax.blast.tsv.gz +0 -0
data/lib/miga/_data/aai-intax.diamond.tsv.gz +0 -0
data/lib/miga/_data/aai-novel.blast.tsv.gz +0 -0
data/lib/miga/_data/aai-novel.diamond.tsv.gz +0 -0
data/lib/miga/cli/action/classify_wf.rb +2 -2
data/lib/miga/cli/action/derep_wf.rb +1 -1
data/lib/miga/cli/action/doctor.rb +57 -14
data/lib/miga/cli/action/doctor/base.rb +47 -23
data/lib/miga/cli/action/init.rb +11 -7
data/lib/miga/cli/action/init/files_helper.rb +1 -0
data/lib/miga/cli/action/ncbi_get.rb +3 -3
data/lib/miga/cli/action/tax_dist.rb +2 -2
data/lib/miga/cli/action/wf.rb +5 -4
data/lib/miga/common.rb +1 -0
data/lib/miga/daemon.rb +11 -4
data/lib/miga/dataset/result.rb +10 -6
data/lib/miga/json.rb +5 -4
data/lib/miga/metadata.rb +5 -1
data/lib/miga/parallel.rb +36 -0
data/lib/miga/project.rb +8 -8
data/lib/miga/project/base.rb +4 -4
data/lib/miga/project/result.rb +2 -2
data/lib/miga/sqlite.rb +10 -2
data/lib/miga/version.rb +23 -9
data/scripts/aai_distances.bash +16 -18
data/scripts/ani_distances.bash +16 -17
data/scripts/assembly.bash +31 -16
data/scripts/haai_distances.bash +3 -27
data/scripts/miga.bash +6 -4
data/scripts/p.bash +1 -1
data/scripts/read_quality.bash +9 -18
data/scripts/trimmed_fasta.bash +14 -30
data/scripts/trimmed_reads.bash +36 -36
data/test/parallel_test.rb +31 -0
data/test/project_test.rb +2 -1
data/test/remote_dataset_test.rb +1 -1
data/utils/distance/commands.rb +1 -0
data/utils/distance/database.rb +0 -1
data/utils/distance/runner.rb +2 -4
data/utils/enveomics/Manifest/Tasks/fasta.json +39 -3
data/utils/enveomics/Manifest/Tasks/fastq.json +50 -2
data/utils/enveomics/Manifest/Tasks/mapping.json +70 -0
data/utils/enveomics/Manifest/Tasks/other.json +77 -0
data/utils/enveomics/Manifest/Tasks/sequence-identity.json +138 -1
data/utils/enveomics/Manifest/categories.json +13 -4
data/utils/enveomics/Scripts/Aln.cat.rb +206 -148
data/utils/enveomics/Scripts/FastA.N50.pl +33 -29
data/utils/enveomics/Scripts/FastA.fragment.rb +69 -61
data/utils/enveomics/Scripts/FastA.sample.rb +61 -46
data/utils/enveomics/Scripts/FastA.toFastQ.rb +69 -0
data/utils/enveomics/Scripts/FastQ.maskQual.rb +89 -0
data/utils/enveomics/Scripts/FastQ.tag.rb +59 -52
data/utils/enveomics/Scripts/SRA.download.bash +6 -8
data/utils/enveomics/Scripts/Table.prefScore.R +60 -0
data/utils/enveomics/Scripts/aai.rb +3 -2
data/utils/enveomics/Scripts/anir.rb +137 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/anir.rb +293 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/bm_set.rb +175 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/enveomics.rb +17 -17
data/utils/enveomics/Scripts/lib/enveomics_rb/errors.rb +17 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/gmm_em.rb +30 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/match.rb +63 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/rbm.rb +49 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stats.rb +3 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stats/rand.rb +31 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stats/sample.rb +152 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/utils.rb +73 -0
data/utils/enveomics/Scripts/rbm-legacy.rb +172 -0
data/utils/enveomics/Scripts/rbm.rb +87 -133
data/utils/enveomics/Scripts/sam.filter.rb +148 -0
data/utils/enveomics/enveomics.R/DESCRIPTION +2 -2
data/utils/enveomics/enveomics.R/NAMESPACE +1 -1
data/utils/enveomics/enveomics.R/R/prefscore.R +79 -0
data/utils/enveomics/enveomics.R/R/utils.R +30 -0
data/utils/enveomics/enveomics.R/README.md +1 -0
data/utils/enveomics/enveomics.R/man/cash-enve.GrowthCurve-method.Rd +0 -1
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2-method.Rd +0 -1
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2.Peak-method.Rd +0 -1
data/utils/enveomics/enveomics.R/man/enve.__tribs.Rd +10 -2
data/utils/enveomics/enveomics.R/man/enve.barplot.Rd +16 -4
data/utils/enveomics/enveomics.R/man/enve.cliopts.Rd +13 -3
data/utils/enveomics/enveomics.R/man/enve.df2dist.Rd +8 -2
data/utils/enveomics/enveomics.R/man/enve.df2dist.group.Rd +8 -2
data/utils/enveomics/enveomics.R/man/enve.df2dist.list.Rd +9 -2
data/utils/enveomics/enveomics.R/man/enve.growthcurve.Rd +13 -5
data/utils/enveomics/enveomics.R/man/enve.prefscore.Rd +50 -0
data/utils/enveomics/enveomics.R/man/enve.prune.dist.Rd +9 -2
data/utils/enveomics/enveomics.R/man/enve.recplot.Rd +23 -6
data/utils/enveomics/enveomics.R/man/enve.recplot2.Rd +13 -4
data/utils/enveomics/enveomics.R/man/enve.recplot2.compareIdentities.Rd +8 -2
data/utils/enveomics/enveomics.R/man/enve.recplot2.extractWindows.Rd +7 -2
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__mow_one.Rd +14 -3
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.em.Rd +10 -2
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.emauto.Rd +8 -2
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.mower.Rd +17 -9
data/utils/enveomics/enveomics.R/man/enve.recplot2.windowDepthThreshold.Rd +6 -2
data/utils/enveomics/enveomics.R/man/enve.selvector.Rd +23 -0
data/utils/enveomics/enveomics.R/man/enve.tribs.Rd +14 -5
data/utils/enveomics/enveomics.R/man/plot.enve.GrowthCurve.Rd +19 -4
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBS.Rd +11 -3
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBStest.Rd +11 -4
data/utils/enveomics/enveomics.R/man/plot.enve.recplot2.Rd +26 -12
data/utils/multitrim/Multitrim How-To.pdf +0 -0
data/utils/multitrim/README.md +67 -0
data/utils/multitrim/multitrim.py +1555 -0
data/utils/multitrim/multitrim.yml +13 -0
data/utils/requirements.txt +4 -3
data/utils/subclade/pipeline.rb +2 -2
metadata +35 -7
data/utils/enveomics/Scripts/lib/enveomics_rb/stat.rb +0 -30

data/scripts/trimmed_fasta.bash CHANGED Viewed

@@ -11,43 +11,27 @@ b=$DATASET
 # Initialize
 miga date > "$DATASET.start"
-# Gunzip (if necessary)
-for sis in 1 2 ; do
-  for ext in clipped clipped.single ; do
-    [[ -e "../02.trimmed_reads/$b.$sis.${ext}.fastq.gz" \
-      && ! -e "../02.trimmed_reads/$b.$sis.${ext}.fastq" ]] \
-        && gzip -d "../02.trimmed_reads/$b.$sis.${ext}.fastq.gz"
-  done
+# FastQ -> FastA
+for s in 1 2 ; do
+  in="../02.trimmed_reads/${b}.${s}.clipped.fastq.gz"
+  [[ -s "$in" ]] \
+    && FastQ.maskQual.rb -i "$in" -o "${b}.1.fasta" --fasta --qual 18
 done
-miga add_result -P "$PROJECT" -D "$DATASET" -r trimmed_reads -f
-# FastQ -> FastA
-FQ2A="$MIGA/utils/enveomics/Scripts/FastQ.toFastA.awk"
-awk -f "$FQ2A" < "../02.trimmed_reads/$b.1.clipped.fastq" > "$b.1.fasta"
-if [[ -e "../02.trimmed_reads/$b.2.clipped.fastq" ]] ; then
-  awk -f "$FQ2A" < "../02.trimmed_reads/$b.2.clipped.fastq" > "$b.2.fasta"
-  FastA.interpose.pl "$b.CoupledReads.fa" "$b".[12].fasta
-  gzip -9 -f "$b.2.fasta"
-  gzip -9 -f "$b.1.fasta"
-  awk -f "$FQ2A" < "../02.trimmed_reads/$b".[12].clipped.single.fastq \
-    > "$b.SingleReads.fa"
-  gzip -9 -f "$b.SingleReads.fa"
+# Interpose
+if [[ -e "${b}.2.fasta" ]] ; then
+  FastA.interpose.pl "${b}.CoupledReads.fa" "$b".[12].fasta
 else
-  mv "$b.1.fasta" "$b.SingleReads.fa"
+  mv "${b}.1.fasta" "${b}.SingleReads.fa"
 fi
-# Compress input at 01.raw_reads and 02.trimmed_reads
-for sis in 1 2 ; do
-  [[ -e "../01.raw_reads/$b.$sis.fastq" ]] \
-    && gzip -9 -f "../01.raw_reads/$b.$sis.fastq"
-  [[ -e "../02.trimmed_reads/$b.$sis.clipped.fastq" ]] \
-    && gzip -9 -f "../02.trimmed_reads/$b.$sis.clipped.fastq"
-  [[ -e "../02.trimmed_reads/$b.$sis.clipped.single.fastq" ]] \
-    && gzip -9 -f "../02.trimmed_reads/$b.$sis.clipped.single.fastq"
+# Gzip
+for x in 1.fasta 2.fasta SingleReads.fa CoupledReads.fa ; do
+  in="${b}.${x}"
+  [[ -e "$in" ]] && gzip -9f "$in"
 done
-miga add_result -P "$PROJECT" -D "$DATASET" -r raw_reads -f
-miga add_result -P "$PROJECT" -D "$DATASET" -r trimmed_reads -f
 # Finalize
 miga date > "$DATASET.done"
 miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT" -f

data/scripts/trimmed_reads.bash CHANGED Viewed

@@ -11,49 +11,49 @@ b=$DATASET
 # Initialize
 miga date > "$DATASET.start"
-# Unzip (if necessary)
-[[ -e "../01.raw_reads/$b.1.fastq.gz" && ! -e "../01.raw_reads/$b.1.fastq" ]] \
-  && gunzip "../01.raw_reads/$b.1.fastq.gz"
-[[ -e "../01.raw_reads/$b.2.fastq.gz" && ! -e "../01.raw_reads/$b.2.fastq" ]] \
-  && gunzip "../01.raw_reads/$b.2.fastq.gz"
-miga add_result -P "$PROJECT" -D "$DATASET" -r raw_reads -f
 # Clean existing files
 exists "$b".[12].* && rm "$b".[12].*
+# Gzip (if necessary)
+for s in 1 2 ; do
+  in="../01.raw_reads/${b}.${s}.fastq"
+  if [[ -s "$in" ]] ; then
+    gzip -9f "$in"
+    miga add_result -P "$PROJECT" -D "$DATASET" -r raw_reads -f
+  fi
+done
 # Tag
-FastQ.tag.rb -i "../01.raw_reads/$b.1.fastq" -p "$b-" -s "/1" -o "$b.1.fastq"
-[[ -e "../01.raw_reads/$b.2.fastq" ]] \
-  && FastQ.tag.rb -i "../01.raw_reads/$b.2.fastq" -p "$b-" -s "/2" \
-      -o "$b.2.fastq"
-# Trim
-SolexaQA++ dynamictrim "$b".[12].fastq -h 20 -d .
-SolexaQA++ lengthsort  "$b".[12].fastq.trimmed -l 50 -d .
-# Clean adapters
-if [[ -e "$b.2.fastq.trimmed.paired" ]] ; then
-  scythe -a "$MIGA/utils/adapters.fa" "$b.1.fastq.trimmed.paired" \
-    > "$b.1.clipped.all.fastq"
-  scythe -a "$MIGA/utils/adapters.fa" "$b.2.fastq.trimmed.paired" \
-    > "$b.2.clipped.all.fastq"
-  SolexaQA++ lengthsort "$b".[12].clipped.all.fastq -l 50 -d .
-  rm "$b".[12].clipped.all.fastq
-  [[ -e "$b".1.clipped.all.fastq.single ]] \
-    && mv "$b.1.clipped.all.fastq.single" "$b.1.clipped.single.fastq"
-  [[ -e "$b".2.clipped.all.fastq.single ]] \
-    && mv "$b.2.clipped.all.fastq.single" "$b.2.clipped.single.fastq"
-  mv "$b.1.clipped.all.fastq.paired" "$b.1.clipped.fastq"
-  mv "$b.2.clipped.all.fastq.paired" "$b.2.clipped.fastq"
-  rm -f "$b.1.clipped.all.fastq.summary.txt"
+in1="../01.raw_reads/$b.1.fastq.gz"
+in2="../01.raw_reads/$b.2.fastq.gz"
+FastQ.tag.rb -i "$in1" -p "$b-" -s "/1" -o "$b.1.fastq.gz"
+[[ -e "$in2" ]] && FastQ.tag.rb -i "$in2" -p "$b-" -s "/2" -o "$b.2.fastq.gz"
+# Multitrim
+CMD="multitrim.py --zip gzip --level 9 --threads $CORES -o $b"
+if [[ -s "$b.2.fastq.gz" ]] ; then
+  # Paired
+  $CMD -1 "$b.1.fastq.gz" -2 "$b.2.fastq.gz"
+  for s in 1 2 ; do
+    mv "$b/${s}.post_trim_${b}.${s}.fq.gz" "${b}.${s}.clipped.fastq.gz"
+    mv "$b/${s}.pre_trim_QC_${b}.${s}.html" "../03.read_quality/${b}.pre.${s}.html"
+    mv "$b/${s}.post_trim_QC_${b}.${s}.html" "../03.read_quality/${b}.post.${s}.html"
+  done
 else
-  scythe -a "$MIGA/utils/adapters.fa" "$b.1.fastq.trimmed.single" \
-    > "$b.1.clipped.all.fastq"
-  SolexaQA++ lengthsort "$b.1.clipped.all.fastq" -l 50 -d .
-  mv "$b.1.clipped.all.fastq.single" "$b.1.clipped.fastq"
+  # Unpaired
+  $CMD -u "$b.1.fastq.gz"
+  mv "$b/unpaired.post_trim_${b}.1.fq.gz" "${b}.1.clipped.fastq.gz"
+  mv "$b/unpaired.pre_trim_QC_${b}.1.html" "../03.read_quality/${b}.pre.1.html"
+  mv "$b/unpaired.post_trim_QC_${b}.1.html" "../03.read_quality/${b}.post.1.html"
 fi
-rm -f "$b".[12].*.discard
+mv "$b/Subsample_Adapter_Detection.stats.txt" \
+  "../03.read_quality/$b.adapters.txt"
+# Cleanup
+rm -r "$b"
+rm -f "$b".[12].fastq.gz
 # Finalize
 miga date > "$DATASET.done"
 miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT" -f

data/test/parallel_test.rb ADDED Viewed

@@ -0,0 +1,31 @@
+# frozen_string_literal: true
+require 'test_helper'
+class ParallelTest < Test::Unit::TestCase
+  include TestHelper
+  def test_distribute
+    declare_forks
+    base = tmpfile('base')
+    assert(!File.exist?("#{base}-3"))
+    MiGA::Parallel.distribute((0..3), 2) do |o, _k, t|
+      File.open("#{base}-#{o}", 'w') { |fh| fh.puts t }
+    end
+    assert(File.exist?("#{base}-3"))
+    assert(!File.exist?("#{base}-4"))
+    t = (0..3).map { |i| File.read("#{base}-#{i}").chomp.to_i }
+    assert_equal([0, 0, 1, 1], t.sort)
+  end
+  def test_thread_enum
+    MiGA::Parallel.thread_enum(%w[a b c d], 3, 1) do |o, _k, _t|
+      assert_equal('b', o)
+    end
+    n = 0
+    MiGA::Parallel.thread_enum(0..19, 4, 0) { n += 1 }
+    assert_equal(5, n)
+  end
+end

data/test/project_test.rb CHANGED Viewed

@@ -27,10 +27,11 @@ class ProjectTest < Test::Unit::TestCase
   def test_create
     assert_equal(tmpfile('create'), project('create').path)
     assert_path_exist(tmpfile('create'))
-    assert_raise do
+    err = capture_stderr do
       ENV['MIGA_HOME'] = tmpfile('chez-moi')
       project('cuckoo')
     end
+    assert_match(/Projects cannot be processed yet/, err.string)
   end
   def test_load

data/test/remote_dataset_test.rb CHANGED Viewed

@@ -47,7 +47,7 @@ class RemoteDatasetTest < Test::Unit::TestCase
   end
   def test_net_ftp
-    cjac = 'ftp://ftp.ebi.ac.uk/pub/databases/ena/tsa/public/ga/GAPJ01.fasta.gz'
+    cjac = 'ftp://ftp.ebi.ac.uk/pub/databases/ena/tsa/public/gap/GAPJ01.fasta.gz'
     n = 'Cjac_L14'
     rd = MiGA::RemoteDataset.new(cjac, :assembly_gz, :web)
     assert_equal([cjac], rd.ids)

data/utils/distance/commands.rb CHANGED Viewed

@@ -169,6 +169,7 @@ module MiGA::DistanceRunner::Commands
         aai_data[out[1]] = [out[6].to_f, 0, 0, 0] if out[6] !~ /^>/
       end
     end
+    puts "Results: #{haai_data.size} | Inferences: #{aai_data.size}"
     batch_data_to_db(:haai, haai_data)
     batch_data_to_db(:aai, aai_data)

data/utils/distance/database.rb CHANGED Viewed

@@ -126,7 +126,6 @@ module MiGA::DistanceRunner::Database
   def batch_data_to_db(metric, data)
     db = tmp_dbs[metric]
     table = metric == :haai ? :aai : metric
-    `cp #{db} ~/here.db`
     SQLite3::Database.new(db) do |conn|
       data.each do |k, v|
         sql = <<~SQL

data/utils/distance/runner.rb CHANGED Viewed

@@ -18,10 +18,8 @@ class MiGA::DistanceRunner
       @ref_project = MiGA::Project.load(ref_path)
       raise "Cannot load reference project: #{ref_path}" if @ref_project.nil?
     elsif !opts[:run_taxonomy] && dataset.option(:db_project)
-      ref_path = dataset.option(:db_project)
-      if project.option(:db_proj_dir)
-        ref_path = File.expand_path(ref_path, project.option(:db_proj_dir))
-      end
+      ref_location = project.option(:db_proj_dir) || File.dirname(project.path)
+      ref_path = File.expand_path(dataset.option(:db_project), ref_location)
       @ref_project = MiGA::Project.load(ref_path)
       raise "Cannot load reference project: #{ref_path}" if @ref_project.nil?
     else

data/utils/enveomics/Manifest/Tasks/fasta.json CHANGED Viewed

@@ -4,7 +4,8 @@
       "task": "FastA.N50.pl",
       "description": ["Calculates the N50 value of a set of sequences.",
         "Alternatively, it can calculate other N** values. It also calculates",
-        "the total number of sequences and the total added length."],
+        "the total number of sequences, the total added length, and the",
+        "longest sequence length."],
       "help_arg": "",
       "see_also": ["FastA.length.pl"],
       "options": [
@@ -354,14 +355,14 @@
           "opt": "--in",
           "arg": "in_file",
           "mandatory": true,
-          "description": "Input FastA file."
+          "description": "Input FastA file (supports .gz compression)."
         },
         {
           "name": "Output file",
           "opt": "--out",
           "arg": "out_file",
           "mandatory": true,
-          "description": "Output FastA file."
+          "description": "Output FastA file (supports .gz compression)."
         },
         {
           "opt": "--fraction",
@@ -733,6 +734,41 @@
         }
       ]
     },
+    {
+      "task": "FastA.toFastQ.rb",
+      "description": "Creates a FastQ-compliant file from a FastA file.",
+      "see_also": "FastQ.toFastA.awk",
+      "help_arg": "--help",
+      "options": [
+        {
+          "name": "Input FastA",
+          "opt": "--in",
+          "arg": "in_file",
+          "mandatory": true,
+          "description": "Input FastA file (supports .gz compression)."
+        },
+        {
+          "name": "Output FastQ",
+          "opt": "--out",
+          "arg": "out_file",
+          "mandatory": true,
+          "description": "Output FastQ file (supports .gz compression)."
+        },
+        {
+          "opt": "--quality",
+          "arg": "integer",
+          "default": 31,
+          "description": ["PHRED quality score to use (fixed), in the range",
+            "[-5, 41]."]
+        },
+        {
+          "opt": "--encoding",
+          "arg": "integer",
+          "default": 33,
+          "description": "Base encoding (33 or 64)."
+        }
+      ]
+    },
     {
       "task": "FastA.wrap.rb",
       "description": "Wraps sequences in a FastA to a given line length.",

data/utils/enveomics/Manifest/Tasks/fastq.json CHANGED Viewed

@@ -81,6 +81,47 @@
         }
       ]
     },
+    {
+      "task": "FastQ.maskQual.rb",
+      "description": "Masks low-quality bases in a FastQ file.",
+      "help_arg": "--help",
+      "options": [
+        {
+          "opt": "--input",
+          "arg": "in_file",
+          "mandatory": true,
+          "description": ["Path to the FastQ file containing the sequences.",
+            "Supports compression with .gz extension."]
+        },
+        {
+          "opt": "--output",
+          "arg": "out_file",
+          "mandatory": true,
+          "description": ["Path to the output FastQ file.",
+            "Supports compression with .gz extension."]
+        },
+        {
+          "opt": "--qual",
+          "arg": "integer",
+          "default": 15,
+          "description": "Minimum quality score to allow a base."
+        },
+        {
+          "opt": "--offset",
+          "arg": "integer",
+          "default": 33,
+          "description": "Q-score offset."
+        },
+        {
+          "opt": "--fasta",
+          "description": "Output sequences in FastA format."
+        },
+        {
+          "opt": "--quiet",
+          "description": "Run quietly."
+        }
+      ]
+    },
     {
       "task": "FastQ.offset.pl",
       "description": ["There are several FastQ formats. This script takes a",
@@ -160,14 +201,20 @@
           "opt": "--in",
           "arg": "in_file",
           "mandatory": true,
-          "description": "FastQ file containing the sequences."
+          "description": [
+            "FastQ file containing the sequences.",
+            "Supports compression with .gz extension."
+          ]
         },
         {
           "name": "Output file",
           "opt": "--out",
           "arg": "out_file",
           "mandatory": true,
-          "description": "FastQ to create."
+          "description": [
+            "FastQ to create.",
+            "Supports compression with .gz extension."
+          ]
         },
         {
           "opt": "--prefix",
@@ -188,6 +235,7 @@
     {
       "task": "FastQ.toFastA.awk",
       "description": "Translates FastQ files into FastA.",
+      "see_also": "FastA.toFastQ.rb",
       "help_arg": "'' --help",
       "options": [
         "<",

data/utils/enveomics/Manifest/Tasks/mapping.json CHANGED Viewed

@@ -62,6 +62,76 @@
           "description": "Window size, in base pairs."
         }
       ]
+    },
+    {
+      "task": "sam.filter.rb",
+      "description": ["Filters a SAM or BAM file by target sequences and/or",
+        "identity."],
+      "see_also": ["anir.rb"],
+      "help_arg": "--help",
+      "options": [
+        {
+          "opt": "--genome",
+          "arg": "in_file",
+          "mandatory": true,
+          "description": ["Genome assembly.",
+            "Supports compression with .gz extension."]
+        },
+        {
+          "opt": "--mapping",
+          "arg": "in_file",
+          "mandatory": true,
+          "description": ["Mapping file.",
+            "Supports compression with .gz extension."]
+        },
+        {
+          "opt": "--out-sam",
+          "arg": "out_file",
+          "mandatory": true,
+          "description": ["Output filtered file in SAM format.",
+            "Supports compression with .gz extension."]
+        },
+        {
+          "opt": "--g-format",
+          "arg": "select",
+          "values": ["fasta", "list"],
+          "default": "fasta",
+          "description": ["Genome assembly format."]
+        },
+        {
+          "opt": "--m-format",
+          "arg": "select",
+          "values": ["sam", "bam"],
+          "default": "sam",
+          "description": ["Mapping file format. SAM supports compression with",
+            ".gz file extension."]
+        },
+        {
+          "opt": "--identity",
+          "arg": "float",
+          "description": "Set a fixed threshold of percent identity.",
+          "default": 95.0
+        },
+        {
+          "opt": "--no-header",
+          "description": "Do not include the headers."
+        },
+        {
+          "opt": "--threads",
+          "arg": "integer",
+          "description": "Threads to use.",
+          "default": 2
+        },
+        {
+          "opt": "--log",
+          "arg": "out_file",
+          "description": "Log file to save output."
+        },
+        {
+          "opt": "--quiet",
+          "description": "Run quietly."
+        }
+      ]
     }
   ]
 }