RubyGems - miga-base - Versions diffs - 0.7.26.3 → 1.0.0.sr1 - Mend

miga-base 0.7.26.3 → 1.0.0.sr1

Files changed (105) hide show

checksums.yaml +4 -4
data/lib/miga/_data/aai-intax.blast.tsv.gz +0 -0
data/lib/miga/_data/aai-intax.diamond.tsv.gz +0 -0
data/lib/miga/_data/aai-novel.blast.tsv.gz +0 -0
data/lib/miga/_data/aai-novel.diamond.tsv.gz +0 -0
data/lib/miga/cli/action/doctor.rb +50 -19
data/lib/miga/cli/action/doctor/base.rb +20 -18
data/lib/miga/cli/action/init.rb +11 -7
data/lib/miga/cli/action/init/files_helper.rb +1 -0
data/lib/miga/cli/action/ncbi_get.rb +3 -3
data/lib/miga/cli/action/tax_dist.rb +2 -2
data/lib/miga/cli/action/wf.rb +5 -4
data/lib/miga/daemon.rb +11 -4
data/lib/miga/dataset/result.rb +10 -6
data/lib/miga/json.rb +1 -2
data/lib/miga/metadata.rb +5 -1
data/lib/miga/parallel.rb +11 -6
data/lib/miga/project.rb +8 -8
data/lib/miga/project/base.rb +4 -4
data/lib/miga/project/result.rb +2 -2
data/lib/miga/sqlite.rb +7 -0
data/lib/miga/version.rb +23 -9
data/scripts/aai_distances.bash +16 -18
data/scripts/ani_distances.bash +16 -17
data/scripts/assembly.bash +31 -16
data/scripts/haai_distances.bash +3 -27
data/scripts/miga.bash +6 -4
data/scripts/p.bash +1 -1
data/scripts/read_quality.bash +9 -18
data/scripts/trimmed_fasta.bash +14 -30
data/scripts/trimmed_reads.bash +36 -36
data/test/parallel_test.rb +31 -0
data/test/project_test.rb +2 -1
data/utils/distance/commands.rb +1 -0
data/utils/distance/runner.rb +2 -4
data/utils/enveomics/Manifest/Tasks/fasta.json +39 -3
data/utils/enveomics/Manifest/Tasks/fastq.json +50 -2
data/utils/enveomics/Manifest/Tasks/mapping.json +70 -0
data/utils/enveomics/Manifest/Tasks/other.json +77 -0
data/utils/enveomics/Manifest/Tasks/sequence-identity.json +138 -1
data/utils/enveomics/Manifest/categories.json +13 -4
data/utils/enveomics/Scripts/Aln.cat.rb +206 -148
data/utils/enveomics/Scripts/FastA.N50.pl +33 -29
data/utils/enveomics/Scripts/FastA.fragment.rb +69 -61
data/utils/enveomics/Scripts/FastA.sample.rb +61 -46
data/utils/enveomics/Scripts/FastA.toFastQ.rb +69 -0
data/utils/enveomics/Scripts/FastQ.maskQual.rb +89 -0
data/utils/enveomics/Scripts/FastQ.tag.rb +59 -52
data/utils/enveomics/Scripts/SRA.download.bash +6 -8
data/utils/enveomics/Scripts/Table.prefScore.R +60 -0
data/utils/enveomics/Scripts/aai.rb +3 -2
data/utils/enveomics/Scripts/anir.rb +137 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/anir.rb +293 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/bm_set.rb +175 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/enveomics.rb +17 -17
data/utils/enveomics/Scripts/lib/enveomics_rb/errors.rb +17 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/gmm_em.rb +30 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/match.rb +63 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/rbm.rb +49 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stats.rb +3 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stats/rand.rb +31 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stats/sample.rb +152 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/utils.rb +73 -0
data/utils/enveomics/Scripts/rbm-legacy.rb +172 -0
data/utils/enveomics/Scripts/rbm.rb +87 -133
data/utils/enveomics/Scripts/sam.filter.rb +148 -0
data/utils/enveomics/enveomics.R/DESCRIPTION +2 -2
data/utils/enveomics/enveomics.R/NAMESPACE +1 -1
data/utils/enveomics/enveomics.R/R/prefscore.R +79 -0
data/utils/enveomics/enveomics.R/R/utils.R +30 -0
data/utils/enveomics/enveomics.R/README.md +1 -0
data/utils/enveomics/enveomics.R/man/cash-enve.GrowthCurve-method.Rd +0 -1
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2-method.Rd +0 -1
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2.Peak-method.Rd +0 -1
data/utils/enveomics/enveomics.R/man/enve.__tribs.Rd +10 -2
data/utils/enveomics/enveomics.R/man/enve.barplot.Rd +16 -4
data/utils/enveomics/enveomics.R/man/enve.cliopts.Rd +13 -3
data/utils/enveomics/enveomics.R/man/enve.df2dist.Rd +8 -2
data/utils/enveomics/enveomics.R/man/enve.df2dist.group.Rd +8 -2
data/utils/enveomics/enveomics.R/man/enve.df2dist.list.Rd +9 -2
data/utils/enveomics/enveomics.R/man/enve.growthcurve.Rd +13 -5
data/utils/enveomics/enveomics.R/man/enve.prefscore.Rd +50 -0
data/utils/enveomics/enveomics.R/man/enve.prune.dist.Rd +9 -2
data/utils/enveomics/enveomics.R/man/enve.recplot.Rd +23 -6
data/utils/enveomics/enveomics.R/man/enve.recplot2.Rd +13 -4
data/utils/enveomics/enveomics.R/man/enve.recplot2.compareIdentities.Rd +8 -2
data/utils/enveomics/enveomics.R/man/enve.recplot2.extractWindows.Rd +7 -2
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__mow_one.Rd +14 -3
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.em.Rd +10 -2
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.emauto.Rd +8 -2
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.mower.Rd +17 -9
data/utils/enveomics/enveomics.R/man/enve.recplot2.windowDepthThreshold.Rd +6 -2
data/utils/enveomics/enveomics.R/man/enve.selvector.Rd +23 -0
data/utils/enveomics/enveomics.R/man/enve.tribs.Rd +14 -5
data/utils/enveomics/enveomics.R/man/plot.enve.GrowthCurve.Rd +19 -4
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBS.Rd +11 -3
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBStest.Rd +11 -4
data/utils/enveomics/enveomics.R/man/plot.enve.recplot2.Rd +26 -12
data/utils/multitrim/Multitrim How-To.pdf +0 -0
data/utils/multitrim/README.md +67 -0
data/utils/multitrim/multitrim.py +1555 -0
data/utils/multitrim/multitrim.yml +13 -0
data/utils/requirements.txt +4 -3
metadata +33 -6
data/utils/enveomics/Scripts/lib/enveomics_rb/stat.rb +0 -30

data/lib/miga/project/result.rb CHANGED Viewed

@@ -55,12 +55,12 @@ module MiGA::Project::Result
   ##
   # Add result of any type +:*_distances+ at +base+ (no +_opts+ supported).
   def add_result_distances(base, _opts)
-    return nil unless result_files_exist?(base, %w[.Rdata .log .txt])
+    return nil unless result_files_exist?(base, %w[.Rdata .txt])
     r = MiGA::Result.new("#{base}.json")
     r.add_file(:rdata,  'miga-project.Rdata')
     r.add_file(:matrix, 'miga-project.txt')
-    r.add_file(:log,    'miga-project.log')
+    r.add_file(:log,    'miga-project.log') # Legacy file
     r.add_file(:hist,   'miga-project.hist')
     r
   end

data/lib/miga/sqlite.rb CHANGED Viewed

@@ -37,6 +37,7 @@ class MiGA::SQLite < MiGA::MiGA
   # Executes +cmd+ and returns the result
   def run(*cmd)
     busy_attempts ||= 0
+    io_attempts ||= 0
     y = nil
     SQLite3::Database.new(path) { |conn| y = conn.execute(*cmd) }
     y
@@ -44,6 +45,12 @@ class MiGA::SQLite < MiGA::MiGA
     busy_attempts += 1
     raise "Database busy #{path}: #{e.message}" if busy_attempts >= 3
+    sleep(1)
+    retry
+  rescue SQLite3::IOException => e
+    io_attempts += 1
+    raise "Database I/O error #{path}: #{e.message}" if io_attempts >= 3
     sleep(1)
     retry
   end

data/lib/miga/version.rb CHANGED Viewed

@@ -9,23 +9,33 @@ module MiGA
   # Current version of MiGA. An Array with three values:
   # - Float representing the major.minor version.
   # - Integer representing gem releases of the current version.
-  # - Integer representing minor changes that require new version number.
-  VERSION = [0.7, 26, 3].freeze
+  # - String indicating release status:
+  #   - rc* release candidate, not released as gem
+  #   - sr* stable release, released as gem
+  VERSION = [1.0, 0, 'sr1'].freeze
   ##
   # Nickname for the current major.minor version.
-  VERSION_NAME = 'lithograph'
+  VERSION_NAME = 'prima'
   ##
   # Date of the current gem release.
-  VERSION_DATE = Date.new(2021, 3, 11)
+  VERSION_DATE = Date.new(2021, 4, 12)
   ##
-  # Reference of MiGA.
-  CITATION = 'Rodriguez-R et al (2018). ' \
-    'The Microbial Genomes Atlas (MiGA) webserver: taxonomic and gene ' \
-    'diversity analysis of Archaea and Bacteria at the whole genome level. ' \
-    'Nucleic Acids Research 46(W1):W282-W288. doi:10.1093/nar/gky467.'
+  # References of MiGA
+  CITATION = []
+  CITATION << <<~REF
+    Rodriguez-R et al (2018). The Microbial Genomes Atlas (MiGA) webserver:
+      taxonomic and gene diversity analysis of Archaea and Bacteria at the whole
+      genome level. Nucleic Acids Research 46(W1):W282-W288.
+      doi:10.1093/nar/gky467.
+  REF
+  CITATION << <<~REF
+    Rodriguez-R et al (2020). Classifying prokaryotic genomes using the
+      Microbial Genomes Atlas (MiGA) webserver. Bergey's Manual of Systematics
+      of Archaea and Bacteria.
+  REF
 end
 class MiGA::MiGA
@@ -58,6 +68,10 @@ class MiGA::MiGA
   ##
   # Reference of MiGA
   def self.CITATION
+    CITATION.map { |i| "- #{i}" }.join
+  end
+  def self.CITATION_ARRAY
     CITATION
   end
 end

data/scripts/aai_distances.bash CHANGED Viewed

@@ -9,34 +9,32 @@ DIR="$PROJECT/data/09.distances/02.aai"
 # Initialize
 miga_start_project_step "$DIR"
-echo -n "" > miga-project.log
-DS=$(miga ls -P "$PROJECT" --ref --no-multi --active)
 # Extract values
 rm -f miga-project.txt
+SQL="SELECT seq1, seq2, aai, sd, n, omega from aai;"
+DS=$(miga ls -P "$PROJECT" --ref --no-multi --active)
 (
-  echo "metric a b value sd n omega" | tr " " "\\t"
+  echo "a b value sd n omega" | tr " " "\\t"
   for i in $DS ; do
-    echo "SELECT CASE WHEN omega!=0 THEN 'AAI' ELSE 'hAAI_AAI' END," \
-      " seq1, seq2, aai, sd, n, omega from aai;" \
-      | sqlite3 "$DIR/$i.db" | tr "\\|" "\\t"
-    echo "$i" >> miga-project.log
+    echo "$SQL" | sqlite3 "$DIR/$i.db" | tr "\\|" "\\t"
   done
 ) | gzip -9c > miga-project.txt.gz
 # R-ify
-echo "
-aai <- read.table(gzfile('miga-project.txt.gz'), sep='\\t', h=T, as.is=TRUE);
-save(aai, file='miga-project.Rdata');
-if(sum(aai[,'a'] != aai[,'b']) > 0){
-  h <- hist(aai[aai[,'a'] != aai[,'b'], 'value'], breaks=100, plot=FALSE);
+cat <<R | R --vanilla
+file <- gzfile('miga-project.txt.gz')
+aai <- read.table(file, sep = '\t', header = TRUE, as.is = TRUE)
+save(aai, file = 'miga-project.Rdata')
+if(sum(aai[, 'a'] != aai[, 'b']) > 0) {
+  h <- hist(aai[aai[, 'a'] != aai[, 'b'], 'value'], breaks = 100, plot = FALSE)
+  len <- length(h[['breaks']])
   write.table(
-    cbind(h[['breaks']][-length(h[['breaks']])],
-      h[['breaks']][-1], h[['counts']]),
-    file='miga-project.hist', quote=FALSE, sep='\\t',
-    col.names=FALSE, row.names=FALSE);
+    cbind(h[['breaks']][-len], h[['breaks']][-1], h[['counts']]),
+    file = 'miga-project.hist', quote = FALSE, sep = '\t',
+    col.names = FALSE, row.names = FALSE
+  )
 }
-" | R --vanilla
+R
 # Finalize
 miga_end_project_step "$DIR"

data/scripts/ani_distances.bash CHANGED Viewed

@@ -9,33 +9,32 @@ DIR="$PROJECT/data/09.distances/03.ani"
 # Initialize
 miga_start_project_step "$DIR"
-echo -n "" > miga-project.log
-DS=$(miga ls -P "$PROJECT" --ref --no-multi --active)
 # Extract values
 rm -f miga-project.txt
+SQL="SELECT seq1, seq2, ani, sd, n, omega from ani;"
+DS=$(miga ls -P "$PROJECT" --ref --no-multi --active)
 (
-  echo "metric a b value sd n omega" | tr " " "\\t"
+  echo "a b value sd n omega" | tr " " "\\t"
   for i in $DS ; do
-    echo "SELECT 'ANI', seq1, seq2, ani, sd, n, omega from ani ;" \
-      | sqlite3 "$DIR/$i.db" | tr "\\|" "\\t"
-    echo "$i" >> miga-project.log
+    echo "$SQL" | sqlite3 "$DIR/$i.db" | tr "\\|" "\\t"
   done
 ) | gzip -9c > miga-project.txt.gz
 # R-ify
-echo "
-ani <- read.table(gzfile('miga-project.txt.gz'), sep='\\t', h=T, as.is=TRUE);
-save(ani, file='miga-project.Rdata');
-if(sum(ani[,'a'] != ani[,'b']) > 0){
-  h <- hist(ani[ani[,'a'] != ani[,'b'], 'value'], breaks=100, plot=FALSE);
+cat <<R | R --vanilla
+file <- gzfile('miga-project.txt.gz')
+ani <- read.table(file, sep = '\t', header = TRUE, as.is = TRUE)
+save(ani, file = 'miga-project.Rdata')
+if(sum(ani[, 'a'] != ani[, 'b']) > 0) {
+  h <- hist(ani[ani[, 'a'] != ani[, 'b'], 'value'], breaks = 100, plot = FALSE)
+  len <- length(h[['breaks']])
   write.table(
-    cbind(h[['breaks']][-length(h[['breaks']])],
-      h[['breaks']][-1], h[['counts']]),
-    file='miga-project.hist', quote=FALSE, sep='\\t',
-    col.names=FALSE, row.names=FALSE);
+    cbind(h[['breaks']][-len], h[['breaks']][-1], h[['counts']]),
+    file = 'miga-project.hist', quote = FALSE, sep = '\t',
+    col.names = FALSE, row.names = FALSE
+  )
 }
-" | R --vanilla
+R
 # Finalize
 miga_end_project_step "$DIR"

data/scripts/assembly.bash CHANGED Viewed

@@ -11,30 +11,44 @@ miga date > "$DATASET.start"
 # Interpose (if needed)
 TF="../04.trimmed_fasta"
-if [[ -s "$TF/$DATASET.1.fasta" \
-      && -s "$TF/$DATASET.2.fasta" \
-      && ! -s "$TF/$DATASET.CoupledReads.fa" ]] ; then
-  FastA.interpose.pl "$TF/$DATASET.CoupledReads.fa" "$TF/$DATASET".[12].fasta
-  gzip -9 -f "$TF/$DATASET.1.fasta"
-  gzip -9 -f "$TF/$DATASET.2.fasta"
-  miga add_result -P "$PROJECT" -D "$DATASET" -r trimmed_fasta -f
+b=$DATASET
+if [[ -s "$TF/${b}.2.fasta" || -s "$TF/${b}.2.fasta.gz" ]] ; then
+  cr="$TF/${b}.CoupledReads.fa"
+  if [[ ! -s "$cr" && ! -s "${cr}.gz" ]] ; then
+    for s in 1 2 ; do
+      if [[ -s "$TF/${b}.${s}.fasta" ]] ; then
+        ln -s "$TF/${b}.${s}.fasta" "${b}.${s}.tmp"
+      else
+        gzip -cd "$TF/${b}.${s}.fasta.gz" > "${b}.${s}.tmp"
+      fi
+    done
+    FastA.interpose.pl "$cr" "$b".[12].tmp
+    rm "$b".[12].tmp
+    miga add_result -P "$PROJECT" -D "$DATASET" -r trimmed_fasta -f
+  fi
 fi
+# Gzip (if needed)
+for i in SingleReads CoupledReads ; do
+  base="$TF/${DATASET}.${i}.fa"
+  if [[ -e "$base" && ! -s "${base}.gz" ]] ; then
+    gzip -9f "$base"
+    miga add_result -P "$PROJECT" -D "$DATASET" -r trimmed_fasta -f
+  fi
+done
 # Assemble
-FA="$TF/$DATASET.CoupledReads.fa"
-[[ -e "$FA" ]] || FA="$FA.gz"
-[[ -e "$FA" ]] || FA="../04.trimmed_fasta/$DATASET.SingleReads.fa"
-[[ -e "$FA" ]] || FA="$FA.gz"
+FA="$TF/${DATASET}.CoupledReads.fa.gz"
+[[ -e "$FA" ]] || FA="$TF/${DATASET}.SingleReads.fa.gz"
 RD="r"
 [[ $FA == *.SingleReads.fa* ]] && RD="l"
-idba_ud --pre_correction -$RD "$FA" -o "$DATASET" --num_threads "$CORES" || true
+gzip -cd "$FA" \
+  | idba_ud --pre_correction -$RD /dev/stdin \
+    -o "$DATASET" --num_threads "$CORES" || true
 [[ -s "$DATASET/contig.fa" ]] || exit 1
 # Clean
-(
-  cd "$DATASET"
-  rm kmer graph-*.fa align-* local-contig-*.fa contig-*.fa
-)
+( cd "$DATASET" && rm kmer graph-*.fa align-* local-contig-*.fa contig-*.fa )
 # Extract
 if [[ -s "$DATASET/scaffold.fa" ]] ; then
@@ -49,3 +63,4 @@ FastA.length.pl "$DATASET.AllContigs.fna" | awk '$2>=1000{print $1}' \
 # Finalize
 miga date > "$DATASET.done"
 miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT" -f

data/scripts/haai_distances.bash CHANGED Viewed

@@ -12,34 +12,10 @@ miga_start_project_step "$DIR"
 # Cleanup databases
 ruby -I "$MIGA/lib" "$MIGA/utils/cleanup-databases.rb" "$PROJECT" "$CORES"
-# Run hAAI
+# No real need for hAAI distributions at all
 echo -n "" > miga-project.log
-DS=$(miga ls -P "$PROJECT" --ref --no-multi --active)
-# Extract values
-rm -f miga-project.txt
-(
-  echo "metric a b value sd n omega" | tr " " "\\t"
-  for i in $DS ; do
-    echo "SELECT 'hAAI', seq1, seq2, aai, sd, n, omega from aai ;" \
-      | sqlite3 "$DIR/$i.db" | tr "\\|" "\\t"
-    echo "$i" >> miga-project.log
-  done
-) | gzip -9c > miga-project.txt.gz
-# R-ify
-echo "
-haai <- read.table(gzfile('miga-project.txt.gz'), sep='\\t', h=T, as.is=TRUE);
-save(haai, file='miga-project.Rdata');
-if(sum(haai[,'a'] != haai[,'b']) > 0){
-  h <- hist(haai[haai[,'a'] != haai[,'b'], 'value'], breaks=100, plot=FALSE);
-  write.table(
-    cbind(h[['breaks']][-length(h[['breaks']])],
-      h[['breaks']][-1], h[['counts']]),
-    file='miga-project.hist', quote=FALSE, sep='\\t',
-    col.names=FALSE, row.names=FALSE);
-}
-" | R --vanilla
+echo -n "" > miga-project.txt
+echo "aai <- NULL; save(aai, file = 'miga-project.Rdata')" | R --vanilla
 # Finalize
 miga_end_project_step "$DIR"

data/scripts/miga.bash CHANGED Viewed

@@ -7,9 +7,11 @@ SCRIPT=${SCRIPT:-$(basename "$0" .bash)}
 # shellcheck source=/dev/null
 . "$MIGA_HOME/.miga_rc"
-# Ensure submodules are first in PATH
-export PATH="$MIGA/bin:$MIGA/utils/enveomics/Scripts:$PATH"
-export PATH="$MIGA/utils/FastAAI/FastAAI:$PATH"
+# Ensure MiGA & submodules are first in PATH
+export PATH="$MIGA/bin:$PATH"
+for util in enveomics/Scripts FastAAI/FastAAI multitrim ; do
+  export PATH="$MIGA/utils/$util:$PATH"
+done
 # Ancillary functions
 function exists { [[ -e "$1" ]] ; }
@@ -38,7 +40,7 @@ if [[ "$SCRIPT" != "d" && "$SCRIPT" != "p" ]] ; then
   echo ""
   echo "######[ $SCRIPT ]######"
   echo "# Date: $(miga date)"
-  echo "# Host: $(hostname)"
+  echo "# Host: $(hostname) [$CORES]"
   echo "# MiGA: $MIGA"
   echo "# Project: $PROJECT"
   if [[ -n $DATASET ]] ; then

data/scripts/p.bash CHANGED Viewed

@@ -12,7 +12,7 @@ while true ; do
   if [[ "$res" == "$last_res" ]] ; then
     let k=$k+1
     if [[ $k -gt 10 ]] ; then
-      miga new --update -P "$PROJECT" \
+      miga edit -P "$PROJECT" \
         -m "run_$res=false,warn=Too many failed attempts to run $res"
     fi
   else

data/scripts/read_quality.bash CHANGED Viewed

@@ -6,28 +6,19 @@ SCRIPT="read_quality"
 . "$MIGA/scripts/miga.bash" || exit 1
 cd "$PROJECT/data/03.read_quality"
-b=$DATASET
 # Initialize
 miga date > "$DATASET.start"
-# FastQC
-[[ -d "$b.fastqc" ]] || mkdir "$b.fastqc"
-fastqc "../02.trimmed_reads/$b".[12].clipped.fastq -o "$b.fastqc"
-# SolexaQA++
-[[ -d "$b.solexaqa" ]] || mkdir "$b.solexaqa"
-exists "../02.trimmed_reads/$b".[12].*.pdf \
-  && mv "../02.trimmed_reads/$b".[12].*.pdf "$b.solexaqa/"
-# Clean 02.trimmed_reads
-rm -f "../02.trimmed_reads/$b".[12].fastq_trimmed.segments
-rm -f "../02.trimmed_reads/$b".[12].fastq.trimmed.paired
-rm -f "../02.trimmed_reads/$b".[12].fastq.trimmed.single
-rm -f "../02.trimmed_reads/$b".[12].fastq.trimmed
-rm -f "../02.trimmed_reads/$b".[12].fastq
-miga add_result -P "$PROJECT" -D "$DATASET" -r trimmed_reads -f
+# Gzip (if necessary)
+for s in 1 2 ; do
+  in="../02.trimmed_reads/${DATASET}.${s}.clipped.fastq"
+  if [[ -s "$in" ]] ; then
+    gzip -9f "$in"
+    miga add_result -P "$PROJECT" -D "$DATASET" -r trimmed_reads -f
+  fi
+done
 # Finalize
 miga date > "$DATASET.done"
 miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT" -f

data/scripts/trimmed_fasta.bash CHANGED Viewed

@@ -11,43 +11,27 @@ b=$DATASET
 # Initialize
 miga date > "$DATASET.start"
-# Gunzip (if necessary)
-for sis in 1 2 ; do
-  for ext in clipped clipped.single ; do
-    [[ -e "../02.trimmed_reads/$b.$sis.${ext}.fastq.gz" \
-      && ! -e "../02.trimmed_reads/$b.$sis.${ext}.fastq" ]] \
-        && gzip -d "../02.trimmed_reads/$b.$sis.${ext}.fastq.gz"
-  done
+# FastQ -> FastA
+for s in 1 2 ; do
+  in="../02.trimmed_reads/${b}.${s}.clipped.fastq.gz"
+  [[ -s "$in" ]] \
+    && FastQ.maskQual.rb -i "$in" -o "${b}.1.fasta" --fasta --qual 18
 done
-miga add_result -P "$PROJECT" -D "$DATASET" -r trimmed_reads -f
-# FastQ -> FastA
-FQ2A="$MIGA/utils/enveomics/Scripts/FastQ.toFastA.awk"
-awk -f "$FQ2A" < "../02.trimmed_reads/$b.1.clipped.fastq" > "$b.1.fasta"
-if [[ -e "../02.trimmed_reads/$b.2.clipped.fastq" ]] ; then
-  awk -f "$FQ2A" < "../02.trimmed_reads/$b.2.clipped.fastq" > "$b.2.fasta"
-  FastA.interpose.pl "$b.CoupledReads.fa" "$b".[12].fasta
-  gzip -9 -f "$b.2.fasta"
-  gzip -9 -f "$b.1.fasta"
-  awk -f "$FQ2A" < "../02.trimmed_reads/$b".[12].clipped.single.fastq \
-    > "$b.SingleReads.fa"
-  gzip -9 -f "$b.SingleReads.fa"
+# Interpose
+if [[ -e "${b}.2.fasta" ]] ; then
+  FastA.interpose.pl "${b}.CoupledReads.fa" "$b".[12].fasta
 else
-  mv "$b.1.fasta" "$b.SingleReads.fa"
+  mv "${b}.1.fasta" "${b}.SingleReads.fa"
 fi
-# Compress input at 01.raw_reads and 02.trimmed_reads
-for sis in 1 2 ; do
-  [[ -e "../01.raw_reads/$b.$sis.fastq" ]] \
-    && gzip -9 -f "../01.raw_reads/$b.$sis.fastq"
-  [[ -e "../02.trimmed_reads/$b.$sis.clipped.fastq" ]] \
-    && gzip -9 -f "../02.trimmed_reads/$b.$sis.clipped.fastq"
-  [[ -e "../02.trimmed_reads/$b.$sis.clipped.single.fastq" ]] \
-    && gzip -9 -f "../02.trimmed_reads/$b.$sis.clipped.single.fastq"
+# Gzip
+for x in 1.fasta 2.fasta SingleReads.fa CoupledReads.fa ; do
+  in="${b}.${x}"
+  [[ -e "$in" ]] && gzip -9f "$in"
 done
-miga add_result -P "$PROJECT" -D "$DATASET" -r raw_reads -f
-miga add_result -P "$PROJECT" -D "$DATASET" -r trimmed_reads -f
 # Finalize
 miga date > "$DATASET.done"
 miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT" -f

data/scripts/trimmed_reads.bash CHANGED Viewed

@@ -11,49 +11,49 @@ b=$DATASET
 # Initialize
 miga date > "$DATASET.start"
-# Unzip (if necessary)
-[[ -e "../01.raw_reads/$b.1.fastq.gz" && ! -e "../01.raw_reads/$b.1.fastq" ]] \
-  && gunzip "../01.raw_reads/$b.1.fastq.gz"
-[[ -e "../01.raw_reads/$b.2.fastq.gz" && ! -e "../01.raw_reads/$b.2.fastq" ]] \
-  && gunzip "../01.raw_reads/$b.2.fastq.gz"
-miga add_result -P "$PROJECT" -D "$DATASET" -r raw_reads -f
 # Clean existing files
 exists "$b".[12].* && rm "$b".[12].*
+# Gzip (if necessary)
+for s in 1 2 ; do
+  in="../01.raw_reads/${b}.${s}.fastq"
+  if [[ -s "$in" ]] ; then
+    gzip -9f "$in"
+    miga add_result -P "$PROJECT" -D "$DATASET" -r raw_reads -f
+  fi
+done
 # Tag
-FastQ.tag.rb -i "../01.raw_reads/$b.1.fastq" -p "$b-" -s "/1" -o "$b.1.fastq"
-[[ -e "../01.raw_reads/$b.2.fastq" ]] \
-  && FastQ.tag.rb -i "../01.raw_reads/$b.2.fastq" -p "$b-" -s "/2" \
-      -o "$b.2.fastq"
-# Trim
-SolexaQA++ dynamictrim "$b".[12].fastq -h 20 -d .
-SolexaQA++ lengthsort  "$b".[12].fastq.trimmed -l 50 -d .
-# Clean adapters
-if [[ -e "$b.2.fastq.trimmed.paired" ]] ; then
-  scythe -a "$MIGA/utils/adapters.fa" "$b.1.fastq.trimmed.paired" \
-    > "$b.1.clipped.all.fastq"
-  scythe -a "$MIGA/utils/adapters.fa" "$b.2.fastq.trimmed.paired" \
-    > "$b.2.clipped.all.fastq"
-  SolexaQA++ lengthsort "$b".[12].clipped.all.fastq -l 50 -d .
-  rm "$b".[12].clipped.all.fastq
-  [[ -e "$b".1.clipped.all.fastq.single ]] \
-    && mv "$b.1.clipped.all.fastq.single" "$b.1.clipped.single.fastq"
-  [[ -e "$b".2.clipped.all.fastq.single ]] \
-    && mv "$b.2.clipped.all.fastq.single" "$b.2.clipped.single.fastq"
-  mv "$b.1.clipped.all.fastq.paired" "$b.1.clipped.fastq"
-  mv "$b.2.clipped.all.fastq.paired" "$b.2.clipped.fastq"
-  rm -f "$b.1.clipped.all.fastq.summary.txt"
+in1="../01.raw_reads/$b.1.fastq.gz"
+in2="../01.raw_reads/$b.2.fastq.gz"
+FastQ.tag.rb -i "$in1" -p "$b-" -s "/1" -o "$b.1.fastq.gz"
+[[ -e "$in2" ]] && FastQ.tag.rb -i "$in2" -p "$b-" -s "/2" -o "$b.2.fastq.gz"
+# Multitrim
+CMD="multitrim.py --zip gzip --level 9 --threads $CORES -o $b"
+if [[ -s "$b.2.fastq.gz" ]] ; then
+  # Paired
+  $CMD -1 "$b.1.fastq.gz" -2 "$b.2.fastq.gz"
+  for s in 1 2 ; do
+    mv "$b/${s}.post_trim_${b}.${s}.fq.gz" "${b}.${s}.clipped.fastq.gz"
+    mv "$b/${s}.pre_trim_QC_${b}.${s}.html" "../03.read_quality/${b}.pre.${s}.html"
+    mv "$b/${s}.post_trim_QC_${b}.${s}.html" "../03.read_quality/${b}.post.${s}.html"
+  done
 else
-  scythe -a "$MIGA/utils/adapters.fa" "$b.1.fastq.trimmed.single" \
-    > "$b.1.clipped.all.fastq"
-  SolexaQA++ lengthsort "$b.1.clipped.all.fastq" -l 50 -d .
-  mv "$b.1.clipped.all.fastq.single" "$b.1.clipped.fastq"
+  # Unpaired
+  $CMD -u "$b.1.fastq.gz"
+  mv "$b/unpaired.post_trim_${b}.1.fq.gz" "${b}.1.clipped.fastq.gz"
+  mv "$b/unpaired.pre_trim_QC_${b}.1.html" "../03.read_quality/${b}.pre.1.html"
+  mv "$b/unpaired.post_trim_QC_${b}.1.html" "../03.read_quality/${b}.post.1.html"
 fi
-rm -f "$b".[12].*.discard
+mv "$b/Subsample_Adapter_Detection.stats.txt" \
+  "../03.read_quality/$b.adapters.txt"
+# Cleanup
+rm -r "$b"
+rm -f "$b".[12].fastq.gz
 # Finalize
 miga date > "$DATASET.done"
 miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT" -f