RubyGems - miga-base - Versions diffs - 0.2.6.4 → 0.2.6.5 - Mend

miga-base 0.2.6.4 → 0.2.6.5

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (37) hide show

checksums.yaml +4 -4
data/actions/list_datasets.rb +6 -1
data/actions/run_local.rb +1 -1
data/actions/tax_distributions.rb +4 -4
data/lib/miga/common.rb +18 -0
data/lib/miga/daemon.rb +1 -1
data/lib/miga/dataset_result.rb +46 -47
data/lib/miga/remote_dataset.rb +52 -32
data/lib/miga/tax_dist.rb +2 -2
data/lib/miga/tax_index.rb +1 -1
data/lib/miga/version.rb +2 -2
data/scripts/_distances_functions.bash +17 -8
data/scripts/_distances_noref_nomulti.bash +26 -7
data/scripts/aai_distances.bash +3 -2
data/scripts/ani_distances.bash +3 -2
data/scripts/assembly.bash +24 -24
data/scripts/cds.bash +22 -30
data/scripts/clade_finding.bash +5 -4
data/scripts/distances.bash +13 -9
data/scripts/essential_genes.bash +12 -11
data/scripts/haai_distances.bash +3 -2
data/scripts/init.bash +100 -108
data/scripts/miga.bash +4 -2
data/scripts/mytaxa.bash +72 -71
data/scripts/mytaxa_scan.bash +62 -61
data/scripts/ogs.bash +14 -13
data/scripts/project_stats.bash +1 -0
data/scripts/read_quality.bash +12 -16
data/scripts/ssu.bash +18 -18
data/scripts/stats.bash +3 -2
data/scripts/subclades.bash +7 -6
data/scripts/trimmed_fasta.bash +22 -21
data/scripts/trimmed_reads.bash +34 -32
data/utils/index_metadata.rb +4 -4
data/utils/ref-tree.R +65 -0
data/utils/requirements.txt +1 -1
metadata +57 -56

data/scripts/mytaxa.bash CHANGED Viewed

@@ -1,94 +1,95 @@
 #!/bin/bash
-# Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
+# Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES, $DATASET
 set -e
 SCRIPT="mytaxa"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
+# shellcheck source=scripts/miga.bash
 source "$MIGA/scripts/miga.bash" || exit 1
 DIR="$PROJECT/data/07.annotation/02.taxonomy/01.mytaxa"
 [[ -d "$DIR" ]] || mkdir -p "$DIR"
 cd "$DIR"
 # Initialize
-date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.start"
-MT=$(dirname -- $(which MyTaxa))
+miga date > "$DATASET.start"
+MT=$(dirname -- "$(which MyTaxa)")
 # Check type of dataset
 MULTI=$(miga list_datasets -P "$PROJECT" -D "$DATASET" --multi \
-   | wc -l | awk '{print $1}')
+  | wc -l | awk '{print $1}')
 if [[ "$MULTI" -eq "1" ]] ; then
-   # Check requirements
-   if [[ ! -e "$MT/AllGenomes.faa.dmnd" ]] ; then
-      echo "Cannot locate the database: $MT/AllGenomes.faa.dmnd:" \
-	 "no such file or directory" >&2
-      exit 1
-   fi
-   if [[ ! -d "$MT/db" ]] ; then
-      echo "Cannot locate the MyTaxa index: $MT/db:" \
-	 "no such file or directory" >&2
-      exit 1
-   fi
-   if [[ ! -d "$MT/utils" ]] ; then
-      echo "Cannot locate the MyTaxa utilities: $MT/utils:" \
-	 "no such file or directory" >&2
-      exit 1
-   fi
+  # Check requirements
+  if [[ ! -e "$MT/AllGenomes.faa.dmnd" ]] ; then
+    echo "Cannot locate the database: $MT/AllGenomes.faa.dmnd:" \
+          "no such file or directory" >&2
+    exit 1
+  fi
+  if [[ ! -d "$MT/db" ]] ; then
+    echo "Cannot locate the MyTaxa index: $MT/db:" \
+	  "no such file or directory" >&2
+    exit 1
+  fi
+  if [[ ! -d "$MT/utils" ]] ; then
+    echo "Cannot locate the MyTaxa utilities: $MT/utils:" \
+          "no such file or directory" >&2
+    exit 1
+  fi
-   # Execute search
-   diamond blastp -q "../../../06.cds/$DATASET.faa" -d "$MT/AllGenomes.faa" \
-      -a "$DATASET.daa" -k 5 -p "$CORES" --min-score 60
-   diamond view -a "$DATASET.daa" -o "$DATASET.blast"
+  # Execute search
+  diamond blastp -q "../../../06.cds/$DATASET.faa" -d "$MT/AllGenomes.faa" \
+    -a "$DATASET.daa" -k 5 -p "$CORES" --min-score 60
+  diamond view -a "$DATASET.daa" -o "$DATASET.blast"
-   # Prepare MyTaxa input, execute MyTaxa, and generate profiles
-   [[ -e "../../../06.cds/$DATASET.gff2.gz" ]] \
-      && [[ ! -e "../../../06.cds/$DATASET.gff2" ]] \
-      && gunzip "../../../06.cds/$DATASET.gff2.gz"
-   [[ -e "../../../06.cds/$DATASET.gff3.gz" ]] \
-      && [[ ! -e "../../../06.cds/$DATASET.gff3" ]] \
-      && gunzip "../../../06.cds/$DATASET.gff3.gz"
-   if [[ -e "../../../06.cds/$DATASET.gff2" ]] ; then
-      # GFF2
-      perl "$MT/utils/infile_convert.pl" -f gff2 \
-	 "../../../06.cds/$DATASET.gff2" "$DATASET.blast" \
-	 | sort -k 13 > "$DATASET.mytaxain"
-      "$MT/MyTaxa" "$DATASET.mytaxain" "$DATASET.mytaxa" "0.5"
-      perl "$MT/utils/MyTaxa.distribution.pl" -m "$DATASET.mytaxa" \
-	 -g "../../../06.cds/$DATASET.gff2" -f gff2 \
-	 -I "$DATASET.mytaxa.innominate" -G "$DATASET.mytaxa.genes" \
-	 -K "$DATASET.mytaxa.krona" -u
-   elif [[ -e "../../../06.cds/$DATASET.gff3" ]] ; then
-      # GFF3
-      perl "$MT/utils/infile_convert.pl" -f gff3 \
-	 "../../../06.cds/$DATASET.gff3" "$DATASET.blast" | sort -k 13 \
-	 > "$DATASET.mytaxain"
-      "$MT/MyTaxa" "$DATASET.mytaxain" "$DATASET.mytaxa" "0.5"
-      perl "$MT/utils/MyTaxa.distribution.pl" -m "$DATASET.mytaxa" \
-	 -g "../../../06.cds/$DATASET.gff3" -f gff3 \
-	 -I "$DATASET.mytaxa.innominate" -G "$DATASET.mytaxa.genes" \
-	 -K "$DATASET.mytaxa.krona" -u
-   else
-      # No GFF
-      perl "$MT/utils/infile_convert.pl" -f no "LOREM_IPSUM" "$DATASET.blast" \
-	 | sort -k 13 > "$DATASET.mytaxain"
-      "$MT/MyTaxa" "$DATASET.mytaxain" "$DATASET.mytaxa" "0.5"
-      perl "$MT/utils/MyTaxa.distribution.pl" -m "$DATASET.mytaxa" \
-	 -I "$DATASET.mytaxa.innominate" -G "$DATASET.mytaxa.genes" \
-	 -K "$DATASET.mytaxa.krona" -u
-   fi
+  # Prepare MyTaxa input, execute MyTaxa, and generate profiles
+  [[ -e "../../../06.cds/$DATASET.gff2.gz" ]] \
+    && [[ ! -e "../../../06.cds/$DATASET.gff2" ]] \
+    && gunzip "../../../06.cds/$DATASET.gff2.gz"
+  [[ -e "../../../06.cds/$DATASET.gff3.gz" ]] \
+    && [[ ! -e "../../../06.cds/$DATASET.gff3" ]] \
+    && gunzip "../../../06.cds/$DATASET.gff3.gz"
+  if [[ -e "../../../06.cds/$DATASET.gff2" ]] ; then
+    # GFF2
+    perl "$MT/utils/infile_convert.pl" -f gff2 \
+      "../../../06.cds/$DATASET.gff2" "$DATASET.blast" \
+      | sort -k 13 > "$DATASET.mytaxain"
+    "$MT/MyTaxa" "$DATASET.mytaxain" "$DATASET.mytaxa" "0.5"
+    perl "$MT/utils/MyTaxa.distribution.pl" -m "$DATASET.mytaxa" \
+      -g "../../../06.cds/$DATASET.gff2" -f gff2 \
+      -I "$DATASET.mytaxa.innominate" -G "$DATASET.mytaxa.genes" \
+      -K "$DATASET.mytaxa.krona" -u
+  elif [[ -e "../../../06.cds/$DATASET.gff3" ]] ; then
+    # GFF3
+    perl "$MT/utils/infile_convert.pl" -f gff3 \
+      "../../../06.cds/$DATASET.gff3" "$DATASET.blast" | sort -k 13 \
+      > "$DATASET.mytaxain"
+    "$MT/MyTaxa" "$DATASET.mytaxain" "$DATASET.mytaxa" "0.5"
+    perl "$MT/utils/MyTaxa.distribution.pl" -m "$DATASET.mytaxa" \
+      -g "../../../06.cds/$DATASET.gff3" -f gff3 \
+      -I "$DATASET.mytaxa.innominate" -G "$DATASET.mytaxa.genes" \
+      -K "$DATASET.mytaxa.krona" -u
+  else
+    # No GFF
+    perl "$MT/utils/infile_convert.pl" -f no "LOREM_IPSUM" "$DATASET.blast" \
+      | sort -k 13 > "$DATASET.mytaxain"
+    "$MT/MyTaxa" "$DATASET.mytaxain" "$DATASET.mytaxa" "0.5"
+    perl "$MT/utils/MyTaxa.distribution.pl" -m "$DATASET.mytaxa" \
+      -I "$DATASET.mytaxa.innominate" -G "$DATASET.mytaxa.genes" \
+      -K "$DATASET.mytaxa.krona" -u
+  fi
-   # Execute Krona
-   ktImportText -o "$DATASET.html" -n biota "$DATASET.mytaxa.krona,$DATASET"
+  # Execute Krona
+  ktImportText -o "$DATASET.html" -n biota "$DATASET.mytaxa.krona,$DATASET"
-   # Gzip and cleanup
-   [[ -e "../../../06.cds/$DATASET.gff2" ]] \
-      && gzip -9 -f "../../../06.cds/$DATASET.gff2"
-   [[ -e "../../../06.cds/$DATASET.gff3" ]] \
-      && gzip -9 -f "../../../06.cds/$DATASET.gff3"
-   gzip -9 -f "$DATASET.mytaxain"
-   gzip -9 -f "$DATASET.blast"
-   rm "$DATASET.daa"
+  # Gzip and cleanup
+  [[ -e "../../../06.cds/$DATASET.gff2" ]] \
+    && gzip -9 -f "../../../06.cds/$DATASET.gff2"
+  [[ -e "../../../06.cds/$DATASET.gff3" ]] \
+    && gzip -9 -f "../../../06.cds/$DATASET.gff3"
+  gzip -9 -f "$DATASET.mytaxain"
+  gzip -9 -f "$DATASET.blast"
+  rm "$DATASET.daa"
 fi
 # Finalize
-date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
+miga date > "$DATASET.done"
 miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"

data/scripts/mytaxa_scan.bash CHANGED Viewed

@@ -1,86 +1,87 @@
 #!/bin/bash
-# Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
+# Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES, $DATASET
 set -e
 SCRIPT="mytaxa_scan"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
+# shellcheck source=scripts/miga.bash
 source "$MIGA/scripts/miga.bash" || exit 1
 DIR="$PROJECT/data/07.annotation/03.qa/02.mytaxa_scan"
 [[ -d "$DIR" ]] || mkdir -p "$DIR"
 cd "$DIR"
 # Initialize
-date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.start"
-MT=$(dirname -- $(which MyTaxa))
+miga date > "$DATASET.start"
+MT=$(dirname -- "$(which MyTaxa)")
 TMPDIR=$(mktemp -d /tmp/MiGA.XXXXXXXXXXXX)
-trap "rm -rf $TMPDIR; exit" SIGHUP SIGINT SIGTERM
+trap "rm -rf '$TMPDIR'; exit" SIGHUP SIGINT SIGTERM
 # Check type of dataset
 NOMULTI=$(miga list_datasets -P "$PROJECT" -D "$DATASET" --no-multi \
-   | wc -l | awk '{print $1}')
+  | wc -l | awk '{print $1}')
 if [[ "$NOMULTI" -eq "1" ]] ; then
-   # Check requirements
-   if [[ ! -e "$MT/AllGenomes.faa.dmnd" ]] ; then
-      echo "Cannot locate the database: $MT/AllGenomes.faa.dmnd:" \
-	 "no such file or directory" >&2
-      exit 1
-   fi
-   if [[ ! -d "$MT/db" ]] ; then
-      echo "Cannot locate the MyTaxa index: $MT/db:" \
-	 "no such file or directory" >&2
-      exit 1
-   fi
-   if [[ ! -d "$MT/utils" ]] ; then
-      echo "Cannot locate the MyTaxa utilities: $MT/utils:" \
-	 "no such file or directory" >&2
-      exit 1
-   fi
+  # Check requirements
+  if [[ ! -e "$MT/AllGenomes.faa.dmnd" ]] ; then
+    echo "Cannot locate the database: $MT/AllGenomes.faa.dmnd:" \
+          "no such file or directory" >&2
+    exit 1
+  fi
+  if [[ ! -d "$MT/db" ]] ; then
+    echo "Cannot locate the MyTaxa index: $MT/db:" \
+          "no such file or directory" >&2
+    exit 1
+  fi
+  if [[ ! -d "$MT/utils" ]] ; then
+    echo "Cannot locate the MyTaxa utilities: $MT/utils:" \
+          "no such file or directory" >&2
+    exit 1
+  fi
-   if [[ ! -s "$DATASET.mytaxa" ]] ; then
-      # Execute search
-      if [[ ! -s "$DATASET.blast" ]] ; then
-	 diamond blastp -q "../../../06.cds/$DATASET.faa" \
-	    -d "$MT/AllGenomes.faa" -k 5 -p "$CORES" --min-score 60 \
-	    -a "$DATASET.daa" -t "$TMPDIR"
-	 diamond view -a "$DATASET.daa" -o "$DATASET.blast" -t "$TMPDIR"
-      fi
+  if [[ ! -s "$DATASET.mytaxa" ]] ; then
+    # Execute search
+    if [[ ! -s "$DATASET.blast" ]] ; then
+      diamond blastp -q "../../../06.cds/$DATASET.faa" \
+        -d "$MT/AllGenomes.faa" -k 5 -p "$CORES" --min-score 60 \
+        -a "$DATASET.daa" -t "$TMPDIR"
+      diamond view -a "$DATASET.daa" -o "$DATASET.blast" -t "$TMPDIR"
+    fi
-      # Prepare MyTaxa input, execute MyTaxa, and generate profiles
-      perl "$MT/utils/infile_convert.pl" -f no "LOREM_IPSUM" "$DATASET.blast" \
-	 | sort -k 13 > "$DATASET.mytaxain"
-      "$MT/MyTaxa" "$DATASET.mytaxain" "$DATASET.mytaxa" "0.5"
-   fi
-   ruby "$MIGA/utils/mytaxa_scan.rb" "../../../06.cds/$DATASET.faa" \
-      "$DATASET.mytaxa" "$DATASET.wintax"
-   echo "
-   source('$MIGA/utils/mytaxa_scan.R');
-   pdf('$DATASET.pdf', 12, 7);
-   mytaxa.scan('$DATASET.wintax');
-   dev.off();
-   " | R --vanilla
+    # Prepare MyTaxa input, execute MyTaxa, and generate profiles
+    perl "$MT/utils/infile_convert.pl" -f no "LOREM_IPSUM" "$DATASET.blast" \
+      | sort -k 13 > "$DATASET.mytaxain"
+    "$MT/MyTaxa" "$DATASET.mytaxain" "$DATASET.mytaxa" "0.5"
+  fi
+  ruby "$MIGA/utils/mytaxa_scan.rb" "../../../06.cds/$DATASET.faa" \
+        "$DATASET.mytaxa" "$DATASET.wintax"
+  echo "
+  source('$MIGA/utils/mytaxa_scan.R');
+  pdf('$DATASET.pdf', 12, 7);
+  mytaxa.scan('$DATASET.wintax');
+  dev.off();
+  " | R --vanilla
-   # Extract genes from flagged regions
-   [[ -d "$DATASET.reg" ]] || mkdir "$DATASET.reg"
-   if [[ -e "$DATASET.wintax.regions" ]] ; then
-      i=0
-      for win in $(cat "$DATASET.wintax.regions") ; do
-	 let i=$i+1
-	 awk "NR==$win" "$DATASET.wintax.genes" | tr "\\t" "\\n" \
-	    > "$DATASET.reg/$i.ids"
-	 FastA.filter.pl -q "$DATASET.reg/$i.ids" \
-	    "../../../06.cds/$DATASET.faa" > "$DATASET.reg/$i.faa"
-      done
-   fi
+  # Extract genes from flagged regions
+  [[ -d "$DATASET.reg" ]] || mkdir "$DATASET.reg"
+  if [[ -e "$DATASET.wintax.regions" ]] ; then
+    i=0
+    for win in $(cat "$DATASET.wintax.regions") ; do
+      let i=$i+1
+      awk "NR==$win" "$DATASET.wintax.genes" | tr "\\t" "\\n" \
+        > "$DATASET.reg/$i.ids"
+      FastA.filter.pl -q "$DATASET.reg/$i.ids" \
+        "../../../06.cds/$DATASET.faa" > "$DATASET.reg/$i.faa"
+    done
+  fi
-   # Clean
-   [[ -e "$DATASET.daa" ]] && rm "$DATASET.daa"
-   [[ -s "$DATASET.blast" && ! -s "$DATASET.blast.gz" ]] \
-      && gzip -9 -f "$DATASET.blast"
-   [[ -s "$DATASET.mytaxain" && ! -s "$DATASET.mytaxain.gz" ]] \
-      && gzip -9 -f "$DATASET.mytaxain"
+  # Clean
+  [[ -e "$DATASET.daa" ]] && rm "$DATASET.daa"
+  [[ -s "$DATASET.blast" && ! -s "$DATASET.blast.gz" ]] \
+    && gzip -9 -f "$DATASET.blast"
+  [[ -s "$DATASET.mytaxain" && ! -s "$DATASET.mytaxain.gz" ]] \
+    && gzip -9 -f "$DATASET.mytaxain"
 fi
 # Finalize
 rm -R "$TMPDIR"
-date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
+miga date > "$DATASET.done"
 miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"

data/scripts/ogs.bash CHANGED Viewed

@@ -4,11 +4,12 @@ set -e
 SCRIPT="ogs"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
+# shellcheck source=scripts/miga.bash
 source "$MIGA/scripts/miga.bash" || exit 1
 cd "$PROJECT/data/10.clades/03.ogs"
 # Initialize
-date "+%Y-%m-%d %H:%M:%S %z" > "miga-project.start"
+miga date > "miga-project.start"
 echo -n "" > miga-project.log
 DS=$(miga list_datasets -P "$PROJECT" --ref --no-multi)
@@ -16,25 +17,25 @@ DS=$(miga list_datasets -P "$PROJECT" --ref --no-multi)
 # Extract RBMs
 [[ -d miga-project.rbm ]] || mkdir miga-project.rbm
 for i in $DS ; do
-   for j in $DS ; do
-      file="miga-project.rbm/$i-$j.rbm"
-      [[ -s $file ]] && continue
-      echo "SELECT id1,id2,id,0,0,0,0,0,0,0,evalue,bitscore from rbm" \
-	 "where seq1='$i' and seq2='$j' ;" \
-	 | sqlite3 "../../09.distances/02.aai/$i.db" | tr "\\|" "\\t" \
-	 > $file
-      [[ -s $file ]] || rm $file
-   done
-   echo "$i" >> miga-project.log
+  for j in $DS ; do
+    file="miga-project.rbm/$i-$j.rbm"
+    [[ -s $file ]] && continue
+    echo "SELECT id1,id2,id,0,0,0,0,0,0,0,evalue,bitscore from rbm" \
+      "where seq1='$i' and seq2='$j' ;" \
+      | sqlite3 "../../09.distances/02.aai/$i.db" | tr "\\|" "\\t" \
+      > "$file"
+    [[ -s "$file" ]] || rm "$file"
+  done
+  echo "$i" >> miga-project.log
 done
 # Estimate OGs
-ogs.mcl.rb -o miga-project.ogs -d miga-project.rbm -t $CORES
+ogs.mcl.rb -o miga-project.ogs -d miga-project.rbm -t "$CORES"
 ogs.stats.rb -o miga-project.ogs -j miga-project.stats
 # Clean RBMs
 rm -rf miga-project.rbm
 # Finalize
-date "+%Y-%m-%d %H:%M:%S %z" > "miga-project.done"
+miga date > "miga-project.done"
 miga add_result -P "$PROJECT" -r "$SCRIPT"

data/scripts/project_stats.bash CHANGED Viewed

@@ -4,6 +4,7 @@ set -e
 SCRIPT="project_stats"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
+# shellcheck source=scripts/miga.bash
 source "$MIGA/scripts/miga.bash" || exit 1
 DIR="$PROJECT/data/90.stats"
 [[ -d "$DIR" ]] || mkdir -p "$DIR"

data/scripts/read_quality.bash CHANGED Viewed

@@ -1,38 +1,34 @@
 #!/bin/bash
-# Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
+# Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES, $DATASET
 set -e
 SCRIPT="read_quality"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
+# shellcheck source=scripts/miga.bash
 source "$MIGA/scripts/miga.bash" || exit 1
 cd "$PROJECT/data/03.read_quality"
 b=$DATASET
 # Initialize
-date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.start"
+miga date > "$DATASET.start"
 # FastQC
 [[ -d "$b.fastqc" ]] || mkdir "$b.fastqc"
-fastqc ../02.trimmed_reads/$b.[12].clipped.fastq -o $b.fastqc
+fastqc "../02.trimmed_reads/$b".[12].clipped.fastq -o "$b.fastqc"
 # SolexaQA++
 [[ -d "$b.solexaqa" ]] || mkdir "$b.solexaqa"
-exists ../02.trimmed_reads/$b.[12].*.pdf \
-   && mv ../02.trimmed_reads/$b.[12].*.pdf "$b.solexaqa/"
+exists "../02.trimmed_reads/$b".[12].*.pdf \
+  && mv "../02.trimmed_reads/$b".[12].*.pdf "$b.solexaqa/"
 # Clean 02.trimmed_reads
-[[ -e "../02.trimmed_reads/$b.1.fastq_trimmed.segments" ]] \
-   && rm ../02.trimmed_reads/$b.[12].fastq_trimmed.segments
-[[ -e "../02.trimmed_reads/$b.1.fastq.trimmed.paired" ]] \
-   && rm ../02.trimmed_reads/$b.[12].fastq.trimmed.paired
-[[ -e "../02.trimmed_reads/$b.1.fastq.trimmed.single" ]] \
-   && rm ../02.trimmed_reads/$b.[12].fastq.trimmed.single
-[[ -e "../02.trimmed_reads/$b.1.fastq.trimmed" ]] \
-   && rm ../02.trimmed_reads/$b.[12].fastq.trimmed
-[[ -e "../02.trimmed_reads/$b.1.fastq" ]] \
-   && rm ../02.trimmed_reads/$b.[12].fastq
+rm -f "../02.trimmed_reads/$b".[12].fastq_trimmed.segments
+rm -f "../02.trimmed_reads/$b".[12].fastq.trimmed.paired
+rm -f "../02.trimmed_reads/$b".[12].fastq.trimmed.single
+rm -f "../02.trimmed_reads/$b".[12].fastq.trimmed
+rm -f "../02.trimmed_reads/$b".[12].fastq
 # Finalize
-date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
+miga date > "$DATASET.done"
 miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"

data/scripts/ssu.bash CHANGED Viewed

@@ -1,36 +1,36 @@
 #!/bin/bash
-# Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
+# Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES, $DATASET
 set -e
 SCRIPT="ssu"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
+# shellcheck source=scripts/miga.bash
 source "$MIGA/scripts/miga.bash" || exit 1
 DIR="$PROJECT/data/07.annotation/01.function/02.ssu"
 [[ -d "$DIR" ]] || mkdir -p "$DIR"
 cd "$DIR"
 # Initialize
-date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.start"
+miga date > "$DATASET.start"
 fa="../../../05.assembly/$DATASET.LargeContigs.fna"
 if [[ -s $fa ]] ; then
-   # Run barrnap
-   barrnap --quiet --threads $CORES $fa | grep "^##gff\\|;product=16S " \
-      > $DATASET.ssu.gff
-   # Extract
-   bedtools getfasta -s "-fi" $fa -bed $DATASET.ssu.gff -fo $DATASET.ssu.all.fa
-   FastA.length.pl $DATASET.ssu.all.fa | sort -nr -k 2 | head -n 1 \
-      | cut -f 1 > $DATASET.ssu.fa.id
-   FastA.filter.pl $DATASET.ssu.fa.id $DATASET.ssu.all.fa > $DATASET.ssu.fa
-   rm $DATASET.ssu.fa.id
-   [[ -e "$fa.fai" ]] && rm "$fa.fai"
-   # Gzip
-   gzip -9 -f "$DATASET.ssu.gff"
-   gzip -9 -f "$DATASET.ssu.all.fa"
+  # Run barrnap
+  barrnap --quiet --threads "$CORES" "$fa" | grep "^##gff\\|;product=16S " \
+    > "$DATASET.ssu.gff"
+  # Extract
+  bedtools getfasta -s "-fi" "$fa" -bed "$DATASET.ssu.gff" \
+    -fo "$DATASET.ssu.all.fa"
+  FastA.length.pl "$DATASET.ssu.all.fa" | sort -nr -k 2 | head -n 1 \
+    | cut -f 1 > "$DATASET.ssu.fa.id"
+  FastA.filter.pl "$DATASET.ssu.fa.id" "$DATASET.ssu.all.fa" > "$DATASET.ssu.fa"
+  rm "$DATASET.ssu.fa.id"
+  [[ -e "$fa.fai" ]] && rm "$fa.fai"
+  # Gzip
+  gzip -9 -f "$DATASET.ssu.gff"
+  gzip -9 -f "$DATASET.ssu.all.fa"
 fi
 # Finalize
-date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
+miga date > "$DATASET.done"
 miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"

data/scripts/stats.bash CHANGED Viewed

@@ -4,13 +4,14 @@ set -e
 SCRIPT="stats"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
+# shellcheck source=scripts/miga.bash
 source "$MIGA/scripts/miga.bash" || exit 1
 DIR="$PROJECT/data/90.stats"
 [[ -d "$DIR" ]] || mkdir -p "$DIR"
 cd "$DIR"
 # Initialize
-date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.start"
+miga date > "$DATASET.start"
 # Calculate statistics
 for i in raw_reads trimmed_fasta assembly cds essential_genes distances ; do
@@ -19,5 +20,5 @@ for i in raw_reads trimmed_fasta assembly cds essential_genes distances ; do
 done
 # Finalize
-date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
+miga date > "$DATASET.done"
 miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"

data/scripts/subclades.bash CHANGED Viewed

@@ -4,23 +4,24 @@ set -e
 SCRIPT="subclades"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
+# shellcheck source=scripts/miga.bash
 source "$MIGA/scripts/miga.bash" || exit 1
 cd "$PROJECT/data/10.clades/02.ani"
 # Initialize
-date "+%Y-%m-%d %H:%M:%S %z" > "miga-project.start"
+miga date > "miga-project.start"
 # Run R code
-$MIGA/utils/subclades.R \
+"$MIGA/utils/subclades.R" \
   ../../09.distances/03.ani/miga-project.txt.gz \
-  miga-project $CORES
+  miga-project "$CORES"
 mv miga-project.nwk miga-project.ani.nwk
 # Compile
 ruby "$MIGA/utils/subclades-compile.rb" . \
-   >  miga-project.class.tsv \
-   2> miga-project.class.nwk
+  >  miga-project.class.tsv \
+  2> miga-project.class.nwk
 # Finalize
-date "+%Y-%m-%d %H:%M:%S %z" > "miga-project.done"
+miga date > "miga-project.done"
 miga add_result -P "$PROJECT" -r "$SCRIPT"

data/scripts/trimmed_fasta.bash CHANGED Viewed

@@ -1,48 +1,49 @@
 #!/bin/bash
-# Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
+# Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES, $DATASET
 set -e
 SCRIPT="trimmed_fasta"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
+# shellcheck source=scripts/miga.bash
 source "$MIGA/scripts/miga.bash" || exit 1
 cd "$PROJECT/data/04.trimmed_fasta"
 b=$DATASET
 # Initialize
-date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.start"
+miga date > "$DATASET.start"
 # Gunzip (if necessary)
 for sis in 1 2 ; do
-   [[ -e "../02.trimmed_reads/$b.$sis.clipped.fastq.gz" \
-      && ! -e "../02.trimmed_reads/$b.$sis.clipped.fastq" ]] \
+  [[ -e "../02.trimmed_reads/$b.$sis.clipped.fastq.gz" \
+    && ! -e "../02.trimmed_reads/$b.$sis.clipped.fastq" ]] \
       && gunzip "../02.trimmed_reads/$b.$sis.clipped.fastq.gz"
 done
 # FastQ -> FastA
-cat ../02.trimmed_reads/$b.1.clipped.fastq | FastQ.toFastA.awk > $b.1.fasta
-if [[ -e ../02.trimmed_reads/$b.2.clipped.fastq ]] ; then
-   cat ../02.trimmed_reads/$b.2.clipped.fastq | FastQ.toFastA.awk > $b.2.fasta
-   FastA.interpose.pl $b.CoupledReads.fa $b.[12].fasta
-   gzip -9 -f $b.2.fasta
-   gzip -9 -f $b.1.fasta
-   cat ../02.trimmed_reads/$b.[12].clipped.single.fastq | FastQ.toFastA.awk \
-      > $b.SingleReads.fa
-   gzip -9 -f $b.SingleReads.fa
+FastQ.toFastA.awk < "../02.trimmed_reads/$b.1.clipped.fastq" > "$b.1.fasta"
+if [[ -e "../02.trimmed_reads/$b.2.clipped.fastq" ]] ; then
+  FastQ.toFastA.awk < "../02.trimmed_reads/$b.2.clipped.fastq" > "$b.2.fasta"
+  FastA.interpose.pl "$b.CoupledReads.fa" "$b".[12].fasta
+  gzip -9 -f "$b.2.fasta"
+  gzip -9 -f "$b.1.fasta"
+  FastQ.toFastA.awk < "../02.trimmed_reads/$b".[12].clipped.single.fastq \
+    > "$b.SingleReads.fa"
+  gzip -9 -f "$b.SingleReads.fa"
 else
-   mv $b.1.fasta $b.SingleReads.fa
+   mv "$b.1.fasta" "$b.SingleReads.fa"
 fi
 # Compress input at 01.raw_reads and 02.trimmed_reads
 for sis in 1 2 ; do
-   [[ -e "../01.raw_reads/$b.$sis.fastq" ]] \
-      && gzip -9 -f "../01.raw_reads/$b.$sis.fastq"
-   [[ -e "../02.trimmed_reads/$b.$sis.clipped.fastq" ]] \
-      && gzip -9 -f "../02.trimmed_reads/$b.$sis.clipped.fastq"
-   [[ -e "../02.trimmed_reads/$b.$sis.clipped.single.fastq" ]] \
-      && gzip -9 -f "../02.trimmed_reads/$b.$sis.clipped.single.fastq"
+  [[ -e "../01.raw_reads/$b.$sis.fastq" ]] \
+    && gzip -9 -f "../01.raw_reads/$b.$sis.fastq"
+  [[ -e "../02.trimmed_reads/$b.$sis.clipped.fastq" ]] \
+    && gzip -9 -f "../02.trimmed_reads/$b.$sis.clipped.fastq"
+  [[ -e "../02.trimmed_reads/$b.$sis.clipped.single.fastq" ]] \
+    && gzip -9 -f "../02.trimmed_reads/$b.$sis.clipped.single.fastq"
 done
 # Finalize
-date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
+miga date > "$DATASET.done"
 miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"