RubyGems - miga-base - Versions diffs - 0.2.2.1 → 0.2.2.2 - Mend

miga-base 0.2.2.1 → 0.2.2.2

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (40) hide show

checksums.yaml +4 -4
data/Gemfile +4 -1
data/actions/create_dataset.rb +2 -5
data/actions/daemon.rb +1 -0
data/actions/plugins.rb +25 -0
data/actions/result_stats.rb +10 -0
data/bin/miga +1 -0
data/lib/miga/daemon.rb +12 -4
data/lib/miga/dataset.rb +4 -3
data/lib/miga/project.rb +38 -4
data/lib/miga/remote_dataset.rb +2 -2
data/lib/miga/version.rb +1 -1
data/scripts/_distances_functions.bash +20 -20
data/scripts/_distances_noref_nomulti.bash +20 -13
data/scripts/_distances_ref_nomulti.bash +11 -10
data/scripts/aai_distances.bash +15 -12
data/scripts/ani_distances.bash +14 -11
data/scripts/assembly.bash +2 -1
data/scripts/cds.bash +2 -2
data/scripts/clade_finding.bash +2 -1
data/scripts/distances.bash +2 -2
data/scripts/essential_genes.bash +14 -4
data/scripts/haai_distances.bash +17 -20
data/scripts/init.bash +1 -1
data/scripts/miga.bash +6 -0
data/scripts/mytaxa.bash +2 -2
data/scripts/mytaxa_scan.bash +2 -2
data/scripts/ogs.bash +2 -2
data/scripts/read_quality.bash +2 -2
data/scripts/ssu.bash +2 -2
data/scripts/stats.bash +3 -2
data/scripts/subclades.bash +2 -2
data/scripts/trimmed_fasta.bash +2 -2
data/scripts/trimmed_reads.bash +2 -2
data/test/daemon_test.rb +1 -1
data/test/test_helper.rb +2 -2
data/utils/subclades-nj.R +244 -0
data/utils/subclades-pam.R +186 -0
data/utils/subclades.R +39 -13
metadata +6 -3

data/scripts/essential_genes.bash CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/bin/bash
 # Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
 set -e
+SCRIPT="essential"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
 source "$MIGA/scripts/miga.bash" || exit 1
@@ -8,6 +9,16 @@ cd "$PROJECT/data/07.annotation/01.function/01.essential"
 # Initialize
 date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.start"
+FAA="../../../06.cds/$DATASET.faa"
+# Check if there are any proteins
+if [[ ! -s $FAA ]] ; then
+  echo Empty protein set, bypassing essential genes
+  rm "$DATASET.start"
+  miga create_dataset -P "$PROJECT" -D $DATASET \
+    -m run_essential_genes=false --update
+  exit 0
+fi
 # Find and extract essential genes
 [[ -d "$DATASET.ess" ]] && rm -R "$DATASET.ess"
@@ -15,16 +26,15 @@ mkdir "$DATASET.ess"
 TYPE=$(miga list_datasets -P "$PROJECT" -D "$DATASET" \
    --metadata "type" | awk '{print $2}')
 if [[ "$TYPE" == "metagenome" || "$TYPE" == "virome" ]] ; then
-   HMM.essential.rb -i "../../../06.cds/$DATASET.faa" -o "$DATASET.ess.faa" \
+   HMM.essential.rb -i "$FAA" -o "$DATASET.ess.faa" \
       -m "$DATASET.ess/" -t "$CORES" -r "$DATASET" --metagenome \
       > "$DATASET.ess/log"
 else
-   HMM.essential.rb -i "../../../06.cds/$DATASET.faa" -o "$DATASET.ess.faa" \
+   HMM.essential.rb -i "$FAA" -o "$DATASET.ess.faa" \
       -m "$DATASET.ess/" -t "$CORES" -r "$DATASET" \
       > "$DATASET.ess/log"
 fi
 # Finalize
 date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
-miga add_result -P "$PROJECT" -D "$DATASET" -r essential
+miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"

data/scripts/haai_distances.bash CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/bin/bash
 # Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
 set -e
+SCRIPT="haai_distances"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
 source "$MIGA/scripts/miga.bash" || exit 1
@@ -15,32 +16,28 @@ DS=$(miga list_datasets -P "$PROJECT" --ref --no-multi)
 # Extract values
 echo "metric a b value sd n omega" | tr " " "\\t" >miga-project.txt
 for i in $DS ; do
-   echo "SELECT 'hAAI', seq1, seq2, aai, sd, n, omega from aai ;" \
-      | sqlite3 "$i.db" | tr "\\|" "\\t" >>miga-project.txt
-   echo "$i" >> miga-project.log
+  echo "SELECT 'hAAI', seq1, seq2, aai, sd, n, omega from aai ;" \
+    | sqlite3 "$i.db" | tr "\\|" "\\t" >>miga-project.txt
+  echo "$i" >> miga-project.log
 done
 # R-ify
-if true ; then
-  echo "
-  haai <- read.table('miga-project.txt', sep='\\t', h=T);
-  save(haai, file='miga-project.Rdata');"
-  if [[ $(cat miga-project.txt | wc -l) -gt 1 ]] ; then
-    echo "
-    h <- hist(haai[,'value'], breaks=100, plot=FALSE);
-    write.table(
-      cbind(h[['breaks']][-length(h[['breaks']])],
-        h[['breaks']][-1],h[['counts']]),
-      file='miga-project.hist', quote=FALSE, sep='\\t',
-      col.names=FALSE, row.names=FALSE);
-    "
-  fi
-fi | R --vanilla
+echo "
+haai <- read.table('miga-project.txt', sep='\\t', h=T, as.is=TRUE);
+save(haai, file='miga-project.Rdata');
+if(sum(haai[,'a'] != haai[,'b']) > 0){
+  h <- hist(haai[haai[,'a'] != haai[,'b'], 'value'], breaks=100, plot=FALSE);
+  write.table(
+    cbind(h[['breaks']][-length(h[['breaks']])],
+      h[['breaks']][-1],h[['counts']]),
+    file='miga-project.hist', quote=FALSE, sep='\\t',
+    col.names=FALSE, row.names=FALSE);
+}
+" | R --vanilla
 # Gzip
 gzip -9 -f miga-project.txt
 # Finalize
 date "+%Y-%m-%d %H:%M:%S %z" > "miga-project.done"
-miga add_result -P "$PROJECT" -r haai_distances
+miga add_result -P "$PROJECT" -r "$SCRIPT"

data/scripts/init.bash CHANGED Viewed

@@ -106,7 +106,7 @@ echo "export PATH=\$MIGA_PATH\$PATH" >> "$HOME/.miga_rc"
 # Check for R packages
 echo "
 Looking for R packages:" >&2
-RLIBS="enveomics.R ape ggdendro ggplot2 gridExtra cluster dendextend vegan scatterplot3d"
+RLIBS="enveomics.R ape phangorn phytools ggdendro ggplot2 gridExtra cluster dendextend vegan scatterplot3d"
 for lib in $RLIBS ; do
    if ! check_rlib $lib ; then
       echo "+ Installing $lib" >&2

data/scripts/miga.bash CHANGED Viewed

@@ -3,8 +3,14 @@ set -e
 #MIGA=${MIGA:-$(cd "$(dirname "$0")/.."; pwd)}
 source "$HOME/.miga_rc"
 export PATH="$MIGA/bin:$PATH"
+SCRIPT=${SCRIPT:-$(basename $0 .bash)}
 function exists { [[ -e "$1" ]] ; }
+function fx_exists { [[ $(type -t $1) == "function" ]] ; }
+for i in $(miga plugins -P "$PROJECT") ; do
+  source "$i/scripts-plugin.bash"
+done
 #if [[ "$RUNTYPE" == "qsub" ]] ; then
 #elif [[ "$RUNTYPE" == "msub" ]] ; then

data/scripts/mytaxa.bash CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/bin/bash
 # Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
 set -e
+SCRIPT="mytaxa"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
 source "$MIGA/scripts/miga.bash" || exit 1
@@ -90,5 +91,4 @@ fi
 # Finalize
 date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
-miga add_result -P "$PROJECT" -D "$DATASET" -r mytaxa
+miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"

data/scripts/mytaxa_scan.bash CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/bin/bash
 # Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
 set -e
+SCRIPT="mytaxa_scan"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
 source "$MIGA/scripts/miga.bash" || exit 1
@@ -82,5 +83,4 @@ fi
 # Finalize
 rm -R "$TMPDIR"
 date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
-miga add_result -P "$PROJECT" -D "$DATASET" -r mytaxa_scan
+miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"

data/scripts/ogs.bash CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/bin/bash
 # Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
 set -e
+SCRIPT="ogs"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
 source "$MIGA/scripts/miga.bash" || exit 1
@@ -36,5 +37,4 @@ rm -rf miga-project.rbm
 # Finalize
 date "+%Y-%m-%d %H:%M:%S %z" > "miga-project.done"
-miga add_result -P "$PROJECT" -r ogs
+miga add_result -P "$PROJECT" -r "$SCRIPT"

data/scripts/read_quality.bash CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/bin/bash
 # Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
 set -e
+SCRIPT="read_quality"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
 source "$MIGA/scripts/miga.bash" || exit 1
@@ -34,5 +35,4 @@ exists ../02.trimmed_reads/$b.[12].*.pdf \
 # Finalize
 date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
-miga add_result -P "$PROJECT" -D "$DATASET" -r read_quality
+miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"

data/scripts/ssu.bash CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/bin/bash
 # Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
 set -e
+SCRIPT="ssu"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
 source "$MIGA/scripts/miga.bash" || exit 1
@@ -32,5 +33,4 @@ fi
 # Finalize
 date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
-miga add_result -P "$PROJECT" -D "$DATASET" -r ssu
+miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"

data/scripts/stats.bash CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/bin/bash
 # Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES, $DATASET
 set -e
+SCRIPT="stats"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
 source "$MIGA/scripts/miga.bash" || exit 1
@@ -12,11 +13,11 @@ cd "$DIR"
 date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.start"
 # Calculate statistics
-for i in raw_reads trimmed_fasta assembly cds ; do
+for i in raw_reads trimmed_fasta assembly cds essential_genes ; do
   echo "# $i"
   miga result_stats --compute-and-save -P "$PROJECT" -D "$DATASET" -r $i
 done
 # Finalize
 date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
-miga add_result -P "$PROJECT" -D "$DATASET" -r stats
+miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"

data/scripts/subclades.bash CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/bin/bash
 # Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
 set -e
+SCRIPT="subclades"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
 source "$MIGA/scripts/miga.bash" || exit 1
@@ -22,5 +23,4 @@ ruby "$MIGA/utils/subclades-compile.rb" . \
 # Finalize
 date "+%Y-%m-%d %H:%M:%S %z" > "miga-project.done"
-miga add_result -P "$PROJECT" -r subclades
+miga add_result -P "$PROJECT" -r "$SCRIPT"

data/scripts/trimmed_fasta.bash CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/bin/bash
 # Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
 set -e
+SCRIPT="trimmed_fasta"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
 source "$MIGA/scripts/miga.bash" || exit 1
@@ -44,5 +45,4 @@ done
 # Finalize
 date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
-miga add_result -P "$PROJECT" -D "$DATASET" -r trimmed_fasta
+miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"

data/scripts/trimmed_reads.bash CHANGED Viewed

@@ -1,6 +1,7 @@
 #!/bin/bash
 # Available variables: $PROJECT, $RUNTYPE, $MIGA, $CORES
 set -e
+SCRIPT="trimmed_reads"
 echo "MiGA: $MIGA"
 echo "Project: $PROJECT"
 source "$MIGA/scripts/miga.bash" || exit 1
@@ -54,5 +55,4 @@ rm $b.[12].*.discard &>/dev/null
 # Finalize
 date "+%Y-%m-%d %H:%M:%S %z" > "$DATASET.done"
-miga add_result -P "$PROJECT" -D "$DATASET" -r trimmed_reads
+miga add_result -P "$PROJECT" -D "$DATASET" -r "$SCRIPT"

data/test/daemon_test.rb CHANGED Viewed

@@ -72,7 +72,7 @@ class DaemonTest < Test::Unit::TestCase
     d.runopts(:latency, 0, true)
     assert_equal(0, d.latency)
     omit_if($jruby_tests, "JRuby doesn't implement fork.")
-    $child = fork { d.start }
+    $child = fork { d.start(["--shush"]) }
     sleep(3)
     dpath = File.expand_path("daemon/MiGA:#{p.name}",p.path)
     assert(File.exist?("#{dpath}.pid"))

data/test/test_helper.rb CHANGED Viewed

@@ -1,5 +1,5 @@
-require "codeclimate-test-reporter"
-CodeClimate::TestReporter.start unless ENV["REMOTE_TESTS"].nil?
+require "simplecov"
+SimpleCov.start
 require "rubygems"
 require "test/unit"

data/utils/subclades-nj.R ADDED Viewed

@@ -0,0 +1,244 @@
+#!/usr/bin/env Rscript
+#
+# @package MiGA
+# @license Artistic-2.0
+#
+#= Load stuff
+argv <- commandArgs(trailingOnly=T)
+suppressPackageStartupMessages(library(ape))
+suppressPackageStartupMessages(library(vegan))
+suppressPackageStartupMessages(library(cluster))
+suppressPackageStartupMessages(library(phytools))
+suppressPackageStartupMessages(library(phangorn))
+suppressPackageStartupMessages(library(parallel))
+suppressPackageStartupMessages(library(enveomics.R))
+#= Main function
+subclades <- function(ani_file, out_base, thr=1, ani=c()) {
+  say("==> Out base:", out_base, "<==")
+  # Input arguments
+  if(missing(ani_file)){
+    a <- as.data.frame(ani)
+  }else{
+    a <- read.table(gzfile(ani_file), sep="\t", header=TRUE, as.is=TRUE)
+  }
+  if(nrow(a)==0){
+    generate_empty_files(out_base)
+    return(NULL)
+  }
+  # Get ANI distances
+  say("Distances")
+  a$d <- 1-a$value/100
+  ani.d <- enve.df2dist(data.frame(a$a, a$b, a$d), default.d=max(a$d)*1.2)
+  ani.ph <- midpoint(bionj(ani.d))
+  express.ori <- options('expressions')$expressions
+  if(express.ori < ani.ph$Nnode*4){
+    options(expressions=min(c(5e7,ani.ph$Nnode*4)))
+  }
+  write.tree(ani.ph, paste(out_base, ".nwk", sep=""))
+  options(expressions=express.ori)
+  ani.ph$edge.length[ ani.ph$edge.length<0 ] <- 0
+  ani.cpd <- cophenetic(ani.ph)
+  # Transform phylogenetic tree for clustering
+  ani.hcl <- as.hclust(
+    # 3. Randomly split multifurcations
+    multi2di(
+    # 2. Coalescent
+    compute.brtime(
+    # 1. Collapse zero-length and negative branches
+    di2multi(ani.ph, tol=min(ani.ph$edge.length[ani.ph$edge.length>0])))))
+  # Silhouette
+  say("Silhouette")
+  k <- 2:min(length(labels(ani.d))-1, 100)
+  s <- sapply(k, function(x) {
+      library(cluster)
+      cl <- cutree(ani.hcl, k=x)
+      s <- silhouette(cl, dmatrix=ani.cpd)
+      c(mean(s[,'sil_width']),
+        -sum(ifelse(s[,'sil_width']>0,0,s[,'sil_width'])))
+    })
+  s.avg.z <- (s[1,]-mean(s[1,]))/(sd(s[1,])+0.0001)
+  s.neg.z <- (s[2,]-mean(s[2,]))/(sd(s[2,])+0.01)
+  ds <- s.avg.z - s.neg.z - 2/(1:length(k)) - (1:length(k))/50
+  top.n <- k[which.max(ds)]
+  # Classify genomes
+  say("Classify => k :", top.n, "| n :", length(labels(ani.d)))
+  ani.types <- cutree(ani.hcl, k=top.n)
+  ani.medoids <- sapply(unique(ani.types),
+        clust.medoid, as.matrix(ani.d), ani.types)
+  # Generate graphic report
+  say("Graphic report")
+  pdf(paste(out_base, ".pdf", sep=""), 7, 12)
+  layout(matrix(c(1,1,2,2,3,3,4,5),byrow=TRUE, ncol=2))
+  plot_distances(ani.d)
+  plot_silhouette(k, s[1,], s[2,], ds, top.n)
+  plot_clustering(ani.hcl, ani.d, ani.types, ani.medoids)
+  plot_tree(ani.ph, ani.types, ani.medoids)
+  dev.off()
+  # Save results
+  say("Text report")
+  write.table(ani.medoids, paste(out_base, "medoids", sep="."),
+    quote=FALSE, col.names=FALSE, row.names=FALSE)
+  save(ani.d, file=paste(out_base, "dist.rdata", sep="."))
+  classif <- cbind(names(ani.types), ani.types, ani.medoids[ ani.types ], NA)
+  ani.d.m <- 100 - as.matrix(ani.d)*100
+  for(j in 1:nrow(classif)){
+    classif[j,4] <- ani.d.m[classif[j,1], classif[j,3]]
+  }
+  write.table(classif, paste(out_base,"classif",sep="."),
+    quote=FALSE, col.names=FALSE, row.names=FALSE, sep="\t")
+  # Recursive search
+  say("Recursive search")
+  for(i in 1:top.n){
+    medoid <- ani.medoids[i]
+    ds_f <- names(ani.types)[ ani.types==i ]
+    say("Analyzing subclade", i, "with medoid:", medoid)
+    dir.create(paste(out_base, ".sc-", i, sep=""))
+    write.table(ds_f,
+      paste(out_base, ".sc-", i, "/miga-project.all",sep=""),
+      quote=FALSE, col.names=FALSE, row.names=FALSE)
+    if(length(ds_f) > 5){
+      a_f <- a[ (a$a %in% ds_f) & (a$b %in% ds_f), ]
+      subclades(out_base=paste(out_base, ".sc-", i, "/miga-project", sep=""),
+        thr=thr, ani=a_f)
+    }
+  }
+}
+#= Helper functions
+say <- function(...) { cat("[", date(), "]", ..., "\n") }
+generate_empty_files <- function(out_base) {
+  pdf(paste(out_base, ".pdf", sep=""), 7, 12)
+  plot(1, t="n", axes=F)
+  legend("center", "No data", bty="n")
+  dev.off()
+  file.create(paste(out_base,".1.classif",sep=""))
+  file.create(paste(out_base,".1.medoids",sep=""))
+}
+plot_silhouette <- function(k, s, ns, ds, top.n) {
+  # s
+  par(mar=c(4,5,1,5)+0.1)
+  plot(1, t="n", xlab="k (clusters)", ylab="", xlim=range(c(0,k)),
+    ylim=range(s), bty="n", xaxs="i", yaxt="n")
+  polygon(c(k[1], k, k[length(k)]), c(0,s,0), border=NA, col="grey80")
+  axis(2, fg="grey60", col.axis="grey60")
+  mtext("Mean silhouette", side=2, line=3, col="grey60")
+  # ns
+  par(new=TRUE)
+  plot(1, t="n", xlab="", xaxt="n", ylab="", yaxt="n", xlim=range(c(0,k)),
+    ylim=range(ns), bty="n", xaxs="i")
+  points(k, ns, type="o", pch=16, col=rgb(1/2,0,0,3/4))
+  axis(4, fg="darkred", col.axis="darkred")
+  mtext("Negative silhouette area", side=4, line=3, col="darkred")
+  # ds
+  par(new=TRUE)
+  plot(1, t="n", xlab="", xaxt="n", ylab="", yaxt="n", xlim=range(c(0,k)),
+    ylim=range(ds), bty="n", xaxs="i")
+  lines(k, ds)
+  abline(v=top.n, lty=2)
+}
+plot_distances <- function(dist) {
+  par(mar=c(5,4,1,2)+0.1)
+  hist(dist, border=NA, col="grey60", breaks=50, xlab="Distances", main="")
+}
+plot_clustering <- function(hcl, dist, types, medoids) {
+  par(mar=c(5,4,4,2)+0.1)
+  top.n <- length(medoids)
+  col <- ggplotColours(top.n)
+  plot(silhouette(types, dist=dist), col=col)
+  if(length(labels(dist))<=15){
+    plot(1, type="n", axes=FALSE, xlab="", ylab="", bty="n")
+    plot(1, type="n", axes=FALSE, xlab="", ylab="", bty="n")
+  }else{
+    ani.mds <- cmdscale(dist, k=4)
+    if(ncol(ani.mds)==4){
+      plot(ani.mds[,1], ani.mds[,2], col=col[types], cex=1/2,
+	xlab='Component 1', ylab='Component 2')
+      plot(ani.mds[,3], ani.mds[,4], col=col[types], cex=1/2,
+	xlab='Component 3', ylab='Component 4')
+    }else{
+      plot(1, type="n", axes=FALSE, xlab="", ylab="", bty="n")
+      plot(1, type="n", axes=FALSE, xlab="", ylab="", bty="n")
+    }
+  }
+}
+plot_tree <- function(phy, types, medoids){
+  layout(1)
+  top.n <- length(unique(types))
+  col <- ggplotColours(top.n)
+  is.medoid <- phy$tip.label %in% medoids
+  phy$tip.label[is.medoid] <- paste(phy$tip.label[is.medoid],
+    " [", types[phy$tip.label[is.medoid]], "]", sep='')
+  plot(phy, cex=ifelse(is.medoid, 1/3, 1/6),
+    font=ifelse(is.medoid, 2, 1),
+    tip.color=col[types[phy$tip.label]])
+}
+ggplotColours <- function(n=6, h=c(0, 360)+15, alpha=1){
+  if ((diff(h)%%360) < 1) h[2] <- h[2] - 360/n
+  hcl(h=seq(h[1], h[2], length=n), c=100, l=65, alpha=alpha)
+}
+# Modified from https://www.biostars.org/p/11987/
+clust.medoid <- function(i, distmat, clusters) {
+  ind <- (clusters == i)
+  if (sum(ind) <= 1){
+    return (rownames(distmat)[ind])
+  } else {
+    return(names(which.min(rowSums( distmat[ind, ind] ))))
+  }
+}
+# Code from http://grokbase.com/t/r/r-sig-phylo/109268tgx8/midpoint-rooting
+midpoint <- function(tree){
+  dm = cophenetic(tree)
+  tree = unroot(tree)
+  rn = max(tree$edge)+1
+  maxdm = max(dm)
+  ind = which(dm==maxdm,arr=TRUE)[1,]
+  tmproot = Ancestors(tree, ind[1], "parent")
+  tree = phangorn:::reroot(tree, tmproot)
+  edge = tree$edge
+  el = tree$edge.length
+  children = tree$edge[,2]
+  left = match(ind[1], children)
+  tmp = Ancestors(tree, ind[2], "all")
+  tmp= c(ind[2], tmp[-length(tmp)])
+  right = match(tmp, children)
+  if(el[left]>= (maxdm/2)){
+    edge = rbind(edge, c(rn, ind[1]))
+    edge[left,2] = rn
+    el[left] = el[left] - (maxdm/2)
+    el = c(el, maxdm/2)
+  }else{
+    sel = cumsum(el[right])
+    i = which(sel>(maxdm/2))[1]
+    edge = rbind(edge, c(rn, tmp[i]))
+    edge[right[i],2] = rn
+    eltmp = sel[i] - (maxdm/2)
+    el = c(el, el[right[i]] - eltmp)
+    el[right[i]] = eltmp
+  }
+  tree$edge.length = el
+  tree$edge=edge
+  tree$Nnode = tree$Nnode+1
+  phangorn:::reorderPruning(phangorn:::reroot(tree, rn))
+}
+#= Main
+subclades(ani_file=argv[1], out_base=argv[2],
+  thr=ifelse(is.na(argv[3]), 1, as.numeric(argv[3])))