RubyGems - miga-base - Versions diffs - 1.2.17.0 → 1.2.17.1 - Mend

miga-base 1.2.17.0 → 1.2.17.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (299) hide show

checksums.yaml +4 -4
data/lib/miga/version.rb +1 -1
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Archaea_SCG.hmm +41964 -0
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Bacteria_SCG.hmm +32439 -0
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Complete_SCG_DB.hmm +62056 -0
data/utils/FastAAI/FastAAI +3659 -0
data/utils/FastAAI/FastAAI-legacy/FastAAI +1336 -0
data/utils/FastAAI/FastAAI-legacy/kAAI_v1.0_virus.py +1296 -0
data/utils/FastAAI/README.md +84 -0
data/utils/enveomics/Docs/recplot2.md +244 -0
data/utils/enveomics/Examples/aai-matrix.bash +66 -0
data/utils/enveomics/Examples/ani-matrix.bash +66 -0
data/utils/enveomics/Examples/essential-phylogeny.bash +105 -0
data/utils/enveomics/Examples/unus-genome-phylogeny.bash +100 -0
data/utils/enveomics/LICENSE.txt +73 -0
data/utils/enveomics/Makefile +52 -0
data/utils/enveomics/Manifest/Tasks/aasubs.json +103 -0
data/utils/enveomics/Manifest/Tasks/blasttab.json +790 -0
data/utils/enveomics/Manifest/Tasks/distances.json +161 -0
data/utils/enveomics/Manifest/Tasks/fasta.json +802 -0
data/utils/enveomics/Manifest/Tasks/fastq.json +291 -0
data/utils/enveomics/Manifest/Tasks/graphics.json +126 -0
data/utils/enveomics/Manifest/Tasks/mapping.json +137 -0
data/utils/enveomics/Manifest/Tasks/ogs.json +382 -0
data/utils/enveomics/Manifest/Tasks/other.json +906 -0
data/utils/enveomics/Manifest/Tasks/remote.json +355 -0
data/utils/enveomics/Manifest/Tasks/sequence-identity.json +650 -0
data/utils/enveomics/Manifest/Tasks/tables.json +308 -0
data/utils/enveomics/Manifest/Tasks/trees.json +68 -0
data/utils/enveomics/Manifest/Tasks/variants.json +111 -0
data/utils/enveomics/Manifest/categories.json +165 -0
data/utils/enveomics/Manifest/examples.json +162 -0
data/utils/enveomics/Manifest/tasks.json +4 -0
data/utils/enveomics/Pipelines/assembly.pbs/CONFIG.mock.bash +69 -0
data/utils/enveomics/Pipelines/assembly.pbs/FastA.N50.pl +1 -0
data/utils/enveomics/Pipelines/assembly.pbs/FastA.filterN.pl +1 -0
data/utils/enveomics/Pipelines/assembly.pbs/FastA.length.pl +1 -0
data/utils/enveomics/Pipelines/assembly.pbs/README.md +189 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-2.bash +112 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-3.bash +23 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-4.bash +44 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME.bash +50 -0
data/utils/enveomics/Pipelines/assembly.pbs/kSelector.R +37 -0
data/utils/enveomics/Pipelines/assembly.pbs/newbler.pbs +68 -0
data/utils/enveomics/Pipelines/assembly.pbs/newbler_preparator.pl +49 -0
data/utils/enveomics/Pipelines/assembly.pbs/soap.pbs +80 -0
data/utils/enveomics/Pipelines/assembly.pbs/stats.pbs +57 -0
data/utils/enveomics/Pipelines/assembly.pbs/velvet.pbs +63 -0
data/utils/enveomics/Pipelines/blast.pbs/01.pbs.bash +38 -0
data/utils/enveomics/Pipelines/blast.pbs/02.pbs.bash +73 -0
data/utils/enveomics/Pipelines/blast.pbs/03.pbs.bash +21 -0
data/utils/enveomics/Pipelines/blast.pbs/BlastTab.recover_job.pl +72 -0
data/utils/enveomics/Pipelines/blast.pbs/CONFIG.mock.bash +98 -0
data/utils/enveomics/Pipelines/blast.pbs/FastA.split.pl +1 -0
data/utils/enveomics/Pipelines/blast.pbs/README.md +127 -0
data/utils/enveomics/Pipelines/blast.pbs/RUNME.bash +109 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.check.bash +128 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.dry.bash +16 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.eo.bash +22 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.pause.bash +26 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.run.bash +89 -0
data/utils/enveomics/Pipelines/blast.pbs/sentinel.pbs.bash +29 -0
data/utils/enveomics/Pipelines/idba.pbs/README.md +49 -0
data/utils/enveomics/Pipelines/idba.pbs/RUNME.bash +95 -0
data/utils/enveomics/Pipelines/idba.pbs/run.pbs +56 -0
data/utils/enveomics/Pipelines/trim.pbs/README.md +54 -0
data/utils/enveomics/Pipelines/trim.pbs/RUNME.bash +70 -0
data/utils/enveomics/Pipelines/trim.pbs/run.pbs +130 -0
data/utils/enveomics/README.md +42 -0
data/utils/enveomics/Scripts/AAsubs.log2ratio.rb +171 -0
data/utils/enveomics/Scripts/Aln.cat.rb +221 -0
data/utils/enveomics/Scripts/Aln.convert.pl +35 -0
data/utils/enveomics/Scripts/AlphaDiversity.pl +152 -0
data/utils/enveomics/Scripts/BedGraph.tad.rb +93 -0
data/utils/enveomics/Scripts/BedGraph.window.rb +71 -0
data/utils/enveomics/Scripts/BlastPairwise.AAsubs.pl +102 -0
data/utils/enveomics/Scripts/BlastTab.addlen.rb +63 -0
data/utils/enveomics/Scripts/BlastTab.advance.bash +48 -0
data/utils/enveomics/Scripts/BlastTab.best_hit_sorted.pl +55 -0
data/utils/enveomics/Scripts/BlastTab.catsbj.pl +104 -0
data/utils/enveomics/Scripts/BlastTab.cogCat.rb +76 -0
data/utils/enveomics/Scripts/BlastTab.filter.pl +47 -0
data/utils/enveomics/Scripts/BlastTab.kegg_pep2path_rest.pl +194 -0
data/utils/enveomics/Scripts/BlastTab.metaxaPrep.pl +104 -0
data/utils/enveomics/Scripts/BlastTab.pairedHits.rb +157 -0
data/utils/enveomics/Scripts/BlastTab.recplot2.R +48 -0
data/utils/enveomics/Scripts/BlastTab.seqdepth.pl +86 -0
data/utils/enveomics/Scripts/BlastTab.seqdepth_ZIP.pl +119 -0
data/utils/enveomics/Scripts/BlastTab.seqdepth_nomedian.pl +86 -0
data/utils/enveomics/Scripts/BlastTab.subsample.pl +47 -0
data/utils/enveomics/Scripts/BlastTab.sumPerHit.pl +114 -0
data/utils/enveomics/Scripts/BlastTab.taxid2taxrank.pl +90 -0
data/utils/enveomics/Scripts/BlastTab.topHits_sorted.rb +123 -0
data/utils/enveomics/Scripts/Chao1.pl +97 -0
data/utils/enveomics/Scripts/CharTable.classify.rb +234 -0
data/utils/enveomics/Scripts/EBIseq2tax.rb +83 -0
data/utils/enveomics/Scripts/FastA.N50.pl +60 -0
data/utils/enveomics/Scripts/FastA.extract.rb +152 -0
data/utils/enveomics/Scripts/FastA.filter.pl +52 -0
data/utils/enveomics/Scripts/FastA.filterLen.pl +28 -0
data/utils/enveomics/Scripts/FastA.filterN.pl +60 -0
data/utils/enveomics/Scripts/FastA.fragment.rb +100 -0
data/utils/enveomics/Scripts/FastA.gc.pl +42 -0
data/utils/enveomics/Scripts/FastA.interpose.pl +93 -0
data/utils/enveomics/Scripts/FastA.length.pl +38 -0
data/utils/enveomics/Scripts/FastA.mask.rb +89 -0
data/utils/enveomics/Scripts/FastA.per_file.pl +36 -0
data/utils/enveomics/Scripts/FastA.qlen.pl +57 -0
data/utils/enveomics/Scripts/FastA.rename.pl +65 -0
data/utils/enveomics/Scripts/FastA.revcom.pl +23 -0
data/utils/enveomics/Scripts/FastA.sample.rb +98 -0
data/utils/enveomics/Scripts/FastA.slider.pl +85 -0
data/utils/enveomics/Scripts/FastA.split.pl +55 -0
data/utils/enveomics/Scripts/FastA.split.rb +79 -0
data/utils/enveomics/Scripts/FastA.subsample.pl +131 -0
data/utils/enveomics/Scripts/FastA.tag.rb +65 -0
data/utils/enveomics/Scripts/FastA.toFastQ.rb +69 -0
data/utils/enveomics/Scripts/FastA.wrap.rb +48 -0
data/utils/enveomics/Scripts/FastQ.filter.pl +54 -0
data/utils/enveomics/Scripts/FastQ.interpose.pl +90 -0
data/utils/enveomics/Scripts/FastQ.maskQual.rb +89 -0
data/utils/enveomics/Scripts/FastQ.offset.pl +90 -0
data/utils/enveomics/Scripts/FastQ.split.pl +53 -0
data/utils/enveomics/Scripts/FastQ.tag.rb +70 -0
data/utils/enveomics/Scripts/FastQ.test-error.rb +81 -0
data/utils/enveomics/Scripts/FastQ.toFastA.awk +24 -0
data/utils/enveomics/Scripts/GFF.catsbj.pl +127 -0
data/utils/enveomics/Scripts/GenBank.add_fields.rb +84 -0
data/utils/enveomics/Scripts/HMM.essential.rb +351 -0
data/utils/enveomics/Scripts/HMM.haai.rb +168 -0
data/utils/enveomics/Scripts/HMMsearch.extractIds.rb +83 -0
data/utils/enveomics/Scripts/JPlace.distances.rb +88 -0
data/utils/enveomics/Scripts/JPlace.to_iToL.rb +320 -0
data/utils/enveomics/Scripts/M5nr.getSequences.rb +81 -0
data/utils/enveomics/Scripts/MeTaxa.distribution.pl +198 -0
data/utils/enveomics/Scripts/MyTaxa.fragsByTax.pl +35 -0
data/utils/enveomics/Scripts/MyTaxa.seq-taxrank.rb +49 -0
data/utils/enveomics/Scripts/NCBIacc2tax.rb +92 -0
data/utils/enveomics/Scripts/Newick.autoprune.R +27 -0
data/utils/enveomics/Scripts/RAxML-EPA.to_iToL.pl +228 -0
data/utils/enveomics/Scripts/RecPlot2.compareIdentities.R +32 -0
data/utils/enveomics/Scripts/RefSeq.download.bash +48 -0
data/utils/enveomics/Scripts/SRA.download.bash +55 -0
data/utils/enveomics/Scripts/TRIBS.plot-test.R +36 -0
data/utils/enveomics/Scripts/TRIBS.test.R +39 -0
data/utils/enveomics/Scripts/Table.barplot.R +31 -0
data/utils/enveomics/Scripts/Table.df2dist.R +30 -0
data/utils/enveomics/Scripts/Table.filter.pl +61 -0
data/utils/enveomics/Scripts/Table.merge.pl +77 -0
data/utils/enveomics/Scripts/Table.prefScore.R +60 -0
data/utils/enveomics/Scripts/Table.replace.rb +69 -0
data/utils/enveomics/Scripts/Table.round.rb +63 -0
data/utils/enveomics/Scripts/Table.split.pl +57 -0
data/utils/enveomics/Scripts/Taxonomy.silva2ncbi.rb +227 -0
data/utils/enveomics/Scripts/VCF.KaKs.rb +147 -0
data/utils/enveomics/Scripts/VCF.SNPs.rb +88 -0
data/utils/enveomics/Scripts/aai.rb +421 -0
data/utils/enveomics/Scripts/ani.rb +362 -0
data/utils/enveomics/Scripts/anir.rb +137 -0
data/utils/enveomics/Scripts/clust.rand.rb +102 -0
data/utils/enveomics/Scripts/gi2tax.rb +103 -0
data/utils/enveomics/Scripts/in_silico_GA_GI.pl +96 -0
data/utils/enveomics/Scripts/lib/data/dupont_2012_essential.hmm.gz +0 -0
data/utils/enveomics/Scripts/lib/data/lee_2019_essential.hmm.gz +0 -0
data/utils/enveomics/Scripts/lib/enveomics.R +1 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/anir.rb +293 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/bm_set.rb +175 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/enveomics.rb +24 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/errors.rb +17 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/gmm_em.rb +30 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/jplace.rb +253 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/match.rb +88 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/og.rb +182 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/rbm.rb +49 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/remote_data.rb +74 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/seq_range.rb +237 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stats/rand.rb +31 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stats/sample.rb +152 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stats.rb +3 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/utils.rb +74 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/vcf.rb +135 -0
data/utils/enveomics/Scripts/ogs.annotate.rb +88 -0
data/utils/enveomics/Scripts/ogs.core-pan.rb +160 -0
data/utils/enveomics/Scripts/ogs.extract.rb +125 -0
data/utils/enveomics/Scripts/ogs.mcl.rb +186 -0
data/utils/enveomics/Scripts/ogs.rb +104 -0
data/utils/enveomics/Scripts/ogs.stats.rb +131 -0
data/utils/enveomics/Scripts/rbm-legacy.rb +172 -0
data/utils/enveomics/Scripts/rbm.rb +108 -0
data/utils/enveomics/Scripts/sam.filter.rb +148 -0
data/utils/enveomics/Tests/Makefile +10 -0
data/utils/enveomics/Tests/Mgen_M2288.faa +3189 -0
data/utils/enveomics/Tests/Mgen_M2288.fna +8282 -0
data/utils/enveomics/Tests/Mgen_M2321.fna +8288 -0
data/utils/enveomics/Tests/Nequ_Kin4M.faa +2970 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae-PilA.tribs.Rdata +0 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae-PilA.txt +7 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae.aai-mat.tsv +17 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae.aai.tsv +137 -0
data/utils/enveomics/Tests/a_mg.cds-go.blast.tsv +123 -0
data/utils/enveomics/Tests/a_mg.reads-cds.blast.tsv +200 -0
data/utils/enveomics/Tests/a_mg.reads-cds.counts.tsv +55 -0
data/utils/enveomics/Tests/alkB.nwk +1 -0
data/utils/enveomics/Tests/anthrax-cansnp-data.tsv +13 -0
data/utils/enveomics/Tests/anthrax-cansnp-key.tsv +17 -0
data/utils/enveomics/Tests/hiv1.faa +59 -0
data/utils/enveomics/Tests/hiv1.fna +134 -0
data/utils/enveomics/Tests/hiv2.faa +70 -0
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv +233 -0
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv.lim +1 -0
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv.rec +233 -0
data/utils/enveomics/Tests/phyla_counts.tsv +10 -0
data/utils/enveomics/Tests/primate_lentivirus.ogs +11 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-hiv1.rbm +9 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-hiv2.rbm +8 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-siv.rbm +6 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv2-hiv2.rbm +9 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv2-siv.rbm +6 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/siv-siv.rbm +6 -0
data/utils/enveomics/build_enveomics_r.bash +45 -0
data/utils/enveomics/enveomics.R/DESCRIPTION +31 -0
data/utils/enveomics/enveomics.R/NAMESPACE +39 -0
data/utils/enveomics/enveomics.R/R/autoprune.R +155 -0
data/utils/enveomics/enveomics.R/R/barplot.R +184 -0
data/utils/enveomics/enveomics.R/R/cliopts.R +135 -0
data/utils/enveomics/enveomics.R/R/df2dist.R +154 -0
data/utils/enveomics/enveomics.R/R/growthcurve.R +331 -0
data/utils/enveomics/enveomics.R/R/prefscore.R +79 -0
data/utils/enveomics/enveomics.R/R/recplot.R +354 -0
data/utils/enveomics/enveomics.R/R/recplot2.R +1631 -0
data/utils/enveomics/enveomics.R/R/tribs.R +583 -0
data/utils/enveomics/enveomics.R/R/utils.R +80 -0
data/utils/enveomics/enveomics.R/README.md +81 -0
data/utils/enveomics/enveomics.R/data/growth.curves.rda +0 -0
data/utils/enveomics/enveomics.R/data/phyla.counts.rda +0 -0
data/utils/enveomics/enveomics.R/man/cash-enve.GrowthCurve-method.Rd +16 -0
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2-method.Rd +16 -0
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2.Peak-method.Rd +16 -0
data/utils/enveomics/enveomics.R/man/enve.GrowthCurve-class.Rd +25 -0
data/utils/enveomics/enveomics.R/man/enve.TRIBS-class.Rd +46 -0
data/utils/enveomics/enveomics.R/man/enve.TRIBS.merge.Rd +23 -0
data/utils/enveomics/enveomics.R/man/enve.TRIBStest-class.Rd +47 -0
data/utils/enveomics/enveomics.R/man/enve.__prune.iter.Rd +23 -0
data/utils/enveomics/enveomics.R/man/enve.__prune.reduce.Rd +23 -0
data/utils/enveomics/enveomics.R/man/enve.__tribs.Rd +40 -0
data/utils/enveomics/enveomics.R/man/enve.barplot.Rd +103 -0
data/utils/enveomics/enveomics.R/man/enve.cliopts.Rd +67 -0
data/utils/enveomics/enveomics.R/man/enve.col.alpha.Rd +24 -0
data/utils/enveomics/enveomics.R/man/enve.col2alpha.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.df2dist.Rd +45 -0
data/utils/enveomics/enveomics.R/man/enve.df2dist.group.Rd +44 -0
data/utils/enveomics/enveomics.R/man/enve.df2dist.list.Rd +47 -0
data/utils/enveomics/enveomics.R/man/enve.growthcurve.Rd +75 -0
data/utils/enveomics/enveomics.R/man/enve.prefscore.Rd +50 -0
data/utils/enveomics/enveomics.R/man/enve.prune.dist.Rd +44 -0
data/utils/enveomics/enveomics.R/man/enve.recplot.Rd +139 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2-class.Rd +45 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.ANIr.Rd +24 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.Rd +77 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__counts.Rd +25 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__peakHist.Rd +21 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__whichClosestPeak.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.changeCutoff.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.compareIdentities.Rd +47 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.coordinates.Rd +29 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.corePeak.Rd +18 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.extractWindows.Rd +45 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.Rd +36 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__em_e.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__em_m.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__emauto_one.Rd +27 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__mow_one.Rd +52 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__mower.Rd +17 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.em.Rd +51 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.emauto.Rd +43 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.mower.Rd +82 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.peak-class.Rd +59 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.seqdepth.Rd +27 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.windowDepthThreshold.Rd +36 -0
data/utils/enveomics/enveomics.R/man/enve.selvector.Rd +23 -0
data/utils/enveomics/enveomics.R/man/enve.tribs.Rd +68 -0
data/utils/enveomics/enveomics.R/man/enve.tribs.test.Rd +28 -0
data/utils/enveomics/enveomics.R/man/enve.truncate.Rd +27 -0
data/utils/enveomics/enveomics.R/man/growth.curves.Rd +14 -0
data/utils/enveomics/enveomics.R/man/phyla.counts.Rd +13 -0
data/utils/enveomics/enveomics.R/man/plot.enve.GrowthCurve.Rd +78 -0
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBS.Rd +46 -0
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBStest.Rd +45 -0
data/utils/enveomics/enveomics.R/man/plot.enve.recplot2.Rd +125 -0
data/utils/enveomics/enveomics.R/man/summary.enve.GrowthCurve.Rd +19 -0
data/utils/enveomics/enveomics.R/man/summary.enve.TRIBS.Rd +19 -0
data/utils/enveomics/enveomics.R/man/summary.enve.TRIBStest.Rd +19 -0
data/utils/enveomics/globals.mk +8 -0
data/utils/enveomics/manifest.json +9 -0
data/utils/multitrim/Multitrim How-To.pdf +0 -0
data/utils/multitrim/README.md +67 -0
data/utils/multitrim/multitrim.py +1555 -0
data/utils/multitrim/multitrim.yml +13 -0
metadata +301 -5

data/utils/enveomics/Pipelines/idba.pbs/RUNME.bash ADDED Viewed

@@ -0,0 +1,95 @@
+#!/bin/bash
+if [[ "$1" == "" || "$1" == "-h" || "$2" == "" ]] ; then
+   echo "
+   Usage: ./RUNME.bash folder data_type [max_jobs]
+   folder	Path to the folder containing the 04.trimmed_fasta folder. The
+		trimmed reads must be in interposed FastA format, and filenames
+		must follow the format: <name>.CoupledReads.fa, where <name> is
+		the name of the sample. If non-paired, the filenames must follow
+		the format: <name>.SingleReads.fa. If both suffixes are found
+		for the same <name> prefix, they are both used.
+   data_type	Type of datasets in the project. One of: mg (for metagenomes),
+		scg (for single-cell genomes), g (for traditional genomes), or t
+		(for transcriptomes).
+   max_jobs	(optional) Maximum number of jobs to run in parallel. This
+		number can be increased, but bear in mind that this process is
+		highly I/O-intensive, and likely to crash or significantly slow
+		down the hard drive if many jobs are running simultaneously. By
+		default: 5.
+   " >&2
+   exit 1
+fi
+TYPE=$2
+if [[ "$TYPE" != "g" && "$TYPE" != "mg" && "$TYPE" != "scg" \
+		     && "$TYPE" != "t" ]] ; then
+   echo "Unsupported data type: $TYPE." >&2
+   exit 1
+fi
+if [[ "$3" == "" ]] ; then
+   MAX=5
+else
+   let MAX=$3+0
+fi
+dir=$(readlink -f $1)
+pac=$(dirname $(readlink -f $0))
+cwd=$(pwd)
+cd $dir
+if [[ ! -e 04.trimmed_fasta ]] ; then
+   echo "Cannot locate the 04.trimmed_fasta directory, aborting..." >&2
+   exit 1
+fi
+for i in 05.assembly ; do
+   [[ -d $i ]] || mkdir $i
+done
+k=0
+for i in $dir/04.trimmed_fasta/*.SingleReads.fa ; do
+   b=$(basename $i .SingleReads.fa)
+   touch $dir/04.trimmed_fasta/$b.CoupledReads.fa
+done
+for i in $dir/04.trimmed_fasta/*.CoupledReads.fa ; do
+   b=$(basename $i .CoupledReads.fa)
+   [[ -d $dir/05.assembly/$b ]] && continue
+   EXTRA=""
+   EXTRA_MSG=""
+   if [[ $k -ge $MAX ]] ; then
+      let prek=$k-$MAX
+      EXTRA="-W depend=afterany:${jids[$prek]}"
+      EXTRA_MSG=" (waiting for ${jids[$prek]})"
+   fi
+   # Predict time (in hours)
+   SIZE_M=$(($(ls -pl 04.trimmed_fasta/$b.CoupledReads.fa \
+	       | awk '{print $5}')/1000000))
+   let TIME_H=6+$SIZE_M*2/1000
+   let RAM_G=20+$SIZE_M*20/1000
+   # Find the right queue
+   if [[ $TIME_H -lt 12 ]] ; then
+      QUEUE="-q iw-shared-6 -l walltime=12:00:00"
+   elif [[ $TIME_H -lt 120 ]] ; then
+      QUEUE="-q microcluster -l walltime=120:00:00"
+   else
+      QUEUE="-q microcluster -l walltime=2000:00:00"
+   fi
+   # Launch job
+   mkdir $dir/05.assembly/$b
+   OPTS="SAMPLE=$b,FOLDER=$dir,TYPE=$TYPE"
+   if [[ -s $dir/04.trimmed_fasta/$b.SingleReads.fa ]] ; then
+      OPTS="$OPTS,FA=$dir/04.trimmed_fasta/$b.SingleReads.fa"
+      [[ -s $dir/04.trimmed_fasta/$b.CoupledReads.fa ]] \
+	 && OPTS="$OPTS,FA_RL2=$dir/04.trimmed_fasta/$b.CoupledReads.fa"
+   else
+      OPTS="$OPTS,FA=$dir/04.trimmed_fasta/$b.CoupledReads.fa"
+   fi
+   jids[$k]=$(qsub -v "$OPTS" -N "IDBA-$b" -l "mem=${RAM_G}g" \
+	       $QUEUE $EXTRA $pac/run.pbs | grep .)
+   echo "$b: ${jids[$k]}$EXTRA_MSG"
+   let k=$k+1
+done

data/utils/enveomics/Pipelines/idba.pbs/run.pbs ADDED Viewed

@@ -0,0 +1,56 @@
+#!/bin/bash
+#PBS -l nodes=1:ppn=10
+#PBS -k eo
+module load idba/1.1.1
+b=$SAMPLE
+shared=/nv/gpfs-gateway-pace1/project/bio-konstantinidis/shared3
+enve=$shared/apps/enveomics/Scripts
+THR=10
+#---------------------------------------------------------
+echo "==[ 05.assembly: $(date) ]"
+cd $FOLDER/05.assembly
+CMD=""
+case "$TYPE" in
+*g)
+   CMD="idba_ud" ;;
+t)
+   CMD="idba_tran" ;;
+*)
+   echo "Unsupported data type: $TYPE" >&2
+   exit 1
+   ;;
+esac
+CMD="$CMD --pre_correction -r $FA -o $SAMPLE --num_threads $THR"
+[[ -n "$FA_RL2" ]] && CMD="$CMD --read_level_2 $FA_RL2"
+[[ -n "$FA_RL3" ]] && CMD="$CMD --read_level_3 $FA_RL3"
+[[ -n "$FA_RL4" ]] && CMD="$CMD --read_level_4 $FA_RL4"
+[[ -n "$FA_RL5" ]] && CMD="$CMD --read_level_5 $FA_RL5"
+time $CMD
+rm $SAMPLE/kmer
+rm $SAMPLE/graph-*.fa
+rm $SAMPLE/align-*
+rm $SAMPLE/local-contig-*.fa
+rm $SAMPLE/contig-*.fa
+if [[ -s $SAMPLE/scaffold.fa ]] ; then
+   ln -s $SAMPLE/scaffold.fa $SAMPLE.AllContigs.fna
+else
+   ln -s $SAMPLE/contig.fa $SAMPLE.AllContigs.fna
+fi
+time $enve/FastA.length.pl $SAMPLE.AllContigs.fna | awk '$2>=500{print $1}' \
+   > $SAMPLE.LargeContigs.ids
+time $enve/FastA.filter.pl $SAMPLE.LargeContigs.ids $SAMPLE.AllContigs.fna \
+   > $SAMPLE.LargeContigs.fna
+rm $SAMPLE.LargeContigs.ids
+#---------------------------------------------------------
+echo "Done: $(date)."

data/utils/enveomics/Pipelines/trim.pbs/README.md ADDED Viewed

@@ -0,0 +1,54 @@
+@author: Luis Miguel Rodriguez-R <lmrodriguezr at gmail dot com>
+@update: Oct-30-2014
+@license: artistic 2.0
+@status: auto
+@pbs: yes
+# IMPORTANT
+This pipeline was developed for the [PACE cluster](http://pace.gatech.edu/).  You
+are free to use it in other platforms with adequate adjustments.
+# PURPOSE
+Performs various trimming and quality-control analyses over raw reads.
+# HELP
+1. Files preparation:
+   1.1. Obtain the enveomics package in the cluster. You can use:
+      `git clone https://github.com/lmrodriguezr/enveomics.git`
+   1.2. Prepare the raw reads in FastQ format. Files must be raw, not zipped or packaged.
+      Filenames must conform the format: <name>.<sis>.fastq, where <name> is the name
+      of the sample, and <sis> is 1 or 2 indicating which sister read the file contains.
+      Use only '1' as <sis> if you have single reads.
+   1.3. Gather all the FastQ files into the same folder.
+2. Pipeline execution:
+   2.1. Simply execute `./RUNME.bash <dir>`, where <dir> is the folder containing
+      the FastQ files.
+3. What to expect:
+   By the end of the run, you should find the following folders:
+   3.1. *01.raw_reads*: Gzip'ed raw FastQ files.
+   3.2. *02.trimmed_reads*: Trimmed and clipped reads. For each sample, there should be
+      nine files for paired-end, and two for single-reads.
+   3.3. *03.read_quality*: Quality reports. For each sample, there should be two directories,
+      one with SolexaQA++ information, another with FastQC information.
+   3.4. *04.trimmed_fasta*: Trimmed and clipped in FastA format (and gzip'ed, in the case of
+      individual files for paired-end).

data/utils/enveomics/Pipelines/trim.pbs/RUNME.bash ADDED Viewed

@@ -0,0 +1,70 @@
+#!/bin/bash
+if [[ "$1" == "" || "$1" == "-h" ]] ; then
+   echo "
+   Usage: ./RUNME.bash folder [clipper [max_jobs]]
+   folder	Path to the folder containing the raw reads. The raw reads must be in FastQ format,
+   		and filenames must follow the format: <name>.<sis>.fastq, where <name> is the name
+		of the sample, and <sis> is 1 or 2 indicating which sister read the file contains.
+		Use only '1' as <sis> if you have single reads.
+   clipper	(optional) One of: trimmomatic, scythe, or none. By default: scythe.
+   max_jobs	(optional) Maximum number of jobs to run in parallel. This number can be increased,
+   		but bear in mind that this process is highly I/O-intensive, and likely to crash or
+		significantly slow down the hard drive if many jobs are running simultaneously. By
+		default: 5.
+   " >&2 ;
+   exit 1 ;
+fi ;
+CLIPPER=$2
+if [[ "$CLIPPER" == "" ]] ; then
+   CLIPPER="scythe"
+fi ;
+if [[ "$3" == "" ]] ; then
+   MAX=5 ;
+else
+   let MAX=$3+0 ;
+fi ;
+dir=$(readlink -f $1) ;
+pac=$(dirname $(readlink -f $0)) ;
+cwd=$(pwd) ;
+cd $dir ;
+for i in 01.raw_reads 02.trimmed_reads 03.read_quality 04.trimmed_fasta zz.info ; do
+   if [[ ! -d $i ]] ; then mkdir $i ; fi ;
+done ;
+k=0 ;
+for i in $dir/*.1.fastq ; do
+   EXTRA="" ;
+   EXTRA_MSG="" ;
+   if [[ $k -ge $MAX ]] ; then
+      let prek=$k-$MAX ;
+      EXTRA="-W depend=afterany:${jids[$prek]}" ;
+      EXTRA_MSG=" (waiting for ${jids[$prek]})"
+   fi ;
+   b=$(basename $i .1.fastq) ;
+   mv $b.[12].fastq 01.raw_reads/ ;
+   # Predict time (in hours)
+   SIZE_M=$(($(ls -pl 01.raw_reads/$b.1.fastq | awk '{print $5}')/1000000)) ;
+   let TIME_H=$SIZE_M*5/1000 ;
+   [[ -e 01.raw_reads/$b.2.fastq ]] || let TIME_H=$TIME_H/2 ;
+   let RAM_G=$SIZE_M*8/1000 ;
+   [[ $RAM_G -lt 10 ]] && RAM_G=10 ;
+   # Find the right queue
+   if [[ $TIME_H -lt 12 ]] ; then
+      QUEUE="-q iw-shared-6 -l walltime=12:00:00" ;
+   elif [[ $TIME_H -lt 120 ]] ; then
+      QUEUE="-q microcluster -l walltime=120:00:00" ;
+   else
+      QUEUE="-q microcluster -l walltime=2000:00:00" ;
+   fi ;
+   # Launch job
+   jids[$k]=$(qsub -v "SAMPLE=$b,FOLDER=$dir,CLIPPER=$CLIPPER" -N "Trim-$b" -l "mem=${RAM_G}g" $QUEUE $EXTRA $pac/run.pbs | grep .) ;
+   echo "$b: ${jids[$k]}$EXTRA_MSG" ;
+   let k=$k+1 ;
+done ;

data/utils/enveomics/Pipelines/trim.pbs/run.pbs ADDED Viewed

@@ -0,0 +1,130 @@
+#!/bin/bash
+#PBS -l mem=10g
+#PBS -l nodes=1:ppn=1
+#PBS -k eo
+module load fastqc/0.11.2
+module load scythe/0.993
+shared=/gpfs/pace1/project/bio-konstantinidis/shared3
+b=$SAMPLE ;
+sqa=$shared/bin/SolexaQA++
+scythe=scythe
+enve=$shared/apps/enveomics/Scripts
+trim=$shared/apps/Trimmomatic-0.32/trimmomatic-0.32.jar
+SEadapters=$shared/apps/Trimmomatic-0.32/adapters/ALL-SE_PE.fa
+PEadapters=$shared/apps/Trimmomatic-0.32/adapters/ALL-PE.fa
+#---------------------------------------------------------
+echo "==[ 02.trimmed_reads: $(date) ]" ;
+cd $FOLDER/02.trimmed_reads ;
+time $enve/FastQ.tag.rb -i ../01.raw_reads/$b.1.fastq -p "$b-" -s "/1" -o $b.1.fastq ;
+[[ -e ../01.raw_reads/$b.2.fastq ]] && time $enve/FastQ.tag.rb -i ../01.raw_reads/$b.2.fastq -p "$b-" -s "/2" -o $b.2.fastq ;
+RAW_READS=$(cat $b.1.fastq | paste - - - - | wc -l | sed -e 's/ *//') ;
+RAW_LENGTH=$(head -n 40000 $b.1.fastq | paste - - - - | awk 'BEGIN{FS="\\t"}{SUM+=length($2)}END{print SUM/NR}') ;
+time $sqa dynamictrim $b.[12].fastq -h 20 -d . ;
+time $sqa lengthsort $b.[12].fastq.trimmed -l 50 -d . ;
+if [[ "$CLIPPER" == "trimmomatic" ]] ; then
+   if [[ -e $b.2.fastq.trimmed.paired ]] ; then
+      time java -jar $trim PE -threads 1 \
+	 $b.1.fastq.trimmed.paired \
+	 $b.2.fastq.trimmed.paired \
+	 $b.1.clipped.fastq $b.1.clipped.single.fastq \
+	 $b.2.clipped.fastq $b.2.clipped.single.fastq \
+	 ILLUMINACLIP:$PEadapters:2:30:10 MINLEN:50
+   else
+      time java -jar $trim SE -threads 1 \
+	 $b.1.fastq.trimmed.single $b.1.clipped.fastq \
+	 ILLUMINACLIP:$SEadapters:2:30:10 MINLEN:50
+   fi ;
+elif [[ "$CLIPPER" == "scythe" ]]; then
+   if [[ -e $b.2.fastq.trimmed.paired ]] ; then
+      $scythe -a $PEadapters $b.1.fastq.trimmed.paired > $b.1.clipped.all.fastq ;
+      $scythe -a $PEadapters $b.2.fastq.trimmed.paired > $b.2.clipped.all.fastq ;
+      time $sqa lengthsort $b.[12].clipped.all.fastq -l 50 -d . ;
+      rm $b.[12].clipped.all.fastq ;
+      [[ -e $b.1.clipped.all.fastq.single ]] && mv $b.1.clipped.all.fastq.single $b.1.clipped.single.fastq ;
+      [[ -e $b.2.clipped.all.fastq.single ]] && mv $b.2.clipped.all.fastq.single $b.2.clipped.single.fastq ;
+      mv $b.1.clipped.all.fastq.paired $b.1.clipped.fastq ;
+      mv $b.2.clipped.all.fastq.paired $b.2.clipped.fastq ;
+      rm $b.1.clipped.all.fastq.summary.txt $b.1.clipped.all.fastq.summary.txt.pdf &>/dev/null ;
+   else
+      $scythe -a $PEadapters $b.1.fastq.trimmed.single > $b.1.clipped.all.fastq ;
+      time $sqa lengthsort $b.1.clipped.all.fastq -l 50 -d . ;
+      rm $b.1.clipped.all.fastq ;
+      mv $b.1.clipped.all.fastq.single $b.1.clipped.fastq ;
+   fi ;
+   rm $b.[12].*.discard &>/dev/null ;
+else
+   if [[ -e $b.2.fastq.trimmed.paired ]] ; then
+      ln -s $b.1.fastq.trimmed.paired $b.1.clipped.fastq ;
+      ln -s $b.2.fastq.trimmed.paired $b.2.clipped.fastq ;
+   else
+      ln -s $b.1.fastq.trimmed.single $b.1.clipped.fastq ;
+   fi ;
+fi ;
+TRIMMED_READS=$(cat $b.1.clipped.fastq | paste - - - - | wc -l | sed -e 's/ *//') ;
+TRIMMED_LENGTH=$(head -n 40000 $b.1.clipped.fastq | paste - - - - | awk 'BEGIN{FS="\\t"}{SUM+=length($2)}END{print SUM/NR}') ;
+#---------------------------------------------------------
+echo "==[ 03.read_quality: $(date) ]" ;
+cd $FOLDER/03.read_quality ;
+if [ ! -d $b.fastqc ] ; then mkdir $b.fastqc ; fi ;
+perl $(which fastqc) ../02.trimmed_reads/$b.[12].clipped.fastq -o $b.fastqc ;
+if [ ! -d $b ] ; then mkdir $b ; fi ;
+time $sqa analysis ../01.raw_reads/$b.[12].fastq -h 20 -d $b -v -m ;
+rm $b/*.segments ;
+mv ../02.trimmed_reads/$b.[12].fastq_trimmed.segments* $b/
+mv ../02.trimmed_reads/$b.[12].fastq.trimmed.summary.txt* $b/
+cd $FOLDER/02.trimmed_reads ;
+rm $b.[12].fastq.trimmed.discard ;
+rm $b.[12].fastq.trimmed ;
+rm $b.[12].fastq ;
+#---------------------------------------------------------
+echo "==[ 04.trimmed_fasta: $(date) ]" ;
+cd $FOLDER/04.trimmed_fasta ;
+cat ../02.trimmed_reads/$b.1.clipped.fastq | paste - - - - | awk 'BEGIN{FS="\\t"}{print ">"substr($1,2)"\\n"$2}' > $b.1.fasta ;
+if [[ -e ../02.trimmed_reads/$b.2.clipped.fastq ]] ; then
+   cat ../02.trimmed_reads/$b.2.clipped.fastq | paste - - - - | awk 'BEGIN{FS="\\t"}{print ">"substr($1,2)"\\n"$2}' > $b.2.fasta ;
+   time $enve/FastA.interpose.pl $b.CoupledReads.fa $b.[12].fasta ;
+   time gzip $b.2.fasta ;
+   time gzip $b.1.fasta ;
+else
+   mv $b.1.fasta $b.SingleReads.fa ;
+fi ;
+#---------------------------------------------------------
+echo "==[  zz.info: $(date) ]" ;
+cd $FOLDER/zz.info ;
+echo "
+RAW_LENGTH:      $RAW_LENGTH
+RAW_READS:       $RAW_READS
+TRIMMED_LENGTH:  $TRIMMED_LENGTH
+TRIMMED_READS:   $TRIMMED_READS
+" > $b.summary.txt ;
+#---------------------------------------------------------
+echo "==[ 01.raw_reads: $(date) ]"
+cd $FOLDER/01.raw_reads ;
+for i in $b.[12].fastq ; do
+   time gzip $i ;
+done ;
+#---------------------------------------------------------
+echo "Done: $(date)." ;

data/utils/enveomics/README.md ADDED Viewed

@@ -0,0 +1,42 @@
+# Enveomics Collection
+Scripts and reference libraries at [Kostas lab](http://enve-omics.gatech.edu).
+## Prerequisites
+The enveomics collection as a whole has very modest requirements, essentially a
+*nix system with `bash`, `perl`, `ruby`, and `R`. Some scripts may require
+additional libraries, or even external Software, but you'll be forewarned about
+these requirements in the documentation accompanying each script. If you prefer,
+you can also use the Graphical User Interface (GUI), that comes with additional
+tests to let you know if your system is ready to use any given script.
+## Graphical User Interface (GUI)
+The enveomics collection now has a graphical user interface! To learn more,
+please visit [enveomics-gui](https://github.com/lmrodriguezr/enveomics-gui).
+## License
+The files in this repository are licensed under the terms of the
+Artistic License 2.0, except when otherwise noted.
+You can find a copy of the license in [LICENSE.txt](LICENSE.txt) or at
+http://www.perlfoundation.org/artistic_license_2_0.
+## Documentation
+Most scripts in this repository are self-documented.  However,
+more extensive documentation (and some discussion) can be found at the
+[documentation website](http://enve-omics.ce.gatech.edu/enveomics/docs).
+Additional documentation for recruitment plots can be found
+[here](Docs/recplot2.md).
+## Citation
+If you use any of the utilitites in the Enveomics Collection in your research
+please cite:
+> Rodriguez-R LM & Konstantinidis KT (2016). The enveomics collection: a toolbox
+> for specialized analyses of microbial genomes and metagenomes.
+> [PeerJ Preprints 4:e1900v1](https://peerj.com/preprints/1900/).

data/utils/enveomics/Scripts/AAsubs.log2ratio.rb ADDED Viewed

@@ -0,0 +1,171 @@
+#!/usr/bin/env ruby
+#
+# @author  Luis M. Rodriguez-R
+# @update  Dec-21-2015
+# @license artistic license 2.0
+#
+$:.push File.expand_path(File.dirname(__FILE__) + "/lib")
+require "enveomics_rb/enveomics"
+o = {permutations: 1000, bootstraps: 1000, overwrite: false}
+OptionParser.new do |opt|
+   opt.banner = "
+   Estimates the log2-ratio of different amino acids in homologous sites using
+   an AAsubs file (see BlastPairwise.AAsubs.pl). It provides the point
+   estimation (.obs file), the bootstrap of the estimation (.boot file) and the
+   null model based on label-permutation (.null file).
+   Usage: #{$0} [options]".gsub(/^ +/,"")
+   opt.separator ""
+   opt.separator "Mandatory"
+   opt.on("-i", "--input FILE",
+      "Input file in AAsubs format (see BlastPairwise.AAsubs.pl)."
+      ){ |v| o[:file] = v}
+   opt.separator ""
+   opt.separator "Output files"
+   opt.on("-O", "--obs-file FILE",
+      "Output file with the log2-ratios per amino acid.",
+      "By default, '--input value'.obs."
+      ){ |v| o[:obs] = v }
+   opt.on("-B", "--bootstrap-file FILE",
+      "Output file with the bootstrap results of log2-ratios per amino acid.",
+      "By default, '--input value'.boot."
+      ){ |v| o[:boot] = v }
+   opt.on("-N", "--null-file FILE",
+      "Output file with the permutation results of log2-ratios per amino acid.",
+      "By default, '--input value'.null."
+      ){ |v| o[:null] = v }
+   opt.on("--overwrite",
+      "Overwrite existing files. By default, skip steps if the files already" +
+      " exist."){ |v| o[:overwrite] = v }
+   opt.separator ""
+   opt.separator "Parameters"
+   opt.on("-b", "--bootstraps INT",
+      "Number of bootstraps to run. By default: #{o[:bootstraps]}."
+      ){ |v| o[:bootstraps] = v.to_i }
+   opt.on("-p", "--permutations INT",
+      "Number of permutations to run. By default: #{o[:permutations]}."
+      ){ |v| o[:permutations] = v.to_i }
+   opt.on("-q", "--quiet", "Run quietly (no STDERR output)."){ o[:q] = TRUE }
+   opt.on("-h", "--help", "Display this screen.") do
+      puts opt
+      exit
+   end
+   opt.separator ""
+end.parse!
+# Initialize
+abort "--input is mandatory" if o[:file].nil?
+ALPHABET = %w(A C D E F G H I K L M N P Q R S T V W Y X)
+o[:obs] ||= "#{o[:file]}.obs"
+o[:boot] ||= "#{o[:file]}.boot"
+o[:null] ||= "#{o[:file]}.null"
+# Functions
+def dist_summary(a,b)
+   ALPHABET.map do |i|
+      Math.log(a[i].reduce(0,:+).to_f/b[i].reduce(0,:+), 10)
+   end
+end
+def empty_sample
+   Hash[ALPHABET.map{|k| [k, []]}]
+end
+# Initialize
+$stderr.puts "Initializing." unless o[:q]
+sample_A = empty_sample
+sample_B = empty_sample
+last_label = nil
+prot_index = -1
+# Read file
+$stderr.puts "Reading input file." unless o[:q]
+ifh = File.open(o[:file], "r")
+ifh.each do |l|
+   r = l.chomp.split /\t/
+   if r.first != last_label
+      prot_index +=1
+      last_label = r.first
+      ALPHABET.each do |a|
+         sample_A[a][prot_index] = 0
+         sample_B[a][prot_index] = 0
+      end
+   end
+   [1,2].each do |ds|
+      unless %w(- *).include? r[ds]
+	 abort "Unknown amino acid in line #{$.}: '#{r[ds]}'." unless
+	    ALPHABET.include? r[ds]
+	 sample_A[ r[ds] ][ prot_index ] += 1 if ds==1
+	 sample_B[ r[ds] ][ prot_index ] += 1 if ds==2
+      end
+   end
+end
+ifh.close
+$stderr.puts "  > Found #{prot_index+1} proteins." unless o[:q]
+$stderr.puts "  > Saving #{o[:obs]}" unless o[:q]
+sum = dist_summary(sample_A, sample_B)
+File.open(o[:obs], "w") do |fh|
+   fh.puts ["AA", "log10_AB"].join("\t")
+   ALPHABET.each do |i|
+      fh.puts [i, sum.shift].join("\t")
+   end
+end
+# Permutations
+if File.size? o[:null] and not o[:overwrite]
+   $stderr.puts "Skipping permutations." unless o[:q]
+else
+   $stderr.puts "Permutating." unless o[:q]
+   permut_sum = []
+   o[:permutations].times do |i|
+      permut_A = empty_sample
+      permut_B = empty_sample
+      (0 .. prot_index).each do |j|
+	 # Copy counts of the protein
+	 ALPHABET.each do |k|
+	    permut_A[k][j] = sample_A[k][j]
+	    permut_B[k][j] = sample_B[k][j]
+	 end
+	 # Swap labels at random
+	 permut_A,permut_B = permut_B,permut_A if rand(2)==1
+      end
+      permut_sum << dist_summary(permut_A, permut_B)
+   end
+   $stderr.puts "  > Performed #{o[:permutations]} permutations." unless o[:q]
+   $stderr.puts "  > Saving #{o[:null]}" unless o[:q]
+   File.open(o[:null], "w") do |fh|
+      fh.puts ALPHABET.join("\t")
+      permut_sum.each{ |s| fh.puts s.join("\t") }
+   end
+end
+# Bootstraps
+if File.size? o[:boot] and not o[:overwrite]
+   $stderr.puts "Skipping bootstraps." unless o[:q]
+else
+   $stderr.puts "Bootstrapping." unless o[:q]
+   boot_sum = []
+   o[:bootstraps].times do |i|
+      boot_A = empty_sample
+      boot_B = empty_sample
+      (0 .. prot_index).each do |j|
+	 # Sample randomly with replacement
+	 jr = rand(prot_index+1)
+	 # Copy counts of the protein
+	 ALPHABET.each do |k|
+	    boot_A[k][j] = sample_A[k][jr]
+	    boot_B[k][j] = sample_B[k][jr]
+	 end
+      end
+      boot_sum << dist_summary(boot_A, boot_B)
+   end
+   $stderr.puts "  > Performed #{o[:bootstraps]} bootstraps." unless o[:q]
+   $stderr.puts "  > Saving #{o[:boot]}" unless o[:q]
+   File.open(o[:boot], "w") do |fh|
+      fh.puts ALPHABET.join("\t")
+      boot_sum.each{ |s| fh.puts s.join("\t") }
+   end
+end
+$stderr.puts "Done. Yayyy!" unless o[:q]