RubyGems - miga-base - Versions diffs - 0.7.26.0 → 0.7.26.1 - Mend

miga-base 0.7.26.0 → 0.7.26.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (276) hide show

checksums.yaml +4 -4
data/lib/miga/version.rb +1 -1
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Archaea_SCG.hmm +41964 -0
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Bacteria_SCG.hmm +32439 -0
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Complete_SCG_DB.hmm +62056 -0
data/utils/FastAAI/FastAAI/FastAAI +1336 -0
data/utils/FastAAI/README.md +84 -0
data/utils/FastAAI/kAAI_v1.0_virus.py +1296 -0
data/utils/enveomics/Docs/recplot2.md +244 -0
data/utils/enveomics/Examples/aai-matrix.bash +66 -0
data/utils/enveomics/Examples/ani-matrix.bash +66 -0
data/utils/enveomics/Examples/essential-phylogeny.bash +105 -0
data/utils/enveomics/Examples/unus-genome-phylogeny.bash +100 -0
data/utils/enveomics/LICENSE.txt +73 -0
data/utils/enveomics/Makefile +52 -0
data/utils/enveomics/Manifest/Tasks/aasubs.json +103 -0
data/utils/enveomics/Manifest/Tasks/blasttab.json +786 -0
data/utils/enveomics/Manifest/Tasks/distances.json +161 -0
data/utils/enveomics/Manifest/Tasks/fasta.json +766 -0
data/utils/enveomics/Manifest/Tasks/fastq.json +243 -0
data/utils/enveomics/Manifest/Tasks/graphics.json +126 -0
data/utils/enveomics/Manifest/Tasks/mapping.json +67 -0
data/utils/enveomics/Manifest/Tasks/ogs.json +382 -0
data/utils/enveomics/Manifest/Tasks/other.json +829 -0
data/utils/enveomics/Manifest/Tasks/remote.json +355 -0
data/utils/enveomics/Manifest/Tasks/sequence-identity.json +501 -0
data/utils/enveomics/Manifest/Tasks/tables.json +308 -0
data/utils/enveomics/Manifest/Tasks/trees.json +68 -0
data/utils/enveomics/Manifest/Tasks/variants.json +111 -0
data/utils/enveomics/Manifest/categories.json +156 -0
data/utils/enveomics/Manifest/examples.json +154 -0
data/utils/enveomics/Manifest/tasks.json +4 -0
data/utils/enveomics/Pipelines/assembly.pbs/CONFIG.mock.bash +69 -0
data/utils/enveomics/Pipelines/assembly.pbs/FastA.N50.pl +1 -0
data/utils/enveomics/Pipelines/assembly.pbs/FastA.filterN.pl +1 -0
data/utils/enveomics/Pipelines/assembly.pbs/FastA.length.pl +1 -0
data/utils/enveomics/Pipelines/assembly.pbs/README.md +189 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-2.bash +112 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-3.bash +23 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-4.bash +44 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME.bash +50 -0
data/utils/enveomics/Pipelines/assembly.pbs/kSelector.R +37 -0
data/utils/enveomics/Pipelines/assembly.pbs/newbler.pbs +68 -0
data/utils/enveomics/Pipelines/assembly.pbs/newbler_preparator.pl +49 -0
data/utils/enveomics/Pipelines/assembly.pbs/soap.pbs +80 -0
data/utils/enveomics/Pipelines/assembly.pbs/stats.pbs +57 -0
data/utils/enveomics/Pipelines/assembly.pbs/velvet.pbs +63 -0
data/utils/enveomics/Pipelines/blast.pbs/01.pbs.bash +38 -0
data/utils/enveomics/Pipelines/blast.pbs/02.pbs.bash +73 -0
data/utils/enveomics/Pipelines/blast.pbs/03.pbs.bash +21 -0
data/utils/enveomics/Pipelines/blast.pbs/BlastTab.recover_job.pl +72 -0
data/utils/enveomics/Pipelines/blast.pbs/CONFIG.mock.bash +98 -0
data/utils/enveomics/Pipelines/blast.pbs/FastA.split.pl +1 -0
data/utils/enveomics/Pipelines/blast.pbs/README.md +127 -0
data/utils/enveomics/Pipelines/blast.pbs/RUNME.bash +109 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.check.bash +128 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.dry.bash +16 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.eo.bash +22 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.pause.bash +26 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.run.bash +89 -0
data/utils/enveomics/Pipelines/blast.pbs/sentinel.pbs.bash +29 -0
data/utils/enveomics/Pipelines/idba.pbs/README.md +49 -0
data/utils/enveomics/Pipelines/idba.pbs/RUNME.bash +95 -0
data/utils/enveomics/Pipelines/idba.pbs/run.pbs +56 -0
data/utils/enveomics/Pipelines/trim.pbs/README.md +54 -0
data/utils/enveomics/Pipelines/trim.pbs/RUNME.bash +70 -0
data/utils/enveomics/Pipelines/trim.pbs/run.pbs +130 -0
data/utils/enveomics/README.md +42 -0
data/utils/enveomics/Scripts/AAsubs.log2ratio.rb +171 -0
data/utils/enveomics/Scripts/Aln.cat.rb +163 -0
data/utils/enveomics/Scripts/Aln.convert.pl +35 -0
data/utils/enveomics/Scripts/AlphaDiversity.pl +152 -0
data/utils/enveomics/Scripts/BedGraph.tad.rb +93 -0
data/utils/enveomics/Scripts/BedGraph.window.rb +71 -0
data/utils/enveomics/Scripts/BlastPairwise.AAsubs.pl +102 -0
data/utils/enveomics/Scripts/BlastTab.addlen.rb +63 -0
data/utils/enveomics/Scripts/BlastTab.advance.bash +48 -0
data/utils/enveomics/Scripts/BlastTab.best_hit_sorted.pl +55 -0
data/utils/enveomics/Scripts/BlastTab.catsbj.pl +104 -0
data/utils/enveomics/Scripts/BlastTab.cogCat.rb +76 -0
data/utils/enveomics/Scripts/BlastTab.filter.pl +47 -0
data/utils/enveomics/Scripts/BlastTab.kegg_pep2path_rest.pl +194 -0
data/utils/enveomics/Scripts/BlastTab.metaxaPrep.pl +104 -0
data/utils/enveomics/Scripts/BlastTab.pairedHits.rb +157 -0
data/utils/enveomics/Scripts/BlastTab.recplot2.R +48 -0
data/utils/enveomics/Scripts/BlastTab.seqdepth.pl +86 -0
data/utils/enveomics/Scripts/BlastTab.seqdepth_ZIP.pl +119 -0
data/utils/enveomics/Scripts/BlastTab.seqdepth_nomedian.pl +86 -0
data/utils/enveomics/Scripts/BlastTab.subsample.pl +47 -0
data/utils/enveomics/Scripts/BlastTab.sumPerHit.pl +114 -0
data/utils/enveomics/Scripts/BlastTab.taxid2taxrank.pl +90 -0
data/utils/enveomics/Scripts/BlastTab.topHits_sorted.rb +101 -0
data/utils/enveomics/Scripts/Chao1.pl +97 -0
data/utils/enveomics/Scripts/CharTable.classify.rb +234 -0
data/utils/enveomics/Scripts/EBIseq2tax.rb +83 -0
data/utils/enveomics/Scripts/FastA.N50.pl +56 -0
data/utils/enveomics/Scripts/FastA.extract.rb +152 -0
data/utils/enveomics/Scripts/FastA.filter.pl +52 -0
data/utils/enveomics/Scripts/FastA.filterLen.pl +28 -0
data/utils/enveomics/Scripts/FastA.filterN.pl +60 -0
data/utils/enveomics/Scripts/FastA.fragment.rb +92 -0
data/utils/enveomics/Scripts/FastA.gc.pl +42 -0
data/utils/enveomics/Scripts/FastA.interpose.pl +93 -0
data/utils/enveomics/Scripts/FastA.length.pl +38 -0
data/utils/enveomics/Scripts/FastA.mask.rb +89 -0
data/utils/enveomics/Scripts/FastA.per_file.pl +36 -0
data/utils/enveomics/Scripts/FastA.qlen.pl +57 -0
data/utils/enveomics/Scripts/FastA.rename.pl +65 -0
data/utils/enveomics/Scripts/FastA.revcom.pl +23 -0
data/utils/enveomics/Scripts/FastA.sample.rb +83 -0
data/utils/enveomics/Scripts/FastA.slider.pl +85 -0
data/utils/enveomics/Scripts/FastA.split.pl +55 -0
data/utils/enveomics/Scripts/FastA.split.rb +79 -0
data/utils/enveomics/Scripts/FastA.subsample.pl +131 -0
data/utils/enveomics/Scripts/FastA.tag.rb +65 -0
data/utils/enveomics/Scripts/FastA.wrap.rb +48 -0
data/utils/enveomics/Scripts/FastQ.filter.pl +54 -0
data/utils/enveomics/Scripts/FastQ.interpose.pl +90 -0
data/utils/enveomics/Scripts/FastQ.offset.pl +90 -0
data/utils/enveomics/Scripts/FastQ.split.pl +53 -0
data/utils/enveomics/Scripts/FastQ.tag.rb +63 -0
data/utils/enveomics/Scripts/FastQ.test-error.rb +81 -0
data/utils/enveomics/Scripts/FastQ.toFastA.awk +24 -0
data/utils/enveomics/Scripts/GFF.catsbj.pl +127 -0
data/utils/enveomics/Scripts/GenBank.add_fields.rb +84 -0
data/utils/enveomics/Scripts/HMM.essential.rb +351 -0
data/utils/enveomics/Scripts/HMM.haai.rb +168 -0
data/utils/enveomics/Scripts/HMMsearch.extractIds.rb +83 -0
data/utils/enveomics/Scripts/JPlace.distances.rb +88 -0
data/utils/enveomics/Scripts/JPlace.to_iToL.rb +320 -0
data/utils/enveomics/Scripts/M5nr.getSequences.rb +81 -0
data/utils/enveomics/Scripts/MeTaxa.distribution.pl +198 -0
data/utils/enveomics/Scripts/MyTaxa.fragsByTax.pl +35 -0
data/utils/enveomics/Scripts/MyTaxa.seq-taxrank.rb +49 -0
data/utils/enveomics/Scripts/NCBIacc2tax.rb +92 -0
data/utils/enveomics/Scripts/Newick.autoprune.R +27 -0
data/utils/enveomics/Scripts/RAxML-EPA.to_iToL.pl +228 -0
data/utils/enveomics/Scripts/RecPlot2.compareIdentities.R +32 -0
data/utils/enveomics/Scripts/RefSeq.download.bash +48 -0
data/utils/enveomics/Scripts/SRA.download.bash +57 -0
data/utils/enveomics/Scripts/TRIBS.plot-test.R +36 -0
data/utils/enveomics/Scripts/TRIBS.test.R +39 -0
data/utils/enveomics/Scripts/Table.barplot.R +31 -0
data/utils/enveomics/Scripts/Table.df2dist.R +30 -0
data/utils/enveomics/Scripts/Table.filter.pl +61 -0
data/utils/enveomics/Scripts/Table.merge.pl +77 -0
data/utils/enveomics/Scripts/Table.replace.rb +69 -0
data/utils/enveomics/Scripts/Table.round.rb +63 -0
data/utils/enveomics/Scripts/Table.split.pl +57 -0
data/utils/enveomics/Scripts/Taxonomy.silva2ncbi.rb +227 -0
data/utils/enveomics/Scripts/VCF.KaKs.rb +147 -0
data/utils/enveomics/Scripts/VCF.SNPs.rb +88 -0
data/utils/enveomics/Scripts/aai.rb +418 -0
data/utils/enveomics/Scripts/ani.rb +362 -0
data/utils/enveomics/Scripts/clust.rand.rb +102 -0
data/utils/enveomics/Scripts/gi2tax.rb +103 -0
data/utils/enveomics/Scripts/in_silico_GA_GI.pl +96 -0
data/utils/enveomics/Scripts/lib/data/dupont_2012_essential.hmm.gz +0 -0
data/utils/enveomics/Scripts/lib/data/lee_2019_essential.hmm.gz +0 -0
data/utils/enveomics/Scripts/lib/enveomics.R +1 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/enveomics.rb +24 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/jplace.rb +253 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/og.rb +182 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/remote_data.rb +74 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/seq_range.rb +237 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stat.rb +30 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/vcf.rb +135 -0
data/utils/enveomics/Scripts/ogs.annotate.rb +88 -0
data/utils/enveomics/Scripts/ogs.core-pan.rb +160 -0
data/utils/enveomics/Scripts/ogs.extract.rb +125 -0
data/utils/enveomics/Scripts/ogs.mcl.rb +186 -0
data/utils/enveomics/Scripts/ogs.rb +104 -0
data/utils/enveomics/Scripts/ogs.stats.rb +131 -0
data/utils/enveomics/Scripts/rbm.rb +146 -0
data/utils/enveomics/Tests/Makefile +10 -0
data/utils/enveomics/Tests/Mgen_M2288.faa +3189 -0
data/utils/enveomics/Tests/Mgen_M2288.fna +8282 -0
data/utils/enveomics/Tests/Mgen_M2321.fna +8288 -0
data/utils/enveomics/Tests/Nequ_Kin4M.faa +2970 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae-PilA.tribs.Rdata +0 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae-PilA.txt +7 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae.aai-mat.tsv +17 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae.aai.tsv +137 -0
data/utils/enveomics/Tests/a_mg.cds-go.blast.tsv +123 -0
data/utils/enveomics/Tests/a_mg.reads-cds.blast.tsv +200 -0
data/utils/enveomics/Tests/a_mg.reads-cds.counts.tsv +55 -0
data/utils/enveomics/Tests/alkB.nwk +1 -0
data/utils/enveomics/Tests/anthrax-cansnp-data.tsv +13 -0
data/utils/enveomics/Tests/anthrax-cansnp-key.tsv +17 -0
data/utils/enveomics/Tests/hiv1.faa +59 -0
data/utils/enveomics/Tests/hiv1.fna +134 -0
data/utils/enveomics/Tests/hiv2.faa +70 -0
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv +233 -0
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv.lim +1 -0
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv.rec +233 -0
data/utils/enveomics/Tests/phyla_counts.tsv +10 -0
data/utils/enveomics/Tests/primate_lentivirus.ogs +11 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-hiv1.rbm +9 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-hiv2.rbm +8 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-siv.rbm +6 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv2-hiv2.rbm +9 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv2-siv.rbm +6 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/siv-siv.rbm +6 -0
data/utils/enveomics/build_enveomics_r.bash +45 -0
data/utils/enveomics/enveomics.R/DESCRIPTION +31 -0
data/utils/enveomics/enveomics.R/NAMESPACE +39 -0
data/utils/enveomics/enveomics.R/R/autoprune.R +155 -0
data/utils/enveomics/enveomics.R/R/barplot.R +184 -0
data/utils/enveomics/enveomics.R/R/cliopts.R +135 -0
data/utils/enveomics/enveomics.R/R/df2dist.R +154 -0
data/utils/enveomics/enveomics.R/R/growthcurve.R +331 -0
data/utils/enveomics/enveomics.R/R/recplot.R +354 -0
data/utils/enveomics/enveomics.R/R/recplot2.R +1631 -0
data/utils/enveomics/enveomics.R/R/tribs.R +583 -0
data/utils/enveomics/enveomics.R/R/utils.R +50 -0
data/utils/enveomics/enveomics.R/README.md +80 -0
data/utils/enveomics/enveomics.R/data/growth.curves.rda +0 -0
data/utils/enveomics/enveomics.R/data/phyla.counts.rda +0 -0
data/utils/enveomics/enveomics.R/man/cash-enve.GrowthCurve-method.Rd +17 -0
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2-method.Rd +17 -0
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2.Peak-method.Rd +17 -0
data/utils/enveomics/enveomics.R/man/enve.GrowthCurve-class.Rd +25 -0
data/utils/enveomics/enveomics.R/man/enve.TRIBS-class.Rd +46 -0
data/utils/enveomics/enveomics.R/man/enve.TRIBS.merge.Rd +23 -0
data/utils/enveomics/enveomics.R/man/enve.TRIBStest-class.Rd +47 -0
data/utils/enveomics/enveomics.R/man/enve.__prune.iter.Rd +23 -0
data/utils/enveomics/enveomics.R/man/enve.__prune.reduce.Rd +23 -0
data/utils/enveomics/enveomics.R/man/enve.__tribs.Rd +32 -0
data/utils/enveomics/enveomics.R/man/enve.barplot.Rd +91 -0
data/utils/enveomics/enveomics.R/man/enve.cliopts.Rd +57 -0
data/utils/enveomics/enveomics.R/man/enve.col.alpha.Rd +24 -0
data/utils/enveomics/enveomics.R/man/enve.col2alpha.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.df2dist.Rd +39 -0
data/utils/enveomics/enveomics.R/man/enve.df2dist.group.Rd +38 -0
data/utils/enveomics/enveomics.R/man/enve.df2dist.list.Rd +40 -0
data/utils/enveomics/enveomics.R/man/enve.growthcurve.Rd +67 -0
data/utils/enveomics/enveomics.R/man/enve.prune.dist.Rd +37 -0
data/utils/enveomics/enveomics.R/man/enve.recplot.Rd +122 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2-class.Rd +45 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.ANIr.Rd +24 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.Rd +68 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__counts.Rd +25 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__peakHist.Rd +21 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__whichClosestPeak.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.changeCutoff.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.compareIdentities.Rd +41 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.coordinates.Rd +29 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.corePeak.Rd +18 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.extractWindows.Rd +40 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.Rd +36 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__em_e.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__em_m.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__emauto_one.Rd +27 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__mow_one.Rd +41 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__mower.Rd +17 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.em.Rd +43 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.emauto.Rd +37 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.mower.Rd +74 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.peak-class.Rd +59 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.seqdepth.Rd +27 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.windowDepthThreshold.Rd +32 -0
data/utils/enveomics/enveomics.R/man/enve.tribs.Rd +59 -0
data/utils/enveomics/enveomics.R/man/enve.tribs.test.Rd +28 -0
data/utils/enveomics/enveomics.R/man/enve.truncate.Rd +27 -0
data/utils/enveomics/enveomics.R/man/growth.curves.Rd +14 -0
data/utils/enveomics/enveomics.R/man/phyla.counts.Rd +13 -0
data/utils/enveomics/enveomics.R/man/plot.enve.GrowthCurve.Rd +63 -0
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBS.Rd +38 -0
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBStest.Rd +38 -0
data/utils/enveomics/enveomics.R/man/plot.enve.recplot2.Rd +111 -0
data/utils/enveomics/enveomics.R/man/summary.enve.GrowthCurve.Rd +19 -0
data/utils/enveomics/enveomics.R/man/summary.enve.TRIBS.Rd +19 -0
data/utils/enveomics/enveomics.R/man/summary.enve.TRIBStest.Rd +19 -0
data/utils/enveomics/globals.mk +8 -0
data/utils/enveomics/manifest.json +9 -0
metadata +277 -4

data/utils/enveomics/Scripts/AAsubs.log2ratio.rb ADDED Viewed

@@ -0,0 +1,171 @@
+#!/usr/bin/env ruby
+#
+# @author  Luis M. Rodriguez-R
+# @update  Dec-21-2015
+# @license artistic license 2.0
+#
+$:.push File.expand_path(File.dirname(__FILE__) + "/lib")
+require "enveomics_rb/enveomics"
+o = {permutations: 1000, bootstraps: 1000, overwrite: false}
+OptionParser.new do |opt|
+   opt.banner = "
+   Estimates the log2-ratio of different amino acids in homologous sites using
+   an AAsubs file (see BlastPairwise.AAsubs.pl). It provides the point
+   estimation (.obs file), the bootstrap of the estimation (.boot file) and the
+   null model based on label-permutation (.null file).
+   Usage: #{$0} [options]".gsub(/^ +/,"")
+   opt.separator ""
+   opt.separator "Mandatory"
+   opt.on("-i", "--input FILE",
+      "Input file in AAsubs format (see BlastPairwise.AAsubs.pl)."
+      ){ |v| o[:file] = v}
+   opt.separator ""
+   opt.separator "Output files"
+   opt.on("-O", "--obs-file FILE",
+      "Output file with the log2-ratios per amino acid.",
+      "By default, '--input value'.obs."
+      ){ |v| o[:obs] = v }
+   opt.on("-B", "--bootstrap-file FILE",
+      "Output file with the bootstrap results of log2-ratios per amino acid.",
+      "By default, '--input value'.boot."
+      ){ |v| o[:boot] = v }
+   opt.on("-N", "--null-file FILE",
+      "Output file with the permutation results of log2-ratios per amino acid.",
+      "By default, '--input value'.null."
+      ){ |v| o[:null] = v }
+   opt.on("--overwrite",
+      "Overwrite existing files. By default, skip steps if the files already" +
+      " exist."){ |v| o[:overwrite] = v }
+   opt.separator ""
+   opt.separator "Parameters"
+   opt.on("-b", "--bootstraps INT",
+      "Number of bootstraps to run. By default: #{o[:bootstraps]}."
+      ){ |v| o[:bootstraps] = v.to_i }
+   opt.on("-p", "--permutations INT",
+      "Number of permutations to run. By default: #{o[:permutations]}."
+      ){ |v| o[:permutations] = v.to_i }
+   opt.on("-q", "--quiet", "Run quietly (no STDERR output)."){ o[:q] = TRUE }
+   opt.on("-h", "--help", "Display this screen.") do
+      puts opt
+      exit
+   end
+   opt.separator ""
+end.parse!
+# Initialize
+abort "--input is mandatory" if o[:file].nil?
+ALPHABET = %w(A C D E F G H I K L M N P Q R S T V W Y X)
+o[:obs] ||= "#{o[:file]}.obs"
+o[:boot] ||= "#{o[:file]}.boot"
+o[:null] ||= "#{o[:file]}.null"
+# Functions
+def dist_summary(a,b)
+   ALPHABET.map do |i|
+      Math.log(a[i].reduce(0,:+).to_f/b[i].reduce(0,:+), 10)
+   end
+end
+def empty_sample
+   Hash[ALPHABET.map{|k| [k, []]}]
+end
+# Initialize
+$stderr.puts "Initializing." unless o[:q]
+sample_A = empty_sample
+sample_B = empty_sample
+last_label = nil
+prot_index = -1
+# Read file
+$stderr.puts "Reading input file." unless o[:q]
+ifh = File.open(o[:file], "r")
+ifh.each do |l|
+   r = l.chomp.split /\t/
+   if r.first != last_label
+      prot_index +=1
+      last_label = r.first
+      ALPHABET.each do |a|
+         sample_A[a][prot_index] = 0
+         sample_B[a][prot_index] = 0
+      end
+   end
+   [1,2].each do |ds|
+      unless %w(- *).include? r[ds]
+	 abort "Unknown amino acid in line #{$.}: '#{r[ds]}'." unless
+	    ALPHABET.include? r[ds]
+	 sample_A[ r[ds] ][ prot_index ] += 1 if ds==1
+	 sample_B[ r[ds] ][ prot_index ] += 1 if ds==2
+      end
+   end
+end
+ifh.close
+$stderr.puts "  > Found #{prot_index+1} proteins." unless o[:q]
+$stderr.puts "  > Saving #{o[:obs]}" unless o[:q]
+sum = dist_summary(sample_A, sample_B)
+File.open(o[:obs], "w") do |fh|
+   fh.puts ["AA", "log10_AB"].join("\t")
+   ALPHABET.each do |i|
+      fh.puts [i, sum.shift].join("\t")
+   end
+end
+# Permutations
+if File.size? o[:null] and not o[:overwrite]
+   $stderr.puts "Skipping permutations." unless o[:q]
+else
+   $stderr.puts "Permutating." unless o[:q]
+   permut_sum = []
+   o[:permutations].times do |i|
+      permut_A = empty_sample
+      permut_B = empty_sample
+      (0 .. prot_index).each do |j|
+	 # Copy counts of the protein
+	 ALPHABET.each do |k|
+	    permut_A[k][j] = sample_A[k][j]
+	    permut_B[k][j] = sample_B[k][j]
+	 end
+	 # Swap labels at random
+	 permut_A,permut_B = permut_B,permut_A if rand(2)==1
+      end
+      permut_sum << dist_summary(permut_A, permut_B)
+   end
+   $stderr.puts "  > Performed #{o[:permutations]} permutations." unless o[:q]
+   $stderr.puts "  > Saving #{o[:null]}" unless o[:q]
+   File.open(o[:null], "w") do |fh|
+      fh.puts ALPHABET.join("\t")
+      permut_sum.each{ |s| fh.puts s.join("\t") }
+   end
+end
+# Bootstraps
+if File.size? o[:boot] and not o[:overwrite]
+   $stderr.puts "Skipping bootstraps." unless o[:q]
+else
+   $stderr.puts "Bootstrapping." unless o[:q]
+   boot_sum = []
+   o[:bootstraps].times do |i|
+      boot_A = empty_sample
+      boot_B = empty_sample
+      (0 .. prot_index).each do |j|
+	 # Sample randomly with replacement
+	 jr = rand(prot_index+1)
+	 # Copy counts of the protein
+	 ALPHABET.each do |k|
+	    boot_A[k][j] = sample_A[k][jr]
+	    boot_B[k][j] = sample_B[k][jr]
+	 end
+      end
+      boot_sum << dist_summary(boot_A, boot_B)
+   end
+   $stderr.puts "  > Performed #{o[:bootstraps]} bootstraps." unless o[:q]
+   $stderr.puts "  > Saving #{o[:boot]}" unless o[:q]
+   File.open(o[:boot], "w") do |fh|
+      fh.puts ALPHABET.join("\t")
+      boot_sum.each{ |s| fh.puts s.join("\t") }
+   end
+end
+$stderr.puts "Done. Yayyy!" unless o[:q]

data/utils/enveomics/Scripts/Aln.cat.rb ADDED Viewed

@@ -0,0 +1,163 @@
+#!/usr/bin/env ruby
+#
+# @author  Luis M. Rodriguez-R
+# @update  Nov-30-2015
+# @license artistic license 2.0
+#
+$:.push File.expand_path(File.dirname(__FILE__) + "/lib")
+require "enveomics_rb/enveomics"
+o = {:q=>false, :missing=>"-", :model=>"AUTO", :removeinvar=>false,
+   :undefined=>"-.Xx?"}
+OptionParser.new do |opt|
+   opt.banner = "
+   Concatenates several multiple alignments in FastA format into a single
+   multiple alignment.  The IDs of the sequences (or the ID prefixes, if using
+   --ignore-after) must coincide across files.
+   Usage: #{$0} [options] aln1.fa aln2.fa ... > aln.fa".gsub(/^ +/,"")
+   opt.separator ""
+   opt.on("-c", "--coords FILE",
+      "Output file of coordinates in RAxML-compliant format."
+      ){ |v| o[:coords]=v }
+   opt.on("-i", "--ignore-after STRING",
+      "Remove everything in the IDs after the specified string."
+      ){ |v| o[:ignoreafter]=v }
+   opt.on("-I", "--remove-invariable", "Remove invariable sites.",
+      "Note: Invariable sites are defined as columns with only one state and",
+      "undefined characters.  Additional ambiguous characters may exist and",
+      "should be declared using --undefined."){ |v| o[:removeinvar]=v }
+   opt.on("-u", "--missing-char CHAR",
+      "Character denoting missing data. By default: '#{o[:missing]}'.") do |v|
+	 abort "Missing positions can only be denoted by single characters, " +
+	    "offending value: '#{v}'." if v.length != 1
+	 o[:missing]=v
+      end
+   opt.on("-m", "--model STRING",
+      "Name of the model to use if --coords is used. See RAxML's docs; ",
+      "supported values in v8+ include:",
+      "o For DNA alignments:",
+      "  'DNA[F|X]', or 'DNA[F|X]/3' (to estimate rates per codon position,",
+      "  particular notation for this script).",
+      "o General protein alignments:",
+      "  'AUTO' (default in this script), 'DAYHOFF' (1978), 'DCMUT' (MBE 2005;",
+      "  22(2):193-199), 'JTT' (Nat 1992;358:86-89), 'VT' (JCompBiol 2000;",
+      "  7(6):761-776), 'BLOSUM62' (PNAS 1992;89:10915), and 'LG' (MBE 2008;",
+      "  25(7):1307-1320).",
+      "o Specialized protein alignments:",
+      "  'MTREV' (mitochondrial, JME 1996;42(4):459-468), 'WAG' (globular, MBE",
+      "  2001;18(5):691-699), 'RTREV' (retrovirus, JME 2002;55(1):65-73), ",
+      "  'CPREV' (chloroplast, JME 2000;50(4):348-358), and 'MTMAM' (nuclear",
+      "  mammal proteins, JME 1998;46(4):409-418)."){|v| o[:model]=v}
+   opt.on("--undefined STRING",
+      "All characters to be regarded as 'undefined'. It should include all",
+      "ambiguous and missing data chars.  Ignored unless --remove-invariable.",
+      "By default: '#{o[:undefined]}'."){|v| o[:undefined]=v}
+   opt.on("-q", "--quiet", "Run quietly (no STDERR output)."){ o[:q] = TRUE }
+   opt.on("-h", "--help", "Display this screen.") do
+      puts opt
+      exit
+   end
+   opt.separator ""
+end.parse!
+alns = ARGV
+abort "Alignment files are mandatory" if alns.nil? or alns.empty?
+##### MAIN:
+begin
+   $stderr.puts "Reading." unless o[:q]
+   a = {}
+   n = alns.size-1
+   lengths = []
+   (0 .. n).each do |i|
+      key = nil
+      File.open(alns[i],"r").each do |ln|
+	 ln.chomp!
+	 if ln =~ /^>(\S+)/
+	    key = $1
+	    key.sub!(/#{o[:ignoreafter]}.*/,"") unless o[:ignoreafter].nil?
+	    a[key] ||= []
+	    a[key][i] = ""
+	 else
+	    abort "#{alns[i]}: Leading line is not a def-line, is this a "+
+	       "valid FastA file?" if key.nil?
+	    ln.gsub!(/\s/,"")
+	    a[key][i] += ln
+	 end
+      end
+      abort "#{alns[i]}: Empty alignment?" if key.nil?
+      lengths[i] = a[key][i].length
+   end
+   if o[:removeinvar]
+      $stderr.puts "Removing invariable sites." unless o[:q]
+      invs = 0
+      (0 .. n).each do |i|
+	 olen = lengths[i]
+	 (0 .. (lengths[i]-1)).each do |pos|
+	    chr = nil
+	    inv = true
+	    a.keys.each do |key|
+	       next if a[key][i].nil?
+	       chr = a[key][i][pos] if
+		  chr.nil? or o[:undefined].chars.include? chr
+	       if chr != a[key][i][pos] and
+		     not o[:undefined].chars.include? a[key][i][pos]
+		  inv = false
+		  break
+	       end
+	    end
+	    if inv
+	       a.keys.each{|key| a[key][i][pos]="!" unless a[key][i].nil?}
+	       lengths[i] -= 1
+	       invs += 1
+	    end
+	 end
+	 a.keys.each{|key| a[key][i].gsub!("!", "") unless a[key][i].nil?}
+      end
+      $stderr.puts "  Removed #{invs} sites." unless o[:q]
+   end
+   $stderr.puts "Concatenating." unless o[:q]
+   a.keys.each do |key|
+      (0 .. n).each do |i|
+	 a[key][i] = (o[:missing] * lengths[i]) if a[key][i].nil?
+      end
+      abort "Inconsistent lengths in '#{key}'
+      exp:#{lengths.join(" ")}
+      obs:#{a[key].map{|i| i.length}.join(" ")}." unless
+	 lengths == a[key].map{|i| i.length}
+      puts ">#{key}", a[key].join("").gsub(/(.{1,60})/, "\\1\n")
+      a.delete(key)
+   end
+   $stderr.puts "  #{lengths.inject(:+)} columns." unless o[:q]
+   unless o[:coords].nil?
+      $stderr.puts "Generating coordinates." unless o[:q]
+      coords = File.open(o[:coords],"w")
+      s = 0
+      names = (alns.map do |a|
+	 File.basename(a).gsub(/\..*/,"").gsub(/[^A-Za-z0-9_]/,"_")
+      end)
+      (0 .. n).each do |i|
+	 l = lengths[i]
+	 next unless l > 0
+	 names[i] += "_#{i}" while names.count(names[i])>1
+	 if o[:model] =~ /(DNA.?)\/3/
+	    coords.puts "#{$1}, #{names[i]}codon1 = #{s+1}-#{s+l}\\3"
+	    coords.puts "#{$1}, #{names[i]}codon2 = #{s+2}-#{s+l}\\3"
+	    coords.puts "#{$1}, #{names[i]}codon3 = #{s+3}-#{s+l}\\3"
+	 else
+	    coords.puts "#{o[:model]}, #{names[i]} = #{s+1}-#{s+l}"
+	 end
+	 s += l
+      end
+      coords.close
+   end
+   # Save the output matrix
+   $stderr.puts "Done.\n" unless o[:q]
+rescue => err
+   $stderr.puts "Exception: #{err}\n\n"
+   err.backtrace.each { |l| $stderr.puts l + "\n" }
+   err
+end

data/utils/enveomics/Scripts/Aln.convert.pl ADDED Viewed

@@ -0,0 +1,35 @@
+#!/usr/bin/env perl
+#
+# @author: Luis M. Rodriguez-R
+# @update: Mar-23-2015
+# @license: artistic license 2.0
+#
+use Bio::AlignIO;
+my($iformat,$oformat) = @ARGV;
+($iformat and $oformat) or die "
+Usage:
+   $0 in-format out-format < in_file > output_file
+   in-format	Input file's format.
+   out-format	Output file's format.
+   in_file	Input file.
+   out_file	Output file.
+Example:
+   # Re-format example.fa into Stockholm
+   $0 fasta stockholm < example.fa > example.stk
+Supported formats are:
+   bl2seq, clustalw, emboss, fasta, maf, mase, mega,
+   meme, metafasta, msf, nexus, pfam, phylip, po,
+   prodom, psi, selex, stockholm, XMFA, arp
+";
+$in  = Bio::AlignIO->new(-fh => \*STDIN, -format => $iformat);
+$out = Bio::AlignIO->new(-fh => \*STDOUT, -format => $oformat);
+while ( my $aln = $in->next_aln ) { $out->write_aln($aln) }

data/utils/enveomics/Scripts/AlphaDiversity.pl ADDED Viewed

@@ -0,0 +1,152 @@
+#!/usr/bin/env perl
+#
+# @author: Luis M. Rodriguez-R <lmrodriguezr at gmail dot com>
+# @update: Nov-29-2015
+# @license: artistic license 2.0
+#
+use warnings;
+use strict;
+use Getopt::Std;
+use List::Util qw/min max sum/;
+sub VERSION_MESSAGE(){print "Alpha-diversity indices (enveomics)\n"}
+sub HELP_MESSAGE(){die "
+Description:
+   Takes a table of OTU abundance in one or more samples and calculates the Rao
+   (Q_alpha), Rao-Jost (Q_alpha_eqv), Shannon (Hprime), and inverse Simpson
+   (1_lambda) indices of alpha diversity for each sample.
+   To use it with Qiime OTU Tables, run it as:
+   $0 -i OTU_Table.txt -h
+Usage:
+   $0 [opts]
+   -i <str>	* Input table (columns:samples, rows:OTUs, first column:OTU
+		names).
+   -r <int>	Number of rows to ignore.  By default: 0.
+   -c <int>	Number of columns to ignore after the first column (i.e.,
+		between the first column, containing the name of the categories,
+		and the first column of abundance values).  By default: 0.
+   -C <int>	Number of columns to ignore at the end of each line.
+		By default: 0.
+   -d <str>	Delimiter.  Supported escaped characters are: \"\\t\"
+		(tabulation), and \"\\0\" (null bit).  By default: \"\\t\".
+   -h		If set, the first row is assumed to have the names of the
+		samples.
+   -D <str>	Distances file.  A squared matrix (or bottom-left half matrix)
+		with the distances between categories (OTUs or functions).  The
+		first column must contain the names of the categories, and it
+		shouldn't have headers.  If not set, all distances are assumed
+		to be one.  Only used for Rao.
+   -R		Do not calculate Rao indices.  This significantly decreases the
+		total running time. Note that Rao indices are highly susceptible
+		to precision errors, and shouldn't be trusted for very big
+		numbers.
+   -q <int>	Estimate the qD index (true diversity order q).  By default: 0.
+   --help	This help message.
+   * Mandatory.
+"}
+# Input arguments
+my %o;
+getopts('i:c:C:d:r:hD:Rq:', \%o);
+#$o{B} and (eval("use bignum; 1") or die "Cannot use bignum.\n");
+&HELP_MESSAGE() unless $o{i};
+$o{c} ||= 0;
+$o{C} ||= 0;
+$o{r} ||= 0;
+$o{d} ||= "\\t";
+$o{q} ||= 0;
+$o{d}="\t" if $o{d} eq "\\t";
+$o{d}="\0" if $o{d} eq "\\0";
+# Distance matrix
+my $D = {};
+if($o{D} and not $o{R}){
+   my @Didx = ();
+   open DIST, "<", $o{D} or die "Cannot read file: $o{D}: $!\n";
+   while(<DIST>){
+      chomp;
+      my @d = split /\t/;
+      my $idx = shift @d;
+      push  @Didx,  $idx;
+      $D->{ $idx } ||= {};
+      $D->{ $idx }->{ $Didx[$_] } = $d[$_] for(0 .. $#d);
+   }
+   close DIST;
+   undef @Didx;
+}
+# Abundance matrix
+my @names  = ();
+my @cats   = ();
+my @values = ();
+open TABLE, "<", $o{i} or die "Cannot open file: ".$o{i}.": $!\n";
+<TABLE> for (1 .. $o{r});
+if($o{h}){
+   my $h = <TABLE>;
+   $h or die "Empty table!\n";
+   chomp $h;
+   @names = split $o{d}, $h;
+   shift @names for (0 .. $o{c});
+}
+while(<TABLE>){
+   chomp;
+   my @ln = split $o{d};
+   push @cats, shift(@ln);
+   shift @ln for (1 .. $o{c});
+   pop @ln for (1 .. $o{C});
+   push @{$values[$_] ||= []}, $ln[$_] for (0 .. $#ln);
+   push @{$values[$#ln+1]}, sum(@ln);
+}
+close TABLE;
+$names[$#values] = "gamma";
+if($o{R}){
+   print "".join($o{d}, qw/Sample Hprime 1_lambda qD/)."\n";
+}else{
+   print "".join($o{d}, qw/Sample Q_alpha Q_alpha_eqv Hprime 1_lambda qD/)."\n";
+}
+for my $i (0 .. $#values){
+   print "".(exists $names[$i] ? $names[$i] : $i).$o{d};
+   my $N = sum @{$values[$i]};
+   my $Q = 0;
+   my $H = 0;
+   my $l = 0;
+   my $qD = 0 unless $o{q}==1;
+   for my $ik (0 .. $#{$values[$i]}){
+      unless($o{R}){
+	 my $Qi = 0;
+	 for my $jk (0 .. $#{$values[$i]}){
+	    my $dij = (!$o{D}) ? 1 :
+	       exists $D->{ $cats[$ik] }->{ $cats[$jk] } ?
+	       $D->{ $cats[$ik] }->{ $cats[$jk] } :
+	       exists $D->{ $cats[$jk] }->{ $cats[$ik] } ?
+	       $D->{ $cats[$jk] }->{ $cats[$ik] } :
+	       die "Cannot find distance between ".$cats[$ik].
+		  " and ".$cats[$jk].".\n";
+	    $Qi += $dij * ($values[$i]->[$ik]/$N) * ($values[$i]->[$jk]/$N);
+	 }
+	 $Q += $Qi;
+      }
+      my $pi = $N ? $values[$i]->[$ik]/$N : 0;
+      $H  -= $pi * log($pi) if $pi;
+      $l  += $pi**2;
+      $qD += $pi * ($pi**($o{q}-1)) unless $o{q}==1 or not $pi;
+   }
+   $qD = $o{q}==1 ? exp($H) : 1/($qD**(1/($o{q}-1)));
+   if($o{R}){
+      print "".join($o{d}, $H, $l ? 1/$l : "Inf", $qD)."\n";
+   }else{
+      print "".join($o{d}, $Q, ($Q==1 ? "NA" : 1/(1-$Q)), $H, 1/$l, $qD)."\n";
+   }
+}