RubyGems - miga-base - Versions diffs - 0.3.0.0 → 0.3.0.1 - Mend

miga-base 0.3.0.0 → 0.3.0.1

Files changed (260) hide show

checksums.yaml +4 -4
data/README.md +21 -4
data/actions/init.rb +258 -0
data/actions/run_local.rb +1 -2
data/actions/test_taxonomy.rb +4 -1
data/bin/miga +8 -1
data/lib/miga/dataset.rb +4 -4
data/lib/miga/dataset_result.rb +7 -4
data/lib/miga/version.rb +2 -2
data/scripts/_distances_noref_nomulti.bash +3 -1
data/scripts/clade_finding.bash +1 -1
data/scripts/init.bash +1 -1
data/scripts/miga.bash +1 -1
data/scripts/mytaxa.bash +78 -72
data/scripts/mytaxa_scan.bash +67 -62
data/scripts/ogs.bash +1 -1
data/scripts/trimmed_fasta.bash +4 -3
data/utils/enveomics/Examples/aai-matrix.bash +66 -0
data/utils/enveomics/Examples/ani-matrix.bash +66 -0
data/utils/enveomics/Examples/essential-phylogeny.bash +105 -0
data/utils/enveomics/Examples/unus-genome-phylogeny.bash +100 -0
data/utils/enveomics/LICENSE.txt +73 -0
data/utils/enveomics/Makefile +52 -0
data/utils/enveomics/Manifest/Tasks/aasubs.json +103 -0
data/utils/enveomics/Manifest/Tasks/blasttab.json +703 -0
data/utils/enveomics/Manifest/Tasks/distances.json +161 -0
data/utils/enveomics/Manifest/Tasks/fasta.json +571 -0
data/utils/enveomics/Manifest/Tasks/fastq.json +208 -0
data/utils/enveomics/Manifest/Tasks/graphics.json +126 -0
data/utils/enveomics/Manifest/Tasks/ogs.json +339 -0
data/utils/enveomics/Manifest/Tasks/other.json +746 -0
data/utils/enveomics/Manifest/Tasks/remote.json +355 -0
data/utils/enveomics/Manifest/Tasks/sequence-identity.json +454 -0
data/utils/enveomics/Manifest/Tasks/tables.json +308 -0
data/utils/enveomics/Manifest/Tasks/trees.json +68 -0
data/utils/enveomics/Manifest/Tasks/variants.json +111 -0
data/utils/enveomics/Manifest/categories.json +132 -0
data/utils/enveomics/Manifest/examples.json +154 -0
data/utils/enveomics/Manifest/tasks.json +4 -0
data/utils/enveomics/Pipelines/assembly.pbs/CONFIG.mock.bash +69 -0
data/utils/enveomics/Pipelines/assembly.pbs/FastA.N50.pl +56 -0
data/utils/enveomics/Pipelines/assembly.pbs/FastA.filterN.pl +60 -0
data/utils/enveomics/Pipelines/assembly.pbs/FastA.length.pl +38 -0
data/utils/enveomics/Pipelines/assembly.pbs/README.md +189 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-2.bash +112 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-3.bash +23 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-4.bash +44 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME.bash +50 -0
data/utils/enveomics/Pipelines/assembly.pbs/kSelector.R +37 -0
data/utils/enveomics/Pipelines/assembly.pbs/newbler.pbs +68 -0
data/utils/enveomics/Pipelines/assembly.pbs/newbler_preparator.pl +49 -0
data/utils/enveomics/Pipelines/assembly.pbs/soap.pbs +80 -0
data/utils/enveomics/Pipelines/assembly.pbs/stats.pbs +57 -0
data/utils/enveomics/Pipelines/assembly.pbs/velvet.pbs +63 -0
data/utils/enveomics/Pipelines/blast.pbs/01.pbs.bash +38 -0
data/utils/enveomics/Pipelines/blast.pbs/02.pbs.bash +73 -0
data/utils/enveomics/Pipelines/blast.pbs/03.pbs.bash +21 -0
data/utils/enveomics/Pipelines/blast.pbs/BlastTab.recover_job.pl +72 -0
data/utils/enveomics/Pipelines/blast.pbs/CONFIG.mock.bash +98 -0
data/utils/enveomics/Pipelines/blast.pbs/FastA.split.pl +55 -0
data/utils/enveomics/Pipelines/blast.pbs/README.md +127 -0
data/utils/enveomics/Pipelines/blast.pbs/RUNME.bash +109 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.check.bash +128 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.dry.bash +16 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.eo.bash +22 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.pause.bash +26 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.run.bash +89 -0
data/utils/enveomics/Pipelines/blast.pbs/sentinel.pbs.bash +29 -0
data/utils/enveomics/Pipelines/idba.pbs/README.md +49 -0
data/utils/enveomics/Pipelines/idba.pbs/RUNME.bash +95 -0
data/utils/enveomics/Pipelines/idba.pbs/run.pbs +56 -0
data/utils/enveomics/Pipelines/trim.pbs/README.md +54 -0
data/utils/enveomics/Pipelines/trim.pbs/RUNME.bash +70 -0
data/utils/enveomics/Pipelines/trim.pbs/run.pbs +130 -0
data/utils/enveomics/README.md +40 -0
data/utils/enveomics/Scripts/AAsubs.log2ratio.rb +171 -0
data/utils/enveomics/Scripts/Aln.cat.rb +162 -0
data/utils/enveomics/Scripts/Aln.convert.pl +35 -0
data/utils/enveomics/Scripts/AlphaDiversity.pl +152 -0
data/utils/enveomics/Scripts/BlastPairwise.AAsubs.pl +102 -0
data/utils/enveomics/Scripts/BlastTab.addlen.rb +61 -0
data/utils/enveomics/Scripts/BlastTab.advance.bash +48 -0
data/utils/enveomics/Scripts/BlastTab.best_hit_sorted.pl +55 -0
data/utils/enveomics/Scripts/BlastTab.catsbj.pl +106 -0
data/utils/enveomics/Scripts/BlastTab.cogCat.rb +76 -0
data/utils/enveomics/Scripts/BlastTab.filter.pl +47 -0
data/utils/enveomics/Scripts/BlastTab.kegg_pep2path_rest.pl +194 -0
data/utils/enveomics/Scripts/BlastTab.metaxaPrep.pl +104 -0
data/utils/enveomics/Scripts/BlastTab.pairedHits.rb +157 -0
data/utils/enveomics/Scripts/BlastTab.recplot2.R +40 -0
data/utils/enveomics/Scripts/BlastTab.seqdepth.pl +86 -0
data/utils/enveomics/Scripts/BlastTab.seqdepth_ZIP.pl +119 -0
data/utils/enveomics/Scripts/BlastTab.seqdepth_nomedian.pl +86 -0
data/utils/enveomics/Scripts/BlastTab.subsample.pl +47 -0
data/utils/enveomics/Scripts/BlastTab.sumPerHit.pl +114 -0
data/utils/enveomics/Scripts/BlastTab.taxid2taxrank.pl +90 -0
data/utils/enveomics/Scripts/BlastTab.topHits_sorted.rb +101 -0
data/utils/enveomics/Scripts/Chao1.pl +97 -0
data/utils/enveomics/Scripts/CharTable.classify.rb +234 -0
data/utils/enveomics/Scripts/EBIseq2tax.rb +83 -0
data/utils/enveomics/Scripts/FastA.N50.pl +56 -0
data/utils/enveomics/Scripts/FastA.filter.pl +52 -0
data/utils/enveomics/Scripts/FastA.filterLen.pl +28 -0
data/utils/enveomics/Scripts/FastA.filterN.pl +60 -0
data/utils/enveomics/Scripts/FastA.fragment.rb +92 -0
data/utils/enveomics/Scripts/FastA.gc.pl +42 -0
data/utils/enveomics/Scripts/FastA.interpose.pl +87 -0
data/utils/enveomics/Scripts/FastA.length.pl +38 -0
data/utils/enveomics/Scripts/FastA.per_file.pl +36 -0
data/utils/enveomics/Scripts/FastA.qlen.pl +57 -0
data/utils/enveomics/Scripts/FastA.rename.pl +65 -0
data/utils/enveomics/Scripts/FastA.revcom.pl +23 -0
data/utils/enveomics/Scripts/FastA.slider.pl +85 -0
data/utils/enveomics/Scripts/FastA.split.pl +55 -0
data/utils/enveomics/Scripts/FastA.subsample.pl +131 -0
data/utils/enveomics/Scripts/FastA.tag.rb +64 -0
data/utils/enveomics/Scripts/FastA.wrap.rb +48 -0
data/utils/enveomics/Scripts/FastQ.filter.pl +54 -0
data/utils/enveomics/Scripts/FastQ.interpose.pl +90 -0
data/utils/enveomics/Scripts/FastQ.offset.pl +90 -0
data/utils/enveomics/Scripts/FastQ.split.pl +53 -0
data/utils/enveomics/Scripts/FastQ.tag.rb +63 -0
data/utils/enveomics/Scripts/FastQ.toFastA.awk +24 -0
data/utils/enveomics/Scripts/GenBank.add_fields.rb +84 -0
data/utils/enveomics/Scripts/HMM.essential.rb +254 -0
data/utils/enveomics/Scripts/HMMsearch.extractIds.rb +83 -0
data/utils/enveomics/Scripts/JPlace.distances.rb +88 -0
data/utils/enveomics/Scripts/JPlace.to_iToL.rb +306 -0
data/utils/enveomics/Scripts/M5nr.getSequences.rb +81 -0
data/utils/enveomics/Scripts/MeTaxa.distribution.pl +198 -0
data/utils/enveomics/Scripts/MyTaxa.fragsByTax.pl +35 -0
data/utils/enveomics/Scripts/MyTaxa.seq-taxrank.rb +49 -0
data/utils/enveomics/Scripts/NCBIacc2tax.rb +92 -0
data/utils/enveomics/Scripts/Newick.autoprune.R +27 -0
data/utils/enveomics/Scripts/RAxML-EPA.to_iToL.pl +228 -0
data/utils/enveomics/Scripts/RefSeq.download.bash +48 -0
data/utils/enveomics/Scripts/SRA.download.bash +50 -0
data/utils/enveomics/Scripts/TRIBS.plot-test.R +36 -0
data/utils/enveomics/Scripts/TRIBS.test.R +39 -0
data/utils/enveomics/Scripts/Table.barplot.R +30 -0
data/utils/enveomics/Scripts/Table.df2dist.R +30 -0
data/utils/enveomics/Scripts/Table.filter.pl +61 -0
data/utils/enveomics/Scripts/Table.merge.pl +77 -0
data/utils/enveomics/Scripts/Table.replace.rb +69 -0
data/utils/enveomics/Scripts/Table.round.rb +63 -0
data/utils/enveomics/Scripts/Table.split.pl +57 -0
data/utils/enveomics/Scripts/Taxonomy.silva2ncbi.rb +227 -0
data/utils/enveomics/Scripts/VCF.KaKs.rb +147 -0
data/utils/enveomics/Scripts/VCF.SNPs.rb +88 -0
data/utils/enveomics/Scripts/aai.rb +373 -0
data/utils/enveomics/Scripts/ani.rb +362 -0
data/utils/enveomics/Scripts/gi2tax.rb +103 -0
data/utils/enveomics/Scripts/in_silico_GA_GI.pl +96 -0
data/utils/enveomics/Scripts/lib/data/essential.hmm.gz +0 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/enveomics.rb +26 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/jplace.rb +253 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/og.rb +182 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/remote_data.rb +74 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/seq_range.rb +237 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stat.rb +30 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/vcf.rb +135 -0
data/utils/enveomics/Scripts/ogs.annotate.rb +88 -0
data/utils/enveomics/Scripts/ogs.core-pan.rb +160 -0
data/utils/enveomics/Scripts/ogs.extract.rb +125 -0
data/utils/enveomics/Scripts/ogs.mcl.rb +186 -0
data/utils/enveomics/Scripts/ogs.rb +104 -0
data/utils/enveomics/Scripts/ogs.stats.rb +131 -0
data/utils/enveomics/Scripts/rbm.rb +137 -0
data/utils/enveomics/Tests/Makefile +10 -0
data/utils/enveomics/Tests/Mgen_M2288.faa +3189 -0
data/utils/enveomics/Tests/Mgen_M2288.fna +8282 -0
data/utils/enveomics/Tests/Mgen_M2321.fna +8288 -0
data/utils/enveomics/Tests/Nequ_Kin4M.faa +2970 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae-PilA.tribs.Rdata +0 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae-PilA.txt +7 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae.aai-mat.tsv +17 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae.aai.tsv +137 -0
data/utils/enveomics/Tests/a_mg.cds-go.blast.tsv +123 -0
data/utils/enveomics/Tests/a_mg.reads-cds.blast.tsv +200 -0
data/utils/enveomics/Tests/a_mg.reads-cds.counts.tsv +55 -0
data/utils/enveomics/Tests/alkB.nwk +1 -0
data/utils/enveomics/Tests/anthrax-cansnp-data.tsv +13 -0
data/utils/enveomics/Tests/anthrax-cansnp-key.tsv +17 -0
data/utils/enveomics/Tests/hiv1.faa +59 -0
data/utils/enveomics/Tests/hiv1.fna +134 -0
data/utils/enveomics/Tests/hiv2.faa +70 -0
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv +233 -0
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv.lim +1 -0
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv.rec +233 -0
data/utils/enveomics/Tests/phyla_counts.tsv +10 -0
data/utils/enveomics/Tests/primate_lentivirus.ogs +11 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-hiv1.rbm +9 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-hiv2.rbm +8 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-siv.rbm +6 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv2-hiv2.rbm +9 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv2-siv.rbm +6 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/siv-siv.rbm +6 -0
data/utils/enveomics/build_enveomics_r.bash +44 -0
data/utils/enveomics/enveomics.R/DESCRIPTION +31 -0
data/utils/enveomics/enveomics.R/NAMESPACE +35 -0
data/utils/enveomics/enveomics.R/R/autoprune.R +121 -0
data/utils/enveomics/enveomics.R/R/barplot.R +165 -0
data/utils/enveomics/enveomics.R/R/cliopts.R +119 -0
data/utils/enveomics/enveomics.R/R/df2dist.R +117 -0
data/utils/enveomics/enveomics.R/R/growthcurve.R +263 -0
data/utils/enveomics/enveomics.R/R/recplot.R +320 -0
data/utils/enveomics/enveomics.R/R/recplot2.R +745 -0
data/utils/enveomics/enveomics.R/R/tribs.R +423 -0
data/utils/enveomics/enveomics.R/R/utils.R +16 -0
data/utils/enveomics/enveomics.R/README.md +52 -0
data/utils/enveomics/enveomics.R/data/growth.curves.rda +0 -0
data/utils/enveomics/enveomics.R/data/phyla.counts.rda +0 -0
data/utils/enveomics/enveomics.R/man/enve.GrowthCurve-class.Rd +30 -0
data/utils/enveomics/enveomics.R/man/enve.TRIBS-class.Rd +43 -0
data/utils/enveomics/enveomics.R/man/enve.TRIBS.merge.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.TRIBStest-class.Rd +37 -0
data/utils/enveomics/enveomics.R/man/enve.__prune.iter.Rd +24 -0
data/utils/enveomics/enveomics.R/man/enve.__prune.reduce.Rd +24 -0
data/utils/enveomics/enveomics.R/man/enve.__tribs.Rd +33 -0
data/utils/enveomics/enveomics.R/man/enve.barplot.Rd +64 -0
data/utils/enveomics/enveomics.R/man/enve.cliopts.Rd +37 -0
data/utils/enveomics/enveomics.R/man/enve.col.alpha.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.col2alpha.Rd +18 -0
data/utils/enveomics/enveomics.R/man/enve.df2dist.Rd +26 -0
data/utils/enveomics/enveomics.R/man/enve.df2dist.group.Rd +25 -0
data/utils/enveomics/enveomics.R/man/enve.df2dist.list.Rd +26 -0
data/utils/enveomics/enveomics.R/man/enve.growthcurve.Rd +49 -0
data/utils/enveomics/enveomics.R/man/enve.prune.dist.Rd +28 -0
data/utils/enveomics/enveomics.R/man/enve.recplot.Rd +97 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2-class.Rd +40 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.Rd +40 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__counts.Rd +24 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__findPeak.Rd +40 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__findPeaks.Rd +18 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__peakHist.Rd +22 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__whichClosestPeak.Rd +20 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.changeCutoff.Rd +18 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.corePeak.Rd +18 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.extractWindows.Rd +27 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.Rd +53 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.peak-class.Rd +44 -0
data/utils/enveomics/enveomics.R/man/enve.tribs.Rd +44 -0
data/utils/enveomics/enveomics.R/man/enve.tribs.test.Rd +21 -0
data/utils/enveomics/enveomics.R/man/enveomics.R-package.Rd +15 -0
data/utils/enveomics/enveomics.R/man/growth.curves.Rd +14 -0
data/utils/enveomics/enveomics.R/man/phyla.counts.Rd +13 -0
data/utils/enveomics/enveomics.R/man/plot.enve.GrowthCurve.Rd +43 -0
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBS.Rd +29 -0
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBStest.Rd +30 -0
data/utils/enveomics/enveomics.R/man/plot.enve.recplot2.Rd +71 -0
data/utils/enveomics/enveomics.R/man/summary.enve.GrowthCurve.Rd +18 -0
data/utils/enveomics/enveomics.R/man/summary.enve.TRIBS.Rd +18 -0
data/utils/enveomics/enveomics.R/man/summary.enve.TRIBStest.Rd +18 -0
data/utils/enveomics/enveomics.R/man/z$-methods.Rd +27 -0
data/utils/enveomics/globals.mk +8 -0
data/utils/enveomics/manifest.json +9 -0
data/utils/index_metadata.rb +0 -0
data/utils/plot-taxdist.R +0 -0
data/utils/requirements.txt +19 -19
metadata +242 -2

data/utils/enveomics/Manifest/categories.json ADDED Viewed

@@ -0,0 +1,132 @@
+{
+  "categories": {
+    "Sequence similarity search": {
+      "Statistics": [
+        "BlastPairwise.AAsubs.pl",
+        "BlastTab.advance.bash",
+        "BlastTab.recplot2.R",
+        "BlastTab.seqdepth.pl",
+        "BlastTab.seqdepth_nomedian.pl",
+        "BlastTab.seqdepth_ZIP.pl",
+        "BlastTab.sumPerHit.pl"
+      ],
+      "Manipulation": [
+        "BlastTab.addlen.rb",
+        "BlastTab.best_hit_sorted.pl",
+        "BlastTab.catsbj.pl",
+        "BlastTab.cogCat.rb",
+        "BlastTab.filter.pl",
+        "BlastTab.kegg_pep2path_rest.pl",
+        "BlastTab.pairedHits.rb",
+        "BlastTab.subsample.pl",
+        "BlastTab.taxid2taxrank.pl",
+        "BlastTab.topHits_sorted.rb"
+      ],
+      "Execution": [
+        "aai.rb",
+        "ani.rb",
+        "rbm.rb"
+      ]
+    },
+    "Sequence analyses": {
+      "Statistics": [
+        "FastA.gc.pl",
+        "FastA.length.pl",
+        "FastA.N50.pl",
+        "FastA.qlen.pl"
+      ],
+      "Manipulation": [
+        "FastA.filter.pl",
+        "FastA.filterLen.pl",
+        "FastA.filterN.pl",
+        "FastA.fragment.rb",
+        "FastA.interpose.pl",
+	"FastA.per_file.pl",
+        "FastA.rename.pl",
+        "FastA.revcom.pl",
+        "FastA.slider.pl",
+        "FastA.split.pl",
+        "FastA.subsample.pl",
+        "FastA.tag.rb",
+        "FastA.wrap.rb",
+        "FastQ.filter.pl",
+        "FastQ.interpose.pl",
+        "FastQ.offset.pl",
+        "FastQ.split.pl",
+        "FastQ.tag.rb",
+        "FastQ.toFastA.awk"
+      ]
+    },
+    "Diversity": {
+      "Community": [
+        "AlphaDiversity.pl",
+        "Chao1.pl",
+        "Table.barplot.R"
+      ],
+      "Population": [
+        "VCF.SNPs.rb",
+        "VCF.KaKs.rb"
+      ]
+    },
+    "Annotation": {
+      "Database mapping": [
+        "BlastTab.kegg_pep2path_rest.pl",
+        "BlastTab.taxid2taxrank.pl",
+        "EBIseq2tax.rb",
+        "NCBIacc2tax.rb",
+        "gi2tax.rb",
+        "M5nr.getSequences.rb",
+        "RefSeq.download.bash",
+        "SRA.download.bash"
+      ],
+      "Tables": [
+        "Table.barplot.R",
+        "GenBank.add_fields.rb",
+        "MyTaxa.fragsByTax.pl",
+        "Table.df2dist.R",
+        "Table.filter.pl",
+        "Table.merge.pl",
+	"Table.replace.rb",
+        "Table.round.rb",
+        "Table.split.pl"
+      ],
+      "Search": [
+        "HMM.essential.rb",
+        "HMMsearch.extractIds.rb",
+        "ogs.annotate.rb",
+        "ogs.core-pan.rb",
+        "ogs.extract.rb",
+        "ogs.mcl.rb",
+        "ogs.stats.rb",
+        "ogs.rb"
+      ]
+    },
+    "Other data": {
+      "Phylogenetic and other distances": [
+        "CharTable.classify.rb",
+        "JPlace.distances.rb",
+        "JPlace.to_iToL.rb",
+        "Newick.autoprune.R",
+        "TRIBS.test.R",
+        "TRIBS.plot-test.R",
+        "Table.df2dist.R"
+      ],
+      "Taxonomic": [
+        "CharTable.classify.rb",
+        "EBIseq2tax.rb",
+        "NCBIacc2tax.rb",
+        "Table.barplot.R",
+        "gi2tax.rb",
+        "MyTaxa.fragsByTax.pl",
+        "MyTaxa.seq-taxrank.rb",
+        "Taxonomy.silva2ncbi.rb"
+      ],
+      "Alignments": [
+        "AAsubs.log2ratio.rb",
+        "Aln.cat.rb",
+        "Aln.convert.pl",
+        "BlastPairwise.AAsubs.pl"
+      ]
+    }
+  }
+}

data/utils/enveomics/Manifest/examples.json ADDED Viewed

@@ -0,0 +1,154 @@
+{
+  "_": "Input files and directories are included in the 'Tests' folder.",
+  "examples": [
+    {
+      "_": "== Examples of genome comparisons ==",
+      "task": "ogs.stats.rb",
+      "description": ["Statistics on the groups of orthology in the Primate",
+        "Lentivirus Group, including HIV-1, HIV-2, and SIV."],
+      "values": ["primate_lentivirus.ogs",null,null,null,null,null]
+    },
+    {
+      "task": "ani.rb",
+      "description": ["Average Nucleotide Identity (ANI) between two strains",
+        "of Mycoplasma genitalium (M2288 and M2321)."],
+      "values": ["Mgen_M2288.fna","Mgen_M2321.fna",null,null,null,null,null,
+        null,null,null,null,null,null,null,null,null,null,null,null,null,null,
+        null,null,null]
+    },
+    {
+      "task": "aai.rb",
+      "description": ["Average Amino acid Identity (AAI) between Mycoplasma",
+        "genitalium (Bacteria) and Nanoarchaeum equitans (Archaea)."],
+      "values": ["Mgen_M2288.faa","Nequ_Kin4M.faa",null,null,null,null,null,
+        null,null,null,null,null,null,null,null,null,null,null,null,null,null,
+        null,null,null]
+    },
+    {
+      "task": "rbm.rb",
+      "description": ["Reciprocal Best Matches between the proteomes of the",
+        "two major HIV types (HIV-1 and HIV-2)."],
+      "values": ["hiv1.faa","hiv2.faa",null,null,null,null,null,null,null,null,
+        null,null,"hiv1-hiv2.rbm"]
+    },
+    {
+      "task": "ogs.mcl.rb",
+      "description": ["Groups of orthology in the Primate Letivirus Group,",
+         "including HIV-1, HIV-2, and SIV."],
+      "values": ["primate_lentivirus.ogs","primate_lentivirus.rbm",null,null,
+        null,null,null,null,null,null,null,null]
+    },
+    {
+      "task": "Table.df2dist.R",
+      "description": ["Transforms a list of AAI values between Xanthomonas",
+        "oryzae genomes into a distance matrix."],
+      "values": ["Xanthomonas_oryzae.aai.tsv",null,null,null,null,100.0,
+        "Xanthomonas_oryzae.aai-mat.tsv"]
+    },
+    {
+      "_": "== Recruitment plots",
+      "task": "BlastTab.catsbj.pl",
+      "description": ["Prepares recruitment plot files for a comparison",
+        "between a virome containing HIV and the HIV-1 genome."],
+      "values": [null,null,null,null,"hiv1.fna","hiv_mix-hiv1.blast.tsv"]
+    },
+    {
+      "task": "BlastTab.recplot2.R",
+      "description": ["Generates recruitment plots for a comparison",
+        "between a virome containing HIV and the HIV-1 genome."],
+      "values": ["hiv_mix-hiv1.blast.tsv",50,100,null,null,null,null,null,
+        "hiv_mix-hiv1.Rdata","hiv_mix-hiv1.pdf",null,null]
+    },
+    {
+      "_": "== Examples of functional annotations ==",
+      "task": "HMM.essential.rb",
+      "description": ["Typical single-copy bacterial genes present in",
+        "Mycoplasma genitalium."],
+      "values": ["Mgen_M2288.faa",null,null,null,true,null,null,null,null,null,
+        null,null,null,null,null,null]
+    },
+    {
+      "task": "HMM.essential.rb",
+      "description": ["Typical single-copy archaeal genes present in",
+        "Nanoarchaeum equitans."],
+      "values": ["Mgen_M2288.faa",null,null,null,null,true,null,null,null,null,
+        null,null,null,null,null,null]
+    },
+    {
+      "task": "Newick.autoprune.R",
+      "description": ["Prune an AlkB tree with 110 tips to get only distant",
+        "representatives (41)."],
+      "values": ["alkB.nwk",0.9,null,null,null,null,null,"alkB-pruned.nwk"]
+    },
+    {
+      "_": "== Examples of BLAST statistics and manipulation",
+      "task": "BlastTab.topHits_sorted.rb",
+      "description": ["Extract the best match of metagenome-derived proteins",
+        "(from the 'A metagenome') against a Gene Ontology collection."],
+      "values": ["sort","a_mg.cds-go.blast.tsv",null,null,null,null,1,null,null,
+        null,"a_mg.cds-go.blast-bm.tsv"]
+    },
+    {
+      "task": "BlastTab.sumPerHit.pl",
+      "description": ["Count the number of reads per gene in a mapping of a",
+        "metagenome to a metagenome-derived genes (from the 'A metagenome')."],
+      "values": [null,null,null,null,null,null,null,"a_mg.reads-cds.blast.tsv",
+        null,"a_mg.reads-cds.counts.tsv"]
+    },
+    {
+      "task": "BlastTab.sumPerHit.pl",
+      "description": ["Estimate the total abundance of Gene Ontology",
+        "annotations in the A metagenome, using metagenome-derived proteins,",
+        "and normalizing by the read counts of each protein."],
+      "values": ["a_mg.reads-cds.counts.tsv",null,null,null,null,true,null,
+        "a_mg.cds-go.blast.tsv",null,"a_mg.go.read-counts.tsv"]
+    },
+    {
+      "_": "== Examples of diversity ==",
+      "task": "Table.barplot.R",
+      "description": ["Barplot with the distribution of bacterial phyla in",
+        "four different sites, with taxa sorted by variance."],
+      "values": ["phyla_counts.tsv","250,100,75,200",null,null,null,null,null,
+        null,true,"var",2,null,null,"phyla_counts.pdf",10,null]
+    },
+    {
+      "task": "Chao1.pl",
+      "description": ["Phylum-richness estimated by the Chao1 index with 95%",
+        "confidence, using the distributions of bacterial phyla in four",
+        "different sites."],
+      "values": ["phyla_counts.tsv",null,1,null,null,true,null,
+         "phyla_chao1.tsv"]
+    },
+    {
+      "task": "AlphaDiversity.pl",
+      "description": ["Phylum-diversity estimated by the indices of Shannon",
+        "(H'), Inverse Simpson (1/Lambda), and true diversity of order 1 (1D),",
+        "using the distributions of bacterial phyla in four different sites."],
+      "values": ["phyla_counts.tsv",null,1,null,null,true,null,true,1,null,
+         "phyla_diversity.tsv"]
+    },
+    {
+      "_": "== Other miscelaneous examples ==",
+      "task": "CharTable.classify.rb",
+      "description": ["Classification of anthrax genomes based on can-SNPs, as",
+        "described in Van Ert 2007 (PLoS ONE 2(5):e461)."],
+      "values": ["anthrax-cansnp-data.tsv","anthrax-cansnp-key.tsv",
+        "anthrax-cansnp-classif.tsv","anthrax-cansnp-classif.nwk",null]
+    },
+    {
+      "task": "TRIBS.test.R",
+      "description": ["Test overclustering of Xanthomonas oryzae genomes",
+        "encoding for PilA using Transformed-space Resampling In Biased Sets",
+        "(TRIBS)."],
+      "values": ["Xanthomonas_oryzae.aai-mat.tsv","Xanthomonas_oryzae-PilA.txt",
+        5000,null,null,null,null,0,"Xanthomonas_oryzae-PilA.tribs.Rdata",100]
+    },
+    {
+      "task": "TRIBS.plot-test.R",
+      "description": ["Show the TRIBS-normalized distances between Xanthomonas",
+        "oryzae genomes (grey) and X. oryzae encoding for PilA (red)."],
+      "values": ["Xanthomonas_oryzae-PilA.tribs.Rdata",null,null,null,null,null,
+        null,null,"Xanthomonas_oryzae-PilA.tribs.pdf",null,null]
+    }
+  ]
+}

data/utils/enveomics/Manifest/tasks.json ADDED Viewed

@@ -0,0 +1,4 @@
+{
+  "_": "This file loads all the .json files inside 'Manifest/Tasks'.",
+  "_include": "Tasks/*.json"
+}

data/utils/enveomics/Pipelines/assembly.pbs/CONFIG.mock.bash ADDED Viewed

@@ -0,0 +1,69 @@
+#!/bin/bash
+##################### VARIABLES
+# Queue: Preferred queue.  Delete (or comment) this line to allow
+# automatic detection:
+#QUEUE="biocluster-6"
+# If you set the QUEUE variable, you MUST set the WTIME variable
+# as well, containing the walltime to be asked for.  The WTIME
+# variable is ignored otherwise.
+WTIME="120:00:00"
+# Scratch:  This is where the output will be created.
+SCRATCH="$HOME/scratch/pipelines/assembly"
+# Data folder:  This is the folder that cointains the input files.
+DATA="$HOME/data/trim"
+# Location of Newbler's binaries
+BIN454="$HOME/454/bin"
+# Name(s) of the library(ies) to use, separated by spaces:
+# This is determined by the name of your input files.  For example,
+# if your input files are: LLSEP.CoupledReads.fa and LWP.CoupledReads.fa,
+# use:
+# LIBRARIES="LLSEP LWP"
+# It's strongly encouraged to use only one per CONFIG file.
+LIBRARIES="A";
+# Use .CoupledReads.fa and/or .SingleReads.fa (yes or no):
+USECOUPLED=yes
+USESINGLE=no
+# Insert length (in bp):  This is the average length of the entire insert,
+# not just the gap length.
+INSLEN=300
+# Number of CPUs to use (for SOAP and Newbler):
+PPN=16
+# RAM multiplier: Multiply the estimated required RAM by this number:
+RAMMULT=1
+# Maximum number of simultaneous jobs: Uncomment and increase these values if
+# you have increased resources (e.g., a dedicated queue); uncomment and decrease
+# if the resources are scarce (e.g., a very busy queue or other simultaneous jobs).
+#VELVETSIM=22
+#SOAPSIM=8
+# Extra parameters for Velvet: Any additional parameters to be passed to
+# velvetg or velveth.  If you have MP data, consider adding the option
+# -shortMatePaired yes to VELVETG_EXTRA.  If you have Nextera, consider
+# adding the option above, plus the option -ins_length_sd <integer>, to
+# indicate the standard deviation of the insert size.  By default, the
+# SD is assumed to be 10% of the average, but Nextera produces much
+# wider distribution of sizes (i.e., larger SD).  Typically you shouldn't
+# need to add anything in VELVETH_EXTRA.
+VELVETH_EXTRA=""
+VELVETG_EXTRA=""
+# Clean non-essential files (yes or no):
+CLEANUP=yes
+# Best k-mers:  Space-delimited list of kmers selected from Velvet and SOAP.
+# This is to be modified at the begining of step 4, and it's ignored in all
+# the other steps.
+K_VELVET="21 23 35"
+K_SOAP="21 23 35"

data/utils/enveomics/Pipelines/assembly.pbs/FastA.N50.pl ADDED Viewed

@@ -0,0 +1,56 @@
+#!/usr/bin/env perl
+#
+# @author: Luis M. Rodriguez-R <lmrodriguezr at gmail dot com>
+# @update: Oct 07 2015
+# @license: artistic license 2.0
+#
+use strict;
+use warnings;
+use List::Util qw/sum min max/;
+my ($seqs, $minlen, $n__) = @ARGV;
+$seqs or die "
+Description:
+   Calculates the N50 value of a set of sequences.  Alternatively, it
+   can calculate other N** values.  It also calculates the total number
+   of sequences and the total added length.
+Usage:
+   $0 seqs.fa[ minlen[ **]]
+   seqs.fa	A FastA file containing the sequences.
+   minlen	(optional) The minimum length to take into consideration.
+   		By default: 0.
+   **		Value N** to calculate.  By default: 50 (N50).
+";
+$minlen ||= 0;
+$n__    ||= 50;
+my @len = ();
+open SEQ, "<", $seqs or die "Cannot open file: $seqs: $!\n";
+while(<SEQ>){
+   if(/^>/){
+      push @len, 0;
+   }else{
+      next if /^;/;
+      chomp;
+      s/\W//g;
+      $len[-1]+=length $_;
+   }
+}
+close SEQ;
+@len = sort { $a <=> $b } map { $_>=$minlen?$_:() } @len;
+my $tot = (sum(@len) || 0);
+my $thr = $n__*$tot/100;
+my $pos = 0;
+for(@len){
+   $pos+= $_;
+   if($pos>=$thr){
+      print "N$n__: $_\n";
+      last;
+   }
+}
+print "Sequences: ".scalar(@len)."\n";
+print "Total length: $tot\n";

data/utils/enveomics/Pipelines/assembly.pbs/FastA.filterN.pl ADDED Viewed

@@ -0,0 +1,60 @@
+#!/usr/bin/env perl
+#
+# @author  Luis M. Rodriguez-R
+# @update  Oct-07-2015
+# @license artistic license 2.0
+#
+use warnings;
+use strict;
+my($file, $content, $stretch) = @ARGV;
+$file or die <<HELP
+Description:
+   Filter sequences by N-content and presence of long homopolymers.
+Usage:
+   $0 sequences.fa [content [stretch]] > filtered.fa
+Where:
+   sequences.fa	Input file in FastA format
+   content	A number between 0 and 1 indicating the maximum proportion of Ns
+   		(1 to turn off, 0.5 by default)
+   stretch	A number indicating the maximum number of consecutive identical
+   		nucleotides allowed (0 to turn off, 100 by default)
+   filtered.fa	Filtered set of sequences.
+HELP
+;
+($content ||= 0.5)+=0;
+($stretch ||= 100)+=0;
+my $good = 0;
+my $N = 0;
+FASTA: {
+   local $/ = "\n>";
+   open FILE, "<", $file or die "I can not open the file: $file: $!\n";
+   SEQ: while(<FILE>){
+      $N++;
+      s/^;.*//gm;
+      s/>//g;
+      my($n,$s) = split /\n/, $_, 2;
+      (my $clean = $s) =~ s/[^ACTGN]//g;
+      if($content < 1){
+         (my $Ns = $clean) =~ s/[^N]//g;
+	 next SEQ if length($Ns)>length($clean)*$content;
+      }
+      if($stretch > 0){
+         for my $nuc (qw(A C T G N)){
+	    next SEQ if $clean =~ m/[$nuc]{$stretch}/;
+	 }
+      }
+      print ">$n\n$s\n";
+      $good++;
+   }
+   close FILE;
+   print STDERR "Total sequences: $N\nAfter filtering: $good\n";
+}