RubyGems - miga-base - Versions diffs - 0.7.25.2 → 0.7.25.3 - Mend

miga-base 0.7.25.2 → 0.7.25.3

Files changed (277) hide show

checksums.yaml +4 -4
data/lib/miga/version.rb +2 -2
data/utils/distance/runner.rb +2 -1
metadata +5 -278
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Archaea_SCG.hmm +0 -41964
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Bacteria_SCG.hmm +0 -32439
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Complete_SCG_DB.hmm +0 -62056
data/utils/FastAAI/FastAAI/FastAAI +0 -1336
data/utils/FastAAI/README.md +0 -84
data/utils/FastAAI/kAAI_v1.0_virus.py +0 -1296
data/utils/enveomics/Docs/recplot2.md +0 -244
data/utils/enveomics/Examples/aai-matrix.bash +0 -66
data/utils/enveomics/Examples/ani-matrix.bash +0 -66
data/utils/enveomics/Examples/essential-phylogeny.bash +0 -105
data/utils/enveomics/Examples/unus-genome-phylogeny.bash +0 -100
data/utils/enveomics/LICENSE.txt +0 -73
data/utils/enveomics/Makefile +0 -52
data/utils/enveomics/Manifest/Tasks/aasubs.json +0 -103
data/utils/enveomics/Manifest/Tasks/blasttab.json +0 -786
data/utils/enveomics/Manifest/Tasks/distances.json +0 -161
data/utils/enveomics/Manifest/Tasks/fasta.json +0 -766
data/utils/enveomics/Manifest/Tasks/fastq.json +0 -243
data/utils/enveomics/Manifest/Tasks/graphics.json +0 -126
data/utils/enveomics/Manifest/Tasks/mapping.json +0 -67
data/utils/enveomics/Manifest/Tasks/ogs.json +0 -382
data/utils/enveomics/Manifest/Tasks/other.json +0 -829
data/utils/enveomics/Manifest/Tasks/remote.json +0 -355
data/utils/enveomics/Manifest/Tasks/sequence-identity.json +0 -501
data/utils/enveomics/Manifest/Tasks/tables.json +0 -308
data/utils/enveomics/Manifest/Tasks/trees.json +0 -68
data/utils/enveomics/Manifest/Tasks/variants.json +0 -111
data/utils/enveomics/Manifest/categories.json +0 -156
data/utils/enveomics/Manifest/examples.json +0 -154
data/utils/enveomics/Manifest/tasks.json +0 -4
data/utils/enveomics/Pipelines/assembly.pbs/CONFIG.mock.bash +0 -69
data/utils/enveomics/Pipelines/assembly.pbs/FastA.N50.pl +0 -1
data/utils/enveomics/Pipelines/assembly.pbs/FastA.filterN.pl +0 -1
data/utils/enveomics/Pipelines/assembly.pbs/FastA.length.pl +0 -1
data/utils/enveomics/Pipelines/assembly.pbs/README.md +0 -189
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-2.bash +0 -112
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-3.bash +0 -23
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-4.bash +0 -44
data/utils/enveomics/Pipelines/assembly.pbs/RUNME.bash +0 -50
data/utils/enveomics/Pipelines/assembly.pbs/kSelector.R +0 -37
data/utils/enveomics/Pipelines/assembly.pbs/newbler.pbs +0 -68
data/utils/enveomics/Pipelines/assembly.pbs/newbler_preparator.pl +0 -49
data/utils/enveomics/Pipelines/assembly.pbs/soap.pbs +0 -80
data/utils/enveomics/Pipelines/assembly.pbs/stats.pbs +0 -57
data/utils/enveomics/Pipelines/assembly.pbs/velvet.pbs +0 -63
data/utils/enveomics/Pipelines/blast.pbs/01.pbs.bash +0 -38
data/utils/enveomics/Pipelines/blast.pbs/02.pbs.bash +0 -73
data/utils/enveomics/Pipelines/blast.pbs/03.pbs.bash +0 -21
data/utils/enveomics/Pipelines/blast.pbs/BlastTab.recover_job.pl +0 -72
data/utils/enveomics/Pipelines/blast.pbs/CONFIG.mock.bash +0 -98
data/utils/enveomics/Pipelines/blast.pbs/FastA.split.pl +0 -1
data/utils/enveomics/Pipelines/blast.pbs/README.md +0 -127
data/utils/enveomics/Pipelines/blast.pbs/RUNME.bash +0 -109
data/utils/enveomics/Pipelines/blast.pbs/TASK.check.bash +0 -128
data/utils/enveomics/Pipelines/blast.pbs/TASK.dry.bash +0 -16
data/utils/enveomics/Pipelines/blast.pbs/TASK.eo.bash +0 -22
data/utils/enveomics/Pipelines/blast.pbs/TASK.pause.bash +0 -26
data/utils/enveomics/Pipelines/blast.pbs/TASK.run.bash +0 -89
data/utils/enveomics/Pipelines/blast.pbs/sentinel.pbs.bash +0 -29
data/utils/enveomics/Pipelines/idba.pbs/README.md +0 -49
data/utils/enveomics/Pipelines/idba.pbs/RUNME.bash +0 -95
data/utils/enveomics/Pipelines/idba.pbs/run.pbs +0 -56
data/utils/enveomics/Pipelines/trim.pbs/README.md +0 -54
data/utils/enveomics/Pipelines/trim.pbs/RUNME.bash +0 -70
data/utils/enveomics/Pipelines/trim.pbs/run.pbs +0 -130
data/utils/enveomics/README.md +0 -42
data/utils/enveomics/Scripts/AAsubs.log2ratio.rb +0 -171
data/utils/enveomics/Scripts/Aln.cat.rb +0 -163
data/utils/enveomics/Scripts/Aln.convert.pl +0 -35
data/utils/enveomics/Scripts/AlphaDiversity.pl +0 -152
data/utils/enveomics/Scripts/BedGraph.tad.rb +0 -93
data/utils/enveomics/Scripts/BedGraph.window.rb +0 -71
data/utils/enveomics/Scripts/BlastPairwise.AAsubs.pl +0 -102
data/utils/enveomics/Scripts/BlastTab.addlen.rb +0 -63
data/utils/enveomics/Scripts/BlastTab.advance.bash +0 -48
data/utils/enveomics/Scripts/BlastTab.best_hit_sorted.pl +0 -55
data/utils/enveomics/Scripts/BlastTab.catsbj.pl +0 -104
data/utils/enveomics/Scripts/BlastTab.cogCat.rb +0 -76
data/utils/enveomics/Scripts/BlastTab.filter.pl +0 -47
data/utils/enveomics/Scripts/BlastTab.kegg_pep2path_rest.pl +0 -194
data/utils/enveomics/Scripts/BlastTab.metaxaPrep.pl +0 -104
data/utils/enveomics/Scripts/BlastTab.pairedHits.rb +0 -157
data/utils/enveomics/Scripts/BlastTab.recplot2.R +0 -48
data/utils/enveomics/Scripts/BlastTab.seqdepth.pl +0 -86
data/utils/enveomics/Scripts/BlastTab.seqdepth_ZIP.pl +0 -119
data/utils/enveomics/Scripts/BlastTab.seqdepth_nomedian.pl +0 -86
data/utils/enveomics/Scripts/BlastTab.subsample.pl +0 -47
data/utils/enveomics/Scripts/BlastTab.sumPerHit.pl +0 -114
data/utils/enveomics/Scripts/BlastTab.taxid2taxrank.pl +0 -90
data/utils/enveomics/Scripts/BlastTab.topHits_sorted.rb +0 -101
data/utils/enveomics/Scripts/Chao1.pl +0 -97
data/utils/enveomics/Scripts/CharTable.classify.rb +0 -234
data/utils/enveomics/Scripts/EBIseq2tax.rb +0 -83
data/utils/enveomics/Scripts/FastA.N50.pl +0 -56
data/utils/enveomics/Scripts/FastA.extract.rb +0 -152
data/utils/enveomics/Scripts/FastA.filter.pl +0 -52
data/utils/enveomics/Scripts/FastA.filterLen.pl +0 -28
data/utils/enveomics/Scripts/FastA.filterN.pl +0 -60
data/utils/enveomics/Scripts/FastA.fragment.rb +0 -92
data/utils/enveomics/Scripts/FastA.gc.pl +0 -42
data/utils/enveomics/Scripts/FastA.interpose.pl +0 -93
data/utils/enveomics/Scripts/FastA.length.pl +0 -38
data/utils/enveomics/Scripts/FastA.mask.rb +0 -89
data/utils/enveomics/Scripts/FastA.per_file.pl +0 -36
data/utils/enveomics/Scripts/FastA.qlen.pl +0 -57
data/utils/enveomics/Scripts/FastA.rename.pl +0 -65
data/utils/enveomics/Scripts/FastA.revcom.pl +0 -23
data/utils/enveomics/Scripts/FastA.sample.rb +0 -83
data/utils/enveomics/Scripts/FastA.slider.pl +0 -85
data/utils/enveomics/Scripts/FastA.split.pl +0 -55
data/utils/enveomics/Scripts/FastA.split.rb +0 -79
data/utils/enveomics/Scripts/FastA.subsample.pl +0 -131
data/utils/enveomics/Scripts/FastA.tag.rb +0 -65
data/utils/enveomics/Scripts/FastA.wrap.rb +0 -48
data/utils/enveomics/Scripts/FastQ.filter.pl +0 -54
data/utils/enveomics/Scripts/FastQ.interpose.pl +0 -90
data/utils/enveomics/Scripts/FastQ.offset.pl +0 -90
data/utils/enveomics/Scripts/FastQ.split.pl +0 -53
data/utils/enveomics/Scripts/FastQ.tag.rb +0 -63
data/utils/enveomics/Scripts/FastQ.test-error.rb +0 -81
data/utils/enveomics/Scripts/FastQ.toFastA.awk +0 -24
data/utils/enveomics/Scripts/GFF.catsbj.pl +0 -127
data/utils/enveomics/Scripts/GenBank.add_fields.rb +0 -84
data/utils/enveomics/Scripts/HMM.essential.rb +0 -351
data/utils/enveomics/Scripts/HMM.haai.rb +0 -168
data/utils/enveomics/Scripts/HMMsearch.extractIds.rb +0 -83
data/utils/enveomics/Scripts/JPlace.distances.rb +0 -88
data/utils/enveomics/Scripts/JPlace.to_iToL.rb +0 -320
data/utils/enveomics/Scripts/M5nr.getSequences.rb +0 -81
data/utils/enveomics/Scripts/MeTaxa.distribution.pl +0 -198
data/utils/enveomics/Scripts/MyTaxa.fragsByTax.pl +0 -35
data/utils/enveomics/Scripts/MyTaxa.seq-taxrank.rb +0 -49
data/utils/enveomics/Scripts/NCBIacc2tax.rb +0 -92
data/utils/enveomics/Scripts/Newick.autoprune.R +0 -27
data/utils/enveomics/Scripts/RAxML-EPA.to_iToL.pl +0 -228
data/utils/enveomics/Scripts/RecPlot2.compareIdentities.R +0 -32
data/utils/enveomics/Scripts/RefSeq.download.bash +0 -48
data/utils/enveomics/Scripts/SRA.download.bash +0 -57
data/utils/enveomics/Scripts/TRIBS.plot-test.R +0 -36
data/utils/enveomics/Scripts/TRIBS.test.R +0 -39
data/utils/enveomics/Scripts/Table.barplot.R +0 -31
data/utils/enveomics/Scripts/Table.df2dist.R +0 -30
data/utils/enveomics/Scripts/Table.filter.pl +0 -61
data/utils/enveomics/Scripts/Table.merge.pl +0 -77
data/utils/enveomics/Scripts/Table.replace.rb +0 -69
data/utils/enveomics/Scripts/Table.round.rb +0 -63
data/utils/enveomics/Scripts/Table.split.pl +0 -57
data/utils/enveomics/Scripts/Taxonomy.silva2ncbi.rb +0 -227
data/utils/enveomics/Scripts/VCF.KaKs.rb +0 -147
data/utils/enveomics/Scripts/VCF.SNPs.rb +0 -88
data/utils/enveomics/Scripts/aai.rb +0 -418
data/utils/enveomics/Scripts/ani.rb +0 -362
data/utils/enveomics/Scripts/clust.rand.rb +0 -102
data/utils/enveomics/Scripts/gi2tax.rb +0 -103
data/utils/enveomics/Scripts/in_silico_GA_GI.pl +0 -96
data/utils/enveomics/Scripts/lib/data/dupont_2012_essential.hmm.gz +0 -0
data/utils/enveomics/Scripts/lib/data/lee_2019_essential.hmm.gz +0 -0
data/utils/enveomics/Scripts/lib/enveomics.R +0 -1
data/utils/enveomics/Scripts/lib/enveomics_rb/enveomics.rb +0 -24
data/utils/enveomics/Scripts/lib/enveomics_rb/jplace.rb +0 -253
data/utils/enveomics/Scripts/lib/enveomics_rb/og.rb +0 -182
data/utils/enveomics/Scripts/lib/enveomics_rb/remote_data.rb +0 -74
data/utils/enveomics/Scripts/lib/enveomics_rb/seq_range.rb +0 -237
data/utils/enveomics/Scripts/lib/enveomics_rb/stat.rb +0 -30
data/utils/enveomics/Scripts/lib/enveomics_rb/vcf.rb +0 -135
data/utils/enveomics/Scripts/ogs.annotate.rb +0 -88
data/utils/enveomics/Scripts/ogs.core-pan.rb +0 -160
data/utils/enveomics/Scripts/ogs.extract.rb +0 -125
data/utils/enveomics/Scripts/ogs.mcl.rb +0 -186
data/utils/enveomics/Scripts/ogs.rb +0 -104
data/utils/enveomics/Scripts/ogs.stats.rb +0 -131
data/utils/enveomics/Scripts/rbm.rb +0 -146
data/utils/enveomics/Tests/Makefile +0 -10
data/utils/enveomics/Tests/Mgen_M2288.faa +0 -3189
data/utils/enveomics/Tests/Mgen_M2288.fna +0 -8282
data/utils/enveomics/Tests/Mgen_M2321.fna +0 -8288
data/utils/enveomics/Tests/Nequ_Kin4M.faa +0 -2970
data/utils/enveomics/Tests/Xanthomonas_oryzae-PilA.tribs.Rdata +0 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae-PilA.txt +0 -7
data/utils/enveomics/Tests/Xanthomonas_oryzae.aai-mat.tsv +0 -17
data/utils/enveomics/Tests/Xanthomonas_oryzae.aai.tsv +0 -137
data/utils/enveomics/Tests/a_mg.cds-go.blast.tsv +0 -123
data/utils/enveomics/Tests/a_mg.reads-cds.blast.tsv +0 -200
data/utils/enveomics/Tests/a_mg.reads-cds.counts.tsv +0 -55
data/utils/enveomics/Tests/alkB.nwk +0 -1
data/utils/enveomics/Tests/anthrax-cansnp-data.tsv +0 -13
data/utils/enveomics/Tests/anthrax-cansnp-key.tsv +0 -17
data/utils/enveomics/Tests/hiv1.faa +0 -59
data/utils/enveomics/Tests/hiv1.fna +0 -134
data/utils/enveomics/Tests/hiv2.faa +0 -70
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv +0 -233
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv.lim +0 -1
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv.rec +0 -233
data/utils/enveomics/Tests/phyla_counts.tsv +0 -10
data/utils/enveomics/Tests/primate_lentivirus.ogs +0 -11
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-hiv1.rbm +0 -9
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-hiv2.rbm +0 -8
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-siv.rbm +0 -6
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv2-hiv2.rbm +0 -9
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv2-siv.rbm +0 -6
data/utils/enveomics/Tests/primate_lentivirus.rbm/siv-siv.rbm +0 -6
data/utils/enveomics/build_enveomics_r.bash +0 -45
data/utils/enveomics/enveomics.R/DESCRIPTION +0 -31
data/utils/enveomics/enveomics.R/NAMESPACE +0 -39
data/utils/enveomics/enveomics.R/R/autoprune.R +0 -155
data/utils/enveomics/enveomics.R/R/barplot.R +0 -184
data/utils/enveomics/enveomics.R/R/cliopts.R +0 -135
data/utils/enveomics/enveomics.R/R/df2dist.R +0 -154
data/utils/enveomics/enveomics.R/R/growthcurve.R +0 -331
data/utils/enveomics/enveomics.R/R/recplot.R +0 -354
data/utils/enveomics/enveomics.R/R/recplot2.R +0 -1631
data/utils/enveomics/enveomics.R/R/tribs.R +0 -583
data/utils/enveomics/enveomics.R/R/utils.R +0 -50
data/utils/enveomics/enveomics.R/README.md +0 -80
data/utils/enveomics/enveomics.R/data/growth.curves.rda +0 -0
data/utils/enveomics/enveomics.R/data/phyla.counts.rda +0 -0
data/utils/enveomics/enveomics.R/man/cash-enve.GrowthCurve-method.Rd +0 -17
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2-method.Rd +0 -17
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2.Peak-method.Rd +0 -17
data/utils/enveomics/enveomics.R/man/enve.GrowthCurve-class.Rd +0 -25
data/utils/enveomics/enveomics.R/man/enve.TRIBS-class.Rd +0 -46
data/utils/enveomics/enveomics.R/man/enve.TRIBS.merge.Rd +0 -23
data/utils/enveomics/enveomics.R/man/enve.TRIBStest-class.Rd +0 -47
data/utils/enveomics/enveomics.R/man/enve.__prune.iter.Rd +0 -23
data/utils/enveomics/enveomics.R/man/enve.__prune.reduce.Rd +0 -23
data/utils/enveomics/enveomics.R/man/enve.__tribs.Rd +0 -32
data/utils/enveomics/enveomics.R/man/enve.barplot.Rd +0 -91
data/utils/enveomics/enveomics.R/man/enve.cliopts.Rd +0 -57
data/utils/enveomics/enveomics.R/man/enve.col.alpha.Rd +0 -24
data/utils/enveomics/enveomics.R/man/enve.col2alpha.Rd +0 -19
data/utils/enveomics/enveomics.R/man/enve.df2dist.Rd +0 -39
data/utils/enveomics/enveomics.R/man/enve.df2dist.group.Rd +0 -38
data/utils/enveomics/enveomics.R/man/enve.df2dist.list.Rd +0 -40
data/utils/enveomics/enveomics.R/man/enve.growthcurve.Rd +0 -67
data/utils/enveomics/enveomics.R/man/enve.prune.dist.Rd +0 -37
data/utils/enveomics/enveomics.R/man/enve.recplot.Rd +0 -122
data/utils/enveomics/enveomics.R/man/enve.recplot2-class.Rd +0 -45
data/utils/enveomics/enveomics.R/man/enve.recplot2.ANIr.Rd +0 -24
data/utils/enveomics/enveomics.R/man/enve.recplot2.Rd +0 -68
data/utils/enveomics/enveomics.R/man/enve.recplot2.__counts.Rd +0 -25
data/utils/enveomics/enveomics.R/man/enve.recplot2.__peakHist.Rd +0 -21
data/utils/enveomics/enveomics.R/man/enve.recplot2.__whichClosestPeak.Rd +0 -19
data/utils/enveomics/enveomics.R/man/enve.recplot2.changeCutoff.Rd +0 -19
data/utils/enveomics/enveomics.R/man/enve.recplot2.compareIdentities.Rd +0 -41
data/utils/enveomics/enveomics.R/man/enve.recplot2.coordinates.Rd +0 -29
data/utils/enveomics/enveomics.R/man/enve.recplot2.corePeak.Rd +0 -18
data/utils/enveomics/enveomics.R/man/enve.recplot2.extractWindows.Rd +0 -40
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.Rd +0 -36
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__em_e.Rd +0 -19
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__em_m.Rd +0 -19
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__emauto_one.Rd +0 -27
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__mow_one.Rd +0 -41
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__mower.Rd +0 -17
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.em.Rd +0 -43
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.emauto.Rd +0 -37
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.mower.Rd +0 -74
data/utils/enveomics/enveomics.R/man/enve.recplot2.peak-class.Rd +0 -59
data/utils/enveomics/enveomics.R/man/enve.recplot2.seqdepth.Rd +0 -27
data/utils/enveomics/enveomics.R/man/enve.recplot2.windowDepthThreshold.Rd +0 -32
data/utils/enveomics/enveomics.R/man/enve.tribs.Rd +0 -59
data/utils/enveomics/enveomics.R/man/enve.tribs.test.Rd +0 -28
data/utils/enveomics/enveomics.R/man/enve.truncate.Rd +0 -27
data/utils/enveomics/enveomics.R/man/growth.curves.Rd +0 -14
data/utils/enveomics/enveomics.R/man/phyla.counts.Rd +0 -13
data/utils/enveomics/enveomics.R/man/plot.enve.GrowthCurve.Rd +0 -63
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBS.Rd +0 -38
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBStest.Rd +0 -38
data/utils/enveomics/enveomics.R/man/plot.enve.recplot2.Rd +0 -111
data/utils/enveomics/enveomics.R/man/summary.enve.GrowthCurve.Rd +0 -19
data/utils/enveomics/enveomics.R/man/summary.enve.TRIBS.Rd +0 -19
data/utils/enveomics/enveomics.R/man/summary.enve.TRIBStest.Rd +0 -19
data/utils/enveomics/globals.mk +0 -8
data/utils/enveomics/manifest.json +0 -9

data/utils/enveomics/Scripts/ani.rb DELETED Viewed

@@ -1,362 +0,0 @@
-#!/usr/bin/env ruby
-# @author  Luis M. Rodriguez-R
-# @license Artistic-2.0
-require "optparse"
-require "tmpdir"
-has_rest_client = true
-has_sqlite3 = true
-begin
-  require "rubygems"
-  require "restclient"
-rescue LoadError
-  has_rest_client = false
-end
-begin
-  require "sqlite3"
-rescue LoadError
-  has_sqlite3 = false
-end
-o = {win:1000, step:200, id:70, len:700, correct:true, hits:50, q:false, bin:"",
-  program:"blast+", thr:1, dec:2, auto:false, lookupfirst:false,
-  dbregions:true, dbrbm: true, min_actg:0.95}
-ARGV << "-h" if ARGV.size==0
-OptionParser.new do |opts|
-  opts.banner = "
-Calculates the Average Nucleotide Identity between two genomes.
-Usage: #{$0} [options]"
-  opts.separator ""
-  opts.separator "Mandatory"
-  opts.on("-1", "--seq1 FILE",
-    "Path to the FastA file containing the genome 1."){ |v| o[:seq1] = v }
-  opts.on("-2", "--seq2 FILE",
-    "Path to the FastA file containing the genome 2."){ |v| o[:seq2] = v }
-  if has_rest_client
-    opts.separator "    Alternatively, you can supply a NCBI-acc with the " +
-      "format ncbi:CP014272 instead of files."
-  else
-    opts.separator "    Install rest-client to enable NCBI-acc support."
-  end
-  opts.separator ""
-  opts.separator "Search Options"
-  opts.on("-w", "--win INT",
-    "Window size in the ANI calculation (in bp).  By default: " +
-    "#{o[:win].to_s}."){ |v| o[:win] = v.to_i }
-  opts.on("-s", "--step INT",
-    "Step size in the ANI calculation (in bp).  By default: " +
-    "#{o[:step].to_s}."){ |v| o[:step] = v.to_i }
-  opts.on("-l", "--len INT",
-    "Minimum alignment length (in bp).  By default: #{o[:len]}."
-    ){ |v| o[:len] = v.to_i }
-  opts.on("-i", "--id NUM",
-    "Minimum alignment identity (in %).  By default: #{o[:id]}."
-    ){ |v| o[:id] = v.to_f }
-  opts.on("-n", "--hits INT",
-    "Minimum number of hits.  By default: #{o[:hits]}."
-    ){ |v| o[:hits] = v.to_i }
-  opts.on("-N", "--nocorrection",
-    "Report values without post-hoc correction."){ |v| o[:correct] = false }
-  opts.on("--min-actg FLOAT",
-    "Minimum fraction of ACTGN in the sequences before assuming proteins.",
-    "By default: #{o[:min_actg]}."
-    ){ |v| o[:min_actg] = v.to_f }
-  opts.separator ""
-  opts.separator "Software Options"
-  opts.on("-b", "--bin DIR",
-    "Path to the directory containing the binaries of the search program."
-    ){ |v| o[:bin] = v }
-  opts.on("-p", "--program STR",
-    "Search program to be used.  One of: blast+ (default), blast, blat."
-    ){ |v| o[:program] = v }
-  opts.on("-t", "--threads INT",
-    "Number of parallel threads to be used.  By default: #{o[:thr]}."
-    ){ |v| o[:thr] = v.to_i }
-  opts.separator ""
-  opts.separator "SQLite3 Options"
-  opts.on("-S", "--sqlite3 FILE",
-    "Path to the SQLite3 database to create (or update) with the results."
-    ){ |v| o[:sqlite3] = v }
-  opts.separator "    Install sqlite3 gem to enable database support." unless
-    has_sqlite3
-  opts.on("--name1 STR",
-    "Name of --seq1 to use in --sqlite3.  By default determined by filename."
-    ){ |v| o[:seq1name] = v }
-  opts.on("--name2 STR",
-    "Name of --seq2 to use in --sqlite3.  By default determined by filename."
-    ){ |v| o[:seq2name] = v }
-  opts.on("--[no-]save-regions",
-    "Save (or don't save) the fragments in the --sqlite3 database.",
-    "By default: #{o[:dbregions]}."){ |v| o[:dbregions] = !!v }
-  opts.on("--[no-]save-rbm",
-    "Save (or don't save) the reciprocal best matches in the --sqlite3 db.",
-    "By default: #{o[:dbrbm]}."){ |v| o[:dbrbm] = !!v }
-  opts.on("--lookup-first",
-    "Indicates if the ANI should be looked up first in the database.",
-    "Requires --sqlite3, --auto, --name1, and --name2.",
-    "Incompatible with --res, --tab, and --out."){ |v| o[:lookupfirst] = v }
-  opts.separator ""
-  opts.separator "Other Output Options"
-  opts.on("-d", "--dec INT",
-    "Decimal positions to report. By default: #{o[:dec]}"
-    ){ |v| o[:dec] = v.to_i }
-  opts.on("-o", "--out FILE",
-    "Saves a file describing the alignments used for two-way ANI."
-    ){ |v| o[:out] = v }
-  opts.on("-r", "--res FILE",
-    "Saves a file with the final results."){ |v| o[:res] = v }
-  opts.on("-T", "--tab FILE",
-    "Saves a file with the final two-way results in a tab-delimited form.",
-    "The columns are (in that order):",
-    "ANI, standard deviation, fragments used, fragments in the smallest genome."
-    ){ |v| o[:tab]=v }
-  opts.on("-a", "--auto",
-    "ONLY outputs the ANI value in STDOUT (or nothing, if calculation fails)."
-    ){ o[:auto] = true }
-  opts.on("-q", "--quiet", "Run quietly (no STDERR output)"){ o[:q] = true }
-  opts.on("-h", "--help", "Display this screen") do
-    puts opts
-    exit
-  end
-  opts.separator ""
-end.parse!
-abort "-1 is mandatory" if o[:seq1].nil?
-abort "-2 is mandatory" if o[:seq2].nil?
-abort "SQLite3 requested (-S) but sqlite3 not supported.  First install gem " +
-  "sqlite3." unless o[:sqlite3].nil? or has_sqlite3
-abort "Step size must be smaller than window size." if o[:step] > o[:win]
-o[:bin] = o[:bin]+"/" if o[:bin].size > 0
-if o[:lookupfirst]
-  abort "--lookup-first needs --sqlite3" if o[:sqlite3].nil?
-  abort "--lookup-first requires --auto" unless o[:auto]
-  abort "--lookup-first requires --name1" if o[:seq1name].nil?
-  abort "--lookup-first requires --name2" if o[:seq2name].nil?
-  abort "--lookup-first conflicts with --res" unless o[:res].nil?
-  abort "--lookup-first conflicts with --tab" unless o[:tab].nil?
-  abort "--lookup-first conflicts with --out" unless o[:out].nil?
-end
-# Create SQLite3 file
-unless o[:sqlite3].nil?
-  $stderr.puts "Accessing SQLite3 file: #{o[:sqlite3]}." unless o[:q]
-  sqlite_db = SQLite3::Database.new o[:sqlite3]
-  sqlite_db.execute "create table if not exists regions( " +
-    "seq varchar(256), id int, source varchar(256), `start` int," +
-    " `end` int )"
-  sqlite_db.execute "create table if not exists rbm( seq1 varchar(256), " +
-    "seq2 varchar(256), id1 int, id2 int, id float, evalue float, " +
-    "bitscore float )"
-  sqlite_db.execute "create table if not exists ani( seq1 varchar(256), " +
-    "seq2 varchar(256), ani float, sd float, n int, omega int )"
-end
-# Look-up first
-if o[:lookupfirst]
-  val = sqlite_db.execute "select ani from ani where seq1=? and seq2=?",
-    [o[:seq1name], o[:seq2name]]
-  val = sqlite_db.execute "select ani from ani where seq1=? and seq2=?",
-    [o[:seq2name], o[:seq1name]] if val.empty?
-  unless val.empty?
-    puts val.first.first
-    exit
-  end
-end
-Dir.mktmpdir do |dir|
-  $stderr.puts "Temporal directory: #{dir}." unless o[:q]
-  # Create databases.
-  $stderr.puts "Creating databases." unless o[:q]
-  minfrg = nil
-  seq_names = []
-  seq_len = {}
-  actg_cnt = {}
-  [:seq1, :seq2].each do |seq|
-    abort "GIs are no longer supported by NCBI. Please use NCBI-acc instead" if
-      /^gi:/.match(o[seq])
-    acc = /^ncbi:(\S+)/.match(o[seq])
-    if not acc.nil?
-      abort "NCBI-acc requested but rest-client not supported.  First " +
-        "install gem rest-client." unless has_rest_client
-      response = RestClient.get(
-        "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/efetch.fcgi",
-        {params:{db:"nuccore",rettype:"fasta",id:acc[1],idtype:"acc"}})
-      abort "Unable to reach NCBI EUtils, error code " +
-        response.code.to_s + "." unless response.code == 200
-      o[seq] = "#{dir}/ncbi-#{seq.to_s}.fa"
-      fo = File.open(o[seq], "w")
-      fo.puts response.to_str
-      fo.close
-      seq_names << ( o[ "#{seq}name".to_sym ].nil? ?
-        "ncbi:#{acc[1]}" : o[ "#{seq}name".to_sym ] )
-    else
-      seq_names << ( o[ "#{seq}name".to_sym ].nil? ?
-        File.basename(o[seq], ".*") : o[ "#{seq}name".to_sym ] )
-    end
-    $stderr.puts "  Reading FastA file: #{o[seq]}" unless o[:q]
-    sqlite_db.execute("delete from regions where seq=?",
-      [seq_names.last]) unless o[:sqlite3].nil?
-    buffer = ""
-    frgs = 0
-    seq_len[seq] = 0
-    actg_cnt[seq] = 0
-    seqs = 0
-    disc = 0
-    seqn = ""
-    from = 1
-    fi = File.open(o[seq], "r")
-    fo = File.open("#{dir}/#{seq.to_s}.fa", "w")
-    fi.each_line do |ln|
-      if ln =~ /^>(\S+)/
-        seqs += 1
-        disc += buffer.size
-        buffer = ""
-        seqn = $1
-        from = 1
-      else
-        ln.gsub!(/[^A-Za-z]/, '')
-        seq_len[seq]  += ln.length
-        actg_cnt[seq] += ln.gsub(/[^ACTGNactgn]/,"").length
-        buffer = buffer + ln
-        while buffer.size > o[:win]
-          seq_i = buffer[0, o[:win]]
-          if seq_i =~ /^N+$/
-            disc += seq_i.size
-          else
-            frgs += 1
-            fo.puts ">#{frgs}"
-            fo.puts seq_i
-            sqlite_db.execute("insert into regions values(?,?,?,?,?)",
-              [seq_names.last, frgs, seqn, from, from+o[:win]]) if
-                not o[:sqlite3].nil? and o[:dbregions]
-          end
-          buffer = buffer[o[:step] .. -1]
-          from += o[:win]
-        end
-      end
-    end
-    fi.close
-    fo.close
-    actg_frx = actg_cnt[seq].to_f/seq_len[seq].to_f
-    abort "Input sequences appear to be proteins " +
-      "(ACTGN fraction: %.2f%%)." % (actg_frx*100) if actg_frx < o[:min_actg]
-    $stderr.puts "    Created #{frgs} fragments from #{seqs} sequences, " +
-      "discarded #{disc} bp." unless o[:q]
-    minfrg ||= frgs
-    minfrg = frgs if minfrg > frgs
-    case o[:program].downcase
-    when "blast"
-      `"#{o[:bin]}formatdb" -i "#{dir}/#{seq.to_s}.fa" -p F`
-    when "blast+"
-      `"#{o[:bin]}makeblastdb" -in "#{dir}/#{seq.to_s}.fa" -dbtype nucl`
-    when "blat"
-      # Nothing to do
-    else
-      abort "Unsupported program: #{o[:program]}."
-    end
-  end # [:seq1, :seq2].each
-  # Best-hits.
-  $stderr.puts "Running one-way comparisons." unless o[:q]
-  rbh = []
-  id2 = 0
-  sq2 = 0
-  n2  = 0
-  unless o[:sqlite3].nil?
-    sqlite_db.execute "delete from rbm where seq1=? and seq2=?", seq_names
-    sqlite_db.execute "delete from ani where seq1=? and seq2=?", seq_names
-  end
-  unless o[:out].nil?
-    fo = File.open(o[:out], "w")
-    fo.puts %w(identity aln.len mismatch gap.open evalue bitscore).join("\t")
-  end
-  res = File.open(o[:res], "w") unless o[:res].nil?
-  [1,2].each do |i|
-    qry_seen = []
-    q = "#{dir}/seq#{i}.fa"
-    s = "#{dir}/seq#{i==1?2:1}.fa"
-    case o[:program].downcase
-    when "blast"
-      `"#{o[:bin]}blastall" -p blastn -d "#{s}" -i "#{q}" \
-      -F F -v 1 -b 1 -a #{o[:thr]} -m 8 -o "#{dir}/#{i}.tab"`
-    when "blast+"
-      `"#{o[:bin]}blastn" -db "#{s}" -query "#{q}" \
-      -dust no -max_target_seqs 1 \
-      -num_threads #{o[:thr]} -outfmt 6 -out "#{dir}/#{i}.tab"`
-    when "blat"
-      `#{o[:bin]}blat "#{s}" "#{q}" -out=blast8 "#{dir}/#{i}.tab"`
-    else
-      abort "Unsupported program: #{o[:program]}."
-    end
-    fh = File.open("#{dir}/#{i}.tab", "r")
-    id = 0
-    sq = 0
-    n  = 0
-    fh.each_line do |ln|
-      ln.chomp!
-      row = ln.split(/\t/)
-      if qry_seen[ row[0].to_i ].nil? and row[3].to_i >= o[:len] and
-          row[2].to_f >= o[:id]
-        qry_seen[ row[0].to_i ] = 1
-        identity_corr = 100 - (100-row[2].to_f)/(o[:correct] ? 0.8621 : 1.0)
-        id += identity_corr
-        sq += identity_corr ** 2
-        n  += 1
-        if i==1
-          rbh[ row[0].to_i ] = row[1].to_i
-        else
-          if !rbh[ row[1].to_i ].nil? and rbh[ row[1].to_i ]==row[0].to_i
-            id2 += identity_corr
-            sq2 += identity_corr ** 2
-            n2  += 1
-            fo.puts [identity_corr,row[3..5],
-              row[10..11]].join("\t") unless o[:out].nil?
-            sqlite_db.execute("insert into rbm values(?,?,?,?,?,?,?)",
-              seq_names + [row[1], row[0], row[2], row[10], row[11]]
-              ) if not o[:sqlite3].nil? and o[:dbrbm]
-          end
-        end
-      end
-    end
-    fh.close
-    if n < o[:hits]
-      puts "Insuffient hits to estimate one-way ANI: #{n}." unless o[:auto]
-      res.puts "Insufficient hits to estimate one-way ANI: #{n}" unless
-        o[:res].nil?
-    else
-      printf "! One-way ANI %d: %.#{o[:dec]}f%% (SD: %.#{o[:dec]}f%%), " +
-        "from %i fragments.\n", i, id/n, (sq/n - (id/n)**2)**0.5, n unless
-        o[:auto]
-      res.puts sprintf "<b>One-way ANI %d:</b> %.#{o[:dec]}f%% " +
-        "(SD: %.#{o[:dec]}f%%), from %i fragments.<br/>", i, id/n,
-        (sq/n - (id/n)**2)**0.5, n unless o[:res].nil?
-    end
-  end # [1,2].each
-  if n2 < o[:hits]
-    puts "Insufficient hits to estimate two-way ANI: #{n2}" unless o[:auto]
-    res.puts "Insufficient hits to estimate two-way ANI: #{n2}" unless
-      o[:res].nil?
-  else
-    ani = id2/n2
-    ani_sd = (sq2/n2 - (id2/n2)**2)**0.5
-    printf "! Two-way ANI  : %.#{o[:dec]}f%% (SD: %.#{o[:dec]}f%%), " +
-      "from %i fragments.\n", ani, ani_sd, n2 unless o[:auto]
-    res.puts sprintf "<b>Two-way ANI:</b> %.#{o[:dec]}f%% " +
-      "(SD: %.#{o[:dec]}f%%), from %i fragments.<br/>",
-      ani, ani_sd, n2 unless o[:res].nil?
-    unless o[:tab].nil?
-      tab = File.open(o[:tab], "w")
-      tab.printf "%.#{o[:dec]}f\t%.#{o[:dec]}f\t%i\t%i\n",
-        ani, ani_sd, n2, minfrg
-      tab.close
-    end
-    sqlite_db.execute("insert into ani values(?,?,?,?,?,?)",
-      seq_names + [ani, ani_sd, n2, minfrg]) unless o[:sqlite3].nil?
-    puts ani if o[:auto]
-  end
-  res.close unless o[:res].nil?
-  fo.close unless o[:out].nil?
-end

data/utils/enveomics/Scripts/clust.rand.rb DELETED Viewed

@@ -1,102 +0,0 @@
-#!/usr/bin/env ruby
-#
-# @author: Luis M. Rodriguez-R
-# @license: artistic license 2.0
-#
-require "optparse"
-o = { q:false, prec:6 }
-ARGV << "-h" if ARGV.empty?
-OptionParser.new do |opts|
-   opts.banner = "
-Calculates the Rand Index and the Adjusted Rand Index between two clusterings.
-The clustering format is a raw text file with one cluster per line, each
-defined as comma-delimited members, and a header line (ignored). Note that this
-is equivalent to the OGs format for 1 genome.
-Usage: #{$0} [options]"
-  opts.separator ""
-  opts.separator "Mandatory"
-  opts.on("-1", "--clust1 FILE", "First input file."){ |v| o[:clust1]=v }
-  opts.on("-2", "--clust2 FILE", "Second input file."){ |v| o[:clust2]=v }
-  opts.separator ""
-  opts.separator "Other options"
-  opts.on("-p", "--prec INT",
-    "Precision to report. By default: #{o[:prec]}"){ |v| o[:prec]=v.to_i }
-  opts.on("-q", "--quiet", "Run quietly (no STDERR output)."){ o[:q] = true }
-  opts.on("-h", "--help", "Display this screen.") do
-    puts opts
-    exit
-  end
-  opts.separator ""
-end.parse!
-abort "-1 is mandatory" if o[:clust1].nil?
-abort "-2 is mandatory" if o[:clust2].nil?
-def load_clust(file, q)
-  $stderr.puts "Reading clusters in '#{file}'." unless q
-  out = []
-  File.open(file, "r") do |fh|
-    fh.each_line do |ln|
-      next if $.==1
-      out[$.-2] = ln.chomp.split(",")
-    end
-  end
-  $stderr.puts " Loaded clusters: #{out.size}." unless q
-  out
-end
-def choose_2(n)
-  return 0 if n<2
-  n*(n-1)/2
-end
-##### MAIN:
-begin
-  # Read the pre-computed OGs
-  clust1 = load_clust(o[:clust1], o[:q])
-  clust2 = load_clust(o[:clust2], o[:q])
-  # Contingency table
-  $stderr.puts "Estimating the contingency table." unless o[:q]
-  cont = []
-  b_sums = []
-  clust1.each_with_index do |x_i, i|
-    cont[i] = []
-    clust2.each_with_index do |y_j, j|
-      cont[i][j] = (x_i & y_j).size
-      b_sums[j]||= 0
-      b_sums[j] += cont[i][j]
-    end
-  end
-  a_sums = cont.map{ |i| i.inject(:+) }
-  # Calculate variables
-  # - see http://i11www.iti.kit.edu/extra/publications/ww-cco-06.pdf
-  $stderr.puts "Estimating indexes." unless o[:q]
-  n = clust1.map{ |i| i.size }.inject(:+)
-  pairs = choose_2(n)
-  n11 = clust1.each_index.map do |i|
-    clust2.each_index.map do |j|
-      choose_2(cont[i][j])
-    end.inject(:+)
-  end.inject(:+).to_f
-  t1 = a_sums.map{ |a_i| choose_2(a_i) }.inject(:+).to_f
-  t2 = b_sums.map{ |b_j| choose_2(b_j) }.inject(:+).to_f
-  t3 = 2*t1*t2/(n*(n-1))
-  n00 = pairs + n11 - t1 - t2
-  r_index = (n11 + n00)/pairs
-  r_adjusted = (n11 - t3)/((t1+t2)/2 - t3)
-  # Report
-  puts "Rand Index = %.#{o[:prec]}f" % r_index
-  puts "Adjusted Rand Index = %.#{o[:prec]}f" % r_adjusted
-rescue => err
-  $stderr.puts "Exception: #{err}\n\n"
-  err.backtrace.each { |l| $stderr.puts l + "\n" }
-  err
-end