RubyGems - miga-base - Versions diffs - 1.2.17.0 → 1.2.17.1 - Mend

miga-base 1.2.17.0 → 1.2.17.1

Files changed (299) hide show

checksums.yaml +4 -4
data/lib/miga/version.rb +1 -1
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Archaea_SCG.hmm +41964 -0
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Bacteria_SCG.hmm +32439 -0
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Complete_SCG_DB.hmm +62056 -0
data/utils/FastAAI/FastAAI +3659 -0
data/utils/FastAAI/FastAAI-legacy/FastAAI +1336 -0
data/utils/FastAAI/FastAAI-legacy/kAAI_v1.0_virus.py +1296 -0
data/utils/FastAAI/README.md +84 -0
data/utils/enveomics/Docs/recplot2.md +244 -0
data/utils/enveomics/Examples/aai-matrix.bash +66 -0
data/utils/enveomics/Examples/ani-matrix.bash +66 -0
data/utils/enveomics/Examples/essential-phylogeny.bash +105 -0
data/utils/enveomics/Examples/unus-genome-phylogeny.bash +100 -0
data/utils/enveomics/LICENSE.txt +73 -0
data/utils/enveomics/Makefile +52 -0
data/utils/enveomics/Manifest/Tasks/aasubs.json +103 -0
data/utils/enveomics/Manifest/Tasks/blasttab.json +790 -0
data/utils/enveomics/Manifest/Tasks/distances.json +161 -0
data/utils/enveomics/Manifest/Tasks/fasta.json +802 -0
data/utils/enveomics/Manifest/Tasks/fastq.json +291 -0
data/utils/enveomics/Manifest/Tasks/graphics.json +126 -0
data/utils/enveomics/Manifest/Tasks/mapping.json +137 -0
data/utils/enveomics/Manifest/Tasks/ogs.json +382 -0
data/utils/enveomics/Manifest/Tasks/other.json +906 -0
data/utils/enveomics/Manifest/Tasks/remote.json +355 -0
data/utils/enveomics/Manifest/Tasks/sequence-identity.json +650 -0
data/utils/enveomics/Manifest/Tasks/tables.json +308 -0
data/utils/enveomics/Manifest/Tasks/trees.json +68 -0
data/utils/enveomics/Manifest/Tasks/variants.json +111 -0
data/utils/enveomics/Manifest/categories.json +165 -0
data/utils/enveomics/Manifest/examples.json +162 -0
data/utils/enveomics/Manifest/tasks.json +4 -0
data/utils/enveomics/Pipelines/assembly.pbs/CONFIG.mock.bash +69 -0
data/utils/enveomics/Pipelines/assembly.pbs/FastA.N50.pl +1 -0
data/utils/enveomics/Pipelines/assembly.pbs/FastA.filterN.pl +1 -0
data/utils/enveomics/Pipelines/assembly.pbs/FastA.length.pl +1 -0
data/utils/enveomics/Pipelines/assembly.pbs/README.md +189 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-2.bash +112 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-3.bash +23 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-4.bash +44 -0
data/utils/enveomics/Pipelines/assembly.pbs/RUNME.bash +50 -0
data/utils/enveomics/Pipelines/assembly.pbs/kSelector.R +37 -0
data/utils/enveomics/Pipelines/assembly.pbs/newbler.pbs +68 -0
data/utils/enveomics/Pipelines/assembly.pbs/newbler_preparator.pl +49 -0
data/utils/enveomics/Pipelines/assembly.pbs/soap.pbs +80 -0
data/utils/enveomics/Pipelines/assembly.pbs/stats.pbs +57 -0
data/utils/enveomics/Pipelines/assembly.pbs/velvet.pbs +63 -0
data/utils/enveomics/Pipelines/blast.pbs/01.pbs.bash +38 -0
data/utils/enveomics/Pipelines/blast.pbs/02.pbs.bash +73 -0
data/utils/enveomics/Pipelines/blast.pbs/03.pbs.bash +21 -0
data/utils/enveomics/Pipelines/blast.pbs/BlastTab.recover_job.pl +72 -0
data/utils/enveomics/Pipelines/blast.pbs/CONFIG.mock.bash +98 -0
data/utils/enveomics/Pipelines/blast.pbs/FastA.split.pl +1 -0
data/utils/enveomics/Pipelines/blast.pbs/README.md +127 -0
data/utils/enveomics/Pipelines/blast.pbs/RUNME.bash +109 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.check.bash +128 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.dry.bash +16 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.eo.bash +22 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.pause.bash +26 -0
data/utils/enveomics/Pipelines/blast.pbs/TASK.run.bash +89 -0
data/utils/enveomics/Pipelines/blast.pbs/sentinel.pbs.bash +29 -0
data/utils/enveomics/Pipelines/idba.pbs/README.md +49 -0
data/utils/enveomics/Pipelines/idba.pbs/RUNME.bash +95 -0
data/utils/enveomics/Pipelines/idba.pbs/run.pbs +56 -0
data/utils/enveomics/Pipelines/trim.pbs/README.md +54 -0
data/utils/enveomics/Pipelines/trim.pbs/RUNME.bash +70 -0
data/utils/enveomics/Pipelines/trim.pbs/run.pbs +130 -0
data/utils/enveomics/README.md +42 -0
data/utils/enveomics/Scripts/AAsubs.log2ratio.rb +171 -0
data/utils/enveomics/Scripts/Aln.cat.rb +221 -0
data/utils/enveomics/Scripts/Aln.convert.pl +35 -0
data/utils/enveomics/Scripts/AlphaDiversity.pl +152 -0
data/utils/enveomics/Scripts/BedGraph.tad.rb +93 -0
data/utils/enveomics/Scripts/BedGraph.window.rb +71 -0
data/utils/enveomics/Scripts/BlastPairwise.AAsubs.pl +102 -0
data/utils/enveomics/Scripts/BlastTab.addlen.rb +63 -0
data/utils/enveomics/Scripts/BlastTab.advance.bash +48 -0
data/utils/enveomics/Scripts/BlastTab.best_hit_sorted.pl +55 -0
data/utils/enveomics/Scripts/BlastTab.catsbj.pl +104 -0
data/utils/enveomics/Scripts/BlastTab.cogCat.rb +76 -0
data/utils/enveomics/Scripts/BlastTab.filter.pl +47 -0
data/utils/enveomics/Scripts/BlastTab.kegg_pep2path_rest.pl +194 -0
data/utils/enveomics/Scripts/BlastTab.metaxaPrep.pl +104 -0
data/utils/enveomics/Scripts/BlastTab.pairedHits.rb +157 -0
data/utils/enveomics/Scripts/BlastTab.recplot2.R +48 -0
data/utils/enveomics/Scripts/BlastTab.seqdepth.pl +86 -0
data/utils/enveomics/Scripts/BlastTab.seqdepth_ZIP.pl +119 -0
data/utils/enveomics/Scripts/BlastTab.seqdepth_nomedian.pl +86 -0
data/utils/enveomics/Scripts/BlastTab.subsample.pl +47 -0
data/utils/enveomics/Scripts/BlastTab.sumPerHit.pl +114 -0
data/utils/enveomics/Scripts/BlastTab.taxid2taxrank.pl +90 -0
data/utils/enveomics/Scripts/BlastTab.topHits_sorted.rb +123 -0
data/utils/enveomics/Scripts/Chao1.pl +97 -0
data/utils/enveomics/Scripts/CharTable.classify.rb +234 -0
data/utils/enveomics/Scripts/EBIseq2tax.rb +83 -0
data/utils/enveomics/Scripts/FastA.N50.pl +60 -0
data/utils/enveomics/Scripts/FastA.extract.rb +152 -0
data/utils/enveomics/Scripts/FastA.filter.pl +52 -0
data/utils/enveomics/Scripts/FastA.filterLen.pl +28 -0
data/utils/enveomics/Scripts/FastA.filterN.pl +60 -0
data/utils/enveomics/Scripts/FastA.fragment.rb +100 -0
data/utils/enveomics/Scripts/FastA.gc.pl +42 -0
data/utils/enveomics/Scripts/FastA.interpose.pl +93 -0
data/utils/enveomics/Scripts/FastA.length.pl +38 -0
data/utils/enveomics/Scripts/FastA.mask.rb +89 -0
data/utils/enveomics/Scripts/FastA.per_file.pl +36 -0
data/utils/enveomics/Scripts/FastA.qlen.pl +57 -0
data/utils/enveomics/Scripts/FastA.rename.pl +65 -0
data/utils/enveomics/Scripts/FastA.revcom.pl +23 -0
data/utils/enveomics/Scripts/FastA.sample.rb +98 -0
data/utils/enveomics/Scripts/FastA.slider.pl +85 -0
data/utils/enveomics/Scripts/FastA.split.pl +55 -0
data/utils/enveomics/Scripts/FastA.split.rb +79 -0
data/utils/enveomics/Scripts/FastA.subsample.pl +131 -0
data/utils/enveomics/Scripts/FastA.tag.rb +65 -0
data/utils/enveomics/Scripts/FastA.toFastQ.rb +69 -0
data/utils/enveomics/Scripts/FastA.wrap.rb +48 -0
data/utils/enveomics/Scripts/FastQ.filter.pl +54 -0
data/utils/enveomics/Scripts/FastQ.interpose.pl +90 -0
data/utils/enveomics/Scripts/FastQ.maskQual.rb +89 -0
data/utils/enveomics/Scripts/FastQ.offset.pl +90 -0
data/utils/enveomics/Scripts/FastQ.split.pl +53 -0
data/utils/enveomics/Scripts/FastQ.tag.rb +70 -0
data/utils/enveomics/Scripts/FastQ.test-error.rb +81 -0
data/utils/enveomics/Scripts/FastQ.toFastA.awk +24 -0
data/utils/enveomics/Scripts/GFF.catsbj.pl +127 -0
data/utils/enveomics/Scripts/GenBank.add_fields.rb +84 -0
data/utils/enveomics/Scripts/HMM.essential.rb +351 -0
data/utils/enveomics/Scripts/HMM.haai.rb +168 -0
data/utils/enveomics/Scripts/HMMsearch.extractIds.rb +83 -0
data/utils/enveomics/Scripts/JPlace.distances.rb +88 -0
data/utils/enveomics/Scripts/JPlace.to_iToL.rb +320 -0
data/utils/enveomics/Scripts/M5nr.getSequences.rb +81 -0
data/utils/enveomics/Scripts/MeTaxa.distribution.pl +198 -0
data/utils/enveomics/Scripts/MyTaxa.fragsByTax.pl +35 -0
data/utils/enveomics/Scripts/MyTaxa.seq-taxrank.rb +49 -0
data/utils/enveomics/Scripts/NCBIacc2tax.rb +92 -0
data/utils/enveomics/Scripts/Newick.autoprune.R +27 -0
data/utils/enveomics/Scripts/RAxML-EPA.to_iToL.pl +228 -0
data/utils/enveomics/Scripts/RecPlot2.compareIdentities.R +32 -0
data/utils/enveomics/Scripts/RefSeq.download.bash +48 -0
data/utils/enveomics/Scripts/SRA.download.bash +55 -0
data/utils/enveomics/Scripts/TRIBS.plot-test.R +36 -0
data/utils/enveomics/Scripts/TRIBS.test.R +39 -0
data/utils/enveomics/Scripts/Table.barplot.R +31 -0
data/utils/enveomics/Scripts/Table.df2dist.R +30 -0
data/utils/enveomics/Scripts/Table.filter.pl +61 -0
data/utils/enveomics/Scripts/Table.merge.pl +77 -0
data/utils/enveomics/Scripts/Table.prefScore.R +60 -0
data/utils/enveomics/Scripts/Table.replace.rb +69 -0
data/utils/enveomics/Scripts/Table.round.rb +63 -0
data/utils/enveomics/Scripts/Table.split.pl +57 -0
data/utils/enveomics/Scripts/Taxonomy.silva2ncbi.rb +227 -0
data/utils/enveomics/Scripts/VCF.KaKs.rb +147 -0
data/utils/enveomics/Scripts/VCF.SNPs.rb +88 -0
data/utils/enveomics/Scripts/aai.rb +421 -0
data/utils/enveomics/Scripts/ani.rb +362 -0
data/utils/enveomics/Scripts/anir.rb +137 -0
data/utils/enveomics/Scripts/clust.rand.rb +102 -0
data/utils/enveomics/Scripts/gi2tax.rb +103 -0
data/utils/enveomics/Scripts/in_silico_GA_GI.pl +96 -0
data/utils/enveomics/Scripts/lib/data/dupont_2012_essential.hmm.gz +0 -0
data/utils/enveomics/Scripts/lib/data/lee_2019_essential.hmm.gz +0 -0
data/utils/enveomics/Scripts/lib/enveomics.R +1 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/anir.rb +293 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/bm_set.rb +175 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/enveomics.rb +24 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/errors.rb +17 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/gmm_em.rb +30 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/jplace.rb +253 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/match.rb +88 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/og.rb +182 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/rbm.rb +49 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/remote_data.rb +74 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/seq_range.rb +237 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stats/rand.rb +31 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stats/sample.rb +152 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/stats.rb +3 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/utils.rb +74 -0
data/utils/enveomics/Scripts/lib/enveomics_rb/vcf.rb +135 -0
data/utils/enveomics/Scripts/ogs.annotate.rb +88 -0
data/utils/enveomics/Scripts/ogs.core-pan.rb +160 -0
data/utils/enveomics/Scripts/ogs.extract.rb +125 -0
data/utils/enveomics/Scripts/ogs.mcl.rb +186 -0
data/utils/enveomics/Scripts/ogs.rb +104 -0
data/utils/enveomics/Scripts/ogs.stats.rb +131 -0
data/utils/enveomics/Scripts/rbm-legacy.rb +172 -0
data/utils/enveomics/Scripts/rbm.rb +108 -0
data/utils/enveomics/Scripts/sam.filter.rb +148 -0
data/utils/enveomics/Tests/Makefile +10 -0
data/utils/enveomics/Tests/Mgen_M2288.faa +3189 -0
data/utils/enveomics/Tests/Mgen_M2288.fna +8282 -0
data/utils/enveomics/Tests/Mgen_M2321.fna +8288 -0
data/utils/enveomics/Tests/Nequ_Kin4M.faa +2970 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae-PilA.tribs.Rdata +0 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae-PilA.txt +7 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae.aai-mat.tsv +17 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae.aai.tsv +137 -0
data/utils/enveomics/Tests/a_mg.cds-go.blast.tsv +123 -0
data/utils/enveomics/Tests/a_mg.reads-cds.blast.tsv +200 -0
data/utils/enveomics/Tests/a_mg.reads-cds.counts.tsv +55 -0
data/utils/enveomics/Tests/alkB.nwk +1 -0
data/utils/enveomics/Tests/anthrax-cansnp-data.tsv +13 -0
data/utils/enveomics/Tests/anthrax-cansnp-key.tsv +17 -0
data/utils/enveomics/Tests/hiv1.faa +59 -0
data/utils/enveomics/Tests/hiv1.fna +134 -0
data/utils/enveomics/Tests/hiv2.faa +70 -0
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv +233 -0
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv.lim +1 -0
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv.rec +233 -0
data/utils/enveomics/Tests/phyla_counts.tsv +10 -0
data/utils/enveomics/Tests/primate_lentivirus.ogs +11 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-hiv1.rbm +9 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-hiv2.rbm +8 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-siv.rbm +6 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv2-hiv2.rbm +9 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv2-siv.rbm +6 -0
data/utils/enveomics/Tests/primate_lentivirus.rbm/siv-siv.rbm +6 -0
data/utils/enveomics/build_enveomics_r.bash +45 -0
data/utils/enveomics/enveomics.R/DESCRIPTION +31 -0
data/utils/enveomics/enveomics.R/NAMESPACE +39 -0
data/utils/enveomics/enveomics.R/R/autoprune.R +155 -0
data/utils/enveomics/enveomics.R/R/barplot.R +184 -0
data/utils/enveomics/enveomics.R/R/cliopts.R +135 -0
data/utils/enveomics/enveomics.R/R/df2dist.R +154 -0
data/utils/enveomics/enveomics.R/R/growthcurve.R +331 -0
data/utils/enveomics/enveomics.R/R/prefscore.R +79 -0
data/utils/enveomics/enveomics.R/R/recplot.R +354 -0
data/utils/enveomics/enveomics.R/R/recplot2.R +1631 -0
data/utils/enveomics/enveomics.R/R/tribs.R +583 -0
data/utils/enveomics/enveomics.R/R/utils.R +80 -0
data/utils/enveomics/enveomics.R/README.md +81 -0
data/utils/enveomics/enveomics.R/data/growth.curves.rda +0 -0
data/utils/enveomics/enveomics.R/data/phyla.counts.rda +0 -0
data/utils/enveomics/enveomics.R/man/cash-enve.GrowthCurve-method.Rd +16 -0
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2-method.Rd +16 -0
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2.Peak-method.Rd +16 -0
data/utils/enveomics/enveomics.R/man/enve.GrowthCurve-class.Rd +25 -0
data/utils/enveomics/enveomics.R/man/enve.TRIBS-class.Rd +46 -0
data/utils/enveomics/enveomics.R/man/enve.TRIBS.merge.Rd +23 -0
data/utils/enveomics/enveomics.R/man/enve.TRIBStest-class.Rd +47 -0
data/utils/enveomics/enveomics.R/man/enve.__prune.iter.Rd +23 -0
data/utils/enveomics/enveomics.R/man/enve.__prune.reduce.Rd +23 -0
data/utils/enveomics/enveomics.R/man/enve.__tribs.Rd +40 -0
data/utils/enveomics/enveomics.R/man/enve.barplot.Rd +103 -0
data/utils/enveomics/enveomics.R/man/enve.cliopts.Rd +67 -0
data/utils/enveomics/enveomics.R/man/enve.col.alpha.Rd +24 -0
data/utils/enveomics/enveomics.R/man/enve.col2alpha.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.df2dist.Rd +45 -0
data/utils/enveomics/enveomics.R/man/enve.df2dist.group.Rd +44 -0
data/utils/enveomics/enveomics.R/man/enve.df2dist.list.Rd +47 -0
data/utils/enveomics/enveomics.R/man/enve.growthcurve.Rd +75 -0
data/utils/enveomics/enveomics.R/man/enve.prefscore.Rd +50 -0
data/utils/enveomics/enveomics.R/man/enve.prune.dist.Rd +44 -0
data/utils/enveomics/enveomics.R/man/enve.recplot.Rd +139 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2-class.Rd +45 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.ANIr.Rd +24 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.Rd +77 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__counts.Rd +25 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__peakHist.Rd +21 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.__whichClosestPeak.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.changeCutoff.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.compareIdentities.Rd +47 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.coordinates.Rd +29 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.corePeak.Rd +18 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.extractWindows.Rd +45 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.Rd +36 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__em_e.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__em_m.Rd +19 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__emauto_one.Rd +27 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__mow_one.Rd +52 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__mower.Rd +17 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.em.Rd +51 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.emauto.Rd +43 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.mower.Rd +82 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.peak-class.Rd +59 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.seqdepth.Rd +27 -0
data/utils/enveomics/enveomics.R/man/enve.recplot2.windowDepthThreshold.Rd +36 -0
data/utils/enveomics/enveomics.R/man/enve.selvector.Rd +23 -0
data/utils/enveomics/enveomics.R/man/enve.tribs.Rd +68 -0
data/utils/enveomics/enveomics.R/man/enve.tribs.test.Rd +28 -0
data/utils/enveomics/enveomics.R/man/enve.truncate.Rd +27 -0
data/utils/enveomics/enveomics.R/man/growth.curves.Rd +14 -0
data/utils/enveomics/enveomics.R/man/phyla.counts.Rd +13 -0
data/utils/enveomics/enveomics.R/man/plot.enve.GrowthCurve.Rd +78 -0
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBS.Rd +46 -0
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBStest.Rd +45 -0
data/utils/enveomics/enveomics.R/man/plot.enve.recplot2.Rd +125 -0
data/utils/enveomics/enveomics.R/man/summary.enve.GrowthCurve.Rd +19 -0
data/utils/enveomics/enveomics.R/man/summary.enve.TRIBS.Rd +19 -0
data/utils/enveomics/enveomics.R/man/summary.enve.TRIBStest.Rd +19 -0
data/utils/enveomics/globals.mk +8 -0
data/utils/enveomics/manifest.json +9 -0
data/utils/multitrim/Multitrim How-To.pdf +0 -0
data/utils/multitrim/README.md +67 -0
data/utils/multitrim/multitrim.py +1555 -0
data/utils/multitrim/multitrim.yml +13 -0
metadata +301 -5

data/utils/FastAAI/FastAAI-legacy/FastAAI ADDED Viewed

@@ -0,0 +1,1336 @@
+#!/usr/bin/env python3
+"""
+########################################################################
+# Author:	   Carlos Ruiz
+# Intitution:   Georgia Institute of Technology
+# Version:	  1.0
+# Date:		 Dec 10, 2020
+# Description: Calculates the average amino acid identity using k-mers
+from single copy genes. It is a faster version of the regular AAI (Blast
+or Diamond) and the hAAI implemented in MiGA.
+########################################################################
+"""
+################################################################################
+"""---0.0 Import Modules---"""
+import subprocess, argparse, multiprocessing, datetime, shutil
+import textwrap, pickle, gzip
+import numpy as np
+from tempfile import TemporaryDirectory
+from random import randint
+from pathlib import Path
+from sys import argv
+from sys import exit
+from functools import partial
+import time
+################################################################################
+"""---1.0 Define Functions---"""
+# --- Run prodigal ---
+# ------------------------------------------------------
+def run_prodigal(input_file):
+    """
+    Runs prodigal, compares translation tables and stores faa files
+    Arguments:
+       input_file -- Path to genome FastA file
+    Returns:
+        output -- Path to amino acid fasta result
+    """
+    # Predict proteins with translation tables 4 and 11
+    file_path = Path(input_file)
+    filename = file_path.name
+    folder = file_path.parent
+    protein_output = folder / (filename + '.faa')
+    output_11 = folder / (filename + '.faa.11')
+    temp_output = folder / (filename + '.temp')
+    subprocess.call(["prodigal", "-i", str(file_path), "-a", str(output_11),
+                    "-p", "meta", "-q", "-o", str(temp_output)])
+    output_4 = folder / (filename + '.faa.4')
+    temp_output = folder / (filename + '.temp')
+    subprocess.call(["prodigal", "-i", str(file_path), "-a", str(output_4),
+                    "-p", "meta", "-g", "4", "-q", "-o", str(temp_output)])
+    # Compare translation tables
+    length_4 = 0
+    length_11 = 0
+    with open(output_4, 'r') as table_4:
+        for line in table_4:
+            if line.startswith(">"):
+                continue
+            else:
+                length_4 += len(line.strip())
+    with open(output_11, 'r') as table_11:
+        for line in table_11:
+            if line.startswith(">"):
+                continue
+            else:
+                length_11 += len(line.strip())
+    if (length_4 / length_11) >= 1.1:
+        shutil.copy(output_4, protein_output)
+    else:
+        shutil.copy(str(output_11), str(protein_output))
+    # Remove intermediate files
+    output_4.unlink()
+    output_11.unlink()
+    temp_output.unlink()
+    # Remove stop '*' codons from protein sequences
+    with open(protein_output, 'r') as final_protein, open(temp_output, 'w') as temporal_file:
+        for line in final_protein:
+            if line.startswith(">"):
+                temporal_file.write("{}".format(line))
+            else:
+                line = line.replace('*', '')
+                temporal_file.write("{}".format(line))
+    shutil.copy(str(temp_output), str(protein_output))
+    temp_output.unlink()
+    return str(protein_output)
+# ------------------------------------------------------
+# --- Run prodigal for viruses ---
+# ------------------------------------------------------
+def run_prodigal_virus(input_file):
+    """
+    Runs prodigal, compares translation tables and stores faa files
+    Arguments:
+       input_file -- Path to genome FastA file
+    Returns:
+        output -- Path to amino acid fasta result
+    """
+    # Predict proteins with translation tables 4 and 11
+    file_path = Path(input_file)
+    filename = file_path.name
+    folder = file_path.parent
+    protein_output = folder / (filename + '.faa')
+    temp_output = folder / (filename + '.temp')
+    subprocess.call(["prodigal", "-i", str(file_path), "-a", str(protein_output),
+                    "-p", "meta", "-q", "-o", str(temp_output)])
+    # Remove intermediate files
+    temp_output.unlink()
+    # Remove stop '*' codons from protein sequences
+    with open(protein_output, 'r') as final_protein, open(temp_output, 'w') as temporal_file:
+        for line in final_protein:
+            if line.startswith(">"):
+                temporal_file.write("{}".format(line))
+            else:
+                line = line.replace('*', '')
+                temporal_file.write("{}".format(line))
+    shutil.copy(str(temp_output), str(protein_output))
+    temp_output.unlink()
+    return str(protein_output)
+# ------------------------------------------------------
+# --- Run hmmsearch ---
+# ------------------------------------------------------
+def run_hmmsearch(input_file):
+    """
+    Runs hmmsearch on the set of SCGs and select the
+    best Archaea or Bacterial model
+    Arguments:
+        input_file -- Path to protein FastA file
+    Returns:
+        output -- Path to hmmsearch hits table
+    """
+    file_path = Path(input_file)
+    folder = file_path.parent
+    name = file_path.name
+    hmm_output = folder / (name + '.hmm')
+    temp_output = folder / (name + '.temp')
+    script_path = Path(__file__)
+    script_dir = script_path.parent
+    hmm_complete_model = script_dir / "../00.Libraries/01.SCG_HMMs/Complete_SCG_DB.hmm"
+    subprocess.call(["hmmsearch", "--tblout", str(hmm_output), "-o", str(temp_output), "--cut_tc", "--cpu", "1",
+                    str(hmm_complete_model), str(file_path)])
+    temp_output.unlink()
+    return str(hmm_output)
+# ------------------------------------------------------
+# --- Filter HMM results for best matches ---
+# ------------------------------------------------------
+def hmm_filter(scg_hmm_file, keep):
+    """
+    Filters HMM results for best hits per protein
+    Arguments:
+        SCG_HMM_file {file path} -- Path to HMM results file
+        keep {bool} -- Keep HMM files
+    Returns:
+        outfile -- Path to filtered files
+    """
+    hmm_path = Path(scg_hmm_file)
+    name = hmm_path.name
+    folder = hmm_path.parent
+    outfile = folder / (name + '.filt')
+    hmm_hit_dict = {}
+    with open(scg_hmm_file, 'r') as hit_file:
+        for line in hit_file:
+            if line.startswith("#"):
+                continue
+            else:
+                hit = line.strip().split()
+                protein_name = hit[0]
+                score = float(hit[8])
+                if protein_name in hmm_hit_dict:
+                    if score > hmm_hit_dict[protein_name][0]:
+                        hmm_hit_dict[protein_name] = [score, line]
+                    elif score < hmm_hit_dict[protein_name][0]:
+                        continue
+                    else:
+                        if randint(2) > 0:
+                            hmm_hit_dict[protein_name] = [score, line]
+                else:
+                    hmm_hit_dict[protein_name] = [score, line]
+    with open(outfile, 'w') as output:
+        for hits in hmm_hit_dict.values():
+            output.write("{}".format(hits[1]))
+    return str(outfile)
+# ------------------------------------------------------
+# --- Find Kmers from HMM results ---
+# ------------------------------------------------------
+def kmer_extract(input_files):
+    """
+    Extract kmers from protein files that have hits
+    in the HMM searches.
+    Arguments:
+        SCG_HMM_file {file path} -- Path to filtered HMM results.
+    Returns:
+        [genome_kmers] -- Dictionary of kmers per gene.
+    """
+    final_filename = input_files[0]
+    protein_file = input_files[1]
+    scg_hmm_file = input_files[2]
+    positive_matches = {}
+    positive_proteins = []
+    with open(scg_hmm_file, 'r') as hmm_input:
+        for line in hmm_input:
+            line = line.strip().split()
+            protein_name = line[0]
+            model_name = line[3]
+            score = float(line[8])
+            if model_name in positive_matches:
+                if score > positive_matches[model_name][1]:
+                    positive_matches[model_name] = [protein_name, score]
+                else:
+                    continue
+            else:
+                positive_matches[model_name] = [protein_name, score]
+    for proteins in positive_matches.values():
+        positive_proteins.append(proteins[0])
+    scg_kmers = read_kmers_from_file(protein_file, positive_proteins, 4)
+    for accession, protein in positive_matches.items():
+        scg_kmers[accession] = scg_kmers.pop(protein[0])
+    genome_kmers = {final_filename : scg_kmers}
+    return genome_kmers
+# ------------------------------------------------------
+# --- Extract kmers from protein sequences ---
+# ------------------------------------------------------
+def read_kmers_from_file(filename, positive_hits, ksize):
+    scg_kmers = {}
+    store_sequence = False
+    protein_name = ""
+    protein_sequence = ""
+    with open(filename) as fasta_in:
+        for line in fasta_in:
+            if line.startswith(">"):
+                if store_sequence == True:
+                    kmers = build_kmers(protein_sequence, ksize)
+                    scg_kmers[protein_name] = kmers
+                protein_sequence = ""
+                store_sequence = False
+                line = line.replace(">", "")
+                protein_name = line.strip().split()[0]
+                if protein_name in positive_hits:
+                    store_sequence = True
+            else:
+                if store_sequence == True:
+                    protein_sequence += line.strip()
+                else:
+                    continue
+            if store_sequence == True:
+                kmers = build_kmers(protein_sequence, ksize)
+                scg_kmers[protein_name] = kmers
+    return scg_kmers
+# ------------------------------------------------------
+# --- Extract kmers from viral protein sequences ---
+# ------------------------------------------------------
+def read_viral_kmers_from_file(input_information):
+    final_filename = input_information[0]
+    protein_file = input_information[1]
+    kmer_size = input_information[2]
+    scg_kmers = set()
+    protein_sequence = ""
+    store_sequence = False
+    number_of_proteins = 0
+    with open(protein_file) as fasta_in:
+        for line in fasta_in:
+            if line.startswith(">"):
+                number_of_proteins += 1
+                if store_sequence == True:
+                    kmers = build_viral_kmers(protein_sequence, kmer_size)
+                    scg_kmers.update(kmers)
+                    protein_sequence = ""
+                else:
+                    protein_sequence = ""
+                    store_sequence = True
+            else:
+                protein_sequence += line.strip()
+            if store_sequence == True:
+                kmers = build_viral_kmers(protein_sequence, kmer_size)
+                scg_kmers.update(kmers)
+    genome_kmers = {final_filename : [number_of_proteins, ','.join(list(scg_kmers))]}
+    return genome_kmers
+# ------------------------------------------------------
+# --- Build Kmers ---
+# ------------------------------------------------------
+def build_kmers(sequence, ksize):
+    kmers = []
+    n_kmers = len(sequence) - ksize + 1
+    for i in range(n_kmers):
+        kmer = sequence[i:i + ksize]
+        kmers.append(kmer)
+    kmers_set = ','.join(set(kmers))
+    return kmers_set
+# ------------------------------------------------------
+# --- Build Viral Kmers ---
+# ------------------------------------------------------
+def build_viral_kmers(sequence, ksize):
+    kmers = []
+    n_kmers = len(sequence) - ksize + 1
+    for i in range(n_kmers):
+        kmer = sequence[i:i + ksize]
+        kmers.append(kmer)
+    kmers_set = set(kmers)
+    return kmers_set
+# ------------------------------------------------------
+# --- Create global dictionary with unique kmers and indices for each one ---
+# ------------------------------------------------------
+def global_unique_kmers(kmer_dictionaries):
+    """
+    Extract every kmer in the whole dataset
+    Create global dictionary with unique kmers and indices for each one
+    Arguments:
+        kmer_dict {dict} -- Dictionary with kmers for each marker protein per input file
+    Returns:
+        [global_kmer_index_dictionary] -- Dictionary with a unique index per kmer
+    """
+    # Make this dictionary global regardless of quer == reference or not
+    print("Indexing unique kmers")
+    global global_kmer_index_dictionary
+    global_kmer_index_dictionary = {}
+    counter = 0
+    for kmer_dict in kmer_dictionaries:
+        for marker_protein_id in kmer_dict.values():
+            for kmer_list in marker_protein_id.values():
+                kmer_list = kmer_list.split(',')
+                for kmer in kmer_list:
+                    try:
+                        global_kmer_index_dictionary[kmer]
+                    except:
+                        global_kmer_index_dictionary[kmer] = counter
+                        counter += 1
+# ------------------------------------------------------
+# --- Create global viral dictionary with unique kmers and indices for each one ---
+# ------------------------------------------------------
+def global_unique_viral_kmers(kmer_dictionaries):
+    """
+    Extract every kmer in the whole dataset
+    Create global dictionary with unique kmers and indices for each one
+    Arguments:
+        kmer_dict {dict} -- Dictionary with kmers for each marker protein per input file
+    Returns:
+        [global_kmer_index_dictionary] -- Dictionary with a unique index per kmer
+    """
+    # Make this dictionary global regardless of quer == reference or not
+    print("Indexing unique kmers")
+    global global_kmer_index_dictionary
+    global_kmer_index_dictionary = {}
+    counter = 0
+    for kmer_dict in kmer_dictionaries:
+        for kmer_list in kmer_dict.values():
+            for kmer in kmer_list[1].split(','):
+                try:
+                    global_kmer_index_dictionary[kmer]
+                except:
+                    global_kmer_index_dictionary[kmer] = counter
+                    counter += 1
+# ------------------------------------------------------
+# --- Convert kmers to indices ---
+# ------------------------------------------------------
+def convert_kmers_to_indices(kmer_dict):
+    print("Converting kmers to indices")
+    for genome in kmer_dict:
+        for protein_marker in kmer_dict[genome]:
+            kmer_index = []
+            for kmer in kmer_dict[genome][protein_marker].split(','):
+                kmer_index.append(global_kmer_index_dictionary[kmer])
+            kmer_index = np.sort(np.unique(np.array(kmer_index, dtype=np.int32)))
+            kmer_dict[genome][protein_marker] = kmer_index
+    return kmer_dict
+# ------------------------------------------------------
+# --- Convert viral kmers to indices ---
+# ------------------------------------------------------
+def convert_viral_kmers_to_indices(kmer_dict):
+    print("Converting kmers to indices")
+    for genome in kmer_dict:
+        kmer_index = []
+        for kmer in kmer_dict[genome][1].split(','):
+            kmer_index.append(global_kmer_index_dictionary[kmer])
+        kmer_index = np.sort(np.unique(np.array(kmer_index, dtype=np.int32)))
+        kmer_dict[genome][1] = kmer_index
+    return kmer_dict
+# ------------------------------------------------------
+# --- Transform kmer dictionaries to index dictionaries ---
+# ------------------------------------------------------
+def transform_kmer_dicts_to_arrays(kmer_dict, temporal_working_directory, single_dataset):
+    kmer_dict = convert_kmers_to_indices(kmer_dict)
+    #Get skip indices
+    smartargs = []
+    genome_ids = list(kmer_dict.keys())
+    for i in range(0, len(genome_ids)):
+        if single_dataset == True:
+            smartargs.append((temporal_working_directory, genome_ids[i], i))
+        else:
+            smartargs.append((temporal_working_directory, genome_ids[i]))
+    return kmer_dict, smartargs
+# ------------------------------------------------------
+# --- Transform viral kmer dictionaries to index dictionaries ---
+# ------------------------------------------------------
+def transform_viral_kmer_dicts_to_arrays(kmer_dict, temporal_working_directory, single_dataset):
+    kmer_dict = convert_viral_kmers_to_indices(kmer_dict)
+    #Get skip indices
+    smartargs = []
+    genome_ids = list(kmer_dict.keys())
+    for i in range(0, len(genome_ids)):
+        if single_dataset == True:
+            smartargs.append((temporal_working_directory, genome_ids[i], i))
+        else:
+            smartargs.append((temporal_working_directory, genome_ids[i]))
+    return kmer_dict, smartargs
+# ------------------------------------------------------
+# --- Parse kAAI when query == reference ---
+# ------------------------------------------------------
+def single_kaai_parser(arguments):
+    """
+    Calculates the Jaccard distances using single protein markers shared by two genomes
+    Arguments:
+        arguments {tuple} -- Tuple with the temporal folder, the query id and the index of said query_id
+    Returns:
+        [Path to output] -- Path to output file
+    """
+    temporal_folder = arguments[0]
+    query_id = arguments[1]
+    skip_first_n = arguments[2]
+    temporal_folder = Path(str(temporal_folder.name))
+    temporal_file = Path(query_id).name + '.faai.temp'
+    temporal_output = temporal_folder / temporal_file
+    query_scg_list = np.array(list(query_kmer_dictionary[query_id].keys()))
+    with open(temporal_output, 'w') as out_file:
+        #for target_genome, scg_ids in query_kmer_dictionary.items():
+        for target_genome in list(query_kmer_dictionary.keys())[skip_first_n:]:
+            # Get number and list of SCG detected in reference
+            target_scg_list = np.array(list(query_kmer_dictionary[target_genome].keys()))
+            shorter_genome = min(len(query_scg_list), len(target_scg_list))
+            #If self, 1.0 similarity.
+            if query_id == target_genome:
+                    out_file.write("{}\t{}\t{}\t{}\t{}\t{}\t{}\n".format(query_id, target_genome,
+                    1.0, 0.0, len(query_scg_list), len(target_scg_list), 100))
+                    continue
+            jaccard_similarities = []
+            # Get shared proteins (scgs)
+            final_scg_list = np.intersect1d(query_scg_list, target_scg_list)
+            # Extract a list of kmers for each SCG in the list
+            query_kmer_list = list(map(query_kmer_dictionary[query_id].get, final_scg_list))
+            reference_kmer_list = list(map(query_kmer_dictionary[target_genome].get, final_scg_list))
+            # Calculate the jaccard index
+            for accession in range(len(query_kmer_list)):
+                union = len(np.union1d(query_kmer_list[accession], reference_kmer_list[accession]))
+                intersection = len(query_kmer_list[accession]) + len(reference_kmer_list[accession]) - union
+                jaccard_similarities.append(intersection / union)
+            # Allow for numpy in-builts; they're a little faster.
+            if len(jaccard_similarities) > 0:
+                jaccard_similarities = np.array(jaccard_similarities, dtype=np.float_)
+                try:
+                    mean = np.mean(jaccard_similarities)
+                    var = np.std(jaccard_similarities)
+                    if mean >= 0.9:
+                        aai_est = ">90%"
+                    elif mean == 0:
+                        aai_est = "<30%"
+                    else:
+                        aai_est = kaai_to_aai(mean)
+                    out_file.write("{}\t{}\t{}\t{}\t{}\t{}\t{}\n".format(query_id, target_genome,
+                            round(mean, 4), round(var, 4),
+                            len(jaccard_similarities), shorter_genome, aai_est))
+                except:
+                    out_file.write("{}\t{}\t{}\t{}\t{}\t{}\t{}\n".format(query_id, target_genome,
+                            "NA", "NA", "NA", "NA", "NA"))
+            else:
+                out_file.write("{}\t{}\t{}\t{}\t{}\t{}\t{}\n".format(query_id, target_genome,
+                            "NA", "NA", "NA", "NA", "NA"))
+    return temporal_output
+# ------------------------------------------------------
+# --- Parse viral kAAI when query == reference ---
+# ------------------------------------------------------
+def single_virus_kaai_parser(arguments):
+    """
+    Calculates Jaccard distances on kmers from viral proteins
+    Arguments:
+        query_id {str} -- Id of the query genome
+    Returns:
+        [Path to output] -- Path to output file
+    """
+    temporal_folder = arguments[0]
+    query_id = arguments[1]
+    skip_first_n = arguments[2]
+    temporal_folder = Path(str(temporal_folder.name))
+    temporal_file = Path(query_id).name + '.faai.temp'
+    temporal_output = temporal_folder / temporal_file
+    # Get query kmers
+    proteins_query = query_kmer_dictionary[query_id][0]
+    kmers_query = query_kmer_dictionary[query_id][1]
+    # Start comparison with all genomes in the query dictionary
+    with open(temporal_output, 'w') as out_file:
+        for target_genome in list(query_kmer_dictionary.keys())[skip_first_n:]:
+            # If self, 1.0 similarity
+            if query_id == target_genome:
+                out_file.write("{}\t{}\t{}\t{}\t{}\n".format(query_id, target_genome,
+                    1.0, proteins_query, proteins_query))
+                continue
+            jaccard_index = None
+            proteins_reference = query_kmer_dictionary[target_genome][0]
+            kmers_reference = query_kmer_dictionary[target_genome][1]
+            # Calculate the Jaccard Index
+            union = len(np.union1d(kmers_query, kmers_reference))
+            intersection = len(kmers_query) + len(kmers_reference) - union
+            jaccard_index = intersection/union
+            out_file.write("{}\t{}\t{}\t{}\t{}\n".format(query_id, target_genome,
+                    jaccard_index, proteins_query, proteins_reference))
+    return temporal_output
+# ------------------------------------------------------
+# --- Parse kAAI when query != reference ---
+# ------------------------------------------------------
+def double_kaai_parser(arguments):
+    """
+    Calculates the Jaccard distances using single protein markers shared by two genomes
+    Arguments:
+        arguments {tuple} -- Tuple with the temporal folder, the query id and the index of said query_id
+    Returns:
+        [Path to output] -- Path to output file
+    """
+    temporal_folder = arguments[0]
+    query_id = arguments[1]
+    temporal_folder = Path(str(temporal_folder.name))
+    temporal_file = Path(query_id).name + '.faai.temp'
+    temporal_output = temporal_folder / temporal_file
+    query_scg_list = np.array(list(query_kmer_dictionary[query_id].keys()))
+    with open(temporal_output, 'w') as out_file:
+        for target_genome in list(reference_kmer_dictionary.keys()):
+            # Get number and list of SCG detected in reference
+            target_scg_list = np.array(list(reference_kmer_dictionary[target_genome].keys()))
+            shorter_genome = min(len(query_scg_list), len(target_scg_list))
+            #If self, 1.0 similarity.
+            if query_id == target_genome:
+                    out_file.write("{}\t{}\t{}\t{}\t{}\t{}\t{}\n".format(query_id, target_genome,
+                    1.0, 0.0, len(query_scg_list), len(target_scg_list), 100))
+                    continue
+            jaccard_similarities = []
+            # Get shared proteins (scgs)
+            final_scg_list = np.intersect1d(query_scg_list, target_scg_list)
+            # Extract a list of kmers for each SCG in the list
+            query_kmer_list = list(map(query_kmer_dictionary[query_id].get, final_scg_list))
+            reference_kmer_list = list(map(reference_kmer_dictionary[target_genome].get, final_scg_list))
+            # Calculate the jaccard index
+            for accession in range(len(query_kmer_list)):
+                union = len(np.union1d(query_kmer_list[accession], reference_kmer_list[accession]))
+                intersection = len(query_kmer_list[accession]) + len(reference_kmer_list[accession]) - union
+                jaccard_similarities.append(intersection / union)
+            # Allow for numpy in-builts; they're a little faster.
+            if len(jaccard_similarities) > 0:
+                jaccard_similarities = np.array(jaccard_similarities, dtype=np.float_)
+                try:
+                    mean = np.mean(jaccard_similarities)
+                    var = np.std(jaccard_similarities)
+                    if mean >= 0.9:
+                        aai_est = ">90%"
+                    elif mean == 0:
+                        aai_est = "<30%"
+                    else:
+                        aai_est = kaai_to_aai(mean)
+                    out_file.write("{}\t{}\t{}\t{}\t{}\t{}\t{}\n".format(query_id, target_genome,
+                            round(mean, 4), round(var, 4),
+                            len(jaccard_similarities), shorter_genome, aai_est))
+                except:
+                    out_file.write("{}\t{}\t{}\t{}\t{}\t{}\t{}\n".format(query_id, target_genome,
+                            "NA", "NA", "NA", "NA", "NA"))
+            else:
+                out_file.write("{}\t{}\t{}\t{}\t{}\t{}\t{}\n".format(query_id, target_genome,
+                            "NA", "NA", "NA", "NA", "NA"))
+    return temporal_output
+# ------------------------------------------------------
+# --- Parse viral kAAI when query != reference ---
+# ------------------------------------------------------
+def double_viral_kaai_parser(arguments):
+    """
+    Calculates Jaccard distances on kmers from viral proteins
+    Arguments:
+        query_id {str} -- Id of the query genome
+    Returns:
+        [Path to output] -- Path to output file
+    """
+    temporal_folder = arguments[0]
+    query_id = arguments[1]
+    temporal_folder = Path(str(temporal_folder.name))
+    temporal_file = Path(query_id).name + '.faai.temp'
+    temporal_output = temporal_folder / temporal_file
+    # Get query kmers
+    proteins_query = query_kmer_dictionary[query_id][0]
+    kmers_query = query_kmer_dictionary[query_id][1]
+    # Start comparison with all genomes in the query dictionary
+    with open(temporal_output, 'w') as out_file:
+        for target_genome in reference_kmer_dictionary.keys():
+            # If self, 1.0 similarity
+            if query_id == target_genome:
+                out_file.write("{}\t{}\t{}\t{}\t{}\n".format(query_id, target_genome,
+                    1.0, proteins_query, proteins_query))
+                continue
+            jaccard_index = None
+            proteins_reference = reference_kmer_dictionary[target_genome][0]
+            kmers_reference = reference_kmer_dictionary[target_genome][1]
+            # Calculate the Jaccard Index
+            union = len(np.union1d(kmers_query, kmers_reference))
+            intersection = len(kmers_query) + len(kmers_reference) - union
+            jaccard_index = intersection/union
+            out_file.write("{}\t{}\t{}\t{}\t{}\n".format(query_id, target_genome,
+                    jaccard_index, proteins_query, proteins_reference))
+    return temporal_output
+# ------------------------------------------------------
+# --- Query == Reference initializer function ---
+# ------------------------------------------------------
+def single_dictionary_initializer(_dictionary):
+    """
+    Make dictionary available for multiprocessing
+    """
+    global query_kmer_dictionary
+    query_kmer_dictionary = _dictionary
+# ------------------------------------------------------
+# --- Query != Reference initializer function ---
+# ------------------------------------------------------
+def two_dictionary_initializer(_query_dictionary, _reference_dictionary):
+    """
+    Make dictionary available for multiprocessing
+    """
+    global query_kmer_dictionary
+    global reference_kmer_dictionary
+    query_kmer_dictionary = _query_dictionary
+    reference_kmer_dictionary = _reference_dictionary
+# ------------------------------------------------------
+# --- Merge kmer dictionaries ---
+# ------------------------------------------------------
+def merge_dicts(dictionaries):
+    """
+    Given any number of dicts, shallow copy and merge into a new dict,
+    precedence goes to key value pairs in latter dicts.
+    """
+    result = {}
+    for kmer_dictionary in dictionaries:
+        result.update(kmer_dictionary)
+    return result
+# ------------------------------------------------------
+# --- Merge kmer dictionaries ---
+# ------------------------------------------------------
+def kaai_to_aai(kaai):
+    # Transform the kAAI into estimated AAI values
+    aai_hat = (-0.3087057 + 1.810741 * (np.exp(-(-0.2607023 * np.log(kaai))**(1/3.435))))*100
+    return aai_hat
+# ------------------------------------------------------
+################################################################################
+"""---2.0 Main Function---"""
+def main():
+    # Setup parser for arguments.
+    parser = argparse.ArgumentParser(formatter_class=argparse.RawTextHelpFormatter,
+            description='''This script calculates the average amino acid identity using k-mers\n'''
+                        '''from single copy genes. It is a faster version of the regular AAI '''
+                        '''(Blast or Diamond) and the hAAI implemented in MiGA.'''
+            '''Usage: ''' + argv[0] + ''' -p [Protein Files] -t [Threads] -o [Output]\n'''
+            '''Global mandatory parameters: -g [Genome Files] OR -p [Protein Files] OR -s [SCG HMM Results] -o [AAI Table Output]\n'''
+            '''Optional Database Parameters: See ''' + argv[0] + ' -h')
+    mandatory_options = parser.add_argument_group('Mandatory i/o options. You must select an option for the queries and one for the references.')
+    mandatory_options.add_argument('--qg', dest='query_genomes', action='store', required=False,
+                                    help='File with list of query genomes.')
+    mandatory_options.add_argument('--qp', dest='query_proteins', action='store', required=False,
+                                    help='File with list of query proteins.')
+    mandatory_options.add_argument('--qh', dest='query_hmms', action='store', required=False,
+                                    help=textwrap.dedent('''
+                                    File with list of pre-computed query hmmsearch results.
+                                    If you select this option you must also provide a file with
+                                    a list of protein files for the queries (with --qp).
+                                    '''))
+    mandatory_options.add_argument('--qd', dest='query_database', action='store', required=False,
+                                    help='File with list of pre-indexed query databases.')
+    mandatory_options.add_argument('--rg', dest='reference_genomes', action='store', required=False,
+                                    help='File with list of reference genomes.')
+    mandatory_options.add_argument('--rp', dest='reference_proteins', action='store', required=False,
+                                    help='File with list of reference proteins.')
+    mandatory_options.add_argument('--rh', dest='reference_hmms', action='store', required=False,
+                                    help=textwrap.dedent('''
+                                    File with list of pre-computed reference hmmsearch results.
+                                    If you select this option you must also provide a file with
+                                    a list of protein files for the references (with --qp).
+                                    '''))
+    mandatory_options.add_argument('--rd', dest='reference_database', action='store', required=False,
+                                    help='File with list of pre-indexed reference databases.')
+    mandatory_options.add_argument('-o', '--output', dest='output', action='store', required=False, help='Output file. By default kaai_comparisons.txt')
+    additional_input_options = parser.add_argument_group('Behavior modification options.')
+    additional_input_options.add_argument('-e', '--ext', dest='extension', action='store', required=False,
+                                            help='Extension to remove from original filename, e.g. ".fasta"')
+    additional_input_options.add_argument('-i', '--index', dest='index_db', action='store_true', required=False,
+                                            help='Only index and store databases, i.e., do not perform comparisons.')
+    additional_input_options.add_argument('-a', '--all-vs-all', dest='all_vs_all',
+                                    action='store_true', required=False,
+                                    help='Perform all-vs-all comparison, using only query input.')
+    additional_input_options.add_argument('--input-paths', dest='input_paths',
+                                    action='store_true', required=False,
+                                    help='The input files are direct paths to the data, not lists of files.')
+    misc_options = parser.add_argument_group('Miscellaneous options')
+    misc_options.add_argument('--virus', dest='virus', action='store_true', required=False,
+                                help='Toggle virus-virus comparisons. Use only with viral genomes or proteins.')
+    misc_options.add_argument('-t', '--threads', dest='threads', action='store', default=1, type=int, required=False,
+                                help='Number of threads to use, by default 1')
+    misc_options.add_argument('-k', '--keep', dest='keep', action='store_false', required=False,
+                                help='Keep intermediate files, by default true')
+    args = parser.parse_args()
+    query_genomes = args.query_genomes
+    query_proteins = args.query_proteins
+    query_hmms = args.query_hmms
+    query_database = args.query_database
+    if args.all_vs_all:
+        reference_genomes = query_genomes
+        reference_proteins = query_proteins
+        reference_hmms = query_hmms
+        reference_database = query_database
+    else:
+        reference_genomes = args.reference_genomes
+        reference_proteins = args.reference_proteins
+        reference_hmms = args.reference_hmms
+        reference_database = args.reference_database
+    output = args.output
+    if output == None:
+        output == "kaai_comparisons.txt"
+    extension = args.extension
+    index_db = args.index_db
+    threads = args.threads
+    keep = args.keep
+    virus = args.virus
+    input_paths = args.input_paths
+    print("FastAAI started on {}".format(datetime.datetime.now()))
+    # Check user input
+    # ------------------------------------------------------
+    # Check if no query was provided
+    if query_genomes == None and query_proteins == None and query_hmms == None and query_database == None:
+        exit('Please prove a file with a list of queries, e.g., --qg, --qp, --qh, or --qd)')
+    # Check query inputs
+    query_input = None
+    if query_hmms != None:
+        if virus == True:
+            exit("If you are comparing viruses, please start from the genome or protein files.")
+        query_input = query_hmms
+        if query_proteins != None:
+            print("Starting from query hmmsearch results.")
+            print("You also provided the list of protein files used for hmmsearch.")
+        elif query_proteins == None:
+            print("You chose to start from pre-computed hmmsearch results for your queries (--qh).")
+            print("However, I also need the location of the query proteins used for hmmsearch.")
+            exit("Please provide them with --qp.")
+    elif query_proteins != None:
+        query_input = query_proteins
+        print("Starting from query proteins.")
+    elif query_genomes != None:
+        query_input = query_genomes
+        print("Starting from query genomes.")
+    elif query_database != None:
+        query_input = query_database
+        print("Starting from the pre-indexed query database.")
+    # Check if no reference was provided
+    if reference_genomes == None and reference_proteins == None and reference_hmms == None and reference_database == None:
+        exit('Please prove a file with a list of references, e.g., --rg, --rp, --rh, or --rd)')
+    # Check reference inputs
+    reference_input = None
+    if reference_hmms != None:
+        if virus == True:
+            exit("If you are comparing viruses, please start from the genome or protein files.")
+        reference_input = reference_hmms
+        if reference_proteins != None:
+            print("Starting from reference hmmsearch results.")
+            print("You also provided the list of protein files used for hmmsearch.")
+        elif reference_proteins == None:
+            print("You chose to start from pre-computed hmmsearch results for your references (--rh).")
+            print("However, I also need the location of the query proteins used for hmmsearch.")
+            exit("Please provide them with --rp.")
+    elif reference_proteins != None:
+        reference_input = reference_proteins
+        print("Starting from reference proteins.")
+    elif reference_genomes != None:
+        reference_input = reference_genomes
+        print("Starting from reference genomes.")
+    elif reference_database != None:
+        reference_input = reference_database
+        print("Starting from the pre-indexed reference database.")
+    # ------------------------------------------------------
+    # Create temporal working directory
+    temporal_working_directory = TemporaryDirectory()
+    # ------------------------------------------------------
+    # Check if queries are the same as references (an all-vs-all comparison)
+    # ------------------------------------------------------
+    same_inputs = False
+    if query_input == reference_input:
+        same_inputs = True
+    if same_inputs == True:
+        print('You specified the same query and reference files.')
+        print('I will perform an all vs all comparison :)')
+    # ------------------------------------------------------
+    #* Database Parsing is the same regardless of bacterial or viral genomes
+    # If using pre-indexed databases, check if they are valid files.
+    # ------------------------------------------------------
+    # If any of the starting points is from database, then store the
+    # kmer structures in the corresponding dictionaries.
+    # Otherwise read the file list and get the filenames
+    query_kmer_dict = None
+    query_kmer_dict_list = []
+    reference_kmer_dict = None
+    reference_kmer_dict_list = []
+    query_database_files = []
+    reference_database_files = []
+    if query_database != None:
+        if input_paths == True:
+            query_database_files.append(query_database)
+        else:
+            with open(query_database) as database_files:
+                for db_location in database_files:
+                    query_database_files.append(db_location)
+    if reference_database != None:
+        if input_paths == True:
+            reference_database_files.append(reference_database)
+        else:
+            with open(reference_database) as database_files:
+                for db_location in database_files:
+                    reference_database_files.append(db_location)
+    # If starting from database and query == reference
+    if same_inputs == True:
+        if query_database != None:
+            for db_location in query_database_files:
+                if Path(db_location.strip()).is_file():
+                    with gzip.open(db_location.strip(), 'rb') as database_handle:
+                        temp_dict = pickle.load(database_handle)
+                        if isinstance(temp_dict,dict):
+                            query_kmer_dict_list.append(temp_dict)
+                                                            #Carlos, this line serves no purpose but does take a bunch of time and mem.
+                            #print(query_kmer_dict_list)
+                        else:
+                            exit("One of the database files appear to have the wrong format. Please provide a correctly formated database.")
+            query_kmer_dict = merge_dicts(query_kmer_dict_list)
+    else:
+    # If the inputs are not the same:
+        # If query and ref are provided
+        if query_database != None and reference_database != None:
+            for db_location in query_database_files:
+                if Path(db_location.strip()).is_file():
+                    with gzip.open(db_location.strip(), 'rb') as database_handle:
+                        temp_dict = pickle.load(database_handle)
+                        if isinstance(temp_dict,dict):
+                            query_kmer_dict_list.append(temp_dict)
+                        else:
+                            exit("One of the query database files appear to have the wrong format. Please provide a correctly formated database.")
+            query_kmer_dict = merge_dicts(query_kmer_dict_list)
+            for db_location in reference_database_files:
+                if Path(db_location.strip()).is_file():
+                    with gzip.open(db_location.strip(), 'rb') as database_handle:
+                        temp_dict = pickle.load(database_handle)
+                        if isinstance(temp_dict,dict):
+                            reference_kmer_dict_list.append(temp_dict)
+                        else:
+                            exit("One of the reference database files appear to have the wrong format. Please provide a correctly formated database.")
+            reference_kmer_dict = merge_dicts(reference_kmer_dict_list)
+        # If only the query has a db
+        elif query_database != None and reference_database == None:
+            for db_location in query_database_files:
+                if Path(db_location.strip()).is_file():
+                    with gzip.open(db_location.strip(), 'rb') as database_handle:
+                        temp_dict = pickle.load(database_handle)
+                        if isinstance(temp_dict,dict):
+                            query_kmer_dict_list.append(temp_dict)
+                        else:
+                            exit("One of the query database files appear to have the wrong format. Please provide a correctly formated database.")
+            query_kmer_dict = merge_dicts(query_kmer_dict_list)
+        # If only the reference has a db
+        elif query_database == None and reference_database != None:
+            for db_location in reference_database_files:
+                if Path(db_location.strip()).is_file():
+                    with gzip.open(db_location.strip(), 'rb') as database_handle:
+                        temp_dict = pickle.load(database_handle)
+                        if isinstance(temp_dict,dict):
+                            reference_kmer_dict_list.append(temp_dict)
+                        else:
+                            exit("One of the reference database files appear to have the wrong format. Please provide a correctly formated database.")
+            reference_kmer_dict = merge_dicts(reference_kmer_dict_list)
+    # ------------------------------------------------------
+    # Get files from the query and reference lists and then
+    # create a dictionary with resulting filenames and a list with dictionary keys
+    # The structure of the dictionary is:
+    # original_query, proteins, hmms, filtered_hmms
+    # ------------------------------------------------------
+    # First parse the query:
+    query_list = []
+    query_file_names = {}
+    # For bacterial genomes
+    if virus == False:
+        if query_database != None:
+            pass
+        else:
+            if input_paths == True:
+              query_list.append(query_input)
+            else:
+                with open(query_input, 'r') as query_input_fh:
+                    for line in query_input_fh:
+                        query_list.append(line.strip())
+            for index, query in enumerate(query_list):
+                query_name = str(Path(query).name)
+                if extension != None:
+                    query_name = query_name.replace(extension, "")
+                if query_hmms != None:
+                    query_protein_list = []
+                    with open(query_proteins, 'r') as query_protein_fh:
+                        for line in query_protein_fh:
+                            query_protein_list.append(line.strip())
+                    query_file_names[query_name] = [None, query_protein_list[index], query, query + '.filt']
+                elif query_proteins != None:
+                    query_file_names[query_name] = [None, query, query + '.hmm', query + '.hmm.filt']
+                elif query_genomes != None:
+                    query_file_names[query_name] = [query, query + '.faa', query + '.faa.hmm', query + '.faa.hmm.filt']
+    # For viral genomes
+    else:
+        if query_database != None:
+            pass
+        else:
+            if input_paths == True:
+              query_list.append(query_input)
+            else:
+                with open(query_input, 'r') as query_input_fh:
+                    for line in query_input_fh:
+                        query_list.append(line.strip())
+            for index, query in enumerate(query_list):
+                query_name = str(Path(query).name)
+                if extension != None:
+                    query_name = query_name.replace(extension, "")
+                if query_proteins != None:
+                    query_file_names[query_name] = [None, query]
+                elif query_genomes != None:
+                    query_file_names[query_name] = [query, query + '.faa']
+    # Then parse the references:
+    reference_list = []
+    reference_file_names = {}
+    if same_inputs == True:
+            pass
+    else:
+        # For bacterial genomes
+        if virus == False:
+            if reference_database != None:
+                pass
+            else:
+                if input_paths == True:
+                    reference_list.append(reference_input)
+                else:
+                    with open(reference_input, 'r') as reference_input_fh:
+                        for line in reference_input_fh:
+                            reference_list.append(line.strip())
+                for index, reference in enumerate(reference_list):
+                    reference_name = str(Path(reference).name)
+                    if extension != None:
+                        reference_name = reference_name.replace(extension, "")
+                    if reference_hmms != None:
+                        reference_protein_list = []
+                        with open(reference_proteins, 'r') as reference_protein_fh:
+                            for line in reference_protein_fh:
+                                reference_protein_list.append(line.strip())
+                        reference_file_names[reference_name] = [None, reference_protein_list[index], reference, reference + '.filt']
+                    elif reference_proteins != None:
+                        reference_file_names[reference_name] = [None, reference, reference + '.hmm', reference + '.hmm.filt']
+                    elif query_genomes != None:
+                        reference_file_names[reference_name] = [reference, reference + '.faa', reference + '.faa.hmm', reference + '.faa.hmm.filt']
+        # For viral genomes
+        else:
+            if reference_database != None:
+                pass
+            else:
+                if input_paths == True:
+                    reference_list.append(reference_input)
+                else:
+                    with open(reference_input, 'r') as reference_input_fh:
+                        for line in reference_input_fh:
+                            reference_list.append(line.strip())
+                for index, reference in enumerate(reference_list):
+                    reference_name = str(Path(reference).name)
+                    if extension != None:
+                        reference_name = reference_name.replace(extension, "")
+                    if reference_proteins != None:
+                        reference_file_names[reference_name] = [None, reference]
+                    elif query_genomes != None:
+                        reference_file_names[reference_name] = [reference, reference + '.faa']
+    # ------------------------------------------------------
+    # Pre-index and store databases
+    # ------------------------------------------------------
+    # Pre-index queries
+    if query_kmer_dict == None:
+        print("Processing queries...")
+        # If using bacterial genomes
+        if virus == False:
+            if query_hmms != None:
+                query_hmm_results = query_list
+            elif query_proteins != None:
+                query_protein_files = query_list
+                print("Searching against HMM models...")
+                try:
+                    pool = multiprocessing.Pool(threads)
+                    query_hmm_results = pool.map(run_hmmsearch, query_protein_files)
+                finally:
+                    pool.close()
+                    pool.join()
+            elif query_genomes != None:
+                print("Predicting proteins...")
+                # Predict query proteins
+                try:
+                    pool = multiprocessing.Pool(threads)
+                    query_protein_files = pool.map(run_prodigal, query_list)
+                finally:
+                    pool.close()
+                    pool.join()
+                print("Done!")
+                print("Searching against HMM models...")
+                # Run hmmsearch against proteins predicted
+                try:
+                    pool = multiprocessing.Pool(threads)
+                    query_hmm_results = pool.map(run_hmmsearch, query_protein_files)
+                finally:
+                    pool.close()
+                    pool.join()
+                print("Done!")
+            print("Filtering query hmmsearch results...")
+            # Filter query HMM search results
+            try:
+                pool = multiprocessing.Pool(threads)
+                pool.map(partial(hmm_filter, keep=keep), query_hmm_results)
+            finally:
+                pool.close()
+                pool.join()
+            print("Extracting kmers from query proteins...")
+            # Finding kmers for all queries
+            query_information = []
+            for name, values in query_file_names.items():
+                query_information.append((name, values[1], values[3]))
+            try:
+                pool = multiprocessing.Pool(threads)
+                kmer_results = pool.map(kmer_extract, query_information)
+            finally:
+                pool.close()
+                pool.join()
+            query_kmer_dict = merge_dicts(kmer_results)
+            del kmer_results
+        # If using viral genomes
+        else:
+            if query_genomes != None:
+                print("Predicting proteins...")
+                # Predict query proteins
+                try:
+                    pool = multiprocessing.Pool(threads)
+                    query_protein_files = pool.map(run_prodigal_virus, query_list)
+                finally:
+                    pool.close()
+                    pool.join()
+                print("Done!")
+            elif query_proteins != None:
+                query_protein_files = query_list
+            print("Extracting kmers from query proteins...")
+            query_information = []
+            for name, values in query_file_names.items():
+                query_information.append((name, values[1], 4))
+            try:
+                pool = multiprocessing.Pool(threads)
+                kmer_results = pool.map(read_viral_kmers_from_file, query_information)
+            finally:
+                pool.close()
+                pool.join()
+            query_kmer_dict = merge_dicts(kmer_results)
+            del kmer_results
+    # Pre-index references (if different from queries)
+    if same_inputs == False and reference_kmer_dict == None:
+        print("Processing references...")
+        # If using bacterial genomes
+        if virus == False:
+            if reference_hmms != None:
+                reference_hmm_results = reference_list
+            elif reference_proteins != None:
+                reference_protein_files = reference_list
+                print("Searching against HMM models...   ")
+                try:
+                    pool = multiprocessing.Pool(threads)
+                    reference_hmm_results = pool.map(run_hmmsearch, reference_protein_files)
+                finally:
+                    pool.close()
+                    pool.join()
+            if reference_genomes != None:
+                print("Predicting proteins...")
+                # Predict reference proteins
+                try:
+                    pool = multiprocessing.Pool(threads)
+                    reference_protein_files = pool.map(run_prodigal, reference_list)
+                finally:
+                    pool.close()
+                    pool.join()
+                print("Done!")
+                print("Searching against HMM models...")
+                # Run hmmsearch against proteins predicted
+                try:
+                    pool = multiprocessing.Pool(threads)
+                    reference_hmm_results = pool.map(run_hmmsearch, reference_protein_files)
+                finally:
+                    pool.close()
+                    pool.join()
+                print("Done!")
+            print("Filtering reference hmmsearch results...")
+            # Filter reference HMM search results
+            try:
+                pool = multiprocessing.Pool(threads)
+                pool.map(partial(hmm_filter, keep=keep), reference_hmm_results)
+            finally:
+                pool.close()
+                pool.join()
+            print("Extracting kmers from reference proteins...")
+            # Finding kmers for all queries
+            reference_information = []
+            for name, values in reference_file_names.items():
+                reference_information.append((name, values[1], values[3]))
+            try:
+                pool = multiprocessing.Pool(threads)
+                kmer_results = pool.map(kmer_extract, reference_information)
+            finally:
+                pool.close()
+                pool.join()
+            reference_kmer_dict = merge_dicts(kmer_results)
+            del kmer_results
+        # If using viral genomes
+        else:
+            if query_genomes != None:
+                print("Predicting proteins...")
+                # Predict query proteins
+                try:
+                    pool = multiprocessing.Pool(threads)
+                    query_protein_files = pool.map(run_prodigal, query_list)
+                finally:
+                    pool.close()
+                    pool.join()
+                print("Done!")
+            elif query_proteins != None:
+                query_protein_files = query_list
+            print("Extracting kmers from query proteins...")
+            reference_information = []
+            for name, values in reference_file_names.items():
+                reference_information.append((name, values[1], 4))
+            try:
+                pool = multiprocessing.Pool(threads)
+                kmer_results = pool.map(read_viral_kmers_from_file, reference_information)
+            finally:
+                pool.close()
+                pool.join()
+            reference_kmer_dict = merge_dicts(kmer_results)
+            del kmer_results
+    # ------------------------------------------------------
+    # Create or database(s) and compress it(them)
+    # ------------------------------------------------------
+    if same_inputs == True and query_database == None:
+        print("Saving pre-indexed database...")
+        query_database_name = query_input + '.db.gz'
+        with gzip.open(query_database_name, 'wb') as database_handle:
+            pickle.dump(query_kmer_dict, database_handle, protocol=4)
+    if same_inputs == False and query_database == None and reference_database == None:
+        print("Saving pre-indexed databases...")
+        query_database_name = query_input + '.db.gz'
+        reference_database_name = reference_input + '.db.gz'
+        with gzip.open(query_database_name, 'wb') as database_handle:
+            pickle.dump(query_kmer_dict, database_handle, protocol=4)
+        with gzip.open(reference_database_name, 'wb') as database_handle:
+            pickle.dump(reference_kmer_dict, database_handle, protocol=4)
+    elif same_inputs == False and query_database == None:
+        print("Saving pre-indexed query database...")
+        query_database_name = query_input + '.db.gz'
+        with gzip.open(query_database_name, 'wb') as database_handle:
+            pickle.dump(query_kmer_dict, database_handle, protocol=4)
+    elif same_inputs == False and reference_database == None:
+        print("Saving pre-indexed reference database...")
+        reference_database_name = reference_input + '.db.gz'
+        with gzip.open(reference_database_name, 'wb') as database_handle:
+            pickle.dump(reference_kmer_dict, database_handle, protocol=4)
+    # ------------------------------------------------------
+    # Calculate Jaccard distances
+    # ------------------------------------------------------
+    if index_db == True:
+        print("Finished pre-indexing databases.")
+        print("Next time you can run the program using only these files with --qd and(or) --rd.")
+    else:
+        print("Calculating shared kmer fraction...")
+        if virus == False:
+            if same_inputs == True:
+                # Create global kmer index dictionary "global_kmer_index_dictionary"
+                print(temporal_working_directory)
+                global_unique_kmers([query_kmer_dict])
+                query_kmer_dict, query_smart_args_tempdir = transform_kmer_dicts_to_arrays(query_kmer_dict, temporal_working_directory, single_dataset=True)
+                print("Beginning FastAAI pairwise calculations now.")
+                try:
+                    pool = multiprocessing.Pool(threads, initializer = single_dictionary_initializer, initargs = (query_kmer_dict,))
+                    Fraction_Results = pool.map(single_kaai_parser, query_smart_args_tempdir)
+                finally:
+                    pool.close()
+                    pool.join()
+            else:
+                print(temporal_working_directory)
+                global_unique_kmers([query_kmer_dict, reference_kmer_dict])
+                query_kmer_dict, query_smart_args_tempdir = transform_kmer_dicts_to_arrays(query_kmer_dict, temporal_working_directory, single_dataset=False)
+                reference_kmer_dict, _ref_smart_args_tempdir = transform_kmer_dicts_to_arrays(reference_kmer_dict, temporal_working_directory, single_dataset=False)
+                print("Beginning FastAAI pairwise calculations now.")
+                try:
+                    pool = multiprocessing.Pool(threads, initializer = two_dictionary_initializer, initargs = (query_kmer_dict, reference_kmer_dict))
+                    Fraction_Results = pool.map(double_kaai_parser, query_smart_args_tempdir)
+                finally:
+                    pool.close()
+                    pool.join()
+        else:
+            if same_inputs == True:
+                print(temporal_working_directory)
+                global_unique_viral_kmers([query_kmer_dict])
+                query_kmer_dict, query_smart_args_tempdir = transform_viral_kmer_dicts_to_arrays(query_kmer_dict, temporal_working_directory, single_dataset=True)
+                print("Beginning FastAAI pairwise calculations now.")
+                try:
+                    pool = multiprocessing.Pool(threads, initializer = single_dictionary_initializer, initargs = (query_kmer_dict,))
+                    Fraction_Results = pool.map(single_virus_kaai_parser, query_smart_args_tempdir)
+                finally:
+                    pool.close()
+                    pool.join()
+            else:
+                print(temporal_working_directory)
+                global_unique_viral_kmers([query_kmer_dict, reference_kmer_dict])
+                query_kmer_dict, query_smart_args_tempdir = transform_viral_kmer_dicts_to_arrays(query_kmer_dict, temporal_working_directory, single_dataset=False)
+                reference_kmer_dict, _ref_smart_args_tempdir = transform_viral_kmer_dicts_to_arrays(reference_kmer_dict, temporal_working_directory, single_dataset=False)
+                print("Beginning FastAAI pairwise calculations now.")
+                try:
+                    pool = multiprocessing.Pool(threads, initializer = two_dictionary_initializer, initargs = (query_kmer_dict, reference_kmer_dict))
+                    Fraction_Results = pool.map(double_viral_kaai_parser, query_smart_args_tempdir)
+                finally:
+                    pool.close()
+                    pool.join()
+    # ------------------------------------------------------
+    # Merge results into a single output
+    # ------------------------------------------------------
+        print("Merging results...")
+        print(temporal_working_directory)
+        with open(output, 'w') as outfile:
+            for file in Fraction_Results:
+                with open(file) as Temp:
+                    shutil.copyfileobj(Temp, outfile)
+                file.unlink()
+        print("FastAAI finishied correctly on {}".format(datetime.datetime.now()))
+    # ------------------------------------------------------
+    # If comparing viral genomes
+if __name__ == "__main__":
+    main()