RubyGems - miga-base - Versions diffs - 0.7.25.2 → 0.7.25.3 - Mend

miga-base 0.7.25.2 → 0.7.25.3

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (277) hide show

checksums.yaml +4 -4
data/lib/miga/version.rb +2 -2
data/utils/distance/runner.rb +2 -1
metadata +5 -278
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Archaea_SCG.hmm +0 -41964
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Bacteria_SCG.hmm +0 -32439
data/utils/FastAAI/00.Libraries/01.SCG_HMMs/Complete_SCG_DB.hmm +0 -62056
data/utils/FastAAI/FastAAI/FastAAI +0 -1336
data/utils/FastAAI/README.md +0 -84
data/utils/FastAAI/kAAI_v1.0_virus.py +0 -1296
data/utils/enveomics/Docs/recplot2.md +0 -244
data/utils/enveomics/Examples/aai-matrix.bash +0 -66
data/utils/enveomics/Examples/ani-matrix.bash +0 -66
data/utils/enveomics/Examples/essential-phylogeny.bash +0 -105
data/utils/enveomics/Examples/unus-genome-phylogeny.bash +0 -100
data/utils/enveomics/LICENSE.txt +0 -73
data/utils/enveomics/Makefile +0 -52
data/utils/enveomics/Manifest/Tasks/aasubs.json +0 -103
data/utils/enveomics/Manifest/Tasks/blasttab.json +0 -786
data/utils/enveomics/Manifest/Tasks/distances.json +0 -161
data/utils/enveomics/Manifest/Tasks/fasta.json +0 -766
data/utils/enveomics/Manifest/Tasks/fastq.json +0 -243
data/utils/enveomics/Manifest/Tasks/graphics.json +0 -126
data/utils/enveomics/Manifest/Tasks/mapping.json +0 -67
data/utils/enveomics/Manifest/Tasks/ogs.json +0 -382
data/utils/enveomics/Manifest/Tasks/other.json +0 -829
data/utils/enveomics/Manifest/Tasks/remote.json +0 -355
data/utils/enveomics/Manifest/Tasks/sequence-identity.json +0 -501
data/utils/enveomics/Manifest/Tasks/tables.json +0 -308
data/utils/enveomics/Manifest/Tasks/trees.json +0 -68
data/utils/enveomics/Manifest/Tasks/variants.json +0 -111
data/utils/enveomics/Manifest/categories.json +0 -156
data/utils/enveomics/Manifest/examples.json +0 -154
data/utils/enveomics/Manifest/tasks.json +0 -4
data/utils/enveomics/Pipelines/assembly.pbs/CONFIG.mock.bash +0 -69
data/utils/enveomics/Pipelines/assembly.pbs/FastA.N50.pl +0 -1
data/utils/enveomics/Pipelines/assembly.pbs/FastA.filterN.pl +0 -1
data/utils/enveomics/Pipelines/assembly.pbs/FastA.length.pl +0 -1
data/utils/enveomics/Pipelines/assembly.pbs/README.md +0 -189
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-2.bash +0 -112
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-3.bash +0 -23
data/utils/enveomics/Pipelines/assembly.pbs/RUNME-4.bash +0 -44
data/utils/enveomics/Pipelines/assembly.pbs/RUNME.bash +0 -50
data/utils/enveomics/Pipelines/assembly.pbs/kSelector.R +0 -37
data/utils/enveomics/Pipelines/assembly.pbs/newbler.pbs +0 -68
data/utils/enveomics/Pipelines/assembly.pbs/newbler_preparator.pl +0 -49
data/utils/enveomics/Pipelines/assembly.pbs/soap.pbs +0 -80
data/utils/enveomics/Pipelines/assembly.pbs/stats.pbs +0 -57
data/utils/enveomics/Pipelines/assembly.pbs/velvet.pbs +0 -63
data/utils/enveomics/Pipelines/blast.pbs/01.pbs.bash +0 -38
data/utils/enveomics/Pipelines/blast.pbs/02.pbs.bash +0 -73
data/utils/enveomics/Pipelines/blast.pbs/03.pbs.bash +0 -21
data/utils/enveomics/Pipelines/blast.pbs/BlastTab.recover_job.pl +0 -72
data/utils/enveomics/Pipelines/blast.pbs/CONFIG.mock.bash +0 -98
data/utils/enveomics/Pipelines/blast.pbs/FastA.split.pl +0 -1
data/utils/enveomics/Pipelines/blast.pbs/README.md +0 -127
data/utils/enveomics/Pipelines/blast.pbs/RUNME.bash +0 -109
data/utils/enveomics/Pipelines/blast.pbs/TASK.check.bash +0 -128
data/utils/enveomics/Pipelines/blast.pbs/TASK.dry.bash +0 -16
data/utils/enveomics/Pipelines/blast.pbs/TASK.eo.bash +0 -22
data/utils/enveomics/Pipelines/blast.pbs/TASK.pause.bash +0 -26
data/utils/enveomics/Pipelines/blast.pbs/TASK.run.bash +0 -89
data/utils/enveomics/Pipelines/blast.pbs/sentinel.pbs.bash +0 -29
data/utils/enveomics/Pipelines/idba.pbs/README.md +0 -49
data/utils/enveomics/Pipelines/idba.pbs/RUNME.bash +0 -95
data/utils/enveomics/Pipelines/idba.pbs/run.pbs +0 -56
data/utils/enveomics/Pipelines/trim.pbs/README.md +0 -54
data/utils/enveomics/Pipelines/trim.pbs/RUNME.bash +0 -70
data/utils/enveomics/Pipelines/trim.pbs/run.pbs +0 -130
data/utils/enveomics/README.md +0 -42
data/utils/enveomics/Scripts/AAsubs.log2ratio.rb +0 -171
data/utils/enveomics/Scripts/Aln.cat.rb +0 -163
data/utils/enveomics/Scripts/Aln.convert.pl +0 -35
data/utils/enveomics/Scripts/AlphaDiversity.pl +0 -152
data/utils/enveomics/Scripts/BedGraph.tad.rb +0 -93
data/utils/enveomics/Scripts/BedGraph.window.rb +0 -71
data/utils/enveomics/Scripts/BlastPairwise.AAsubs.pl +0 -102
data/utils/enveomics/Scripts/BlastTab.addlen.rb +0 -63
data/utils/enveomics/Scripts/BlastTab.advance.bash +0 -48
data/utils/enveomics/Scripts/BlastTab.best_hit_sorted.pl +0 -55
data/utils/enveomics/Scripts/BlastTab.catsbj.pl +0 -104
data/utils/enveomics/Scripts/BlastTab.cogCat.rb +0 -76
data/utils/enveomics/Scripts/BlastTab.filter.pl +0 -47
data/utils/enveomics/Scripts/BlastTab.kegg_pep2path_rest.pl +0 -194
data/utils/enveomics/Scripts/BlastTab.metaxaPrep.pl +0 -104
data/utils/enveomics/Scripts/BlastTab.pairedHits.rb +0 -157
data/utils/enveomics/Scripts/BlastTab.recplot2.R +0 -48
data/utils/enveomics/Scripts/BlastTab.seqdepth.pl +0 -86
data/utils/enveomics/Scripts/BlastTab.seqdepth_ZIP.pl +0 -119
data/utils/enveomics/Scripts/BlastTab.seqdepth_nomedian.pl +0 -86
data/utils/enveomics/Scripts/BlastTab.subsample.pl +0 -47
data/utils/enveomics/Scripts/BlastTab.sumPerHit.pl +0 -114
data/utils/enveomics/Scripts/BlastTab.taxid2taxrank.pl +0 -90
data/utils/enveomics/Scripts/BlastTab.topHits_sorted.rb +0 -101
data/utils/enveomics/Scripts/Chao1.pl +0 -97
data/utils/enveomics/Scripts/CharTable.classify.rb +0 -234
data/utils/enveomics/Scripts/EBIseq2tax.rb +0 -83
data/utils/enveomics/Scripts/FastA.N50.pl +0 -56
data/utils/enveomics/Scripts/FastA.extract.rb +0 -152
data/utils/enveomics/Scripts/FastA.filter.pl +0 -52
data/utils/enveomics/Scripts/FastA.filterLen.pl +0 -28
data/utils/enveomics/Scripts/FastA.filterN.pl +0 -60
data/utils/enveomics/Scripts/FastA.fragment.rb +0 -92
data/utils/enveomics/Scripts/FastA.gc.pl +0 -42
data/utils/enveomics/Scripts/FastA.interpose.pl +0 -93
data/utils/enveomics/Scripts/FastA.length.pl +0 -38
data/utils/enveomics/Scripts/FastA.mask.rb +0 -89
data/utils/enveomics/Scripts/FastA.per_file.pl +0 -36
data/utils/enveomics/Scripts/FastA.qlen.pl +0 -57
data/utils/enveomics/Scripts/FastA.rename.pl +0 -65
data/utils/enveomics/Scripts/FastA.revcom.pl +0 -23
data/utils/enveomics/Scripts/FastA.sample.rb +0 -83
data/utils/enveomics/Scripts/FastA.slider.pl +0 -85
data/utils/enveomics/Scripts/FastA.split.pl +0 -55
data/utils/enveomics/Scripts/FastA.split.rb +0 -79
data/utils/enveomics/Scripts/FastA.subsample.pl +0 -131
data/utils/enveomics/Scripts/FastA.tag.rb +0 -65
data/utils/enveomics/Scripts/FastA.wrap.rb +0 -48
data/utils/enveomics/Scripts/FastQ.filter.pl +0 -54
data/utils/enveomics/Scripts/FastQ.interpose.pl +0 -90
data/utils/enveomics/Scripts/FastQ.offset.pl +0 -90
data/utils/enveomics/Scripts/FastQ.split.pl +0 -53
data/utils/enveomics/Scripts/FastQ.tag.rb +0 -63
data/utils/enveomics/Scripts/FastQ.test-error.rb +0 -81
data/utils/enveomics/Scripts/FastQ.toFastA.awk +0 -24
data/utils/enveomics/Scripts/GFF.catsbj.pl +0 -127
data/utils/enveomics/Scripts/GenBank.add_fields.rb +0 -84
data/utils/enveomics/Scripts/HMM.essential.rb +0 -351
data/utils/enveomics/Scripts/HMM.haai.rb +0 -168
data/utils/enveomics/Scripts/HMMsearch.extractIds.rb +0 -83
data/utils/enveomics/Scripts/JPlace.distances.rb +0 -88
data/utils/enveomics/Scripts/JPlace.to_iToL.rb +0 -320
data/utils/enveomics/Scripts/M5nr.getSequences.rb +0 -81
data/utils/enveomics/Scripts/MeTaxa.distribution.pl +0 -198
data/utils/enveomics/Scripts/MyTaxa.fragsByTax.pl +0 -35
data/utils/enveomics/Scripts/MyTaxa.seq-taxrank.rb +0 -49
data/utils/enveomics/Scripts/NCBIacc2tax.rb +0 -92
data/utils/enveomics/Scripts/Newick.autoprune.R +0 -27
data/utils/enveomics/Scripts/RAxML-EPA.to_iToL.pl +0 -228
data/utils/enveomics/Scripts/RecPlot2.compareIdentities.R +0 -32
data/utils/enveomics/Scripts/RefSeq.download.bash +0 -48
data/utils/enveomics/Scripts/SRA.download.bash +0 -57
data/utils/enveomics/Scripts/TRIBS.plot-test.R +0 -36
data/utils/enveomics/Scripts/TRIBS.test.R +0 -39
data/utils/enveomics/Scripts/Table.barplot.R +0 -31
data/utils/enveomics/Scripts/Table.df2dist.R +0 -30
data/utils/enveomics/Scripts/Table.filter.pl +0 -61
data/utils/enveomics/Scripts/Table.merge.pl +0 -77
data/utils/enveomics/Scripts/Table.replace.rb +0 -69
data/utils/enveomics/Scripts/Table.round.rb +0 -63
data/utils/enveomics/Scripts/Table.split.pl +0 -57
data/utils/enveomics/Scripts/Taxonomy.silva2ncbi.rb +0 -227
data/utils/enveomics/Scripts/VCF.KaKs.rb +0 -147
data/utils/enveomics/Scripts/VCF.SNPs.rb +0 -88
data/utils/enveomics/Scripts/aai.rb +0 -418
data/utils/enveomics/Scripts/ani.rb +0 -362
data/utils/enveomics/Scripts/clust.rand.rb +0 -102
data/utils/enveomics/Scripts/gi2tax.rb +0 -103
data/utils/enveomics/Scripts/in_silico_GA_GI.pl +0 -96
data/utils/enveomics/Scripts/lib/data/dupont_2012_essential.hmm.gz +0 -0
data/utils/enveomics/Scripts/lib/data/lee_2019_essential.hmm.gz +0 -0
data/utils/enveomics/Scripts/lib/enveomics.R +0 -1
data/utils/enveomics/Scripts/lib/enveomics_rb/enveomics.rb +0 -24
data/utils/enveomics/Scripts/lib/enveomics_rb/jplace.rb +0 -253
data/utils/enveomics/Scripts/lib/enveomics_rb/og.rb +0 -182
data/utils/enveomics/Scripts/lib/enveomics_rb/remote_data.rb +0 -74
data/utils/enveomics/Scripts/lib/enveomics_rb/seq_range.rb +0 -237
data/utils/enveomics/Scripts/lib/enveomics_rb/stat.rb +0 -30
data/utils/enveomics/Scripts/lib/enveomics_rb/vcf.rb +0 -135
data/utils/enveomics/Scripts/ogs.annotate.rb +0 -88
data/utils/enveomics/Scripts/ogs.core-pan.rb +0 -160
data/utils/enveomics/Scripts/ogs.extract.rb +0 -125
data/utils/enveomics/Scripts/ogs.mcl.rb +0 -186
data/utils/enveomics/Scripts/ogs.rb +0 -104
data/utils/enveomics/Scripts/ogs.stats.rb +0 -131
data/utils/enveomics/Scripts/rbm.rb +0 -146
data/utils/enveomics/Tests/Makefile +0 -10
data/utils/enveomics/Tests/Mgen_M2288.faa +0 -3189
data/utils/enveomics/Tests/Mgen_M2288.fna +0 -8282
data/utils/enveomics/Tests/Mgen_M2321.fna +0 -8288
data/utils/enveomics/Tests/Nequ_Kin4M.faa +0 -2970
data/utils/enveomics/Tests/Xanthomonas_oryzae-PilA.tribs.Rdata +0 -0
data/utils/enveomics/Tests/Xanthomonas_oryzae-PilA.txt +0 -7
data/utils/enveomics/Tests/Xanthomonas_oryzae.aai-mat.tsv +0 -17
data/utils/enveomics/Tests/Xanthomonas_oryzae.aai.tsv +0 -137
data/utils/enveomics/Tests/a_mg.cds-go.blast.tsv +0 -123
data/utils/enveomics/Tests/a_mg.reads-cds.blast.tsv +0 -200
data/utils/enveomics/Tests/a_mg.reads-cds.counts.tsv +0 -55
data/utils/enveomics/Tests/alkB.nwk +0 -1
data/utils/enveomics/Tests/anthrax-cansnp-data.tsv +0 -13
data/utils/enveomics/Tests/anthrax-cansnp-key.tsv +0 -17
data/utils/enveomics/Tests/hiv1.faa +0 -59
data/utils/enveomics/Tests/hiv1.fna +0 -134
data/utils/enveomics/Tests/hiv2.faa +0 -70
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv +0 -233
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv.lim +0 -1
data/utils/enveomics/Tests/hiv_mix-hiv1.blast.tsv.rec +0 -233
data/utils/enveomics/Tests/phyla_counts.tsv +0 -10
data/utils/enveomics/Tests/primate_lentivirus.ogs +0 -11
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-hiv1.rbm +0 -9
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-hiv2.rbm +0 -8
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv1-siv.rbm +0 -6
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv2-hiv2.rbm +0 -9
data/utils/enveomics/Tests/primate_lentivirus.rbm/hiv2-siv.rbm +0 -6
data/utils/enveomics/Tests/primate_lentivirus.rbm/siv-siv.rbm +0 -6
data/utils/enveomics/build_enveomics_r.bash +0 -45
data/utils/enveomics/enveomics.R/DESCRIPTION +0 -31
data/utils/enveomics/enveomics.R/NAMESPACE +0 -39
data/utils/enveomics/enveomics.R/R/autoprune.R +0 -155
data/utils/enveomics/enveomics.R/R/barplot.R +0 -184
data/utils/enveomics/enveomics.R/R/cliopts.R +0 -135
data/utils/enveomics/enveomics.R/R/df2dist.R +0 -154
data/utils/enveomics/enveomics.R/R/growthcurve.R +0 -331
data/utils/enveomics/enveomics.R/R/recplot.R +0 -354
data/utils/enveomics/enveomics.R/R/recplot2.R +0 -1631
data/utils/enveomics/enveomics.R/R/tribs.R +0 -583
data/utils/enveomics/enveomics.R/R/utils.R +0 -50
data/utils/enveomics/enveomics.R/README.md +0 -80
data/utils/enveomics/enveomics.R/data/growth.curves.rda +0 -0
data/utils/enveomics/enveomics.R/data/phyla.counts.rda +0 -0
data/utils/enveomics/enveomics.R/man/cash-enve.GrowthCurve-method.Rd +0 -17
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2-method.Rd +0 -17
data/utils/enveomics/enveomics.R/man/cash-enve.RecPlot2.Peak-method.Rd +0 -17
data/utils/enveomics/enveomics.R/man/enve.GrowthCurve-class.Rd +0 -25
data/utils/enveomics/enveomics.R/man/enve.TRIBS-class.Rd +0 -46
data/utils/enveomics/enveomics.R/man/enve.TRIBS.merge.Rd +0 -23
data/utils/enveomics/enveomics.R/man/enve.TRIBStest-class.Rd +0 -47
data/utils/enveomics/enveomics.R/man/enve.__prune.iter.Rd +0 -23
data/utils/enveomics/enveomics.R/man/enve.__prune.reduce.Rd +0 -23
data/utils/enveomics/enveomics.R/man/enve.__tribs.Rd +0 -32
data/utils/enveomics/enveomics.R/man/enve.barplot.Rd +0 -91
data/utils/enveomics/enveomics.R/man/enve.cliopts.Rd +0 -57
data/utils/enveomics/enveomics.R/man/enve.col.alpha.Rd +0 -24
data/utils/enveomics/enveomics.R/man/enve.col2alpha.Rd +0 -19
data/utils/enveomics/enveomics.R/man/enve.df2dist.Rd +0 -39
data/utils/enveomics/enveomics.R/man/enve.df2dist.group.Rd +0 -38
data/utils/enveomics/enveomics.R/man/enve.df2dist.list.Rd +0 -40
data/utils/enveomics/enveomics.R/man/enve.growthcurve.Rd +0 -67
data/utils/enveomics/enveomics.R/man/enve.prune.dist.Rd +0 -37
data/utils/enveomics/enveomics.R/man/enve.recplot.Rd +0 -122
data/utils/enveomics/enveomics.R/man/enve.recplot2-class.Rd +0 -45
data/utils/enveomics/enveomics.R/man/enve.recplot2.ANIr.Rd +0 -24
data/utils/enveomics/enveomics.R/man/enve.recplot2.Rd +0 -68
data/utils/enveomics/enveomics.R/man/enve.recplot2.__counts.Rd +0 -25
data/utils/enveomics/enveomics.R/man/enve.recplot2.__peakHist.Rd +0 -21
data/utils/enveomics/enveomics.R/man/enve.recplot2.__whichClosestPeak.Rd +0 -19
data/utils/enveomics/enveomics.R/man/enve.recplot2.changeCutoff.Rd +0 -19
data/utils/enveomics/enveomics.R/man/enve.recplot2.compareIdentities.Rd +0 -41
data/utils/enveomics/enveomics.R/man/enve.recplot2.coordinates.Rd +0 -29
data/utils/enveomics/enveomics.R/man/enve.recplot2.corePeak.Rd +0 -18
data/utils/enveomics/enveomics.R/man/enve.recplot2.extractWindows.Rd +0 -40
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.Rd +0 -36
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__em_e.Rd +0 -19
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__em_m.Rd +0 -19
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__emauto_one.Rd +0 -27
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__mow_one.Rd +0 -41
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.__mower.Rd +0 -17
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.em.Rd +0 -43
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.emauto.Rd +0 -37
data/utils/enveomics/enveomics.R/man/enve.recplot2.findPeaks.mower.Rd +0 -74
data/utils/enveomics/enveomics.R/man/enve.recplot2.peak-class.Rd +0 -59
data/utils/enveomics/enveomics.R/man/enve.recplot2.seqdepth.Rd +0 -27
data/utils/enveomics/enveomics.R/man/enve.recplot2.windowDepthThreshold.Rd +0 -32
data/utils/enveomics/enveomics.R/man/enve.tribs.Rd +0 -59
data/utils/enveomics/enveomics.R/man/enve.tribs.test.Rd +0 -28
data/utils/enveomics/enveomics.R/man/enve.truncate.Rd +0 -27
data/utils/enveomics/enveomics.R/man/growth.curves.Rd +0 -14
data/utils/enveomics/enveomics.R/man/phyla.counts.Rd +0 -13
data/utils/enveomics/enveomics.R/man/plot.enve.GrowthCurve.Rd +0 -63
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBS.Rd +0 -38
data/utils/enveomics/enveomics.R/man/plot.enve.TRIBStest.Rd +0 -38
data/utils/enveomics/enveomics.R/man/plot.enve.recplot2.Rd +0 -111
data/utils/enveomics/enveomics.R/man/summary.enve.GrowthCurve.Rd +0 -19
data/utils/enveomics/enveomics.R/man/summary.enve.TRIBS.Rd +0 -19
data/utils/enveomics/enveomics.R/man/summary.enve.TRIBStest.Rd +0 -19
data/utils/enveomics/globals.mk +0 -8
data/utils/enveomics/manifest.json +0 -9

data/utils/enveomics/Scripts/FastA.gc.pl DELETED Viewed

@@ -1,42 +0,0 @@
-#!/usr/bin/env perl
-#
-# @author  Luis M Rodriguez-R
-# @update  Mar-23-2016
-# @license artistic license 2.0
-#
-use warnings;
-use strict;
-$#ARGV>=0 or die "
-Usage:
-   $0 seqs.fa... > gc.txt
-   seqs.fa	One or more FastA files.
-   gc.txt	A table with the G+C content of the sequences.
-";
-for my $fa (@ARGV){
-   open FA, "<", $fa or die "Cannot open file: $fa: $!\n";
-   my $def = "";
-   my $len = 0;
-   my $gc  = 0;
-   while(<FA>){
-      next if /^;/;
-      if(m/^>(\S*)/){
-         print "$def\t".($gc/$len)."\n" if $len;
-	 $def = $1;
-	 $len = 0;
-	 $gc  = 0;
-      }else{
-         s/[^ACTGactg]//g;
-	 $len += length $_;
-	 s/[^GC]//g;
-	 $gc  += length $_;
-      }
-   }
-   print "$def\t".($gc/$len)."\n" if $len;
-   close FA;
-}

data/utils/enveomics/Scripts/FastA.interpose.pl DELETED Viewed

@@ -1,93 +0,0 @@
-#!/usr/bin/env perl
-# @author Luis M. Rodriguez-R
-# @license artistic license 2.0
-use strict;
-use warnings;
-use Symbol;
-my $HELP = <<HELP
-  Description:
-    Interposes sequences in FastA format from two files into one output file.
-    If more than two files are provided, the script will interpose all the input
-    files.
-    Note that this script will check for the consistency of the names (assuming
-    a pair of related reads contains the same name varying only in a trailing
-    slash (/) followed by a digit.  If you want to turn this feature off just
-    set the -T option to zero.  If you want to decrease the sampling period (to
-    speed the script up) or increase it (to make it more sensitive to errors)
-    just change the -T option accordingly.
-  Usage:
-    $0 [-T <int> ]<output_fasta> <input_fasta_1> <input_fasta_2> [additional input files...]
-  Where,
-    -T <int>		: Optional.  Integer indicating the sampling period for
-    			  names evaluation (see Description above).
-			  By default: 1000.
-    output_fasta	: Output file
-    input_fasta_1	: First FastA file
-    input_fasta_2	: Second FastA file
-    ... 		: Any additional FastA files (or none)
-HELP
-;
-my $eval_T = 1000;
-if(exists $ARGV[0] and exists $ARGV[1] and $ARGV[0] eq '-T'){
-   $eval_T = $ARGV[1]+0;
-   shift @ARGV;
-   shift @ARGV;
-}
-my $out = shift @ARGV;
-my @in = @ARGV;
-$/ = "\n>";
-die $HELP unless $out and $#in >= 1;
-open OUT, ">", $out or die "Unable to write on $out: $!\n";
-print "Output file: $out\n";
-my @in_fh = ();
-for my $k (0 .. $#in) {
-   $in_fh[$k] = gensym;
-   open $in_fh[$k], "<", $in[$k] or die "Unable to read $in[$k]: $!\n";
-   print "Input file: $in[$k]\n";
-}
-my $i = 0;
-my $frl;
-LINE: while(1){
-   my $name = "";
-   print STDERR "\rEntry: $i    " unless $i % 1000;
-   FILE: for my $k (0 .. $#in_fh){
-      my $ln = readline($in_fh[$k]);
-      last LINE if $k==0 and not defined $ln;
-      defined $ln or die "Impossible to read next entry ($.) from $in[$k]: $!\n";
-      $ln =~ s/^\>?/>/;
-      $ln =~ s/\>$//;
-      $ln =~ s/^;.*//gm;
-      if($eval_T and not $i % $eval_T){
-	 unless($name){
-	    $ln =~ m/^>(.*?)[\/ \\_]\d+/ or die "Impossible to evaluate names!\n offending entry:\n$ln\n";
-	    $name = $1;
-	 }
-	 die "Inconsistent name!\n base name is $name\n offending entry is:\n$ln\n" unless $ln =~ /^>$name/;
-      }
-      unless($frl){
-         $ln =~ m/^>.*?\n(.*?)\n/ or die "Unexpected format!\n offending entry:\n$ln\n";
-	 my $i = $ln;
-	 $i =~ s/^>.*?\n//;
-	 $i =~ s/\n//g;
-	 $frl = length $i;
-      }
-      print OUT $ln;
-   }
-   $i++;
-}
-print "\rNumber of entries: $i     \nFirst read length: $frl\n";
-close OUT;
-for my $k(0..$#in_fh){print "ALERT: The file $in[$k] contains trailing entries\n" if defined readline($in_fh[$k])}

data/utils/enveomics/Scripts/FastA.length.pl DELETED Viewed

@@ -1,38 +0,0 @@
-#!/usr/bin/env perl
-#
-# @author  Luis M Rodriguez-R
-# @update  Oct-07-2015
-# @license artistic license 2.0
-#
-use warnings;
-use strict;
-$#ARGV>=0 or die "
-Usage:
-   $0 seqs.fa... > length.txt
-   seqs.fa	One or more FastA files.
-   length.txt	A table with the lengths of the sequences.
-";
-for my $fa (@ARGV){
-   open FA, "<", $fa or die "Cannot open file: $fa: $!\n";
-   my $def = '';
-   my $len = 0;
-   while(<FA>){
-      next if /^;/;
-      if(m/^>(\S+)\s?/){
-         print "$def\t$len\n" if $def;
-	 $def = $1;
-	 $len = 0;
-      }else{
-         s/[^A-Za-z]//g;
-	 $len+= length $_;
-      }
-   }
-   print "$def\t$len\n" if $def;
-   close FA;
-}

data/utils/enveomics/Scripts/FastA.mask.rb DELETED Viewed

@@ -1,89 +0,0 @@
-#!/usr/bin/env ruby
-require 'optparse'
-o = {x: 'N', trim: false, wrap: 70}
-ARGV << '-h' if ARGV.empty?
-OptionParser.new do |opts|
-  opts.banner = "
-Mask sequence region(s) in a FastA file.
-Usage: #{$0} [options]"
-  opts.separator ''
-  opts.separator 'Mandatory'
-  opts.on('-i', '--in FILE', 'Input FastA file.'){ |v| o[:in] = v }
-  opts.on('-o', '--out FILE', 'Output FastA file.'){ |v| o[:out] = v }
-  opts.on('-r', '--regions REG1,REG2,...', Array,
-    'Regions to mask separated by commas.',
-    'Each region must be in the format "sequence_id:from..to"'
-    ){ |v| o[:reg] = v }
-  opts.separator ''
-  opts.separator 'Options'
-  opts.on('-x', '--symbol CHAR',
-    'Character used to mask the region(s)',
-    "By default: #{o[:x]}."){ |v| o[:x] = v }
-  opts.on('-t', '--trim',
-    'Trim masked regions extending to the edge of a sequence'
-    ){ |v| o[:trim] = v }
-  opts.on('-w', '--wrap INT',
-    'Line length to wrap sequences. Use 0 to generate 1-line sequences.',
-    "By default: #{o[:wrap]}."){ |v| o[:wrap] = v.to_i }
-  opts.on('-h', '--help', 'Display this screen.') do
-    puts opts
-    exit
-  end
-  opts.separator ''
-end.parse!
-abort '-i is mandatory' if o[:in].nil?
-abort '-o is mandatory' if o[:out].nil?
-abort '-r is mandatory' if o[:reg].nil?
-def wrap_width(txt, len)
-  return "" if txt.empty?
-  return "#{txt}\n" if len==0
-  txt.gsub(/(.{1,#{len}})/,"\\1\n")
-end
-# Read input sequences
-sq = {}
-File.open(o[:in], 'r') do |ifh|
-  bf = ''
-  ifh.each('>') do |i|
-    (dln, seq) = i.split(/[\n\r]+/, 2)
-    next if seq.nil?
-    id = dln.gsub(/\s.*/,  '')
-    seq.gsub!(/[\s>]/, '')
-    sq[id] = [dln, seq]
-  end
-end
-# Parse coordinates and mask regions
-last_id = nil
-o[:reg].each do |i|
-  m = i.match(/^(?:(.+):)?(\d+)\.\.(\d+)$/) or
-    abort "Unexpected region format: #{i}"
-  r = [m[1], m[2].to_i-1, m[3].to_i-1]
-  if r[0].nil?
-    abort "Region missing sequence ID: #{i}" if last_id.nil?
-    r[0] = last_id
-  end
-  last_id = r[0]
-  sq[r[0]] or abort "Cannot find sequence #{r[0]}"
-  r[1] <= r[2] or abort "Malformed range: #{i}"
-  if r[1] < 0 or r[2] > sq[r[0]][1].size
-    abort "Range extends beyond the edge of the sequence: #{i}"
-  end
-  sq[r[0]][1][r[1] .. r[2]] = o[:x]*(1+r[2]-r[1])
-end
-# Trim sequences and generate output
-ofh = File.open(o[:out], 'w')
-sq.each do |_k,v|
-  ofh.puts ">#{v[0]}"
-  if o[:trim]
-    v[1].gsub!(/^#{o[:x]}+/,'')
-    v[1].gsub!(/#{o[:x]}+$/,'')
-  end
-  ofh.print wrap_width(v[1], o[:wrap])
-end
-ofh.close

data/utils/enveomics/Scripts/FastA.per_file.pl DELETED Viewed

@@ -1,36 +0,0 @@
-#!/usr/bin/env perl
-#
-# @author  Luis M Rodriguez-R
-# @update  Mar-17-2016
-# @license artistic license 2.0
-#
-use warnings;
-use strict;
-$#ARGV>=1 or die "
-Usage:
-   $0 outdir seqs.fa...
-   outdir	Output directory for the individual files.
-   seqs.fa	One or more FastA files.
-";
-my $dir = shift @ARGV;
-for my $fa (@ARGV){
-   open FA, "<", $fa or die "Cannot open file: $fa: $!\n";
-   my $file = '';
-   while(<FA>){
-      next if /^;/;
-      if(m/^>(\S+)\s?/){
-	 close ONE if $file;
-         $file = $dir."/".$1.".fasta";
-	 open ONE, ">", $file or die "Cannot open file: $file: $!\n";
-      }
-      print ONE $_ if $file;
-   }
-   close ONE if $file;
-}

data/utils/enveomics/Scripts/FastA.qlen.pl DELETED Viewed

@@ -1,57 +0,0 @@
-#!/usr/bin/env perl
-#
-# @author  Luis M. Rodriguez-R <lmrodriguezr at gmail dot com>
-# @update  Dec-22-2015
-# @license artistic license 2.0
-#
-use strict;
-use warnings;
-use List::Util qw/sum min max/;
-my ($seqs, $minlen) = @ARGV;
-$seqs or die "
-Description:
-   Calculates the quartiles of the length in a set of sequences.  The Q2 is
-   also known as the median.  Q0 is the minimum length, and Q4 is the maximum
-   length.  It also calculates TOTAL, the added length of the sequences in
-   the file, and AVG, the average length.
-Usage:
-   $0 seqs.fa[ minlen]
-   seqs.fa	A FastA file containing the sequences.
-   minlen	(optional) The minimum length to take into consideration.
-   		By default: 0.
-";
-$minlen ||= 0;
-# Read files
-my @len = ();
-open FA, "<", $seqs or die "Cannot open file: $seqs: $!\n";
-my $def = '';
-my $len = 0;
-while(<FA>){
-   next if /^;/;
-   if(m/^>(\S+)\s?/){
-      push(@len, int($len)) if $def and not $len<$minlen;
-      $def = $1;
-      $len = 0;
-   }else{
-      s/[^A-Za-z]//g;
-      $len+= length $_;
-   }
-}
-push(@len, int($len)) if $def and not $len<$minlen;
-close FA;
-# Sort and estimates quantiles
-@len = sort { $a <=> $b } @len;
-for my $q (0 .. 4){
-   my $ii = int(my $i = $#len*$q/4);
-   print "Q$q: ".($i==$ii ? $len[$i] : ($len[$ii]+$len[$ii+1])/2 )."\n";
-}
-my $sum = sum @len;
-print "N: ".scalar(@len)."\n";
-print "TOTAL: $sum\n";
-print "AVG: ".($sum/scalar(@len))."\n";

data/utils/enveomics/Scripts/FastA.rename.pl DELETED Viewed

@@ -1,65 +0,0 @@
-#!/usr/bin/env perl
-#
-# @author  Luis M. Rodriguez-R <lmrodriguezr at gmail dot com>
-# @update  Oct-07-2015
-# @license artistic license 2.0
-#
-use warnings;
-use strict;
-use Getopt::Std;
-sub HELP_MESSAGE { die "
-.Description:
-   Renames a set of sequences in FastA format.
-.Usage: $0 [options] list.txt seqs.fa > renamed.fa
-   [options]
-   -f		Filter list.  Ignores sequences NOT present in the list.
-   -q		Runs quietly.
-   -h		Prints this message and exits.
-   [mandatory]
-   list.txt	Tab-delimited list of sequences, with the original ID in the
-   		first column and the ID to use in the second.
-   seqs.fa	FastA file containing the superset of sequences.
-   renamed.fa	FastA file to be created.
-" }
-my %o=();
-getopts('fhq', \%o);
-my($list, $fa) = @ARGV;
-($list and $fa) or &HELP_MESSAGE;
-$o{h} and &HELP_MESSAGE;
-print STDERR "Reading list.\n" unless $o{q};
-open LI, "<", $list or die "Cannot read file: $list: $!\n";
-my %li = map { my $l=$_; chomp $l; my @r=split(/\t/,$l); $r[0] => $r[1] } <LI>;
-close LI;
-print STDERR "Renaming FastA.\n" unless $o{q};
-open FA, "<", $fa or die "Cannot read file: $fa: $!\n";
-my $good = 0;
-while(my $ln = <FA>){
-   next if $ln =~ /^;/;
-   chomp $ln;
-   if($ln =~ m/^>((\S+).*)/){
-      my $rep=0;
-      $rep = ">".$li{$ln} if exists $li{$ln};
-      $rep = ">".$li{$1} if exists $li{$1} and not $rep;
-      $rep = ">".$li{">$1"} if exists $li{">$1"} and not $rep;
-      $rep = ">".$li{$2} if exists $li{$2} and not $rep;
-      if($rep){
-	 $ln = $rep;
-	 $good = 1;
-      }
-   }elsif($ln =~ m/^>/){
-      $good=0;
-      print STDERR "Warning: Non-cannonical defline, line $.: $ln\n";
-   }
-   print "$ln\n" if $good or not $o{f};
-}
-close FA;

data/utils/enveomics/Scripts/FastA.revcom.pl DELETED Viewed

@@ -1,23 +0,0 @@
-#!/usr/bin/env perl
-#
-# @author: Luis M. Rodriguez-R <lmrodriguezr at gmail dot com>
-# @update: Dec-25-2015
-# @license: artistic license 2.0
-#
-use strict;
-use warnings;
-use Bio::SeqIO;
-($ARGV[0] and $ARGV[0] =~ /--?h(elp)?/) and die "
-Description:
-   Reverse-complement sequences in FastA format.
-Usage:
-   $0 < input.fa > output.fa
-";
-my @len = ();
-my $seqI = Bio::SeqIO->new(-fh => \*STDIN, -format=>"FastA");
-my $seqO = Bio::SeqIO->new(-fh => \*STDOUT, -format=>"FastA");
-while(my $seq = $seqI->next_seq){ $seqO->write_seq($seq->revcom) }