RubyGems - npsearch - Versions diffs - 2.1.0 → 2.1.1 - Mend

npsearch 2.1.0 → 2.1.1

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (12) hide show

checksums.yaml +4 -4
data/README.md +41 -28
data/bin/npsearch +5 -5
data/exemplar_data/README.md +0 -0
data/exemplar_data/genetic_data.fa +465 -0
data/lib/npsearch.rb +2 -2
data/lib/npsearch/arg_validator.rb +4 -1
data/lib/npsearch/output.rb +2 -2
data/lib/npsearch/signalp.rb +24 -21
data/lib/npsearch/version.rb +1 -1
data/templates/contents.slim +8 -9
metadata +4 -2

checksums.yaml CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 SHA1:
-  metadata.gz: af22531e55865ab286dd6599917196765d72af12
-  data.tar.gz: 5a3bf459332ff8bc70c3c6e431cae9e09fe0494c
+  metadata.gz: 0e02888758654087d6af73b5fc87bba5363a0b4c
+  data.tar.gz: 2fd35312b2b18d3dfefe99686397dfd6bd7d5cfb
 SHA512:
-  metadata.gz: 899fed317d7ceb7a62d52fb2b3e0e24e835f630c058a9dacf05e267019a900c5c2357588e9f1bdd674731eb951a44f16d5898747efb872e6ae1ceaf5efb8acf4
-  data.tar.gz: 0aab6be7e635dd63b2e8e2d4d5eda128f7f39b41977f5b08fb090408dd612ac98d41d3fe60a086ea5a16d2cff56bccbce79b8168c3f2af2e3fff222b1657b908
+  metadata.gz: 3683325fc2081158d10ab07164e19d8dff0fb16d1031b592c9fdbd6221f13b1877f5f959d78d06acb6978cb351f1e5f96a3d53a9758af16f1f4d6c04a283019c
+  data.tar.gz: c9581cbd2ec7b00b22931fc0957e69bdb8cb525981e106ab759ee876e0c9de673d89bcc1156f5792871ec9c0c13357ac8a7ef0a68326c221d7e9873d5608f4fd

data/README.md CHANGED Viewed

@@ -3,24 +3,34 @@
 [![Gem Version](https://badge.fury.io/rb/npsearch.svg)](http://badge.fury.io/rb/npsearch)
 [![Dependency Status](https://gemnasium.com/wurmlab/NpSearch.svg)](https://gemnasium.com/wurmlab/NpSearch)
+<strong>Please note this currently in beta. We are currently working on something that is amazingly fast (i.e. a few seconds to run) and a lot better in every sense (it even has an easy-to-use clicky, pointy interface). So watch this place.</strong>
 ## Introduction
-NpSearch is a tool that helps identify novel neuropeptides. As such it is not based on homology to existing neuropeptides - rather NpSearch is based on the common characteristics of neuropeptides and their precursors.
+NpSearch is a tool that helps identify novel neuropeptides. As such it is not based on homology to existing neuropeptides - rather NpSearch is based on the common characteristics of neuropeptides and their precursors. In other words, it is a feature based tool.
+The results produced includes the entire secretome ordered in the likelihood of the sequence encoding a neuropeptide. As such, it is expected that you only need to analyse the top half of the results.
+Importantly, NpSearch produces a highly visual html file where the signal peptide and potential cleavage sites are highlighted. Additionally, NpSearch produces a fasta file of the results (i.e. the ordered secretome) that can easily be used in your own pipelines.
 If you use this program, please cite us:
 >Moghul I, Rowe M, Priyam A, ELphick M & Wurm Y <em>(in prep)</em> NpSearch: A Tool to Identify Novel Neuropeptides
-NpSearch produces a fasta file and highly visual html file that are ordered by the likelihood of a sequence encoding a neuropeptide precursor.
+NpSearch requires an input of a transcriptomic or predicted proteomic dataset, where each sequence is analysed and awarded a relative score of its likelihood of encoding a neuropeptide precursor. When provided with transcriptomic data, NpSearch translates each contig in all six frames and thereafter extracts all potential open reading frame (methionine to stop codon). Each predicted protein sequence is then analysed for the following neuropeptide-related characteristics:
+**Signal peptide**: All neuropeptide precursors must have a signal peptide. This is due to the fact that the final bioactive neuropeptide has to be secreted from the cell of synthesis in order to be functionally active.
+**Cleavage sites**: Being derived from a precursor, the bioactive neuropeptide has to be cleaved out from the precursor. Prohormone convertase enzymes cleave these bioactive peptides at specific cleavage sites. As certain cleavage motifs are more likely to be cleaved than other cleavage motifs, NpSearch awards sequences based on the type and number of cleavage sites present.
+**C-terminal Glycine**: A significant number of bioactive neuropeptides have a C-terminal glycine that is amidated during post-translation modification. Thus such sequences are awarded with a higher score.
+**Repeated peptides**: Numerous neuropeptide precursors are made up of multiple copies of the same neuropeptide. NpSearch attempts to clustering all potential cleaved neuropeptides, and then awarding sequences that produce larger clusters with a higher score.
-NpSearch orders the results based on the following characteristics:
+**Acidic spacer regions**: Neuropeptide precursors that contain multiple neuropeptide copies tend to have highly acidic regions that separate these copies. If detected by NpSearch, the sequence is awarded with a higher score.
+After analysing each sequence in the input dataset, NpSearch produces a visual html file and a fasta file, where sequences that are more likely to encode a neuropeptides precursor are placed at the top of the file. These results files can then be easily inspected and curated by researchers.
-  - **Signal peptide**: All neuropeptide precursors must have a signal peptide. This is due to the fact that the final bioactive neuropeptide has to be secreted from the cell of synthesis in order to be functionally active.
-  - **Cleavage sites**: Being derived from a precursor, the bioactive neuropeptide has to be cleaved out from the precursor. Prohormone convertase enzymes cleave these bioactive peptides at specific cleavage sites. Since certain cleavage motifs are more likely to be cleaved, NpSearch awards sequences with cleavage site motifs that are more likely to be cleaved with a higher score.
-  - **C-terminal Glycine**: A significant number of bioactive neuropeptides have a C-terminal glycine, that is amidated during post-translation modification. NpSearch awards sequences that have a potential neuropeptide with a C-terminal glycine a higher score.
-  - **Repeated peptides**: Some neuropeptide precursors contain numerous copies of the same neuropeptides (usually with slight sequence differences). NpSearch attempts to detect this by aligning all potential neuropeptides within a sequence. If a sequence is found to have multiple, similar predicted NPs, NpSearch awards it with a higher score.
-  - **Acidic spacer regions**: Neuropeptide precursors that contain multiple neuropeptide copies tend to have highly acidic spacer regions that separate the NP copies. If detected by NpSearch, the sequence is awarded with a higher score.
@@ -31,12 +41,15 @@ NpSearch orders the results based on the following characteristics:
 ### Installation Requirements
 * Ruby (>= 2.0.0)
-* SignalP 4.1 (Available from [here](http://www.cbs.dtu.dk/cgi-bin/nph-sw_request?signalp))
+* SignalP 4.1.*z (Available from [here](http://www.cbs.dtu.dk/cgi-bin/nph-sw_request?signalp))
 * CD-HIT (Available from [here](http://weizhongli-lab.org/cd-hit/) - Suggested Installation via [Homebrew](http://brew.sh) or [Linuxbrew](http://linuxbrew.sh) - `brew install homebrew/science/cd-hit`)
 * EMBOSS (Available from [here](http://emboss.sourceforge.net) - Suggested Installation via [Homebrew](http://brew.sh) or [Linuxbrew](http://linuxbrew.sh) - `brew install homebrew/science/emboss`)
 ## Installation
+<strong>While in beta, it is suggested that you run NpSearch from source (i.e. the non-recommended method below)</strong>
 Simply run the following command in the terminal.
 ```bash
@@ -52,7 +65,7 @@ It is also possible to run from source. However, this is not recommended.
 # Clone the repository.
 git clone https://github.com/wurmlab/npsearch.git
-# Move into NpSearch source directory.
+# Move into the NpSearch source directory.
 cd NpSearch
 # Install bundler
@@ -86,35 +99,35 @@ npsearch
 You should see the following output.
 ```bash
-* Usage: npsearch [Options] -i [Input File]
+* Description: A tool to identify novel neuropeptides.
-* Mandatory Options:
+* Usage: npsearch [Options] [Input File]
-    -i, --input [file]               Path to the input fasta file
-* Optional Options:
-    -s, --signalp_path               The full path to the signalp script. This can be downloaded from
-                                      CBS. See https://www.github.com/wurmlab/NpSearch for more
-                                      information
-    -u, --usearch_path               The full path to the usearch binary. This script can be downloaded
-                                      from .... See https://www.github.com/wurmlab/NpSearch for more
+* Options
+    -s path_to_signalp,              The full path to the SignalP script. This can be downloaded from
+        --signalp_path                CBS. See https://www.github.com/wurmlab/NpSearch for more
                                       information
-    -n, --num_threads                The number of threads to use when analysing the input file
-    -m, --orf_min_length N           The minimum length of a potential neuropeptide precursor.
+    -d, --temp_dir path_to_temp_dir  The full path to the temp dir. NpSearch will create the folder and
+                                      then delete the folder once it has finished using them.
+                                      Default: Hidden folder in the current working directory
+    -n, --num_threads num_of_threads The number of threads to use when analysing the input file
+    -l, --min_orf_length N           The minimum length of a potential neuropeptide precursor.
                                       Default: 30
+    -m, --max_seq_length N           The maximum length of a potential neuropeptide precursor.
+                                      Default: 600
     -h, --help                       Display this screen
     -v, --version                    Shows version
 ```
-### Example Usage Scenario
+### Exemplar Usage Scenario
 The following runs NpSearch on an input fasta dataset.
 ```bash
-npsearch -i INPUT_FASTA_FILE -s /path/to/signalp -u /path/to/usearch -n NUM_THREADS
+npsearch -s /path/to/signalp -n NUM_THREADS INPUT_FASTA_FILE
 ```
-## Output
-The output produced by NpSearch is presented in two manners. NpSearch produces a highly visual HTML file that can be open in any browsers (an example can seen [here]()) and a fasta file.
+## Note
+- With the current version of NpSearch, there is an issue with the number of threads used - it seems to use more threads than that specified in the command line argument
+- NpSearch is expected to produce a high system load (as shown in `top` / `htop`) - this is because NpSearch runs SignalP as a separate process for each sequence (to speed things up). As such the system load (which is the number of processes called per unit time) can be higher than expected. This is normally not a reason for concern - however, we will probably try and find the middle ground between the speed and the number of processes called (or maybe someone could rewrite SignalP in C with multicore support)...

data/bin/npsearch CHANGED Viewed

@@ -26,7 +26,7 @@ Banner
   opts.on('-d', '--temp_dir path_to_temp_dir',
           'The full path to the temp dir. NpSearch will create the folder and',
           ' then delete the folder once it has finished using them.',
-          ' Default: Hidden folder in the current working dirctory') do |p|
+          ' Default: Hidden folder in the current working directory') do |p|
     opt[:temp_dir] = p
   end
@@ -37,17 +37,17 @@ Banner
   end
   opt[:min_orf_length] = 30
-  opts.on('-m', '--min_orf_length N', Integer,
+  opts.on('-l', '--min_orf_length N', Integer,
           'The minimum length of a potential neuropeptide precursor.',
           ' Default: 30') do |n|
     opt[:min_orf_length] = n
   end
-  opt[:max_seq_length] = 600
-  opts.on('-m', '--max_seq_length N', Integer,
+  opt[:max_orf_length] = 600
+  opts.on('-m', '--max_orf_length N', Integer,
           'The maximum length of a potential neuropeptide precursor.',
           ' Default: 600') do |n|
-    opt[:max_seq_length] = n
+    opt[:max_orf_length] = n
   end
   opts.on('-h', '--help', 'Display this screen') do

data/exemplar_data/README.md ADDED Viewed

File without changes

data/exemplar_data/genetic_data.fa ADDED Viewed

@@ -0,0 +1,465 @@
+>isotig00001  gene=isogroup00003  length=2185  numContigs=5
+TAGCTGTGATCTAGTGGATCTGACTGGCCTTTTGATTATTTCAGCacGATTCTCAGACTA
+CAGTTGTAAaCCTACTTCGACTACTACTACTActagtacTAACGGTGCAACGTTGTTATA
+AGTTTGCCAAAGGTGAAACTTTAGCCTTAGGACtGTGTTTATTTTATTTGCAGTCGCATT
+CgCCTAACTGTTTTCTGTTACTGGGTGCATTTAACTCACATTAATAGAGGATTTTtGACT
+AGTtCcTAGAGAGTGGTGTTTCTGTTTTACCACCATGGCAAAAAAGGGAAaGCCTCGCCC
+TGACCATAGGCCTCCTGCACACAACCCGCATTATGCTCATGATCCACCACCTTATTCACA
+ACAGCAACCACCACTTCAACAGCAGAACTATGCACAACAAATGCATCATGGTGGAGGTGG
+TGGAAATAGACAACATGCACGACcTAGACCTAGTCCACCTTCAGAAGTCAGTGACTGTGT
+CAAGTACTCCCTTTTCTtGTATAACTGCATCTTTTGGGTAAGTATGCATTCCTCATGACT
+GTTATGTATATGTACGTATTTTAGGTCATCCTGCAAGCAGGAaCTCGCGAAGAAGCcTCA
+TtGGCTTATcAAAGCcGCAAGCTGACCGAAGTCAGTcTcTtAGTTTCATATTtAACGTCC
+ATGATTATGAaTTgTCTATTCTCAACAACTcTGTAACTGGATGACATACATTAATCTTGG
+AGTGACTCGAACAGGGGACCTTATGATTGGAAGGCACCGGCCTTAACTTAACCACTGAGC
+TAACACTCCACATCTTTCAAATTATGTATATAATATATCTTTCAAGATATCTTTCAAATT
+ATACTGATTTGTCTAGTAAGTACAGTACTGTATCACAAACAGTTCAAAACCGACAAAGTG
+CTACACAAACGCAAAGGTTTAAGGTATGGTAGTGTTTGTCTGATGGTATACCTTATCTTT
+TTGGTGATAAGAGCAAAAATGTTCTTTTAATGGTTAAAGTGTAAAGAGGATGTCTTTGTT
+TTtCTGTgAAGTTTAGTTGTAACTTTCAGATACAaGaAAAaGTGAAATGTGCAATGTACT
+GTAAGCTCTCAGAGTTACTCAGTCCTTTAGTTtGCtCTGTGAGATATATGCTGTGAGATA
+TGcTtCAACAGTTCAATTTTCTAACTAAAATTTACATTGGTCATGCAATTTCTTTGTTCG
+TTTGGTTTCTTGTTTTGTTGGTTAGGTTTTGGTGCTTTAAATTACGATGAGGATATATAA
+CAGAGTGTGTTTTCaAACAGCTGGCTGTTATCTGCAGAATCTGGTCACAaCAAGTATACA
+ACCCGCcCGCGTATGGACATATTAATATACCTTTCTCTCATGTGCACTAGAGTTTTTCAT
+TTAGTTACCAAAAAAATCAGTTCTGTGACACATTTTTAGGTTAAAGGTTCAAGGTTGGAG
+AATCCAATAATCATTATACGGTGTGAAGACTCGCGCAAAAAGAACGGCtATGCCgTAATC
+TGACCTaGTTTCGAATGAGGTGTAACAGAAGTGTTAGACACCACCATCGATCCCAGAAAA
+TACACACACAGCTTGCTACCgTCGGTAATTAGACACTAGTGTACAGTCAgTACATACAGC
+TGCAGTCAACACCCACAGCACAGTGTACAAACGGTACAGCGATGGACATCTCAGGTCCAG
+CTAAAGATAACAATGTATCGCGTTTCATTACTGTCTGCATTTTGTAGCGACACGAACAAA
+ACGTCACTTGCAAGCAACAGAAAGTTAACTTTTTCATATGGCTGCATGCGGTTTGGGgCG
+AGTCTTCAGTGCCTTTAAAGTAGATGAAATGGATTGATCTTGAGGAGAAATGCCATCAGG
+tTtCGTTGGCAAACGttCAGGATTTTGTCAGTTTTGCTGTAGTCACATTTAGCAAGATGA
+CGACACAGAAAATATGACGTATAGTACTGCAAAGGAAGGAGCTTATccttTtcGTAATTT
+taattGATtaaGGTtTCAATGCaaGCTTCCATACAGCTTTCAACAGCACATTCAGTTTAA
+AGCAGTATATATGTGAGAACAAAAGGGGTTTTCCCAAAATATTGGgTACCcAAATgggTC
+ACAGCAGACCATAGCAAaCTTTATAAGTGcGCATCttttGACACATATTGAagTGCATAA
+TTtttCTAATAAATTCTTTaaaata
+>isotig00002  gene=isogroup00003  length=1914  numContigs=5
+TGAATGAGAAAtGAAATTTAGCGAAGAAATCACCTTGTAAATTAAAAACTAAAATGGCTT
+TCACACAAATTAaCAGTAAAtGgAGAATGTTTTTAAAGCAATATATGCAGTACAGCcATT
+CATTGGAAAACAGTAAcAAAaTACATTTATCTTGTtcATTTTtACctCctGCAAaacTTA
+cAaCcGTTAATTATGTAGATTGGATGGCACTAACAGGGTACTTGTCTTATCTGCCTATTG
+GATAATGTGGcATTAATACTACTGTGTATGGGCACTGAGGCTGAGAGTGCAGTAAGTTtA
+AAGGCATTGAAGACTCtCCCCGAaCcGCGtGCCGGGCTctGAAAAAGTtAaCTGCTCGCA
+AaTtAcGTTTtCTtCTTGTCaCTaCAAAaTGCAGACATTaaTGAAACGTGATACCTTGTt
+ATCTTTTATCTAGACCTGAGATGTCcAtCGCTGCTATgTACAcTGTGTTGTGGGTATTGA
+CcgTAGCTGTATGTATtGACTGTACACTAGTGTCTAATtACCGACGGTAGCAAGCTGTGT
+GTGTATTTTCTGGGATCaaTGGTGgTGTCTAACACTTCtGTTACACCtCAtTcGAAACTA
+GGTCAGAtTAcCgGCATAGACGTTTCTTTGTGCcgAGTCtTCACAcccttttaaggagaa
+gtattttatatcccattaaTAGAGAAAGAATTATGTTTCAATTGGTAGCATGCAACTTAA
+AAtTTTGCAAACaTTAGATACAATCAAACAATAACAAGGTTCATTACAAGGttAAtCtac
+TGCCCTTTATTtCACATTaGTCTGTCACATCAGAAGgTCACAGCTTtCAaTAaTTATACA
+AACAAATtCCCTtGATGGgTGCTtGgTtAGATTCCTGCaatTTTCAAGTTTATCAATGTA
+ATAAGTTCTGAATGTGGCAATGTGGaaGAAGCtTtGGGATAATCTGTGGATAAGACTGCC
+AGACTATCAACAAGATTCCACATCCATGCAACTCCAACTGCTTCCTTCACCTCCTTGCAG
+ATGTACCACATGTCCaaAAAAAAGTCAGCATTGGTTAATGTAATTAAAATCTGGCTTCCT
+cCTGAGCTGGCAAATACACATGAATTGTCAAGTACAGAGGTCAGTGTGAAACCACTGAAA
+GATCTTCTCAGCTTTCAAGAAAACAAAGACTTGAAGCCAAATTGACAGAGGCCACACTGA
+TACCATTCCACTCTCATAAGATGAAGGTATCACACACACTTCATTTTGCTTCTGCGATGC
+AGTGCCTGGTAGACTGTGAGGgTCACCCAATGGATgtTTTAaCAaCTGCCtGGTTtAtAG
+AGCTCTGCAACAGATAATTCATCCTAaTGTCTAGTCGTCATCCTGTCATGGCCTTGAGCA
+AGTTGAACCCACTTCAACACAAAGCAGCTATTGAATTCTTGTCTAGGTACTGTcAAATCC
+ACATCACCATCATTGCttGGTTCCAGCTaCGcTGACCATGaTAAAAGAGTACAATGAGGG
+TTTTTTAATTCACCCAACAGAGCTTGCATTCCAGTACCTTTGGGCAGCTGaaaaGATATT
+CAGAAaTTGTTATATATGAGTGTGTTTGTATGCATGCAtATGtGTGATTTtCTtGCTTTA
+CAGAACAGCTCCaTTTTGATAAGCTAtgTAAcgtGgAAACCTGCCAATCAaTGTTtgAAa
+taGGAcaGgCTGAAACGATTCTTAAATGAAAAGCTTAAtgaCTTcTTgCAtttttaTACA
+TCACTGTTCAGGtAaGGCCAGTAAGGgCAGTATgAaGAAtAaGTAACAATtAATAATTAT
+CATTATGGCCATTTGCTGtcTGCATAAtAaCAAACTGAATGATGTCATCAGCCCTgTGCT
+CAGTTGACAgAACTGACAAGTAGGCACACaaTGTCAGTGTGATCCATGAAACCT
+>isotig00003  gene=isogroup00003  length=1917  numContigs=7
+TAGCTGTGATCTAGTGGATCTGACTGGCCTTTTGATTATTTCAGCacGATTCTCAGACTA
+CAGTTGTAAaCCTACTTCGACTACTACTACTActagtacTAACGGTGCAACGTTGTTATA
+AGTTTGCCAAAGGTGAAACTTTAGCCTTAGGACtGTGTTTATTTTATTTGCAGTCGCATT
+CgCCTAACTGTTTTCTGTTACTGGGTGCATTTAACTCACATTAATAGAGGATTTTtGACT
+AGTtCcTAGAGAGTGGTGTTTCTGTTTTACCACCATGGCAAAAAAGGGAAaGCCTCGCCC
+TGACCATAGGCCTCCTGCACACAACCCGCATTATGCTCATGATCCACCACCTTATTCACA
+ACAGCAACCACCACTTCAACAGCAGAACTATGCACAACAAATGCATCATGGTGGAGGTGG
+TGGAAATAGACAACATGCACGACcTAGACCTAGTCCACCTTCAGAAGTCAGTGACTGTGT
+CAAGTACTCCCTTTTCTtGTATAACTGCATCTTTTGGGTAAGTATGCATTCCTCATGACT
+GTTATGTATATGTACGTATTTTAGGTCATCCTGCAAGCAGGAaCTCGCGAAGAAGCcTCA
+TtGGCTTATcAAAGCcGCAAGCTGACCGAAGTCAGTcTcTtAGTTTCATATTtAACGTCC
+ATGATTATGAaTTgTCTATTCTCAACAACTcTGTAACTGGATGACATACATTAATCTTGG
+AGTGACTCGAACAGGGGACCTTATGATTGGAAGGCACCGGCCTTAACTTAACCACTGAGC
+TAACACTCCACATCTTTCAAATTATGTATATAATATATCTTTCAAGATATCTTTCAAATT
+ATACTGATTTGTCTAGTAAGTACAGTACTGTATCACAAACAGTTCAAAACCGACAAAGTG
+CTACACAAACGCAAAGGTTTAAGGTATGGTAGTGTTTGTCTGATGGTATACCTTATCTTT
+TTGGTGATAAGAGCAAAAATGTTCTTTTAATGGTTAAAGTGTAAAGAGGATGTCTTTGTT
+TTtCTGTgAAGTTTAGTTGTAACTTTCAGATACAaGaAAAaGTGAAATGTGCAATGTACT
+GTAAGCTCTCAGAGTTACTCAGTCCTTTAGTTtGCtCTGTGAGATATATGCTGTGAGATA
+TGcTtCAACAGTTCAATTTTCTAACTAAAATTTACATTGGTCATGCAATTTCTTTGTTCG
+TTTGGTTTCTTGTTTTGTTGGTTAGGTTTTGGTGCTTTAAATTACGATGAGGATATATAA
+CAGAGTGTGTTTTCaAACAGCTGGCTGTTATCTGCAGAATCTGGTCACAaCAAGTATACA
+ACCCGCcCGCGTATGGACATATTAATATACCTTTCTCTCATGTGCACTAGAGTTTTTCAT
+TTAGTTACCAAAAAAATCAGTTCTGTGACACATTTTTAGGTTAAAGGTTCAAGGTTGGAG
+AATCCAATAATCATTATACGGTGTGAAGACTCGCGCAAAAAGAACGGCtATGCCgTAATC
+TGACCTaGTTTCGAATGAGGTGTAACAGAAGTGTTAGACACCACCATCGATCCCAGAAAA
+TACACACACAGCTTGCTACCgTCGGTAATTAGACACTAGTGTACAGTCAgTACATACAGC
+TaCGGTCAATACCCAcaaaaCaGTGtACaTAGCAGCGaTGGACATcTCAGGTCCAGATAA
+AGATAACAAGGTATCACGTTTCATTACTGTCTGCaTTTTGTAGCgACAaGAAGAAAACTt
+CACTtGCAAGCAACGgAAAGTTAACTTTTtCAGAGCGCGGCACGCGGGTTGGGGCAAGTC
+TTCCAAGCCTTTAAGTtGACAtcTTGCCTTTGGCTATCCAGGgTGACAAGATGATACTAG
+CAGGTAgagtgactaattgagccctgtgtgagaaaccaatgcagaatctagcctagt
+>isotig00004  gene=isogroup00003  length=1896  numContigs=6
+TAGCTGTGATCTAGTGGATCTGACTGGCCTTTTGATTATTTCAGCacGATTCTCAGACTA
+CAGTTGTAAaCCTACTTCGACTACTACTACTActagtacTAACGGTGCAACGTTGTTATA
+AGTTTGCCAAAGGTGAAACTTTAGCCTTAGGACtGTGTTTATTTTATTTGCAGTCGCATT
+CgCCTAACTGTTTTCTGTTACTGGGTGCATTTAACTCACATTAATAGAGGATTTTtGACT
+AGTtCcTAGAGAGTGGTGTTTCTGTTTTACCACCATGGCAAAAAAGGGAAaGCCTCGCCC
+TGACCATAGGCCTCCTGCACACAACCCGCATTATGCTCATGATCCACCACCTTATTCACA
+ACAGCAACCACCACTTCAACAGCAGAACTATGCACAACAAATGCATCATGGTGGAGGTGG
+TGGAAATAGACAACATGCACGACcTAGACCTAGTCCACCTTCAGAAGTCAGTGACTGTGT
+CAAGTACTCCCTTTTCTtGTATAACTGCATCTTTTGGGTAAGTATGCATTCCTCATGACT
+GTTATGTATATGTACGTATTTTAGGTCATCCTGCAAGCAGGAaCTCGCGAAGAAGCcTCA
+TtGGCTTATcAAAGCcGCAAGCTGACCGAAGTCAGTcTcTtAGTTTCATATTtAACGTCC
+ATGATTATGAaTTgTCTATTCTCAACAACTcTGTAACTGGATGACATACATTAATCTTGG
+AGTGACTCGAACAGGGGACCTTATGATTGGAAGGCACCGGCCTTAACTTAACCACTGAGC
+TAACACTCCACATCTTTCAAATTATGTATATAATATATCTTTCAAGATATCTTTCAAATT
+ATACTGATTTGTCTAGTAAGTACAGTACTGTATCACAAACAGTTCAAAACCGACAAAGTG
+CTACACAAACGCAAAGGTTTAAGGTATGGTAGTGTTTGTCTGATGGTATACCTTATCTTT
+TTGGTGATAAGAGCAAAAATGTTCTTTTAATGGTTAAAGTGTAAAGAGGATGTCTTTGTT
+TTtCTGTgAAGTTTAGTTGTAACTTTCAGATACAaGaAAAaGTGAAATGTGCAATGTACT
+GTAAGCTCTCAGAGTTACTCAGTCCTTTAGTTtGCtCTGTGAGATATATGCTGTGAGATA
+TGcTtCAACAGTTCAATTTTCTAACTAAAATTTACATTGGTCATGCAATTTCTTTGTTCG
+TTTGGTTTCTTGTTTTGTTGGTTAGGTTTTGGTGCTTTAAATTACGATGAGGATATATAA
+CAGAGTGTGTTTTCaAACAGCTGGCTGTTATCTGCAGAATCTGGTCACAaCAAGTATACA
+ACCCGCcCGCGTATGGACATATTAATATACCTTTCTCTCATGTGCACTAGAGTTTTTCAT
+TTAGTTACCAAAAAAATCAGTTCTGTGACACATTTTTAGGTTAAAGGTTCAAGGTTGGAG
+AATCCAATAATCATTATACGGTGTGAAGACTCGCGCAAAAAGAACGGCtATGCCgTAATC
+TGACCTaGTTTCGAATGAGGTGTAACAGAAGTGTTAGACACCACCATCGATCCCAGAAAA
+TACACACACAGCTTGCTACCgTCGGTAATTAGACACTAGTGTACAGTCAgTACATACAGC
+TaCGGTCAATACCCAcaaaaCaGTGtACaTAGCAGCGaTGGACATcTCAGGTCCAGATAA
+AGATAACAAGGTATCACGTTTCATTACTGTCTGCaTTTTGTAGCgACAaGAAGAAAACTt
+CACTtGCAAGCAACGgAAAGTTAACTTTTtCAGAGGGCAGCACTTGGTTTGGAGCGAATC
+TTCAATGCCTTTAAGTCATCCTTTACTAGATGGAAGCTCTTCTTATGTAGTTTACTCttc
+ATACTATCAAGACATTCTTAATGATATACTATGCTT
+>isotig00005  gene=isogroup00003  length=1789  numContigs=6
+ACATTCTTCAAGAGCTCTGCACCCACCAATCTAAAGTGACCAGCCAAGTGACTGACCTCA
+GGGCACAGTTAGCAGCTTTGACCACAGGATGAGCTATGTAACAACTGAAtgaaTGGTGTT
+CAtcGTTGATTGGGCAgTCAAAACAGCTGAATTTCTCTTGCGgAAGACATAAAGGCATTG
+AAGACtcGCCcAAaccGtGTGcgcccTCTGAAAAaGTTAACTTTctGTTgCTTGCAaGTG
+AAGTTTtcTtCTtGTCgCTACAAAATGCAGACAGTAaTgAAACGTGATACcTtGTtATCT
+TTtATCTAgACctGAGATGtCcACGCTGCTATGTACACTGTGTTGTGGgTATTGACcGTA
+GCTGTATGTATtGACTGTACACTAGTGTCTAATtACCGACGGTAGCAAGCTGTGTGTGTA
+TTTTCTGGGATCaaTGGTGgTGTCTAACACTTCtGTTACACCtCAtTcGAAACTAGGTCA
+GAtTAcCgGCATAGACGTTTCTTTGTGCcgAGTCtTCACAcccttttaaggagaagtatt
+ttatatcccattaaTAGAGAAAGAATTATGTTTCAATTGGTAGCATGCAACTTAAAAtTT
+TGCAAACaTTAGATACAATCAAACAATAACAAGGTTCATTACAAGGttAAtCtacTGCCC
+TTTATTtCACATTaGTCTGTCACATCAGAAGgTCACAGCTTtCAaTAaTTATACAAACAA
+ATtCCCTtGATGGgTGCTtGgTtAGATTCCTGCaatTTTCAAGTTTATCAATGTAATAAG
+TTCTGAATGTGGCAATGTGGaaGAAGCtTtGGGATAATCTGTGGATAAGACTGCCAGACT
+ATCAACAAGATTCCACATCCATGCAACTCCAACTGCTTCCTTCACCTCCTTGCAGATGTA
+CCACATGTCCaaAAAAAAGTCAGCATTGGTTAATGTAATTAAAATCTGGCTTCCTcCTGA
+GCTGGCAAATACACATGAATTGTCAAGTACAGAGGTCAGTGTGAAACCACTGAAAGATCT
+TCTCAGCTTTCAAGAAAACAAAGACTTGAAGCCAAATTGACAGAGGCCACACTGATACCA
+TTCCACTCTCATAAGATGAAGGTATCACACACACTTCATTTTGCTTCTGCGATGCAGTGC
+CTGGTAGACTGTGAGGgTCACCCAATGGATgtTTTAaCAaCTGCCtGGTTtAtAGAGCTC
+TGCAACAGATAATTCATCCTAaTGTCTAGTCGTCATCCTGTCATGGCCTTGAGCAAGTTG
+AACCCACTTCAACACAAAGCAGCTATTGAATTCTTGTCTAGGTACTGTcAAATCCACATC
+ACCATCATTGCttGGTTCCAGCTaCGcTGACCATGaTAAAAGAGTACAATGAGGGTTTTT
+TAATTCACCCAACAGAGCTTGCATTCCAGTACCTTTGGGCAGCTGaaaaGATATTCAGAA
+aTTGTTATATATGAGTGTGTTTGTATGCATGCAtATGtGTGATTTtCTtGCTTTACAGAA
+CAGCTCCaTTTTGATAAGCTAtgTAAcgtGgAAACCTGCCAATCAaTGTTtgAAataGGA
+caGgCTGAAACGATTCTTAAATGAAAAGCTTAAtgaCTTcTTgCAtttttaTACATCACT
+GTTCAGGtAaGGCCAGTAAGGgCAGTATgAaGAAtAaGTAACAATtAATAATTATCATTA
+TGGCCATTTGCTGtcTGCATAAtAaCAAACTGAATGATGTCATCAGCCCTgTGCTCAGTT
+GACAgAACTGACAAGTAGGCACACaaTGTCAGTGTGATCCATGAAACCT
+>isotig00006  gene=isogroup00003  length=1747  numContigs=6
+AGTTAAAAGTTGAAAAATTGGTGACCATATTTTGACACTCTAGCATATTTGGGAGCTATA
+TACTGATTTGGGTTTCACCATGCACAGATGAGGTATATACATAAGTTGAAAGCCTGCAGC
+TCTATATTAAAGGCATTGAAGACtcGCCcAAaccgtgTGcgcccTCTGAAAAaGTTAACT
+TTCcGTTgCTTGCAaGTGAAGTTTtcTtCTTGTCGCTACAAAATGCAGACAGTAATGAAA
+CGTGATACcTtGTtATCTTTtATCTAgACcTGAGATGtCcACGCTGCTATGTACACTGTG
+TTGTGGgTATTGACcGTAGCTGTATGTATtGACTGTACACTAGTGTCTAATtACCGACGG
+TAGCAAGCTGTGTGTGTATTTTCTGGGATCaaTGGTGgTGTCTAACACTTCtGTTACACC
+tCAtTcGAAACTAGGTCAGAtTAcCgGCATAGACGTTTCTTTGTGCcgAGTCtTCACAcc
+cttttaaggagaagtattttatatcccattaaTAGAGAAAGAATTATGTTTCAATTGGTA
+GCATGCAACTTAAAAtTTTGCAAACaTTAGATACAATCAAACAATAACAAGGTTCATTAC
+AAGGttAAtCtacTGCCCTTTATTtCACATTaGTCTGTCACATCAGAAGgTCACAGCTTt
+CAaTAaTTATACAAACAAATtCCCTtGATGGgTGCTtGgTtAGATTCCTGCaatTTTCAA
+GTTTATCAATGTAATAAGTTCTGAATGTGGCAATGTGGaaGAAGCtTtGGGATAATCTGT
+GGATAAGACTGCCAGACTATCAACAAGATTCCACATCCATGCAACTCCAACTGCTTCCTT
+CACCTCCTTGCAGATGTACCACATGTCCaaAAAAAAGTCAGCATTGGTTAATGTAATTAA
+AATCTGGCTTCCTcCTGAGCTGGCAAATACACATGAATTGTCAAGTACAGAGGTCAGTGT
+GAAACCACTGAAAGATCTTCTCAGCTTTCAAGAAAACAAAGACTTGAAGCCAAATTGACA
+GAGGCCACACTGATACCATTCCACTCTCATAAGATGAAGGTATCACACACACTTCATTTT
+GCTTCTGCGATGCAGTGCCTGGTAGACTGTGAGGgTCACCCAATGGATgtTTTAaCAaCT
+GCCtGGTTtAtAGAGCTCTGCAACAGATAATTCATCCTAaTGTCTAGTCGTCATCCTGTC
+ATGGCCTTGAGCAAGTTGAACCCACTTCAACACAAAGCAGCTATTGAATTCTTGTCTAGG
+TACTGTcAAATCCACATCACCATCATTGCttGGTTCCAGCTaCGcTGACCATGaTAAAAG
+AGTACAATGAGGGTTTTTTAATTCACCCAACAGAGCTTGCATTCCAGTACCTTTGGGCAG
+CTGaaaaGATATTCAGAAaTTGTTATATATGAGTGTGTTTGTATGCATGCAtATGtGTGA
+TTTtCTtGCTTTACAGAACAGCTCCaTTTTGATAAGCTAtgTAAcgtGgAAACCTGCCAA
+TCAaTGTTtgAAataGGAcaGgCTGAAACGATTCTTAAATGAAAAGCTTAAtgaCTTcTT
+gCAtttttaTACATCACTGTTCAGGtAaGGCCAGTAAGGgCAGTATgAaGAAtAaGTAAC
+AATtAATAATTATCATTATGGCCATTTGCTGtcTGCATAAtAaCAAACTGAATGATGTCA
+TCAGCCCTgTGCTCAGTTGACAgAACTGACAAGTAGGCACACaaTGTCAGTGTGATCCAT
+GAAACCT
+>isotig00007  gene=isogroup00003  length=1749  numContigs=5
+TGTGTGTGTGTGGTGCTTCCccTCTAGGGCTGTAAATTTCAAAGGAACCTTGCGCAAGAA
+CAGtAGCTTGCGaCGTTTTTCAAaaCCAGAGGTTCTGAACTGAACTGTACTGACTACTGT
+AGGGtacTTAAaGGCATTGAAGACTCGCCcAAaCCatgTGCCGCGctttGAAAAAGTTAA
+CTTTCCGTTGCTTGCAAATGAcGTTTtcTtCTtGTCgCTACAAAATGCAGACAGTAaTgA
+AACGTGATACcTtGTtATCTTTtATCTAgACctGAGATGtCcACGCTGCTATGTACACTG
+TGTTGTGGgTATTGACcGTAGCTGTATGTATtGACTGTACACTAGTGTCTAATtACCGAC
+GGTAGCAAGCTGTGTGTGTATTTTCTGGGATCaaTGGTGgTGTCTAACACTTCtGTTACA
+CCtCAtTcGAAACTAGGTCAGAtTAcCgGCATAGACGTTTCTTTGTGCcgAGTCtTCACA
+cccttttaaggagaagtattttatatcccattaaTAGAGAAAGAATTATGTTTCAATTGG
+TAGCATGCAACTTAAAAtTTTGCAAACaTTAGATACAATCAAACAATAACAAGGTTCATT
+ACAAGGttAAtCtacTGCCCTTTATTtCACATTaGTCTGTCACATCAGAAGgTCACAGCT
+TtCAaTAaTTATACAAACAAATtCCCTtGATGGgTGCTtGgTtAGATTCCTGCaatTTTC
+AAGTTTATCAATGTAATAAGTTCTGAATGTGGCAATGTGGaaGAAGCtTtGGGATAATCT
+GTGGATAAGACTGCCAGACTATCAACAAGATTCCACATCCATGCAACTCCAACTGCTTCC
+TTCACCTCCTTGCAGATGTACCACATGTCCaaAAAAAAGTCAGCATTGGTTAATGTAATT
+AAAATCTGGCTTCCTcCTGAGCTGGCAAATACACATGAATTGTCAAGTACAGAGGTCAGT
+GTGAAACCACTGAAAGATCTTCTCAGCTTTCAAGAAAACAAAGACTTGAAGCCAAATTGA
+CAGAGGCCACACTGATACCATTCCACTCTCATAAGATGAAGGTATCACACACACTTCATT
+TTGCTTCTGCGATGCAGTGCCTGGTAGACTGTGAGGgTCACCCAATGGATgtTTTAaCAa
+CTGCCtGGTTtAtAGAGCTCTGCAACAGATAATTCATCCTAaTGTCTAGTCGTCATCCTG
+TCATGGCCTTGAGCAAGTTGAACCCACTTCAACACAAAGCAGCTATTGAATTCTTGTCTA
+GGTACTGTcAAATCCACATCACCATCATTGCttGGTTCCAGCTaCGcTGACCATGaTAAA
+AGAGTACAATGAGGGTTTTTTAATTCACCCAACAGAGCTTGCATTCCAGTACCTTTGGGC
+AGCTGaaaaGATATTCAGAAaTTGTTATATATGAGTGTGTTTGTATGCATGCAtATGtGT
+GATTTtCTtGCTTTACAGAACAGCTCCaTTTTGATAAGCTAtgTAAcgtGgAAACCTGCC
+AATCAaTGTTtgAAataGGAcaGgCTGAAACGATTCTTAAATGAAAAGCTTAAtgaCTTc
+TTgCAtttttaTACATCACTGTTCAGGtAaGGCCAGTAAGGgCAGTATgAaGAAtAaGTA
+ACAATtAATAATTATCATTATGGCCATTTGCTGtcTGCATAAtAaCAAACTGAATGATGT
+CATCAGCCCTgTGCTCAGTTGACAgAACTGACAAGTAGGCACACaaTGTCAGTGTGATCC
+ATGAAACCT
+>isotig00008  gene=isogroup00003  length=1726  numContigs=6
+AGGTTTCATGGATCACACTGACAtTGTGTGCCTACTTGTCAGTTcTGTCAACTGAGCAcA
+GGGCTGATGACATCATTCAGTTTGttattATGCAggaCAGCAAATGGCCATAATGATAAT
+TATTAaTTGTTACTtaTTCTtcATACTGCCcTTACTGGCCTtaCCTGAACAGTGATGTAt
+caaaaTGcAAgAAGtcaTTAAGCTTTTCATTTAAGAATCGTTTCAGCctgTCCtaatTTt
+cAAaCAtTGATTGGCAGGTTTCcacgTTAcaTAGCTTATCAAAAtGGAGCTGTTCTGTAA
+AGCAAGaAAATCACaCATaTGCATGCATACAAACACACTCATATATAACAAtTTCTGAAT
+ATCTtttCAGCTGCCCAAAGGTACTGGAATGCAAGCTCTGTTGGGTGAATTAAAAAaCCc
+TCATTGTACTCTTTTATCATGGTCAGCGTAGCTGGAACCAGCAATGATGGTGATGTGGAT
+TTGACAGTACCTAGACAAGAATTCAATAGCTGCTTTGTGTTGAAGTGGGTTCAACTTGCT
+CAAGGCCATGACAGGATGACGACTAGACATtAGGATGAATTATCTGTTGCAGAGCTCTAT
+AAaCCAGGCAGTtGTtAAAaCATCCATTGGGTGACCcTCACAGTCTACCAGGCACTGCAT
+CGCAGAAGCAAAATGAAGTGTGTGTgATACCTTCATCTTATGAGAGTGGAATGGTATCAG
+TGTGGCCTCTGTCAATTTGGCTTCAAGTCTTTGTTTTCTTGAAAGCTGAGAaGATCTTTC
+AGTGGTTTCACACTGACCTCTGTACTTGACAATTCATGTGTATTTGCCAGCTCAGgAGGA
+AGCCAGATTTTAATTACATTAACCAATGCTGACTTTTTTttGGACATGTGGTACATCTGC
+AAGGAGGTGAAGGAAGCAGTTGGAGTTGCATGGATGTGGAATCTTGTTGATAGTCTGGCA
+GTCTTATCCACAGATTATCCCAAAGCTTCTCCACATTGCCACATTCAGAACTTATTACAT
+TGATAAACTTGAAAATtGCAGGAATCTAaCcAaGCACCcATCAaGGGAaTTTGTTTGTAT
+AATtATtGAAaGCTGTGACcTTCTGATGTGACAGACTAATGTGAAaTAAAGGgCAgtaGa
+TTaCCTTGTaaTGAACCttGTTATTGTTTGATTGTATCTAAtGTTTGCAaaTTTTAAGTT
+GCATGCTACCAATTGAAACATAATTCTTTCTCTAttaatgggatataaaatacttctcct
+taaaagggTGTgAaGACTcggCACAAAGAAACGTCtaTGCcGgtAaTCTGACCTAGTTTc
+gAatGaGGTGTAACagAAGTgTtAGACACcACCAttGATCCcAGAAAATACACACACAGC
+TTGCTACCGTCGGTAaTTAGACACTAGTGTACAGTCAaTACATACAGCTAcGgTCAATAC
+CCACAaCACAgTGTAcATAGCAGCGaTGgACATCTCAGGTCTAGATAAAAGATAaCAAGG
+TATCACGTTTCATtaCTGTCTGCATTTtGTAGCgaCAagAAGAAAAcgtCATTtGCAAGC
+AaTGgAAAGTtAACTTTTTCaGAGCGcagCAcGCgggTTGGGGCAAGTCTTCCAAGCCTT
+TAAGTtGACAtcTTGCCTTTGGCTATCCAGGgTGACAAGATGATACTAGCAGGTAgagtg
+actaattgagccctgtgtgagaaaccaatgcagaatctagcctagt
+>isotig00009  gene=isogroup00003  length=1827  numContigs=2
+TAGCTGTGATCTAGTGGATCTGACTGGCCTTTTGATTATTTCAGCacGATTCTCAGACTA
+CAGTTGTAAaCCTACTTCGACTACTACTACTActagtacTAACGGTGCAACGTTGTTATA
+AGTTTGCCAAAGGTGAAACTTTAGCCTTAGGACtGTGTTTATTTTATTTGCAGTCGCATT
+CgCCTAACTGTTTTCTGTTACTGGGTGCATTTAACTCACATTAATAGAGGATTTTtGACT
+AGTtCcTAGAGAGTGGTGTTTCTGTTTTACCACCATGGCAAAAAAGGGAAaGCCTCGCCC
+TGACCATAGGCCTCCTGCACACAACCCGCATTATGCTCATGATCCACCACCTTATTCACA
+ACAGCAACCACCACTTCAACAGCAGAACTATGCACAACAAATGCATCATGGTGGAGGTGG
+TGGAAATAGACAACATGCACGACcTAGACCTAGTCCACCTTCAGAAGTCAGTGACTGTGT
+CAAGTACTCCCTTTTCTtGTATAACTGCATCTTTTGgaTTGtCGGCCTTttCTTTATtGC
+AGCAGGTATCTGGgCATTTCACGATAGGGGTGTTTTTAATGAATTCCAGTCACTTAGTAC
+CAATGAGGTCTCCTTTCTCACTGATCCTGTTATTTGGCTGTTCGTCCTCGGAGGTGTAGT
+TTTCATGCTGGGAACCCTCGGATGTCTgGGGgCCCTCAGAGAAAaTATCTGCATGCTGAA
+GTGTTTTAGCATAATCATGGGGCTTATACTGCTGCTGGAAATTGGAGGTGGATGTGCGAT
+ATACTTCTATCGTGCACAGATTCAGGCACAGTTTCAAAAGTCCTTAACAGATGTGaCCAT
+AACAGATTACAGAGAAAATGCTGATTTCCAGGATCTCATAGACGCATTACAATCCGGTCT
+TTCTTGTTGTGGTGTCAATTCCTatGAAGACTGGGATAATAATATTTATTTCAACTGTAG
+TGGTCCTGCCAATAACCCTGAAGCcttGTGGTGTGCCTTtCTCCTGTTGTATACCGGATC
+AAGCAAGCGGAGTAGCCAACACCCAGTGCGGTTATGGAGTTCGTTCCCCCGAACAACAAA
+ATACTTTCCACACAAAGATTTACACCACTGGCTGTGCGGATATGTTTACAATGTGGATTA
+ATAGGTACCTATATTACATAGCAGGCATTGCTGGGGTCATTGTCTTGGTCGAGTtGTTTG
+GATTCTGTTTTGCACATTCCCTCATCAACGACATCAAACGCCAAAAGGCCCGCTGGGCGC
+ATCGATAATTCATTCCAGGATGTTGGTGgATGATGCTACTCAAGGGagAAGACTGACAGT
+GCCTTTtGGTCAaTATCGTGTAGCATCAGGAAGGAGGTAGTACCTCCTCAACTAACCaTA
+ACAGAATTTGTCCAGTTTGTAACATCGTCAAGAAATAAACAGACTTTTTTTACCATTAGG
+ACgTGATAATACTACCACGTAACCTCTCAAAGCACAAAAAGCAAAAAGCAAATATCTCCT
+TGTTTTAAAATTAGaagGTCTATCTCAGATAACAACCACAGAACATgTGGAGTTTTCCtT
+TATGCTATCATAAAGATATAAATATATATAAAATTGAGGTAGcATCtTGGCTACCCACCA
+AAATCATTTTTTTTCCAGTTTGaAACATCATGGAACATTTCAGAACAAAGATCATTTCAG
+TCGTTACCACACTCAAGAgaTTGCTGTcGTCAaCaTTTtGtaGCTTTTtAAtGTCTTGAT
+CTTCGTCGACATCGTCAATGTGTAAACTATTCTCGACGAGAGATTAGTGTCTAATACTGC
+GGGTgATTTGATATAAATCTCACTTGG
+>isotig00010  gene=isogroup00003  length=1650  numContigs=5
+TGAATGAGAAAtGAAATTTAGCGAAGAAATCACCTTGTAAATTAAAAACTAAAATGGCTT
+TCACACAAATTAaCAGTAAAtGgAGAATGTTTTTAAAGCAATATATGCAGTACAGCcATT
+CATTGGAAAACAGTAAcAAAaTACATTTATCTTGTtcATTTTtACctCctGCAAaacTTA
+cAaCcGTTAATTATGTAGATTGGATGGCACTAACAGGGTACTTGTCTTATCTGCCTATTG
+GATAATGTGGcATTAATACTACTGTGTATGGGCACTGAGGCTGAGAGTGCAGTAAGTTtA
+AAGGCATTGAAGACTCtCCCCGAaCcGCGtGCCGGGCTctGAAAAAGTtAaCTGCTCGCA
+AaTtAcGTTTtCTtCTTGTCaCTaCAAAaTGCAGACATTaaTGAAACGTGATACCTTGTt
+ATCTTTTATCTAGACCTGAGATGTCcAtCGCTGCTATgTACAcTGTGTTGTGGGTATTGA
+CcgTAGCTGTATGTATtGACTGTACACTAGTGTCTAATtACCGACGGTAGCAAGCTGTGT
+GTGTATTTTCTGGGATCaaTGGTGgTGTCTAACACTTCtGTTACACCtCAtTcGAAACTA
+GGTCAGAtTAcCgGCATAGACGTTTCTTTGTGCcgAGTCtTCACAcccttttaaggagaa
+gtattttatatcccattaaTAGAGAAAGAATTATGTTTCAATTGGTAGCATGCAACTTAA
+AAtTTTGCAAACaTTAGATACAATCAAACAATAACAAGGTTCATTACAAGGttAAtCtac
+TGCCCTTTATTtCACATTaGTCTGTCACATCAGAAGgTCACAGCTTtCAaTAaTTATACA
+AACAAATtCCCTtGATGGgTGCTtGgTtAGATTCCTGCaatTTTCAAGTTTATCAATGTA
+ATAAGTTCTGAATGTGGCAATGTGGaaGAAGCtTtGGGATAATCTGTGGATAAGACTGCC
+AGACTATCAACAAGATTCCACATCCATGCAACTCCAACTGCTTCCTTCACCTCCTTGCAG
+ATGTACCACATGTCCaaAAAAAAGTCAGCATTGGTTAATGTAATTAAAATCTGGCTTCCT
+cCTGAGCTGGCAAATACACATGAATTGTCAAGTACAGAGGTCAGTGTGAAACCACTGAAA
+GATCTTCTCAGCTTTCAAGAAAACAAAGACTTGAAGCCAAATTGACAGAGGCCACACTGA
+TACCATTCCACTCTCATAAGATGAAGGTATCACACACACTTCATTTTGCTTCTGCGATGC
+AGTGCCTGGTAGACTGTGAGGgTCACCCAATGGATgtTTTAaCAaCTGCCtGGTTtAtAG
+AGCTCTGCAACAGATAATTCATCCTAaTGTCTAGTCGTCATCCTGTCATGGCCTTGAGCA
+AGTTGAACCCACTTCAACACAAAGCAGCTATTGAATTCTTGTCTAGGTACTGTcAAATCC
+ACATCACCATCATTGCttGGTTCCAGCTaCGcTGACCATGaTAAAAGAGTACAATGAGGG
+TTTTTTAATTCACCCAACAGAGCTTGCATTCCAGTACCTTTGGGCAGCTGATATCCATTT
+TGTTCCTCGTATgCCTGTCAAAATCTGACATTctGagTCGCTTCGTTTGTTCGCAACGAG
+CACAGTGTGCAAAGctGCTATATATTGTCC
+>isotig00011  gene=isogroup00003  length=1525  numContigs=6
+ACATTCTTCAAGAGCTCTGCACCCACCAATCTAAAGTGACCAGCCAAGTGACTGACCTCA
+GGGCACAGTTAGCAGCTTTGACCACAGGATGAGCTATGTAACAACTGAAtgaaTGGTGTT
+CAtcGTTGATTGGGCAgTCAAAACAGCTGAATTTCTCTTGCGgAAGACATAAAGGCATTG
+AAGACtcGCCcAAaccGtGTGcgcccTCTGAAAAaGTTAACTTTctGTTgCTTGCAaGTG
+AAGTTTtcTtCTtGTCgCTACAAAATGCAGACAGTAaTgAAACGTGATACcTtGTtATCT
+TTtATCTAgACctGAGATGtCcACGCTGCTATGTACACTGTGTTGTGGgTATTGACcGTA
+GCTGTATGTATtGACTGTACACTAGTGTCTAATtACCGACGGTAGCAAGCTGTGTGTGTA
+TTTTCTGGGATCaaTGGTGgTGTCTAACACTTCtGTTACACCtCAtTcGAAACTAGGTCA
+GAtTAcCgGCATAGACGTTTCTTTGTGCcgAGTCtTCACAcccttttaaggagaagtatt
+ttatatcccattaaTAGAGAAAGAATTATGTTTCAATTGGTAGCATGCAACTTAAAAtTT
+TGCAAACaTTAGATACAATCAAACAATAACAAGGTTCATTACAAGGttAAtCtacTGCCC
+TTTATTtCACATTaGTCTGTCACATCAGAAGgTCACAGCTTtCAaTAaTTATACAAACAA
+ATtCCCTtGATGGgTGCTtGgTtAGATTCCTGCaatTTTCAAGTTTATCAATGTAATAAG
+TTCTGAATGTGGCAATGTGGaaGAAGCtTtGGGATAATCTGTGGATAAGACTGCCAGACT
+ATCAACAAGATTCCACATCCATGCAACTCCAACTGCTTCCTTCACCTCCTTGCAGATGTA
+CCACATGTCCaaAAAAAAGTCAGCATTGGTTAATGTAATTAAAATCTGGCTTCCTcCTGA
+GCTGGCAAATACACATGAATTGTCAAGTACAGAGGTCAGTGTGAAACCACTGAAAGATCT
+TCTCAGCTTTCAAGAAAACAAAGACTTGAAGCCAAATTGACAGAGGCCACACTGATACCA
+TTCCACTCTCATAAGATGAAGGTATCACACACACTTCATTTTGCTTCTGCGATGCAGTGC
+CTGGTAGACTGTGAGGgTCACCCAATGGATgtTTTAaCAaCTGCCtGGTTtAtAGAGCTC
+TGCAACAGATAATTCATCCTAaTGTCTAGTCGTCATCCTGTCATGGCCTTGAGCAAGTTG
+AACCCACTTCAACACAAAGCAGCTATTGAATTCTTGTCTAGGTACTGTcAAATCCACATC
+ACCATCATTGCttGGTTCCAGCTaCGcTGACCATGaTAAAAGAGTACAATGAGGGTTTTT
+TAATTCACCCAACAGAGCTTGCATTCCAGTACCTTTGGGCAGCTGATATCCATTTTGTTC
+CTCGTATgCCTGTCAAAATCTGACATTctGagTCGCTTCGTTTGTTCGCAACGAGCACAG
+TGTGCAAAGctGCTATATATTGTCC
+>isotig00012  gene=isogroup00003  length=1483  numContigs=6
+AGTTAAAAGTTGAAAAATTGGTGACCATATTTTGACACTCTAGCATATTTGGGAGCTATA
+TACTGATTTGGGTTTCACCATGCACAGATGAGGTATATACATAAGTTGAAAGCCTGCAGC
+TCTATATTAAAGGCATTGAAGACtcGCCcAAaccgtgTGcgcccTCTGAAAAaGTTAACT
+TTCcGTTgCTTGCAaGTGAAGTTTtcTtCTTGTCGCTACAAAATGCAGACAGTAATGAAA
+CGTGATACcTtGTtATCTTTtATCTAgACcTGAGATGtCcACGCTGCTATGTACACTGTG
+TTGTGGgTATTGACcGTAGCTGTATGTATtGACTGTACACTAGTGTCTAATtACCGACGG
+TAGCAAGCTGTGTGTGTATTTTCTGGGATCaaTGGTGgTGTCTAACACTTCtGTTACACC
+tCAtTcGAAACTAGGTCAGAtTAcCgGCATAGACGTTTCTTTGTGCcgAGTCtTCACAcc
+cttttaaggagaagtattttatatcccattaaTAGAGAAAGAATTATGTTTCAATTGGTA
+GCATGCAACTTAAAAtTTTGCAAACaTTAGATACAATCAAACAATAACAAGGTTCATTAC
+AAGGttAAtCtacTGCCCTTTATTtCACATTaGTCTGTCACATCAGAAGgTCACAGCTTt
+CAaTAaTTATACAAACAAATtCCCTtGATGGgTGCTtGgTtAGATTCCTGCaatTTTCAA
+GTTTATCAATGTAATAAGTTCTGAATGTGGCAATGTGGaaGAAGCtTtGGGATAATCTGT
+GGATAAGACTGCCAGACTATCAACAAGATTCCACATCCATGCAACTCCAACTGCTTCCTT
+CACCTCCTTGCAGATGTACCACATGTCCaaAAAAAAGTCAGCATTGGTTAATGTAATTAA
+AATCTGGCTTCCTcCTGAGCTGGCAAATACACATGAATTGTCAAGTACAGAGGTCAGTGT
+GAAACCACTGAAAGATCTTCTCAGCTTTCAAGAAAACAAAGACTTGAAGCCAAATTGACA
+GAGGCCACACTGATACCATTCCACTCTCATAAGATGAAGGTATCACACACACTTCATTTT
+GCTTCTGCGATGCAGTGCCTGGTAGACTGTGAGGgTCACCCAATGGATgtTTTAaCAaCT
+GCCtGGTTtAtAGAGCTCTGCAACAGATAATTCATCCTAaTGTCTAGTCGTCATCCTGTC
+ATGGCCTTGAGCAAGTTGAACCCACTTCAACACAAAGCAGCTATTGAATTCTTGTCTAGG
+TACTGTcAAATCCACATCACCATCATTGCttGGTTCCAGCTaCGcTGACCATGaTAAAAG
+AGTACAATGAGGGTTTTTTAATTCACCCAACAGAGCTTGCATTCCAGTACCTTTGGGCAG
+CTGATATCCATTTTGTTCCTCGTATgCCTGTCAAAATCTGACATTctGagTCGCTTCGTT
+TGTTCGCAACGAGCACAGTGTGCAAAGctGCTATATATTGTCC
+>isotig00013  gene=isogroup00003  length=1485  numContigs=5
+TGTGTGTGTGTGGTGCTTCCccTCTAGGGCTGTAAATTTCAAAGGAACCTTGCGCAAGAA
+CAGtAGCTTGCGaCGTTTTTCAAaaCCAGAGGTTCTGAACTGAACTGTACTGACTACTGT
+AGGGtacTTAAaGGCATTGAAGACTCGCCcAAaCCatgTGCCGCGctttGAAAAAGTTAA
+CTTTCCGTTGCTTGCAAATGAcGTTTtcTtCTtGTCgCTACAAAATGCAGACAGTAaTgA
+AACGTGATACcTtGTtATCTTTtATCTAgACctGAGATGtCcACGCTGCTATGTACACTG
+TGTTGTGGgTATTGACcGTAGCTGTATGTATtGACTGTACACTAGTGTCTAATtACCGAC
+GGTAGCAAGCTGTGTGTGTATTTTCTGGGATCaaTGGTGgTGTCTAACACTTCtGTTACA
+CCtCAtTcGAAACTAGGTCAGAtTAcCgGCATAGACGTTTCTTTGTGCcgAGTCtTCACA
+cccttttaaggagaagtattttatatcccattaaTAGAGAAAGAATTATGTTTCAATTGG
+TAGCATGCAACTTAAAAtTTTGCAAACaTTAGATACAATCAAACAATAACAAGGTTCATT
+ACAAGGttAAtCtacTGCCCTTTATTtCACATTaGTCTGTCACATCAGAAGgTCACAGCT
+TtCAaTAaTTATACAAACAAATtCCCTtGATGGgTGCTtGgTtAGATTCCTGCaatTTTC
+AAGTTTATCAATGTAATAAGTTCTGAATGTGGCAATGTGGaaGAAGCtTtGGGATAATCT
+GTGGATAAGACTGCCAGACTATCAACAAGATTCCACATCCATGCAACTCCAACTGCTTCC
+TTCACCTCCTTGCAGATGTACCACATGTCCaaAAAAAAGTCAGCATTGGTTAATGTAATT
+AAAATCTGGCTTCCTcCTGAGCTGGCAAATACACATGAATTGTCAAGTACAGAGGTCAGT
+GTGAAACCACTGAAAGATCTTCTCAGCTTTCAAGAAAACAAAGACTTGAAGCCAAATTGA
+CAGAGGCCACACTGATACCATTCCACTCTCATAAGATGAAGGTATCACACACACTTCATT
+TTGCTTCTGCGATGCAGTGCCTGGTAGACTGTGAGGgTCACCCAATGGATgtTTTAaCAa
+CTGCCtGGTTtAtAGAGCTCTGCAACAGATAATTCATCCTAaTGTCTAGTCGTCATCCTG
+TCATGGCCTTGAGCAAGTTGAACCCACTTCAACACAAAGCAGCTATTGAATTCTTGTCTA
+GGTACTGTcAAATCCACATCACCATCATTGCttGGTTCCAGCTaCGcTGACCATGaTAAA
+AGAGTACAATGAGGGTTTTTTAATTCACCCAACAGAGCTTGCATTCCAGTACCTTTGGGC
+AGCTGATATCCATTTTGTTCCTCGTATgCCTGTCAAAATCTGACATTctGagTCGCTTCG
+TTTGTTCGCAACGAGCACAGTGTGCAAAGctGCTATATATTGTCC
+>isotig00014  gene=isogroup00003  length=1459  numContigs=6
+GGACAATATATAGCagCTTTGCACACTGTGCTCGTTGCGAACAAACGAAGCGActCagAA
+TGTCAGATTTTGACAGGcATACGAGGAACAAAATGGATATCAGCTGCCCAAAGGTACTGG
+AATGCAAGCTCTGTTGGGTGAATTAAAAAaCCcTCATTGTACTCTTTTATCATGGTCAGC
+GTAGCTGGAACCAGCAATGATGGTGATGTGGATTTGACAGTACCTAGACAAGAATTCAAT
+AGCTGCTTTGTGTTGAAGTGGGTTCAACTTGCTCAAGGCCATGACAGGATGACGACTAGA
+CATtAGGATGAATTATCTGTTGCAGAGCTCTATAAaCCAGGCAGTtGTtAAAaCATCCAT
+TGGGTGACCcTCACAGTCTACCAGGCACTGCATCGCAGAAGCAAAATGAAGTGTGTGTgA
+TACCTTCATCTTATGAGAGTGGAATGGTATCAGTGTGGCCTCTGTCAATTTGGCTTCAAG
+TCTTTGTTTTCTTGAAAGCTGAGAaGATCTTTCAGTGGTTTCACACTGACCTCTGTACTT
+GACAATTCATGTGTATTTGCCAGCTCAGgAGGAAGCCAGATTTTAATTACATTAACCAAT
+GCTGACTTTTTTttGGACATGTGGTACATCTGCAAGGAGGTGAAGGAAGCAGTTGGAGTT
+GCATGGATGTGGAATCTTGTTGATAGTCTGGCAGTCTTATCCACAGATTATCCCAAAGCT
+TCTCCACATTGCCACATTCAGAACTTATTACATTGATAAACTTGAAAATtGCAGGAATCT
+AaCcAaGCACCcATCAaGGGAaTTTGTTTGTATAATtATtGAAaGCTGTGACcTTCTGAT
+GTGACAGACTAATGTGAAaTAAAGGgCAgtaGaTTaCCTTGTaaTGAACCttGTTATTGT
+TTGATTGTATCTAAtGTTTGCAaaTTTTAAGTTGCATGCTACCAATTGAAACATAATTCT
+TTCTCTAttaatgggatataaaatacttctccttaaaagggTGTgAaGACTcggCACAAA
+GAAACGTCtaTGCcGgtAaTCTGACCTAGTTTcgAatGaGGTGTAACagAAGTgTtAGAC
+ACcACCAttGATCCcAGAAAATACACACACAGCTTGCTACCGTCGGTAaTTAGACACTAG
+TGTACAGTCAaTACATACAGCTAcGgTCAATACCCACAaCACAgTGTAcATAGCAGCGaT
+GgACATCTCAGGTCTAGATAAAAGATAaCAAGGTATCACGTTTCATtaCTGTCTGCATTT
+tGTAGCgaCAagAAGAAAAcgtCATTtGCAAGCAaTGgAAAGTtAACTTTTTCaGAGCGc
+agCAcGCgggTTGGGGCAAGTCTTCCAAGCCTTTAAGTtGACAtcTTGCCTTTGGCTATC
+CAGGgTGACAAGATGATACTAGCAGGTAgagtgactaattgagccctgtgtgagaaacca
+atgcagaatctagcctagt
+>isotig00015  gene=isogroup00003  length=1138  numContigs=4
+TGAATGAGAAAtGAAATTTAGCGAAGAAATCACCTTGTAAATTAAAAACTAAAATGGCTT
+TCACACAAATTAaCAGTAAAtGgAGAATGTTTTTAAAGCAATATATGCAGTACAGCcATT
+CATTGGAAAACAGTAAcAAAaTACATTTATCTTGTtcATTTTtACctCctGCAAaacTTA
+cAaCcGTTAATTATGTAGATTGGATGGCACTAACAGGGTACTTGTCTTATCTGCCTATTG
+GATAATGTGGcATTAATACTACTGTGTATGGGCACTGAGGCTGAGAGTGCAGTAAGTTtA
+AAGGCATTGAAGACTCtCCCCGAaCcGCGtGCCGGGCTctGAAAAAGTtAaCTGCTCGCA
+AaTtAcGTTTtCTtCTTGTCaCTaCAAAaTGCAGACATTaaTGAAACGTGATACCTTGTt
+ATCTTTTATCTAGACCTGAGATGTCcAtCGCTGCTATgTACAcTGTGTTGTGGGTATTGA
+CcgTAGCTGTATGTATtGACTGTACACTAGTGTCTAATtACCGACGGTAGCAAGCTGtGT
+TTGTATTTTCtGGGATCGatGGCAGTGTCTAACACTTcTGTtACACCTCATtcGAAACTA
+GGTCAGATTACCGGCATTAGACGTtCTTTTTGCgCGAGTCTTCACACCCTTTtAAAGctA
+CTCCAtgCTGACAcACGtGgTTCCGGacTACAGAGCAATAAAAaGTAACATTCACTCCTT
+GAagTtaCTCCATGCTGgCTGCCCTTAtaGATGTGGCaatGGAtaCGGACgAGAGACTTC
+ACTTCTGTTGGTTGCaaaaTTCCATACACCATGGAAGCATGGAACTCACAAAACTAGtGT
+TGTAgAGGGGGAGCATAGtctATGtAAATGTatGTTCTACGCCTCTGTCCCaGCTGGAAT
+GGCCAGTTTATCTGCCACAATGAAGAATTGTTTGGGgTTCAATtCTGGtCcgaGAGATAG
+GATGAAaGGCTGtcAATATTGTCCTTGTCTGCCCTGTGCTGCgCTCTCAATATCTGTGCC
+CTcccTCGaacaCTGTTattCACTTCTTCGTGGAAACCTTTATTTGTAAGAAAAGTTCTT
+AAAGACTCAGCCAttGCTAATTTATAACCTTTACTCTAGCTTAGACATACGGTCGTCT
+>isotig00016  gene=isogroup00003  length=2185  numContigs=5
+ATGAATGCTGGCCAGATATTTATCGCCTTGATGGCACAACTTTTCAACGCATGTCTTCTC
+GTTTCTTCCAATTTCGATAGTGACATAGCTGACTCGACACTAGGAAAGAGATCTACAGGG
+TTCGTGGACACGTTTGGGAAGCGTTTTGTTGACTCATTCGGTAAACGCGTGGACGAATTT
+GATTATGATCACAATGGGAACTATGCCGAACAAAGTGAACAATCTTCATACATCAGTCCT
+CAACTCAAACGAGGTCAAAAAGGACTGAGAAGCGGATCATTTATTGATGCTTTCGGGAAA
+CGGAGTTCCTTCCAAGAAGTCGATGAGAAGAGGTTCGCGGACTCATTCGGCAAAAGATTC
+GCGGACTCATTTGGGAAAAGGAGCCCGGTAGGATTTGTTGACACCTTGGGTAAAAGATTT
+GCGGTCTCATTCGGTAAAAGAAATACAGTCGGATTTGTTGACACTTTGGGTAAAAGATTC
+GCAGACTCGTTCGGCAAGCGGTCTCAACAAGGTTTTGTAGATGCATTCGGCAAACGATAC
+CAGGGCGTTTACTAA
+>isotig00017  gene=isogroup00003  length=2185  numContigs=5
+ATGTGTGGCTGCATTGACGACGCAGAGTTTGCAGCAACTCATCAAGTCCAGTTTTGTGAA
+ATCAATTCTGCGACATTCAATCCAAGAGAAGATCCTCTTATTGATTGTCTATATTCGGCC
+AAAGACAGCGCTATTTGCTCGTGCCCTGAACTTTGCAGTGAACTCGTATACGAAGTCTCC
+AAAGACTCTGTTGATTGGCCAAATATGGCAAACCTGCTCCCGTTCTTGGAGCAAATAAAT
+TCATCAATGACGGGCAAACCTGCCCGAACATTTTTCGACTCGATAATTAACCACTACAGA
+GCCGGTCGCCATGATGAAGCACTAGATTCAGTTCGGAGTACGTTTCTTCAACTCAATATC
+TACATAGAGACAATGGAGGTTGAAGAATACACGGACAGACCCGTTTATGAT

data/lib/npsearch.rb CHANGED Viewed

@@ -54,8 +54,8 @@ module NpSearch
     end
     def initialise_seqs(entry)
-      return if entry.aaseq.length > @opt[:max_seq_length]
-      sp = Signalp.analyse_sequence(entry.aaseq)
+      return if entry.aaseq.length > @opt[:max_orf_length]
+      sp = Signalp.analyse_sequence(entry.aaseq.to_s)
       return if sp[:sp] == 'N'
       # seq = Sequence.new(entry.entry_id, entry.definition, entry.aaseq, sp)
       seq = Sequence.new(entry, sp)

data/lib/npsearch/arg_validator.rb CHANGED Viewed

@@ -1,4 +1,5 @@
 require 'bio'
 # Top level module / namespace.
 module NpSearch
   # A class that validates the command line opts
@@ -6,6 +7,7 @@ module NpSearch
     class << self
       def run(opt)
         assert_file_present('input fasta file', opt[:input_file])
+        opt[:input_file] = File.expand_path(opt[:input_file])
         assert_input_file_not_empty(opt[:input_file])
         assert_input_file_probably_fasta(opt[:input_file])
         opt[:type] = assert_input_sequence(opt[:input_file])
@@ -48,8 +50,9 @@ module NpSearch
         exit 1
       end
+      # determine file sequence type based on first 500 lines
       def type_of_sequences(file)
-        fasta_content = IO.binread(file)
+        fasta_content = File.foreach(file).first(500).join("\n")
         # the first sequence does not need to have a fasta definition line
         sequences = fasta_content.split(/^>.*$/).delete_if(&:empty?)
         # get all sequence types

data/lib/npsearch/output.rb CHANGED Viewed

@@ -18,8 +18,8 @@ module NpSearch
           sorted_sequences.each do |s|
             if input_type == :protein
               f.puts ">#{s.defline}\n#{s.signalp}#{s.seq}"
-            elsif input_type == :nucleotide
-              f.puts ">#{s.defline}-(frame:#{s.translated_frame})"
+            elsif input_type == :genetic
+              f.puts ">#{s.defline}"
               f.puts "#{s.signalp}#{s.seq}"
             end
           end

data/lib/npsearch/signalp.rb CHANGED Viewed

@@ -1,4 +1,6 @@
 require 'forwardable'
+require 'open3'
+require 'timeout'
 # Top level module / namespace.
 module NpSearch
@@ -11,33 +13,34 @@ module NpSearch
       def analyse_sequence(seq)
         sp_headers = %w(name cmax cmax_pos ymax ymax_pos smax smax_pos smean d
                         sp dmaxcut networks orf)
-        data       = setup_analysis(seq)
-        orf_results = []
-        s = `echo "#{data[:fasta]}\n" | #{opt[:signalp_path]} -t euk \
-             -f short -U 0.34 -u 0.34`
-        sp_results = s.split("\n").delete_if { |l| l[0] == '#' }
-        sp_results.each_with_index do |line, idx|
-          line = line + ' ' + data[:seq][idx].to_s
-          orf_results << Hash[sp_headers.map(&:to_sym).zip(line.split)]
+        seqs       = setup_analysis(seq)
+        sp_results = []
+        seqs.each do |seq|
+          sp_results << run_signalp(seq, sp_headers)
         end
-        orf_results.sort_by { |h| h[:d] }.reverse[0]
+        sp_results.sort_by { |h| h[:d] }.reverse[0]
       end
-      def setup_analysis(seq)
-        if opt[:type] == :protein
-          data = { seq: [seq], fasta: ">seq\n#{seq}" }
-        else
-          orfs = seq.scan(/(?=(M\w+))./).flatten
-          orfs.unshift(seq)
-          data = { seq: orfs, fasta: create_orf_fasta(orfs) }
+      private
+      def run_signalp(seq, sp_headers)
+        Timeout::timeout(300) do
+          cmd = "echo '>seq\n#{seq}\n' | #{opt[:signalp_path]} -t euk" \
+                " -f short -U 0.34 -u 0.34"
+          stdin, stdout, stderr, wait_thr = Open3.popen3(cmd)
+          out = stdout.gets(nil).split("\n").delete_if { |l| l[0] == '#' }
+          stdin.close; stdout.close; stderr.close
+          result = out[0] + ' ' + seq
+          return Hash[sp_headers.map(&:to_sym).zip(result.split)]
         end
-        data
+      rescue Timeout::Error
+        no_results = [0,0,1,1,1,1,1,1,1,'N',1,1, seq]
+        return Hash[sp_headers.map(&:to_sym).zip(no_results)]
       end
-      def create_orf_fasta(m_orf)
-        fasta = ''
-        m_orf.each_with_index { |seq, idx| fasta << ">#{idx}\n#{seq}\n" }
-        fasta
+      def setup_analysis(seq)
+        orfs = seq.scan(/(?=(M\w{#{opt[:min_orf_length]},}))./).flatten
+        (opt[:type] == :protein || orfs.empty? || orfs.nil?) ? [seq] : orfs
       end
     end
   end

data/lib/npsearch/version.rb CHANGED Viewed

@@ -1,4 +1,4 @@
 # Top level module / namespace.
 module NpSearch
-  VERSION = '2.1.0'.freeze
+  VERSION = '2.1.1'.freeze
 end

data/templates/contents.slim CHANGED Viewed

@@ -5,7 +5,7 @@ html lang="en"
     meta content="IE=edge" http-equiv="X-UA-Compatible"
     meta content="width=device-width, initial-scale=1" name="viewport"
     meta content="NpSearch | Identify Novel Neuropeptides" name="description"
-    meta content="Wurmlab" name="author"
+    meta content="Moghul et al." name="author"
     title NpSearch | Identify Novel Neuropeptides
     css:
       html { position: relative; min-height: 100%; }
@@ -28,10 +28,7 @@ html lang="en"
         - @sorted_sequences.each do |seq|
           p.sequence
             span.id
-              - if @opt[:type] == :protein
-                | >#{seq.defline}
-              - elsif @opt[:type] == :nucleotide
-                | >#{seq.defline}-(frame:#{seq.translated_frame})
+              | >#{seq.defline}
             br
             span.seq== seq.html_seq
       br
@@ -39,13 +36,15 @@ html lang="en"
       br
     footer
       p
-        | Please cite "Moghul I, Rowe M, Priyam A, Elphick M &amp; Wurm Y
+        | Please cite "Moghul
         em
-          | (in prep)
-        | NpSearch: A tool to identify novel neuropeptides"
+          |  et al. (in prep)
+        | NpSearch: Identify Novel Neuropeptides"
         br
         |  Developed at
-        a href="https://wurmlab.github.io" target="_blank" Wurm Lab
+        a href="https://wurmlab.github.io" target="_blank" Wurm Lab
+        | &amp;
+        a href="http://www.sbcs.qmul.ac.uk/staff/mauriceelphick.html" target="_blank" Elphick Lab
         | ,
         a href="http://www.sbcs.qmul.ac.uk" target="_blank" QMUL
         br

metadata CHANGED Viewed

@@ -1,7 +1,7 @@
 --- !ruby/object:Gem::Specification
 name: npsearch
 version: !ruby/object:Gem::Version
-  version: 2.1.0
+  version: 2.1.1
 platform: ruby
 authors:
 - Ismail Moghul
@@ -12,7 +12,7 @@ authors:
 autorequire:
 bindir: bin
 cert_chain: []
-date: 2016-10-04 00:00:00.000000000 Z
+date: 2016-11-11 00:00:00.000000000 Z
 dependencies:
 - !ruby/object:Gem::Dependency
   name: bundler
@@ -117,6 +117,8 @@ files:
 - README.md
 - Rakefile
 - bin/npsearch
+- exemplar_data/README.md
+- exemplar_data/genetic_data.fa
 - lib/npsearch.rb
 - lib/npsearch/arg_validator.rb
 - lib/npsearch/output.rb