PyPI - biotite - Versions diffs - 0.41.1__cp312-cp312-macosx_10_16_x86_64.whl - Mend

biotite 0.41.1__cp312-cp312-macosx_10_16_x86_64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of biotite might be problematic. Click here for more details.

Files changed (340) hide show

biotite/__init__.py +19 -0
biotite/application/__init__.py +43 -0
biotite/application/application.py +265 -0
biotite/application/autodock/__init__.py +12 -0
biotite/application/autodock/app.py +505 -0
biotite/application/blast/__init__.py +14 -0
biotite/application/blast/alignment.py +83 -0
biotite/application/blast/webapp.py +421 -0
biotite/application/clustalo/__init__.py +12 -0
biotite/application/clustalo/app.py +238 -0
biotite/application/dssp/__init__.py +12 -0
biotite/application/dssp/app.py +152 -0
biotite/application/localapp.py +306 -0
biotite/application/mafft/__init__.py +12 -0
biotite/application/mafft/app.py +122 -0
biotite/application/msaapp.py +374 -0
biotite/application/muscle/__init__.py +13 -0
biotite/application/muscle/app3.py +254 -0
biotite/application/muscle/app5.py +171 -0
biotite/application/sra/__init__.py +18 -0
biotite/application/sra/app.py +456 -0
biotite/application/tantan/__init__.py +12 -0
biotite/application/tantan/app.py +222 -0
biotite/application/util.py +59 -0
biotite/application/viennarna/__init__.py +18 -0
biotite/application/viennarna/rnaalifold.py +304 -0
biotite/application/viennarna/rnafold.py +269 -0
biotite/application/viennarna/rnaplot.py +187 -0
biotite/application/viennarna/util.py +72 -0
biotite/application/webapp.py +77 -0
biotite/copyable.py +71 -0
biotite/database/__init__.py +23 -0
biotite/database/entrez/__init__.py +15 -0
biotite/database/entrez/check.py +61 -0
biotite/database/entrez/dbnames.py +89 -0
biotite/database/entrez/download.py +223 -0
biotite/database/entrez/key.py +44 -0
biotite/database/entrez/query.py +223 -0
biotite/database/error.py +15 -0
biotite/database/pubchem/__init__.py +21 -0
biotite/database/pubchem/download.py +260 -0
biotite/database/pubchem/error.py +20 -0
biotite/database/pubchem/query.py +827 -0
biotite/database/pubchem/throttle.py +99 -0
biotite/database/rcsb/__init__.py +13 -0
biotite/database/rcsb/download.py +167 -0
biotite/database/rcsb/query.py +959 -0
biotite/database/uniprot/__init__.py +13 -0
biotite/database/uniprot/check.py +32 -0
biotite/database/uniprot/download.py +134 -0
biotite/database/uniprot/query.py +209 -0
biotite/file.py +251 -0
biotite/sequence/__init__.py +73 -0
biotite/sequence/align/__init__.py +49 -0
biotite/sequence/align/alignment.py +658 -0
biotite/sequence/align/banded.cpython-312-darwin.so +0 -0
biotite/sequence/align/banded.pyx +652 -0
biotite/sequence/align/buckets.py +69 -0
biotite/sequence/align/cigar.py +434 -0
biotite/sequence/align/kmeralphabet.cpython-312-darwin.so +0 -0
biotite/sequence/align/kmeralphabet.pyx +574 -0
biotite/sequence/align/kmersimilarity.cpython-312-darwin.so +0 -0
biotite/sequence/align/kmersimilarity.pyx +233 -0
biotite/sequence/align/kmertable.cpython-312-darwin.so +0 -0
biotite/sequence/align/kmertable.pyx +3400 -0
biotite/sequence/align/localgapped.cpython-312-darwin.so +0 -0
biotite/sequence/align/localgapped.pyx +892 -0
biotite/sequence/align/localungapped.cpython-312-darwin.so +0 -0
biotite/sequence/align/localungapped.pyx +279 -0
biotite/sequence/align/matrix.py +405 -0
biotite/sequence/align/matrix_data/BLOSUM100.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM30.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM35.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM40.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM45.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM50.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM50_13p.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM50_14.3.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM50_5.0.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM55.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM60.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM62.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM62_13p.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM62_14.3.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM62_5.0.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM65.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM70.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM75.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM80.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM85.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM90.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUMN.mat +31 -0
biotite/sequence/align/matrix_data/CorBLOSUM49_5.0.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM57_13p.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM57_14.3.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM61_5.0.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM66_13p.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM67_14.3.mat +25 -0
biotite/sequence/align/matrix_data/DAYHOFF.mat +32 -0
biotite/sequence/align/matrix_data/GONNET.mat +26 -0
biotite/sequence/align/matrix_data/IDENTITY.mat +25 -0
biotite/sequence/align/matrix_data/MATCH.mat +25 -0
biotite/sequence/align/matrix_data/NUC.mat +25 -0
biotite/sequence/align/matrix_data/PAM10.mat +34 -0
biotite/sequence/align/matrix_data/PAM100.mat +34 -0
biotite/sequence/align/matrix_data/PAM110.mat +34 -0
biotite/sequence/align/matrix_data/PAM120.mat +34 -0
biotite/sequence/align/matrix_data/PAM130.mat +34 -0
biotite/sequence/align/matrix_data/PAM140.mat +34 -0
biotite/sequence/align/matrix_data/PAM150.mat +34 -0
biotite/sequence/align/matrix_data/PAM160.mat +34 -0
biotite/sequence/align/matrix_data/PAM170.mat +34 -0
biotite/sequence/align/matrix_data/PAM180.mat +34 -0
biotite/sequence/align/matrix_data/PAM190.mat +34 -0
biotite/sequence/align/matrix_data/PAM20.mat +34 -0
biotite/sequence/align/matrix_data/PAM200.mat +34 -0
biotite/sequence/align/matrix_data/PAM210.mat +34 -0
biotite/sequence/align/matrix_data/PAM220.mat +34 -0
biotite/sequence/align/matrix_data/PAM230.mat +34 -0
biotite/sequence/align/matrix_data/PAM240.mat +34 -0
biotite/sequence/align/matrix_data/PAM250.mat +34 -0
biotite/sequence/align/matrix_data/PAM260.mat +34 -0
biotite/sequence/align/matrix_data/PAM270.mat +34 -0
biotite/sequence/align/matrix_data/PAM280.mat +34 -0
biotite/sequence/align/matrix_data/PAM290.mat +34 -0
biotite/sequence/align/matrix_data/PAM30.mat +34 -0
biotite/sequence/align/matrix_data/PAM300.mat +34 -0
biotite/sequence/align/matrix_data/PAM310.mat +34 -0
biotite/sequence/align/matrix_data/PAM320.mat +34 -0
biotite/sequence/align/matrix_data/PAM330.mat +34 -0
biotite/sequence/align/matrix_data/PAM340.mat +34 -0
biotite/sequence/align/matrix_data/PAM350.mat +34 -0
biotite/sequence/align/matrix_data/PAM360.mat +34 -0
biotite/sequence/align/matrix_data/PAM370.mat +34 -0
biotite/sequence/align/matrix_data/PAM380.mat +34 -0
biotite/sequence/align/matrix_data/PAM390.mat +34 -0
biotite/sequence/align/matrix_data/PAM40.mat +34 -0
biotite/sequence/align/matrix_data/PAM400.mat +34 -0
biotite/sequence/align/matrix_data/PAM410.mat +34 -0
biotite/sequence/align/matrix_data/PAM420.mat +34 -0
biotite/sequence/align/matrix_data/PAM430.mat +34 -0
biotite/sequence/align/matrix_data/PAM440.mat +34 -0
biotite/sequence/align/matrix_data/PAM450.mat +34 -0
biotite/sequence/align/matrix_data/PAM460.mat +34 -0
biotite/sequence/align/matrix_data/PAM470.mat +34 -0
biotite/sequence/align/matrix_data/PAM480.mat +34 -0
biotite/sequence/align/matrix_data/PAM490.mat +34 -0
biotite/sequence/align/matrix_data/PAM50.mat +34 -0
biotite/sequence/align/matrix_data/PAM500.mat +34 -0
biotite/sequence/align/matrix_data/PAM60.mat +34 -0
biotite/sequence/align/matrix_data/PAM70.mat +34 -0
biotite/sequence/align/matrix_data/PAM80.mat +34 -0
biotite/sequence/align/matrix_data/PAM90.mat +34 -0
biotite/sequence/align/matrix_data/RBLOSUM52_5.0.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM59_13p.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM59_14.3.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM64_5.0.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM69_13p.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM69_14.3.mat +25 -0
biotite/sequence/align/multiple.cpython-312-darwin.so +0 -0
biotite/sequence/align/multiple.pyx +620 -0
biotite/sequence/align/pairwise.cpython-312-darwin.so +0 -0
biotite/sequence/align/pairwise.pyx +587 -0
biotite/sequence/align/permutation.cpython-312-darwin.so +0 -0
biotite/sequence/align/permutation.pyx +305 -0
biotite/sequence/align/primes.txt +821 -0
biotite/sequence/align/selector.cpython-312-darwin.so +0 -0
biotite/sequence/align/selector.pyx +956 -0
biotite/sequence/align/statistics.py +265 -0
biotite/sequence/align/tracetable.cpython-312-darwin.so +0 -0
biotite/sequence/align/tracetable.pxd +64 -0
biotite/sequence/align/tracetable.pyx +370 -0
biotite/sequence/alphabet.py +566 -0
biotite/sequence/annotation.py +829 -0
biotite/sequence/codec.cpython-312-darwin.so +0 -0
biotite/sequence/codec.pyx +155 -0
biotite/sequence/codon.py +466 -0
biotite/sequence/codon_tables.txt +202 -0
biotite/sequence/graphics/__init__.py +33 -0
biotite/sequence/graphics/alignment.py +1034 -0
biotite/sequence/graphics/color_schemes/autumn.json +51 -0
biotite/sequence/graphics/color_schemes/blossom.json +51 -0
biotite/sequence/graphics/color_schemes/clustalx_dna.json +11 -0
biotite/sequence/graphics/color_schemes/clustalx_protein.json +28 -0
biotite/sequence/graphics/color_schemes/flower.json +51 -0
biotite/sequence/graphics/color_schemes/jalview_buried.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_hydrophobicity.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_prop_helix.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_prop_strand.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_prop_turn.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_taylor.json +28 -0
biotite/sequence/graphics/color_schemes/jalview_zappo.json +28 -0
biotite/sequence/graphics/color_schemes/ocean.json +51 -0
biotite/sequence/graphics/color_schemes/pb_flower.json +39 -0
biotite/sequence/graphics/color_schemes/rainbow_dna.json +11 -0
biotite/sequence/graphics/color_schemes/rainbow_protein.json +30 -0
biotite/sequence/graphics/color_schemes/spring.json +51 -0
biotite/sequence/graphics/color_schemes/sunset.json +51 -0
biotite/sequence/graphics/color_schemes/wither.json +51 -0
biotite/sequence/graphics/colorschemes.py +139 -0
biotite/sequence/graphics/dendrogram.py +184 -0
biotite/sequence/graphics/features.py +510 -0
biotite/sequence/graphics/logo.py +110 -0
biotite/sequence/graphics/plasmid.py +661 -0
biotite/sequence/io/__init__.py +12 -0
biotite/sequence/io/fasta/__init__.py +22 -0
biotite/sequence/io/fasta/convert.py +273 -0
biotite/sequence/io/fasta/file.py +278 -0
biotite/sequence/io/fastq/__init__.py +19 -0
biotite/sequence/io/fastq/convert.py +120 -0
biotite/sequence/io/fastq/file.py +551 -0
biotite/sequence/io/genbank/__init__.py +17 -0
biotite/sequence/io/genbank/annotation.py +277 -0
biotite/sequence/io/genbank/file.py +575 -0
biotite/sequence/io/genbank/metadata.py +324 -0
biotite/sequence/io/genbank/sequence.py +172 -0
biotite/sequence/io/general.py +192 -0
biotite/sequence/io/gff/__init__.py +26 -0
biotite/sequence/io/gff/convert.py +133 -0
biotite/sequence/io/gff/file.py +434 -0
biotite/sequence/phylo/__init__.py +36 -0
biotite/sequence/phylo/nj.cpython-312-darwin.so +0 -0
biotite/sequence/phylo/nj.pyx +221 -0
biotite/sequence/phylo/tree.cpython-312-darwin.so +0 -0
biotite/sequence/phylo/tree.pyx +1169 -0
biotite/sequence/phylo/upgma.cpython-312-darwin.so +0 -0
biotite/sequence/phylo/upgma.pyx +164 -0
biotite/sequence/profile.py +456 -0
biotite/sequence/search.py +116 -0
biotite/sequence/seqtypes.py +556 -0
biotite/sequence/sequence.py +374 -0
biotite/structure/__init__.py +132 -0
biotite/structure/atoms.py +1455 -0
biotite/structure/basepairs.py +1415 -0
biotite/structure/bonds.cpython-312-darwin.so +0 -0
biotite/structure/bonds.pyx +1933 -0
biotite/structure/box.py +592 -0
biotite/structure/celllist.cpython-312-darwin.so +0 -0
biotite/structure/celllist.pyx +849 -0
biotite/structure/chains.py +298 -0
biotite/structure/charges.cpython-312-darwin.so +0 -0
biotite/structure/charges.pyx +520 -0
biotite/structure/compare.py +274 -0
biotite/structure/density.py +114 -0
biotite/structure/dotbracket.py +216 -0
biotite/structure/error.py +31 -0
biotite/structure/filter.py +585 -0
biotite/structure/geometry.py +697 -0
biotite/structure/graphics/__init__.py +13 -0
biotite/structure/graphics/atoms.py +226 -0
biotite/structure/graphics/rna.py +282 -0
biotite/structure/hbond.py +409 -0
biotite/structure/info/__init__.py +25 -0
biotite/structure/info/atom_masses.json +121 -0
biotite/structure/info/atoms.py +82 -0
biotite/structure/info/bonds.py +145 -0
biotite/structure/info/ccd/README.rst +8 -0
biotite/structure/info/ccd/amino_acids.txt +1663 -0
biotite/structure/info/ccd/carbohydrates.txt +1135 -0
biotite/structure/info/ccd/components.bcif +0 -0
biotite/structure/info/ccd/nucleotides.txt +798 -0
biotite/structure/info/ccd.py +95 -0
biotite/structure/info/groups.py +90 -0
biotite/structure/info/masses.py +123 -0
biotite/structure/info/misc.py +144 -0
biotite/structure/info/radii.py +197 -0
biotite/structure/info/standardize.py +196 -0
biotite/structure/integrity.py +268 -0
biotite/structure/io/__init__.py +30 -0
biotite/structure/io/ctab.py +72 -0
biotite/structure/io/dcd/__init__.py +13 -0
biotite/structure/io/dcd/file.py +65 -0
biotite/structure/io/general.py +257 -0
biotite/structure/io/gro/__init__.py +14 -0
biotite/structure/io/gro/file.py +343 -0
biotite/structure/io/mmtf/__init__.py +21 -0
biotite/structure/io/mmtf/assembly.py +214 -0
biotite/structure/io/mmtf/convertarray.cpython-312-darwin.so +0 -0
biotite/structure/io/mmtf/convertarray.pyx +341 -0
biotite/structure/io/mmtf/convertfile.cpython-312-darwin.so +0 -0
biotite/structure/io/mmtf/convertfile.pyx +501 -0
biotite/structure/io/mmtf/decode.cpython-312-darwin.so +0 -0
biotite/structure/io/mmtf/decode.pyx +152 -0
biotite/structure/io/mmtf/encode.cpython-312-darwin.so +0 -0
biotite/structure/io/mmtf/encode.pyx +183 -0
biotite/structure/io/mmtf/file.py +233 -0
biotite/structure/io/mol/__init__.py +20 -0
biotite/structure/io/mol/convert.py +115 -0
biotite/structure/io/mol/ctab.py +414 -0
biotite/structure/io/mol/header.py +116 -0
biotite/structure/io/mol/mol.py +193 -0
biotite/structure/io/mol/sdf.py +916 -0
biotite/structure/io/netcdf/__init__.py +13 -0
biotite/structure/io/netcdf/file.py +63 -0
biotite/structure/io/npz/__init__.py +20 -0
biotite/structure/io/npz/file.py +152 -0
biotite/structure/io/pdb/__init__.py +20 -0
biotite/structure/io/pdb/convert.py +293 -0
biotite/structure/io/pdb/file.py +1240 -0
biotite/structure/io/pdb/hybrid36.cpython-312-darwin.so +0 -0
biotite/structure/io/pdb/hybrid36.pyx +242 -0
biotite/structure/io/pdbqt/__init__.py +15 -0
biotite/structure/io/pdbqt/convert.py +107 -0
biotite/structure/io/pdbqt/file.py +640 -0
biotite/structure/io/pdbx/__init__.py +23 -0
biotite/structure/io/pdbx/bcif.py +648 -0
biotite/structure/io/pdbx/cif.py +1032 -0
biotite/structure/io/pdbx/component.py +246 -0
biotite/structure/io/pdbx/convert.py +1597 -0
biotite/structure/io/pdbx/encoding.cpython-312-darwin.so +0 -0
biotite/structure/io/pdbx/encoding.pyx +950 -0
biotite/structure/io/pdbx/legacy.py +267 -0
biotite/structure/io/tng/__init__.py +13 -0
biotite/structure/io/tng/file.py +46 -0
biotite/structure/io/trajfile.py +710 -0
biotite/structure/io/trr/__init__.py +13 -0
biotite/structure/io/trr/file.py +46 -0
biotite/structure/io/xtc/__init__.py +13 -0
biotite/structure/io/xtc/file.py +46 -0
biotite/structure/mechanics.py +75 -0
biotite/structure/molecules.py +353 -0
biotite/structure/pseudoknots.py +642 -0
biotite/structure/rdf.py +243 -0
biotite/structure/repair.py +253 -0
biotite/structure/residues.py +562 -0
biotite/structure/resutil.py +178 -0
biotite/structure/sasa.cpython-312-darwin.so +0 -0
biotite/structure/sasa.pyx +322 -0
biotite/structure/sequence.py +112 -0
biotite/structure/sse.py +327 -0
biotite/structure/superimpose.py +727 -0
biotite/structure/transform.py +504 -0
biotite/structure/util.py +98 -0
biotite/temp.py +86 -0
biotite/version.py +16 -0
biotite/visualize.py +251 -0
biotite-0.41.1.dist-info/METADATA +187 -0
biotite-0.41.1.dist-info/RECORD +340 -0
biotite-0.41.1.dist-info/WHEEL +4 -0
biotite-0.41.1.dist-info/licenses/LICENSE.rst +30 -0

biotite/sequence/io/genbank/metadata.py ADDED Viewed

@@ -0,0 +1,324 @@
+# This source code is part of the Biotite package and is distributed
+# under the 3-Clause BSD License. Please see 'LICENSE.rst' for further
+# information.
+"""
+Functions for obtaining metadata fields of a GenBank file.
+"""
+__name__ = "biotite.sequence.io.genbank"
+__author__ = "Patrick Kunzmann, Natasha Jaffe"
+__all__ = ["get_locus", "get_definition", "get_accession", "get_version",
+           "get_gi", "get_db_link", "get_source",
+           "set_locus"]
+from ....file import InvalidFileError
+from .file import GenBankFile
+def get_locus(gb_file):
+    """
+    Parse the *LOCUS* field of a GenBank or GenPept file.
+    Parameters
+    ----------
+    gb_file : GenBankFile
+        The GenBank file to read the *LOCUS* field from.
+    Returns
+    -------
+    name : str
+        The locus name.
+    length : int
+        Sequence length.
+    mol_type : str, optional
+        The molecule type.
+        Usually one of ``'DNA'``, ``'RNA'``, ``'Protein'`` or ``''``.
+    is_circular : bool, optional
+        True, if the sequence is circular, false otherwise.
+    division : str, optional
+        The GenBank division to which the file belongs.
+    date : str, optional
+        The date of last modification.
+    Examples
+    --------
+    >>> import os.path
+    >>> file = GenBankFile.read(os.path.join(path_to_sequences, "ec_bl21.gb"))
+    >>> name, length, mol_type, is_circular, division, date = get_locus(file)
+    >>> print(name)
+    CP001509
+    >>> print(length)
+    4558953
+    >>> print(mol_type)
+    DNA
+    >>> print(is_circular)
+    True
+    >>> print(division)
+    BCT
+    >>> print(date)
+    16-FEB-2017
+    """
+    lines, _ = _expect_single_field(gb_file, "LOCUS")
+    # 'LOCUS' field has only one line
+    locus_info = lines[0]
+    fields = str(locus_info).split()
+    # The first field will always be the ID
+    name = fields[0]
+    # The second field will always be the length followed
+    # by units (eg 1224 aa)
+    length = int(fields[1])
+    # The third field *should* be the molecular type
+    # but sometimes this is missing.  This gets tricky
+    # because sometimes the next field, circular/linear,
+    # is missing, too. The field after that, division,
+    # is a 3 letter all caps token. Unfortunately, mol_type
+    # is also often a 3 letter all caps token (eg DNA)!
+    # Fortunately, GenBank publishes the set list of divisions
+    # here: https://www.ncbi.nlm.nih.gov/genbank/samplerecord ,
+    # so we can check against that set when determining whether
+    # the current token represents the molecular type.
+    divisions = (
+        'PRI', # primate sequences
+        'ROD', # rodent sequences
+        'MAM', # other mammalian sequences
+        'VRT', # other vertebrate sequences
+        'INV', # invertebrate sequences
+        'PLN', # plant, fungal, and algal sequences
+        'BCT', # bacterial sequences
+        'VRL', # viral sequences
+        'PHG', # bacteriophage sequences
+        'SYN', # synthetic sequences
+        'UNA', # unannotated sequences
+        'EST', # EST sequences (expressed sequence tags)
+        'PAT', # patent sequences
+        'STS', # STS sequences (sequence tagged sites)
+        'GSS', # GSS sequences (genome survey sequences)
+        'HTG', # HTG sequences (high-throughput genomic sequences)
+        'HTC', # unfinished high-throughput cDNA sequencing
+        'ENV', # environmental sampling sequences
+        'CON',
+    )
+    # NOTE: Remember that fields[2] is the unit for length,
+    #       eg bp or aa, so we move to fields[3] here.
+    if fields[3] not in ('linear', 'circular') \
+        and fields[3] not in divisions:
+        mol_type = fields[3]
+        next_idx = 4
+    else:
+        mol_type = None
+        next_idx = 3
+    # The next field should be the token 'linear' or 'circular',
+    # but sometimes this is missing
+    if 'linear' == fields[next_idx]:
+        is_circular = False
+        next_idx += 1
+    elif 'circular' == fields[next_idx]:
+        is_circular = True
+        next_idx += 1
+    else:
+        is_circular = False
+    # The next field should be the division
+    if fields[next_idx] in divisions:
+        division = fields[next_idx]
+        next_idx += 1
+    # The last field is a date in the format DD-M-YYYY
+    date = fields[next_idx]
+    return name, length, mol_type, is_circular, division, date
+def get_definition(gb_file):
+    """
+    Parse the *DEFINITION* field of a GenBank or GenPept file.
+    Parameters
+    ----------
+    gb_file : GenBankFile
+        The GenBank file to read the *DEFINITION* field from.
+    Returns
+    -------
+    definition : str
+        Content of the *DEFINITION* field.
+    Examples
+    --------
+    >>> import os.path
+    >>> file = GenBankFile.read(os.path.join(path_to_sequences, "ec_bl21.gb"))
+    >>> print(get_definition(file))
+    Escherichia coli BL21(DE3), complete genome.
+    """
+    lines, _ = _expect_single_field(gb_file, "DEFINITION")
+    return " ".join([line.strip() for line in lines])
+def get_accession(gb_file):
+    """
+    Parse the *ACCESSION* field of a GenBank or GenPept file.
+    Parameters
+    ----------
+    gb_file : GenBankFile
+        The GenBank file to read the *ACCESSION* field from.
+    Returns
+    -------
+    accession : str
+        The accession ID of the file.
+    Examples
+    --------
+    >>> import os.path
+    >>> file = GenBankFile.read(os.path.join(path_to_sequences, "ec_bl21.gb"))
+    >>> print(get_accession(file))
+    CP001509
+    """
+    lines, _ = _expect_single_field(gb_file, "ACCESSION")
+    # 'ACCESSION' field has only one line
+    return lines[0]
+def get_version(gb_file):
+    """
+    Parse the version from the *VERSION* field of a GenBank or GenPept
+    file.
+    Parameters
+    ----------
+    gb_file : GenBankFile
+        The GenBank file to read the *VERSION* field from.
+    Returns
+    -------
+    version : str
+        Content of the *VERSION* field. Does not include GI.
+    """
+    lines, _ = _expect_single_field(gb_file, "VERSION")
+    # 'VERSION' field has only one line
+    return lines[0].split()[0]
+def get_gi(gb_file):
+    """
+    Parse the GI from the *VERSION* field of a GenBank or GenPept
+    file.
+    Parameters
+    ----------
+    gb_file : GenBankFile
+        The GenBank file to read the *VERSION* field from.
+    Returns
+    -------
+    gi : str
+        The GI of the file.
+    """
+    lines, _ = _expect_single_field(gb_file, "VERSION")
+    # 'VERSION' field has only one line
+    version_info = lines[0].split()
+    if len(version_info) < 2 or "GI" not in version_info[1]:
+        raise InvalidFileError("File does not contain GI")
+    # Truncate GI
+    return int(version_info[1][3:])
+def get_db_link(gb_file):
+    """
+    Parse the *DBLINK* field of a GenBank or GenPept file.
+    Parameters
+    ----------
+    gb_file : GenBankFile
+        The GenBank file to read the *DBLINK* field from.
+    Returns
+    -------
+    link_dict : dict
+        A dictionary storing the database links, with the database
+        name as key, and the corresponding ID as value.
+    Examples
+    --------
+    >>> import os.path
+    >>> file = GenBankFile.read(os.path.join(path_to_sequences, "ec_bl21.gb"))
+    >>> for key, val in get_db_link(file).items():
+    ...     print(key, ":", val)
+    BioProject : PRJNA20713
+    BioSample : SAMN02603478
+    """
+    lines, _ = _expect_single_field(gb_file, "DBLINK")
+    link_dict = {}
+    for line in lines:
+        key, value = line.split(":")
+        link_dict[key.strip()] = value.strip()
+    return link_dict
+def get_source(gb_file):
+    """
+    Parse the *SOURCE* field of a GenBank or GenPept file.
+    Parameters
+    ----------
+    gb_file : GenBankFile
+        The GenBank file to read the *SOURCE* field from.
+    Returns
+    -------
+    accession : str
+        The name of the source organism.
+    """
+    lines, _ = _expect_single_field(gb_file, "SOURCE")
+    # 'SOURCE' field has only one line
+    return lines[0]
+def _expect_single_field(gb_file, name):
+    fields = gb_file.get_fields(name)
+    if len(fields) == 0:
+        raise InvalidFileError(f"File has no '{name}' field")
+    if len(fields) > 1:
+        raise InvalidFileError(f"File has multiple '{name}' fields")
+    return fields[0]
+def set_locus(gb_file, name, length, mol_type=None, is_circular=False,
+              division=None, date=None):
+    """
+    Set the *LOCUS* field of a GenBank file.
+    Parameters
+    ----------
+    gb_file : GenBankFile
+        The GenBank file to be edited.
+    name : str
+        The locus name.
+    length : int
+        Sequence length.
+    mol_type : str, optional
+        The molecule type.
+        Usually one of ``'DNA'``, ``'RNA'``, ``'Protein'`` or ``''``.
+    is_circular : bool, optional
+        True, if the sequence is circular, false otherwise.
+    division : str, optional
+        The GenBank division to which the file belongs.
+    date : str, optional
+        The date of last modification.
+    """
+    mol_type = "" if mol_type is None else mol_type
+    restype_abbr = "aa" if mol_type in ["", "Protein"] else "bp"
+    circularity = "circular" if is_circular else "linear"
+    division = "" if division is None else division
+    date = "" if date is None else date
+    line = f"{name:18} {length:>9} {restype_abbr} {mol_type:^10} " \
+           f"{circularity:8} {division:3} {date:11}"
+    gb_file.set_field("LOCUS", [line])

biotite/sequence/io/genbank/sequence.py ADDED Viewed

@@ -0,0 +1,172 @@
+# This source code is part of the Biotite package and is distributed
+# under the 3-Clause BSD License. Please see 'LICENSE.rst' for further
+# information.
+"""
+Functions for converting a sequence from/to a GenBank file.
+"""
+__name__ = "biotite.sequence.io.genbank"
+__author__ = "Patrick Kunzmann"
+__all__ = ["get_raw_sequence", "get_sequence", "get_annotated_sequence",
+           "set_sequence", "set_annotated_sequence"]
+import re
+from ....file import InvalidFileError
+from ...seqtypes import ProteinSequence, NucleotideSequence
+from ...annotation import AnnotatedSequence
+from .file import GenBankFile
+from .annotation import get_annotation, set_annotation
+_SYMBOLS_PER_CHUNK = 10
+_SEQ_CHUNKS_PER_LINE = 6
+_SYMBOLS_PER_LINE = _SYMBOLS_PER_CHUNK * _SEQ_CHUNKS_PER_LINE
+def get_raw_sequence(gb_file):
+    """
+    Get the raw sequence string from the *ORIGIN* field
+    of a GenBank file.
+    Parameters
+    ----------
+    gb_file : GenBankFile
+        The GenBank file to read the *ORIGIN* field from.
+    Returns
+    -------
+    seq_str: str
+        The unaltered sequence as string.
+        Sequence positions and whitespace characters are removed.
+    """
+    fields = gb_file.get_fields("ORIGIN")
+    if len(fields) == 0:
+        raise InvalidFileError("File has no 'ORIGIN' field")
+    if len(fields) > 1:
+        raise InvalidFileError("File has multiple 'ORIGIN' fields")
+    lines, _ = fields[0]
+    return _field_to_seq_string(lines)
+def get_sequence(gb_file, format="gb"):
+    """
+    Get the sequence from the *ORIGIN* field of a GenBank file.
+    Parameters
+    ----------
+    gb_file : GenBankFile
+        The GenBank file to read the *ORIGIN* field from.
+    format : {'gb', 'gp'}
+        Indicates whether the file is a GenBank or a GenPept file.
+        Depending on this parameter a :class:`NucleotideSequence` or a
+        :class:`ProteinSequence` is returned.
+    Returns
+    -------
+    sequence : NucleotideSequence or ProteinSequence
+        The reference sequence in the file.
+    """
+    return _convert_seq_str(get_raw_sequence(gb_file), format)
+def get_annotated_sequence(gb_file, format="gb", include_only=None):
+    """
+    Get an annotated sequence by combining the *ANNOTATION* and
+    *ORIGIN* fields of a GenBank file.
+    Parameters
+    ----------
+    gb_file : GenBankFile
+        The GenBank file to read the fields from.
+    include_only : iterable object of str, optional
+        List of names of feature keys, which should included
+        in the annotation. By default all features are included.
+    Returns
+    -------
+    annot_seq : AnnotatedSequence
+        The annotated sequence.
+    """
+    fields = gb_file.get_fields("ORIGIN")
+    if len(fields) == 0:
+        raise InvalidFileError("File has no 'ORIGIN' field")
+    if len(fields) > 1:
+        raise InvalidFileError("File has multiple 'ORIGIN' fields")
+    lines, _ = fields[0]
+    sequence = _convert_seq_str(_field_to_seq_string(lines), format)
+    seq_start = _get_seq_start(lines)
+    annotation = get_annotation(gb_file, include_only)
+    return AnnotatedSequence(annotation, sequence, sequence_start=seq_start)
+def _field_to_seq_string(origin_content):
+    seq_str = "".join(origin_content)
+    # Remove numbers and emtpy spaces
+    regex = re.compile("[0-9]| ")
+    seq_str = regex.sub("", seq_str)
+    return seq_str
+def _convert_seq_str(seq_str, format):
+    if len(seq_str) == 0:
+        raise InvalidFileError("The file's 'ORIGIN' field is empty")
+    if format == "gb":
+        return NucleotideSequence(seq_str.replace("U","T").replace("X","N"))
+    elif format == "gp":
+        return ProteinSequence(seq_str.replace("U", "C").replace("O", "K"))
+    else:
+        raise ValueError(f"Unknown format '{format}'")
+def _get_seq_start(origin_content):
+    # Start of sequence is the sequence position indicator
+    # at the beginning of the first line
+    return int(origin_content[0].split()[0])
+def set_sequence(gb_file, sequence, sequence_start=1):
+    """
+    Set the *ORIGIN* field of a GenBank file with a sequence.
+    Parameters
+    ----------
+    gb_file : GenBankFile
+        The GenBank file to be edited.
+    sequence : str or NucleotideSequence or ProteinSequence
+        The sequence that is put into the GenBank file.
+    sequence_start : int, optional
+        The number of the first base of the sequence.
+    """
+    lines = []
+    seq_str = str(sequence).lower()
+    line = "{:>9d}".format(sequence_start)
+    for i in range(0, len(sequence), _SYMBOLS_PER_CHUNK):
+        # New line after 5 sequence chunks
+        if i != 0 and i % _SYMBOLS_PER_LINE == 0:
+            lines.append(line)
+            line = "{:>9d}".format(sequence_start + i)
+        line += " " + str(seq_str[i : i + _SYMBOLS_PER_CHUNK])
+    # Append last line
+    lines.append(line)
+    gb_file.set_field("ORIGIN", lines)
+def set_annotated_sequence(gb_file, annot_sequence):
+    """
+    Set the *FEATURES* and *ORIGIN* fields of a GenBank file with the
+    annotation and sequence of an annotated sequence.
+    Parameters
+    ----------
+    gb_file : GenBankFile
+        The GenBank file to be edited.
+    annot_sequence : AnnotatedSequence
+        The annotated sequence that is put into the GenBank file.
+    """
+    set_annotation(gb_file, annot_sequence.annotation)
+    set_sequence(
+        gb_file, annot_sequence.sequence, annot_sequence.sequence_start
+    )

biotite/sequence/io/general.py ADDED Viewed

@@ -0,0 +1,192 @@
+# This source code is part of the Biotite package and is distributed
+# under the 3-Clause BSD License. Please see 'LICENSE.rst' for further
+# information.
+"""
+This module contains a convenience function for loading sequences from
+general sequence files.
+"""
+__name__ = "biotite.sequence.io"
+__author__ = "Patrick Kunzmann"
+__all__ = ["load_sequence", "save_sequence",
+           "load_sequences", "save_sequences"]
+import itertools
+import os.path
+import io
+from collections import OrderedDict
+import numpy as np
+from ..seqtypes import NucleotideSequence, ProteinSequence
+from ..alphabet import Alphabet
+def load_sequence(file_path):
+    """
+    Load a sequence from a sequence file without the need
+    to manually instantiate a :class:`File` object.
+    Internally this function uses a :class:`File` object, based on the
+    file extension.
+    Parameters
+    ----------
+    file_path : str
+        The path to the sequence file.
+    Returns
+    -------
+    sequence : Sequence
+        The first sequence in the file.
+    """
+    # We only need the suffix here
+    filename, suffix = os.path.splitext(file_path)
+    if suffix in [".fasta", ".fa", ".mpfa", ".fna", ".fsa"]:
+        from .fasta import FastaFile, get_sequence
+        file = FastaFile.read(file_path)
+        return get_sequence(file)
+    elif suffix in [".fastq", ".fq"]:
+        from .fastq import FastqFile
+        # Quality scores are irrelevant for this function
+        # -> Offset is irrelevant
+        file = FastqFile.read(file_path, offset="Sanger")
+        # Get first sequence
+        for seq_str, scores in file.values():
+            sequence = NucleotideSequence(seq_str)
+            break
+        return sequence
+    elif suffix in [".gb", ".gbk", ".gp"]:
+        from .genbank import GenBankFile, get_sequence
+        format = "gp" if suffix == ".gp" else "gb"
+        file = GenBankFile.read(file_path)
+        return get_sequence(file, format)
+    else:
+        raise ValueError(f"Unknown file format '{suffix}'")
+def save_sequence(file_path, sequence):
+    """
+    Save a sequence into a sequence file without the need
+    to manually instantiate a :class:`File` object.
+    Internally this function uses a :class:`File` object, based on the
+    given file extension.
+    Parameters
+    ----------
+    file_path : str
+        The path to structure file.
+    sequence : Sequence
+        The sequence to be saved.
+    """
+    # We only need the suffix here
+    filename, suffix = os.path.splitext(file_path)
+    if suffix in [".fasta", ".fa", ".mpfa", ".fna", ".fsa"]:
+        from .fasta import FastaFile, set_sequence
+        file = FastaFile()
+        set_sequence(file, sequence)
+        file.write(file_path)
+    elif suffix in [".fastq", ".fq"]:
+        from .fastq import FastqFile
+        # Quality scores are irrelevant for this function
+        # -> Offset is irrelevant
+        file = FastqFile(offset="Sanger")
+        # Scores are set to 0 since no score information is supplied
+        scores = np.zeros(len(sequence))
+        file["sequence"] = str(sequence), scores
+        file.write(file_path)
+    elif suffix in [".gb", ".gbk", ".gp"]:
+        from .genbank import GenBankFile, set_locus, set_sequence
+        file = GenBankFile()
+        set_locus(file, "sequence", len(sequence))
+        set_sequence(file, sequence)
+        file.write(file_path)
+    else:
+        raise ValueError(f"Unknown file format '{suffix}'")
+def load_sequences(file_path):
+    """
+    Load multiple sequences from a sequence file without the need
+    to manually instantiate a :class:`File` object.
+    Internally this function uses a :class:`File` object, based on the
+    file extension.
+    Parameters
+    ----------
+    file_path : str
+        The path to the sequence file.
+    Returns
+    -------
+    sequences : dict of (str, Sequence)
+        The sequences in the file.
+        This dictionary maps each header name to
+        the respective sequence.
+    """
+    # We only need the suffix here
+    filename, suffix = os.path.splitext(file_path)
+    if suffix in [".fasta", ".fa", ".mpfa", ".fna", ".fsa"]:
+        from .fasta import FastaFile, get_sequences
+        file = FastaFile.read(file_path)
+        return get_sequences(file)
+    elif suffix in [".fastq", ".fq"]:
+        from .fastq import FastqFile
+        # Quality scores are irrelevant for this function
+        # -> Offset is irrelevant
+        file = FastqFile.read(file_path, offset="Sanger")
+        return {identifier : NucleotideSequence(seq_str)
+                for identifier, (seq_str, scores) in file.items()}
+    elif suffix in [".gb", ".gbk", ".gp"]:
+        from .genbank import MultiFile, get_definition, get_sequence
+        file = MultiFile.read(file_path)
+        format = "gp" if suffix == ".gp" else "gb"
+        sequences = OrderedDict()
+        for f in file:
+            sequences[get_definition(f)] = get_sequence(f, format)
+        return sequences
+    else:
+        raise ValueError(f"Unknown file format '{suffix}'")
+def save_sequences(file_path, sequences):
+    """
+    Save multiple sequences into a sequence file without the need
+    to manually instantiate a :class:`File` object.
+    Internally this function uses a :class:`File` object, based on the
+    given file extension.
+    Parameters
+    ----------
+    file_path : str
+        The path to structure file.
+    sequences : dict of (str, Sequence)
+        The sequences to be saved. The dictionary maps a header name
+        to asequence.
+    """
+    # We only need the suffix here
+    filename, suffix = os.path.splitext(file_path)
+    if suffix in [".fasta", ".fa", ".mpfa", ".fna", ".fsa"]:
+        from .fasta import FastaFile, set_sequences
+        file = FastaFile()
+        set_sequences(file, sequences)
+        file.write(file_path)
+    elif suffix in [".fastq", ".fq"]:
+        from .fastq import FastqFile
+        # Quality scores are irrelevant for this function
+        # -> Offset is irrelevant
+        file = FastqFile(offset="Sanger")
+        for identifier, sequence in sequences.items():
+            # Scores are set to 0 since no score information is supplied
+            scores = np.zeros(len(sequence))
+            file["identifer"] = str(sequence), scores
+        file.write(file_path)
+    elif suffix in [".gb", ".gbk", ".gp"]:
+        raise NotImplementedError(
+            "Writing GenBank files containing multiple records is currently "
+            "not supported"
+        )
+    else:
+        raise ValueError(f"Unknown file format '{suffix}'")