PyPI - biotite - Versions diffs - 0.39.0__cp312-cp312-win_amd64.whl → 0.41.0__cp312-cp312-win_amd64.whl - Mend

biotite 0.39.0__cp312-cp312-win_amd64.whl → 0.41.0__cp312-cp312-win_amd64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of biotite might be problematic. Click here for more details.

Files changed (121) hide show

biotite/__init__.py +3 -3
biotite/application/dssp/app.py +18 -18
biotite/database/pubchem/download.py +23 -23
biotite/database/pubchem/query.py +7 -7
biotite/database/rcsb/download.py +19 -14
biotite/file.py +17 -9
biotite/sequence/align/banded.c +256 -235
biotite/sequence/align/banded.cp312-win_amd64.pyd +0 -0
biotite/sequence/align/cigar.py +60 -15
biotite/sequence/align/kmeralphabet.c +241 -220
biotite/sequence/align/kmeralphabet.cp312-win_amd64.pyd +0 -0
biotite/sequence/align/kmersimilarity.c +213 -194
biotite/sequence/align/kmersimilarity.cp312-win_amd64.pyd +0 -0
biotite/sequence/align/kmertable.cp312-win_amd64.pyd +0 -0
biotite/sequence/align/kmertable.cpp +231 -203
biotite/sequence/align/localgapped.c +256 -235
biotite/sequence/align/localgapped.cp312-win_amd64.pyd +0 -0
biotite/sequence/align/localungapped.c +233 -212
biotite/sequence/align/localungapped.cp312-win_amd64.pyd +0 -0
biotite/sequence/align/multiple.c +253 -232
biotite/sequence/align/multiple.cp312-win_amd64.pyd +0 -0
biotite/sequence/align/pairwise.c +272 -251
biotite/sequence/align/pairwise.cp312-win_amd64.pyd +0 -0
biotite/sequence/align/permutation.c +213 -194
biotite/sequence/align/permutation.cp312-win_amd64.pyd +0 -0
biotite/sequence/align/selector.c +215 -195
biotite/sequence/align/selector.cp312-win_amd64.pyd +0 -0
biotite/sequence/align/tracetable.c +213 -193
biotite/sequence/align/tracetable.cp312-win_amd64.pyd +0 -0
biotite/sequence/annotation.py +2 -2
biotite/sequence/codec.c +233 -212
biotite/sequence/codec.cp312-win_amd64.pyd +0 -0
biotite/sequence/io/fasta/convert.py +27 -24
biotite/sequence/phylo/nj.c +213 -194
biotite/sequence/phylo/nj.cp312-win_amd64.pyd +0 -0
biotite/sequence/phylo/tree.c +225 -200
biotite/sequence/phylo/tree.cp312-win_amd64.pyd +0 -0
biotite/sequence/phylo/upgma.c +213 -194
biotite/sequence/phylo/upgma.cp312-win_amd64.pyd +0 -0
biotite/structure/__init__.py +2 -0
biotite/structure/basepairs.py +7 -12
biotite/structure/bonds.c +1435 -1277
biotite/structure/bonds.cp312-win_amd64.pyd +0 -0
biotite/structure/celllist.c +215 -195
biotite/structure/celllist.cp312-win_amd64.pyd +0 -0
biotite/structure/charges.c +1050 -1099
biotite/structure/charges.cp312-win_amd64.pyd +0 -0
biotite/structure/dotbracket.py +2 -0
biotite/structure/filter.py +30 -37
biotite/structure/info/__init__.py +5 -8
biotite/structure/info/atoms.py +31 -68
biotite/structure/info/bonds.py +47 -101
biotite/structure/info/ccd/README.rst +8 -0
biotite/structure/info/ccd/amino_acids.txt +1663 -0
biotite/structure/info/ccd/carbohydrates.txt +1135 -0
biotite/structure/info/ccd/components.bcif +0 -0
biotite/structure/info/ccd/nucleotides.txt +798 -0
biotite/structure/info/ccd.py +95 -0
biotite/structure/info/groups.py +90 -0
biotite/structure/info/masses.py +21 -20
biotite/structure/info/misc.py +78 -25
biotite/structure/info/standardize.py +17 -12
biotite/structure/integrity.py +19 -70
biotite/structure/io/__init__.py +2 -4
biotite/structure/io/ctab.py +12 -106
biotite/structure/io/general.py +167 -181
biotite/structure/io/gro/file.py +16 -16
biotite/structure/io/mmtf/__init__.py +3 -0
biotite/structure/io/mmtf/convertarray.c +217 -196
biotite/structure/io/mmtf/convertarray.cp312-win_amd64.pyd +0 -0
biotite/structure/io/mmtf/convertfile.c +215 -195
biotite/structure/io/mmtf/convertfile.cp312-win_amd64.pyd +0 -0
biotite/structure/io/mmtf/decode.c +223 -202
biotite/structure/io/mmtf/decode.cp312-win_amd64.pyd +0 -0
biotite/structure/io/mmtf/encode.c +213 -194
biotite/structure/io/mmtf/encode.cp312-win_amd64.pyd +0 -0
biotite/structure/io/mmtf/file.py +34 -26
biotite/structure/io/mol/__init__.py +4 -2
biotite/structure/io/mol/convert.py +71 -7
biotite/structure/io/mol/ctab.py +414 -0
biotite/structure/io/mol/header.py +116 -0
biotite/structure/io/mol/{file.py → mol.py} +69 -82
biotite/structure/io/mol/sdf.py +909 -0
biotite/structure/io/npz/__init__.py +3 -0
biotite/structure/io/npz/file.py +21 -18
biotite/structure/io/pdb/__init__.py +3 -3
biotite/structure/io/pdb/file.py +89 -34
biotite/structure/io/pdb/hybrid36.c +63 -43
biotite/structure/io/pdb/hybrid36.cp312-win_amd64.pyd +0 -0
biotite/structure/io/pdbqt/file.py +32 -32
biotite/structure/io/pdbx/__init__.py +12 -6
biotite/structure/io/pdbx/bcif.py +648 -0
biotite/structure/io/pdbx/cif.py +1032 -0
biotite/structure/io/pdbx/component.py +246 -0
biotite/structure/io/pdbx/convert.py +858 -386
biotite/structure/io/pdbx/encoding.c +112803 -0
biotite/structure/io/pdbx/encoding.cp312-win_amd64.pyd +0 -0
biotite/structure/io/pdbx/legacy.py +267 -0
biotite/structure/molecules.py +151 -151
biotite/structure/repair.py +253 -0
biotite/structure/sasa.c +213 -194
biotite/structure/sasa.cp312-win_amd64.pyd +0 -0
biotite/structure/sequence.py +112 -0
biotite/structure/superimpose.py +618 -116
{biotite-0.39.0.dist-info → biotite-0.41.0.dist-info}/METADATA +3 -3
{biotite-0.39.0.dist-info → biotite-0.41.0.dist-info}/RECORD +109 -103
{biotite-0.39.0.dist-info → biotite-0.41.0.dist-info}/WHEEL +1 -1
biotite/structure/info/amino_acids.json +0 -1556
biotite/structure/info/amino_acids.py +0 -42
biotite/structure/info/carbohydrates.json +0 -1122
biotite/structure/info/carbohydrates.py +0 -39
biotite/structure/info/intra_bonds.msgpack +0 -0
biotite/structure/info/link_types.msgpack +0 -1
biotite/structure/info/nucleotides.json +0 -772
biotite/structure/info/nucleotides.py +0 -39
biotite/structure/info/residue_masses.msgpack +0 -0
biotite/structure/info/residue_names.msgpack +0 -3
biotite/structure/info/residues.msgpack +0 -0
biotite/structure/io/pdbx/file.py +0 -652
{biotite-0.39.0.dist-info → biotite-0.41.0.dist-info}/LICENSE.rst +0 -0
{biotite-0.39.0.dist-info → biotite-0.41.0.dist-info}/top_level.txt +0 -0

biotite/structure/sasa.cp312-win_amd64.pyd CHANGED Viewed

Binary file

biotite/structure/sequence.py ADDED Viewed

@@ -0,0 +1,112 @@
+# This source code is part of the Biotite package and is distributed
+# under the 3-Clause BSD License. Please see 'LICENSE.rst' for further
+# information.
+"""
+Function for converting a structure into a sequence.
+"""
+__name__ = "biotite.structure"
+__author__ = "Patrick Kunzmann"
+__all__ = ["to_sequence"]
+import numpy as np
+from .info.misc import one_letter_code
+from .info.groups import amino_acid_names, nucleotide_names
+from .residues import get_residues
+from .chains import get_chain_starts
+from .error import BadStructureError
+from ..sequence.seqtypes import ProteinSequence, NucleotideSequence
+HETERO_PLACEHOLDER = "."
+def to_sequence(atoms, allow_hetero=False):
+    """
+    Convert each chain in a structure into a sequence.
+    Parameters
+    ----------
+    atoms : AtomArray or AtomArrayStack
+        The structure.
+        May contain multiple chains.
+        Each chain must be either a peptide or a nucleic acid.
+    allow_hetero : bool, optional
+        If true, residues inside a amino acid or nucleotide chain,
+        that have no one-letter code, are replaced by the respective
+        '*any*' symbol (`"X"` or `"N"`, respectively).
+        The same is true for amino acids in nucleotide chains and vice
+        versa.
+        By default, an exception is raised.
+    Returns
+    -------
+    sequences : list of Sequence, length=n
+        The sequence for each chain in the structure.
+    chain_start_indices : ndarray, shape=(n,), dtype=int
+        The atom index where each chain starts.
+    Notes
+    -----
+    Residues are considered amino acids or nucleotides based on their
+    appearance :func:`info.amino_acid_names()` or
+    :func:`info.nucleotide_names()`, respectively.
+    Examples
+    --------
+    >>> sequences, chain_starts = to_sequence(atom_array)
+    >>> print(sequences)
+    [ProteinSequence("NLYIQWLKDGGPSSGRPPPS")]
+    """
+    sequences = []
+    chain_start_indices = get_chain_starts(atoms, add_exclusive_stop=True)
+    for i in range(len(chain_start_indices)-1):
+        start = chain_start_indices[i]
+        stop = chain_start_indices[i+1]
+        chain = atoms[start:stop]
+        _, residues = get_residues(chain)
+        one_letter_symbols = np.array(
+            [one_letter_code(res) or HETERO_PLACEHOLDER for res in residues]
+        )
+        hetero_mask = one_letter_symbols == HETERO_PLACEHOLDER
+        aa_count  = np.count_nonzero(np.isin(residues, amino_acid_names()))
+        nuc_count = np.count_nonzero(np.isin(residues, nucleotide_names()))
+        if aa_count == 0 and nuc_count == 0:
+            raise BadStructureError(
+                f"Chain {chain.chain_id[0]} contains neither amino acids "
+                "nor nucleotides"
+            )
+        elif aa_count > nuc_count:
+            # Chain is a peptide
+            hetero_mask |= ~np.isin(residues, amino_acid_names())
+            if not allow_hetero and np.any(hetero_mask):
+                hetero_indices = np.where(hetero_mask)[0]
+                raise BadStructureError(
+                    f"Hetero residue(s) "
+                    f"{', '.join(residues[hetero_indices])} in peptide"
+                )
+            one_letter_symbols[hetero_mask] = "X"
+            # Replace selenocysteine and pyrrolysine
+            one_letter_symbols[one_letter_symbols == "U"] = "C"
+            one_letter_symbols[one_letter_symbols == "O"] = "K"
+            sequences.append(ProteinSequence("".join(one_letter_symbols)))
+        else:
+            # Chain is a nucleic acid
+            hetero_mask |= ~np.isin(residues, nucleotide_names())
+            if not allow_hetero and np.any(hetero_mask):
+                hetero_indices = np.where(hetero_mask)[0]
+                raise BadStructureError(
+                    f"Hetero residue(s) "
+                    f"{', '.join(residues[hetero_indices])} in nucleic acid"
+                )
+            one_letter_symbols[hetero_mask] = "N"
+            # Replace uracil
+            one_letter_symbols[one_letter_symbols == "U"] = "T"
+            sequences.append(NucleotideSequence("".join(one_letter_symbols)))
+    # Remove exclusive stop
+    return sequences, chain_start_indices[:-1]