PyPI - biotite - Versions diffs - 1.3.0__cp312-cp312-macosx_10_13_x86_64.whl - Mend

biotite 1.3.0__cp312-cp312-macosx_10_13_x86_64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of biotite might be problematic. Click here for more details.

Files changed (354) hide show

biotite/__init__.py +18 -0
biotite/application/__init__.py +69 -0
biotite/application/application.py +276 -0
biotite/application/autodock/__init__.py +12 -0
biotite/application/autodock/app.py +500 -0
biotite/application/blast/__init__.py +14 -0
biotite/application/blast/alignment.py +92 -0
biotite/application/blast/webapp.py +428 -0
biotite/application/clustalo/__init__.py +12 -0
biotite/application/clustalo/app.py +223 -0
biotite/application/dssp/__init__.py +12 -0
biotite/application/dssp/app.py +159 -0
biotite/application/localapp.py +342 -0
biotite/application/mafft/__init__.py +12 -0
biotite/application/mafft/app.py +116 -0
biotite/application/msaapp.py +363 -0
biotite/application/muscle/__init__.py +13 -0
biotite/application/muscle/app3.py +227 -0
biotite/application/muscle/app5.py +163 -0
biotite/application/sra/__init__.py +18 -0
biotite/application/sra/app.py +447 -0
biotite/application/tantan/__init__.py +12 -0
biotite/application/tantan/app.py +199 -0
biotite/application/util.py +77 -0
biotite/application/viennarna/__init__.py +18 -0
biotite/application/viennarna/rnaalifold.py +310 -0
biotite/application/viennarna/rnafold.py +254 -0
biotite/application/viennarna/rnaplot.py +208 -0
biotite/application/viennarna/util.py +77 -0
biotite/application/webapp.py +76 -0
biotite/copyable.py +71 -0
biotite/database/__init__.py +23 -0
biotite/database/afdb/__init__.py +12 -0
biotite/database/afdb/download.py +191 -0
biotite/database/entrez/__init__.py +15 -0
biotite/database/entrez/check.py +60 -0
biotite/database/entrez/dbnames.py +101 -0
biotite/database/entrez/download.py +228 -0
biotite/database/entrez/key.py +44 -0
biotite/database/entrez/query.py +263 -0
biotite/database/error.py +16 -0
biotite/database/pubchem/__init__.py +21 -0
biotite/database/pubchem/download.py +258 -0
biotite/database/pubchem/error.py +30 -0
biotite/database/pubchem/query.py +819 -0
biotite/database/pubchem/throttle.py +98 -0
biotite/database/rcsb/__init__.py +13 -0
biotite/database/rcsb/download.py +160 -0
biotite/database/rcsb/query.py +963 -0
biotite/database/uniprot/__init__.py +13 -0
biotite/database/uniprot/check.py +40 -0
biotite/database/uniprot/download.py +126 -0
biotite/database/uniprot/query.py +292 -0
biotite/file.py +244 -0
biotite/interface/__init__.py +19 -0
biotite/interface/openmm/__init__.py +20 -0
biotite/interface/openmm/state.py +93 -0
biotite/interface/openmm/system.py +227 -0
biotite/interface/pymol/__init__.py +201 -0
biotite/interface/pymol/cgo.py +346 -0
biotite/interface/pymol/convert.py +185 -0
biotite/interface/pymol/display.py +267 -0
biotite/interface/pymol/object.py +1226 -0
biotite/interface/pymol/shapes.py +178 -0
biotite/interface/pymol/startup.py +169 -0
biotite/interface/rdkit/__init__.py +19 -0
biotite/interface/rdkit/mol.py +490 -0
biotite/interface/version.py +94 -0
biotite/interface/warning.py +19 -0
biotite/sequence/__init__.py +84 -0
biotite/sequence/align/__init__.py +199 -0
biotite/sequence/align/alignment.py +702 -0
biotite/sequence/align/banded.cpython-312-darwin.so +0 -0
biotite/sequence/align/banded.pyx +652 -0
biotite/sequence/align/buckets.py +71 -0
biotite/sequence/align/cigar.py +425 -0
biotite/sequence/align/kmeralphabet.cpython-312-darwin.so +0 -0
biotite/sequence/align/kmeralphabet.pyx +595 -0
biotite/sequence/align/kmersimilarity.cpython-312-darwin.so +0 -0
biotite/sequence/align/kmersimilarity.pyx +233 -0
biotite/sequence/align/kmertable.cpython-312-darwin.so +0 -0
biotite/sequence/align/kmertable.pyx +3411 -0
biotite/sequence/align/localgapped.cpython-312-darwin.so +0 -0
biotite/sequence/align/localgapped.pyx +892 -0
biotite/sequence/align/localungapped.cpython-312-darwin.so +0 -0
biotite/sequence/align/localungapped.pyx +279 -0
biotite/sequence/align/matrix.py +631 -0
biotite/sequence/align/matrix_data/3Di.mat +24 -0
biotite/sequence/align/matrix_data/BLOSUM100.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM30.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM35.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM40.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM45.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM50.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM50_13p.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM50_14.3.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM50_5.0.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM55.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM60.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM62.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM62_13p.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM62_14.3.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM62_5.0.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM65.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM70.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM75.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM80.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM85.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM90.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUMN.mat +31 -0
biotite/sequence/align/matrix_data/CorBLOSUM49_5.0.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM57_13p.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM57_14.3.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM61_5.0.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM66_13p.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM67_14.3.mat +25 -0
biotite/sequence/align/matrix_data/DAYHOFF.mat +32 -0
biotite/sequence/align/matrix_data/GONNET.mat +26 -0
biotite/sequence/align/matrix_data/IDENTITY.mat +25 -0
biotite/sequence/align/matrix_data/MATCH.mat +25 -0
biotite/sequence/align/matrix_data/NUC.mat +25 -0
biotite/sequence/align/matrix_data/PAM10.mat +34 -0
biotite/sequence/align/matrix_data/PAM100.mat +34 -0
biotite/sequence/align/matrix_data/PAM110.mat +34 -0
biotite/sequence/align/matrix_data/PAM120.mat +34 -0
biotite/sequence/align/matrix_data/PAM130.mat +34 -0
biotite/sequence/align/matrix_data/PAM140.mat +34 -0
biotite/sequence/align/matrix_data/PAM150.mat +34 -0
biotite/sequence/align/matrix_data/PAM160.mat +34 -0
biotite/sequence/align/matrix_data/PAM170.mat +34 -0
biotite/sequence/align/matrix_data/PAM180.mat +34 -0
biotite/sequence/align/matrix_data/PAM190.mat +34 -0
biotite/sequence/align/matrix_data/PAM20.mat +34 -0
biotite/sequence/align/matrix_data/PAM200.mat +34 -0
biotite/sequence/align/matrix_data/PAM210.mat +34 -0
biotite/sequence/align/matrix_data/PAM220.mat +34 -0
biotite/sequence/align/matrix_data/PAM230.mat +34 -0
biotite/sequence/align/matrix_data/PAM240.mat +34 -0
biotite/sequence/align/matrix_data/PAM250.mat +34 -0
biotite/sequence/align/matrix_data/PAM260.mat +34 -0
biotite/sequence/align/matrix_data/PAM270.mat +34 -0
biotite/sequence/align/matrix_data/PAM280.mat +34 -0
biotite/sequence/align/matrix_data/PAM290.mat +34 -0
biotite/sequence/align/matrix_data/PAM30.mat +34 -0
biotite/sequence/align/matrix_data/PAM300.mat +34 -0
biotite/sequence/align/matrix_data/PAM310.mat +34 -0
biotite/sequence/align/matrix_data/PAM320.mat +34 -0
biotite/sequence/align/matrix_data/PAM330.mat +34 -0
biotite/sequence/align/matrix_data/PAM340.mat +34 -0
biotite/sequence/align/matrix_data/PAM350.mat +34 -0
biotite/sequence/align/matrix_data/PAM360.mat +34 -0
biotite/sequence/align/matrix_data/PAM370.mat +34 -0
biotite/sequence/align/matrix_data/PAM380.mat +34 -0
biotite/sequence/align/matrix_data/PAM390.mat +34 -0
biotite/sequence/align/matrix_data/PAM40.mat +34 -0
biotite/sequence/align/matrix_data/PAM400.mat +34 -0
biotite/sequence/align/matrix_data/PAM410.mat +34 -0
biotite/sequence/align/matrix_data/PAM420.mat +34 -0
biotite/sequence/align/matrix_data/PAM430.mat +34 -0
biotite/sequence/align/matrix_data/PAM440.mat +34 -0
biotite/sequence/align/matrix_data/PAM450.mat +34 -0
biotite/sequence/align/matrix_data/PAM460.mat +34 -0
biotite/sequence/align/matrix_data/PAM470.mat +34 -0
biotite/sequence/align/matrix_data/PAM480.mat +34 -0
biotite/sequence/align/matrix_data/PAM490.mat +34 -0
biotite/sequence/align/matrix_data/PAM50.mat +34 -0
biotite/sequence/align/matrix_data/PAM500.mat +34 -0
biotite/sequence/align/matrix_data/PAM60.mat +34 -0
biotite/sequence/align/matrix_data/PAM70.mat +34 -0
biotite/sequence/align/matrix_data/PAM80.mat +34 -0
biotite/sequence/align/matrix_data/PAM90.mat +34 -0
biotite/sequence/align/matrix_data/PB.license +21 -0
biotite/sequence/align/matrix_data/PB.mat +18 -0
biotite/sequence/align/matrix_data/RBLOSUM52_5.0.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM59_13p.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM59_14.3.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM64_5.0.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM69_13p.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM69_14.3.mat +25 -0
biotite/sequence/align/multiple.cpython-312-darwin.so +0 -0
biotite/sequence/align/multiple.pyx +619 -0
biotite/sequence/align/pairwise.cpython-312-darwin.so +0 -0
biotite/sequence/align/pairwise.pyx +585 -0
biotite/sequence/align/permutation.cpython-312-darwin.so +0 -0
biotite/sequence/align/permutation.pyx +313 -0
biotite/sequence/align/primes.txt +821 -0
biotite/sequence/align/selector.cpython-312-darwin.so +0 -0
biotite/sequence/align/selector.pyx +954 -0
biotite/sequence/align/statistics.py +264 -0
biotite/sequence/align/tracetable.cpython-312-darwin.so +0 -0
biotite/sequence/align/tracetable.pxd +64 -0
biotite/sequence/align/tracetable.pyx +370 -0
biotite/sequence/alphabet.py +555 -0
biotite/sequence/annotation.py +836 -0
biotite/sequence/codec.cpython-312-darwin.so +0 -0
biotite/sequence/codec.pyx +155 -0
biotite/sequence/codon.py +476 -0
biotite/sequence/codon_tables.txt +202 -0
biotite/sequence/graphics/__init__.py +33 -0
biotite/sequence/graphics/alignment.py +1101 -0
biotite/sequence/graphics/color_schemes/3di_flower.json +48 -0
biotite/sequence/graphics/color_schemes/autumn.json +51 -0
biotite/sequence/graphics/color_schemes/blossom.json +51 -0
biotite/sequence/graphics/color_schemes/clustalx_dna.json +11 -0
biotite/sequence/graphics/color_schemes/clustalx_protein.json +28 -0
biotite/sequence/graphics/color_schemes/flower.json +51 -0
biotite/sequence/graphics/color_schemes/jalview_buried.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_hydrophobicity.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_prop_helix.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_prop_strand.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_prop_turn.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_taylor.json +28 -0
biotite/sequence/graphics/color_schemes/jalview_zappo.json +28 -0
biotite/sequence/graphics/color_schemes/ocean.json +51 -0
biotite/sequence/graphics/color_schemes/pb_flower.json +40 -0
biotite/sequence/graphics/color_schemes/rainbow_dna.json +11 -0
biotite/sequence/graphics/color_schemes/rainbow_protein.json +30 -0
biotite/sequence/graphics/color_schemes/spring.json +51 -0
biotite/sequence/graphics/color_schemes/sunset.json +51 -0
biotite/sequence/graphics/color_schemes/wither.json +51 -0
biotite/sequence/graphics/colorschemes.py +170 -0
biotite/sequence/graphics/dendrogram.py +231 -0
biotite/sequence/graphics/features.py +544 -0
biotite/sequence/graphics/logo.py +102 -0
biotite/sequence/graphics/plasmid.py +712 -0
biotite/sequence/io/__init__.py +12 -0
biotite/sequence/io/fasta/__init__.py +22 -0
biotite/sequence/io/fasta/convert.py +283 -0
biotite/sequence/io/fasta/file.py +265 -0
biotite/sequence/io/fastq/__init__.py +19 -0
biotite/sequence/io/fastq/convert.py +117 -0
biotite/sequence/io/fastq/file.py +507 -0
biotite/sequence/io/genbank/__init__.py +17 -0
biotite/sequence/io/genbank/annotation.py +269 -0
biotite/sequence/io/genbank/file.py +573 -0
biotite/sequence/io/genbank/metadata.py +336 -0
biotite/sequence/io/genbank/sequence.py +173 -0
biotite/sequence/io/general.py +201 -0
biotite/sequence/io/gff/__init__.py +26 -0
biotite/sequence/io/gff/convert.py +128 -0
biotite/sequence/io/gff/file.py +449 -0
biotite/sequence/phylo/__init__.py +36 -0
biotite/sequence/phylo/nj.cpython-312-darwin.so +0 -0
biotite/sequence/phylo/nj.pyx +221 -0
biotite/sequence/phylo/tree.cpython-312-darwin.so +0 -0
biotite/sequence/phylo/tree.pyx +1169 -0
biotite/sequence/phylo/upgma.cpython-312-darwin.so +0 -0
biotite/sequence/phylo/upgma.pyx +164 -0
biotite/sequence/profile.py +561 -0
biotite/sequence/search.py +117 -0
biotite/sequence/seqtypes.py +720 -0
biotite/sequence/sequence.py +373 -0
biotite/setup_ccd.py +197 -0
biotite/structure/__init__.py +135 -0
biotite/structure/alphabet/__init__.py +25 -0
biotite/structure/alphabet/encoder.py +332 -0
biotite/structure/alphabet/encoder_weights_3di.kerasify +0 -0
biotite/structure/alphabet/i3d.py +109 -0
biotite/structure/alphabet/layers.py +86 -0
biotite/structure/alphabet/pb.license +21 -0
biotite/structure/alphabet/pb.py +170 -0
biotite/structure/alphabet/unkerasify.py +128 -0
biotite/structure/atoms.py +1562 -0
biotite/structure/basepairs.py +1403 -0
biotite/structure/bonds.cpython-312-darwin.so +0 -0
biotite/structure/bonds.pyx +1975 -0
biotite/structure/box.py +724 -0
biotite/structure/celllist.cpython-312-darwin.so +0 -0
biotite/structure/celllist.pyx +864 -0
biotite/structure/chains.py +276 -0
biotite/structure/charges.cpython-312-darwin.so +0 -0
biotite/structure/charges.pyx +520 -0
biotite/structure/compare.py +681 -0
biotite/structure/density.py +109 -0
biotite/structure/dotbracket.py +213 -0
biotite/structure/error.py +39 -0
biotite/structure/filter.py +590 -0
biotite/structure/geometry.py +655 -0
biotite/structure/graphics/__init__.py +13 -0
biotite/structure/graphics/atoms.py +243 -0
biotite/structure/graphics/rna.py +298 -0
biotite/structure/hbond.py +425 -0
biotite/structure/info/__init__.py +24 -0
biotite/structure/info/atom_masses.json +121 -0
biotite/structure/info/atoms.py +90 -0
biotite/structure/info/bonds.py +149 -0
biotite/structure/info/ccd.py +200 -0
biotite/structure/info/components.bcif +0 -0
biotite/structure/info/groups.py +128 -0
biotite/structure/info/masses.py +121 -0
biotite/structure/info/misc.py +137 -0
biotite/structure/info/radii.py +267 -0
biotite/structure/info/standardize.py +185 -0
biotite/structure/integrity.py +213 -0
biotite/structure/io/__init__.py +29 -0
biotite/structure/io/dcd/__init__.py +13 -0
biotite/structure/io/dcd/file.py +67 -0
biotite/structure/io/general.py +243 -0
biotite/structure/io/gro/__init__.py +14 -0
biotite/structure/io/gro/file.py +343 -0
biotite/structure/io/mol/__init__.py +20 -0
biotite/structure/io/mol/convert.py +112 -0
biotite/structure/io/mol/ctab.py +420 -0
biotite/structure/io/mol/header.py +120 -0
biotite/structure/io/mol/mol.py +149 -0
biotite/structure/io/mol/sdf.py +940 -0
biotite/structure/io/netcdf/__init__.py +13 -0
biotite/structure/io/netcdf/file.py +64 -0
biotite/structure/io/pdb/__init__.py +20 -0
biotite/structure/io/pdb/convert.py +388 -0
biotite/structure/io/pdb/file.py +1356 -0
biotite/structure/io/pdb/hybrid36.cpython-312-darwin.so +0 -0
biotite/structure/io/pdb/hybrid36.pyx +242 -0
biotite/structure/io/pdbqt/__init__.py +15 -0
biotite/structure/io/pdbqt/convert.py +113 -0
biotite/structure/io/pdbqt/file.py +688 -0
biotite/structure/io/pdbx/__init__.py +23 -0
biotite/structure/io/pdbx/bcif.py +671 -0
biotite/structure/io/pdbx/cif.py +1088 -0
biotite/structure/io/pdbx/component.py +251 -0
biotite/structure/io/pdbx/compress.py +358 -0
biotite/structure/io/pdbx/convert.py +2097 -0
biotite/structure/io/pdbx/encoding.cpython-312-darwin.so +0 -0
biotite/structure/io/pdbx/encoding.pyx +1047 -0
biotite/structure/io/trajfile.py +696 -0
biotite/structure/io/trr/__init__.py +13 -0
biotite/structure/io/trr/file.py +43 -0
biotite/structure/io/util.py +38 -0
biotite/structure/io/xtc/__init__.py +13 -0
biotite/structure/io/xtc/file.py +43 -0
biotite/structure/mechanics.py +72 -0
biotite/structure/molecules.py +337 -0
biotite/structure/pseudoknots.py +622 -0
biotite/structure/rdf.py +245 -0
biotite/structure/repair.py +302 -0
biotite/structure/residues.py +544 -0
biotite/structure/rings.py +335 -0
biotite/structure/sasa.cpython-312-darwin.so +0 -0
biotite/structure/sasa.pyx +322 -0
biotite/structure/segments.py +292 -0
biotite/structure/sequence.py +110 -0
biotite/structure/spacegroups.json +1567 -0
biotite/structure/spacegroups.license +26 -0
biotite/structure/sse.py +306 -0
biotite/structure/superimpose.py +511 -0
biotite/structure/tm.py +581 -0
biotite/structure/transform.py +736 -0
biotite/structure/util.py +168 -0
biotite/version.py +21 -0
biotite/visualize.py +375 -0
biotite-1.3.0.dist-info/METADATA +162 -0
biotite-1.3.0.dist-info/RECORD +354 -0
biotite-1.3.0.dist-info/WHEEL +6 -0
biotite-1.3.0.dist-info/licenses/LICENSE.rst +30 -0

biotite/structure/segments.py ADDED Viewed

@@ -0,0 +1,292 @@
+# This source code is part of the Biotite package and is distributed
+# under the 3-Clause BSD License. Please see 'LICENSE.rst' for further
+# information.
+__name__ = "biotite.structure"
+__author__ = "Patrick Kunzmann"
+__all__ = [
+    "get_segment_starts",
+    "apply_segment_wise",
+    "spread_segment_wise",
+    "get_segment_masks",
+    "get_segment_starts_for",
+    "get_segment_positions",
+    "segment_iter",
+]
+import numpy as np
+def get_segment_starts(
+    array, add_exclusive_stop, continuous_categories=(), equal_categories=()
+):
+    """
+    Generalized version of :func:`get_residue_starts()` for residues and chains.
+    The starts are determined from value changes in the given annotations.
+    Parameters
+    ----------
+    array : AtomArray or AtomArrayStack
+        The atom array (stack) to get the segment starts from.
+    add_exclusive_stop : bool, optional
+        If true, the exclusive stop of the input atom array,
+        i.e. ``array.array_length()``, is added to the returned array of start indices
+        as last element.
+    continuous_categories : tuple of str, optional
+        Annotation categories that are expected to be continuously increasing within a
+        segment.
+        This means if the value of such an annotation decreases from one atom to
+        another, a new segment is started.
+    equal_categories : tuple of str, optional
+        Annotation categories that are expected to be equal within a segment.
+        This means if the value of such an annotation changes from one atom to
+        another, a new segment is started.
+    Returns
+    -------
+    starts : ndarray, dtype=int
+        The start indices of segments in `array`.
+    """
+    if array.array_length() == 0:
+        return np.array([], dtype=int)
+    segment_start_mask = np.zeros(array.array_length() - 1, dtype=bool)
+    for annot_name in continuous_categories:
+        annotation = array.get_annotation(annot_name)
+        segment_start_mask |= np.diff(annotation) < 0
+    for annot_name in equal_categories:
+        annotation = array.get_annotation(annot_name)
+        segment_start_mask |= annotation[1:] != annotation[:-1]
+    # Convert mask to indices
+    # Add 1, to shift the indices from the end of a segment
+    # to the start of a new segment
+    chain_starts = np.where(segment_start_mask)[0] + 1
+    # The first chain is not included yet -> Insert '[0]'
+    if add_exclusive_stop:
+        return np.concatenate(([0], chain_starts, [array.array_length()]))
+    else:
+        return np.concatenate(([0], chain_starts))
+def apply_segment_wise(starts, data, function, axis=None):
+    """
+    Generalized version of :func:`apply_residue_wise()` for
+    residues and chains.
+    Parameters
+    ----------
+    starts : ndarray, dtype=int
+        The sorted start indices of segments.
+        Includes exclusive stop, i.e. the length of the corresponding
+        atom array.
+    data : ndarray
+        The data, whose intervals are the parameter for `function`.
+        Must have same length as `array`.
+    function : function
+        The `function` must have either the form *f(data)* or
+        *f(data, axis)* in case `axis` is given. Every `function` call
+        must return a value with the same shape and data type.
+    axis : int, optional
+        This value is given to the `axis` parameter of `function`.
+    Returns
+    -------
+    processed_data : ndarray
+        Segment-wise evaluation of `data` by `function`.
+        The size of the first dimension of this array is equal to the amount of
+        residues.
+    """
+    # The result array
+    processed_data = None
+    for i in range(len(starts) - 1):
+        segment = data[starts[i] : starts[i + 1]]
+        if axis is None:
+            value = function(segment)
+        else:
+            value = function(segment, axis=axis)
+        # Identify the shape of the resulting array by evaluation
+        # of the function return value for the first segment
+        if processed_data is None:
+            if isinstance(value, np.ndarray):
+                # Maximum length of the processed data
+                # is length of segment of size 1 -> length of all IDs
+                # (equal to atom array length)
+                processed_data = np.zeros(
+                    (len(starts) - 1,) + value.shape, dtype=value.dtype
+                )
+            else:
+                # Scalar value -> one dimensional result array
+                processed_data = np.zeros(len(starts) - 1, dtype=type(value))
+        # Write values into result arrays
+        processed_data[i] = value
+    return processed_data
+def spread_segment_wise(starts, input_data):
+    """
+    Generalized version of :func:`spread_residue_wise()`
+    for residues and chains.
+    Parameters
+    ----------
+    starts : ndarray, dtype=int
+        The sorted start indices of segments.
+        Includes exclusive stop, i.e. the length of the corresponding
+        atom array.
+    input_data : ndarray
+        The data to be spread.
+        The length of the 0-th axis must be equal to the amount of different residue IDs
+        in `array`.
+    Returns
+    -------
+    output_data : ndarray
+        Segment-wise spread `input_data`.
+        Length is the same as `array_length()` of `array`.
+    """
+    seg_lens = starts[1:] - starts[:-1]
+    return np.repeat(input_data, seg_lens, axis=0)
+def get_segment_masks(starts, indices):
+    """
+    Generalized version of :func:`get_residue_masks()`
+    for residues and chains.
+    Parameters
+    ----------
+    starts : ndarray, dtype=int
+        The sorted start indices of segments.
+        Includes exclusive stop, i.e. the length of the corresponding
+        atom array.
+    indices : ndarray, dtype=int, shape=(k,)
+        These indices indicate the atoms to get the corresponding
+        segments for.
+        Negative indices are not allowed.
+    Returns
+    -------
+    residues_masks : ndarray, dtype=bool, shape=(k,n)
+        Multiple boolean masks, one for each given index in `indices`.
+        Each array masks the atoms that belong to the same segment as
+        the atom at the given index.
+    """
+    indices = np.asarray(indices)
+    length = starts[-1]
+    masks = np.zeros((len(indices), length), dtype=bool)
+    if (indices < 0).any():
+        raise ValueError("This function does not support negative indices")
+    if (indices >= length).any():
+        index = np.min(np.where(indices >= length)[0])
+        raise ValueError(
+            f"Index {index} is out of range for an atom array with length {length}"
+        )
+    insertion_points = np.searchsorted(starts, indices, side="right") - 1
+    for i, point in enumerate(insertion_points):
+        masks[i, starts[point] : starts[point + 1]] = True
+    return masks
+def get_segment_starts_for(starts, indices):
+    """
+    Generalized version of :func:`get_residue_starts_for()`
+    for residues and chains.
+    Parameters
+    ----------
+    starts : ndarray, dtype=int
+        The sorted start indices of segments.
+        Includes exclusive stop, i.e. the length of the corresponding
+        atom array.
+    indices : ndarray, dtype=int, shape=(k,)
+        These indices point to the atoms to get the corresponding
+        segment starts for.
+        Negative indices are not allowed.
+    Returns
+    -------
+    start_indices : ndarray, dtype=int, shape=(k,)
+        The indices that point to the segment starts for the input
+        `indices`.
+    """
+    indices = np.asarray(indices)
+    length = starts[-1]
+    # Remove exclusive stop
+    starts = starts[:-1]
+    if (indices < 0).any():
+        raise ValueError("This function does not support negative indices")
+    if (indices >= length).any():
+        index = np.min(np.where(indices >= length)[0])
+        raise ValueError(
+            f"Index {index} is out of range for an atom array with length {length}"
+        )
+    insertion_points = np.searchsorted(starts, indices, side="right") - 1
+    return starts[insertion_points]
+def get_segment_positions(starts, indices):
+    """
+    Generalized version of :func:`get_residue_positions()`
+    for residues and chains.
+    Parameters
+    ----------
+    starts : ndarray, dtype=int
+        The sorted start indices of segments.
+        Includes exclusive stop, i.e. the length of the corresponding
+        atom array.
+    indices : ndarray, shape=(k,)
+        These indices point to the atoms to get the corresponding
+        residue positions for.
+        Negative indices are not allowed.
+    Returns
+    -------
+    segment_indices : ndarray, shape=(k,)
+        The indices that point to the position of the segments.
+    """
+    indices = np.asarray(indices)
+    length = starts[-1]
+    # Remove exclusive stop
+    starts = starts[:-1]
+    if (indices < 0).any():
+        raise ValueError("This function does not support negative indices")
+    if (indices >= length).any():
+        index = np.min(np.where(indices >= length)[0])
+        raise ValueError(
+            f"Index {index} is out of range for an atom array with length {length}"
+        )
+    return np.searchsorted(starts, indices, side="right") - 1
+def segment_iter(array, starts):
+    """
+    Generalized version of :func:`residue_iter()`
+    for residues and chains.
+    Parameters
+    ----------
+    array : AtomArray or AtomArrayStack
+        The structure to iterate over.
+    starts : ndarray, dtype=int
+        The sorted start indices of segments.
+        Includes exclusive stop, i.e. the length of the corresponding
+        atom array.
+    Yields
+    ------
+    segment : AtomArray or AtomArrayStack
+       Each residue or chain of the structure.
+    """
+    for i in range(len(starts) - 1):
+        yield array[..., starts[i] : starts[i + 1]]

biotite/structure/sequence.py ADDED Viewed

@@ -0,0 +1,110 @@
+# This source code is part of the Biotite package and is distributed
+# under the 3-Clause BSD License. Please see 'LICENSE.rst' for further
+# information.
+"""
+Function for converting a structure into a sequence.
+"""
+__name__ = "biotite.structure"
+__author__ = "Patrick Kunzmann"
+__all__ = ["to_sequence"]
+import numpy as np
+from biotite.sequence.seqtypes import NucleotideSequence, ProteinSequence
+from biotite.structure.chains import get_chain_starts
+from biotite.structure.error import BadStructureError
+from biotite.structure.info.groups import amino_acid_names, nucleotide_names
+from biotite.structure.info.misc import one_letter_code
+from biotite.structure.residues import get_residues
+HETERO_PLACEHOLDER = "."
+def to_sequence(atoms, allow_hetero=False):
+    """
+    Convert each chain in a structure into a sequence.
+    Parameters
+    ----------
+    atoms : AtomArray or AtomArrayStack
+        The structure.
+        May contain multiple chains.
+        Each chain must be either a peptide or a nucleic acid.
+    allow_hetero : bool, optional
+        If true, residues inside a amino acid or nucleotide chain,
+        that have no one-letter code, are replaced by the respective
+        '*any*' symbol (`"X"` or `"N"`, respectively).
+        The same is true for amino acids in nucleotide chains and vice
+        versa.
+        By default, an exception is raised.
+    Returns
+    -------
+    sequences : list of Sequence, length=n
+        The sequence for each chain in the structure.
+    chain_start_indices : ndarray, shape=(n,), dtype=int
+        The atom index where each chain starts.
+    Notes
+    -----
+    Residues are considered amino acids or nucleotides based on their
+    appearance :func:`info.amino_acid_names()` or
+    :func:`info.nucleotide_names()`, respectively.
+    Examples
+    --------
+    >>> sequences, chain_starts = to_sequence(atom_array)
+    >>> print(sequences)
+    [ProteinSequence("NLYIQWLKDGGPSSGRPPPS")]
+    """
+    sequences = []
+    chain_start_indices = get_chain_starts(atoms, add_exclusive_stop=True)
+    for i in range(len(chain_start_indices) - 1):
+        start = chain_start_indices[i]
+        stop = chain_start_indices[i + 1]
+        chain = atoms[start:stop]
+        _, residues = get_residues(chain)
+        one_letter_symbols = np.array(
+            [one_letter_code(res) or HETERO_PLACEHOLDER for res in residues]
+        )
+        hetero_mask = one_letter_symbols == HETERO_PLACEHOLDER
+        aa_count = np.count_nonzero(np.isin(residues, amino_acid_names()))
+        nuc_count = np.count_nonzero(np.isin(residues, nucleotide_names()))
+        if aa_count == 0 and nuc_count == 0:
+            raise BadStructureError(
+                f"Chain {chain.chain_id[0]} contains neither amino acids "
+                "nor nucleotides"
+            )
+        elif aa_count > nuc_count:
+            # Chain is a peptide
+            hetero_mask |= ~np.isin(residues, amino_acid_names())
+            if not allow_hetero and np.any(hetero_mask):
+                hetero_indices = np.where(hetero_mask)[0]
+                raise BadStructureError(
+                    f"Hetero residue(s) "
+                    f"{', '.join(residues[hetero_indices])} in peptide"
+                )
+            one_letter_symbols[hetero_mask] = "X"
+            # Replace selenocysteine and pyrrolysine
+            one_letter_symbols[one_letter_symbols == "U"] = "C"
+            one_letter_symbols[one_letter_symbols == "O"] = "K"
+            sequences.append(ProteinSequence("".join(one_letter_symbols)))
+        else:
+            # Chain is a nucleic acid
+            hetero_mask |= ~np.isin(residues, nucleotide_names())
+            if not allow_hetero and np.any(hetero_mask):
+                hetero_indices = np.where(hetero_mask)[0]
+                raise BadStructureError(
+                    f"Hetero residue(s) "
+                    f"{', '.join(residues[hetero_indices])} in nucleic acid"
+                )
+            one_letter_symbols[hetero_mask] = "N"
+            # Replace uracil
+            one_letter_symbols[one_letter_symbols == "U"] = "T"
+            sequences.append(NucleotideSequence("".join(one_letter_symbols)))
+    # Remove exclusive stop
+    return sequences, chain_start_indices[:-1]