PyPI - biotite - Versions diffs - 1.5.0__cp313-cp313-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl - Mend

biotite 1.5.0__cp313-cp313-manylinux_2_24_x86_64.manylinux_2_28_x86_64.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of biotite might be problematic. Click here for more details.

Files changed (354) hide show

biotite/__init__.py +18 -0
biotite/application/__init__.py +69 -0
biotite/application/application.py +276 -0
biotite/application/autodock/__init__.py +12 -0
biotite/application/autodock/app.py +500 -0
biotite/application/blast/__init__.py +14 -0
biotite/application/blast/alignment.py +92 -0
biotite/application/blast/webapp.py +428 -0
biotite/application/clustalo/__init__.py +12 -0
biotite/application/clustalo/app.py +223 -0
biotite/application/dssp/__init__.py +12 -0
biotite/application/dssp/app.py +216 -0
biotite/application/localapp.py +342 -0
biotite/application/mafft/__init__.py +12 -0
biotite/application/mafft/app.py +116 -0
biotite/application/msaapp.py +363 -0
biotite/application/muscle/__init__.py +13 -0
biotite/application/muscle/app3.py +227 -0
biotite/application/muscle/app5.py +163 -0
biotite/application/sra/__init__.py +18 -0
biotite/application/sra/app.py +447 -0
biotite/application/tantan/__init__.py +12 -0
biotite/application/tantan/app.py +199 -0
biotite/application/util.py +77 -0
biotite/application/viennarna/__init__.py +18 -0
biotite/application/viennarna/rnaalifold.py +310 -0
biotite/application/viennarna/rnafold.py +254 -0
biotite/application/viennarna/rnaplot.py +208 -0
biotite/application/viennarna/util.py +77 -0
biotite/application/webapp.py +76 -0
biotite/copyable.py +71 -0
biotite/database/__init__.py +23 -0
biotite/database/afdb/__init__.py +12 -0
biotite/database/afdb/download.py +197 -0
biotite/database/entrez/__init__.py +15 -0
biotite/database/entrez/check.py +60 -0
biotite/database/entrez/dbnames.py +101 -0
biotite/database/entrez/download.py +228 -0
biotite/database/entrez/key.py +44 -0
biotite/database/entrez/query.py +263 -0
biotite/database/error.py +16 -0
biotite/database/pubchem/__init__.py +21 -0
biotite/database/pubchem/download.py +258 -0
biotite/database/pubchem/error.py +30 -0
biotite/database/pubchem/query.py +819 -0
biotite/database/pubchem/throttle.py +98 -0
biotite/database/rcsb/__init__.py +13 -0
biotite/database/rcsb/download.py +161 -0
biotite/database/rcsb/query.py +963 -0
biotite/database/uniprot/__init__.py +13 -0
biotite/database/uniprot/check.py +40 -0
biotite/database/uniprot/download.py +126 -0
biotite/database/uniprot/query.py +292 -0
biotite/file.py +244 -0
biotite/interface/__init__.py +19 -0
biotite/interface/openmm/__init__.py +20 -0
biotite/interface/openmm/state.py +93 -0
biotite/interface/openmm/system.py +227 -0
biotite/interface/pymol/__init__.py +201 -0
biotite/interface/pymol/cgo.py +346 -0
biotite/interface/pymol/convert.py +185 -0
biotite/interface/pymol/display.py +267 -0
biotite/interface/pymol/object.py +1228 -0
biotite/interface/pymol/shapes.py +178 -0
biotite/interface/pymol/startup.py +169 -0
biotite/interface/rdkit/__init__.py +19 -0
biotite/interface/rdkit/mol.py +490 -0
biotite/interface/version.py +94 -0
biotite/interface/warning.py +19 -0
biotite/sequence/__init__.py +84 -0
biotite/sequence/align/__init__.py +199 -0
biotite/sequence/align/alignment.py +702 -0
biotite/sequence/align/banded.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/align/banded.pyx +652 -0
biotite/sequence/align/buckets.py +71 -0
biotite/sequence/align/cigar.py +425 -0
biotite/sequence/align/kmeralphabet.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/align/kmeralphabet.pyx +595 -0
biotite/sequence/align/kmersimilarity.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/align/kmersimilarity.pyx +233 -0
biotite/sequence/align/kmertable.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/align/kmertable.pyx +3411 -0
biotite/sequence/align/localgapped.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/align/localgapped.pyx +892 -0
biotite/sequence/align/localungapped.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/align/localungapped.pyx +279 -0
biotite/sequence/align/matrix.py +631 -0
biotite/sequence/align/matrix_data/3Di.mat +24 -0
biotite/sequence/align/matrix_data/BLOSUM100.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM30.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM35.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM40.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM45.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM50.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM50_13p.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM50_14.3.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM50_5.0.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM55.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM60.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM62.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM62_13p.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM62_14.3.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM62_5.0.mat +25 -0
biotite/sequence/align/matrix_data/BLOSUM65.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM70.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM75.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM80.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM85.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUM90.mat +31 -0
biotite/sequence/align/matrix_data/BLOSUMN.mat +31 -0
biotite/sequence/align/matrix_data/CorBLOSUM49_5.0.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM57_13p.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM57_14.3.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM61_5.0.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM66_13p.mat +25 -0
biotite/sequence/align/matrix_data/CorBLOSUM67_14.3.mat +25 -0
biotite/sequence/align/matrix_data/DAYHOFF.mat +32 -0
biotite/sequence/align/matrix_data/GONNET.mat +26 -0
biotite/sequence/align/matrix_data/IDENTITY.mat +25 -0
biotite/sequence/align/matrix_data/MATCH.mat +25 -0
biotite/sequence/align/matrix_data/NUC.mat +25 -0
biotite/sequence/align/matrix_data/PAM10.mat +34 -0
biotite/sequence/align/matrix_data/PAM100.mat +34 -0
biotite/sequence/align/matrix_data/PAM110.mat +34 -0
biotite/sequence/align/matrix_data/PAM120.mat +34 -0
biotite/sequence/align/matrix_data/PAM130.mat +34 -0
biotite/sequence/align/matrix_data/PAM140.mat +34 -0
biotite/sequence/align/matrix_data/PAM150.mat +34 -0
biotite/sequence/align/matrix_data/PAM160.mat +34 -0
biotite/sequence/align/matrix_data/PAM170.mat +34 -0
biotite/sequence/align/matrix_data/PAM180.mat +34 -0
biotite/sequence/align/matrix_data/PAM190.mat +34 -0
biotite/sequence/align/matrix_data/PAM20.mat +34 -0
biotite/sequence/align/matrix_data/PAM200.mat +34 -0
biotite/sequence/align/matrix_data/PAM210.mat +34 -0
biotite/sequence/align/matrix_data/PAM220.mat +34 -0
biotite/sequence/align/matrix_data/PAM230.mat +34 -0
biotite/sequence/align/matrix_data/PAM240.mat +34 -0
biotite/sequence/align/matrix_data/PAM250.mat +34 -0
biotite/sequence/align/matrix_data/PAM260.mat +34 -0
biotite/sequence/align/matrix_data/PAM270.mat +34 -0
biotite/sequence/align/matrix_data/PAM280.mat +34 -0
biotite/sequence/align/matrix_data/PAM290.mat +34 -0
biotite/sequence/align/matrix_data/PAM30.mat +34 -0
biotite/sequence/align/matrix_data/PAM300.mat +34 -0
biotite/sequence/align/matrix_data/PAM310.mat +34 -0
biotite/sequence/align/matrix_data/PAM320.mat +34 -0
biotite/sequence/align/matrix_data/PAM330.mat +34 -0
biotite/sequence/align/matrix_data/PAM340.mat +34 -0
biotite/sequence/align/matrix_data/PAM350.mat +34 -0
biotite/sequence/align/matrix_data/PAM360.mat +34 -0
biotite/sequence/align/matrix_data/PAM370.mat +34 -0
biotite/sequence/align/matrix_data/PAM380.mat +34 -0
biotite/sequence/align/matrix_data/PAM390.mat +34 -0
biotite/sequence/align/matrix_data/PAM40.mat +34 -0
biotite/sequence/align/matrix_data/PAM400.mat +34 -0
biotite/sequence/align/matrix_data/PAM410.mat +34 -0
biotite/sequence/align/matrix_data/PAM420.mat +34 -0
biotite/sequence/align/matrix_data/PAM430.mat +34 -0
biotite/sequence/align/matrix_data/PAM440.mat +34 -0
biotite/sequence/align/matrix_data/PAM450.mat +34 -0
biotite/sequence/align/matrix_data/PAM460.mat +34 -0
biotite/sequence/align/matrix_data/PAM470.mat +34 -0
biotite/sequence/align/matrix_data/PAM480.mat +34 -0
biotite/sequence/align/matrix_data/PAM490.mat +34 -0
biotite/sequence/align/matrix_data/PAM50.mat +34 -0
biotite/sequence/align/matrix_data/PAM500.mat +34 -0
biotite/sequence/align/matrix_data/PAM60.mat +34 -0
biotite/sequence/align/matrix_data/PAM70.mat +34 -0
biotite/sequence/align/matrix_data/PAM80.mat +34 -0
biotite/sequence/align/matrix_data/PAM90.mat +34 -0
biotite/sequence/align/matrix_data/PB.license +21 -0
biotite/sequence/align/matrix_data/PB.mat +18 -0
biotite/sequence/align/matrix_data/RBLOSUM52_5.0.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM59_13p.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM59_14.3.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM64_5.0.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM69_13p.mat +25 -0
biotite/sequence/align/matrix_data/RBLOSUM69_14.3.mat +25 -0
biotite/sequence/align/multiple.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/align/multiple.pyx +619 -0
biotite/sequence/align/pairwise.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/align/pairwise.pyx +585 -0
biotite/sequence/align/permutation.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/align/permutation.pyx +313 -0
biotite/sequence/align/primes.txt +821 -0
biotite/sequence/align/selector.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/align/selector.pyx +954 -0
biotite/sequence/align/statistics.py +264 -0
biotite/sequence/align/tracetable.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/align/tracetable.pxd +64 -0
biotite/sequence/align/tracetable.pyx +370 -0
biotite/sequence/alphabet.py +555 -0
biotite/sequence/annotation.py +836 -0
biotite/sequence/codec.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/codec.pyx +155 -0
biotite/sequence/codon.py +476 -0
biotite/sequence/codon_tables.txt +202 -0
biotite/sequence/graphics/__init__.py +33 -0
biotite/sequence/graphics/alignment.py +1101 -0
biotite/sequence/graphics/color_schemes/3di_flower.json +48 -0
biotite/sequence/graphics/color_schemes/autumn.json +51 -0
biotite/sequence/graphics/color_schemes/blossom.json +51 -0
biotite/sequence/graphics/color_schemes/clustalx_dna.json +11 -0
biotite/sequence/graphics/color_schemes/clustalx_protein.json +28 -0
biotite/sequence/graphics/color_schemes/flower.json +51 -0
biotite/sequence/graphics/color_schemes/jalview_buried.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_hydrophobicity.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_prop_helix.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_prop_strand.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_prop_turn.json +31 -0
biotite/sequence/graphics/color_schemes/jalview_taylor.json +28 -0
biotite/sequence/graphics/color_schemes/jalview_zappo.json +28 -0
biotite/sequence/graphics/color_schemes/ocean.json +51 -0
biotite/sequence/graphics/color_schemes/pb_flower.json +40 -0
biotite/sequence/graphics/color_schemes/rainbow_dna.json +11 -0
biotite/sequence/graphics/color_schemes/rainbow_protein.json +30 -0
biotite/sequence/graphics/color_schemes/spring.json +51 -0
biotite/sequence/graphics/color_schemes/sunset.json +51 -0
biotite/sequence/graphics/color_schemes/wither.json +51 -0
biotite/sequence/graphics/colorschemes.py +170 -0
biotite/sequence/graphics/dendrogram.py +231 -0
biotite/sequence/graphics/features.py +544 -0
biotite/sequence/graphics/logo.py +102 -0
biotite/sequence/graphics/plasmid.py +712 -0
biotite/sequence/io/__init__.py +12 -0
biotite/sequence/io/fasta/__init__.py +22 -0
biotite/sequence/io/fasta/convert.py +283 -0
biotite/sequence/io/fasta/file.py +265 -0
biotite/sequence/io/fastq/__init__.py +19 -0
biotite/sequence/io/fastq/convert.py +117 -0
biotite/sequence/io/fastq/file.py +507 -0
biotite/sequence/io/genbank/__init__.py +17 -0
biotite/sequence/io/genbank/annotation.py +269 -0
biotite/sequence/io/genbank/file.py +573 -0
biotite/sequence/io/genbank/metadata.py +336 -0
biotite/sequence/io/genbank/sequence.py +173 -0
biotite/sequence/io/general.py +201 -0
biotite/sequence/io/gff/__init__.py +26 -0
biotite/sequence/io/gff/convert.py +128 -0
biotite/sequence/io/gff/file.py +449 -0
biotite/sequence/phylo/__init__.py +36 -0
biotite/sequence/phylo/nj.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/phylo/nj.pyx +221 -0
biotite/sequence/phylo/tree.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/phylo/tree.pyx +1169 -0
biotite/sequence/phylo/upgma.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/sequence/phylo/upgma.pyx +164 -0
biotite/sequence/profile.py +561 -0
biotite/sequence/search.py +117 -0
biotite/sequence/seqtypes.py +720 -0
biotite/sequence/sequence.py +373 -0
biotite/setup_ccd.py +197 -0
biotite/structure/__init__.py +135 -0
biotite/structure/alphabet/__init__.py +25 -0
biotite/structure/alphabet/encoder.py +332 -0
biotite/structure/alphabet/encoder_weights_3di.kerasify +0 -0
biotite/structure/alphabet/i3d.py +109 -0
biotite/structure/alphabet/layers.py +86 -0
biotite/structure/alphabet/pb.license +21 -0
biotite/structure/alphabet/pb.py +170 -0
biotite/structure/alphabet/unkerasify.py +128 -0
biotite/structure/atoms.py +1562 -0
biotite/structure/basepairs.py +1403 -0
biotite/structure/bonds.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/structure/bonds.pyx +2036 -0
biotite/structure/box.py +724 -0
biotite/structure/celllist.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/structure/celllist.pyx +864 -0
biotite/structure/chains.py +310 -0
biotite/structure/charges.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/structure/charges.pyx +520 -0
biotite/structure/compare.py +683 -0
biotite/structure/density.py +109 -0
biotite/structure/dotbracket.py +213 -0
biotite/structure/error.py +39 -0
biotite/structure/filter.py +591 -0
biotite/structure/geometry.py +817 -0
biotite/structure/graphics/__init__.py +13 -0
biotite/structure/graphics/atoms.py +243 -0
biotite/structure/graphics/rna.py +298 -0
biotite/structure/hbond.py +425 -0
biotite/structure/info/__init__.py +24 -0
biotite/structure/info/atom_masses.json +121 -0
biotite/structure/info/atoms.py +98 -0
biotite/structure/info/bonds.py +149 -0
biotite/structure/info/ccd.py +200 -0
biotite/structure/info/components.bcif +0 -0
biotite/structure/info/groups.py +128 -0
biotite/structure/info/masses.py +121 -0
biotite/structure/info/misc.py +137 -0
biotite/structure/info/radii.py +267 -0
biotite/structure/info/standardize.py +185 -0
biotite/structure/integrity.py +213 -0
biotite/structure/io/__init__.py +29 -0
biotite/structure/io/dcd/__init__.py +13 -0
biotite/structure/io/dcd/file.py +67 -0
biotite/structure/io/general.py +243 -0
biotite/structure/io/gro/__init__.py +14 -0
biotite/structure/io/gro/file.py +343 -0
biotite/structure/io/mol/__init__.py +20 -0
biotite/structure/io/mol/convert.py +112 -0
biotite/structure/io/mol/ctab.py +420 -0
biotite/structure/io/mol/header.py +120 -0
biotite/structure/io/mol/mol.py +149 -0
biotite/structure/io/mol/sdf.py +940 -0
biotite/structure/io/netcdf/__init__.py +13 -0
biotite/structure/io/netcdf/file.py +64 -0
biotite/structure/io/pdb/__init__.py +20 -0
biotite/structure/io/pdb/convert.py +389 -0
biotite/structure/io/pdb/file.py +1380 -0
biotite/structure/io/pdb/hybrid36.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/structure/io/pdb/hybrid36.pyx +242 -0
biotite/structure/io/pdbqt/__init__.py +15 -0
biotite/structure/io/pdbqt/convert.py +113 -0
biotite/structure/io/pdbqt/file.py +688 -0
biotite/structure/io/pdbx/__init__.py +23 -0
biotite/structure/io/pdbx/bcif.py +674 -0
biotite/structure/io/pdbx/cif.py +1091 -0
biotite/structure/io/pdbx/component.py +251 -0
biotite/structure/io/pdbx/compress.py +362 -0
biotite/structure/io/pdbx/convert.py +2113 -0
biotite/structure/io/pdbx/encoding.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/structure/io/pdbx/encoding.pyx +1078 -0
biotite/structure/io/trajfile.py +696 -0
biotite/structure/io/trr/__init__.py +13 -0
biotite/structure/io/trr/file.py +43 -0
biotite/structure/io/util.py +38 -0
biotite/structure/io/xtc/__init__.py +13 -0
biotite/structure/io/xtc/file.py +43 -0
biotite/structure/mechanics.py +72 -0
biotite/structure/molecules.py +337 -0
biotite/structure/pseudoknots.py +622 -0
biotite/structure/rdf.py +245 -0
biotite/structure/repair.py +302 -0
biotite/structure/residues.py +716 -0
biotite/structure/rings.py +451 -0
biotite/structure/sasa.cpython-313-x86_64-linux-gnu.so +0 -0
biotite/structure/sasa.pyx +322 -0
biotite/structure/segments.py +328 -0
biotite/structure/sequence.py +110 -0
biotite/structure/spacegroups.json +1567 -0
biotite/structure/spacegroups.license +26 -0
biotite/structure/sse.py +306 -0
biotite/structure/superimpose.py +511 -0
biotite/structure/tm.py +581 -0
biotite/structure/transform.py +736 -0
biotite/structure/util.py +160 -0
biotite/version.py +34 -0
biotite/visualize.py +375 -0
biotite-1.5.0.dist-info/METADATA +162 -0
biotite-1.5.0.dist-info/RECORD +354 -0
biotite-1.5.0.dist-info/WHEEL +6 -0
biotite-1.5.0.dist-info/licenses/LICENSE.rst +30 -0

biotite/structure/io/mol/ctab.py ADDED Viewed

@@ -0,0 +1,420 @@
+# This source code is part of the Biotite package and is distributed
+# under the 3-Clause BSD License. Please see 'LICENSE.rst' for further
+# information.
+"""
+Functions for parsing and writing an :class:`AtomArray` from/to
+*MDL* connection tables (Ctab).
+"""
+__name__ = "biotite.structure.io.mol"
+__author__ = "Patrick Kunzmann"
+__all__ = ["read_structure_from_ctab", "write_structure_to_ctab"]
+import itertools
+import shlex
+import warnings
+import numpy as np
+from biotite.file import InvalidFileError
+from biotite.structure.atoms import AtomArray, AtomArrayStack
+from biotite.structure.bonds import BondList, BondType
+from biotite.structure.error import BadStructureError
+from biotite.structure.io.util import number_of_integer_digits
+BOND_TYPE_MAPPING = {
+    1: BondType.SINGLE,
+    2: BondType.DOUBLE,
+    3: BondType.TRIPLE,
+    4: BondType.AROMATIC,
+    5: BondType.ANY,
+    6: BondType.AROMATIC_SINGLE,
+    7: BondType.AROMATIC_DOUBLE,
+    8: BondType.ANY,
+}
+BOND_TYPE_MAPPING_REV = {v: k for k, v in BOND_TYPE_MAPPING.items()}
+CHARGE_MAPPING = {0: 0, 1: 3, 2: 2, 3: 1, 5: -1, 6: -2, 7: -3}
+CHARGE_MAPPING_REV = {val: key for key, val in CHARGE_MAPPING.items()}
+V2000_COMPATIBILITY_LINE = "  0  0  0  0  0  0  0  0  0  0999 V3000"
+# The number of charges per `M  CHG` line
+N_CHARGES_PER_LINE = 8
+def read_structure_from_ctab(ctab_lines):
+    """
+    Parse a *MDL* connection table (Ctab) to obtain an
+    :class:`AtomArray`.
+    :footcite:`Dalby1992`
+    Parameters
+    ----------
+    ctab_lines : lines of str
+        The lines containing the *ctab*.
+        Must begin with the *counts* line and end with the `M END` line.
+    Returns
+    -------
+    atoms : AtomArray
+        This :class:`AtomArray` contains the optional ``charge``
+        annotation and has an associated :class:`BondList`.
+    References
+    ----------
+    ``V3000`` specification was taken from
+    `<https://discover.3ds.com/sites/default/files/2020-08/biovia_ctfileformats_2020.pdf>`_.
+    .. footbibliography::
+    """
+    match _get_version(ctab_lines[0]):
+        case "V2000":
+            return _read_structure_from_ctab_v2000(ctab_lines)
+        case "V3000":
+            return _read_structure_from_ctab_v3000(ctab_lines)
+        case "":
+            raise InvalidFileError("CTAB counts line misses version")
+        case unkown_version:
+            raise InvalidFileError(f"Unknown CTAB version '{unkown_version}'")
+def write_structure_to_ctab(atoms, default_bond_type=BondType.ANY, version=None):
+    """
+    Convert an :class:`AtomArray` into a
+    *MDL* connection table (Ctab).
+    :footcite:`Dalby1992`
+    Parameters
+    ----------
+    atoms : AtomArray
+        The array must have an associated :class:`BondList`.
+    default_bond_type : BondType, optional
+        Bond type fallback for the *Bond block*, if a :class:`BondType`
+        has no CTAB counterpart.
+        By default, each such bond is treated as :attr:`BondType.ANY`.
+    version : {"V2000", "V3000"}, optional
+        The version of the CTAB format.
+        ``"V2000"`` uses the *Atom* and *Bond* block, while ``"V3000"``
+        uses the *Properties* block.
+        By default, ``"V2000"`` is used, unless the number of atoms or
+        bonds exceeds 999, in which case ``"V3000"`` is used.
+    Returns
+    -------
+    ctab_lines : lines of str
+        The lines containing the *ctab*.
+        The lines begin with the *counts* line and end with the `M END`
+        line.
+    References
+    ----------
+    ``V3000`` specification was taken from
+    `<https://discover.3ds.com/sites/default/files/2020-08/biovia_ctfileformats_2020.pdf>`_.
+    .. footbibliography::
+    """
+    if isinstance(atoms, AtomArrayStack):
+        raise TypeError(
+            "An 'AtomArrayStack' was given, but only a single model can be written"
+        )
+    if atoms.bonds is None:
+        raise BadStructureError("Input AtomArray has no associated BondList")
+    if np.isnan(atoms.coord).any():
+        raise BadStructureError("Input AtomArray has NaN coordinates")
+    match version:
+        case None:
+            if _is_v2000_compatible(atoms.array_length(), atoms.bonds.get_bond_count()):
+                return _write_structure_to_ctab_v2000(atoms, default_bond_type)
+            else:
+                return _write_structure_to_ctab_v3000(atoms, default_bond_type)
+        case "V2000":
+            if not _is_v2000_compatible(
+                atoms.array_length(), atoms.bonds.get_bond_count()
+            ):
+                raise ValueError(
+                    "The given number of atoms or bonds is too large for V2000 format"
+                )
+            return _write_structure_to_ctab_v2000(atoms, default_bond_type)
+        case "V3000":
+            return _write_structure_to_ctab_v3000(atoms, default_bond_type)
+        case unkown_version:
+            raise ValueError(f"Unknown CTAB version '{unkown_version}'")
+def _read_structure_from_ctab_v2000(ctab_lines):
+    n_atoms, n_bonds = _get_counts_v2000(ctab_lines[0])
+    atom_lines = ctab_lines[1 : 1 + n_atoms]
+    bond_lines = ctab_lines[1 + n_atoms : 1 + n_atoms + n_bonds]
+    charge_lines = [
+        line
+        for line in ctab_lines[1 + n_atoms + n_bonds :]
+        if line.startswith("M  CHG")
+    ]
+    atoms = AtomArray(n_atoms)
+    atoms.add_annotation("charge", int)
+    for i, line in enumerate(atom_lines):
+        atoms.coord[i, 0] = float(line[0:10])
+        atoms.coord[i, 1] = float(line[10:20])
+        atoms.coord[i, 2] = float(line[20:30])
+        atoms.element[i] = line[31:34].strip().upper()
+        # If one 'M CHG' entry is present,
+        # it supersedes all atom charges in the atom block
+        if not charge_lines:
+            charge = CHARGE_MAPPING.get(int(line[36:39]))
+            if charge is None:
+                warnings.warn(
+                    f"Cannot handle MDL charge type {int(line[36:39])}, "
+                    f"0 is used instead"
+                )
+                charge = 0
+            atoms.charge[i] = charge
+    for line in charge_lines:
+        # Remove 'M  CHGnn8' prefix
+        line = line[9:]
+        # The lines contains atom index and charge alternatingly
+        for atom_i_str, charge_str in _batched(line.split(), 2):
+            atom_index = int(atom_i_str) - 1
+            charge = int(charge_str)
+            atoms.charge[atom_index] = charge
+    bond_array = np.zeros((n_bonds, 3), dtype=np.uint32)
+    for i, line in enumerate(bond_lines):
+        bond_type = BOND_TYPE_MAPPING.get(int(line[6:9]))
+        if bond_type is None:
+            warnings.warn(
+                f"Cannot handle MDL bond type {int(line[6:9])}, "
+                f"BondType.ANY is used instead"
+            )
+            bond_type = BondType.ANY
+        bond_array[i, 0] = int(line[0:3]) - 1
+        bond_array[i, 1] = int(line[3:6]) - 1
+        bond_array[i, 2] = bond_type
+    atoms.bonds = BondList(n_atoms, bond_array)
+    return atoms
+def _read_structure_from_ctab_v3000(ctab_lines):
+    v30_lines = [line[6:].strip() for line in ctab_lines if line.startswith("M  V30")]
+    atom_lines = _get_block_v3000(v30_lines, "ATOM")
+    if len(atom_lines) == 0:
+        raise InvalidFileError("ATOM block is empty")
+    atoms = AtomArray(len(atom_lines))
+    atoms.add_annotation("charge", int)
+    # The V3000 atom index does not necessarily count from 1 to n,
+    # but allows arbitrary positive integers
+    # Hence, a mapping from V3000 atom index to AtomArray index is
+    # needed to get the correct index for a bond
+    v30_atom_indices = {}
+    for i, line in enumerate(atom_lines):
+        if "'" in line or '"' in line:
+            columns = shlex.split(line)
+        else:
+            columns = line.split()
+        v30_index = int(columns[0])
+        v30_type = columns[1]
+        if v30_type == "R#":
+            raise NotImplementedError("Rgroup atoms are not supported")
+        v30_coord = np.array(columns[2:5], dtype=float)
+        v30_properties = create_property_dict_v3000(columns[6:])
+        v30_atom_indices[v30_index] = i
+        atoms.coord[i] = v30_coord
+        atoms.element[i] = v30_type.upper()
+        atoms.charge[i] = int(v30_properties.get("CHG", 0))
+    bond_lines = _get_block_v3000(v30_lines, "BOND")
+    bond_array = np.zeros((len(bond_lines), 3), dtype=np.uint32)
+    for i, line in enumerate(bond_lines):
+        columns = line.split()
+        v30_type = int(columns[1])
+        v30_atom_index_1 = int(columns[2])
+        v30_atom_index_2 = int(columns[3])
+        bond_type = BOND_TYPE_MAPPING.get(v30_type)
+        if bond_type is None:
+            warnings.warn(
+                f"Cannot handle MDL bond type {v30_type}, BondType.ANY is used instead"
+            )
+            bond_type = BondType.ANY
+        bond_array[i, 0] = v30_atom_indices[v30_atom_index_1]
+        bond_array[i, 1] = v30_atom_indices[v30_atom_index_2]
+        bond_array[i, 2] = bond_type
+    atoms.bonds = BondList(atoms.array_length(), bond_array)
+    return atoms
+def _get_version(counts_line):
+    return counts_line[33:39].strip()
+def _is_v2000_compatible(n_atoms, n_bonds):
+    # The format uses a maximum of 3 digits for the atom and bond count
+    return n_atoms < 1000 and n_bonds < 1000
+def _get_counts_v2000(counts_line):
+    return int(counts_line[0:3]), int(counts_line[3:6])
+def _get_block_v3000(v30_lines, block_name):
+    block_lines = []
+    in_block = False
+    for line in v30_lines:
+        if line.startswith(f"BEGIN {block_name}"):
+            in_block = True
+        elif line.startswith(f"END {block_name}"):
+            if in_block:
+                return block_lines
+            else:
+                raise InvalidFileError(f"Block '{block_name}' ended before it began")
+        elif in_block:
+            block_lines.append(line)
+    return block_lines
+def create_property_dict_v3000(property_strings):
+    properties = {}
+    for prop in property_strings:
+        key, value = prop.split("=")
+        properties[key] = value
+    return properties
+def _write_structure_to_ctab_v2000(atoms, default_bond_type):
+    try:
+        charge = atoms.charge
+    except AttributeError:
+        charge = np.zeros(atoms.array_length(), dtype=int)
+    counts_line = (
+        f"{atoms.array_length():>3d}{atoms.bonds.get_bond_count():>3d}"
+        "  0     0  0  0  0  0  0  1 V2000"
+    )
+    for i, coord_name in enumerate(["x", "y", "z"]):
+        n_coord_digits = number_of_integer_digits(atoms.coord[:, i])
+        if n_coord_digits > 5:
+            raise BadStructureError(
+                f"5 pre-decimal columns for {coord_name}-coordinates are "
+                f"available, but array would require {n_coord_digits}"
+            )
+    atom_lines = [
+        f"{atoms.coord[i, 0]:>10.4f}"
+        f"{atoms.coord[i, 1]:>10.4f}"
+        f"{atoms.coord[i, 2]:>10.4f}"
+        f" {atoms.element[i].capitalize():3}"
+        f"{0:>2}"  # Mass difference -> unused
+        f"{CHARGE_MAPPING_REV.get(charge[i], 0):>3d}"
+        + f"{0:>3d}"
+        * 10  # More unused fields
+        for i in range(atoms.array_length())
+    ]
+    default_bond_value = BOND_TYPE_MAPPING_REV[default_bond_type]
+    bond_lines = [
+        f"{i + 1:>3d}{j + 1:>3d}"
+        f"{BOND_TYPE_MAPPING_REV.get(bond_type, default_bond_value):>3d}"
+        + f"{0:>3d}"
+        * 4
+        for i, j, bond_type in atoms.bonds.as_array()
+    ]
+    # V2000 files introduce charge annotations in the property block
+    # They define the charge literally (without mapping)
+    charge_lines = []
+    # Each `M  CHG` line can contain up to 8 charges
+    for batch in _batched(
+        [(atom_i, c) for atom_i, c in enumerate(charge) if c != 0], N_CHARGES_PER_LINE
+    ):
+        charge_lines.append(
+            f"M  CHG{len(batch):>3d}"
+            + "".join(f" {atom_i + 1:>3d} {c:>3d}" for atom_i, c in batch)
+        )
+    return [counts_line] + atom_lines + bond_lines + charge_lines + ["M  END"]
+def _write_structure_to_ctab_v3000(atoms, default_bond_type):
+    try:
+        charges = atoms.charge
+    except AttributeError:
+        charges = np.zeros(atoms.array_length(), dtype=int)
+    counts_line = f"COUNTS {atoms.array_length()} {atoms.bonds.get_bond_count()} 0 0 0"
+    for i, coord_name in enumerate(["x", "y", "z"]):
+        n_coord_digits = number_of_integer_digits(atoms.coord[:, i])
+        if n_coord_digits > 5:
+            raise BadStructureError(
+                f"5 pre-decimal columns for {coord_name}-coordinates are "
+                f"available, but array would require {n_coord_digits}"
+            )
+    atom_lines = [
+        f"{i + 1}"
+        f" {_quote(atoms.element[i].capitalize())}"
+        f" {atoms.coord[i, 0]:.4f}"
+        f" {atoms.coord[i, 1]:.4f}"
+        f" {atoms.coord[i, 2]:.4f}"
+        # 'aamap' is unused
+        f" 0"
+        f" {_to_property(charges[i])}"
+        for i in range(atoms.array_length())
+    ]
+    default_bond_value = BOND_TYPE_MAPPING_REV[default_bond_type]
+    bond_lines = [
+        f"{k + 1}"
+        f" {BOND_TYPE_MAPPING_REV.get(bond_type, default_bond_value)}"
+        f" {i + 1}"
+        f" {j + 1}"
+        for k, (i, j, bond_type) in enumerate(atoms.bonds.as_array())
+    ]
+    lines = (
+        ["BEGIN CTAB"]
+        + [counts_line]
+        + ["BEGIN ATOM"]
+        + atom_lines
+        + ["END ATOM"]
+        + ["BEGIN BOND"]
+        + bond_lines
+        + ["END BOND"]
+        + ["END CTAB"]
+    )
+    # Mark lines as V3000 CTAB
+    lines = ["M  V30 " + line for line in lines]
+    return [V2000_COMPATIBILITY_LINE] + lines + ["M  END"]
+def _to_property(charge):
+    if charge == 0:
+        return ""
+    else:
+        return f"CHG={charge}"
+def _quote(string):
+    if " " in string or len(string) == 0:
+        return f'"{string}"'
+    else:
+        return string
+def _batched(iterable, n):
+    """
+    Equivalent to :func:`itertools.batched()`.
+    However, :func:`itertools.batched()` is available since Python 3.12.
+    This function can be removed when the minimum supported Python
+    version is 3.12.
+    """
+    iterator = iter(iterable)
+    while batch := tuple(itertools.islice(iterator, n)):
+        yield batch

biotite/structure/io/mol/header.py ADDED Viewed

@@ -0,0 +1,120 @@
+# This source code is part of the Biotite package and is distributed
+# under the 3-Clause BSD License. Please see 'LICENSE.rst' for further
+# information.
+__name__ = "biotite.structure.io.mol"
+__author__ = "Patrick Kunzmann"
+__all__ = ["Header"]
+import datetime
+import warnings
+from dataclasses import dataclass
+_DATE_FORMAT = "%m%d%y%H%M"
+@dataclass
+class Header:
+    """
+    The header for connection tables.
+    Parameters
+    ----------
+    mol_name : str, optional
+        The name of the molecule.
+    initials : str, optional
+        The author's initials. Maximum length is 2.
+    program : str, optional
+        The program name. Maximum length is 8.
+    time : datetime or date, optional
+        The time of file creation.
+    dimensions : str, optional
+        Dimensional codes. Maximum length is 2.
+    scaling_factors : str, optional
+        Scaling factors. Maximum length is 12.
+    energy : str, optional
+        Energy from modeling program. Maximum length is 12.
+    registry_number : str, optional
+        MDL registry number. Maximum length is 6.
+    comments : str, optional
+        Additional comments.
+    Attributes
+    ----------
+    mol_name, initials, program, time, dimensions, scaling_factors, energy, registry_number, comments
+        Same as the parameters.
+    """
+    mol_name: ... = ""
+    initials: ... = ""
+    program: ... = ""
+    time: ... = None
+    dimensions: ... = ""
+    scaling_factors: ... = ""
+    energy: ... = ""
+    registry_number: ... = ""
+    comments: ... = ""
+    @staticmethod
+    def deserialize(text):
+        lines = text.splitlines()
+        mol_name = lines[0].strip()
+        initials = lines[1][0:2].strip()
+        program = lines[1][2:10].strip()
+        time_string = lines[1][10:20]
+        if time_string.strip() == "":
+            time = None
+        else:
+            try:
+                time = datetime.datetime.strptime(time_string, _DATE_FORMAT)
+            except ValueError:
+                warnings.warn(f"Invalid time format '{time_string}' in file header")
+                time = None
+        dimensions = lines[1][20:22].strip()
+        scaling_factors = lines[1][22:34].strip()
+        energy = lines[1][34:46].strip()
+        registry_number = lines[1][46:52].strip()
+        comments = lines[2].strip()
+        return Header(
+            mol_name,
+            initials,
+            program,
+            time,
+            dimensions,
+            scaling_factors,
+            energy,
+            registry_number,
+            comments,
+        )
+    def serialize(self):
+        text = ""
+        if self.time is None:
+            time_str = ""
+        else:
+            time_str = self.time.strftime(_DATE_FORMAT)
+        if len(self.mol_name) > 80:
+            raise ValueError("Molecule name must not exceed 80 characters")
+        text += str(self.mol_name) + "\n"
+        # Fixed columns -> minimum and maximum length is the same
+        # Shorter values are padded, longer values are truncated
+        text += (
+            f"{self.initials:>2.2}"
+            f"{self.program:>8.8}"
+            f"{time_str:>10.10}"
+            f"{self.dimensions:>2.2}"
+            f"{self.scaling_factors:>12.12}"
+            f"{self.energy:>12.12}"
+            f"{self.registry_number:>6.6}"
+            "\n"
+        )
+        text += str(self.comments) + "\n"
+        return text
+    def __str__(self):
+        return self.serialize()

biotite/structure/io/mol/mol.py ADDED Viewed

@@ -0,0 +1,149 @@
+# This source code is part of the Biotite package and is distributed
+# under the 3-Clause BSD License. Please see 'LICENSE.rst' for further
+# information.
+__name__ = "biotite.structure.io.mol"
+__author__ = "Patrick Kunzmann"
+__all__ = ["MOLFile"]
+from biotite.file import InvalidFileError, TextFile
+from biotite.structure.bonds import BondType
+from biotite.structure.io.mol.ctab import (
+    read_structure_from_ctab,
+    write_structure_to_ctab,
+)
+from biotite.structure.io.mol.header import Header
+# Number of header lines
+N_HEADER = 3
+class MOLFile(TextFile):
+    """
+    This class represents a file in MOL format, that is used to store
+    structure information for small molecules.
+    :footcite:`Dalby1992`
+    Since its use is intended for single small molecules, it stores
+    less atom annotation information than the macromolecular structure
+    formats:
+    Only the atom positions, charges, elements and bonds can be read
+    from the file, chain and and residue information is missing.
+    This class can also be used to parse the first structure from an SDF
+    file, as the SDF format extends the MOL format.
+    Attributes
+    ----------
+    header : Header
+        The header of the MOL file.
+    References
+    ----------
+    .. footbibliography::
+    Examples
+    --------
+    >>> from os.path import join
+    >>> mol_file = MOLFile.read(join(path_to_structures, "molecules", "TYR.sdf"))
+    >>> atom_array = mol_file.get_structure()
+    >>> print(atom_array)
+                0             N         1.320    0.952    1.428
+                0             C        -0.018    0.429    1.734
+                0             C        -0.103    0.094    3.201
+                0             O         0.886   -0.254    3.799
+                0             C        -0.274   -0.831    0.907
+                0             C        -0.189   -0.496   -0.559
+                0             C         1.022   -0.589   -1.219
+                0             C        -1.324   -0.102   -1.244
+                0             C         1.103   -0.282   -2.563
+                0             C        -1.247    0.210   -2.587
+                0             C        -0.032    0.118   -3.252
+                0             O         0.044    0.420   -4.574
+                0             O        -1.279    0.184    3.842
+                0             H         1.977    0.225    1.669
+                0             H         1.365    1.063    0.426
+                0             H        -0.767    1.183    1.489
+                0             H         0.473   -1.585    1.152
+                0             H        -1.268   -1.219    1.134
+                0             H         1.905   -0.902   -0.683
+                0             H        -2.269   -0.031   -0.727
+                0             H         2.049   -0.354   -3.078
+                0             H        -2.132    0.523   -3.121
+                0             H        -0.123   -0.399   -5.059
+                0             H        -1.333   -0.030    4.784
+    """
+    def __init__(self):
+        super().__init__()
+        # empty header lines
+        self.lines = [""] * N_HEADER
+        self._header = None
+    @classmethod
+    def read(cls, file):
+        mol_file = super().read(file)
+        mol_file._header = None
+        return mol_file
+    @property
+    def header(self):
+        if self._header is None:
+            self._header = Header.deserialize("\n".join(self.lines[0:3]) + "\n")
+        return self._header
+    @header.setter
+    def header(self, header):
+        self._header = header
+        self.lines[0:3] = self._header.serialize().splitlines()
+    def get_structure(self):
+        """
+        Get an :class:`AtomArray` from the MOL file.
+        Returns
+        -------
+        array : AtomArray
+            This :class:`AtomArray` contains the optional ``charge``
+            annotation and has an associated :class:`BondList`.
+            All other annotation categories, except ``element`` are
+            empty.
+        """
+        ctab_lines = _get_ctab_lines(self.lines)
+        if len(ctab_lines) == 0:
+            raise InvalidFileError("File does not contain structure data")
+        return read_structure_from_ctab(ctab_lines)
+    def set_structure(self, atoms, default_bond_type=BondType.ANY, version=None):
+        """
+        Set the :class:`AtomArray` for the file.
+        Parameters
+        ----------
+        atoms : AtomArray
+            The array to be saved into this file.
+            Must have an associated :class:`BondList`.
+        default_bond_type : BondType, optional
+            Bond type fallback for the *Bond block*, if a
+            :class:`BondType` has no CTAB counterpart.
+            By default, each such bond is treated as
+            :attr:`BondType.ANY`.
+        version : {"V2000", "V3000"}, optional
+            The version of the CTAB format.
+            ``"V2000"`` uses the *Atom* and *Bond* block, while
+            ``"V3000"`` uses the *Properties* block.
+            By default, ``"V2000"`` is used, unless the number of atoms
+            or bonds exceeds 999, in which case ``"V3000"`` is used.
+        """
+        self.lines = self.lines[:N_HEADER] + write_structure_to_ctab(
+            atoms, default_bond_type, version
+        )
+def _get_ctab_lines(lines):
+    for i, line in enumerate(lines):
+        if line.startswith("M  END"):
+            return lines[N_HEADER : i + 1]
+    return lines[N_HEADER:]