PyPI - gemmi-protools - Versions diffs - 1.0.2__py3-none-any.whl → 1.0.4__py3-none-any.whl - Mend

gemmi-protools 1.0.2py3-none-any.whl → 1.0.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of gemmi-protools might be problematic. Click here for more details.

Files changed (7) hide show

gemmi_protools/io/reader.py CHANGED Viewed

@@ -1,19 +1,28 @@
 import gzip
 import io
-import itertools
 import pathlib
 import random
 import string
 from collections import defaultdict
-from copy import deepcopy
 from typing import Dict, Optional, List
 import gemmi
 import numpy as np
 import pandas as pd
-from joblib import Parallel, delayed
 from scipy.spatial import cKDTree
+ATOM = [("chain_name", "U5"),
+        ("residue_num", "i4"),
+        ("residue_icode", "U3"),
+        ("residue_name", "U5"),
+        ("atom_name", "U5"),
+        ("element", "U3"),
+        ("charge", "i1"),
+        ("b_factor", "f4"),
+        ("occupancy", "f4"),
+        ("coordinate", ("f4", (3,)))
+        ]
 def is_pdb(path: str) -> bool:
     """
@@ -111,6 +120,23 @@ def parse_cif(path: str) -> dict:
     info_map = dict(st.info)
     pdb_code = info_map.get("_entry.id", "").lower()
+    v1 = block.find_value("_refine.ls_d_res_high")
+    v2 = block.find_value("_em_3d_reconstruction.resolution")
+    resolution = 0.0
+    if v1 not in [".", "?", None]:
+        resolution = v1
+    elif v2 not in [".", "?", None]:
+        resolution = v2
+    try:
+        resolution = float(resolution)
+    except:
+        resolution = 0.0
+    st.resolution = resolution
     info = dict(description={k: v for k, v in entityid2description.items() if v and v != "?"},
                 source=entityid2src,
                 resolution=st.resolution,
@@ -301,8 +327,6 @@ class StructureParser(object):
                 del self.STRUCT[idx]
         self.MODEL = self.STRUCT[0]
-        self.STRUCT.remove_alternative_conformations()
-        self.STRUCT.remove_hydrogens()
         self.STRUCT.remove_empty_chains()
         self._update_full_sequences()
@@ -757,17 +781,23 @@ class StructureParser(object):
         new_struct.INFO["source"] = src
         return new_struct
-    def clean_structure(self, remove_ligand=True):
+    def clean_structure(self, remove_ligand=False, remove_hydrogen=True):
         """
         Remove water by default
-        :param remove_ligand:
+        :param remove_ligand: bool, default False
+        :param remove_hydrogen: bool, default True
         :return:
         """
+        self.STRUCT.remove_alternative_conformations()
+        if remove_hydrogen:
+            self.STRUCT.remove_hydrogens()
         if remove_ligand:
-            self.STRUCT.remove_waters()
-        else:
             self.STRUCT.remove_ligands_and_waters()
+        else:
+            self.STRUCT.remove_waters()
         self.STRUCT.remove_empty_chains()
         self.update_entity()
@@ -782,11 +812,12 @@ class StructureParser(object):
                             atom.name = 'SE'
                             atom.element = gemmi.Element('Se')
-    def get_atoms(self, arg: str = "*"):
+    def get_atoms(self, arg: str = "*", exclude_hydrogen=False):
         """
         :param arg: str, "*", "/1/*//N,CA,C,O", "/1/*"
             see gemmi.Selection
+        :param exclude_hydrogen: bool, default False
         :return:
         np.ndarray
         """
@@ -797,6 +828,9 @@ class StructureParser(object):
             for chain in sel.chains(model):
                 for residue in sel.residues(chain):
                     for atom in sel.atoms(residue):
+                        if exclude_hydrogen and atom.is_hydrogen():
+                            continue
                         val = (chain.name,
                                residue.seqid.num,
                                residue.seqid.icode,
@@ -810,23 +844,12 @@ class StructureParser(object):
                                )
                         res.append(val)
-        dtype = [("chain_name", "U5"),
-                 ("residue_num", "i4"),
-                 ("residue_icode", "U3"),
-                 ("residue_name", "U5"),
-                 ("atom_name", "U5"),
-                 ("element", "U3"),
-                 ("charge", "i1"),
-                 ("b_factor", "f4"),
-                 ("occupancy", "f4"),
-                 ("coordinate", ("f4", (3,)))
-                 ]
-        return np.array(res, dtype=dtype)
-    def polymer_interface_residues(self,
-                                   chains_x: List[str],
-                                   chains_y: List[str],
-                                   threshold: float = 4.5):
+        return np.array(res, dtype=ATOM)
+    def compute_interface(self,
+                          chains_x: List[str],
+                          chains_y: List[str],
+                          threshold: float = 5.0):
         """
         Identify PPI among protein, DNA, RNA using heavy atom distances.
         :param chains_x:
@@ -843,23 +866,8 @@ class StructureParser(object):
                                  % (ch, " ".join(list(self.polymer_types.keys())))
                                  )
-        def ppi_atoms(struct, chains):
-            # atoms for N and O of backbone and N, O, P, S of side chains, only for PPI searching
-            protein_atoms = ['N', 'ND1', 'ND2', 'NE', 'NE1', 'NE2', 'NH1', 'NH2', 'NZ',
-                             'O', 'OD1', 'OD2', 'OE1', 'OE2', 'OG', 'OG1', 'OH',
-                             'SD', 'SG']
-            xna_atoms = ['N1', 'N2', 'N3', 'N4', 'N6', 'N7', 'N9',
-                         'O2', "O2'", "O3'", 'O4', "O4'", "O5'", 'O6',
-                         'OP1', 'OP2', 'OP3', 'P']
-            tag = "/1/%s//%s" % (",".join(chains), ",".join(protein_atoms + xna_atoms))
-            z = struct.get_atoms(tag)
-            return z
-        query_struct = deepcopy(self)
-        query_struct.clean_structure(remove_ligand=True)
-        atom_x = ppi_atoms(query_struct, chains_x)
-        atom_y = ppi_atoms(query_struct, chains_y)
+        atom_x = self.get_atoms("/1/%s" % ",".join(chains_x), exclude_hydrogen=True)
+        atom_y = self.get_atoms("/1/%s" % ",".join(chains_y), exclude_hydrogen=True)
         kd_tree_x = cKDTree(atom_x["coordinate"])
         kd_tree_y = cKDTree(atom_y["coordinate"])
@@ -869,38 +877,3 @@ class StructureParser(object):
         y_res = np.unique(atom_y[pairs.col][["chain_name", "residue_num", "residue_icode", "residue_name"]])
         return x_res, y_res
-    def polymer_interface_residues_all(self, ppi_threshold: float = 4.5, n_cpus: int = 4):
-        """
-        Identify PPI among protein, DNA, RNA using heavy atom distances between all chain pairs.
-        :param ppi_threshold:
-        :param n_cpus:
-        :return:
-        """
-        chains = list(self.polymer_types.keys())
-        ch_pairs = list(itertools.combinations(chains, r=2))
-        ch_pairs.sort()
-        def _run(ch_1, ch_2):
-            key = "%s/%s" % (ch_1, ch_2)
-            res_x, res_y = self.polymer_interface_residues(chains_x=[ch_1], chains_y=[ch_2], threshold=ppi_threshold)
-            if len(res_x) > 0:
-                vx = ["%s/%d/%s/%s" % (a, b, c.strip(), d) for a, b, c, d in res_x.tolist()]
-                vy = ["%s/%d/%s/%s" % (a, b, c.strip(), d) for a, b, c, d in res_y.tolist()]
-                return {key: [vx, vy]}
-            else:
-                return dict()
-        cpu2use = max(min(n_cpus, len(ch_pairs)), 1)
-        outputs = dict()
-        if cpu2use == 1 or len(ch_pairs) < 50:
-            for ch_1, ch_2 in ch_pairs:
-                outputs.update(_run(ch_1, ch_2))
-        else:
-            results = Parallel(n_jobs=cpu2use)(delayed(_run)(c1, c2) for c1, c2 in ch_pairs)
-            for item in results:
-                outputs.update(item)
-        return outputs

gemmi_protools/tools/pdb_annot.py CHANGED Viewed

@@ -10,6 +10,7 @@ import uuid
 from collections import defaultdict
 from importlib.resources import files
+import numpy as np
 from anarci import run_anarci
 from anarci.germlines import all_germlines
@@ -37,10 +38,21 @@ def get_fv_region(in_sequence: str):
     )
     mapper = dict()
+    num_mapper = dict()
     for k, v in imgt_scheme.items():
         for i in range(v[0], v[1] + 1):
             mapper[i] = k
+            if k == "cdr1":
+                ki = 1
+            elif k == "cdr2":
+                ki = 2
+            elif k == "cdr3":
+                ki = 3
+            else:
+                ki = 0
+            num_mapper[i] = ki
     inputs = [("input", in_sequence)]
     _, numbered, alignment_details, _ = run_anarci(inputs, scheme="imgt", assign_germline=True)
     if numbered[0] is None:
@@ -49,6 +61,16 @@ def get_fv_region(in_sequence: str):
     outputs = []
     for cur_numbered, cur_details in zip(numbered[0], alignment_details[0]):
         aligned_sites, start, end = cur_numbered
+        # add mask
+        # 9 for not Fv region
+        # 0 for non-CDR region, 1, 2, 3 for CDR region for the current Fv
+        mask = np.full(len(in_sequence), fill_value=9, dtype=np.int8)
+        mask[start: end + 1] = 0
+        i = 0
+        for (site_num, _), site_aa in aligned_sites:
+            if site_aa != "-":
+                mask[i + start] = num_mapper[site_num]
+                i += 1
         # region_seq
         regions = defaultdict(list)
@@ -119,6 +141,7 @@ def get_fv_region(in_sequence: str):
                             cdr1_aa=cdr1_seq,
                             cdr2_aa=cdr2_seq,
                             cdr3_aa=cdr3_seq,
+                            mask="".join([str(i) for i in mask.tolist()])
                             )
                        )
     return outputs

{gemmi_protools-1.0.2.dist-info → gemmi_protools-1.0.4.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: gemmi_protools
-Version: 1.0.2
+Version: 1.0.4
 Summary: An Enhanced tool to process PDB structures based on Gemmi
 Author: Luo Jiejian
 Author-email: Luo Jiejian <luojiejian12@mails.ucas.ac.cn>
@@ -27,7 +27,7 @@ Dynamic: license-file
 # Install
 ```commandline
-conda install python=3.12.9 anarci hmmer dockq trimesh rtree -c bioconda -c conda-forge
+conda install python=3.12.9 anarci hmmer dockq trimesh rtree pdbfixer -c bioconda -c conda-forge
 pip install gemmi_protools
 ```

{gemmi_protools-1.0.2.dist-info → gemmi_protools-1.0.4.dist-info}/RECORD RENAMED Viewed

@@ -6,14 +6,14 @@ gemmi_protools/data/MHC/MHC_combined.hmm.h3m,sha256=CvNMCsobQiX-wL7iB4CreNcbpnEl
 gemmi_protools/data/MHC/MHC_combined.hmm.h3p,sha256=-mK278pRedG3-KL-DtuVAQy7La9DgXg5FcP89D6X3Ck,78325
 gemmi_protools/io/__init__.py,sha256=F6e1xNT_7lZAWQgNIneH06o2qtWYrHNr_xPUPTwwx5E,29
 gemmi_protools/io/convert.py,sha256=A1i1vPgxG1LqMSUvWtegLl9LipgUQbfmKeGJ_f00UYo,3781
-gemmi_protools/io/reader.py,sha256=X4onV0IVl0Q7JVH0yg2Zy-8iPIZvRPM-aaxDapawiro,33617
+gemmi_protools/io/reader.py,sha256=drJ8WO_N8VR3KAmvEJBsHHAgZj-hzfnM3fyIV1uc0gg,32047
 gemmi_protools/tools/__init__.py,sha256=F6e1xNT_7lZAWQgNIneH06o2qtWYrHNr_xPUPTwwx5E,29
 gemmi_protools/tools/align.py,sha256=oKHvpeDa62zEjLkPmuyBM6avYDl3HFeJVHeRX62I2f4,7085
 gemmi_protools/tools/dockq.py,sha256=baCuO5-GZCwrlS59T5UIXogpM44OIFIfXqksqRBAb0A,4428
 gemmi_protools/tools/mesh.py,sha256=73MuJYwS_ACJI15OsrooAAhB1Ti4fM8CJSBqFOBR7LU,6537
-gemmi_protools/tools/pdb_annot.py,sha256=enATyAHq0dE8TMsKQhsSbYj-baGrI33iviJdW2R7Hv8,8157
-gemmi_protools-1.0.2.dist-info/licenses/LICENSE,sha256=JuQvKcgj6n11y5y6nXr9rABv3gJSswc4eTCd5WZBtSY,1062
-gemmi_protools-1.0.2.dist-info/METADATA,sha256=29ea2GIobnQjR6N0VQaI6MRvcH6UCG7cTpzETUUIrCE,1034
-gemmi_protools-1.0.2.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
-gemmi_protools-1.0.2.dist-info/top_level.txt,sha256=P12mYJi5O5EKIn5u-RFaWxuix431CgLacSRD7rBid_U,15
-gemmi_protools-1.0.2.dist-info/RECORD,,
+gemmi_protools/tools/pdb_annot.py,sha256=fjEB7xmY-SmctW_lICtf2GZ63Odu9nADlyJuOen4W8o,8906
+gemmi_protools-1.0.4.dist-info/licenses/LICENSE,sha256=JuQvKcgj6n11y5y6nXr9rABv3gJSswc4eTCd5WZBtSY,1062
+gemmi_protools-1.0.4.dist-info/METADATA,sha256=HU5R2A-uwFbMcqDTcVeNPr0U3L0XrmeYVA8DihfWfiI,1043
+gemmi_protools-1.0.4.dist-info/WHEEL,sha256=_zCd3N1l69ArxyTb8rzEoP9TpbYXkqRFSNOD5OuxnTs,91
+gemmi_protools-1.0.4.dist-info/top_level.txt,sha256=P12mYJi5O5EKIn5u-RFaWxuix431CgLacSRD7rBid_U,15
+gemmi_protools-1.0.4.dist-info/RECORD,,

{gemmi_protools-1.0.2.dist-info → gemmi_protools-1.0.4.dist-info}/WHEEL RENAMED Viewed

File without changes

{gemmi_protools-1.0.2.dist-info → gemmi_protools-1.0.4.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

{gemmi_protools-1.0.2.dist-info → gemmi_protools-1.0.4.dist-info}/top_level.txt RENAMED Viewed

File without changes

gemmi-protools 1.0.2__py3-none-any.whl → 1.0.4__py3-none-any.whl

Potentially problematic release.

gemmi-protools 1.0.2py3-none-any.whl → 1.0.4py3-none-any.whl