PyPI - nerdd-module - Versions diffs - 0.1.12__tar.gz → 0.2.1__tar.gz - Mend

nerdd-module 0.1.12tar.gz → 0.2.1tar.gz

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (93) hide show

nerdd-module-0.2.1/PKG-INFO ADDED Viewed

@@ -0,0 +1,70 @@
+Metadata-Version: 2.1
+Name: nerdd-module
+Version: 0.2.1
+Summary: Base package to create NERDD modules
+Home-page: https://github.com/molinfo-vienna/nerdd-module.git
+Maintainer: Steffen Hirte
+Maintainer-email: steffen.hirte@univie.ac.at
+License: BSD 3-Clause License
+Classifier: Intended Audience :: Science/Research
+Classifier: Intended Audience :: Developers
+Classifier: License :: OSI Approved :: BSD License
+Classifier: Programming Language :: C
+Classifier: Programming Language :: Python
+Classifier: Topic :: Software Development
+Classifier: Topic :: Scientific/Engineering
+Classifier: Operating System :: Microsoft :: Windows
+Classifier: Operating System :: POSIX
+Classifier: Operating System :: Unix
+Classifier: Operating System :: MacOS
+Classifier: Programming Language :: Python :: 3
+Classifier: Programming Language :: Python :: 3.9
+Classifier: Programming Language :: Python :: 3.10
+Classifier: Programming Language :: Python :: 3.11
+Classifier: Programming Language :: Python :: 3.12
+Description-Content-Type: text/markdown
+License-File: LICENSE
+Requires-Dist: rdkit>=2022.3.3
+Requires-Dist: pandas>=1.2.1
+Requires-Dist: pyyaml>=6.0
+Requires-Dist: filetype~=1.2.0
+Requires-Dist: rich-click>=1.7.1
+Requires-Dist: stringcase>=1.2.0
+Requires-Dist: decorator>=5.1.1
+Requires-Dist: importlib-resources>=5; python_version < "3.10"
+Requires-Dist: importlib-metadata>=4.6; python_version < "3.10"
+Requires-Dist: chembl_structure_pipeline>=1.0.0
+Provides-Extra: dev
+Provides-Extra: test
+Requires-Dist: pytest; extra == "test"
+Requires-Dist: pytest-sugar; extra == "test"
+Requires-Dist: pytest-cov; extra == "test"
+Requires-Dist: pytest-asyncio; extra == "test"
+Requires-Dist: pytest-bdd; extra == "test"
+Requires-Dist: pytest-mock; extra == "test"
+Requires-Dist: pytest-watch; extra == "test"
+Requires-Dist: hypothesis; extra == "test"
+Requires-Dist: hypothesis-rdkit; extra == "test"
+Provides-Extra: docs
+Requires-Dist: mkdocs; extra == "docs"
+Requires-Dist: mkdocs-material; extra == "docs"
+Requires-Dist: mkdocstrings; extra == "docs"
+# NERDD Module
+This package provides the basis to implement molecular prediction modules in the
+NERDD ecosystem.
+## Installation
+```bash
+pip install -U nerdd-module
+```
+## Contribute
+1. Fork and clone the code
+2. Install test dependencies with ```pip install -e .[test]```
+3. Run tests via ```pytest``` or ```pytest-watch``` (short: ```ptw```)
+4. Build docs via ```pip install -e .[docs]``` and ```mkdocs serve```

nerdd-module-0.2.1/README.md ADDED Viewed

@@ -0,0 +1,18 @@
+# NERDD Module
+This package provides the basis to implement molecular prediction modules in the
+NERDD ecosystem.
+## Installation
+```bash
+pip install -U nerdd-module
+```
+## Contribute
+1. Fork and clone the code
+2. Install test dependencies with ```pip install -e .[test]```
+3. Run tests via ```pytest``` or ```pytest-watch``` (short: ```ptw```)
+4. Build docs via ```pip install -e .[docs]``` and ```mkdocs serve```

nerdd-module-0.2.1/nerdd_module/__init__.py ADDED Viewed

@@ -0,0 +1,10 @@
+from .abstract_model import *
+from .cli import *
+from .config import *
+from .problem import *
+from .version import *
+from .polyfills import get_entry_points
+for entry_point in get_entry_points("nerdd-module.plugins"):
+    entry_point.load()

{nerdd-module-0.1.12 → nerdd-module-0.2.1}/nerdd_module/abstract_model.py RENAMED Viewed

@@ -5,18 +5,19 @@ import pandas as pd
 from rdkit.Chem import Mol, MolToSmiles
 from .config import AutoConfiguration, Configuration
-from .io import MoleculeEntry, guess_and_read
+from .io import DepthFirstExplorer, MoleculeEntry
 from .preprocessing import Pipeline, Step, registry
+from .problem import Problem
 __all__ = ["AbstractModel"]
 class CustomPreprocessingStep(Step):
-    def __init__(self, fn: Callable[[Mol], Tuple[Mol, List[str]]]):
+    def __init__(self, fn: Callable[[Mol], Tuple[Mol, List[Problem]]]):
         super().__init__()
         self.fn = fn
-    def _run(self, mol: Mol) -> Tuple[Mol, List[str]]:
+    def _run(self, mol: Mol) -> Tuple[Mol, List[Problem]]:
         return self.fn(mol)
@@ -69,7 +70,7 @@ class AbstractModel(ABC):
         #
         self.num_processes = num_processes
-    def _preprocess_single_mol(self, mol: Mol) -> Tuple[Mol, List[str]]:
+    def _preprocess_single_mol(self, mol: Mol) -> Tuple[Mol, List[Problem]]:
         # if this method is called, the preprocessing_pipeline was set to "custom"
         # and this method has to be overwritten
         raise NotImplementedError()
@@ -117,13 +118,6 @@ class AbstractModel(ABC):
             for mol in df_preprocess.input_mol
         ]
-        # add smiles columns for web UI
-        def _to_smiles(mol):
-            try:
-                return MolToSmiles(mol)
-            except:
-                return None
         #
         # PREPARE PREDICTION OF MOLECULES
         #
@@ -223,10 +217,8 @@ class AbstractModel(ABC):
         df_result.drop(columns=["missing", "preprocessing_errors"], inplace=True)
         # convert errors to string
-        if "errors" in df_result.columns:
-            df_result["errors"] = df_result.errors.map(lambda x: ", ".join(set(x)))
-        else:
-            df_result["errors"] = ""
+        if "errors" not in df_result.columns:
+            df_result["errors"] = []
         # delete mol column (not needed anymore)
         df_load.drop(columns=["mol"], inplace=True)
@@ -236,7 +228,7 @@ class AbstractModel(ABC):
         # merge errors from loading and prediction
         df_result["errors"] = [
-            ", ".join(set(load_errors + [prediction_errors]))
+            load_errors + prediction_errors
             for load_errors, prediction_errors in zip(
                 df_result.load_errors, df_result.errors
             )
@@ -266,7 +258,7 @@ class AbstractModel(ABC):
         input_type=None,
         **kwargs,
     ):
-        entries = guess_and_read(inputs)
+        entries = DepthFirstExplorer().explore(inputs)
         return self._predict_entries(entries, **kwargs)

{nerdd-module-0.1.12 → nerdd-module-0.2.1}/nerdd_module/cli.py RENAMED Viewed

@@ -62,7 +62,7 @@ def auto_cli(f, *args, **kwargs):
     if len(examples) > 0:
         footer = "Examples:\n"
         for example in examples:
-            footer += f"* {command_name} {example}\n"
+            footer += f'* {command_name} "{example}"\n'
     else:
         footer = ""

{nerdd-module-0.1.12 → nerdd-module-0.2.1}/nerdd_module/config/default_configuration.py RENAMED Viewed

@@ -7,9 +7,11 @@ class DefaultConfiguration(Configuration):
     def __init__(self, nerdd_module):
         super().__init__()
-        # we do not use default values at the moment
-        # feel free to add values here if needed
-        self.config = {}
+        self.config = dict(
+            task="molecular_property_prediction",
+            job_parameters=[],
+            result_properties=[],
+        )
     def _get_dict(self):
         return self.config

nerdd-module-0.2.1/nerdd_module/config/package_configuration.py ADDED Viewed

@@ -0,0 +1,31 @@
+from ..polyfills import files
+from .configuration import Configuration
+from .dict_configuration import DictConfiguration
+from .yaml_configuration import YamlConfiguration
+__all__ = ["PackageConfiguration"]
+class PackageConfiguration(Configuration):
+    def __init__(self, package):
+        super().__init__()
+        # get the resource directory
+        try:
+            root_dir = files(package)
+        except ModuleNotFoundError:
+            root_dir = None
+        if root_dir is None:
+            self.config = DictConfiguration({})
+        else:
+            # navigate to the config file
+            config_file = root_dir / "nerdd.yml"
+            if config_file is not None and config_file.exists():
+                self.config = YamlConfiguration(config_file, base_path=root_dir)
+            else:
+                self.config = DictConfiguration({})
+    def _get_dict(self):
+        return self.config.get_dict()

{nerdd-module-0.1.12 → nerdd-module-0.2.1}/nerdd_module/io/__init__.py RENAMED Viewed

@@ -1,17 +1,17 @@
 from .csv_writer import *
-from .elementary_reader import *
-from .guess_and_read import *
+from .depth_first_explorer import *
+from .file_reader import *
+from .gzip_reader import *
 from .inchi_reader import *
-from .elementary_inchi_reader import *
 from .list_reader import *
-from .elementary_mol_block_reader import *
-from .elementary_rdkit_mol_reader import *
+from .mol_reader import *
 from .reader import *
 from .reader_registry import *
 from .sdf_reader import *
 from .sdf_writer import *
 from .smiles_reader import *
-from .elementary_smiles_reader import *
-from .splitting_reader import *
+from .string_reader import *
+from .tar_reader import *
 from .writer import *
 from .writer_registry import *
+from .zip_reader import *

{nerdd-module-0.1.12 → nerdd-module-0.2.1}/nerdd_module/io/csv_writer.py RENAMED Viewed

@@ -1,7 +1,6 @@
 import csv
-from io import TextIOWrapper
 from itertools import chain
-from typing import BinaryIO, Dict, Iterable, TextIO, Union
+from typing import Dict, Iterable
 from rdkit.Chem import Mol, MolToSmiles

nerdd-module-0.2.1/nerdd_module/io/depth_first_explorer.py ADDED Viewed

@@ -0,0 +1,111 @@
+from itertools import chain, islice, repeat
+from typing import Generator, Iterable, Optional
+from .explorer import Explorer
+from .reader import MoleculeEntry, Problem, Reader
+from .reader_registry import ReaderRegistry
+__all__ = ["DepthFirstExplorer"]
+class InvalidInputReader(Reader):
+    def __init__(self):
+        super().__init__()
+    def read(self, input, explore) -> Generator[MoleculeEntry, None, None]:
+        yield MoleculeEntry(
+            raw_input=input,
+            input_type="unknown",
+            source=tuple(["input"]),
+            mol=None,
+            errors=[Problem("invalid_input", "Invalid input")],
+        )
+    def __repr__(self) -> str:
+        return "InvalidInputReader()"
+class DepthFirstExplorer(Explorer):
+    def __init__(
+        self,
+        readers: Optional[Iterable[Reader]] = None,
+        num_test_entries: int = 10,
+        threshold: float = 0.5,
+        maximum_depth: int = 50,
+    ):
+        super().__init__()
+        if readers is None:
+            self.reader_registry = ReaderRegistry()
+        else:
+            self.reader_registry = readers
+        self.num_test_entries = num_test_entries
+        self.threshold = threshold
+        self.state_stack = [self.empty_state()]
+        self.maximum_depth = maximum_depth
+    def empty_state(self):
+        return dict(first_guess=[])
+    def explore(self, input) -> Generator[MoleculeEntry, None, None]:
+        # create a new child node and set it as the current node
+        state = self.empty_state()
+        parent = self.state_stack[-1]
+        self.state_stack.append(state)
+        depth = len(self.state_stack)
+        if depth > self.maximum_depth:
+            raise ValueError(f"Maximum depth of {self.maximum_depth} reached")
+        readers_iter = chain(
+            zip(parent["first_guess"], repeat("guess")),
+            zip(self.reader_registry, repeat("builtin")),
+        )
+        # try all readers and take a sample of the first num_test_entries
+        # the reader with most valid molecule entries will be used
+        best_reader: Optional[Reader] = None
+        best_mode = None
+        best_score = 0
+        best_ratio = 0.0
+        generator = None
+        sample = []
+        for reader, mode in readers_iter:
+            try:
+                # read at most num_test_entries entries
+                generator = reader.read(input, self.explore)
+                sample = list(islice(generator, self.num_test_entries))
+                valid_entries = [entry for entry in sample if entry.mol is not None]
+                score = len(valid_entries)
+                ratio = len(valid_entries) / len(sample)
+                if score > best_score or (score == best_score and ratio > best_ratio):
+                    best_reader = reader
+                    best_mode = mode
+                    best_score = score
+                    best_ratio = ratio
+                    if score == self.num_test_entries:
+                        break
+            except Exception:
+                pass
+            # clean up tree
+            while len(self.state_stack) > depth:
+                self.state_stack.pop()
+            generator = None
+        if generator is None:
+            if best_reader is None:
+                generator = InvalidInputReader().read(input, self.explore)
+            else:
+                generator = best_reader.read(input, self.explore)
+                sample = list(islice(generator, self.num_test_entries))
+        else:
+            if best_mode is not None and best_mode != "guess":
+                parent["first_guess"].append(best_reader)
+        yield from sample
+        yield from generator

nerdd-module-0.2.1/nerdd_module/io/explorer.py ADDED Viewed

@@ -0,0 +1,13 @@
+from abc import ABC, abstractmethod
+from typing import Generator
+from .reader import MoleculeEntry
+class Explorer(ABC):
+    def __init__(self):
+        pass
+    @abstractmethod
+    def explore(self, input) -> Generator[MoleculeEntry, None, None]:
+        pass

nerdd-module-0.2.1/nerdd_module/io/file_reader.py ADDED Viewed

@@ -0,0 +1,37 @@
+import os
+from pathlib import Path
+from typing import Generator
+from .reader import MoleculeEntry, Reader
+from .reader_registry import register_reader
+__all__ = ["FileReader"]
+@register_reader
+class FileReader(Reader):
+    def __init__(self, data_dir="."):
+        super().__init__()
+        self.data_dir = Path(data_dir)
+    def read(self, filename, explore) -> Generator[MoleculeEntry, None, None]:
+        assert isinstance(filename, str), "input must be a string"
+        try:
+            path = Path(filename).absolute()
+        except:
+            raise ValueError("input must be a valid path")
+        assert path.is_relative_to(self.data_dir), "input must be a relative path"
+        assert path.exists(), "input must be a valid file"
+        with open(filename, "rb") as f:
+            for entry in explore(f):
+                if len(entry.source) == 1 and entry.source[0] == "raw_input":
+                    source = tuple()
+                else:
+                    source = entry.source
+                yield entry._replace(source=tuple([filename, *source]))
+    def __repr__(self):
+        return f"FileReader()"

nerdd-module-0.2.1/nerdd_module/io/gzip_reader.py ADDED Viewed

@@ -0,0 +1,30 @@
+import gzip
+from typing import Generator
+from .reader import MoleculeEntry, Reader
+from .reader_registry import register_reader
+__all__ = ["GzipReader"]
+@register_reader
+class GzipReader(Reader):
+    def __init__(self):
+        super().__init__()
+    def read(self, input_stream, explore) -> Generator[MoleculeEntry, None, None]:
+        if not hasattr(input_stream, "read") or not hasattr(input_stream, "seek"):
+            raise TypeError("input must be a stream-like object")
+        input_stream.seek(0)
+        with gzip.open(input_stream, "rb") as f:
+            # gzip.open will not raise an exception if the file is not a valid gzip file
+            # --> check by attempting to read the first byte
+            f.read(1)
+            f.seek(0)
+            yield from explore(f)
+    def __repr__(self) -> str:
+        return "GzipReader()"

nerdd-module-0.2.1/nerdd_module/io/inchi_reader.py ADDED Viewed

@@ -0,0 +1,59 @@
+from codecs import getreader
+from typing import Generator
+from rdkit.Chem import MolFromInchi
+from rdkit.rdBase import BlockLogs
+from ..problem import Problem
+from .reader import MoleculeEntry, Reader
+from .reader_registry import register_reader
+__all__ = ["InchiReader"]
+StreamReader = getreader("utf-8")
+@register_reader
+class InchiReader(Reader):
+    def __init__(self):
+        super().__init__()
+    def read(self, input_stream, explore) -> Generator[MoleculeEntry, None, None]:
+        if not hasattr(input_stream, "read") or not hasattr(input_stream, "seek"):
+            raise TypeError("input must be a stream-like object")
+        input_stream.seek(0)
+        reader = StreamReader(input_stream)
+        # suppress RDKit warnings
+        with BlockLogs():
+            for line in reader:
+                # skip empty lines
+                if line.strip() == "":
+                    continue
+                # skip comments
+                if line.strip().startswith("#"):
+                    continue
+                try:
+                    mol = MolFromInchi(line, sanitize=False)
+                except:
+                    mol = None
+                if mol is None:
+                    errors = [Problem("invalid_inchi", "Invalid InChI")]
+                else:
+                    errors = []
+                yield MoleculeEntry(
+                    raw_input=line,
+                    input_type="inchi",
+                    source=tuple(["raw_input"]),
+                    mol=mol,
+                    errors=errors,
+                )
+    def __repr__(self) -> str:
+        return "InchiReader()"

nerdd-module-0.2.1/nerdd_module/io/list_reader.py ADDED Viewed

@@ -0,0 +1,24 @@
+from io import BytesIO, StringIO
+from typing import BinaryIO, Generator, Iterable
+from .reader import MoleculeEntry, Reader
+from .reader_registry import register_reader
+__all__ = ["ListReader"]
+@register_reader
+class ListReader(Reader):
+    def __init__(self):
+        super().__init__()
+    def read(self, input_iterable, explore) -> Generator[MoleculeEntry, None, None]:
+        assert isinstance(input_iterable, Iterable) and not isinstance(
+            input_iterable, (str, bytes, BytesIO, StringIO, BinaryIO)
+        ), f"input must be an iterable, but is {type(input_iterable)}"
+        for entry in input_iterable:
+            yield from explore(entry)
+    def __repr__(self) -> str:
+        return "ListReader()"

nerdd-module-0.2.1/nerdd_module/io/mol_reader.py ADDED Viewed

@@ -0,0 +1,25 @@
+from typing import Generator
+from rdkit.Chem import Mol
+from .reader import MoleculeEntry, Reader
+from .reader_registry import register_reader
+@register_reader
+class MolReader(Reader):
+    def __init__(self):
+        super().__init__()
+    def read(self, mol, explore) -> Generator[MoleculeEntry, None, None]:
+        assert isinstance(mol, Mol)
+        yield MoleculeEntry(
+            raw_input=mol,
+            input_type="rdkit_mol",
+            source=tuple(["raw_input"]),
+            mol=mol,
+            errors=[],
+        )
+    def __repr__(self) -> str:
+        return "MolReader()"

nerdd-module-0.2.1/nerdd_module/io/reader.py ADDED Viewed

@@ -0,0 +1,25 @@
+from abc import ABC, abstractmethod
+from typing import Generator, List, NamedTuple, Optional, Tuple
+from rdkit.Chem import Mol
+from ..problem import Problem
+__all__ = ["MoleculeEntry", "Reader"]
+class MoleculeEntry(NamedTuple):
+    raw_input: str
+    input_type: str
+    source: Tuple[str, ...]
+    mol: Optional[Mol]
+    errors: List[Problem]
+class Reader(ABC):
+    def __init__(self):
+        super().__init__()
+    @abstractmethod
+    def read(self, input, explore) -> Generator[MoleculeEntry, None, None]:
+        pass

nerdd-module-0.2.1/nerdd_module/io/reader_registry.py ADDED Viewed

@@ -0,0 +1,30 @@
+from functools import lru_cache
+from typing import Generator, Type
+from .reader import Reader
+__all__ = ["ReaderRegistry", "register_reader"]
+# lru_cache makes the registry a singleton
+@lru_cache(maxsize=1)
+class ReaderRegistry:
+    def __init__(self):
+        self._factories = []
+    def register(self, ReaderClass: Type[Reader], *args, **kwargs):
+        assert issubclass(ReaderClass, Reader)
+        self._factories.append(lambda: ReaderClass(*args, **kwargs))
+    def readers(self) -> Generator[Reader, None, None]:
+        for reader in self._factories:
+            yield reader()
+    def __iter__(self):
+        return iter(map(lambda f: f(), self._factories))
+def register_reader(clazz, *args, **kwargs):
+    # TODO: implement both decorator modes
+    ReaderRegistry().register(clazz, *args, **kwargs)
+    return clazz

nerdd-module 0.1.12__tar.gz → 0.2.1__tar.gz

nerdd-module 0.1.12tar.gz → 0.2.1tar.gz