PyPI - rc-foundry - Versions diffs - 0.1.1__py3-none-any.whl - Mend

rc-foundry 0.1.1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (180) hide show

foundry/__init__.py +57 -0
foundry/callbacks/__init__.py +5 -0
foundry/callbacks/callback.py +116 -0
foundry/callbacks/health_logging.py +419 -0
foundry/callbacks/metrics_logging.py +211 -0
foundry/callbacks/timing_logging.py +67 -0
foundry/callbacks/train_logging.py +278 -0
foundry/common.py +108 -0
foundry/constants.py +28 -0
foundry/hydra/resolvers.py +77 -0
foundry/inference_engines/base.py +235 -0
foundry/inference_engines/checkpoint_registry.py +66 -0
foundry/metrics/__init__.py +12 -0
foundry/metrics/losses.py +30 -0
foundry/metrics/metric.py +319 -0
foundry/model/layers/blocks.py +47 -0
foundry/testing/__init__.py +6 -0
foundry/testing/fixtures.py +19 -0
foundry/testing/pytest_hooks.py +15 -0
foundry/trainers/fabric.py +923 -0
foundry/training/EMA.py +67 -0
foundry/training/checkpoint.py +61 -0
foundry/training/schedulers.py +91 -0
foundry/utils/alignment.py +86 -0
foundry/utils/components.py +415 -0
foundry/utils/datasets.py +405 -0
foundry/utils/ddp.py +103 -0
foundry/utils/instantiators.py +72 -0
foundry/utils/logging.py +279 -0
foundry/utils/rigid.py +1460 -0
foundry/utils/rotation_augmentation.py +65 -0
foundry/utils/squashfs.py +172 -0
foundry/utils/torch.py +317 -0
foundry/utils/weights.py +271 -0
foundry/version.py +34 -0
foundry_cli/__init__.py +3 -0
foundry_cli/download_checkpoints.py +281 -0
mpnn/__init__.py +1 -0
mpnn/collate/feature_collator.py +265 -0
mpnn/inference.py +53 -0
mpnn/inference_engines/mpnn.py +549 -0
mpnn/loss/nll_loss.py +122 -0
mpnn/metrics/nll.py +369 -0
mpnn/metrics/sequence_recovery.py +440 -0
mpnn/model/layers/graph_embeddings.py +2372 -0
mpnn/model/layers/message_passing.py +332 -0
mpnn/model/layers/position_wise_feed_forward.py +44 -0
mpnn/model/layers/positional_encoding.py +98 -0
mpnn/model/mpnn.py +2632 -0
mpnn/pipelines/mpnn.py +162 -0
mpnn/samplers/samplers.py +167 -0
mpnn/train.py +341 -0
mpnn/trainers/mpnn.py +193 -0
mpnn/transforms/feature_aggregation/mpnn.py +184 -0
mpnn/transforms/feature_aggregation/polymer_ligand_interface.py +76 -0
mpnn/transforms/feature_aggregation/token_encodings.py +132 -0
mpnn/transforms/feature_aggregation/user_settings.py +347 -0
mpnn/transforms/polymer_ligand_interface.py +164 -0
mpnn/utils/inference.py +2397 -0
mpnn/utils/probability.py +37 -0
mpnn/utils/weights.py +309 -0
rc_foundry-0.1.1.dist-info/METADATA +239 -0
rc_foundry-0.1.1.dist-info/RECORD +180 -0
rc_foundry-0.1.1.dist-info/WHEEL +4 -0
rc_foundry-0.1.1.dist-info/entry_points.txt +5 -0
rc_foundry-0.1.1.dist-info/licenses/LICENSE.md +28 -0
rf3/__init__.py +3 -0
rf3/_version.py +33 -0
rf3/alignment.py +79 -0
rf3/callbacks/dump_validation_structures.py +101 -0
rf3/callbacks/metrics_logging.py +324 -0
rf3/chemical.py +1529 -0
rf3/cli.py +77 -0
rf3/data/cyclic_transform.py +78 -0
rf3/data/extra_xforms.py +36 -0
rf3/data/ground_truth_template.py +463 -0
rf3/data/paired_msa.py +206 -0
rf3/data/pipeline_utils.py +128 -0
rf3/data/pipelines.py +558 -0
rf3/diffusion_samplers/inference_sampler.py +222 -0
rf3/inference.py +65 -0
rf3/inference_engines/__init__.py +5 -0
rf3/inference_engines/rf3.py +735 -0
rf3/kinematics.py +354 -0
rf3/loss/af3_confidence_loss.py +515 -0
rf3/loss/af3_losses.py +655 -0
rf3/loss/loss.py +179 -0
rf3/metrics/chiral.py +179 -0
rf3/metrics/clashing_chains.py +68 -0
rf3/metrics/distogram.py +421 -0
rf3/metrics/lddt.py +523 -0
rf3/metrics/metadata.py +43 -0
rf3/metrics/metric_utils.py +192 -0
rf3/metrics/predicted_error.py +134 -0
rf3/metrics/rasa.py +108 -0
rf3/metrics/selected_distances.py +91 -0
rf3/model/RF3.py +527 -0
rf3/model/RF3_blocks.py +92 -0
rf3/model/RF3_structure.py +303 -0
rf3/model/layers/af3_auxiliary_heads.py +255 -0
rf3/model/layers/af3_diffusion_transformer.py +544 -0
rf3/model/layers/attention.py +313 -0
rf3/model/layers/layer_utils.py +127 -0
rf3/model/layers/mlff.py +118 -0
rf3/model/layers/outer_product.py +59 -0
rf3/model/layers/pairformer_layers.py +783 -0
rf3/model/layers/structure_bias.py +56 -0
rf3/scoring.py +1787 -0
rf3/symmetry/resolve.py +284 -0
rf3/train.py +194 -0
rf3/trainers/rf3.py +570 -0
rf3/util_module.py +47 -0
rf3/utils/frames.py +109 -0
rf3/utils/inference.py +665 -0
rf3/utils/io.py +198 -0
rf3/utils/loss.py +72 -0
rf3/utils/predict_and_score.py +165 -0
rf3/utils/predicted_error.py +673 -0
rf3/utils/recycling.py +42 -0
rf3/validate.py +140 -0
rfd3/.gitignore +7 -0
rfd3/Makefile +76 -0
rfd3/__init__.py +12 -0
rfd3/callbacks.py +66 -0
rfd3/cli.py +41 -0
rfd3/constants.py +212 -0
rfd3/engine.py +543 -0
rfd3/inference/datasets.py +193 -0
rfd3/inference/input_parsing.py +1123 -0
rfd3/inference/legacy_input_parsing.py +717 -0
rfd3/inference/parsing.py +165 -0
rfd3/inference/symmetry/atom_array.py +298 -0
rfd3/inference/symmetry/checks.py +241 -0
rfd3/inference/symmetry/contigs.py +63 -0
rfd3/inference/symmetry/frames.py +355 -0
rfd3/inference/symmetry/symmetry_utils.py +398 -0
rfd3/metrics/design_metrics.py +465 -0
rfd3/metrics/hbonds_hbplus_metrics.py +308 -0
rfd3/metrics/hbonds_metrics.py +389 -0
rfd3/metrics/losses.py +325 -0
rfd3/metrics/metrics_utils.py +118 -0
rfd3/metrics/sidechain_metrics.py +349 -0
rfd3/model/RFD3.py +105 -0
rfd3/model/RFD3_diffusion_module.py +387 -0
rfd3/model/cfg_utils.py +81 -0
rfd3/model/inference_sampler.py +635 -0
rfd3/model/layers/attention.py +577 -0
rfd3/model/layers/block_utils.py +580 -0
rfd3/model/layers/blocks.py +777 -0
rfd3/model/layers/chunked_pairwise.py +377 -0
rfd3/model/layers/encoders.py +417 -0
rfd3/model/layers/layer_utils.py +197 -0
rfd3/model/layers/pairformer_layers.py +128 -0
rfd3/run_inference.py +45 -0
rfd3/testing/debug.py +139 -0
rfd3/testing/debug_utils.py +73 -0
rfd3/testing/testing_utils.py +356 -0
rfd3/train.py +194 -0
rfd3/trainer/dump_validation_structures.py +154 -0
rfd3/trainer/fabric_trainer.py +923 -0
rfd3/trainer/recycling.py +42 -0
rfd3/trainer/rfd3.py +485 -0
rfd3/trainer/trainer_utils.py +502 -0
rfd3/transforms/conditioning_base.py +508 -0
rfd3/transforms/conditioning_utils.py +200 -0
rfd3/transforms/design_transforms.py +807 -0
rfd3/transforms/dna_crop.py +523 -0
rfd3/transforms/hbonds.py +407 -0
rfd3/transforms/hbonds_hbplus.py +246 -0
rfd3/transforms/ncaa_transforms.py +153 -0
rfd3/transforms/pipelines.py +632 -0
rfd3/transforms/ppi_transforms.py +541 -0
rfd3/transforms/rasa.py +116 -0
rfd3/transforms/symmetry.py +76 -0
rfd3/transforms/training_conditions.py +552 -0
rfd3/transforms/util_transforms.py +498 -0
rfd3/transforms/virtual_atoms.py +305 -0
rfd3/utils/inference.py +648 -0
rfd3/utils/io.py +245 -0
rfd3/utils/vizualize.py +276 -0

rf3/data/paired_msa.py ADDED Viewed

@@ -0,0 +1,206 @@
+import os
+import socket
+import time
+from pathlib import Path
+from typing import Any
+import numpy as np
+from atomworks.common import exists
+from atomworks.enums import ChainType
+from atomworks.ml.datasets import StructuralDatasetWrapper, logger
+from atomworks.ml.datasets.parsers import (
+    MetadataRowParser,
+    load_example_from_metadata_row,
+)
+from atomworks.ml.transforms._checks import (
+    check_contains_keys,
+    check_is_instance,
+    check_nonzero_length,
+)
+from atomworks.ml.transforms.base import Transform, TransformedDict
+from atomworks.ml.transforms.msa._msa_loading_utils import load_msa_data_from_path
+from atomworks.ml.utils.rng import capture_rng_states
+from biotite.structure import AtomArray, concatenate
+# input data wrapper that allows multiple input files separated by ':'
+#   data is loaded as concatentation of all inputs
+class MultiInputDatasetWrapper(StructuralDatasetWrapper):
+    def __init__(self, *args, **kwargs):
+        super().__init__(*args, **kwargs)
+    def __getitem__(self, idx: int) -> Any:
+        # Capture example ID & current rng state (for reproducibility & debugging)
+        if hasattr(self, "idx_to_id"):
+            # ...if the dataset has a custom idx_to_id method, use it (e.g., for a PandasDataset)
+            example_id = self.idx_to_id(idx)
+        else:
+            # ...otherwise, fallback to a the `id_column` or a string representation of the index
+            example_id = (
+                self.dataset[idx][self.id_column] if self.id_column else f"row_{idx}"
+            )
+        # Get process id and hostname (for debugging)
+        logger.debug(
+            f"({socket.gethostname()}:{os.getpid()}) Processing example ID: {example_id}"
+        )
+        # Load the row, using the __getitem__ method of the dataset
+        row = self.dataset[idx]
+        pdb_path = row["pdb_path"].split(":")
+        # Process the row into a transform-ready dictionary with the given CIF and dataset parsers
+        # We require the "data" dictionary output from `load_example_from_metadata_row` to contain, at a minimum:
+        #   (a) An "id" key, which uniquely identifies the example within the dataframe; and,
+        #   (b) The "path" key, which is the path to the CIF file
+        _start_parse_time = time.time()
+        data = None
+        assert len(pdb_path) <= 2
+        for pdb_i in pdb_path:
+            row_i = {"example_id": row["example_id"], "path": pdb_i}
+            data_i = load_example_from_metadata_row(
+                row_i, self.dataset_parser, cif_parser_args=self.cif_parser_args
+            )
+            if data is None:
+                data = data_i
+            else:
+                data_i["atom_array"].pn_unit_id = np.full(
+                    len(data_i["atom_array"]), "B_1"
+                )  # unique pn unit id
+                data_i["atom_array"].pn_unit_iid = np.full(
+                    len(data_i["atom_array"]), "B_1"
+                )  # unique pn unit iid
+                data_i["atom_array"].chain_id = np.full(
+                    len(data_i["atom_array"]), "B"
+                )  # unique chain id
+                data_i["atom_array"].chain_iid = np.full(
+                    len(data_i["atom_array"]), "B"
+                )  # unique chain iid
+                data["atom_array"] = concatenate(
+                    [data["atom_array"], data_i["atom_array"]]
+                )
+                data["atom_array_stack"] = concatenate(
+                    [data["atom_array_stack"], data_i["atom_array_stack"]]
+                )
+                data["chain_info"]["B"] = data_i["chain_info"]["A"]
+        # 'example_id', 'path', 'assembly_id', 'query_pn_unit_iids',
+        data["path"] = row["pdb_path"]
+        data["msa_path"] = Path(row["msa_path"])  # save msa
+        _stop_parse_time = time.time()
+        # Manually add timing for cif-parsing
+        data = TransformedDict(data)
+        data.__transform_history__.append(
+            dict(
+                name="load_example_from_metadata_row",
+                instance=hex(id(load_example_from_metadata_row)),
+                start_time=_start_parse_time,
+                end_time=_stop_parse_time,
+                processing_time=_stop_parse_time - _start_parse_time,
+            )
+        )
+        # Apply the transformation pipeline to the data
+        if exists(self.transform):
+            try:
+                rng_state_dict = capture_rng_states(include_cuda=False)
+                data = self.transform(data)
+            except KeyboardInterrupt as e:
+                raise e
+            except Exception as e:
+                # Log the error and save the failed example to disk (optional)
+                logger.info(f"Error processing row {idx} ({example_id}): {e}")
+                if exists(self.save_failed_examples_to_dir):
+                    save_failed_example_to_disk(
+                        example_id=example_id,
+                        error_msg=e,
+                        rng_state_dict=rng_state_dict,
+                        data={},  # We do not save the data, since it may be large.
+                        fail_dir=self.save_failed_examples_to_dir,
+                    )
+                raise e
+        return data
+class MultidomainDFParser(MetadataRowParser):
+    """Parser for Qian's multidomain data"""
+    def __init__(
+        self,
+        example_id_colname: str = "example_id",
+        path_colname: str = "path",
+    ):
+        self.example_id_colname = example_id_colname
+        self.path_colname = path_colname
+    def _parse(self, row: dict) -> dict[str, Any]:
+        query_pn_unit_iids = None
+        assembly_id = "1"
+        return {
+            "example_id": row[self.example_id_colname],
+            "path": Path(row[self.path_colname]),
+            "assembly_id": assembly_id,
+            "query_pn_unit_iids": query_pn_unit_iids,
+            "extra_info": row,
+        }
+class LoadPairedMSAs(Transform):
+    """
+    LoadPairedMSAs adds paired MSAs from disk, overwriting previously paired MSA data.
+    """
+    def check_input(self, data: dict[str, Any]):
+        check_contains_keys(data, ["atom_array", "msa_path"])
+        check_is_instance(data, "atom_array", AtomArray)
+        check_nonzero_length(data, "atom_array")
+    def forward(self, data: dict[str, Any]) -> dict[str, Any]:
+        atom_array = data["atom_array"]
+        msa_file_path = data["msa_path"]
+        chain_type = data["chain_info"]["A"]["chain_type"]
+        max_msa_sequences = 10000
+        msa_data = load_msa_data_from_path(
+            msa_file_path=msa_file_path,
+            chain_type=chain_type,
+            max_msa_sequences=max_msa_sequences,
+        )
+        # split into chains
+        start_idx = 0
+        allpolymerchains = np.unique(
+            atom_array.chain_id[
+                np.isin(atom_array.chain_type, ChainType.get_polymers())
+            ]
+        )
+        data["polymer_msas_by_chain_id"] = {}  # nuke old version
+        for chain_id in allpolymerchains:
+            sequence = data["chain_info"][chain_id][
+                "processed_entity_non_canonical_sequence"
+            ]
+            stop_idx = start_idx + len(sequence)
+            data["polymer_msas_by_chain_id"][chain_id] = {}
+            # trim all msa info to this chain only
+            for mkey in msa_data.keys():
+                data["polymer_msas_by_chain_id"][chain_id][mkey] = msa_data[mkey][
+                    ..., start_idx:stop_idx
+                ]
+            # mock msa_is_padded_mask (all 0s)
+            data["polymer_msas_by_chain_id"][chain_id]["msa_is_padded_mask"] = np.zeros(
+                data["polymer_msas_by_chain_id"][chain_id]["msa"].shape, dtype=bool
+            )
+            start_idx = stop_idx
+        return data

rf3/data/pipeline_utils.py ADDED Viewed

@@ -0,0 +1,128 @@
+from functools import partial
+import torch
+from atomworks.enums import ChainType
+from atomworks.ml.transforms._checks import check_atom_array_annotation
+from atomworks.ml.transforms.crop import compute_local_hash
+from omegaconf import DictConfig
+from rf3.data.ground_truth_template import (
+    FeaturizeNoisedGroundTruthAsTemplateDistogram,
+    TokenGroupNoiseScaleSampler,
+    af3_noise_scale_distribution_wrapped,
+    af3_noise_scale_to_noise_level,
+)
+def annotate_pre_crop_hash(data: dict) -> dict:
+    hash_pre = compute_local_hash(data["atom_array"])
+    data["atom_array"].set_annotation("hash_pre", hash_pre)
+    return data
+def annotate_post_crop_hash(data: dict) -> dict:
+    hash_post = compute_local_hash(data["atom_array"])
+    data["atom_array"].set_annotation("hash_post", hash_post)
+    return data
+def set_to_occupancy_0_where_crop_hashes_differ(data: dict) -> dict:
+    check_atom_array_annotation(
+        data["atom_array"], ["hash_pre", "hash_post", "occupancy"]
+    )
+    # Create a mask of where hash_pre != hash_post
+    atom_array = data["atom_array"]
+    mask = atom_array.get_annotation("hash_pre") != atom_array.get_annotation(
+        "hash_post"
+    )
+    # Where the hashes differ, set occupancy to 0
+    atom_array.occupancy[mask] = 0
+    return data
+def build_ground_truth_distogram_transform(
+    *,
+    template_noise_scales: dict[str, float | None] | DictConfig,
+    allowed_chain_types_for_conditioning: list[ChainType] | None = None,
+    p_condition_per_token: float = 0.0,
+    p_provide_inter_molecule_distances: float = 0.0,
+    is_inference: bool = False,
+) -> FeaturizeNoisedGroundTruthAsTemplateDistogram:
+    """
+    Build a FeaturizeNoisedGroundTruthAsTemplateDistogram transform for either training or inference.
+    For inference, we must be deterministic, so we:
+        - Use constant noise scales (1.0)
+        - Always apply token-level conditioning
+    Args:
+        template_noise_scales (dict[str, float | None] | DictConfig):
+            Noise scales for 'atomized' and 'not_atomized' tokens. If is_inference=True, these are used as constants.
+            If is_inference=False, these are used as upper bounds for the noise scale distribution.
+        allowed_chain_types_for_conditioning (list[ChainType] | None):
+            List of allowed chain types for conditioning. None disables conditioning.
+        p_condition_per_token (float):
+            Probability of conditioning each eligible token.
+        p_provide_inter_molecule_distances (float):
+            Probability of providing inter-molecule (inter-chain) distances.
+        is_inference (bool):
+            If True, use constant noise scales for conditioning. If False, sample from provided distributions.
+    Returns:
+        FeaturizeNoisedGroundTruthAsTemplateDistogram: The configured transform.
+    """
+    mask_and_sampling_fns = []
+    if is_inference:
+        # Use constant noise scales for inference, rather than sampling (no stochasticity)
+        if template_noise_scales["atomized"] is not None:
+            mask_and_sampling_fns.append(
+                (
+                    lambda arr: arr.atomize,
+                    lambda size: torch.ones(size) * template_noise_scales["atomized"],
+                )
+            )
+        if template_noise_scales["not_atomized"] is not None:
+            mask_and_sampling_fns.append(
+                (
+                    lambda arr: ~arr.atomize,
+                    lambda size: torch.ones(size)
+                    * template_noise_scales["not_atomized"],
+                )
+            )
+    else:
+        # Use noise scale distributions for training
+        if template_noise_scales["atomized"] is not None:
+            mask_and_sampling_fns.append(
+                (
+                    lambda arr: arr.atomize,
+                    partial(
+                        af3_noise_scale_distribution_wrapped,
+                        upper_noise_level=af3_noise_scale_to_noise_level(
+                            template_noise_scales["atomized"]
+                        ).item(),
+                    ),
+                )
+            )
+        if template_noise_scales["not_atomized"] is not None:
+            mask_and_sampling_fns.append(
+                (
+                    lambda arr: ~arr.atomize,
+                    partial(
+                        af3_noise_scale_distribution_wrapped,
+                        upper_noise_level=af3_noise_scale_to_noise_level(
+                            template_noise_scales["not_atomized"]
+                        ).item(),
+                    ),
+                )
+            )
+    return FeaturizeNoisedGroundTruthAsTemplateDistogram(
+        noise_scale_distribution=TokenGroupNoiseScaleSampler(
+            mask_and_sampling_fns=tuple(mask_and_sampling_fns),
+        ),
+        allowed_chain_types=allowed_chain_types_for_conditioning,
+        p_condition_per_token=p_condition_per_token,
+        p_provide_inter_molecule_distances=p_provide_inter_molecule_distances,
+    )