PyPI - rc-foundry - Versions diffs - 0.1.1__py3-none-any.whl - Mend

rc-foundry 0.1.1__py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (180) hide show

foundry/__init__.py +57 -0
foundry/callbacks/__init__.py +5 -0
foundry/callbacks/callback.py +116 -0
foundry/callbacks/health_logging.py +419 -0
foundry/callbacks/metrics_logging.py +211 -0
foundry/callbacks/timing_logging.py +67 -0
foundry/callbacks/train_logging.py +278 -0
foundry/common.py +108 -0
foundry/constants.py +28 -0
foundry/hydra/resolvers.py +77 -0
foundry/inference_engines/base.py +235 -0
foundry/inference_engines/checkpoint_registry.py +66 -0
foundry/metrics/__init__.py +12 -0
foundry/metrics/losses.py +30 -0
foundry/metrics/metric.py +319 -0
foundry/model/layers/blocks.py +47 -0
foundry/testing/__init__.py +6 -0
foundry/testing/fixtures.py +19 -0
foundry/testing/pytest_hooks.py +15 -0
foundry/trainers/fabric.py +923 -0
foundry/training/EMA.py +67 -0
foundry/training/checkpoint.py +61 -0
foundry/training/schedulers.py +91 -0
foundry/utils/alignment.py +86 -0
foundry/utils/components.py +415 -0
foundry/utils/datasets.py +405 -0
foundry/utils/ddp.py +103 -0
foundry/utils/instantiators.py +72 -0
foundry/utils/logging.py +279 -0
foundry/utils/rigid.py +1460 -0
foundry/utils/rotation_augmentation.py +65 -0
foundry/utils/squashfs.py +172 -0
foundry/utils/torch.py +317 -0
foundry/utils/weights.py +271 -0
foundry/version.py +34 -0
foundry_cli/__init__.py +3 -0
foundry_cli/download_checkpoints.py +281 -0
mpnn/__init__.py +1 -0
mpnn/collate/feature_collator.py +265 -0
mpnn/inference.py +53 -0
mpnn/inference_engines/mpnn.py +549 -0
mpnn/loss/nll_loss.py +122 -0
mpnn/metrics/nll.py +369 -0
mpnn/metrics/sequence_recovery.py +440 -0
mpnn/model/layers/graph_embeddings.py +2372 -0
mpnn/model/layers/message_passing.py +332 -0
mpnn/model/layers/position_wise_feed_forward.py +44 -0
mpnn/model/layers/positional_encoding.py +98 -0
mpnn/model/mpnn.py +2632 -0
mpnn/pipelines/mpnn.py +162 -0
mpnn/samplers/samplers.py +167 -0
mpnn/train.py +341 -0
mpnn/trainers/mpnn.py +193 -0
mpnn/transforms/feature_aggregation/mpnn.py +184 -0
mpnn/transforms/feature_aggregation/polymer_ligand_interface.py +76 -0
mpnn/transforms/feature_aggregation/token_encodings.py +132 -0
mpnn/transforms/feature_aggregation/user_settings.py +347 -0
mpnn/transforms/polymer_ligand_interface.py +164 -0
mpnn/utils/inference.py +2397 -0
mpnn/utils/probability.py +37 -0
mpnn/utils/weights.py +309 -0
rc_foundry-0.1.1.dist-info/METADATA +239 -0
rc_foundry-0.1.1.dist-info/RECORD +180 -0
rc_foundry-0.1.1.dist-info/WHEEL +4 -0
rc_foundry-0.1.1.dist-info/entry_points.txt +5 -0
rc_foundry-0.1.1.dist-info/licenses/LICENSE.md +28 -0
rf3/__init__.py +3 -0
rf3/_version.py +33 -0
rf3/alignment.py +79 -0
rf3/callbacks/dump_validation_structures.py +101 -0
rf3/callbacks/metrics_logging.py +324 -0
rf3/chemical.py +1529 -0
rf3/cli.py +77 -0
rf3/data/cyclic_transform.py +78 -0
rf3/data/extra_xforms.py +36 -0
rf3/data/ground_truth_template.py +463 -0
rf3/data/paired_msa.py +206 -0
rf3/data/pipeline_utils.py +128 -0
rf3/data/pipelines.py +558 -0
rf3/diffusion_samplers/inference_sampler.py +222 -0
rf3/inference.py +65 -0
rf3/inference_engines/__init__.py +5 -0
rf3/inference_engines/rf3.py +735 -0
rf3/kinematics.py +354 -0
rf3/loss/af3_confidence_loss.py +515 -0
rf3/loss/af3_losses.py +655 -0
rf3/loss/loss.py +179 -0
rf3/metrics/chiral.py +179 -0
rf3/metrics/clashing_chains.py +68 -0
rf3/metrics/distogram.py +421 -0
rf3/metrics/lddt.py +523 -0
rf3/metrics/metadata.py +43 -0
rf3/metrics/metric_utils.py +192 -0
rf3/metrics/predicted_error.py +134 -0
rf3/metrics/rasa.py +108 -0
rf3/metrics/selected_distances.py +91 -0
rf3/model/RF3.py +527 -0
rf3/model/RF3_blocks.py +92 -0
rf3/model/RF3_structure.py +303 -0
rf3/model/layers/af3_auxiliary_heads.py +255 -0
rf3/model/layers/af3_diffusion_transformer.py +544 -0
rf3/model/layers/attention.py +313 -0
rf3/model/layers/layer_utils.py +127 -0
rf3/model/layers/mlff.py +118 -0
rf3/model/layers/outer_product.py +59 -0
rf3/model/layers/pairformer_layers.py +783 -0
rf3/model/layers/structure_bias.py +56 -0
rf3/scoring.py +1787 -0
rf3/symmetry/resolve.py +284 -0
rf3/train.py +194 -0
rf3/trainers/rf3.py +570 -0
rf3/util_module.py +47 -0
rf3/utils/frames.py +109 -0
rf3/utils/inference.py +665 -0
rf3/utils/io.py +198 -0
rf3/utils/loss.py +72 -0
rf3/utils/predict_and_score.py +165 -0
rf3/utils/predicted_error.py +673 -0
rf3/utils/recycling.py +42 -0
rf3/validate.py +140 -0
rfd3/.gitignore +7 -0
rfd3/Makefile +76 -0
rfd3/__init__.py +12 -0
rfd3/callbacks.py +66 -0
rfd3/cli.py +41 -0
rfd3/constants.py +212 -0
rfd3/engine.py +543 -0
rfd3/inference/datasets.py +193 -0
rfd3/inference/input_parsing.py +1123 -0
rfd3/inference/legacy_input_parsing.py +717 -0
rfd3/inference/parsing.py +165 -0
rfd3/inference/symmetry/atom_array.py +298 -0
rfd3/inference/symmetry/checks.py +241 -0
rfd3/inference/symmetry/contigs.py +63 -0
rfd3/inference/symmetry/frames.py +355 -0
rfd3/inference/symmetry/symmetry_utils.py +398 -0
rfd3/metrics/design_metrics.py +465 -0
rfd3/metrics/hbonds_hbplus_metrics.py +308 -0
rfd3/metrics/hbonds_metrics.py +389 -0
rfd3/metrics/losses.py +325 -0
rfd3/metrics/metrics_utils.py +118 -0
rfd3/metrics/sidechain_metrics.py +349 -0
rfd3/model/RFD3.py +105 -0
rfd3/model/RFD3_diffusion_module.py +387 -0
rfd3/model/cfg_utils.py +81 -0
rfd3/model/inference_sampler.py +635 -0
rfd3/model/layers/attention.py +577 -0
rfd3/model/layers/block_utils.py +580 -0
rfd3/model/layers/blocks.py +777 -0
rfd3/model/layers/chunked_pairwise.py +377 -0
rfd3/model/layers/encoders.py +417 -0
rfd3/model/layers/layer_utils.py +197 -0
rfd3/model/layers/pairformer_layers.py +128 -0
rfd3/run_inference.py +45 -0
rfd3/testing/debug.py +139 -0
rfd3/testing/debug_utils.py +73 -0
rfd3/testing/testing_utils.py +356 -0
rfd3/train.py +194 -0
rfd3/trainer/dump_validation_structures.py +154 -0
rfd3/trainer/fabric_trainer.py +923 -0
rfd3/trainer/recycling.py +42 -0
rfd3/trainer/rfd3.py +485 -0
rfd3/trainer/trainer_utils.py +502 -0
rfd3/transforms/conditioning_base.py +508 -0
rfd3/transforms/conditioning_utils.py +200 -0
rfd3/transforms/design_transforms.py +807 -0
rfd3/transforms/dna_crop.py +523 -0
rfd3/transforms/hbonds.py +407 -0
rfd3/transforms/hbonds_hbplus.py +246 -0
rfd3/transforms/ncaa_transforms.py +153 -0
rfd3/transforms/pipelines.py +632 -0
rfd3/transforms/ppi_transforms.py +541 -0
rfd3/transforms/rasa.py +116 -0
rfd3/transforms/symmetry.py +76 -0
rfd3/transforms/training_conditions.py +552 -0
rfd3/transforms/util_transforms.py +498 -0
rfd3/transforms/virtual_atoms.py +305 -0
rfd3/utils/inference.py +648 -0
rfd3/utils/io.py +245 -0
rfd3/utils/vizualize.py +276 -0

rf3/callbacks/metrics_logging.py ADDED Viewed

@@ -0,0 +1,324 @@
+import os
+from copy import deepcopy
+from pathlib import Path
+import pandas as pd
+from atomworks.ml.utils import nested_dict
+from beartype.typing import Any, Literal
+from omegaconf import ListConfig
+from foundry.callbacks.callback import BaseCallback
+from foundry.utils.ddp import RankedLogger
+from foundry.utils.logging import (
+    condense_count_columns_of_grouped_df,
+    print_df_as_table,
+)
+ranked_logger = RankedLogger(__name__, rank_zero_only=True)
+class StoreValidationMetricsInDFCallback(BaseCallback):
+    """Saves the validation outputs in a DataFrame for each rank and concatenates them at the end of the validation epoch."""
+    def __init__(
+        self,
+        save_dir: os.PathLike,
+        metrics_to_save: list[str] | Literal["all"] = "all",
+    ):
+        self.save_dir = Path(save_dir)
+        self.metrics_to_save = metrics_to_save
+    def _save_dataframe_for_rank(self, rank: int, epoch: int):
+        """Saves per-GPU output dataframe of metrics to a rank-specific CSV."""
+        self.save_dir.mkdir(parents=True, exist_ok=True)
+        file_path = self.save_dir / f"validation_output_rank_{rank}_epoch_{epoch}.csv"
+        # Flush explicitly to ensure the file is written to disk
+        with open(file_path, "w") as f:
+            self.per_gpu_outputs_df.to_csv(f, index=False)
+            f.flush()
+            os.fsync(f.fileno())
+        ranked_logger.info(
+            f"Saved validation outputs to {file_path} for rank {rank}, epoch {epoch}"
+        )
+    def on_validation_epoch_start(self, trainer):
+        self.per_gpu_outputs_df = pd.DataFrame()
+    def on_validation_batch_end(
+        self,
+        trainer,
+        outputs: dict,
+        batch: Any,
+        batch_idx: int,
+        num_batches: int,
+        dataset_name: str | None = None,
+    ):
+        """Build a flattened DataFrame from the metrics output and accumulate with the prior batches"""
+        assert "metrics_output" in outputs, "Validation outputs must contain metrics."
+        metrics_output = deepcopy(outputs["metrics_output"])
+        # ... assemble a flat DataFrame from the metrics output
+        example_id = metrics_output.pop("example_id")
+        metrics_as_list_of_dicts = []
+        # ... remove metrics that are not in the save list
+        if self.metrics_to_save != "all" and isinstance(
+            self.metrics_to_save, list | ListConfig
+        ):
+            metrics_output = {
+                k: v
+                for k, v in metrics_output.items()
+                if any(k.startswith(prefix) for prefix in self.metrics_to_save)
+            }
+        def _build_row_from_flattened_dict(
+            dict_to_flatten: dict, prefix: str, example_id: str
+        ):
+            """Helper function to build a DataFrame row"""
+            flattened_dict = nested_dict.flatten(dict_to_flatten, fuse_keys=".")
+            row_data = {"example_id": example_id}
+            for sub_k, sub_v in flattened_dict.items():
+                # Convert lists to tuples so that they are hashable
+                if isinstance(sub_v, list):
+                    sub_v = tuple(sub_v)
+                row_data[f"{prefix}.{sub_k}"] = sub_v
+            return row_data
+        scalar_metrics = {"example_id": example_id}
+        for key, value in metrics_output.items():
+            if isinstance(value, dict):
+                # Flatten once for this dict => 1 row.
+                metrics_as_list_of_dicts.append(
+                    _build_row_from_flattened_dict(value, key, example_id)
+                )
+            elif isinstance(value, list) and all(isinstance(x, dict) for x in value):
+                # Flatten each dict in the list => multiple rows.
+                for subdict in value:
+                    metrics_as_list_of_dicts.append(
+                        _build_row_from_flattened_dict(subdict, key, example_id)
+                    )
+            else:
+                # Scalar (string, float, int, or list that isn't list-of-dicts)
+                assert key not in scalar_metrics, f"Duplicate key: {key}"
+                scalar_metrics[key] = value
+        metrics_as_list_of_dicts.append(scalar_metrics)
+        # ... convert the list of dicts to a DataFrame and add epoch and dataset columns
+        batch_df = pd.DataFrame(metrics_as_list_of_dicts)
+        batch_df["epoch"] = trainer.state["current_epoch"]
+        batch_df["dataset"] = dataset_name
+        # Assert no duplicate rows
+        assert (
+            batch_df.duplicated().sum() == 0
+        ), "Duplicate rows found in the metrics DataFrame!"
+        # Accumulate into the per-rank DataFrame
+        self.per_gpu_outputs_df = pd.concat(
+            [self.per_gpu_outputs_df, batch_df], ignore_index=True
+        )
+        ranked_logger.info(
+            f"Validation Progress: {100 * (batch_idx + 1) / num_batches:.0f}% for {dataset_name}"
+        )
+    def on_validation_epoch_end(self, trainer):
+        """Aggregate and log the validation metrics at the end of the epoch.
+        Each rank writes out its partial CSV. Then rank 0 aggregates them, logs grouped metrics by dataset,
+        and appends them to a master file containing data from all epochs.
+        """
+        #  ... write out partial CSV for this rank
+        rank = trainer.fabric.global_rank
+        epoch = trainer.state["current_epoch"]
+        self._save_dataframe_for_rank(rank, epoch)
+        # Synchronize all processes
+        ranked_logger.info(
+            "Synchronizing all processes before concatenating DataFrames..."
+        )
+        trainer.fabric.barrier()
+        # Only rank 0 loads and concatenates the DataFrames
+        ranked_logger.info("Loading and concatenating DataFrames...")
+        if trainer.fabric.is_global_zero:
+            # ... load all partial CSVs
+            merged_df = self._load_and_concatenate_csvs(epoch)
+            # ... append to master CSV for all epochs
+            master_path = self.save_dir / "validation_output_all_epochs.csv"
+            if master_path.exists():
+                old_df = pd.read_csv(master_path)
+                merged_df = pd.concat(
+                    [old_df, merged_df], ignore_index=True, sort=False
+                )
+            merged_df.to_csv(master_path, index=False)
+            ranked_logger.info(f"Appended epoch={epoch} results to {master_path}")
+            # Store the path to the master CSV in the Trainer
+            trainer.validation_results_path = master_path
+            # Cleanup
+            self._cleanup_temp_files()
+    def _load_and_concatenate_csvs(self, epoch: int) -> pd.DataFrame:
+        """Load rank-specific CSVs for the given epoch and concatenate them without duplicating examples."""
+        pattern = f"validation_output_rank_*_epoch_{epoch}.csv"
+        files = list(self.save_dir.glob(pattern))
+        # Track which example_id + dataset combinations we've already seen
+        seen_examples = set()
+        final_dataframes = []
+        for f in files:
+            try:
+                df = pd.read_csv(f)
+                # Create a filter for rows with new example_id + dataset combinations
+                if not df.empty:
+                    # Create a unique identifier for each example_id + dataset combination
+                    df["_example_key"] = (
+                        df["example_id"].astype(str) + "|" + df["dataset"].astype(str)
+                    )
+                    # Filter out rows with example_id + dataset combinations we've already seen
+                    new_examples_mask = ~df["_example_key"].isin(seen_examples)
+                    # If there are any new examples, add them to our final list
+                    if new_examples_mask.any():
+                        new_examples_df = df[new_examples_mask].copy()
+                        # Update our set of seen examples
+                        seen_examples.update(new_examples_df["_example_key"].tolist())
+                        # Remove the temporary column before adding to final list
+                        new_examples_df.drop("_example_key", axis=1, inplace=True)
+                        final_dataframes.append(new_examples_df)
+            except pd.errors.EmptyDataError:
+                ranked_logger.warning(f"Skipping empty CSV: {f}")
+        # Concatenate dataframes, filling missing columns with NaN
+        return pd.concat(final_dataframes, axis=0, ignore_index=True, sort=False)
+    def _cleanup_temp_files(self):
+        """Remove temporary files used to store individual rank outputs."""
+        all_files = list(self.save_dir.rglob("validation_output_rank_*_epoch_*.csv"))
+        for file in all_files:
+            try:
+                file.unlink()  # Remove the file
+            except Exception as e:
+                ranked_logger.warning(f"Failed to delete file {file}: {e}")
+class LogAF3ValidationMetricsCallback(BaseCallback):
+    def __init__(
+        self,
+        metrics_to_log: list[str] | Literal["all"] = "all",
+    ):
+        self.metrics_to_log = metrics_to_log
+    def on_validation_epoch_end(self, trainer):
+        # Only log metrics to disk if this is the global zero rank
+        if not trainer.fabric.is_global_zero:
+            return
+        assert hasattr(
+            trainer, "validation_results_path"
+        ), "Results path not found! Ensure that StoreValidationMetricsInDFCallback is called first."
+        df = pd.read_csv(trainer.validation_results_path)
+        # ... filter to most recent epoch, drop epoch column
+        df = df[df["epoch"] == df["epoch"].max()]
+        df.drop(columns=["epoch", "example_id"], inplace=True)
+        # ... filter to columns that start with the metrics_to_log prefixes (and "dataset")
+        if self.metrics_to_log != "all" and isinstance(
+            self.metrics_to_log, list | ListConfig
+        ):
+            df = df[
+                [
+                    col
+                    for col in df.columns
+                    if any(col.startswith(prefix) for prefix in self.metrics_to_log)
+                ]
+                + ["dataset"]
+            ]
+        for dataset in df["dataset"].unique():
+            dataset_df = df[df["dataset"] == dataset].copy()
+            dataset_df.drop(columns=["dataset"], inplace=True)
+            print(f"\n+{' ' + dataset + ' ':-^150}+\n")
+            # +------------- LDDT by type (chain, interface) -------------+
+            by_type_lddt_cols = [
+                col for col in df.columns if col.startswith("by_type_lddt")
+            ]
+            if by_type_lddt_cols:
+                # ... build by-type DataFrame
+                by_type_df = dataset_df[by_type_lddt_cols].copy()
+                by_type_df = by_type_df.dropna(how="all")
+                # ... remove the "by_type_lddt." prefix
+                by_type_df.columns = by_type_df.columns.str.replace("by_type_lddt.", "")
+                numeric_cols = by_type_df.select_dtypes(include="number").columns
+                # ... group by type
+                grouped = by_type_df.groupby("type")[numeric_cols].agg(
+                    ["mean", "count"]
+                )
+                print_df_as_table(
+                    condense_count_columns_of_grouped_df(grouped).reset_index(),
+                    f"{dataset} — Epoch {trainer.state['current_epoch']} — Validation Metrics: LDDT by Type",
+                )
+                # Log the grouped metrics (aggregated from all ranks) with Fabric
+                if trainer.fabric:
+                    for _, row in grouped.reset_index().iterrows():
+                        trainer.fabric.log_dict(
+                            {
+                                f"val/{dataset}/{row['type'].iloc[0]}/{col}": row[col][
+                                    "mean"
+                                ]
+                                for col in numeric_cols
+                            },
+                            step=trainer.state["current_epoch"],
+                        )
+            # +----------------- Other metrics -----------------+
+            remaining_cols = list(set(dataset_df.columns) - set(by_type_lddt_cols))
+            remaining_df = dataset_df[remaining_cols].copy()
+            remaining_df = remaining_df.dropna(how="all", axis=0)
+            remaining_df = remaining_df.dropna(
+                how="all", axis=1
+            )  # If a Metric is all NaNs for this dataset, drop it
+            numeric_cols = remaining_df.select_dtypes(include="number").columns
+            # Compute means and non-NaN counts for numeric columns
+            final_means = remaining_df[numeric_cols].mean()
+            non_nan_counts = remaining_df[numeric_cols].count()
+            # Convert the Series to a DataFrame and add the count as a new column
+            final_means_df = final_means.to_frame(name="mean")
+            final_means_df["Count"] = non_nan_counts
+            # ... sort, so the rows are alphabetical
+            final_means_df.sort_index(inplace=True)
+            print_df_as_table(
+                final_means_df.reset_index(),
+                f"{dataset} — {trainer.state['current_epoch']} — General Validation Metrics",
+                console_width=150,
+            )
+            if trainer.fabric:
+                for col in numeric_cols:
+                    trainer.fabric.log_dict(
+                        {f"val/{dataset}/{col}": final_means[col]},
+                        step=trainer.state["current_epoch"],
+                    )