PyPI - rc-foundry - Versions diffs - 0.1.4__py3-none-any.whl → 0.1.6__py3-none-any.whl - Mend

rc-foundry 0.1.4py3-none-any.whl → 0.1.6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (139) hide show

foundry/version.py +2 -2
{rc_foundry-0.1.4.dist-info → rc_foundry-0.1.6.dist-info}/METADATA +1 -1
{rc_foundry-0.1.4.dist-info → rc_foundry-0.1.6.dist-info}/RECORD +139 -8
rf3/configs/callbacks/default.yaml +5 -0
rf3/configs/callbacks/dump_validation_structures.yaml +6 -0
rf3/configs/callbacks/metrics_logging.yaml +10 -0
rf3/configs/callbacks/train_logging.yaml +16 -0
rf3/configs/dataloader/default.yaml +15 -0
rf3/configs/datasets/base.yaml +31 -0
rf3/configs/datasets/pdb_and_distillation.yaml +58 -0
rf3/configs/datasets/pdb_only.yaml +17 -0
rf3/configs/datasets/train/disorder_distillation.yaml +48 -0
rf3/configs/datasets/train/domain_distillation.yaml +50 -0
rf3/configs/datasets/train/monomer_distillation.yaml +49 -0
rf3/configs/datasets/train/na_complex_distillation.yaml +50 -0
rf3/configs/datasets/train/pdb/af3_weighted_sampling.yaml +8 -0
rf3/configs/datasets/train/pdb/base.yaml +32 -0
rf3/configs/datasets/train/pdb/plinder.yaml +54 -0
rf3/configs/datasets/train/pdb/train_interface.yaml +51 -0
rf3/configs/datasets/train/pdb/train_pn_unit.yaml +46 -0
rf3/configs/datasets/train/rna_monomer_distillation.yaml +56 -0
rf3/configs/datasets/val/af3_ab_set.yaml +11 -0
rf3/configs/datasets/val/af3_validation.yaml +11 -0
rf3/configs/datasets/val/base.yaml +32 -0
rf3/configs/datasets/val/runs_and_poses.yaml +12 -0
rf3/configs/debug/default.yaml +66 -0
rf3/configs/debug/train_specific_examples.yaml +21 -0
rf3/configs/experiment/pretrained/rf3.yaml +50 -0
rf3/configs/experiment/pretrained/rf3_with_confidence.yaml +13 -0
rf3/configs/experiment/quick-rf3-with-confidence.yaml +15 -0
rf3/configs/experiment/quick-rf3.yaml +61 -0
rf3/configs/hydra/default.yaml +18 -0
rf3/configs/hydra/no_logging.yaml +7 -0
rf3/configs/inference.yaml +7 -0
rf3/configs/inference_engine/base.yaml +23 -0
rf3/configs/inference_engine/rf3.yaml +33 -0
rf3/configs/logger/csv.yaml +6 -0
rf3/configs/logger/default.yaml +3 -0
rf3/configs/logger/wandb.yaml +15 -0
rf3/configs/model/components/ema.yaml +1 -0
rf3/configs/model/components/rf3_net.yaml +177 -0
rf3/configs/model/components/rf3_net_with_confidence_head.yaml +45 -0
rf3/configs/model/optimizers/adam.yaml +5 -0
rf3/configs/model/rf3.yaml +43 -0
rf3/configs/model/rf3_with_confidence.yaml +7 -0
rf3/configs/model/schedulers/af3.yaml +6 -0
rf3/configs/paths/data/default.yaml +43 -0
rf3/configs/paths/default.yaml +21 -0
rf3/configs/train.yaml +42 -0
rf3/configs/trainer/cpu.yaml +6 -0
rf3/configs/trainer/ddp.yaml +5 -0
rf3/configs/trainer/loss/losses/confidence_loss.yaml +29 -0
rf3/configs/trainer/loss/losses/diffusion_loss.yaml +9 -0
rf3/configs/trainer/loss/losses/distogram_loss.yaml +2 -0
rf3/configs/trainer/loss/structure_prediction.yaml +4 -0
rf3/configs/trainer/loss/structure_prediction_with_confidence.yaml +2 -0
rf3/configs/trainer/metrics/structure_prediction.yaml +14 -0
rf3/configs/trainer/rf3.yaml +20 -0
rf3/configs/trainer/rf3_with_confidence.yaml +13 -0
rf3/configs/validate.yaml +45 -0
rfd3/cli.py +10 -4
rfd3/configs/__init__.py +0 -0
rfd3/configs/callbacks/design_callbacks.yaml +10 -0
rfd3/configs/callbacks/metrics_logging.yaml +20 -0
rfd3/configs/callbacks/train_logging.yaml +24 -0
rfd3/configs/dataloader/default.yaml +15 -0
rfd3/configs/dataloader/fast.yaml +11 -0
rfd3/configs/datasets/conditions/dna_condition.yaml +3 -0
rfd3/configs/datasets/conditions/island.yaml +28 -0
rfd3/configs/datasets/conditions/ppi.yaml +2 -0
rfd3/configs/datasets/conditions/sequence_design.yaml +17 -0
rfd3/configs/datasets/conditions/tipatom.yaml +28 -0
rfd3/configs/datasets/conditions/unconditional.yaml +21 -0
rfd3/configs/datasets/design_base.yaml +97 -0
rfd3/configs/datasets/train/pdb/af3_train_interface.yaml +46 -0
rfd3/configs/datasets/train/pdb/af3_train_pn_unit.yaml +42 -0
rfd3/configs/datasets/train/pdb/base.yaml +14 -0
rfd3/configs/datasets/train/pdb/base_no_weights.yaml +19 -0
rfd3/configs/datasets/train/pdb/base_transform_args.yaml +59 -0
rfd3/configs/datasets/train/pdb/na_complex_distillation.yaml +20 -0
rfd3/configs/datasets/train/pdb/pdb_base.yaml +11 -0
rfd3/configs/datasets/train/pdb/rfd3_train_interface.yaml +22 -0
rfd3/configs/datasets/train/pdb/rfd3_train_pn_unit.yaml +23 -0
rfd3/configs/datasets/train/rfd3_monomer_distillation.yaml +38 -0
rfd3/configs/datasets/val/bcov_ppi_easy_medium.yaml +9 -0
rfd3/configs/datasets/val/design_validation_base.yaml +40 -0
rfd3/configs/datasets/val/dna_binder_design5.yaml +9 -0
rfd3/configs/datasets/val/dna_binder_long.yaml +13 -0
rfd3/configs/datasets/val/dna_binder_short.yaml +13 -0
rfd3/configs/datasets/val/indexed.yaml +9 -0
rfd3/configs/datasets/val/mcsa_41.yaml +9 -0
rfd3/configs/datasets/val/mcsa_41_short_rigid.yaml +10 -0
rfd3/configs/datasets/val/ppi_inference.yaml +7 -0
rfd3/configs/datasets/val/sm_binder_hbonds.yaml +13 -0
rfd3/configs/datasets/val/sm_binder_hbonds_short.yaml +15 -0
rfd3/configs/datasets/val/unconditional.yaml +9 -0
rfd3/configs/datasets/val/unconditional_deep.yaml +9 -0
rfd3/configs/datasets/val/unindexed.yaml +8 -0
rfd3/configs/datasets/val/val_examples/bcov_ppi_easy_medium_with_ori.yaml +151 -0
rfd3/configs/datasets/val/val_examples/bcov_ppi_easy_medium_with_ori_spoof_helical_bundle.yaml +7 -0
rfd3/configs/datasets/val/val_examples/bcov_ppi_easy_medium_with_ori_varying_lengths.yaml +28 -0
rfd3/configs/datasets/val/val_examples/bpem_ori_hb.yaml +212 -0
rfd3/configs/debug/default.yaml +64 -0
rfd3/configs/debug/train_specific_examples.yaml +21 -0
rfd3/configs/dev.yaml +9 -0
rfd3/configs/experiment/debug.yaml +14 -0
rfd3/configs/experiment/pretrain.yaml +31 -0
rfd3/configs/experiment/test-uncond.yaml +10 -0
rfd3/configs/experiment/test-unindexed.yaml +21 -0
rfd3/configs/hydra/default.yaml +18 -0
rfd3/configs/hydra/no_logging.yaml +7 -0
rfd3/configs/inference.yaml +9 -0
rfd3/configs/inference_engine/base.yaml +15 -0
rfd3/configs/inference_engine/dev.yaml +20 -0
rfd3/configs/inference_engine/rfdiffusion3.yaml +65 -0
rfd3/configs/logger/csv.yaml +6 -0
rfd3/configs/logger/default.yaml +2 -0
rfd3/configs/logger/wandb.yaml +15 -0
rfd3/configs/model/components/ema.yaml +1 -0
rfd3/configs/model/components/rfd3_net.yaml +131 -0
rfd3/configs/model/optimizers/adam.yaml +5 -0
rfd3/configs/model/rfd3_base.yaml +8 -0
rfd3/configs/model/samplers/edm.yaml +21 -0
rfd3/configs/model/samplers/symmetry.yaml +10 -0
rfd3/configs/model/schedulers/af3.yaml +6 -0
rfd3/configs/paths/data/default.yaml +18 -0
rfd3/configs/paths/default.yaml +22 -0
rfd3/configs/train.yaml +28 -0
rfd3/configs/trainer/cpu.yaml +6 -0
rfd3/configs/trainer/ddp.yaml +5 -0
rfd3/configs/trainer/loss/losses/diffusion_loss.yaml +12 -0
rfd3/configs/trainer/loss/losses/sequence_loss.yaml +3 -0
rfd3/configs/trainer/metrics/design_metrics.yaml +22 -0
rfd3/configs/trainer/rfd3_base.yaml +35 -0
rfd3/configs/validate.yaml +34 -0
rfd3/run_inference.py +3 -7
{rc_foundry-0.1.4.dist-info → rc_foundry-0.1.6.dist-info}/WHEEL +0 -0
{rc_foundry-0.1.4.dist-info → rc_foundry-0.1.6.dist-info}/entry_points.txt +0 -0
{rc_foundry-0.1.4.dist-info → rc_foundry-0.1.6.dist-info}/licenses/LICENSE.md +0 -0

rfd3/configs/datasets/conditions/dna_condition.yaml ADDED Viewed

@@ -0,0 +1,3 @@
+_target_: rfd3.transforms.training_conditions.SubtypeCondition
+frequency: 1.0
+subtype: ["is_dna", "is_rna"]

rfd3/configs/datasets/conditions/island.yaml ADDED Viewed

@@ -0,0 +1,28 @@
+_target_: rfd3.transforms.training_conditions.IslandCondition
+frequency: 1.0
+name: island
+# Island sampling (`is_motif_token` assignment)
+island_sampling_kwargs:
+  island_len_min: 1
+  island_len_max: 12 # Rec 25, kept lower because unindexed motifs get sampled too and create more tokens.
+  n_islands_min: 2
+  n_islands_max: 5
+# Subgraph / within-token sampling (`is_motif_atom` assignment)
+p_diffuse_motif_sidechains: 0.80  # 80% probability of diffusing sidechains
+p_diffuse_subgraph_atoms: 0.0      # 0% probability of sampling subgraph atoms (defaults to fully fixed)
+subgraph_sampling_kwargs:  # see tipatom
+  residue_p_seed_furthest_from_o: null
+  residue_n_bond_expectation: null
+  residue_p_fix_all: null
+  hetatom_n_bond_expectation: null
+  hetatom_p_fix_all: null
+# Sets `is_motif_atom_with_fixed_seq`
+p_fix_motif_sequence: 0.2       # probability that sequence is fixed for all motifs during training
+# Sets `is_motif_atom_with_fixed_coord`
+p_fix_motif_coordinates: 0.8    # Of the atoms that are sampled, should their coordinates be fixed?
+# Sets `is_motif_atom_with_unindexed`
+p_unindex_motif_tokens: 0.5     # probability of unindexing all motif atoms

rfd3/configs/datasets/conditions/ppi.yaml ADDED Viewed

	@@ -0,0 +1,2 @@
1	+ _target_: rfd3.transforms.training_conditions.PPICondition
2	+ frequency: 1.0

rfd3/configs/datasets/conditions/sequence_design.yaml ADDED Viewed

@@ -0,0 +1,17 @@
+defaults:
+  - island
+  - _self_
+frequency: 1.0
+name: sequence_design
+island_sampling_kwargs:
+  island_len_min: 99999
+  island_len_max: 999999999
+p_diffuse_motif_sidechains: 1.0
+p_unindex_motif_tokens: 0.0
+# For ChemNet-style sampling  < 1.0
+p_fix_motif_coordinates: 0.8
+p_fix_motif_sequence: 0.1

rfd3/configs/datasets/conditions/tipatom.yaml ADDED Viewed

@@ -0,0 +1,28 @@
+defaults:
+  - island
+  - _self_
+frequency: 1.0
+name: tipatom
+# Island sampling (`is_motif_token` assignment)
+island_sampling_kwargs:
+  island_len_min: 1
+  island_len_max: 1
+  n_islands_min: 2
+  n_islands_max: 12
+# Subgraph / within-token sampling (`is_motif_atom` assignment)
+p_diffuse_motif_sidechains: 0.0  # 80% probability of diffusing sidechains
+p_diffuse_subgraph_atoms: 1.0
+subgraph_sampling_kwargs:
+  residue_p_seed_furthest_from_o: 0.8
+  residue_n_bond_expectation: 3.0
+  residue_p_fix_all: 0.05
+  hetatom_n_bond_expectation: 8
+  hetatom_p_fix_all: 0.5
+p_fix_motif_sequence: 0.7
+p_fix_motif_coordinates: 1.0
+p_unindex_motif_tokens: 0.5

rfd3/configs/datasets/conditions/unconditional.yaml ADDED Viewed

@@ -0,0 +1,21 @@
+# Unconditional that fixes non-protein targets
+defaults:
+  - island
+  - _self_
+frequency: 1.0
+name: unconditional
+island_sampling_kwargs:
+  island_len_min: 0
+  island_len_max: 0
+  n_islands_min: 0
+  n_islands_max: 0
+# Conditional assignments won't matter for protein regions since always diffused:
+p_diffuse_motif_sidechains: 0.0
+p_diffuse_subgraph_atoms: 0.0
+p_fix_motif_sequence: 0.0
+p_fix_motif_coordinates: 0.0
+p_unindex_motif_tokens: 0.0

rfd3/configs/datasets/design_base.yaml ADDED Viewed

@@ -0,0 +1,97 @@
+# base training dataset for training AF3 design models (atom14 variants):
+# protein subsampling only.
+defaults:
+  # Grab datasets
+  - train/pdb/rfd3_train_interface@train.pdb.sub_datasets.interface
+  - train/pdb/rfd3_train_pn_unit@train.pdb.sub_datasets.pn_unit
+  #- train/rfd3_monomer_distillation@train
+  # Customized validation datasets
+  - val/unconditional@val.unconditional
+  - val/unconditional_deep@val.unconditional_deep
+  - val/indexed@val.indexed
+  # Customized train masks
+  - conditions/unconditional@global_transform_args.train_conditions.unconditional
+  - conditions/island@global_transform_args.train_conditions.island
+  - conditions/tipatom@global_transform_args.train_conditions.tipatom
+  - conditions/sequence_design@global_transform_args.train_conditions.sequence_design
+  - conditions/ppi@global_transform_args.train_conditions.ppi
+  - _self_
+# Create a dictionary used for transform arguments
+pipeline_target: rfd3.transforms.pipelines.build_atom14_base_pipeline
+# Base config overrides:
+diffusion_batch_size_train: 32
+diffusion_batch_size_inference: 8
+crop_size: 384
+n_recycles_train: 2
+n_recycles_validation: 1
+max_atoms_in_crop: 3840  # ~10x crop size.
+# Global transform arguments are necessary for arguments shared between training and inference
+global_transform_args:
+  n_atoms_per_token: 14
+  central_atom: CB
+  sigma_perturb: 2.0
+  sigma_perturb_com: 1.0
+  association_scheme: dense
+  center_option: diffuse  # options are ["all", "motif", "diffuse"]
+  # Reference conformer policy
+  generate_conformers: True
+  generate_conformers_for_non_protein_only: True
+  provide_reference_conformer_when_unmasked: True
+  ground_truth_conformer_policy: IGNORE  # Other options: REPLACE, ADD, FALLBACK. See atomworks.enums for details
+  provide_elements_for_unindexed_components: True
+  use_element_for_atom_names_of_atomized_tokens: True  # TODO: correct name, implies unindexed do too
+  # PPI Cropping
+  keep_full_binder_in_spatial_crop: False
+  max_binder_length: 170
+  # PPI Hotspots
+  max_ppi_hotspots_frac_to_provide: 0.2
+  ppi_hotspot_max_distance: 4.5
+  # Secondary structure features
+  max_ss_frac_to_provide: 0.4
+  min_ss_island_len: 1
+  max_ss_island_len: 10
+  train_conditions:
+    unconditional:
+      frequency: 5.0
+    sequence_design:
+      frequency: 2.0
+    island:
+      frequency: 1.0
+    tipatom:
+      frequency: 0.0
+    ppi:
+      frequency: 0.0
+  # Used to create simple boolean flags for downstream conditioning
+  meta_conditioning_probabilities:
+    calculate_hbonds: 0.2
+    calculate_rasa: 0.6
+    keep_protein_motif_rasa: 0.1  # Small to prevent noisy input to model
+    hbond_subsample: 0.5
+    # fully indexed training
+    unindex_leak_global_index: 0.10
+    unindex_insert_random_break: 0.10
+    unindex_remove_random_break: 0.10
+    # Probability of adding 1d secondary structure conditioning
+    add_1d_ss_features: 0.1
+    featurize_plddt: 0.9  # Applied for monomer distillation only
+    add_global_is_non_loopy_feature: 0.99
+    # PPI
+    add_ppi_hotspots: 0.75
+    full_binder_crop: 0.75

rfd3/configs/datasets/train/pdb/af3_train_interface.yaml ADDED Viewed

@@ -0,0 +1,46 @@
+defaults:
+  - base
+dataset:
+  dataset_parser:
+    _target_: atomworks.ml.datasets.parsers.InterfacesDFParser
+    base_dir: ${paths.data.pdb_data_dir}
+  dataset:
+    name: interface
+    data: ${paths.data.pdb_parquet_dir}/interfaces_df_train.parquet
+    filters:
+      # filters common across all PDB datasets
+      - "deposition_date < '2021-09-30'"
+      - "resolution < 9.0"
+      - "num_polymer_pn_units <= 300"
+      - "cluster.notnull()"
+      # interface specific filters
+      - "~(pn_unit_1_non_polymer_res_names.notnull() and pn_unit_1_non_polymer_res_names.str.contains('${resolve_import:atomworks.constants,AF3_EXCLUDED_LIGANDS_REGEX}', regex=True))"
+      - "~(pn_unit_2_non_polymer_res_names.notnull() and pn_unit_2_non_polymer_res_names.str.contains('${resolve_import:atomworks.constants,AF3_EXCLUDED_LIGANDS_REGEX}', regex=True))"
+      - "is_inter_molecule"
+    columns_to_load:
+      # columns common across all PDB datasets
+      - example_id
+      - pdb_id
+      - assembly_id
+      - deposition_date
+      - resolution
+      - num_polymer_pn_units
+      - method
+      - cluster
+      - n_prot
+      - n_nuc
+      - n_ligand
+      - n_peptide
+      # interface specific columns
+      - pn_unit_1_iid
+      - pn_unit_2_iid
+      - pn_unit_1_non_polymer_res_names
+      - pn_unit_2_non_polymer_res_names
+      - is_inter_molecule
+      - all_pn_unit_iids_after_processing
+      - involves_loi
+  transform:
+    # interface-specific Transform pipeline parameters
+    crop_contiguous_probability: 0.0
+    crop_spatial_probability: 1.0

rfd3/configs/datasets/train/pdb/af3_train_pn_unit.yaml ADDED Viewed

@@ -0,0 +1,42 @@
+defaults:
+  - base
+dataset:
+  dataset_parser:
+    _target_: atomworks.ml.datasets.parsers.PNUnitsDFParser
+    base_dir: ${paths.data.pdb_data_dir}
+  dataset:
+    name: pn_unit
+    data: ${paths.data.pdb_parquet_dir}/pn_units_df_train.parquet
+    filters:
+        # filters common across all PDB datasets
+      - "deposition_date < '2021-09-30'"
+      - "resolution < 9.0"
+      - "num_polymer_pn_units <= 300"
+      - "cluster.notnull()"
+      # pn_unit specific filters
+      - "~(q_pn_unit_non_polymer_res_names.notnull() and q_pn_unit_non_polymer_res_names.str.contains('${resolve_import:atomworks.constants,AF3_EXCLUDED_LIGANDS_REGEX}', regex=True))"
+    columns_to_load:
+      # columns common across all PDB datasets
+      - example_id
+      - pdb_id
+      - assembly_id
+      - deposition_date
+      - resolution
+      - num_polymer_pn_units
+      - method
+      - cluster
+      - n_prot
+      - n_nuc
+      - n_ligand
+      - n_peptide
+      - total_num_atoms_in_unprocessed_assembly
+      # pn_unit specific columns
+      - q_pn_unit_iid
+      - q_pn_unit_non_polymer_res_names
+      - all_pn_unit_iids_after_processing
+      - q_pn_unit_is_loi
+  transform:
+    # pn_unit-specific Transform pipeline parameters
+    crop_contiguous_probability: 0.3333333333333333
+    crop_spatial_probability: 0.6666666666666667

rfd3/configs/datasets/train/pdb/base.yaml ADDED Viewed

@@ -0,0 +1,14 @@
+# Adds weights to the sampler
+defaults:
+  - base_no_weights
+  - _self_
+weights:
+  _target_: atomworks.ml.samplers.calculate_weights_for_pdb_dataset_df
+  beta: 0.5
+  alphas:
+    a_prot: 3.0 # 3 for AF-3
+    a_nuc: 0.0 # 3 for AF-3
+    a_ligand: 1.0 # 1 for AF-3
+    a_loi: 5.0 # 5 for AF-3

rfd3/configs/datasets/train/pdb/base_no_weights.yaml ADDED Viewed

@@ -0,0 +1,19 @@
+defaults:
+  - base_transform_args
+  - _self_
+dataset:
+  _target_: atomworks.ml.datasets.StructuralDatasetWrapper
+  save_failed_examples_to_dir: ${paths.data.failed_examples_dir}
+  cif_parser_args:
+    cache_dir: null
+    load_from_cache: false
+    save_to_cache: false
+  dataset:
+    _target_: atomworks.ml.datasets.PandasDataset
+    # we will use the example_id as the unique column
+    id_column: example_id
+  transform:
+    # common Transform pipeline components for all PDB datasets
+    _target_: ${datasets.pipeline_target}
+    is_inference: False

rfd3/configs/datasets/train/pdb/base_transform_args.yaml ADDED Viewed

@@ -0,0 +1,59 @@
+# All required training args
+defaults:
+  - _self_
+dataset:
+  transform:
+    _target_: ${datasets.pipeline_target}
+    is_inference: False
+    return_atom_array: False
+    # Model
+    sigma_perturb: ${datasets.global_transform_args.sigma_perturb}
+    sigma_perturb_com: ${datasets.global_transform_args.sigma_perturb_com}
+    sigma_data: ${model.net.diffusion_module.sigma_data}
+    diffusion_batch_size: ${datasets.diffusion_batch_size_train}
+    central_atom: ${datasets.global_transform_args.central_atom}
+    n_atoms_per_token: ${datasets.global_transform_args.n_atoms_per_token}
+    association_scheme: ${datasets.global_transform_args.association_scheme}
+    center_option: ${datasets.global_transform_args.center_option}
+    # Conformers
+    generate_conformers: ${datasets.global_transform_args.generate_conformers}
+    generate_conformers_for_non_protein_only: ${datasets.global_transform_args.generate_conformers_for_non_protein_only}
+    provide_reference_conformer_when_unmasked: ${datasets.global_transform_args.provide_reference_conformer_when_unmasked}
+    ground_truth_conformer_policy: ${datasets.global_transform_args.ground_truth_conformer_policy}
+    provide_elements_for_unindexed_components: ${datasets.global_transform_args.provide_elements_for_unindexed_components}
+    use_element_for_atom_names_of_atomized_tokens: ${datasets.global_transform_args.use_element_for_atom_names_of_atomized_tokens}
+    residue_cache_dir: ${paths.data.residue_cache_dir}
+    # Conditions
+    train_conditions: ${datasets.global_transform_args.train_conditions}
+    meta_conditioning_probabilities: ${datasets.global_transform_args.meta_conditioning_probabilities}
+    # PPI Hypers
+    keep_full_binder_in_spatial_crop: ${datasets.global_transform_args.keep_full_binder_in_spatial_crop}
+    max_binder_length: ${datasets.global_transform_args.max_binder_length}
+    max_ppi_hotspots_frac_to_provide: ${datasets.global_transform_args.max_ppi_hotspots_frac_to_provide}
+    ppi_hotspot_max_distance: ${datasets.global_transform_args.ppi_hotspot_max_distance}
+    # 1D SS hypers
+    max_ss_frac_to_provide: ${datasets.global_transform_args.max_ss_frac_to_provide}
+    min_ss_island_len: ${datasets.global_transform_args.min_ss_island_len}
+    max_ss_island_len: ${datasets.global_transform_args.max_ss_island_len}
+    # Cropping
+    crop_size: ${datasets.crop_size}
+    max_atoms_in_crop: ${datasets.max_atoms_in_crop}
+    allowed_types: ALL
+    crop_spatial_probability: ???
+    crop_contiguous_probability: ???
+    dna_contact_crop_probability: 0.0
+    crop_center_cutoff_distance: 15.0
+    zero_occ_on_exposure_after_cropping: False
+    b_factor_min: null
+    # Other dataset-specific parameters
+    atom_1d_features: ${model.net.token_initializer.atom_1d_features}
+    token_1d_features: ${model.net.token_initializer.token_1d_features}

rfd3/configs/datasets/train/pdb/na_complex_distillation.yaml ADDED Viewed

@@ -0,0 +1,20 @@
+defaults:
+  - base_no_weights
+  - _self_
+dataset:
+  dataset_parser:
+    _target_: atomworks.ml.datasets.parsers.GenericDFParser
+    pn_unit_iid_colnames: null
+  dataset:
+    name: tf_distillation
+    data: /projects/ml/prot_dna/transcriptionFactor_distillation_rf3.newDL.csv
+    columns_to_load:
+      - example_id
+      - path
+  transform:
+    crop_contiguous_probability: 0.4
+    crop_spatial_probability: 0.0
+    dna_contact_crop_probability: 0.6

rfd3/configs/datasets/train/pdb/pdb_base.yaml ADDED Viewed

@@ -0,0 +1,11 @@
+# Base config for all PDB datasets
+defaults:
+  - base
+  - _self_
+dataset:
+  # All PDB datasets load from this cache:
+  cif_parser_args:
+    cache_dir: ${paths.data.cif_cache_dir}
+    load_from_cache: True
+    save_to_cache: False

rfd3/configs/datasets/train/pdb/rfd3_train_interface.yaml ADDED Viewed

@@ -0,0 +1,22 @@
+# Inherit
+defaults:
+  - af3_train_interface
+  - pdb_base
+  - _self_
+dataset:
+  transform:
+    crop_contiguous_probability: 0.0
+    crop_spatial_probability: 1.0
+    filters:
+        # filters common across all PDB datasets
+        - 'pdb_id not in ["7rte", "7m5w", "7n5u"]'
+        - 'pdb_id not in ["3di3", "5o45", "1z92", "2gy5", "4zxb"]'
+        - "deposition_date < '2024-12-16'"
+        - "resolution < 9.0"
+        - "num_polymer_pn_units <= 300"
+        - "cluster.notnull()"
+        # interface specific filters
+        - "~(pn_unit_1_non_polymer_res_names.notnull() and pn_unit_1_non_polymer_res_names.str.contains('${resolve_import:atomworks.constants,AF3_EXCLUDED_LIGANDS_REGEX}', regex=True))"
+        - "~(pn_unit_2_non_polymer_res_names.notnull() and pn_unit_2_non_polymer_res_names.str.contains('${resolve_import:atomworks.constants,AF3_EXCLUDED_LIGANDS_REGEX}', regex=True))"
+        - "is_inter_molecule"

rfd3/configs/datasets/train/pdb/rfd3_train_pn_unit.yaml ADDED Viewed

@@ -0,0 +1,23 @@
+defaults:
+  - af3_train_pn_unit
+  - pdb_base
+  - _self_
+dataset:
+  transform:
+    # pn_unit-specific Transform pipeline parameters
+    crop_contiguous_probability: 0.25
+    crop_spatial_probability: 0.75
+  # Modify: date & clustering parquet
+  dataset:
+    filters:
+        # filters common across all PDB datasets
+      - 'pdb_id not in ["7rte", "7m5w", "7n5u"]'
+      - 'pdb_id not in ["3di3", "5o45", "1z92", "2gy5", "4zxb"]'
+      - "deposition_date < '2024-12-16'"
+      - "resolution < 9.0"
+      - "num_polymer_pn_units <= 300"
+      - "cluster.notnull()"
+      # pn_unit specific filters
+      - "~(q_pn_unit_non_polymer_res_names.notnull() and q_pn_unit_non_polymer_res_names.str.contains('${resolve_import:atomworks.constants,AF3_EXCLUDED_LIGANDS_REGEX}', regex=True))"

rfd3/configs/datasets/train/rfd3_monomer_distillation.yaml ADDED Viewed

@@ -0,0 +1,38 @@
+defaults:
+  - pdb/base_transform_args@monomer_distillation
+  - _self_
+monomer_distillation:
+  dataset:
+    _target_: atomworks.ml.datasets.StructuralDatasetWrapper
+    save_failed_examples_to_dir: ${paths.data.failed_examples_dir}
+    # Explicitly do not load from cache.
+    # Dataset too big, and structures are small
+    cif_parser_args:
+      cache_dir: null
+      load_from_cache: False
+      save_to_cache: False
+    # metadata dataset
+    dataset:
+      _target_: atomworks.ml.datasets.PandasDataset
+      name: af2fb_distillation
+      id_column: example_id
+      data: ${paths.data.monomer_distillation_parquet_dir}/af2_distillation_facebook.parquet
+      columns_to_load:
+        - example_id
+        - path
+    # metadata parser
+    dataset_parser:
+      _target_: atomworks.ml.datasets.parsers.GenericDFParser
+      pn_unit_iid_colnames: null
+    transform:
+      _target_: ${datasets.pipeline_target}
+      is_inference: False
+      # protein_msa_dirs: [{"dir": "${paths.data.monomer_distillation_data_dir}/msa", "extension": ".a3m", "directory_depth": 2}]
+      # rna_msa_dirs: []
+      crop_contiguous_probability: 0.25
+      crop_spatial_probability: 0.75
+      b_factor_min: 70

rfd3/configs/datasets/val/bcov_ppi_easy_medium.yaml ADDED Viewed

@@ -0,0 +1,9 @@
+defaults:
+  - design_validation_base
+  - val_examples/bcov_ppi_easy_medium_with_ori@dataset.data
+  - _self_
+dataset:
+  eval_every_n: 1
+  name: bcov-ppi-easy-medium

rfd3/configs/datasets/val/design_validation_base.yaml ADDED Viewed

@@ -0,0 +1,40 @@
+dataset:
+  _target_: rfd3.inference.datasets.ContigJsonDataset
+  # Required parameters for each inheriting dataset
+  data: ???  # Path to json file
+  name: ???  # Name for displaying and saving files
+  eval_every_n: ???  # Evaluate on this dataset every n epochs
+  subset_to_keys: null  # Specific keys in json to keep, ignores all others.
+  # NB: Used for parsing input files (not for atom_array reloading anymore)
+  cif_parser_args:
+    cache_dir: null
+    load_from_cache: False
+    save_to_cache: False
+    add_missing_atoms: False
+  # Common Transform pipeline components for all PDB datasets
+  transform:
+    _target_: ${datasets.pipeline_target}
+    is_inference: True
+    return_atom_array: True
+    diffusion_batch_size: ${datasets.diffusion_batch_size_train}
+    sigma_data: ${model.net.diffusion_module.sigma_data}
+    central_atom: ${datasets.global_transform_args.central_atom}
+    n_atoms_per_token: ${datasets.global_transform_args.n_atoms_per_token}
+    association_scheme: ${datasets.global_transform_args.association_scheme}
+    center_option: ${datasets.global_transform_args.center_option}
+    # Conformers
+    generate_conformers: ${datasets.global_transform_args.generate_conformers}
+    generate_conformers_for_non_protein_only: ${datasets.global_transform_args.generate_conformers_for_non_protein_only}
+    provide_reference_conformer_when_unmasked: ${datasets.global_transform_args.provide_reference_conformer_when_unmasked}
+    ground_truth_conformer_policy: ${datasets.global_transform_args.ground_truth_conformer_policy}
+    provide_elements_for_unindexed_components: ${datasets.global_transform_args.provide_elements_for_unindexed_components}
+    use_element_for_atom_names_of_atomized_tokens: ${datasets.global_transform_args.use_element_for_atom_names_of_atomized_tokens}
+    residue_cache_dir: ${paths.data.residue_cache_dir}
+    # Other dataset-specific parameters
+    atom_1d_features: ${model.net.token_initializer.atom_1d_features}
+    token_1d_features: ${model.net.token_initializer.token_1d_features}

rfd3/configs/datasets/val/dna_binder_design5.yaml ADDED Viewed

@@ -0,0 +1,9 @@
+defaults:
+  - design_validation_base
+  - _self_
+dataset:
+  data: ${paths.data.design_benchmark_data_dir}/dna_binder.json
+  name: dna_binder_design
+  eval_every_n: 1

rfd3/configs/datasets/val/dna_binder_long.yaml ADDED Viewed

@@ -0,0 +1,13 @@
+defaults:
+  - design_validation_base
+  - _self_
+dataset:
+  data: ${paths.root_dir}/tests/dna.json
+  name: dna_binder_design
+  eval_every_n: 10
+  subset_to_keys:
+    - 7rte_sequence_only
+    - 7rte_with_structure

rfd3/configs/datasets/val/dna_binder_short.yaml ADDED Viewed

@@ -0,0 +1,13 @@
+defaults:
+  - design_validation_base
+  - _self_
+dataset:
+  data: ${paths.root_dir}/rfd3/tests/test_data/dna.json
+  name: dna_binder_design
+  eval_every_n: 1
+  subset_to_keys:
+    - 7rte_sequence_only
+    - 7rte_with_structure

rfd3/configs/datasets/val/indexed.yaml ADDED Viewed

@@ -0,0 +1,9 @@
+defaults:
+  - design_validation_base
+  - _self_
+dataset:
+  data: ${paths.data.design_benchmark_data_dir}/indexed.json
+  name: indexed-design
+  eval_every_n: 8

rfd3/configs/datasets/val/mcsa_41.yaml ADDED Viewed

@@ -0,0 +1,9 @@
+defaults:
+  - design_validation_base
+  - _self_
+dataset:
+  data: ${paths.data.design_benchmark_data_dir}/mcsa_41.json
+  name: woodys-benchmark
+  eval_every_n: 16

rfd3/configs/datasets/val/mcsa_41_short_rigid.yaml ADDED Viewed

@@ -0,0 +1,10 @@
+defaults:
+  - unindexed
+  - _self_
+dataset:
+  name: rigid-ligand-enzymes
+  eval_every_n: 1
+  data: ${paths.data.design_benchmark_data_dir}/mcsa_41_short_rigid_new.json

rfd3/configs/datasets/val/ppi_inference.yaml ADDED Viewed

@@ -0,0 +1,7 @@
+defaults:
+  - unconditional
+  - _self_
+dataset:
+  name: ppi_inference
+  data: ??? # This is a required override, specifying a path to the dataset json or yaml file.

rfd3/configs/datasets/val/sm_binder_hbonds.yaml ADDED Viewed

@@ -0,0 +1,13 @@
+defaults:
+  - design_validation_base
+  - _self_
+dataset:
+  data: ${paths.data.design_benchmark_data_dir}/sm_binder_hbonds.json
+  eval_every_n: 5
+  name: sm_binder_hbonds-design
+  subset_to_keys:
+    - FAD
+    - IAI
+    - OQO
+    - SAM

rfd3/configs/datasets/val/sm_binder_hbonds_short.yaml ADDED Viewed

@@ -0,0 +1,15 @@
+defaults:
+  - sm_binder_hbonds
+  - _self_
+dataset:
+  eval_every_n: 1
+  data: ${paths.data.design_benchmark_data_dir}/sm_binder_hbonds_sampled.json
+  name: sm_binder_hbonds-design-short
+  subset_to_keys:
+    - FAD_1
+    - FAD_2
+    - FAD_3
+    - IAI_1
+    - IAI_2
+    - IAI_3

rc-foundry 0.1.4__py3-none-any.whl → 0.1.6__py3-none-any.whl

rc-foundry 0.1.4py3-none-any.whl → 0.1.6py3-none-any.whl