PyPI - synth-ai - Versions diffs - 0.2.14__py3-none-any.whl → 0.4.4__py3-none-any.whl - Mend

synth-ai 0.2.14py3-none-any.whl → 0.4.4py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of synth-ai might be problematic. Click here for more details.

Files changed (1086) hide show

synth_ai/__init__.py +25 -46
synth_ai/__main__.py +30 -3
synth_ai/cli/__init__.py +98 -72
synth_ai/cli/__main__.py +42 -0
synth_ai/cli/_internal/__init__.py +5 -0
synth_ai/cli/_internal/modal_wrapper.py +31 -0
synth_ai/cli/_internal/storage.py +20 -0
synth_ai/cli/_internal/typer_patch.py +47 -0
synth_ai/cli/_internal/validate_task_app.py +29 -0
synth_ai/cli/agents/__init__.py +17 -0
synth_ai/cli/agents/claude.py +77 -0
synth_ai/cli/agents/codex.py +265 -0
synth_ai/cli/agents/opencode.py +253 -0
synth_ai/cli/commands/__init__.py +18 -0
synth_ai/cli/commands/artifacts/__init__.py +13 -0
synth_ai/cli/commands/artifacts/client.py +119 -0
synth_ai/cli/commands/artifacts/config.py +57 -0
synth_ai/cli/commands/artifacts/core.py +24 -0
synth_ai/cli/commands/artifacts/download.py +188 -0
synth_ai/cli/commands/artifacts/export.py +186 -0
synth_ai/cli/commands/artifacts/list.py +156 -0
synth_ai/cli/commands/artifacts/parsing.py +250 -0
synth_ai/cli/commands/artifacts/show.py +336 -0
synth_ai/cli/commands/demo/__init__.py +3 -0
synth_ai/cli/commands/demo/core.py +153 -0
synth_ai/cli/commands/eval/__init__.py +10 -0
synth_ai/cli/commands/eval/config.py +338 -0
synth_ai/cli/commands/eval/core.py +258 -0
synth_ai/cli/commands/eval/runner.py +704 -0
synth_ai/cli/commands/eval/validation.py +60 -0
synth_ai/cli/commands/filter/__init__.py +12 -0
synth_ai/cli/commands/filter/core.py +424 -0
synth_ai/cli/commands/filter/errors.py +55 -0
synth_ai/cli/commands/filter/validation.py +77 -0
synth_ai/cli/commands/help/__init__.py +185 -0
synth_ai/cli/commands/help/core.py +72 -0
synth_ai/cli/commands/scan/__init__.py +19 -0
synth_ai/cli/commands/scan/cloudflare_scanner.py +403 -0
synth_ai/cli/commands/scan/core.py +344 -0
synth_ai/cli/commands/scan/health_checker.py +242 -0
synth_ai/cli/commands/scan/local_scanner.py +278 -0
synth_ai/cli/commands/scan/models.py +83 -0
synth_ai/cli/commands/smoke/__init__.py +7 -0
synth_ai/cli/commands/smoke/core.py +1428 -0
synth_ai/cli/commands/status/__init__.py +3 -0
synth_ai/cli/commands/status/client.py +91 -0
synth_ai/cli/commands/status/config.py +12 -0
synth_ai/cli/commands/status/errors.py +11 -0
synth_ai/cli/commands/status/subcommands/__init__.py +3 -0
synth_ai/cli/commands/status/subcommands/config.py +13 -0
synth_ai/cli/commands/status/subcommands/files.py +34 -0
synth_ai/cli/commands/status/subcommands/jobs.py +51 -0
synth_ai/cli/commands/status/subcommands/models.py +35 -0
synth_ai/cli/commands/status/subcommands/runs.py +34 -0
synth_ai/cli/commands/status/subcommands/session.py +77 -0
synth_ai/cli/commands/status/subcommands/summary.py +39 -0
synth_ai/cli/commands/status/subcommands/utils.py +41 -0
synth_ai/cli/commands/status/utils.py +23 -0
synth_ai/cli/commands/train/__init__.py +51 -0
synth_ai/cli/commands/train/core.py +22 -0
synth_ai/cli/commands/train/errors.py +117 -0
synth_ai/cli/commands/train/prompt_learning_validation.py +632 -0
synth_ai/cli/commands/train/validation.py +392 -0
synth_ai/cli/commands/train/verifier_schemas.py +200 -0
synth_ai/cli/commands/train/verifier_validation.py +235 -0
synth_ai/cli/demo_apps/__init__.py +10 -0
synth_ai/cli/demo_apps/core/__init__.py +28 -0
synth_ai/cli/demo_apps/core/cli.py +1735 -0
synth_ai/cli/demo_apps/crafter/crafter_fft_4b.toml +55 -0
synth_ai/cli/demo_apps/crafter/grpo_crafter_task_app.py +186 -0
synth_ai/cli/demo_apps/crafter/rl_from_base_qwen4b.toml +74 -0
synth_ai/cli/demo_apps/demo_registry.py +176 -0
synth_ai/cli/demo_apps/demo_task_apps/core.py +440 -0
synth_ai/cli/demo_apps/demo_task_apps/crafter/__init__.py +1 -0
synth_ai/cli/demo_apps/demo_task_apps/crafter/grpo_crafter_task_app.py +185 -0
synth_ai/cli/demo_apps/demo_task_apps/math/config.toml +73 -0
synth_ai/cli/demo_apps/demo_task_apps/math/modal_task_app.py +738 -0
synth_ai/cli/demo_apps/demo_task_apps/math/task_app_entry.py +39 -0
synth_ai/cli/demo_apps/math/__init__.py +1 -0
synth_ai/cli/demo_apps/math/_common.py +16 -0
synth_ai/cli/demo_apps/math/app.py +38 -0
synth_ai/cli/demo_apps/math/config.toml +75 -0
synth_ai/cli/demo_apps/math/deploy_modal.py +54 -0
synth_ai/cli/demo_apps/math/modal_task_app.py +698 -0
synth_ai/cli/demo_apps/math/task_app_entry.py +53 -0
synth_ai/cli/demo_apps/mipro/main.py +271 -0
synth_ai/cli/demo_apps/mipro/task_app.py +911 -0
synth_ai/cli/demo_apps/mipro/train_cfg.toml +92 -0
synth_ai/cli/demos/__init__.py +12 -0
synth_ai/cli/demos/demo.py +32 -0
synth_ai/cli/demos/rl_demo.py +254 -0
synth_ai/cli/deploy.py +216 -0
synth_ai/cli/infra/__init__.py +14 -0
synth_ai/cli/infra/balance.py +216 -0
synth_ai/cli/infra/mcp.py +35 -0
synth_ai/cli/infra/modal_app.py +36 -0
synth_ai/cli/infra/setup.py +69 -0
synth_ai/cli/infra/status.py +16 -0
synth_ai/cli/infra/turso.py +77 -0
synth_ai/cli/lib/__init__.py +10 -0
synth_ai/cli/lib/agents.py +76 -0
synth_ai/cli/lib/apps/modal_app.py +101 -0
synth_ai/cli/lib/apps/task_app.py +642 -0
synth_ai/cli/lib/bin.py +39 -0
synth_ai/cli/lib/env.py +375 -0
synth_ai/cli/lib/errors.py +85 -0
synth_ai/cli/lib/modal.py +315 -0
synth_ai/cli/lib/plotting.py +126 -0
synth_ai/cli/lib/prompt_args.py +39 -0
synth_ai/cli/lib/prompts.py +284 -0
synth_ai/cli/lib/sqld.py +122 -0
synth_ai/cli/lib/task_app_discovery.py +884 -0
synth_ai/cli/lib/task_app_env.py +295 -0
synth_ai/cli/lib/train_cfgs.py +300 -0
synth_ai/cli/lib/tunnel_records.py +207 -0
synth_ai/cli/local/__init__.py +14 -0
synth_ai/cli/local/experiment_queue/__init__.py +72 -0
synth_ai/cli/local/experiment_queue/api_schemas.py +221 -0
synth_ai/cli/local/experiment_queue/celery_app.py +208 -0
synth_ai/cli/local/experiment_queue/config.py +128 -0
synth_ai/cli/local/experiment_queue/config_utils.py +272 -0
synth_ai/cli/local/experiment_queue/database.py +175 -0
synth_ai/cli/local/experiment_queue/dispatcher.py +119 -0
synth_ai/cli/local/experiment_queue/models.py +231 -0
synth_ai/cli/local/experiment_queue/progress_info.py +160 -0
synth_ai/cli/local/experiment_queue/results.py +373 -0
synth_ai/cli/local/experiment_queue/schemas.py +131 -0
synth_ai/cli/local/experiment_queue/service.py +344 -0
synth_ai/cli/local/experiment_queue/status.py +372 -0
synth_ai/cli/local/experiment_queue/status_tracker.py +360 -0
synth_ai/cli/local/experiment_queue/tasks.py +1984 -0
synth_ai/cli/local/experiment_queue/trace_storage.py +65 -0
synth_ai/cli/local/experiment_queue/validation.py +157 -0
synth_ai/cli/local/session/__init__.py +92 -0
synth_ai/cli/local/session/client.py +383 -0
synth_ai/cli/local/session/constants.py +63 -0
synth_ai/cli/local/session/exceptions.py +105 -0
synth_ai/cli/local/session/manager.py +139 -0
synth_ai/cli/local/session/models.py +89 -0
synth_ai/cli/local/session/query.py +110 -0
synth_ai/cli/root.py +30 -6
synth_ai/cli/task_apps/__init__.py +37 -0
synth_ai/cli/task_apps/commands.py +3145 -0
synth_ai/cli/task_apps/deploy.py +7 -0
synth_ai/cli/task_apps/list.py +26 -0
synth_ai/cli/task_apps/main.py +36 -0
synth_ai/cli/task_apps/modal_serve.py +11 -0
synth_ai/cli/task_apps/serve.py +11 -0
synth_ai/cli/training/__init__.py +8 -0
synth_ai/cli/training/train.py +5 -0
synth_ai/cli/training/train_cfg.py +34 -0
synth_ai/cli/training/watch.py +506 -0
synth_ai/cli/turso.py +34 -55
synth_ai/cli/utils/__init__.py +8 -0
synth_ai/cli/utils/experiments.py +235 -0
synth_ai/cli/utils/queue.py +504 -0
synth_ai/cli/utils/recent.py +133 -0
synth_ai/cli/utils/traces.py +164 -0
synth_ai/contracts/__init__.py +67 -0
synth_ai/core/__init__.py +100 -0
synth_ai/core/_utils/__init__.py +54 -0
synth_ai/core/_utils/base_url.py +10 -0
synth_ai/core/_utils/http.py +10 -0
synth_ai/core/_utils/prompts.py +14 -0
synth_ai/core/_utils/task_app_state.py +12 -0
synth_ai/core/_utils/user_config.py +10 -0
synth_ai/core/apps/common.py +116 -0
synth_ai/core/auth.py +95 -0
synth_ai/core/cfgs.py +240 -0
synth_ai/core/config/__init__.py +16 -0
synth_ai/core/config/base.py +168 -0
synth_ai/core/config/resolver.py +89 -0
synth_ai/core/env.py +231 -0
synth_ai/core/errors.py +125 -0
synth_ai/core/http.py +230 -0
synth_ai/core/integrations/__init__.py +11 -0
synth_ai/core/integrations/cloudflare.py +1886 -0
synth_ai/core/integrations/mcp/__init__.py +6 -0
synth_ai/core/integrations/mcp/__main__.py +8 -0
synth_ai/core/integrations/mcp/claude.py +36 -0
synth_ai/core/integrations/mcp/main.py +254 -0
synth_ai/core/integrations/mcp/setup.py +100 -0
synth_ai/core/integrations/modal.py +277 -0
synth_ai/core/json.py +72 -0
synth_ai/core/log_filter.py +99 -0
synth_ai/core/logging.py +82 -0
synth_ai/core/paths.py +107 -0
synth_ai/core/pricing.py +109 -0
synth_ai/core/process.py +233 -0
synth_ai/core/ssl.py +25 -0
synth_ai/core/storage/__init__.py +71 -0
synth_ai/core/task_app_state.py +318 -0
synth_ai/core/telemetry.py +282 -0
synth_ai/core/tracing_v3/__init__.py +99 -0
synth_ai/core/tracing_v3/abstractions.py +348 -0
synth_ai/core/tracing_v3/config.py +229 -0
synth_ai/core/tracing_v3/constants.py +21 -0
synth_ai/core/tracing_v3/db_config.py +182 -0
synth_ai/core/tracing_v3/decorators.py +401 -0
synth_ai/core/tracing_v3/llm_call_record_helpers.py +437 -0
synth_ai/core/tracing_v3/migration_helper.py +119 -0
synth_ai/core/tracing_v3/session_tracer.py +542 -0
synth_ai/core/tracing_v3/storage/base.py +211 -0
synth_ai/core/tracing_v3/storage/config.py +109 -0
synth_ai/core/tracing_v3/storage/factory.py +39 -0
synth_ai/core/tracing_v3/trace_utils.py +326 -0
synth_ai/core/tracing_v3/turso/daemon.py +278 -0
synth_ai/core/tracing_v3/turso/models.py +470 -0
synth_ai/core/tracing_v3/turso/native_manager.py +1385 -0
synth_ai/core/tracing_v3/utils.py +108 -0
synth_ai/core/urls.py +18 -0
synth_ai/core/user_config.py +137 -0
synth_ai/core/uvicorn.py +222 -0
synth_ai/data/__init__.py +83 -0
synth_ai/data/enums.py +122 -0
synth_ai/data/rewards.py +249 -0
synth_ai/data/traces.py +35 -0
synth_ai/products/__init__.py +6 -0
synth_ai/products/graph_evolve/__init__.py +45 -0
synth_ai/products/graph_evolve/client.py +226 -0
synth_ai/products/graph_evolve/config.py +591 -0
synth_ai/products/graph_evolve/converters/__init__.py +42 -0
synth_ai/products/graph_evolve/converters/openai_sft.py +484 -0
synth_ai/products/graph_evolve/examples/hotpotqa/config.toml +109 -0
synth_ai/products/graph_evolve/run.py +222 -0
synth_ai/products/graph_gepa/__init__.py +23 -0
synth_ai/products/graph_gepa/converters/__init__.py +19 -0
synth_ai/products/graph_gepa/converters/openai_sft.py +29 -0
synth_ai/sdk/__init__.py +129 -0
synth_ai/sdk/api/__init__.py +1 -0
synth_ai/sdk/api/eval/__init__.py +33 -0
synth_ai/sdk/api/eval/job.py +732 -0
synth_ai/sdk/api/models/supported.py +514 -0
synth_ai/sdk/api/research_agent/__init__.py +296 -0
synth_ai/sdk/api/train/__init__.py +85 -0
synth_ai/sdk/api/train/builders.py +1076 -0
synth_ai/sdk/api/train/cli.py +2196 -0
synth_ai/sdk/api/train/config_finder.py +267 -0
synth_ai/sdk/api/train/configs/__init__.py +67 -0
synth_ai/sdk/api/train/configs/prompt_learning.py +1800 -0
synth_ai/sdk/api/train/configs/rl.py +436 -0
synth_ai/sdk/api/train/configs/sft.py +263 -0
synth_ai/sdk/api/train/configs/shared.py +81 -0
synth_ai/sdk/api/train/context_learning.py +312 -0
synth_ai/sdk/api/train/env_resolver.py +418 -0
synth_ai/sdk/api/train/graph_validators.py +216 -0
synth_ai/sdk/api/train/graphgen.py +1102 -0
synth_ai/sdk/api/train/graphgen_models.py +873 -0
synth_ai/sdk/api/train/graphgen_validators.py +109 -0
synth_ai/sdk/api/train/local_api.py +10 -0
synth_ai/sdk/api/train/pollers.py +160 -0
synth_ai/sdk/api/train/progress/__init__.py +97 -0
synth_ai/sdk/api/train/progress/dataclasses.py +569 -0
synth_ai/sdk/api/train/progress/events.py +326 -0
synth_ai/sdk/api/train/progress/results.py +428 -0
synth_ai/sdk/api/train/progress/tracker.py +641 -0
synth_ai/sdk/api/train/prompt_learning.py +800 -0
synth_ai/sdk/api/train/rl.py +478 -0
synth_ai/sdk/api/train/sft.py +398 -0
synth_ai/sdk/api/train/summary.py +522 -0
synth_ai/sdk/api/train/supported_algos.py +147 -0
synth_ai/sdk/api/train/task_app.py +351 -0
synth_ai/sdk/api/train/utils.py +279 -0
synth_ai/sdk/api/train/validators.py +2424 -0
synth_ai/sdk/graphs/__init__.py +15 -0
synth_ai/sdk/graphs/completions.py +776 -0
synth_ai/sdk/graphs/verifier_schemas.py +222 -0
synth_ai/sdk/inference/__init__.py +6 -0
synth_ai/sdk/inference/client.py +128 -0
synth_ai/sdk/jobs/__init__.py +16 -0
synth_ai/sdk/jobs/client.py +371 -0
synth_ai/sdk/learning/__init__.py +99 -0
synth_ai/sdk/learning/client.py +240 -0
synth_ai/sdk/learning/context_learning_client.py +531 -0
synth_ai/sdk/learning/context_learning_types.py +294 -0
synth_ai/sdk/learning/ft_client.py +7 -0
synth_ai/sdk/learning/health.py +49 -0
synth_ai/sdk/learning/jobs.py +202 -0
synth_ai/sdk/learning/prompt_extraction.py +334 -0
synth_ai/sdk/learning/prompt_learning_client.py +455 -0
synth_ai/sdk/learning/prompt_learning_types.py +186 -0
synth_ai/sdk/learning/rl/__init__.py +35 -0
synth_ai/sdk/learning/rl/client.py +268 -0
synth_ai/sdk/learning/rl/contracts.py +23 -0
synth_ai/sdk/learning/rl/env_keys.py +166 -0
synth_ai/sdk/learning/rl/secrets.py +13 -0
synth_ai/sdk/learning/sft/client.py +95 -0
synth_ai/sdk/learning/sft/config.py +270 -0
synth_ai/sdk/learning/sft/data.py +698 -0
synth_ai/sdk/learning/validators.py +52 -0
synth_ai/sdk/localapi/__init__.py +40 -0
synth_ai/sdk/localapi/apps/__init__.py +28 -0
synth_ai/sdk/localapi/client.py +10 -0
synth_ai/sdk/localapi/contracts.py +10 -0
synth_ai/sdk/localapi/helpers.py +519 -0
synth_ai/sdk/localapi/rollouts.py +93 -0
synth_ai/sdk/localapi/server.py +29 -0
synth_ai/sdk/localapi/template.py +49 -0
synth_ai/sdk/streaming/__init__.py +35 -0
synth_ai/sdk/streaming/config.py +94 -0
synth_ai/sdk/streaming/handlers.py +1997 -0
synth_ai/sdk/streaming/streamer.py +708 -0
synth_ai/sdk/streaming/types.py +112 -0
synth_ai/sdk/task/__init__.py +164 -0
synth_ai/sdk/task/apps/__init__.py +169 -0
synth_ai/sdk/task/client.py +175 -0
synth_ai/sdk/task/config.py +256 -0
synth_ai/sdk/task/contracts.py +340 -0
synth_ai/sdk/task/datasets.py +108 -0
synth_ai/sdk/task/in_process.py +1200 -0
synth_ai/sdk/task/in_process_runner.py +314 -0
synth_ai/sdk/task/inference_api.py +299 -0
synth_ai/sdk/task/proxy.py +287 -0
synth_ai/sdk/task/rubrics/__init__.py +54 -0
synth_ai/sdk/task/rubrics/loaders.py +156 -0
synth_ai/sdk/task/rubrics/strict.py +148 -0
synth_ai/sdk/task/rubrics.py +219 -0
synth_ai/sdk/task/server.py +640 -0
synth_ai/sdk/task/trace_correlation_helpers.py +557 -0
synth_ai/sdk/task/tracing_utils.py +95 -0
synth_ai/sdk/task/validators.py +441 -0
synth_ai/sdk/training/__init__.py +93 -0
synth_ai/sdk/tunnels/__init__.py +118 -0
synth_ai/sdk/tunnels/cleanup.py +83 -0
synth_ai/sdk/tunnels/ports.py +120 -0
synth_ai/sdk/tunnels/tunneled_api.py +363 -0
synth_ai/utils/__init__.py +213 -0
synth_ai-0.4.4.dist-info/METADATA +262 -0
synth_ai-0.4.4.dist-info/RECORD +369 -0
synth_ai-0.4.4.dist-info/top_level.txt +1 -0
examples/__init__.py +0 -16
examples/analyze_semantic_words.sh +0 -17
examples/crafter_debug_render.py +0 -186
examples/dev/qwen3_32b_qlora_4xh100.toml +0 -40
examples/multi_step/configs/README_verilog_rl.md +0 -77
examples/multi_step/configs/VERILOG_REWARDS.md +0 -90
examples/multi_step/configs/VERILOG_RL_CHECKLIST.md +0 -183
examples/multi_step/configs/crafter_eval_synth_qwen4b.toml +0 -35
examples/multi_step/configs/crafter_eval_text_only_groq_qwen32b.toml +0 -36
examples/multi_step/configs/crafter_rl_outcome.toml +0 -74
examples/multi_step/configs/crafter_rl_stepwise_hosted_judge.toml +0 -187
examples/multi_step/configs/crafter_rl_stepwise_shaped.toml +0 -83
examples/multi_step/configs/crafter_rl_stepwise_simple.toml +0 -78
examples/multi_step/configs/crafter_synth_backend.md +0 -40
examples/multi_step/configs/verilog_eval_groq_qwen32b.toml +0 -31
examples/multi_step/configs/verilog_eval_synth_qwen8b.toml +0 -33
examples/multi_step/configs/verilog_rl_lora.toml +0 -190
examples/multi_step/crafter_rl_lora.md +0 -70
examples/multi_step/judges/crafter_backend_judge.py +0 -220
examples/multi_step/judges/verilog_backend_judge.py +0 -234
examples/multi_step/readme.md +0 -48
examples/multi_step/sse_metrics_streaming_notes.md +0 -357
examples/multi_step/task_app_config_notes.md +0 -494
examples/multi_step/verilog_rl_lora.md +0 -218
examples/qwen_coder/README.md +0 -102
examples/qwen_coder/_shared.py +0 -113
examples/qwen_coder/configs/coder_lora_30b.toml +0 -61
examples/qwen_coder/configs/coder_lora_4b.toml +0 -57
examples/qwen_coder/configs/coder_lora_small.toml +0 -58
examples/qwen_coder/generate_dataset.py +0 -98
examples/qwen_coder/infer_ft_smoke.py +0 -65
examples/qwen_coder/infer_prod_proxy.py +0 -73
examples/qwen_coder/infer_via_synth.py +0 -87
examples/qwen_coder/scripts/infer_coder.sh +0 -19
examples/qwen_coder/scripts/train_coder_30b.sh +0 -22
examples/qwen_coder/sft_full_17b.py +0 -103
examples/qwen_coder/sft_lora_30b.py +0 -110
examples/qwen_coder/subset_jsonl.py +0 -39
examples/qwen_coder/todos.md +0 -38
examples/qwen_coder/validate_jsonl.py +0 -60
examples/rl/README.md +0 -169
examples/rl/download_dataset.py +0 -80
examples/run_crafter_demo.sh +0 -10
examples/sft/README.md +0 -139
examples/sft/configs/crafter_fft_qwen0p6b.toml +0 -44
examples/sft/configs/crafter_lora_qwen0p6b.toml +0 -45
examples/sft/evaluate.py +0 -119
examples/sft/export_dataset.py +0 -117
examples/sft/generate_traces.py +0 -164
examples/swe/__init__.py +0 -12
examples/swe/task_app/README.md +0 -105
examples/swe/task_app/__init__.py +0 -2
examples/swe/task_app/grpo_swe_mini.py +0 -601
examples/swe/task_app/grpo_swe_mini_task_app.py +0 -136
examples/swe/task_app/hosted/README.md +0 -173
examples/swe/task_app/hosted/__init__.py +0 -5
examples/swe/task_app/hosted/branching.py +0 -143
examples/swe/task_app/hosted/environment_routes.py +0 -1289
examples/swe/task_app/hosted/envs/__init__.py +0 -1
examples/swe/task_app/hosted/envs/crafter/__init__.py +0 -6
examples/swe/task_app/hosted/envs/crafter/app.py +0 -1
examples/swe/task_app/hosted/envs/crafter/environment.py +0 -522
examples/swe/task_app/hosted/envs/crafter/policy.py +0 -478
examples/swe/task_app/hosted/envs/crafter/react_agent.py +0 -108
examples/swe/task_app/hosted/envs/crafter/shared.py +0 -305
examples/swe/task_app/hosted/envs/crafter/tools.py +0 -47
examples/swe/task_app/hosted/envs/mini_swe/__init__.py +0 -8
examples/swe/task_app/hosted/envs/mini_swe/environment.py +0 -1164
examples/swe/task_app/hosted/envs/mini_swe/policy.py +0 -355
examples/swe/task_app/hosted/envs/mini_swe/shared.py +0 -83
examples/swe/task_app/hosted/envs/mini_swe/tools.py +0 -96
examples/swe/task_app/hosted/hosted_app.py +0 -204
examples/swe/task_app/hosted/inference/__init__.py +0 -5
examples/swe/task_app/hosted/inference/openai_client.py +0 -618
examples/swe/task_app/hosted/main.py +0 -100
examples/swe/task_app/hosted/policy_routes.py +0 -1079
examples/swe/task_app/hosted/registry.py +0 -195
examples/swe/task_app/hosted/rollout.py +0 -1911
examples/swe/task_app/hosted/storage/__init__.py +0 -5
examples/swe/task_app/hosted/storage/volume.py +0 -211
examples/swe/task_app/hosted/test_agents.py +0 -161
examples/swe/task_app/hosted/test_service.py +0 -136
examples/swe/task_app/hosted/utils.py +0 -62
examples/task_apps/IMAGE_ONLY_EVAL_QUICKSTART.md +0 -258
examples/task_apps/TESTING.md +0 -275
examples/task_apps/crafter/CREATE_SFT_DATASET.md +0 -273
examples/task_apps/crafter/EVAL_IMAGE_ONLY_RESULTS.md +0 -152
examples/task_apps/crafter/FILTER_COMMAND_STATUS.md +0 -174
examples/task_apps/crafter/FILTER_COMMAND_SUCCESS.md +0 -268
examples/task_apps/crafter/QUERY_EXAMPLES.md +0 -203
examples/task_apps/crafter/README_IMAGE_ONLY_EVAL.md +0 -316
examples/task_apps/crafter/__init__.py +0 -0
examples/task_apps/crafter/eval_image_only_gpt4o.toml +0 -28
examples/task_apps/crafter/eval_text_only_groq_llama.toml +0 -36
examples/task_apps/crafter/filter_sft_dataset.toml +0 -16
examples/task_apps/crafter/task_app/README.md +0 -42
examples/task_apps/crafter/task_app/__init__.py +0 -5
examples/task_apps/crafter/task_app/grpo_crafter.py +0 -973
examples/task_apps/crafter/task_app/grpo_crafter_task_app.py +0 -146
examples/task_apps/crafter/task_app/synth_envs_hosted/README.md +0 -173
examples/task_apps/crafter/task_app/synth_envs_hosted/__init__.py +0 -5
examples/task_apps/crafter/task_app/synth_envs_hosted/branching.py +0 -143
examples/task_apps/crafter/task_app/synth_envs_hosted/environment_routes.py +0 -1226
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/__init__.py +0 -1
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/__init__.py +0 -6
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/app.py +0 -1
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/environment.py +0 -532
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/policy.py +0 -547
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/react_agent.py +0 -123
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/shared.py +0 -305
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/tools.py +0 -47
examples/task_apps/crafter/task_app/synth_envs_hosted/hosted_app.py +0 -204
examples/task_apps/crafter/task_app/synth_envs_hosted/inference/__init__.py +0 -5
examples/task_apps/crafter/task_app/synth_envs_hosted/inference/openai_client.py +0 -704
examples/task_apps/crafter/task_app/synth_envs_hosted/main.py +0 -100
examples/task_apps/crafter/task_app/synth_envs_hosted/policy_routes.py +0 -1152
examples/task_apps/crafter/task_app/synth_envs_hosted/registry.py +0 -195
examples/task_apps/crafter/task_app/synth_envs_hosted/rollout.py +0 -2160
examples/task_apps/crafter/task_app/synth_envs_hosted/storage/__init__.py +0 -5
examples/task_apps/crafter/task_app/synth_envs_hosted/storage/volume.py +0 -211
examples/task_apps/crafter/task_app/synth_envs_hosted/test_agents.py +0 -161
examples/task_apps/crafter/task_app/synth_envs_hosted/test_service.py +0 -136
examples/task_apps/crafter/task_app/synth_envs_hosted/utils.py +0 -218
examples/task_apps/dev/pokemon_emerald/__init__.py +0 -2
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/README.md +0 -811
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/__init__.py +0 -120
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/action.py +0 -160
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/memory.py +0 -155
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/perception.py +0 -69
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/planning.py +0 -96
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/simple.py +0 -1502
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/agent/system_prompt.py +0 -4
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/grab_map.py +0 -68
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/manual.py +0 -216
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/__init__.py +0 -35
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/emerald_utils.py +0 -631
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/emulator.py +0 -1544
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/enums.py +0 -1428
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/memory_reader.py +0 -4848
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/types.py +0 -41
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pokemon_env/utils.py +0 -298
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/pyproject.toml +0 -95
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/run.py +0 -204
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/server/__init__.py +0 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/server/app.py +0 -2152
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/server/client.py +0 -429
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/server/frame_server.py +0 -155
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/README.md +0 -78
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/__init__.py +0 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/run_tests.py +0 -122
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_agent_direct.py +0 -76
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_agent_prompts.py +0 -413
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_battle_state_formatting.py +0 -204
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_dialogue_detection.py +0 -133
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_dialogue_detection_comprehensive.py +0 -229
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_direct_agent_emulator.py +0 -300
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_fps_adjustment_pytest.py +0 -205
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_house_to_outside_direct.py +0 -200
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_house_to_outside_transition.py +0 -284
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_map_ground_truth_comparison.py +0 -468
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_memory_map.py +0 -575
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_server_map_validation.py +0 -311
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/tests/test_torchic_state.py +0 -259
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/__init__.py +0 -0
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/anticheat.py +0 -372
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/checkpoint.py +0 -296
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/error_handler.py +0 -275
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/get_local_ip.py +0 -22
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/helpers.py +0 -44
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/llm_logger.py +0 -514
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_formatter.py +0 -415
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_stitcher.py +0 -1763
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_stitcher_singleton.py +0 -33
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_trimmer.py +0 -106
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/map_visualizer.py +0 -334
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/ocr_dialogue.py +0 -1020
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/recording.py +0 -188
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/state_formatter.py +0 -1481
examples/task_apps/dev/pokemon_emerald/external/pokeagent-speedrun/utils/vlm.py +0 -862
examples/task_apps/dev/pokemon_emerald/modal_app.py +0 -114
examples/task_apps/dev/pokemon_emerald/task_app/README.md +0 -81
examples/task_apps/dev/pokemon_emerald/task_app/__init__.py +0 -6
examples/task_apps/dev/pokemon_emerald/task_app/pokemon_emerald.py +0 -685
examples/task_apps/enron/__init__.py +0 -1
examples/task_apps/enron/eval_groq_qwen32.toml +0 -16
examples/task_apps/enron/filter_sft.toml +0 -5
examples/task_apps/enron/task_app/README.md +0 -14
examples/task_apps/enron/task_app/__init__.py +0 -1
examples/task_apps/enron/task_app/grpo_enron.py +0 -906
examples/task_apps/enron/task_app/grpo_enron_task_app.py +0 -146
examples/task_apps/enron/tests/__init__.py +0 -4
examples/task_apps/enron/tests/conftest.py +0 -115
examples/task_apps/enron/tests/integration/__init__.py +0 -4
examples/task_apps/enron/tests/integration/test_enron_eval.py +0 -179
examples/task_apps/enron/tests/integration/test_enron_rollout.py +0 -135
examples/task_apps/enron/tests/unit/__init__.py +0 -4
examples/task_apps/enron/tests/unit/test_enron_environment.py +0 -126
examples/task_apps/math/README.md +0 -22
examples/task_apps/math/__init__.py +0 -0
examples/task_apps/math/math_single_step.py +0 -1000
examples/task_apps/math/math_task_app.py +0 -115
examples/task_apps/pokemon_battle/__init__.py +0 -2
examples/task_apps/pokemon_battle/modal_app.py +0 -104
examples/task_apps/pokemon_battle/task_app/README.md +0 -68
examples/task_apps/pokemon_battle/task_app/__init__.py +0 -6
examples/task_apps/pokemon_battle/task_app/pokemon_showdown.py +0 -932
examples/task_apps/pokemon_red/EVAL_IMAGE_ONLY_COMPLETE.md +0 -283
examples/task_apps/pokemon_red/EVAL_IMAGE_ONLY_STATUS.md +0 -155
examples/task_apps/pokemon_red/README.md +0 -357
examples/task_apps/pokemon_red/README_IMAGE_ONLY_EVAL.md +0 -415
examples/task_apps/pokemon_red/__init__.py +0 -3
examples/task_apps/pokemon_red/eval_image_only_gpt4o.toml +0 -29
examples/task_apps/pokemon_red/eval_pokemon_red_policy.py +0 -225
examples/task_apps/pokemon_red/pallet_town_rl_config.toml +0 -75
examples/task_apps/pokemon_red/task_app.py +0 -799
examples/task_apps/pokemon_red/test_pallet_town_rewards.py +0 -193
examples/task_apps/sokoban/README.md +0 -307
examples/task_apps/sokoban/__init__.py +0 -3
examples/task_apps/sokoban/eval_groq_qwen32.toml +0 -16
examples/task_apps/sokoban/eval_openai_gpt5.toml +0 -16
examples/task_apps/sokoban/filter_sft.toml +0 -5
examples/task_apps/sokoban/task_app.py +0 -1058
examples/task_apps/sokoban/tests/__init__.py +0 -4
examples/task_apps/sokoban/tests/conftest.py +0 -113
examples/task_apps/sokoban/tests/integration/__init__.py +0 -4
examples/task_apps/sokoban/tests/integration/test_sokoban_eval.py +0 -57
examples/task_apps/sokoban/tests/integration/test_sokoban_rollout.py +0 -198
examples/task_apps/sokoban/tests/unit/__init__.py +0 -4
examples/task_apps/sokoban/tests/unit/test_sokoban_environment.py +0 -114
examples/task_apps/verilog/__init__.py +0 -1
examples/task_apps/verilog/eval_groq_qwen32b.toml +0 -24
examples/task_apps/verilog/filter_sft.toml +0 -5
examples/task_apps/verilog/task_app/README.md +0 -12
examples/task_apps/verilog/task_app/__init__.py +0 -1
examples/task_apps/verilog/task_app/grpo_verilog.py +0 -1166
examples/task_apps/verilog/task_app/grpo_verilog_task_app.py +0 -145
examples/task_apps/verilog/tests/__init__.py +0 -4
examples/task_apps/verilog/tests/conftest.py +0 -115
examples/task_apps/verilog/tests/integration/__init__.py +0 -4
examples/task_apps/verilog/tests/integration/test_verilog_eval.py +0 -181
examples/task_apps/verilog/tests/integration/test_verilog_rollout.py +0 -55
examples/task_apps/verilog/tests/unit/__init__.py +0 -4
examples/task_apps/verilog/tests/unit/test_verilog_scoring.py +0 -118
examples/vlm/PROPOSAL.md +0 -53
examples/vlm/README.md +0 -68
examples/vlm/configs/crafter_vlm_gpt4o.toml +0 -44
examples/vlm/crafter_image_only_agent.py +0 -207
examples/vlm/crafter_openai_vlm_agent.py +0 -277
examples/vlm/filter_image_rows.py +0 -63
examples/vlm/run_crafter_vlm_benchmark.py +0 -316
examples/warming_up_to_rl/analyze_trace_db.py +0 -422
examples/warming_up_to_rl/configs/crafter_fft.toml +0 -48
examples/warming_up_to_rl/configs/crafter_fft_4b.toml +0 -54
examples/warming_up_to_rl/configs/eval_fft_qwen4b.toml +0 -20
examples/warming_up_to_rl/configs/eval_groq_qwen32b.toml +0 -13
examples/warming_up_to_rl/configs/eval_modal_qwen4b.toml +0 -23
examples/warming_up_to_rl/configs/eval_stepwise_complex.toml +0 -35
examples/warming_up_to_rl/configs/eval_stepwise_consistent.toml +0 -26
examples/warming_up_to_rl/configs/eval_stepwise_per_achievement.toml +0 -36
examples/warming_up_to_rl/configs/eval_stepwise_simple.toml +0 -32
examples/warming_up_to_rl/configs/rl_from_base_qwen4b.toml +0 -83
examples/warming_up_to_rl/configs/rl_from_ft.toml +0 -56
examples/warming_up_to_rl/export_trace_sft.py +0 -723
examples/warming_up_to_rl/groq_test.py +0 -97
examples/warming_up_to_rl/manage_secrets.py +0 -131
examples/warming_up_to_rl/old/event_rewards.md +0 -234
examples/warming_up_to_rl/old/notes.md +0 -73
examples/warming_up_to_rl/readme.md +0 -179
examples/warming_up_to_rl/run_eval.py +0 -736
examples/warming_up_to_rl/run_fft_and_save.py +0 -380
examples/warming_up_to_rl/run_local_rollout.py +0 -239
examples/warming_up_to_rl/run_local_rollout_modal.py +0 -248
examples/warming_up_to_rl/run_local_rollout_parallel.py +0 -405
examples/warming_up_to_rl/run_local_rollout_traced.py +0 -477
examples/warming_up_to_rl/run_rl_and_save.py +0 -124
examples/warming_up_to_rl/run_rollout_remote.py +0 -156
examples/workflows/__init__.py +0 -0
examples/workflows/math_rl/__init__.py +0 -0
examples/workflows/math_rl/configs/eval_base_qwen.toml +0 -15
examples/workflows/math_rl/configs/eval_rl_qwen.toml +0 -11
examples/workflows/math_rl/configs/rl_from_base_qwen.toml +0 -35
examples/workflows/math_rl/configs/rl_from_base_qwen17.toml +0 -74
examples/workflows/math_rl/configs/rl_from_ft_qwen.toml +0 -35
examples/workflows/math_rl/download_dataset.py +0 -80
examples/workflows/math_rl/run_eval.py +0 -436
examples/workflows/math_rl/run_rl_and_save.py +0 -111
synth_ai/api/models/supported.py +0 -377
synth_ai/api/train/__init__.py +0 -5
synth_ai/api/train/builders.py +0 -351
synth_ai/api/train/cli.py +0 -635
synth_ai/api/train/config_finder.py +0 -228
synth_ai/api/train/configs/__init__.py +0 -44
synth_ai/api/train/configs/rl.py +0 -134
synth_ai/api/train/configs/sft.py +0 -95
synth_ai/api/train/configs/shared.py +0 -24
synth_ai/api/train/env_resolver.py +0 -349
synth_ai/api/train/pollers.py +0 -75
synth_ai/api/train/supported_algos.py +0 -147
synth_ai/api/train/task_app.py +0 -195
synth_ai/api/train/utils.py +0 -225
synth_ai/cli/_modal_wrapper.py +0 -29
synth_ai/cli/_storage.py +0 -20
synth_ai/cli/_typer_patch.py +0 -49
synth_ai/cli/_validate_task_app.py +0 -11
synth_ai/cli/balance.py +0 -216
synth_ai/cli/calc.py +0 -84
synth_ai/cli/demo.py +0 -165
synth_ai/cli/legacy_root_backup.py +0 -468
synth_ai/cli/man.py +0 -106
synth_ai/cli/recent.py +0 -132
synth_ai/cli/rl_demo.py +0 -254
synth_ai/cli/status.py +0 -134
synth_ai/cli/task_apps.py +0 -4523
synth_ai/cli/traces.py +0 -164
synth_ai/cli/tui.py +0 -57
synth_ai/cli/watch.py +0 -506
synth_ai/compound/cais.py +0 -0
synth_ai/config/base_url.py +0 -107
synth_ai/core/experiment.py +0 -13
synth_ai/core/system.py +0 -15
synth_ai/demo_registry.py +0 -295
synth_ai/demos/core/__init__.py +0 -1
synth_ai/demos/core/cli.py +0 -1718
synth_ai/demos/demo_task_apps/core.py +0 -440
synth_ai/demos/demo_task_apps/crafter/grpo_crafter_task_app.py +0 -184
synth_ai/demos/demo_task_apps/math/config.toml +0 -74
synth_ai/demos/demo_task_apps/math/deploy_task_app.sh +0 -22
synth_ai/demos/demo_task_apps/math/modal_task_app.py +0 -739
synth_ai/demos/demo_task_apps/math/task_app_entry.py +0 -37
synth_ai/environments/__init__.py +0 -31
synth_ai/environments/environment/__init__.py +0 -1
synth_ai/environments/environment/artifacts/__init__.py +0 -1
synth_ai/environments/environment/artifacts/base.py +0 -52
synth_ai/environments/environment/core.py +0 -67
synth_ai/environments/environment/db/__init__.py +0 -1
synth_ai/environments/environment/db/sqlite.py +0 -45
synth_ai/environments/environment/registry.py +0 -233
synth_ai/environments/environment/resources/sqlite.py +0 -45
synth_ai/environments/environment/results.py +0 -1
synth_ai/environments/environment/rewards/__init__.py +0 -1
synth_ai/environments/environment/rewards/core.py +0 -29
synth_ai/environments/environment/shared_engine.py +0 -26
synth_ai/environments/environment/tools/__init__.py +0 -200
synth_ai/environments/examples/__init__.py +0 -1
synth_ai/environments/examples/bandit/__init__.py +0 -33
synth_ai/environments/examples/bandit/engine.py +0 -302
synth_ai/environments/examples/bandit/environment.py +0 -194
synth_ai/environments/examples/bandit/taskset.py +0 -200
synth_ai/environments/examples/crafter_classic/__init__.py +0 -8
synth_ai/environments/examples/crafter_classic/agent_demos/analyze_semantic_words_markdown.py +0 -250
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_comprehensive_evaluation.py +0 -59
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_evaluation_browser.py +0 -152
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_evaluation_config.toml +0 -24
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_evaluation_framework.py +0 -1194
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/crafter_synth_config.toml +0 -56
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/filter_config_modal.toml +0 -32
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/filter_traces_sft_turso.py +0 -738
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/kick_off_ft_modal.py +0 -384
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/old/analyze_action_results.py +0 -53
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/old/analyze_agent_actions.py +0 -178
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/old/analyze_latest_run.py +0 -222
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/old/analyze_lm_traces.py +0 -183
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/old/analyze_no_rewards.py +0 -210
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/old/analyze_trace_issue.py +0 -206
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/old/check_db_schema.py +0 -49
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/old/check_latest_results.py +0 -64
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/old/debug_agent_responses.py +0 -88
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/old/quick_trace_check.py +0 -77
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/compare_experiments.py +0 -324
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/filter_traces_sft_turso.py +0 -580
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/kick_off_ft_oai.py +0 -362
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/multi_model_config.toml +0 -49
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/old/analyze_enhanced_hooks.py +0 -332
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/old/analyze_hook_events.py +0 -97
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/old/analyze_hook_results.py +0 -217
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/old/check_hook_storage.py +0 -87
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/old/check_seeds.py +0 -88
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/old/compare_seed_performance.py +0 -195
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/old/custom_eval_pipelines.py +0 -400
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/old/plot_hook_frequency.py +0 -195
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/old/seed_analysis_summary.py +0 -56
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/run_rollouts_for_models_and_compare_v3.py +0 -858
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_quick_evaluation.py +0 -52
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_react_agent.py +0 -874
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_trace_evaluation.py +0 -1412
synth_ai/environments/examples/crafter_classic/agent_demos/example_v3_usage.py +0 -216
synth_ai/environments/examples/crafter_classic/agent_demos/old/compare_traces.py +0 -296
synth_ai/environments/examples/crafter_classic/agent_demos/old/crafter_comprehensive_evaluation.py +0 -58
synth_ai/environments/examples/crafter_classic/agent_demos/old/crafter_env_serialization.py +0 -464
synth_ai/environments/examples/crafter_classic/agent_demos/old/crafter_evaluation_browser.py +0 -152
synth_ai/environments/examples/crafter_classic/agent_demos/old/crafter_quick_evaluation.py +0 -51
synth_ai/environments/examples/crafter_classic/agent_demos/old/crafter_trace_evaluation.py +0 -1412
synth_ai/environments/examples/crafter_classic/agent_demos/old/debug_player_loss.py +0 -112
synth_ai/environments/examples/crafter_classic/agent_demos/old/diagnose_service.py +0 -203
synth_ai/environments/examples/crafter_classic/agent_demos/old/diagnose_slowness.py +0 -305
synth_ai/environments/examples/crafter_classic/agent_demos/old/eval_by_difficulty.py +0 -126
synth_ai/environments/examples/crafter_classic/agent_demos/old/eval_example.py +0 -94
synth_ai/environments/examples/crafter_classic/agent_demos/old/explore_saved_states.py +0 -142
synth_ai/environments/examples/crafter_classic/agent_demos/old/filter_traces_sft.py +0 -26
synth_ai/environments/examples/crafter_classic/agent_demos/old/filter_traces_sft_OLD.py +0 -984
synth_ai/environments/examples/crafter_classic/agent_demos/old/generate_ft_data_gemini.py +0 -724
synth_ai/environments/examples/crafter_classic/agent_demos/old/generate_ft_data_modal.py +0 -386
synth_ai/environments/examples/crafter_classic/agent_demos/old/generate_ft_metadata.py +0 -205
synth_ai/environments/examples/crafter_classic/agent_demos/old/kick_off_ft_gemini.py +0 -150
synth_ai/environments/examples/crafter_classic/agent_demos/old/kick_off_ft_modal.py +0 -283
synth_ai/environments/examples/crafter_classic/agent_demos/old/prepare_vertex_ft.py +0 -280
synth_ai/environments/examples/crafter_classic/agent_demos/old/profile_env_slowness.py +0 -456
synth_ai/environments/examples/crafter_classic/agent_demos/old/replicate_issue.py +0 -166
synth_ai/environments/examples/crafter_classic/agent_demos/old/run_and_eval.py +0 -102
synth_ai/environments/examples/crafter_classic/agent_demos/old/run_comparison.py +0 -128
synth_ai/environments/examples/crafter_classic/agent_demos/old/run_qwen_rollouts.py +0 -655
synth_ai/environments/examples/crafter_classic/agent_demos/old/trace_eval_OLD.py +0 -202
synth_ai/environments/examples/crafter_classic/agent_demos/old/validate_openai_format.py +0 -166
synth_ai/environments/examples/crafter_classic/config_logging.py +0 -111
synth_ai/environments/examples/crafter_classic/debug_translation.py +0 -0
synth_ai/environments/examples/crafter_classic/engine.py +0 -579
synth_ai/environments/examples/crafter_classic/engine_deterministic_patch.py +0 -64
synth_ai/environments/examples/crafter_classic/engine_helpers/action_map.py +0 -6
synth_ai/environments/examples/crafter_classic/engine_helpers/serialization.py +0 -75
synth_ai/environments/examples/crafter_classic/engine_serialization_patch_v3.py +0 -267
synth_ai/environments/examples/crafter_classic/environment.py +0 -495
synth_ai/environments/examples/crafter_classic/taskset.py +0 -233
synth_ai/environments/examples/crafter_classic/trace_hooks_v3.py +0 -228
synth_ai/environments/examples/crafter_classic/world_config_patch_simple.py +0 -299
synth_ai/environments/examples/crafter_custom/__init__.py +0 -4
synth_ai/environments/examples/crafter_custom/agent_demos/__init__.py +0 -1
synth_ai/environments/examples/crafter_custom/agent_demos/trace_eval.py +0 -202
synth_ai/environments/examples/crafter_custom/crafter/__init__.py +0 -7
synth_ai/environments/examples/crafter_custom/crafter/config.py +0 -182
synth_ai/environments/examples/crafter_custom/crafter/constants.py +0 -8
synth_ai/environments/examples/crafter_custom/crafter/engine.py +0 -269
synth_ai/environments/examples/crafter_custom/crafter/env.py +0 -262
synth_ai/environments/examples/crafter_custom/crafter/objects.py +0 -417
synth_ai/environments/examples/crafter_custom/crafter/recorder.py +0 -187
synth_ai/environments/examples/crafter_custom/crafter/worldgen.py +0 -118
synth_ai/environments/examples/crafter_custom/dataset_builder.py +0 -373
synth_ai/environments/examples/crafter_custom/environment.py +0 -312
synth_ai/environments/examples/crafter_custom/old/analyze_diamond_issue.py +0 -159
synth_ai/environments/examples/crafter_custom/old/analyze_diamond_spawning.py +0 -158
synth_ai/environments/examples/crafter_custom/old/compare_worlds.py +0 -71
synth_ai/environments/examples/crafter_custom/old/dataset_stats.py +0 -105
synth_ai/environments/examples/crafter_custom/old/diamond_spawning_summary.py +0 -119
synth_ai/environments/examples/crafter_custom/old/example_dataset_usage.py +0 -52
synth_ai/environments/examples/crafter_custom/run_dataset.py +0 -305
synth_ai/environments/examples/enron/art_helpers/email_search_tools.py +0 -156
synth_ai/environments/examples/enron/art_helpers/local_email_db.py +0 -281
synth_ai/environments/examples/enron/art_helpers/types_enron.py +0 -25
synth_ai/environments/examples/enron/engine.py +0 -300
synth_ai/environments/examples/enron/environment.py +0 -234
synth_ai/environments/examples/enron/taskset.py +0 -112
synth_ai/environments/examples/enron/units/keyword_stats.py +0 -112
synth_ai/environments/examples/minigrid/__init__.py +0 -48
synth_ai/environments/examples/minigrid/agent_demos/minigrid_evaluation_framework.py +0 -1188
synth_ai/environments/examples/minigrid/agent_demos/minigrid_quick_evaluation.py +0 -48
synth_ai/environments/examples/minigrid/agent_demos/minigrid_react_agent.py +0 -562
synth_ai/environments/examples/minigrid/agent_demos/minigrid_trace_evaluation.py +0 -221
synth_ai/environments/examples/minigrid/engine.py +0 -589
synth_ai/environments/examples/minigrid/environment.py +0 -274
synth_ai/environments/examples/minigrid/environment_mapping.py +0 -242
synth_ai/environments/examples/minigrid/puzzle_loader.py +0 -417
synth_ai/environments/examples/minigrid/taskset.py +0 -583
synth_ai/environments/examples/nethack/__init__.py +0 -7
synth_ai/environments/examples/nethack/achievements.py +0 -337
synth_ai/environments/examples/nethack/agent_demos/nethack_evaluation_framework.py +0 -981
synth_ai/environments/examples/nethack/agent_demos/nethack_quick_evaluation.py +0 -74
synth_ai/environments/examples/nethack/agent_demos/nethack_react_agent.py +0 -831
synth_ai/environments/examples/nethack/engine.py +0 -739
synth_ai/environments/examples/nethack/environment.py +0 -256
synth_ai/environments/examples/nethack/helpers/__init__.py +0 -41
synth_ai/environments/examples/nethack/helpers/action_mapping.py +0 -301
synth_ai/environments/examples/nethack/helpers/nle_wrapper.py +0 -402
synth_ai/environments/examples/nethack/helpers/observation_utils.py +0 -433
synth_ai/environments/examples/nethack/helpers/recording_wrapper.py +0 -200
synth_ai/environments/examples/nethack/helpers/trajectory_recorder.py +0 -269
synth_ai/environments/examples/nethack/helpers/visualization/replay_viewer.py +0 -308
synth_ai/environments/examples/nethack/helpers/visualization/visualizer.py +0 -431
synth_ai/environments/examples/nethack/taskset.py +0 -323
synth_ai/environments/examples/red/__init__.py +0 -7
synth_ai/environments/examples/red/agent_demos/__init__.py +0 -1
synth_ai/environments/examples/red/config_logging.py +0 -110
synth_ai/environments/examples/red/engine.py +0 -721
synth_ai/environments/examples/red/engine_helpers/__init__.py +0 -1
synth_ai/environments/examples/red/engine_helpers/memory_map.py +0 -35
synth_ai/environments/examples/red/engine_helpers/reward_components.py +0 -276
synth_ai/environments/examples/red/engine_helpers/reward_library/__init__.py +0 -142
synth_ai/environments/examples/red/engine_helpers/reward_library/adaptive_rewards.py +0 -57
synth_ai/environments/examples/red/engine_helpers/reward_library/battle_rewards.py +0 -284
synth_ai/environments/examples/red/engine_helpers/reward_library/composite_rewards.py +0 -150
synth_ai/environments/examples/red/engine_helpers/reward_library/economy_rewards.py +0 -138
synth_ai/environments/examples/red/engine_helpers/reward_library/efficiency_rewards.py +0 -57
synth_ai/environments/examples/red/engine_helpers/reward_library/exploration_rewards.py +0 -331
synth_ai/environments/examples/red/engine_helpers/reward_library/novelty_rewards.py +0 -121
synth_ai/environments/examples/red/engine_helpers/reward_library/pallet_town_progression.py +0 -477
synth_ai/environments/examples/red/engine_helpers/reward_library/pallet_town_rewards.py +0 -559
synth_ai/environments/examples/red/engine_helpers/reward_library/pokemon_rewards.py +0 -313
synth_ai/environments/examples/red/engine_helpers/reward_library/social_rewards.py +0 -148
synth_ai/environments/examples/red/engine_helpers/reward_library/story_rewards.py +0 -247
synth_ai/environments/examples/red/engine_helpers/screen_analysis.py +0 -368
synth_ai/environments/examples/red/engine_helpers/state_extraction.py +0 -172
synth_ai/environments/examples/red/environment.py +0 -298
synth_ai/environments/examples/red/taskset.py +0 -79
synth_ai/environments/examples/red/units/__init__.py +0 -1
synth_ai/environments/examples/sokoban/__init__.py +0 -1
synth_ai/environments/examples/sokoban/agent_demos/sokoban_full_eval.py +0 -899
synth_ai/environments/examples/sokoban/engine.py +0 -678
synth_ai/environments/examples/sokoban/engine_helpers/__init__.py +0 -1
synth_ai/environments/examples/sokoban/engine_helpers/room_utils.py +0 -657
synth_ai/environments/examples/sokoban/engine_helpers/vendored/__init__.py +0 -18
synth_ai/environments/examples/sokoban/engine_helpers/vendored/envs/__init__.py +0 -3
synth_ai/environments/examples/sokoban/engine_helpers/vendored/envs/boxoban_env.py +0 -131
synth_ai/environments/examples/sokoban/engine_helpers/vendored/envs/render_utils.py +0 -370
synth_ai/environments/examples/sokoban/engine_helpers/vendored/envs/room_utils.py +0 -332
synth_ai/environments/examples/sokoban/engine_helpers/vendored/envs/sokoban_env.py +0 -306
synth_ai/environments/examples/sokoban/engine_helpers/vendored/envs/sokoban_env_fixed_targets.py +0 -67
synth_ai/environments/examples/sokoban/engine_helpers/vendored/envs/sokoban_env_pull.py +0 -115
synth_ai/environments/examples/sokoban/engine_helpers/vendored/envs/sokoban_env_two_player.py +0 -123
synth_ai/environments/examples/sokoban/engine_helpers/vendored/envs/sokoban_env_variations.py +0 -394
synth_ai/environments/examples/sokoban/environment.py +0 -229
synth_ai/environments/examples/sokoban/generate_verified_puzzles.py +0 -440
synth_ai/environments/examples/sokoban/puzzle_loader.py +0 -312
synth_ai/environments/examples/sokoban/taskset.py +0 -544
synth_ai/environments/examples/tictactoe/__init__.py +0 -1
synth_ai/environments/examples/tictactoe/engine.py +0 -368
synth_ai/environments/examples/tictactoe/environment.py +0 -240
synth_ai/environments/examples/tictactoe/taskset.py +0 -215
synth_ai/environments/examples/verilog/__init__.py +0 -10
synth_ai/environments/examples/verilog/engine.py +0 -421
synth_ai/environments/examples/verilog/environment.py +0 -350
synth_ai/environments/examples/verilog/taskset.py +0 -420
synth_ai/environments/examples/wordle/__init__.py +0 -29
synth_ai/environments/examples/wordle/engine.py +0 -398
synth_ai/environments/examples/wordle/environment.py +0 -159
synth_ai/environments/examples/wordle/helpers/generate_instances_wordfreq.py +0 -75
synth_ai/environments/examples/wordle/taskset.py +0 -230
synth_ai/environments/reproducibility/core.py +0 -42
synth_ai/environments/reproducibility/helpers.py +0 -0
synth_ai/environments/reproducibility/tree.py +0 -363
synth_ai/environments/service/app.py +0 -97
synth_ai/environments/service/core_routes.py +0 -1021
synth_ai/environments/service/external_registry.py +0 -56
synth_ai/environments/service/registry.py +0 -9
synth_ai/environments/stateful/__init__.py +0 -1
synth_ai/environments/stateful/core.py +0 -163
synth_ai/environments/stateful/engine.py +0 -21
synth_ai/environments/stateful/state.py +0 -7
synth_ai/environments/tasks/api.py +0 -19
synth_ai/environments/tasks/core.py +0 -81
synth_ai/environments/tasks/filters.py +0 -40
synth_ai/environments/tasks/utils.py +0 -90
synth_ai/environments/v0_observability/history.py +0 -3
synth_ai/environments/v0_observability/log.py +0 -2
synth_ai/evals/__init__.py +0 -15
synth_ai/evals/base.py +0 -13
synth_ai/evals/client.py +0 -82
synth_ai/evals/types.py +0 -42
synth_ai/handshake.py +0 -109
synth_ai/http.py +0 -26
synth_ai/http_client.py +0 -136
synth_ai/inference/__init__.py +0 -5
synth_ai/inference/client.py +0 -34
synth_ai/jobs/client.py +0 -295
synth_ai/judge_schemas.py +0 -127
synth_ai/learning/__init__.py +0 -59
synth_ai/learning/client.py +0 -241
synth_ai/learning/ft_client.py +0 -7
synth_ai/learning/health.py +0 -49
synth_ai/learning/jobs.py +0 -201
synth_ai/learning/rl/__init__.py +0 -39
synth_ai/learning/rl/client.py +0 -267
synth_ai/learning/rl/contracts.py +0 -27
synth_ai/learning/rl/env_keys.py +0 -166
synth_ai/learning/rl/secrets.py +0 -13
synth_ai/learning/sft/client.py +0 -68
synth_ai/learning/sft/config.py +0 -270
synth_ai/learning/sft/data.py +0 -295
synth_ai/learning/validators.py +0 -49
synth_ai/lm/__init__.py +0 -25
synth_ai/task/__init__.py +0 -121
synth_ai/task/apps/__init__.py +0 -129
synth_ai/task/client.py +0 -167
synth_ai/task/config.py +0 -257
synth_ai/task/contracts.py +0 -236
synth_ai/task/datasets.py +0 -108
synth_ai/task/proxy.py +0 -251
synth_ai/task/rubrics/__init__.py +0 -56
synth_ai/task/rubrics/loaders.py +0 -152
synth_ai/task/rubrics/strict.py +0 -149
synth_ai/task/server.py +0 -432
synth_ai/task/trace_correlation_helpers.py +0 -315
synth_ai/task/tracing_utils.py +0 -84
synth_ai/task/validators.py +0 -418
synth_ai/tracing_v3/__init__.py +0 -97
synth_ai/tracing_v3/abstractions.py +0 -302
synth_ai/tracing_v3/config.py +0 -84
synth_ai/tracing_v3/db_config.py +0 -194
synth_ai/tracing_v3/decorators.py +0 -398
synth_ai/tracing_v3/llm_call_record_helpers.py +0 -391
synth_ai/tracing_v3/migration_helper.py +0 -120
synth_ai/tracing_v3/session_tracer.py +0 -540
synth_ai/tracing_v3/storage/base.py +0 -210
synth_ai/tracing_v3/storage/config.py +0 -75
synth_ai/tracing_v3/storage/factory.py +0 -39
synth_ai/tracing_v3/trace_utils.py +0 -317
synth_ai/tracing_v3/turso/daemon.py +0 -151
synth_ai/tracing_v3/turso/models.py +0 -469
synth_ai/tracing_v3/turso/native_manager.py +0 -1209
synth_ai/tracing_v3/utils.py +0 -108
synth_ai/tui/__init__.py +0 -5
synth_ai/tui/__main__.py +0 -13
synth_ai/tui/cli/__init__.py +0 -1
synth_ai/tui/cli/query_experiments.py +0 -164
synth_ai/tui/cli/query_experiments_v3.py +0 -164
synth_ai/tui/dashboard.py +0 -906
synth_ai/v0/api/__init__.py +0 -8
synth_ai/v0/api/models/__init__.py +0 -8
synth_ai/v0/api/models/supported.py +0 -8
synth_ai/v0/config/__init__.py +0 -15
synth_ai/v0/config/base_url.py +0 -12
synth_ai/v0/lm/__init__.py +0 -51
synth_ai/v0/lm/caching/__init__.py +0 -0
synth_ai/v0/lm/caching/constants.py +0 -6
synth_ai/v0/lm/caching/dbs.py +0 -0
synth_ai/v0/lm/caching/ephemeral.py +0 -100
synth_ai/v0/lm/caching/handler.py +0 -137
synth_ai/v0/lm/caching/initialize.py +0 -11
synth_ai/v0/lm/caching/persistent.py +0 -114
synth_ai/v0/lm/config.py +0 -115
synth_ai/v0/lm/constants.py +0 -32
synth_ai/v0/lm/core/__init__.py +0 -8
synth_ai/v0/lm/core/all.py +0 -73
synth_ai/v0/lm/core/exceptions.py +0 -5
synth_ai/v0/lm/core/main.py +0 -331
synth_ai/v0/lm/core/main_v3.py +0 -594
synth_ai/v0/lm/core/synth_models.py +0 -35
synth_ai/v0/lm/core/vendor_clients.py +0 -190
synth_ai/v0/lm/cost/__init__.py +0 -0
synth_ai/v0/lm/cost/monitor.py +0 -1
synth_ai/v0/lm/cost/statefulness.py +0 -1
synth_ai/v0/lm/injection.py +0 -80
synth_ai/v0/lm/overrides.py +0 -206
synth_ai/v0/lm/provider_support/__init__.py +0 -8
synth_ai/v0/lm/provider_support/anthropic.py +0 -972
synth_ai/v0/lm/provider_support/openai.py +0 -1139
synth_ai/v0/lm/provider_support/suppress_logging.py +0 -31
synth_ai/v0/lm/structured_outputs/__init__.py +0 -0
synth_ai/v0/lm/structured_outputs/handler.py +0 -440
synth_ai/v0/lm/structured_outputs/inject.py +0 -297
synth_ai/v0/lm/structured_outputs/rehabilitate.py +0 -185
synth_ai/v0/lm/tools/__init__.py +0 -3
synth_ai/v0/lm/tools/base.py +0 -172
synth_ai/v0/lm/unified_interface.py +0 -202
synth_ai/v0/lm/vendors/__init__.py +0 -0
synth_ai/v0/lm/vendors/base.py +0 -81
synth_ai/v0/lm/vendors/core/__init__.py +0 -0
synth_ai/v0/lm/vendors/core/anthropic_api.py +0 -387
synth_ai/v0/lm/vendors/core/gemini_api.py +0 -292
synth_ai/v0/lm/vendors/core/mistral_api.py +0 -322
synth_ai/v0/lm/vendors/core/openai_api.py +0 -227
synth_ai/v0/lm/vendors/core/synth_dev_api.py +0 -0
synth_ai/v0/lm/vendors/local/__init__.py +0 -0
synth_ai/v0/lm/vendors/local/ollama.py +0 -0
synth_ai/v0/lm/vendors/openai_standard.py +0 -782
synth_ai/v0/lm/vendors/openai_standard_responses.py +0 -259
synth_ai/v0/lm/vendors/retries.py +0 -22
synth_ai/v0/lm/vendors/supported/__init__.py +0 -0
synth_ai/v0/lm/vendors/supported/custom_endpoint.py +0 -415
synth_ai/v0/lm/vendors/supported/deepseek.py +0 -69
synth_ai/v0/lm/vendors/supported/grok.py +0 -75
synth_ai/v0/lm/vendors/supported/groq.py +0 -16
synth_ai/v0/lm/vendors/supported/ollama.py +0 -15
synth_ai/v0/lm/vendors/supported/openrouter.py +0 -74
synth_ai/v0/lm/vendors/supported/together.py +0 -11
synth_ai/v0/lm/vendors/synth_client.py +0 -835
synth_ai/v0/lm/warmup.py +0 -186
synth_ai/v0/tracing/__init__.py +0 -0
synth_ai/v0/tracing/abstractions.py +0 -224
synth_ai/v0/tracing/base_client.py +0 -91
synth_ai/v0/tracing/client_manager.py +0 -131
synth_ai/v0/tracing/config.py +0 -142
synth_ai/v0/tracing/context.py +0 -146
synth_ai/v0/tracing/decorators.py +0 -682
synth_ai/v0/tracing/events/__init__.py +0 -0
synth_ai/v0/tracing/events/manage.py +0 -147
synth_ai/v0/tracing/events/scope.py +0 -86
synth_ai/v0/tracing/events/store.py +0 -228
synth_ai/v0/tracing/immediate_client.py +0 -151
synth_ai/v0/tracing/local.py +0 -18
synth_ai/v0/tracing/log_client_base.py +0 -73
synth_ai/v0/tracing/retry_queue.py +0 -186
synth_ai/v0/tracing/trackers.py +0 -515
synth_ai/v0/tracing/upload.py +0 -409
synth_ai/v0/tracing/utils.py +0 -9
synth_ai/v0/tracing_v1/__init__.py +0 -16
synth_ai/v0/tracing_v1/abstractions.py +0 -224
synth_ai/v0/tracing_v1/base_client.py +0 -91
synth_ai/v0/tracing_v1/client_manager.py +0 -131
synth_ai/v0/tracing_v1/config.py +0 -142
synth_ai/v0/tracing_v1/context.py +0 -146
synth_ai/v0/tracing_v1/decorators.py +0 -703
synth_ai/v0/tracing_v1/events/__init__.py +0 -0
synth_ai/v0/tracing_v1/events/manage.py +0 -147
synth_ai/v0/tracing_v1/events/scope.py +0 -86
synth_ai/v0/tracing_v1/events/store.py +0 -228
synth_ai/v0/tracing_v1/immediate_client.py +0 -151
synth_ai/v0/tracing_v1/local.py +0 -18
synth_ai/v0/tracing_v1/log_client_base.py +0 -73
synth_ai/v0/tracing_v1/retry_queue.py +0 -186
synth_ai/v0/tracing_v1/trackers.py +0 -515
synth_ai/v0/tracing_v1/upload.py +0 -527
synth_ai/v0/tracing_v1/utils.py +0 -9
synth_ai/v0/tracing_v3/__init__.py +0 -10
synth_ai/v0/tracing_v3/abstractions.py +0 -3
synth_ai/v0/tracing_v3/decorators.py +0 -3
synth_ai/v0/tracing_v3/llm_call_record_helpers.py +0 -3
synth_ai/v0/tracing_v3/session_tracer.py +0 -3
synth_ai-0.2.14.dist-info/METADATA +0 -139
synth_ai-0.2.14.dist-info/RECORD +0 -762
synth_ai-0.2.14.dist-info/top_level.txt +0 -2
/synth_ai/{demos/demo_task_apps → cli/demo_apps}/crafter/__init__.py +0 -0
/synth_ai/{demos → cli/demo_apps}/demo_task_apps/__init__.py +0 -0
/synth_ai/{demos → cli/demo_apps}/demo_task_apps/crafter/configs/crafter_fft_4b.toml +0 -0
/synth_ai/{demos → cli/demo_apps}/demo_task_apps/crafter/configs/rl_from_base_qwen4b.toml +0 -0
/synth_ai/{demos → cli/demo_apps}/demo_task_apps/math/__init__.py +0 -0
/synth_ai/{demos → cli/demo_apps}/demo_task_apps/math/_common.py +0 -0
/synth_ai/{demos → cli/demo_apps}/demo_task_apps/math/app.py +0 -0
/synth_ai/{demos → cli/demo_apps}/demo_task_apps/math/deploy_modal.py +0 -0
{examples/task_apps → synth_ai/core/apps}/__init__.py +0 -0
/synth_ai/{tracing_v3 → core/tracing_v3}/examples/basic_usage.py +0 -0
/synth_ai/{tracing_v3 → core/tracing_v3}/hooks.py +0 -0
/synth_ai/{tracing_v3 → core/tracing_v3}/lm_call_record_abstractions.py +0 -0
/synth_ai/{tracing_v3 → core/tracing_v3}/replica_sync.py +0 -0
/synth_ai/{tracing_v3 → core/tracing_v3}/serialization.py +0 -0
/synth_ai/{tracing_v3 → core/tracing_v3}/storage/__init__.py +0 -0
/synth_ai/{tracing_v3 → core/tracing_v3}/storage/exceptions.py +0 -0
/synth_ai/{tracing_v3 → core/tracing_v3}/storage/types.py +0 -0
/synth_ai/{tracing_v3 → core/tracing_v3}/storage/utils.py +0 -0
/synth_ai/{tracing_v3 → core/tracing_v3}/turso/__init__.py +0 -0
/synth_ai/{learning → sdk/learning}/algorithms.py +0 -0
/synth_ai/{learning → sdk/learning}/config.py +0 -0
/synth_ai/{learning → sdk/learning}/constants.py +0 -0
/synth_ai/{learning → sdk/learning}/core.py +0 -0
/synth_ai/{learning → sdk/learning}/gateway.py +0 -0
/synth_ai/{learning → sdk/learning}/rl/config.py +0 -0
/synth_ai/{learning → sdk/learning}/rl_client.py +0 -0
/synth_ai/{learning → sdk/learning}/sft/__init__.py +0 -0
/synth_ai/{learning → sdk/learning}/sse.py +0 -0
/synth_ai/{task → sdk/task}/auth.py +0 -0
/synth_ai/{task → sdk/task}/errors.py +0 -0
/synth_ai/{task → sdk/task}/health.py +0 -0
/synth_ai/{task → sdk/task}/json.py +0 -0
/synth_ai/{task → sdk/task}/rubrics/models.py +0 -0
/synth_ai/{task → sdk/task}/rubrics/scoring.py +0 -0
/synth_ai/{task → sdk/task}/vendors.py +0 -0
{synth_ai-0.2.14.dist-info → synth_ai-0.4.4.dist-info}/WHEEL +0 -0
{synth_ai-0.2.14.dist-info → synth_ai-0.4.4.dist-info}/entry_points.txt +0 -0
{synth_ai-0.2.14.dist-info → synth_ai-0.4.4.dist-info}/licenses/LICENSE +0 -0

synth_ai/sdk/api/train/configs/prompt_learning.py ADDED Viewed

@@ -0,0 +1,1800 @@
+"""Prompt Learning configuration models for MIPRO and GEPA.
+This module defines the configuration schema for prompt optimization jobs using:
+- **GEPA**: Genetic Evolution of Prompt Architectures - evolutionary optimization
+- **MIPRO**: Meta-learning with bootstrap phase and TPE optimization
+Example TOML configuration (GEPA):
+    ```toml
+    [prompt_learning]
+    algorithm = "gepa"
+    task_app_url = "https://your-tunnel.trycloudflare.com"
+    task_app_api_key = "$ENVIRONMENT_API_KEY"
+    [prompt_learning.policy]
+    model = "gpt-4o-mini"
+    provider = "openai"
+    [prompt_learning.gepa]
+    env_name = "banking77"
+    proposer_effort = "LOW"
+    [prompt_learning.gepa.rollout]
+    budget = 100
+    max_concurrent = 20
+    [prompt_learning.gepa.evaluation]
+    seeds = {start = 0, end = 50}
+    [prompt_learning.gepa.population]
+    num_generations = 10
+    children_per_generation = 5
+    ```
+See Also:
+    - Training reference: /training/gepa, /training/mipro
+    - Quickstart: /quickstart/prompt-optimization-gepa
+"""
+from __future__ import annotations
+from collections.abc import Mapping, Sequence
+from enum import Enum
+from pathlib import Path
+from typing import Any, Dict, Literal, Optional
+from pydantic import Field, field_validator, model_validator
+from ..utils import load_toml
+from .shared import ExtraModel
+class SeedRange(ExtraModel):
+    """Compact seed range notation for TOML configs.
+    Allows writing `seeds = {start = 0, end = 50}` instead of `seeds = [0, 1, 2, ..., 49]`.
+    Examples:
+        seeds = {start = 0, end = 10}  # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
+        seeds = {start = 0, end = 100, step = 2}  # [0, 2, 4, ..., 98]
+    """
+    start: int
+    end: int
+    step: int = 1
+    def to_list(self) -> list[int]:
+        """Convert range to list of integers."""
+        return list(range(self.start, self.end, self.step))
+def _parse_seeds(value: Any) -> list[int] | None:
+    """Parse seed values that can be either a list or a range dict.
+    Args:
+        value: Either a list of ints or a dict with 'start', 'end', and optional 'step'.
+    Returns:
+        List of integers, or None if value is None.
+    Examples:
+        _parse_seeds([0, 1, 2, 3])  # [0, 1, 2, 3]
+        _parse_seeds({"start": 0, "end": 4})  # [0, 1, 2, 3]
+        _parse_seeds({"start": 0, "end": 10, "step": 2})  # [0, 2, 4, 6, 8]
+    """
+    if value is None:
+        return None
+    if isinstance(value, dict) and "start" in value and "end" in value:
+        seed_range = SeedRange.model_validate(value)
+        return seed_range.to_list()
+    if isinstance(value, list):
+        return list(value)
+    raise ValueError(f"Seeds must be a list or a range dict with 'start' and 'end' keys, got {type(value).__name__}")
+class InferenceMode(str, Enum):
+    synth_hosted = "synth_hosted"
+class ProviderName(str, Enum):
+    openai = "openai"
+    groq = "groq"
+    google = "google"
+class PromptLearningPolicyConfig(ExtraModel):
+    """Policy configuration for prompt learning (model, provider, etc.)."""
+    model: str
+    provider: ProviderName
+    inference_url: str | None = None  # Optional - trainer provides it in rollout requests (ignored if present)
+    inference_mode: InferenceMode = InferenceMode.synth_hosted
+    temperature: float = 0.0
+    max_completion_tokens: int = 512
+    policy_name: str | None = None
+    @field_validator("inference_url", mode="before")
+    @classmethod
+    def _strip_inference_url(cls, v: str | None) -> str | None:
+        """Strip whitespace from inference_url if provided."""
+        if v is None:
+            return None
+        if isinstance(v, str):
+            v = v.strip()
+            # Validate that URL starts with http:// or https:// if provided (non-empty)
+            if v and not v.startswith(("http://", "https://")):
+                raise ValueError("inference_url must start with http:// or https://")
+            # Reject empty strings after stripping
+            if not v:
+                raise ValueError("inference_url must start with http:// or https://")
+        return v
+class MessagePatternConfig(ExtraModel):
+    """Configuration for a single message pattern."""
+    role: str
+    pattern: str
+    order: int = 0
+class PromptPatternConfig(ExtraModel):
+    """Initial prompt pattern configuration."""
+    id: str | None = None
+    name: str | None = None
+    messages: list[MessagePatternConfig] = []
+    wildcards: dict[str, str] = Field(default_factory=dict)
+class MIPROMetaConfig(ExtraModel):
+    """DEPRECATED: Meta-model config is now controlled by proposer_effort and proposer_output_tokens.
+    This class is kept for backwards compatibility but should not be used.
+    Use proposer_effort (LOW_CONTEXT, LOW, MEDIUM, HIGH) and proposer_output_tokens (RAPID, FAST, SLOW) instead.
+    """
+    model: str | None = None
+    provider: str | None = None
+    inference_url: str | None = None
+    temperature: float | None = None
+    max_tokens: int | None = None
+class MIPROStageConfig(ExtraModel):
+    """Configuration for a single MIPRO stage inside a module.
+    Each stage MUST have its own policy configuration. The policy field is required
+    and must include 'model' and 'provider' fields.
+    """
+    stage_id: str
+    baseline_instruction: str
+    baseline_messages: list[dict[str, str]] = Field(default_factory=list)
+    max_instruction_slots: int | None = None
+    max_demo_slots: int | None = None
+    policy: PromptLearningPolicyConfig | dict[str, Any] = Field(
+        ...,
+        description="Required per-stage policy configuration. Must include 'model' and 'provider' fields."
+    )
+class MIPROModuleConfig(ExtraModel):
+    """Configuration for a single module in a MIPRO pipeline."""
+    module_id: str
+    stages: list[MIPROStageConfig] = Field(default_factory=list)
+class MIPROSeedConfig(ExtraModel):
+    """Seed pools used across bootstrap, optimization, and evaluation."""
+    bootstrap: list[int] = Field(default_factory=list)
+    online: list[int] = Field(default_factory=list)
+    test: list[int] = Field(default_factory=list)
+    reference: list[int] = Field(default_factory=list)
+    @field_validator("bootstrap", "online", "test", "reference", mode="before")
+    @classmethod
+    def _parse_seed_pools(cls, v: Any) -> list[int]:
+        """Parse seed pools that can be either a list or range dict."""
+        return _parse_seeds(v) or []
+class PromptLearningVerifierConfig(ExtraModel):
+    """Verifier configuration shared by GEPA and MIPRO.
+    This configures LLM-based evaluation of agent trajectories during prompt optimization.
+    You can use standard rubrics or registered Verifier Graphs.
+    Attributes:
+        enabled: Whether to enable verifier-based scoring.
+        reward_source: Source of the final reward for optimization.
+            - "task_app": Use only environment rewards from task app (default).
+            - "verifier": Use only verifier quality scores.
+            - "fused": Weighted combination of environment and verifier rewards.
+        backend_base: Base URL for the verifier service (e.g. "https://api.usesynth.ai").
+        backend_api_key_env: Env var containing the Synth API key (default: "SYNTH_API_KEY").
+        backend_provider: Provider for the verifier model (e.g. "openai", "groq").
+        backend_model: Model used to execute the verifier rubric or graph (e.g. "gpt-4o-mini").
+        verifier_graph_id: ID or name of a registered Verifier Graph on the backend.
+        backend_event_enabled: Whether to enable fine-grained event-level scoring.
+        backend_outcome_enabled: Whether to enable episode-level outcome scoring.
+        weight_env: Weight for environment rewards in "fused" mode (default: 1.0).
+        weight_event: Weight for verifier event rewards in "fused" mode (default: 0.0).
+        weight_outcome: Weight for verifier outcome rewards in "fused" mode (default: 0.0).
+    """
+    enabled: bool = False
+    reward_source: Literal["task_app", "verifier", "fused"] = "task_app"
+    backend_base: str = ""
+    backend_api_key_env: str = "SYNTH_API_KEY"
+    backend_provider: str = ""
+    backend_model: str = ""
+    verifier_graph_id: str = ""
+    backend_event_enabled: bool = True
+    backend_outcome_enabled: bool = True
+    backend_options: Dict[str, Any] = Field(default_factory=dict)
+    concurrency: int = 8
+    timeout: float = 60.0
+    weight_env: float = 1.0
+    weight_event: float = 0.0
+    weight_outcome: float = 0.0
+    spec_path: Optional[str] = None
+    spec_max_tokens: int = 5000
+    spec_context: Optional[str] = None
+class ProxyModelsConfig(ExtraModel):
+    """Configuration for proxy usage on policy evaluations.
+    Uses a low-fidelity (LO) model for most evaluations and a high-fidelity (HI) model
+    for verification, with dynamic switching based on calibration and correlation.
+    The proxy system starts by evaluating examples with both HI and LO models to build
+    a calibration regression. Once calibrated (R² >= r2_thresh), it switches to using
+    only the LO model for most evaluations, falling back to HI when reliability drops.
+    Attributes:
+        hi_provider: Provider for high-fidelity model (e.g., "openai", "groq", "google").
+            This is the expensive model used for ground-truth evaluations.
+        hi_model: High-fidelity model name (e.g., "gpt-4o", "gpt-oss-120b").
+            Must be a supported model for the provider.
+        lo_provider: Provider for low-fidelity proxy model (e.g., "groq", "openai").
+            This is the cheaper model used for most evaluations after calibration.
+        lo_model: Low-fidelity proxy model name (e.g., "gpt-oss-20b", "gpt-4o-mini").
+            Must be a supported model for the provider. Should be cheaper than hi_model.
+        n_min_hi: Minimum number of HI evaluations before allowing proxy substitution.
+            Default: 5. Ensures sufficient calibration data before proxying.
+        r2_thresh: R² correlation threshold (0.0-1.0) required to enable proxying.
+            Default: 0.5. Higher values require stronger correlation before proxying.
+        r2_stop: R² threshold (0.0-1.0) below which proxying is disabled.
+            Default: 0.2. If correlation drops below this, revert to HI-only.
+        sigma_max: Maximum residual variance (sigma²) allowed for proxy calibration.
+            Default: 1e6. Higher values allow more variance in predictions.
+        sigma_stop: Stop proxying if residual variance exceeds this value.
+            Default: 1e9. If variance exceeds this, revert to HI-only.
+        verify_every: Periodically verify calibration every N LO-only evaluations.
+            Default: 0 (no periodic verification). Set to >0 to periodically run BOTH
+            to check if calibration is still valid.
+        proxy_patience_usd: Stop proxying if cumulative net gain drops below this (USD).
+            Default: -100.0. Negative values allow some loss before stopping. Set to 0.0
+            to stop immediately if proxy becomes unprofitable.
+    """
+    hi_provider: str
+    hi_model: str
+    lo_provider: str
+    lo_model: str
+    n_min_hi: int = 5
+    r2_thresh: float = 0.5
+    r2_stop: float = 0.2
+    sigma_max: float = 1e6
+    sigma_stop: float = 1e9
+    verify_every: int = 0
+    proxy_patience_usd: float = -100.0
+class AdaptiveCurriculumLevel(str, Enum):
+    """Preset levels for adaptive pooling curriculum."""
+    NONE = "NONE"
+    LOW = "LOW"
+    MODERATE = "MODERATE"
+    HIGH = "HIGH"
+class AdaptivePoolConfig(ExtraModel):
+    """Configuration for adaptive pooling (dynamically adjusting evaluation pool size).
+    Reduces evaluation costs by focusing on the most informative examples while
+    maintaining optimization quality through informativeness-based selection.
+    The adaptive pool starts with a larger pool and gradually reduces to a minimum
+    size, selecting examples based on informativeness (variance across prompts).
+    Examples are divided into anchors (always evaluated) and exploration pool
+    (selected based on informativeness).
+    Attributes:
+        level: Preset level (NONE, LOW, MODERATE, HIGH). Default: LOW.
+            NONE disables adaptive pooling. Higher levels use smaller pools and
+            more aggressive annealing for greater cost savings.
+        anchor_size: Number of anchor examples that are always evaluated.
+            Default: 30. Anchors provide stable baseline for optimization.
+            Must be <= pool_min_size.
+        pool_init_size: Initial pool size at start of optimization.
+            Default: None (uses all available examples). Set to limit initial pool.
+            Must be >= pool_min_size if both are set.
+        pool_min_size: Target minimum pool size after annealing completes.
+            Default: None (uses anchor_size). Pool anneals linearly from
+            pool_init_size to pool_min_size between warmup_iters and anneal_stop_iter.
+            Must be >= anchor_size.
+        warmup_iters: Number of iterations before starting pool annealing.
+            Default: 5. During warmup, pool stays at pool_init_size to gather
+            informativeness data.
+        anneal_stop_iter: Iteration at which pool reaches pool_min_size.
+            Default: 20. Pool size decreases linearly from warmup_iters to this.
+            Must be > warmup_iters.
+        pool_update_period: Update informativeness scores every N generations.
+            Default: 3. More frequent updates (lower value) adapt faster but
+            require more computation.
+        min_evals_per_example: Minimum evaluations per example before computing
+            informativeness. Default: 3. Examples with fewer evals get info=0.0.
+        k_info_prompts: Number of top-performing prompts used for informativeness
+            computation. Default: 10. Only scores from these prompts are used to
+            compute variance-based informativeness.
+        info_buffer_factor: Buffer factor (0.0-1.0) for preserving informativeness
+            during pool reduction. Default: 0.9. Higher values preserve more
+            informativeness but allow less reduction. Lower values allow more
+            aggressive reduction but may lose informativeness.
+        info_epsilon: Small epsilon value added to prevent division by zero in
+            informativeness calculations. Default: 1e-6.
+        anchor_selection_method: Method for selecting anchor examples.
+            Default: "clustering". Options:
+            - "random": Random selection
+            - "clustering": Select diverse examples via clustering
+        exploration_strategy: Strategy for selecting exploration pool examples.
+            Default: "diversity". Options:
+            - "random": Random selection
+            - "diversity": Select diverse examples based on informativeness
+        heatup_reserve_pool: Optional list of seed IDs reserved for heat-up phase.
+            Default: None. If provided, these seeds are added back to pool during
+            heat-up phases to prevent overfitting to small pool.
+        heatup_trigger: When to trigger heat-up phase (adding seeds back to pool).
+            Default: "after_min_size". Options:
+            - "after_min_size": Trigger after pool reaches min_size
+            - "immediate": Trigger immediately
+            - "every_N_trials_after_min": Trigger periodically after min_size
+        heatup_size: Number of seeds to add during heat-up phase.
+            Default: 20. Seeds are selected from heatup_reserve_pool or reserve pool.
+        heatup_cooldown_trials: Number of trials to wait before cooling down
+            (removing heat-up seeds) after heat-up. Default: 50.
+        heatup_schedule: Whether heat-up repeats or happens once.
+            Default: "repeat". Options:
+            - "once": Heat-up happens once
+            - "repeat": Heat-up repeats after cooldown
+    """
+    level: AdaptiveCurriculumLevel = AdaptiveCurriculumLevel.LOW
+    anchor_size: int = 30
+    pool_init_size: int | None = None
+    pool_min_size: int | None = None
+    warmup_iters: int = 5
+    anneal_stop_iter: int = 20
+    pool_update_period: int = 3
+    min_evals_per_example: int = 3
+    k_info_prompts: int = 10
+    info_buffer_factor: float = 0.9
+    info_epsilon: float = 1e-6
+    anchor_selection_method: Literal["random", "clustering"] = "clustering"
+    exploration_strategy: Literal["random", "diversity"] = "diversity"
+    heatup_reserve_pool: list[int] | None = None
+    heatup_trigger: Literal["after_min_size", "immediate", "every_N_trials_after_min"] = "after_min_size"
+    heatup_size: int = 20
+    heatup_cooldown_trials: int = 50
+    heatup_schedule: Literal["repeat", "once"] = "repeat"
+    @property
+    def enabled(self) -> bool:
+        """Whether adaptive pooling is enabled (level != NONE)."""
+        return self.level != AdaptiveCurriculumLevel.NONE
+class AdaptiveBatchLevel(str, Enum):
+    """Preset levels for adaptive batch curriculum (GEPA only)."""
+    NONE = "NONE"
+    LOW = "LOW"
+    MODERATE = "MODERATE"
+    HIGH = "HIGH"
+class GEPAAdaptiveBatchConfig(ExtraModel):
+    """Configuration for adaptive batch evaluation (GEPA only).
+    Reduces evaluation costs by using smaller minibatches and subsampling validation.
+    """
+    level: AdaptiveBatchLevel = AdaptiveBatchLevel.MODERATE
+    reflection_minibatch_size: int = 3  # Train examples per reflection step
+    min_local_improvement: float = 0.0  # Threshold for accepting proposals
+    val_evaluation_mode: Literal["full", "subsample"] = "subsample"  # Validation mode
+    val_subsample_size: int = 64  # Subsample size when mode="subsample"
+    candidate_selection_strategy: Literal["coverage", "random"] = "coverage"
+    @property
+    def enabled(self) -> bool:
+        """Whether adaptive batch is enabled (level != NONE)."""
+        return self.level != AdaptiveBatchLevel.NONE
+# Default presets for adaptive pool (mirrors monorepo structure)
+_ADAPTIVE_POOL_DEFAULTS: dict[AdaptiveCurriculumLevel, dict[str, Any]] = {
+    AdaptiveCurriculumLevel.NONE: {
+        "anchor_size": 0,
+        "pool_init_size": None,
+        "pool_min_size": None,
+        "warmup_iters": 999_999,
+        "anneal_stop_iter": 999_999,
+        "pool_update_period": 999_999,
+        "min_evals_per_example": 1,
+        "k_info_prompts": 0,
+        "info_buffer_factor": 1.0,
+        "info_epsilon": 1e-6,
+        "anchor_selection_method": "random",
+        "exploration_strategy": "random",
+        "heatup_reserve_pool": None,
+        "heatup_trigger": "after_min_size",
+        "heatup_size": 20,
+        "heatup_cooldown_trials": 50,
+        "heatup_schedule": "repeat",
+    },
+    AdaptiveCurriculumLevel.LOW: {
+        "anchor_size": 50,
+        "pool_init_size": 150,
+        "pool_min_size": 100,
+        "warmup_iters": 10,
+        "anneal_stop_iter": 30,
+        "pool_update_period": 2,
+        "min_evals_per_example": 5,
+        "k_info_prompts": 15,
+        "info_buffer_factor": 0.95,
+        "info_epsilon": 1e-6,
+        "anchor_selection_method": "clustering",
+        "exploration_strategy": "diversity",
+        "heatup_reserve_pool": None,
+        "heatup_trigger": "after_min_size",
+        "heatup_size": 20,
+        "heatup_cooldown_trials": 50,
+        "heatup_schedule": "repeat",
+    },
+    AdaptiveCurriculumLevel.MODERATE: {
+        "anchor_size": 30,
+        "pool_init_size": 100,
+        "pool_min_size": 50,
+        "warmup_iters": 5,
+        "anneal_stop_iter": 20,
+        "pool_update_period": 3,
+        "min_evals_per_example": 3,
+        "k_info_prompts": 10,
+        "info_buffer_factor": 0.9,
+        "info_epsilon": 1e-6,
+        "anchor_selection_method": "clustering",
+        "exploration_strategy": "diversity",
+        "heatup_reserve_pool": None,
+        "heatup_trigger": "after_min_size",
+        "heatup_size": 20,
+        "heatup_cooldown_trials": 50,
+        "heatup_schedule": "repeat",
+    },
+    AdaptiveCurriculumLevel.HIGH: {
+        "anchor_size": 20,
+        "pool_init_size": 60,
+        "pool_min_size": 30,
+        "warmup_iters": 3,
+        "anneal_stop_iter": 10,
+        "pool_update_period": 5,
+        "min_evals_per_example": 2,
+        "k_info_prompts": 5,
+        "info_buffer_factor": 0.8,
+        "info_epsilon": 1e-6,
+        "anchor_selection_method": "clustering",
+        "exploration_strategy": "diversity",
+        "heatup_reserve_pool": None,
+        "heatup_trigger": "after_min_size",
+        "heatup_size": 20,
+        "heatup_cooldown_trials": 50,
+        "heatup_schedule": "repeat",
+    },
+}
+# Default presets for adaptive batch (GEPA only)
+_ADAPTIVE_BATCH_DEFAULTS: dict[AdaptiveBatchLevel, dict[str, Any]] = {
+    AdaptiveBatchLevel.NONE: {
+        "reflection_minibatch_size": 8,
+        "min_local_improvement": 0.0,
+        "val_evaluation_mode": "full",
+        "val_subsample_size": 64,
+        "candidate_selection_strategy": "random",
+    },
+    AdaptiveBatchLevel.LOW: {
+        "reflection_minibatch_size": 5,
+        "min_local_improvement": 0.0,
+        "val_evaluation_mode": "subsample",
+        "val_subsample_size": 80,
+        "candidate_selection_strategy": "coverage",
+    },
+    AdaptiveBatchLevel.MODERATE: {
+        "reflection_minibatch_size": 3,
+        "min_local_improvement": 0.0,
+        "val_evaluation_mode": "subsample",
+        "val_subsample_size": 64,
+        "candidate_selection_strategy": "coverage",
+    },
+    AdaptiveBatchLevel.HIGH: {
+        "reflection_minibatch_size": 2,
+        "min_local_improvement": 0.0,
+        "val_evaluation_mode": "subsample",
+        "val_subsample_size": 48,
+        "candidate_selection_strategy": "coverage",
+    },
+}
+def resolve_adaptive_pool_config(
+    *,
+    level: AdaptiveCurriculumLevel | str | None = None,
+    overrides: dict[str, Any] | None = None,
+    dev_pool_size: int | None = None,
+) -> AdaptivePoolConfig:
+    """Resolve adaptive pool config from level preset and overrides.
+    Args:
+        level: Preset level (NONE, LOW, MODERATE, HIGH). Defaults to LOW if None.
+        overrides: Dict of field overrides to apply on top of level defaults.
+        dev_pool_size: Optional dev pool size to cap pool_init_size if needed.
+    Returns:
+        AdaptivePoolConfig with resolved values.
+    """
+    # Normalize level
+    if level is None:
+        level = AdaptiveCurriculumLevel.LOW
+    elif isinstance(level, str):
+        try:
+            level = AdaptiveCurriculumLevel[level.strip().upper()]
+        except KeyError:
+            valid_levels = ", ".join(level_item.name for level_item in AdaptiveCurriculumLevel)
+            raise ValueError(f"Invalid adaptive pool level '{level}'. Must be one of: {valid_levels}") from None
+    # Get defaults for level
+    defaults = _ADAPTIVE_POOL_DEFAULTS[level].copy()
+    # Apply overrides
+    if overrides:
+        defaults.update(overrides)
+    # Handle pool_init_size and pool_min_size with dev_pool_size
+    pool_init_size = defaults.get("pool_init_size")
+    pool_min_size = defaults.get("pool_min_size")
+    if pool_init_size is None:
+        pool_init_size = dev_pool_size
+    if pool_min_size is None:
+        pool_min_size = dev_pool_size
+    # Cap pool_init_size if dev_pool_size is provided
+    if dev_pool_size is not None and pool_init_size is not None and pool_init_size > dev_pool_size:
+        pool_init_size = dev_pool_size
+    # Handle heatup_reserve_pool (can be list, None, or single value)
+    heatup_reserve = defaults.get("heatup_reserve_pool")
+    if heatup_reserve is not None and not isinstance(heatup_reserve, list | tuple):
+        # Convert single value or other types to list
+        heatup_reserve = [heatup_reserve] if heatup_reserve else None
+    # Create config with proper types
+    config = AdaptivePoolConfig(
+        level=level,
+        anchor_size=int(defaults["anchor_size"]),
+        pool_init_size=None if pool_init_size is None else int(pool_init_size),
+        pool_min_size=None if pool_min_size is None else int(pool_min_size),
+        warmup_iters=int(defaults["warmup_iters"]),
+        anneal_stop_iter=int(defaults["anneal_stop_iter"]),
+        pool_update_period=int(defaults["pool_update_period"]),
+        min_evals_per_example=int(defaults["min_evals_per_example"]),
+        k_info_prompts=int(defaults["k_info_prompts"]),
+        info_buffer_factor=float(defaults["info_buffer_factor"]),
+        info_epsilon=float(defaults["info_epsilon"]),
+        anchor_selection_method=defaults["anchor_selection_method"] if defaults["anchor_selection_method"] in ("random", "clustering") else "clustering",
+        exploration_strategy=defaults["exploration_strategy"] if defaults["exploration_strategy"] in ("random", "diversity") else "diversity",
+        heatup_reserve_pool=list(heatup_reserve) if heatup_reserve else None,
+        heatup_trigger=defaults.get("heatup_trigger", "after_min_size") if defaults.get("heatup_trigger", "after_min_size") in ("after_min_size", "immediate", "every_N_trials_after_min") else "after_min_size",
+        heatup_size=int(defaults.get("heatup_size", 20)),
+        heatup_cooldown_trials=int(defaults.get("heatup_cooldown_trials", 50)),
+        heatup_schedule=defaults.get("heatup_schedule", "repeat") if defaults.get("heatup_schedule", "repeat") in ("repeat", "once") else "repeat",
+    )
+    return config
+def resolve_adaptive_batch_config(
+    *,
+    level: AdaptiveBatchLevel | str | None = None,
+    overrides: dict[str, Any] | None = None,
+) -> GEPAAdaptiveBatchConfig:
+    """Resolve adaptive batch config from level preset and overrides.
+    Args:
+        level: Preset level (NONE, LOW, MODERATE, HIGH). Defaults to MODERATE if None.
+        overrides: Dict of field overrides to apply on top of level defaults.
+    Returns:
+        GEPAAdaptiveBatchConfig with resolved values.
+    """
+    # Normalize level
+    if level is None:
+        level = AdaptiveBatchLevel.MODERATE
+    elif isinstance(level, str):
+        try:
+            level = AdaptiveBatchLevel[level.strip().upper()]
+        except KeyError:
+            valid_levels = ", ".join(level_item.name for level_item in AdaptiveBatchLevel)
+            raise ValueError(f"Invalid adaptive batch level '{level}'. Must be one of: {valid_levels}") from None
+    # Get defaults for level
+    defaults = _ADAPTIVE_BATCH_DEFAULTS[level].copy()
+    # Apply overrides
+    if overrides:
+        defaults.update(overrides)
+    # Create config with proper types
+    return GEPAAdaptiveBatchConfig(
+        level=level,
+        reflection_minibatch_size=int(defaults["reflection_minibatch_size"]),
+        min_local_improvement=float(defaults["min_local_improvement"]),
+        val_evaluation_mode=defaults["val_evaluation_mode"] if defaults["val_evaluation_mode"] in ("full", "subsample") else "full",
+        val_subsample_size=int(defaults["val_subsample_size"]),
+        candidate_selection_strategy=defaults["candidate_selection_strategy"] if defaults["candidate_selection_strategy"] in ("coverage", "random") else "coverage",
+    )
+class MIPROConfig(ExtraModel):
+    """MIPRO-specific configuration.
+    MIPROv2 uses meta-learning with bootstrap phase, TPE optimization, and mini-batch evaluation
+    to efficiently optimize prompts with fewer evaluations than genetic algorithms.
+    Attributes:
+        proposer_effort: Effort level for proposer model selection. Controls which model
+            is used for generating prompt proposals. Default: "LOW".
+            Options:
+            - "LOW_CONTEXT": Uses gpt-oss-120b (Groq) with minimal context. Fastest/cheapest.
+                Required when proposer_output_tokens="RAPID".
+            - "LOW": Uses smaller/faster models (e.g., gpt-4o-mini). Good balance.
+            - "MEDIUM": Uses medium models (e.g., gpt-4o). Higher quality proposals.
+            - "HIGH": Uses best models (e.g., gpt-5). Highest quality but expensive.
+        proposer_output_tokens: Maximum output tokens allowed for proposer model.
+            Default: "FAST". Controls proposal length and cost.
+            Options:
+            - "RAPID": 3000 tokens max. Fastest/cheapest. Requires proposer_effort="LOW_CONTEXT"
+                and gpt-oss-120b model. Use for short, focused proposals.
+            - "FAST": 10000 tokens max. Good balance. Works with any effort level.
+            - "SLOW": 25000 tokens max. Allows longer proposals. Use for complex prompts.
+        min_bootstrap_demos: Minimum number of qualified bootstrap demonstrations required.
+            Default: None (no minimum). If set, bootstrap phase will fail early if fewer than
+            this many demos pass the few_shot_score_threshold. Use with strict_bootstrap=True
+            for fail-fast behavior.
+        strict_bootstrap: If True, fail immediately when bootstrap doesn't produce enough
+            qualified demos (< min_bootstrap_demos). Default: False. When False, optimization
+            continues but may produce suboptimal results with insufficient demos.
+    """
+    task_app_url: str | None = None
+    task_app_api_key: str | None = None
+    task_app_id: str | None = None
+    num_iterations: int = 20
+    num_evaluations_per_iteration: int = 5
+    batch_size: int = 32
+    max_concurrent: int = 20
+    env_name: str = "banking77"
+    env_config: dict[str, Any] | None = None
+    few_shot_score_threshold: float = 0.8
+    results_file: str | None = None
+    max_wall_clock_seconds: float | None = None
+    max_total_tokens: int | None = None
+    policy_config: dict[str, Any] | None = None
+    meta: MIPROMetaConfig | dict[str, Any] | None = None
+    modules: list[MIPROModuleConfig] | list[dict[str, Any]] | None = None
+    seeds: MIPROSeedConfig | dict[str, Any] | None = None
+    # Proposer configuration
+    proposer_effort: Literal["LOW_CONTEXT", "LOW", "MEDIUM", "HIGH"] = "LOW"
+    proposer_output_tokens: Literal["RAPID", "FAST", "SLOW"] = "FAST"
+    # Token and budget configuration (mirrors GEPA pattern)
+    max_token_limit: int | None = None  # Total tokens across all rollouts (policy + proposer)
+    max_spend_usd: float | None = None  # Maximum spend in USD
+    token_counting_model: str = "gpt-4"  # Model for token estimation (tiktoken)
+    enforce_token_limit: bool = True  # Halt optimization if limit exceeded
+    # TPE configuration
+    tpe: dict[str, Any] | None = None
+    # Demo configuration
+    demo: dict[str, Any] | None = None
+    # Grounding configuration
+    grounding: dict[str, Any] | None = None
+    # Meta-update configuration
+    meta_update: dict[str, Any] | None = None
+    # Verifier configuration (shared with GEPA)
+    verifier: PromptLearningVerifierConfig | dict[str, Any] | None = None
+    # Proxy models configuration (optional, can also be at top-level)
+    proxy_models: ProxyModelsConfig | dict[str, Any] | None = None
+    # Adaptive pool configuration (optional)
+    adaptive_pool: AdaptivePoolConfig | dict[str, Any] | None = None
+    # System spec configuration
+    spec_path: str | None = None  # Path to system spec JSON file
+    spec_max_tokens: int = 5000  # Max tokens for spec context in meta-prompt
+    spec_include_examples: bool = True  # Include examples from spec
+    spec_priority_threshold: int | None = None  # Only include rules with priority >= threshold
+    # Custom metaprompt (optional)
+    metaprompt: str | None = None  # Custom metaprompt text to include in instruction generation prompts
+    # Bootstrap seeds (for few-shot examples)
+    bootstrap_train_seeds: list[int] | None = None
+    # Online pool (for mini-batch evaluation)
+    online_pool: list[int] | None = None
+    # Test pool (held-out seeds)
+    test_pool: list[int] | None = None
+    # Reference pool (for dataset context in meta-prompt, must not overlap with train/test)
+    reference_pool: list[int] | None = None
+    # Strict bootstrap mode: minimum qualified demos required
+    # If fewer demos qualify (score >= few_shot_score_threshold), job fails early with clear error
+    # Default: 0 (no minimum - current behavior for backwards compatibility)
+    min_bootstrap_demos: int = 0
+    @model_validator(mode="before")
+    @classmethod
+    def _forbid_meta_model_config(cls, data: dict[str, Any]) -> dict[str, Any]:
+        """Forbid deprecated meta_model configuration fields.
+        Meta-model selection is now controlled by proposer_effort and proposer_output_tokens.
+        The backend automatically selects the model based on these settings.
+        """
+        if not isinstance(data, dict):
+            return data
+        deprecated_meta_fields = {
+            "meta_model": "Meta-model selection is now controlled by 'proposer_effort' (LOW_CONTEXT, LOW, MEDIUM, HIGH). Remove 'meta_model' from your config.",
+            "meta_model_provider": "Meta-model provider is now controlled by 'proposer_effort'. Remove 'meta_model_provider' from your config.",
+            "meta_model_inference_url": "Meta-model inference URL is now controlled by 'proposer_effort'. Remove 'meta_model_inference_url' from your config.",
+            "meta_model_temperature": "Meta-model temperature is now controlled by 'proposer_effort'. Remove 'meta_model_temperature' from your config.",
+            "meta_model_max_tokens": "Meta-model max_tokens is now controlled by 'proposer_effort' and 'proposer_output_tokens'. Remove 'meta_model_max_tokens' from your config.",
+        }
+        for field, message in deprecated_meta_fields.items():
+            if field in data and data[field] is not None:
+                raise ValueError(f"Deprecated field '{field}': {message}")
+        # Also check in nested meta section
+        if "meta" in data and isinstance(data["meta"], dict):
+            meta_data = data["meta"]
+            if meta_data.get("model") is not None:
+                raise ValueError("Deprecated field 'meta.model': Meta-model selection is now controlled by 'proposer_effort'. Remove [prompt_learning.mipro.meta] section.")
+            if meta_data.get("provider") is not None:
+                raise ValueError("Deprecated field 'meta.provider': Meta-model provider is now controlled by 'proposer_effort'. Remove [prompt_learning.mipro.meta] section.")
+        return data
+    @field_validator("bootstrap_train_seeds", "online_pool", "test_pool", "reference_pool", mode="before")
+    @classmethod
+    def _parse_mipro_seed_lists(cls, v: Any) -> list[int] | None:
+        """Parse MIPRO seed lists that can be either a list or range dict."""
+        return _parse_seeds(v)
+    @classmethod
+    def simple(
+        cls,
+        *,
+        task_app_url: str,
+        task_app_api_key: str,
+        env_name: str,
+        rollout_budget: int,
+        initial_prompt_messages: Sequence[Mapping[str, Any]] | Sequence[Any],
+        task_app_id: str | None = None,
+        bootstrap_seeds: list[int] | None = None,
+        online_seeds: list[int] | None = None,
+        test_seeds: list[int] | None = None,
+        reference_pool: list[int] | None = None,
+        env_config: dict[str, Any] | None = None,
+        num_iterations: int | None = None,
+        num_evaluations_per_iteration: int | None = None,
+        batch_size: int | None = None,
+        max_concurrent: int | None = None,
+        meta_preset: Literal["fast", "balanced", "high_quality"] = "balanced",
+        policy_model: str = "openai/gpt-oss-20b",
+        policy_provider: str = "groq",
+        policy_temperature: float = 1.0,
+        policy_max_completion_tokens: int = 512,
+        policy_name: str | None = None,
+        meta_model: str | None = None,
+        meta_provider: str | None = None,
+        meta_inference_url: str | None = None,
+    ) -> MIPROConfig:
+        """Convenience constructor for single-stage MIPRO tasks.
+        Automatically infers reasonable defaults for seeds, iterations, and module layout
+        based on the rollout budget. This keeps simple benchmarks (e.g., Iris) readable
+        while leaving the full constructor available for complex multi-stage pipelines.
+        """
+        if rollout_budget <= 0:
+            raise ValueError("rollout_budget must be positive for MIPROConfig.simple()")
+        normalized_messages = _normalize_messages(initial_prompt_messages)
+        if not normalized_messages:
+            raise ValueError("initial_prompt_messages must contain at least one message")
+        bootstrap = bootstrap_seeds or _auto_calculate_bootstrap_seeds(rollout_budget)
+        online = online_seeds or _auto_calculate_online_seeds(rollout_budget)
+        tests = test_seeds or []
+        reference = reference_pool or _auto_calculate_reference_pool(rollout_budget)
+        iterations = num_iterations or _auto_calculate_iterations(rollout_budget)
+        evals_per_iteration = (
+            num_evaluations_per_iteration
+            or _auto_calculate_evaluations_per_iteration(rollout_budget)
+        )
+        derived_batch_size = batch_size or max(1, min(len(online), 32))
+        derived_max_concurrent = max_concurrent or 10
+        baseline_instruction = _extract_baseline_instruction(normalized_messages)
+        meta_config = _create_meta_config_from_preset(meta_preset)
+        if meta_model:
+            meta_config.model = meta_model
+        if meta_provider:
+            meta_config.provider = meta_provider
+        if meta_inference_url is not None:
+            meta_config.inference_url = meta_inference_url
+        stage = MIPROStageConfig(
+            stage_id="default_stage_0",
+            baseline_instruction=baseline_instruction,
+            baseline_messages=normalized_messages,
+        )
+        module = MIPROModuleConfig(
+            module_id="default",
+            stages=[stage],
+        )
+        seeds = MIPROSeedConfig(
+            bootstrap=bootstrap,
+            online=online,
+            test=tests,
+            reference=reference,
+        )
+        policy_config = {
+            "model": policy_model,
+            "provider": policy_provider,
+            "temperature": policy_temperature,
+            "max_completion_tokens": policy_max_completion_tokens,
+        }
+        if policy_name:
+            policy_config["policy_name"] = policy_name
+        return cls(
+            task_app_url=task_app_url,
+            task_app_api_key=task_app_api_key,
+            task_app_id=task_app_id or env_name,
+            env_name=env_name,
+            env_config=env_config,
+            seeds=seeds,
+            num_iterations=iterations,
+            num_evaluations_per_iteration=evals_per_iteration,
+            batch_size=derived_batch_size,
+            max_concurrent=derived_max_concurrent,
+            policy_config=policy_config,
+            meta=meta_config,
+            modules=[module],
+        )
+def _auto_calculate_bootstrap_seeds(rollout_budget: int) -> list[int]:
+    """Auto-calculate bootstrap seeds from rollout budget."""
+    count = max(3, min(10, max(rollout_budget // 10, 1)))
+    return list(range(count))
+def _auto_calculate_online_seeds(rollout_budget: int) -> list[int]:
+    """Auto-calculate online pool seeds from rollout budget."""
+    count = max(5, min(50, max(rollout_budget // 3, 1)))
+    return list(range(10, 10 + count))
+def _auto_calculate_reference_pool(rollout_budget: int) -> list[int]:
+    """Auto-calculate reference pool seeds from rollout budget."""
+    count = max(5, min(30, max(rollout_budget // 5, 1)))
+    return list(range(20, 20 + count))
+def _auto_calculate_iterations(rollout_budget: int) -> int:
+    """Auto-calculate number of optimization iterations."""
+    online_pool_size = max(5, min(50, max(rollout_budget // 3, 1)))
+    evals_per_iteration = max(3, min(10, max(rollout_budget // max(online_pool_size * 2, 1), 1)))
+    iterations = max(5, min(20, max(rollout_budget // max(online_pool_size * evals_per_iteration, 1), 1)))
+    return iterations
+def _auto_calculate_evaluations_per_iteration(rollout_budget: int) -> int:
+    """Auto-calculate number of evaluations per iteration."""
+    online_pool_size = max(5, min(50, max(rollout_budget // 3, 1)))
+    iterations = max(5, min(20, max(rollout_budget // max(online_pool_size * 5, 1), 1)))
+    evals_per_iteration = max(3, min(10, max(rollout_budget // max(online_pool_size * iterations, 1), 1)))
+    return evals_per_iteration
+def _coerce_message_mapping(message: Mapping[str, Any] | Any) -> dict[str, Any]:
+    """Convert message objects or dicts into a mutable dict."""
+    if isinstance(message, Mapping):
+        return dict(message)
+    if hasattr(message, "model_dump"):
+        try:
+            data = message.model_dump()
+            if isinstance(data, dict):
+                return data
+        except Exception:  # pragma: no cover - defensive
+            pass
+    if hasattr(message, "__dict__"):
+        try:
+            return {
+                key: value
+                for key, value in vars(message).items()
+                if not key.startswith("_")
+            }
+        except Exception:  # pragma: no cover - defensive
+            return {}
+    return {}
+def _extract_baseline_instruction(messages: Sequence[Mapping[str, str]] | Sequence[Any]) -> str:
+    """Extract the baseline instruction string from message templates."""
+    for raw in messages:
+        msg = _coerce_message_mapping(raw)
+        if msg.get("role", "user") == "system":
+            text = (msg.get("content") or msg.get("pattern") or "").strip()
+            if text:
+                return text
+    for raw in messages:
+        msg = _coerce_message_mapping(raw)
+        if msg.get("role", "user") == "user":
+            text = (msg.get("content") or msg.get("pattern") or "").strip()
+            if text:
+                return text
+    return "Complete the task."
+def _normalize_messages(messages: Sequence[Mapping[str, str]] | Sequence[Any]) -> list[dict[str, str]]:
+    """Normalize message dictionaries so downstream tools can rely on `content`."""
+    normalized: list[dict[str, str]] = []
+    for raw in messages:
+        msg = _coerce_message_mapping(raw)
+        role = msg.get("role", "user") or "user"
+        content = msg.get("content") or msg.get("pattern") or ""
+        normalized.append({"role": str(role), "content": str(content)})
+    return normalized
+def _create_meta_config_from_preset(preset: str) -> MIPROMetaConfig:
+    """Create a meta config preset (fast/balanced/high_quality)."""
+    preset_key = preset.lower().strip()
+    presets: dict[str, MIPROMetaConfig] = {
+        "fast": MIPROMetaConfig(
+            model="gpt-4o-mini",
+            provider="openai",
+            temperature=0.7,
+            max_tokens=512,
+            inference_url=None,
+        ),
+        "balanced": MIPROMetaConfig(
+            model="gpt-4o-mini",
+            provider="openai",
+            temperature=0.8,
+            max_tokens=1024,
+            inference_url=None,
+        ),
+        "high_quality": MIPROMetaConfig(
+            model="gpt-4o",
+            provider="openai",
+            temperature=0.9,
+            max_tokens=2048,
+            inference_url=None,
+        ),
+    }
+    return presets.get(preset_key, presets["balanced"])
+# GEPA nested configs (mirroring RL structure)
+class GEPARolloutConfig(ExtraModel):
+    """GEPA rollout configuration (mirrors RL [rollout] section)."""
+    budget: int | None = None  # Total rollout budget
+    max_concurrent: int = 20  # Maximum concurrent rollouts
+    minibatch_size: int = 8  # Minibatch size for evaluation
+class GEPAEvaluationConfig(ExtraModel):
+    """GEPA evaluation configuration (mirrors RL [evaluation] section)."""
+    seeds: list[int] | None = None  # Evaluation seeds (training set)
+    validation_seeds: list[int] | None = None  # Validation seeds (held-out)
+    test_pool: list[int] | None = None  # Test pool (final evaluation)
+    validation_pool: str | None = None  # Pool name for validation (e.g., "validation")
+    validation_top_k: int | None = None  # Top-K prompts to validate
+    @field_validator("seeds", "validation_seeds", "test_pool", mode="before")
+    @classmethod
+    def _parse_seed_lists(cls, v: Any) -> list[int] | None:
+        """Parse seed lists that can be either a list or range dict."""
+        return _parse_seeds(v)
+class GEPAMutationConfig(ExtraModel):
+    """GEPA mutation configuration.
+    NOTE: Mutation model selection is controlled by proposer_effort, NOT llm_model.
+    The llm_model/llm_provider fields are deprecated and should not be used.
+    """
+    rate: float = 0.3  # Mutation rate
+    llm_model: str | None = None  # DEPRECATED: Use proposer_effort instead
+    llm_provider: str | None = None  # DEPRECATED: Use proposer_effort instead
+    llm_inference_url: str | None = None  # DEPRECATED: Not used
+    prompt: str | None = None  # Custom mutation prompt
+    @model_validator(mode="before")
+    @classmethod
+    def _forbid_mutation_llm_config(cls, data: dict[str, Any]) -> dict[str, Any]:
+        """Forbid deprecated mutation LLM configuration fields.
+        Mutation model selection is now controlled by proposer_effort at the gepa level.
+        """
+        if not isinstance(data, dict):
+            return data
+        deprecated_mutation_fields = {
+            "llm_model": "Mutation model selection is now controlled by 'proposer_effort' (LOW_CONTEXT, LOW, MEDIUM, HIGH) at [prompt_learning.gepa] level. Remove 'llm_model' from [prompt_learning.gepa.mutation].",
+            "llm_provider": "Mutation provider is now controlled by 'proposer_effort'. Remove 'llm_provider' from [prompt_learning.gepa.mutation].",
+            "llm_inference_url": "Mutation inference URL is not used. Remove 'llm_inference_url' from [prompt_learning.gepa.mutation].",
+        }
+        for field, message in deprecated_mutation_fields.items():
+            if field in data and data[field] is not None:
+                raise ValueError(f"Deprecated field '{field}': {message}")
+        return data
+class GEPAPopulationConfig(ExtraModel):
+    """GEPA population configuration (evolution parameters)."""
+    initial_size: int = 20  # Initial population size
+    num_generations: int = 10  # Number of generations
+    children_per_generation: int = 5  # Children generated per generation
+    crossover_rate: float = 0.5  # Crossover rate
+    selection_pressure: float = 1.0  # Pareto selection pressure
+    patience_generations: int = 3  # Early stopping patience
+class GEPAArchiveConfig(ExtraModel):
+    """GEPA archive configuration (Pareto archive settings)."""
+    size: int = 64  # Archive size
+    pareto_set_size: int = 64  # Pareto set size
+    pareto_eps: float = 1e-6  # Pareto epsilon
+    feedback_fraction: float = 0.5  # Fraction of archive for feedback
+class GEPATokenConfig(ExtraModel):
+    """GEPA token and budget configuration."""
+    max_limit: int | None = None  # Maximum tokens allowed in prompt
+    counting_model: str = "gpt-4"  # Model for token counting
+    enforce_pattern_limit: bool = True  # Enforce token limit on patterns
+    max_spend_usd: float | None = None  # Maximum spend in USD
+class GEPAModuleConfig(ExtraModel):
+    """Configuration for a single GEPA pipeline module/stage (instruction-only).
+    Each module MUST have its own policy configuration. The policy field is required
+    and must include 'model' and 'provider' fields.
+    """
+    module_id: str
+    max_instruction_slots: int = 3
+    allowed_tools: list[str] | None = None
+    max_tokens: int | None = None
+    policy: PromptLearningPolicyConfig | dict[str, Any] = Field(
+        ...,
+        description="Required per-module policy configuration. Must include 'model' and 'provider' fields."
+    )
+    @field_validator("module_id")
+    @classmethod
+    def _validate_module_id(cls, v: str) -> str:
+        v = v.strip()
+        if not v:
+            raise ValueError("module_id cannot be empty")
+        return v
+    @field_validator("max_instruction_slots")
+    @classmethod
+    def _validate_slots(cls, v: int) -> int:
+        if v < 1:
+            raise ValueError("max_instruction_slots must be >= 1")
+        return v
+    @field_validator("policy", mode="before")
+    @classmethod
+    def _validate_policy(cls, v: Any) -> dict[str, Any]:
+        """Validate that policy is a dict with required fields."""
+        if v is None:
+            raise ValueError("policy is required for each module/stage")
+        if isinstance(v, dict):
+            if not v.get("model"):
+                raise ValueError("policy must include 'model' field")
+            if not v.get("provider"):
+                raise ValueError("policy must include 'provider' field")
+            return v
+        # If it's already a PromptLearningPolicyConfig, it will be validated by Pydantic
+        return v
+class GEPAConfig(ExtraModel):
+    """GEPA-specific configuration with nested subsections.
+    GEPA (Genetic Evolution of Prompt Architectures) uses evolutionary algorithms
+    with LLM-guided mutations to optimize prompts through population-based search.
+    Attributes:
+        proposer_type: Type of proposer to use for generating mutations.
+            Default: "dspy". Options: "dspy" (DSPy-style proposer) or "spec" (spec-based).
+        proposer_effort: Effort level for proposer model selection. Controls which model
+            is used for generating prompt mutations. Default: "LOW".
+            Options:
+            - "LOW_CONTEXT": Uses gpt-oss-120b (Groq) with minimal context. Fastest/cheapest.
+                Required when proposer_output_tokens="RAPID".
+            - "LOW": Uses smaller/faster models (e.g., gpt-4o-mini). Good balance.
+            - "MEDIUM": Uses medium models (e.g., gpt-4o). Higher quality mutations.
+            - "HIGH": Uses best models (e.g., gpt-5). Highest quality but expensive.
+        proposer_output_tokens: Maximum output tokens allowed for proposer model.
+            Default: "FAST". Controls mutation length and cost.
+            Options:
+            - "RAPID": 3000 tokens max. Fastest/cheapest. Requires proposer_effort="LOW_CONTEXT"
+                and gpt-oss-120b model. Use for short, focused mutations.
+            - "FAST": 10000 tokens max. Good balance. Works with any effort level.
+            - "SLOW": 25000 tokens max. Allows longer mutations. Use for complex prompts.
+        metaprompt: Optional custom metaprompt text to include in mutation prompts.
+            Default: None. If provided, replaces default metaprompt template.
+    """
+    # Top-level fields (for backwards compatibility)
+    env_name: str = "banking77"
+    env_config: dict[str, Any] | None = None
+    rng_seed: int | None = None
+    proposer_type: str = "dspy"
+    proposer_effort: Literal["LOW_CONTEXT", "LOW", "MEDIUM", "HIGH"] = "LOW"
+    proposer_output_tokens: Literal["RAPID", "FAST", "SLOW"] = "FAST"
+    # Custom metaprompt (optional)
+    metaprompt: str | None = None
+    # Multi-stage pipeline support
+    modules: list[GEPAModuleConfig] | None = None
+    # Nested subsections (preferred, mirrors RL structure)
+    rollout: GEPARolloutConfig | None = None
+    evaluation: GEPAEvaluationConfig | None = None
+    mutation: GEPAMutationConfig | None = None
+    population: GEPAPopulationConfig | None = None
+    archive: GEPAArchiveConfig | None = None
+    token: GEPATokenConfig | None = None
+    verifier: PromptLearningVerifierConfig | dict[str, Any] | None = None
+    proxy_models: ProxyModelsConfig | dict[str, Any] | None = None  # Proxy models config (can be at top-level or gepa-specific)
+    adaptive_pool: AdaptivePoolConfig | dict[str, Any] | None = None  # Adaptive pooling config
+    adaptive_batch: GEPAAdaptiveBatchConfig | dict[str, Any] | None = None  # Adaptive batch config (GEPA only)
+    # Backwards compatibility: flat fields (DEPRECATED - DO NOT USE)
+    # These are kept for backwards compatibility with _get_* methods but should not be used directly
+    rollout_budget: int | None = None
+    max_concurrent_rollouts: int | None = None
+    minibatch_size: int | None = None
+    evaluation_seeds: list[int] | None = None
+    validation_seeds: list[int] | None = None
+    test_pool: list[int] | None = None
+    validation_pool: str | None = None
+    validation_top_k: int | None = None
+    mutation_rate: float | None = None
+    mutation_llm_model: str | None = None
+    mutation_llm_provider: str | None = None
+    mutation_llm_inference_url: str | None = None
+    mutation_prompt: str | None = None
+    initial_population_size: int | None = None
+    num_generations: int | None = None
+    children_per_generation: int | None = None
+    crossover_rate: float | None = None
+    selection_pressure: float | None = None
+    patience_generations: int | None = None
+    archive_size: int | None = None
+    pareto_set_size: int | None = None
+    pareto_eps: float | None = None
+    feedback_fraction: float | None = None
+    max_token_limit: int | None = None
+    token_counting_model: str | None = None
+    enforce_pattern_token_limit: bool | None = None
+    max_spend_usd: float | None = None
+    @model_validator(mode="before")
+    @classmethod
+    def _check_flat_format_deprecated(cls, data: dict[str, Any]) -> dict[str, Any]:
+        """Forbid deprecated flat GEPA format fields.
+        Users must use nested format:
+        - gepa.rollout.budget instead of gepa.rollout_budget
+        - gepa.evaluation.seeds instead of gepa.evaluation_seeds
+        - etc.
+        """
+        if not isinstance(data, dict):
+            return data
+        flat_fields_map = {
+            "rollout_budget": "Use [prompt_learning.gepa.rollout] section with 'budget' field instead.",
+            "max_concurrent_rollouts": "Use [prompt_learning.gepa.rollout] section with 'max_concurrent' field instead.",
+            "minibatch_size": "Use [prompt_learning.gepa.rollout] section with 'minibatch_size' field instead.",
+            "evaluation_seeds": "Use [prompt_learning.gepa.evaluation] section with 'seeds' field instead.",
+            "validation_seeds": "Use [prompt_learning.gepa.evaluation] section with 'validation_seeds' field instead.",
+            "test_pool": "Use [prompt_learning.gepa.evaluation] section with 'test_pool' field instead.",
+            "validation_pool": "Use [prompt_learning.gepa.evaluation] section with 'validation_pool' field instead.",
+            "validation_top_k": "Use [prompt_learning.gepa.evaluation] section with 'validation_top_k' field instead.",
+            "mutation_rate": "Use [prompt_learning.gepa.mutation] section with 'rate' field instead.",
+            "mutation_llm_model": "Use [prompt_learning.gepa.mutation] section with 'llm_model' field instead.",
+            "mutation_llm_provider": "Use [prompt_learning.gepa.mutation] section with 'llm_provider' field instead.",
+            "mutation_llm_inference_url": "Use [prompt_learning.gepa.mutation] section with 'llm_inference_url' field instead.",
+            "mutation_prompt": "Use [prompt_learning.gepa.mutation] section with 'prompt' field instead.",
+            "initial_population_size": "Use [prompt_learning.gepa.population] section with 'initial_size' field instead.",
+            "num_generations": "Use [prompt_learning.gepa.population] section with 'num_generations' field instead.",
+            "children_per_generation": "Use [prompt_learning.gepa.population] section with 'children_per_generation' field instead.",
+            "crossover_rate": "Use [prompt_learning.gepa.population] section with 'crossover_rate' field instead.",
+            "selection_pressure": "Use [prompt_learning.gepa.population] section with 'selection_pressure' field instead.",
+            "patience_generations": "Use [prompt_learning.gepa.population] section with 'patience_generations' field instead.",
+            "archive_size": "Use [prompt_learning.gepa.archive] section with 'size' field instead.",
+            "pareto_set_size": "Use [prompt_learning.gepa.archive] section with 'pareto_set_size' field instead.",
+            "pareto_eps": "Use [prompt_learning.gepa.archive] section with 'pareto_eps' field instead.",
+            "feedback_fraction": "Use [prompt_learning.gepa.archive] section with 'feedback_fraction' field instead.",
+            "max_token_limit": "Use [prompt_learning.gepa.token] section with 'max_limit' field instead.",
+            "token_counting_model": "Use [prompt_learning.gepa.token] section with 'counting_model' field instead.",
+            "enforce_pattern_token_limit": "Use [prompt_learning.gepa.token] section with 'enforce_pattern_limit' field instead.",
+            "max_spend_usd": "Use [prompt_learning.gepa.token] section with 'max_spend_usd' field instead.",
+        }
+        for field, message in flat_fields_map.items():
+            if field in data and data[field] is not None:
+                raise ValueError(f"Deprecated flat GEPA format field '{field}': {message}")
+        return data
+    def _get_rollout_budget(self) -> int | None:
+        """Get rollout budget from nested or flat structure."""
+        if self.rollout and self.rollout.budget is not None:
+            return self.rollout.budget
+        return self.rollout_budget
+    def _get_max_concurrent_rollouts(self) -> int:
+        """Get max concurrent rollouts from nested or flat structure."""
+        if self.rollout and self.rollout.max_concurrent is not None:
+            return self.rollout.max_concurrent
+        return self.max_concurrent_rollouts or 20
+    def _get_minibatch_size(self) -> int:
+        """Get minibatch size from nested or flat structure."""
+        if self.rollout and self.rollout.minibatch_size is not None:
+            return self.rollout.minibatch_size
+        return self.minibatch_size or 8
+    def _get_evaluation_seeds(self) -> list[int] | None:
+        """Get evaluation seeds from nested or flat structure."""
+        if self.evaluation and self.evaluation.seeds is not None:
+            return self.evaluation.seeds
+        return self.evaluation_seeds
+    def _get_validation_seeds(self) -> list[int] | None:
+        """Get validation seeds from nested or flat structure."""
+        if self.evaluation and self.evaluation.validation_seeds is not None:
+            return self.evaluation.validation_seeds
+        return self.validation_seeds
+    def _get_test_pool(self) -> list[int] | None:
+        """Get test pool from nested or flat structure."""
+        if self.evaluation and self.evaluation.test_pool is not None:
+            return self.evaluation.test_pool
+        return self.test_pool
+    def _get_mutation_rate(self) -> float:
+        """Get mutation rate from nested or flat structure."""
+        if self.mutation and self.mutation.rate is not None:
+            return self.mutation.rate
+        return self.mutation_rate or 0.3
+    def _get_mutation_llm_model(self) -> str | None:
+        """Get mutation LLM model from nested or flat structure."""
+        if self.mutation and self.mutation.llm_model is not None:
+            return self.mutation.llm_model
+        return self.mutation_llm_model
+    def _get_mutation_llm_provider(self) -> str:
+        """Get mutation LLM provider from nested or flat structure."""
+        if self.mutation and self.mutation.llm_provider is not None:
+            return self.mutation.llm_provider
+        return self.mutation_llm_provider or "groq"
+    def _get_mutation_llm_inference_url(self) -> str | None:
+        """Get mutation LLM inference URL from nested or flat structure."""
+        if self.mutation and self.mutation.llm_inference_url is not None:
+            return self.mutation.llm_inference_url
+        return self.mutation_llm_inference_url
+    def _get_mutation_prompt(self) -> str | None:
+        """Get mutation prompt from nested or flat structure."""
+        if self.mutation and self.mutation.prompt is not None:
+            return self.mutation.prompt
+        return self.mutation_prompt
+    def _get_initial_population_size(self) -> int:
+        """Get initial population size from nested or flat structure."""
+        if self.population and self.population.initial_size is not None:
+            return self.population.initial_size
+        return self.initial_population_size or 20
+    def _get_num_generations(self) -> int:
+        """Get num generations from nested or flat structure."""
+        if self.population and self.population.num_generations is not None:
+            return self.population.num_generations
+        return self.num_generations or 10
+    def _get_children_per_generation(self) -> int:
+        """Get children per generation from nested or flat structure."""
+        if self.population and self.population.children_per_generation is not None:
+            return self.population.children_per_generation
+        return self.children_per_generation or 5
+    def _get_crossover_rate(self) -> float:
+        """Get crossover rate from nested or flat structure."""
+        if self.population and self.population.crossover_rate is not None:
+            return self.population.crossover_rate
+        return self.crossover_rate or 0.5
+    def _get_selection_pressure(self) -> float:
+        """Get selection pressure from nested or flat structure."""
+        if self.population and self.population.selection_pressure is not None:
+            return self.population.selection_pressure
+        return self.selection_pressure or 1.0
+    def _get_patience_generations(self) -> int:
+        """Get patience generations from nested or flat structure."""
+        if self.population and self.population.patience_generations is not None:
+            return self.population.patience_generations
+        return self.patience_generations or 3
+    def _get_archive_size(self) -> int:
+        """Get archive size from nested or flat structure."""
+        if self.archive and self.archive.size is not None:
+            return self.archive.size
+        return self.archive_size or 64
+    def _get_pareto_set_size(self) -> int:
+        """Get pareto set size from nested or flat structure."""
+        if self.archive and self.archive.pareto_set_size is not None:
+            return self.archive.pareto_set_size
+        return self.pareto_set_size or 64
+    def _get_pareto_eps(self) -> float:
+        """Get pareto eps from nested or flat structure."""
+        if self.archive and self.archive.pareto_eps is not None:
+            return self.archive.pareto_eps
+        return self.pareto_eps or 1e-6
+    def _get_feedback_fraction(self) -> float:
+        """Get feedback fraction from nested or flat structure."""
+        if self.archive and self.archive.feedback_fraction is not None:
+            return self.archive.feedback_fraction
+        return self.feedback_fraction or 0.5
+    def _get_max_token_limit(self) -> int | None:
+        """Get max token limit from nested or flat structure."""
+        if self.token and self.token.max_limit is not None:
+            return self.token.max_limit
+        return self.max_token_limit
+    def _get_token_counting_model(self) -> str:
+        """Get token counting model from nested or flat structure."""
+        if self.token and self.token.counting_model is not None:
+            return self.token.counting_model
+        return self.token_counting_model or "gpt-4"
+    def _get_enforce_pattern_token_limit(self) -> bool:
+        """Get enforce pattern token limit from nested or flat structure."""
+        if self.token and self.token.enforce_pattern_limit is not None:
+            return self.token.enforce_pattern_limit
+        return self.enforce_pattern_token_limit if self.enforce_pattern_token_limit is not None else True
+    def _get_max_spend_usd(self) -> float | None:
+        """Get max spend USD from nested or flat structure."""
+        if self.token and self.token.max_spend_usd is not None:
+            return self.token.max_spend_usd
+        return self.max_spend_usd
+    @classmethod
+    def from_mapping(cls, data: Mapping[str, Any]) -> GEPAConfig:
+        """Load GEPA config from dict/TOML, handling both nested and flat structures."""
+        # Check for nested structure first
+        nested_data = {}
+        flat_data = {}
+        for key, value in data.items():
+            if key in ("rollout", "evaluation", "mutation", "population", "archive", "token", "modules", "proxy_models", "adaptive_pool", "adaptive_batch", "verifier"):
+                nested_data[key] = value
+            else:
+                flat_data[key] = value
+        # If we have nested data, create nested configs
+        if nested_data:
+            if "rollout" in nested_data:
+                nested_data["rollout"] = GEPARolloutConfig.model_validate(nested_data["rollout"])
+            if "evaluation" in nested_data:
+                nested_data["evaluation"] = GEPAEvaluationConfig.model_validate(nested_data["evaluation"])
+            if "mutation" in nested_data:
+                nested_data["mutation"] = GEPAMutationConfig.model_validate(nested_data["mutation"])
+            if "population" in nested_data:
+                nested_data["population"] = GEPAPopulationConfig.model_validate(nested_data["population"])
+            if "archive" in nested_data:
+                nested_data["archive"] = GEPAArchiveConfig.model_validate(nested_data["archive"])
+            if "token" in nested_data:
+                nested_data["token"] = GEPATokenConfig.model_validate(nested_data["token"])
+            if "modules" in nested_data:
+                modules_data = nested_data["modules"]
+                if isinstance(modules_data, list):
+                    nested_data["modules"] = [
+                        GEPAModuleConfig.model_validate(m) if isinstance(m, dict) else m
+                        for m in modules_data
+                    ]
+            # Handle proxy_models in gepa config (only if specified, defaults to None)
+            if "proxy_models" in nested_data and isinstance(nested_data["proxy_models"], dict):
+                nested_data["proxy_models"] = ProxyModelsConfig.model_validate(nested_data["proxy_models"])
+            # If proxy_models not specified, leave as None (defaults to disabled)
+            # Handle adaptive_pool in gepa config (only if specified, defaults to None)
+            if "adaptive_pool" in nested_data and isinstance(nested_data["adaptive_pool"], dict):
+                # Resolve adaptive pool config with level and overrides
+                adaptive_pool_data = nested_data["adaptive_pool"]
+                level = adaptive_pool_data.get("level")
+                # If level not specified, default to LOW (conservative SDK default)
+                overrides = {k: v for k, v in adaptive_pool_data.items() if k != "level"}
+                # Get dev_pool_size from evaluation.seeds if available
+                dev_pool_size = None
+                if "evaluation" in nested_data:
+                    eval_config = nested_data["evaluation"]
+                    # Handle both dict and Pydantic model (GEPAEvaluationConfig)
+                    if isinstance(eval_config, dict):
+                        eval_seeds = eval_config.get("seeds")
+                    else:
+                        # Pydantic model - use attribute access
+                        eval_seeds = getattr(eval_config, "seeds", None)
+                    if isinstance(eval_seeds, list):
+                        dev_pool_size = len(eval_seeds)
+                nested_data["adaptive_pool"] = resolve_adaptive_pool_config(
+                    level=level,  # Will default to LOW if None (via resolve_adaptive_pool_config)
+                    overrides=overrides if overrides else None,
+                    dev_pool_size=dev_pool_size,
+                )
+            # If adaptive_pool not specified, leave as None (defaults to disabled)
+            if "adaptive_batch" in nested_data and isinstance(nested_data["adaptive_batch"], dict):
+                # Resolve adaptive batch config with level and overrides
+                adaptive_batch_data = nested_data["adaptive_batch"]
+                level = adaptive_batch_data.get("level")
+                overrides = {k: v for k, v in adaptive_batch_data.items() if k != "level"}
+                try:
+                    nested_data["adaptive_batch"] = resolve_adaptive_batch_config(
+                        level=level,
+                        overrides=overrides if overrides else None,
+                    )
+                except Exception as exc:
+                    # Re-raise with clearer context
+                    raise ValueError(f"Failed to resolve adaptive_batch config: {exc}") from exc
+        # Merge nested and flat data
+        merged_data = {**flat_data, **nested_data}
+        return cls.model_validate(merged_data)
+class PromptLearningConfig(ExtraModel):
+    """Root configuration for Prompt Learning jobs (GEPA and MIPRO).
+    This is the top-level config loaded from a TOML file. Use `PromptLearningConfig.from_path()`
+    to load from a file, or `PromptLearningConfig.from_mapping()` to load from a dict.
+    Prompt learning optimizes prompts for a given task app and dataset using one of
+    two algorithms:
+    - **GEPA**: Genetic Evolution of Prompt Architectures - evolutionary optimization
+      with crossover, mutation, and selection across generations
+    - **MIPRO**: Meta-learning with bootstrap phase and Tree-structured Parzen Estimator
+      (TPE) optimization for hyperparameter tuning
+    Example:
+        ```python
+        from synth_ai.sdk.api.train.configs.prompt_learning import PromptLearningConfig
+        # Load from file
+        config = PromptLearningConfig.from_path("prompt_learning.toml")
+        # Or from dict
+        config = PromptLearningConfig.from_mapping({
+            "algorithm": "gepa",
+            "task_app_url": "https://your-tunnel.trycloudflare.com",
+            "gepa": {
+                "env_name": "banking77",
+                "policy": {"model": "gpt-4o-mini", "provider": "openai"},
+                "generations": 5,
+                "population_size": 4,
+            },
+        })
+        ```
+    Attributes:
+        algorithm: Optimization algorithm - "gepa" or "mipro".
+        task_app_url: URL of your task app (typically a Cloudflare tunnel URL).
+        task_app_api_key: API key for authenticating with the task app.
+            Defaults to ENVIRONMENT_API_KEY env var.
+        task_app_id: Optional identifier for the task app (for logging).
+        initial_prompt: Initial prompt pattern to seed optimization.
+        policy: Policy (LLM) configuration for rollouts.
+        mipro: MIPRO-specific configuration (if algorithm="mipro").
+        gepa: GEPA-specific configuration (if algorithm="gepa").
+        verifier: Optional verifier configuration for LLM-based reward scoring.
+        proxy_models: Proxy models configuration for cost-effective evaluation.
+        env_config: Additional environment configuration passed to task app.
+        free_tier: Enable free tier mode with cost-effective OSS models.
+    Returns:
+        After training completes, you receive a result dict:
+        ```python
+        {
+            "status": "succeeded",
+            "best_score": 0.92,
+            "best_snapshot_id": "snap_abc123",
+            "final_prompt": "You are a helpful assistant...",
+            "metrics": {
+                "generations_completed": 5,
+                "total_rollouts": 200,
+                "improvement": 0.15,
+            },
+        }
+        ```
+    Events:
+        During training, you'll receive streaming events:
+        - `prompt_learning.created` - Job created
+        - `prompt_learning.running` - Training started
+        - `prompt_learning.generation.started` - New generation began
+        - `prompt_learning.candidate.evaluated` - Candidate prompt evaluated
+        - `prompt_learning.generation.completed` - Generation finished with best score
+        - `prompt_learning.frontier.updated` - Pareto frontier updated (new best found)
+        - `prompt_learning.succeeded` / `prompt_learning.failed` - Terminal states
+    See Also:
+        - Training reference: /training/gepa, /training/mipro
+        - Quickstart: /quickstart/prompt-optimization-gepa
+    """
+    algorithm: str  # "mipro" or "gepa"
+    task_app_url: str
+    task_app_api_key: str | None = None
+    task_app_id: str | None = None
+    initial_prompt: PromptPatternConfig | None = None
+    policy: PromptLearningPolicyConfig | None = None
+    mipro: MIPROConfig | None = None
+    gepa: GEPAConfig | None = None
+    verifier: PromptLearningVerifierConfig | dict[str, Any] | None = None
+    proxy_models: ProxyModelsConfig | dict[str, Any] | None = None  # Proxy models config (can be at top-level or algorithm-specific)
+    env_config: dict[str, Any] | None = None
+    # Free tier configuration
+    free_tier: bool = Field(
+        default=False,
+        description=(
+            "Enable free tier mode. Uses cost-effective OSS models for policy and proposer. "
+            "Requires proposer_effort='LOW' or 'MEDIUM' (not 'HIGH'). "
+            "Counts against your org's free tier limits. When limits are exceeded, "
+            "remove this flag to run as paid job."
+        ),
+    )
+    @model_validator(mode="before")
+    @classmethod
+    def _validate_free_tier_config(cls, data: dict[str, Any]) -> dict[str, Any]:
+        """Validate that free tier jobs use eligible proposer_effort levels."""
+        if not isinstance(data, dict):
+            return data
+        # Check if free tier is enabled
+        free_tier = data.get("free_tier", False)
+        if isinstance(free_tier, str):
+            free_tier = free_tier.lower() in ("true", "1", "yes", "on")
+        if not free_tier:
+            return data
+        # Get proposer_effort from GEPA or MIPRO config
+        proposer_effort = None
+        gepa = data.get("gepa", {})
+        if isinstance(gepa, dict):
+            proposer_effort = gepa.get("proposer_effort")
+        if proposer_effort is None:
+            mipro = data.get("mipro", {})
+            if isinstance(mipro, dict):
+                proposer_effort = mipro.get("proposer_effort")
+        # Default to "LOW" if not specified (which is free tier eligible)
+        if proposer_effort is None:
+            proposer_effort = "LOW"
+        # Validate proposer_effort is eligible for free tier
+        free_tier_efforts = {"LOW_CONTEXT", "LOW", "MEDIUM"}
+        effort_upper = proposer_effort.upper() if isinstance(proposer_effort, str) else str(proposer_effort).upper()
+        if effort_upper not in free_tier_efforts:
+            raise ValueError(
+                f"Free tier requires proposer_effort to be one of: {', '.join(sorted(free_tier_efforts))}. "
+                f"Got: '{proposer_effort}'. "
+                f"Either change proposer_effort to 'LOW' or 'MEDIUM', or remove 'free_tier = true' from your config."
+            )
+        return data
+    @model_validator(mode="before")
+    @classmethod
+    def _check_deprecated_fields(cls, data: dict[str, Any]) -> dict[str, Any]:
+        """Remove deprecated fields that are no longer used.
+        These fields are silently removed to maintain backwards compatibility
+        with older configs while the CLI validation module warns about them.
+        """
+        if not isinstance(data, dict):
+            return data
+        # Silently remove deprecated fields (don't raise errors)
+        deprecated_fields = {"display", "results_folder", "env_file_path"}
+        for field in deprecated_fields:
+            if field in data:
+                data.pop(field, None)
+        return data
+    def to_dict(self) -> dict[str, Any]:
+        """Convert config to dictionary for API payload."""
+        result = self.model_dump(mode="python", exclude_none=True)
+        # Ensure prompt_learning section wraps everything
+        if "prompt_learning" not in result:
+            pl_data = dict(result.items())
+            result = {"prompt_learning": pl_data}
+        return result
+    @classmethod
+    def from_mapping(cls, data: Mapping[str, Any]) -> PromptLearningConfig:
+        """Load prompt learning config from dict/TOML mapping."""
+        # Remove deprecated fields at top level (silently for backwards compatibility)
+        # The CLI validation module will warn about these
+        deprecated_top_level = {"display", "results_folder", "env_file_path"}
+        # Convert to mutable dict if needed
+        if not isinstance(data, dict):
+            data = dict(data)
+        else:
+            data = dict(data)  # Create a copy to avoid modifying the original
+        for field in deprecated_top_level:
+            if field in data:
+                data.pop(field, None)
+        # Handle both [prompt_learning] section and flat structure
+        pl_data = data.get("prompt_learning", {})
+        if not pl_data:
+            # If no prompt_learning section, assume top-level is prompt_learning
+            pl_data = dict(data)
+        # Handle proxy_models at top-level FIRST (takes precedence over algorithm-specific)
+        # This ensures top-level proxy_models is available for algorithm configs to check
+        # Default: None (proxy models disabled unless explicitly configured)
+        top_level_proxy_models = None
+        if "proxy_models" in pl_data and isinstance(pl_data["proxy_models"], dict):
+            top_level_proxy_models = ProxyModelsConfig.model_validate(pl_data["proxy_models"])
+            pl_data["proxy_models"] = top_level_proxy_models
+        # If proxy_models not specified, leave as None (defaults to disabled)
+        # Handle gepa config specially to support nested structure
+        if "gepa" in pl_data and isinstance(pl_data["gepa"], dict):
+            gepa_data = pl_data["gepa"]
+            # If top-level proxy_models exists, remove gepa-specific proxy_models (top-level takes precedence)
+            if top_level_proxy_models is not None and "proxy_models" in gepa_data:
+                gepa_data.pop("proxy_models")
+            pl_data["gepa"] = GEPAConfig.from_mapping(gepa_data)
+            # Ensure gepa config uses top-level proxy_models if available
+            if top_level_proxy_models is not None:
+                # Note: gepa.proxy_models will be None, but top-level proxy_models will be used by backend
+                pass
+        # Handle mipro config - check for adaptive_pool
+        if "mipro" in pl_data and isinstance(pl_data["mipro"], dict):
+            mipro_data = pl_data["mipro"]
+            # If top-level proxy_models exists, remove mipro-specific proxy_models (top-level takes precedence)
+            if top_level_proxy_models is not None and "proxy_models" in mipro_data:
+                mipro_data.pop("proxy_models")
+            # Extract bootstrap_train_seeds and online_pool from top-level pl_data if not in mipro_data
+            # These fields can be at top-level [prompt_learning] or nested [prompt_learning.mipro]
+            if "bootstrap_train_seeds" not in mipro_data and "bootstrap_train_seeds" in pl_data:
+                mipro_data["bootstrap_train_seeds"] = pl_data["bootstrap_train_seeds"]
+            if "online_pool" not in mipro_data and "online_pool" in pl_data:
+                mipro_data["online_pool"] = pl_data["online_pool"]
+            if "test_pool" not in mipro_data and "test_pool" in pl_data:
+                mipro_data["test_pool"] = pl_data["test_pool"]
+            if "reference_pool" not in mipro_data and "reference_pool" in pl_data:
+                mipro_data["reference_pool"] = pl_data["reference_pool"]
+            # Handle adaptive_pool in mipro config (only if specified, defaults to None)
+            if "adaptive_pool" in mipro_data and isinstance(mipro_data["adaptive_pool"], dict):
+                adaptive_pool_data = mipro_data["adaptive_pool"]
+                level = adaptive_pool_data.get("level")
+                # If level not specified, default to LOW (conservative SDK default)
+                overrides = {k: v for k, v in adaptive_pool_data.items() if k != "level"}
+                # Get dev_pool_size from online_pool if available
+                dev_pool_size = None
+                online_pool = mipro_data.get("online_pool") or (mipro_data.get("seeds") or {}).get("online", [])
+                if isinstance(online_pool, list):
+                    dev_pool_size = len(online_pool)
+                try:
+                    mipro_data["adaptive_pool"] = resolve_adaptive_pool_config(
+                        level=level,  # Will default to LOW if None (via resolve_adaptive_pool_config)
+                        overrides=overrides if overrides else None,
+                        dev_pool_size=dev_pool_size,
+                    )
+                except Exception as exc:
+                    # Re-raise with clearer context
+                    raise ValueError(f"Failed to resolve mipro.adaptive_pool config: {exc}") from exc
+            # If adaptive_pool not specified, leave as None (defaults to disabled)
+            # Handle proxy_models in mipro config (only if specified, defaults to None)
+            if "proxy_models" in mipro_data and isinstance(mipro_data["proxy_models"], dict):
+                mipro_data["proxy_models"] = ProxyModelsConfig.model_validate(mipro_data["proxy_models"])
+            # If proxy_models not specified, leave as None (defaults to disabled)
+        if "verifier" in pl_data and isinstance(pl_data["verifier"], dict):
+            pl_data["verifier"] = PromptLearningVerifierConfig.model_validate(pl_data["verifier"])
+        return cls.model_validate(pl_data)
+    @classmethod
+    def from_path(cls, path: Path) -> PromptLearningConfig:
+        """Load prompt learning config from TOML file."""
+        content = load_toml(path)
+        return cls.from_mapping(content)
+__all__ = [
+    "GEPAConfig",
+    "GEPAModuleConfig",
+    "GEPARolloutConfig",
+    "GEPAEvaluationConfig",
+    "GEPAMutationConfig",
+    "GEPAPopulationConfig",
+    "GEPAArchiveConfig",
+    "GEPATokenConfig",
+    "GEPAAdaptiveBatchConfig",
+    "MIPROConfig",
+    "MIPROMetaConfig",
+    "MIPROModuleConfig",
+    "MIPROStageConfig",
+    "MIPROSeedConfig",
+    "MessagePatternConfig",
+    "PromptLearningConfig",
+    "PromptLearningPolicyConfig",
+    "PromptPatternConfig",
+    "PromptLearningVerifierConfig",
+    "ProxyModelsConfig",
+    "AdaptivePoolConfig",
+    "AdaptiveCurriculumLevel",
+    "AdaptiveBatchLevel",
+    "resolve_adaptive_pool_config",
+    "resolve_adaptive_batch_config",
+]

synth-ai 0.2.14__py3-none-any.whl → 0.4.4__py3-none-any.whl

Potentially problematic release.

synth-ai 0.2.14py3-none-any.whl → 0.4.4py3-none-any.whl