PyPI - synth-ai - Versions diffs - 0.2.9.dev5__py3-none-any.whl → 0.2.9.dev6__py3-none-any.whl - Mend

synth-ai 0.2.9.dev5py3-none-any.whl → 0.2.9.dev6py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of synth-ai might be problematic. Click here for more details.

Files changed (351) hide show

examples/__init__.py +16 -0
examples/crafter_debug_render.py +23 -17
examples/qwen_coder/README.md +102 -0
examples/qwen_coder/_shared.py +113 -0
examples/qwen_coder/configs/coder_lora_30b.toml +61 -0
examples/qwen_coder/configs/coder_lora_4b.toml +57 -0
examples/qwen_coder/configs/coder_lora_small.toml +58 -0
examples/qwen_coder/generate_dataset.py +98 -0
examples/qwen_coder/infer_ft_smoke.py +64 -0
examples/qwen_coder/infer_prod_proxy.py +73 -0
examples/qwen_coder/infer_via_synth.py +87 -0
examples/qwen_coder/scripts/infer_coder.sh +18 -0
examples/qwen_coder/scripts/train_coder_30b.sh +21 -0
examples/qwen_coder/sft_full_17b.py +103 -0
examples/qwen_coder/sft_lora_30b.py +110 -0
examples/qwen_coder/subset_jsonl.py +38 -0
examples/qwen_coder/validate_jsonl.py +59 -0
examples/rl/configs/eval_base_qwen.toml +1 -1
examples/rl/configs/rl_from_base_qwen17.toml +1 -1
examples/rl/download_dataset.py +26 -10
examples/rl/run_eval.py +53 -52
examples/rl/run_rl_and_save.py +29 -12
examples/rl/task_app/math_single_step.py +180 -41
examples/rl/task_app/math_task_app.py +14 -6
examples/sft/README.md +139 -0
examples/sft/configs/crafter_fft_qwen0p6b.toml +44 -0
examples/sft/configs/crafter_lora_qwen0p6b.toml +45 -0
examples/sft/evaluate.py +117 -0
examples/sft/export_dataset.py +117 -0
examples/sft/generate_traces.py +162 -0
examples/swe/__init__.py +12 -0
examples/swe/task_app/README.md +105 -0
examples/swe/task_app/__init__.py +2 -0
examples/swe/task_app/grpo_swe_mini.py +571 -0
examples/swe/task_app/grpo_swe_mini_task_app.py +136 -0
examples/swe/task_app/hosted/README.md +173 -0
examples/swe/task_app/hosted/__init__.py +5 -0
examples/swe/task_app/hosted/branching.py +143 -0
examples/swe/task_app/hosted/environment_routes.py +1289 -0
examples/swe/task_app/hosted/envs/__init__.py +1 -0
examples/swe/task_app/hosted/envs/crafter/__init__.py +6 -0
examples/swe/task_app/hosted/envs/crafter/app.py +1 -0
examples/swe/task_app/hosted/envs/crafter/environment.py +522 -0
examples/swe/task_app/hosted/envs/crafter/policy.py +478 -0
examples/swe/task_app/hosted/envs/crafter/react_agent.py +108 -0
examples/swe/task_app/hosted/envs/crafter/shared.py +305 -0
examples/swe/task_app/hosted/envs/crafter/tools.py +47 -0
examples/swe/task_app/hosted/envs/mini_swe/__init__.py +8 -0
examples/swe/task_app/hosted/envs/mini_swe/environment.py +1164 -0
examples/swe/task_app/hosted/envs/mini_swe/policy.py +355 -0
examples/swe/task_app/hosted/envs/mini_swe/shared.py +83 -0
examples/swe/task_app/hosted/envs/mini_swe/tools.py +96 -0
examples/swe/task_app/hosted/hosted_app.py +204 -0
examples/swe/task_app/hosted/inference/__init__.py +5 -0
examples/swe/task_app/hosted/inference/openai_client.py +618 -0
examples/swe/task_app/hosted/main.py +100 -0
examples/swe/task_app/hosted/policy_routes.py +1079 -0
examples/swe/task_app/hosted/registry.py +195 -0
examples/swe/task_app/hosted/rollout.py +1869 -0
examples/swe/task_app/hosted/storage/__init__.py +5 -0
examples/swe/task_app/hosted/storage/volume.py +211 -0
examples/swe/task_app/hosted/test_agents.py +161 -0
examples/swe/task_app/hosted/test_service.py +137 -0
examples/swe/task_app/hosted/utils.py +62 -0
examples/vlm/README.md +68 -0
examples/vlm/configs/crafter_vlm_gpt4o.toml +44 -0
examples/vlm/crafter_image_only_agent.py +207 -0
examples/vlm/crafter_openai_vlm_agent.py +277 -0
examples/vlm/filter_image_rows.py +63 -0
examples/vlm/run_crafter_vlm_benchmark.py +316 -0
examples/warming_up_to_rl/analyze_trace_db.py +12 -10
examples/warming_up_to_rl/configs/rl_from_base_qwen4b.toml +11 -1
examples/warming_up_to_rl/export_trace_sft.py +218 -36
examples/warming_up_to_rl/groq_test.py +15 -8
examples/warming_up_to_rl/manage_secrets.py +29 -25
examples/warming_up_to_rl/readme.md +9 -2
examples/warming_up_to_rl/run_eval.py +137 -61
examples/warming_up_to_rl/run_fft_and_save.py +131 -60
examples/warming_up_to_rl/run_local_rollout.py +88 -39
examples/warming_up_to_rl/run_local_rollout_modal.py +114 -28
examples/warming_up_to_rl/run_local_rollout_parallel.py +81 -20
examples/warming_up_to_rl/run_local_rollout_traced.py +126 -23
examples/warming_up_to_rl/run_rl_and_save.py +35 -12
examples/warming_up_to_rl/run_rollout_remote.py +44 -19
examples/warming_up_to_rl/task_app/README.md +6 -2
examples/warming_up_to_rl/task_app/grpo_crafter.py +319 -57
examples/warming_up_to_rl/task_app/grpo_crafter_task_app.py +11 -30
examples/warming_up_to_rl/task_app/synth_envs_hosted/__init__.py +1 -1
examples/warming_up_to_rl/task_app/synth_envs_hosted/branching.py +9 -11
examples/warming_up_to_rl/task_app/synth_envs_hosted/environment_routes.py +137 -182
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/__init__.py +1 -1
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/__init__.py +1 -1
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/app.py +1 -1
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/environment.py +150 -57
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/policy.py +105 -69
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/react_agent.py +19 -7
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/shared.py +45 -42
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/tools.py +1 -1
examples/warming_up_to_rl/task_app/synth_envs_hosted/hosted_app.py +47 -45
examples/warming_up_to_rl/task_app/synth_envs_hosted/inference/__init__.py +1 -1
examples/warming_up_to_rl/task_app/synth_envs_hosted/inference/openai_client.py +198 -92
examples/warming_up_to_rl/task_app/synth_envs_hosted/main.py +0 -2
examples/warming_up_to_rl/task_app/synth_envs_hosted/policy_routes.py +361 -263
examples/warming_up_to_rl/task_app/synth_envs_hosted/registry.py +21 -23
examples/warming_up_to_rl/task_app/synth_envs_hosted/rollout.py +394 -274
examples/warming_up_to_rl/task_app/synth_envs_hosted/storage/__init__.py +1 -1
examples/warming_up_to_rl/task_app/synth_envs_hosted/storage/volume.py +56 -62
examples/warming_up_to_rl/task_app/synth_envs_hosted/test_agents.py +1 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/test_service.py +6 -15
examples/warming_up_to_rl/task_app/synth_envs_hosted/utils.py +4 -3
synth/__init__.py +14 -0
synth_ai/__init__.py +20 -4
synth_ai/api/models/supported.py +376 -0
synth_ai/api/train/builders.py +157 -26
synth_ai/api/train/cli.py +213 -57
synth_ai/api/train/config_finder.py +65 -5
synth_ai/api/train/env_resolver.py +33 -15
synth_ai/api/train/pollers.py +13 -4
synth_ai/api/train/supported_algos.py +139 -0
synth_ai/api/train/task_app.py +5 -3
synth_ai/api/train/utils.py +33 -48
synth_ai/cli/__init__.py +19 -4
synth_ai/cli/_modal_wrapper.py +28 -0
synth_ai/cli/_typer_patch.py +49 -0
synth_ai/cli/balance.py +2 -3
synth_ai/cli/calc.py +1 -1
synth_ai/cli/demo.py +21 -6
synth_ai/cli/recent.py +2 -2
synth_ai/cli/rl_demo.py +77 -17
synth_ai/cli/root.py +116 -39
synth_ai/cli/status.py +2 -2
synth_ai/cli/task_apps.py +1699 -259
synth_ai/cli/traces.py +7 -4
synth_ai/cli/turso.py +73 -0
synth_ai/cli/watch.py +12 -18
synth_ai/core/experiment.py +0 -2
synth_ai/demo_registry.py +68 -31
synth_ai/demos/core/cli.py +516 -194
synth_ai/demos/demo_task_apps/__init__.py +3 -3
synth_ai/demos/demo_task_apps/core.py +64 -28
synth_ai/demos/demo_task_apps/crafter/configs/crafter_fft_4b.toml +2 -3
synth_ai/demos/demo_task_apps/crafter/grpo_crafter_task_app.py +37 -30
synth_ai/demos/demo_task_apps/math/_common.py +1 -2
synth_ai/demos/demo_task_apps/math/app.py +2 -1
synth_ai/demos/demo_task_apps/math/deploy_modal.py +3 -6
synth_ai/demos/demo_task_apps/math/modal_task_app.py +183 -82
synth_ai/demos/demo_task_apps/math/task_app_entry.py +0 -2
synth_ai/environments/examples/bandit/engine.py +12 -4
synth_ai/environments/examples/bandit/taskset.py +4 -4
synth_ai/environments/examples/crafter_classic/environment.py +76 -1
synth_ai/environments/reproducibility/tree.py +5 -6
synth_ai/environments/service/app.py +11 -12
synth_ai/environments/service/core_routes.py +10 -9
synth_ai/environments/stateful/engine.py +1 -1
synth_ai/environments/tasks/core.py +1 -0
synth_ai/environments/tasks/filters.py +5 -6
synth_ai/environments/tasks/utils.py +4 -5
synth_ai/evals/base.py +0 -2
synth_ai/handshake.py +11 -9
synth_ai/http.py +1 -1
synth_ai/http_client.py +43 -11
synth_ai/inference/__init__.py +0 -2
synth_ai/inference/client.py +20 -6
synth_ai/jobs/client.py +103 -78
synth_ai/learning/__init__.py +41 -6
synth_ai/learning/algorithms.py +14 -0
synth_ai/learning/client.py +121 -29
synth_ai/learning/config.py +2 -40
synth_ai/learning/constants.py +0 -2
synth_ai/learning/ft_client.py +4 -56
synth_ai/learning/health.py +13 -7
synth_ai/learning/jobs.py +43 -47
synth_ai/{rl → learning/rl}/__init__.py +14 -5
synth_ai/learning/rl/client.py +267 -0
synth_ai/learning/rl/config.py +31 -0
synth_ai/{rl → learning/rl}/contracts.py +5 -10
synth_ai/{rl → learning/rl}/env_keys.py +45 -16
synth_ai/learning/rl/secrets.py +13 -0
synth_ai/learning/rl_client.py +2 -253
synth_ai/learning/sft/__init__.py +29 -0
synth_ai/learning/sft/client.py +68 -0
synth_ai/learning/sft/config.py +270 -0
synth_ai/learning/sft/data.py +295 -0
synth_ai/learning/sse.py +25 -26
synth_ai/learning/validators.py +25 -24
synth_ai/lm/__init__.py +21 -47
synth_ai/task/__init__.py +26 -27
synth_ai/task/apps/__init__.py +18 -19
synth_ai/task/auth.py +35 -23
synth_ai/task/client.py +15 -13
synth_ai/task/contracts.py +37 -35
synth_ai/task/datasets.py +9 -6
synth_ai/task/errors.py +11 -10
synth_ai/task/health.py +17 -11
synth_ai/task/json.py +58 -24
synth_ai/task/proxy.py +15 -14
synth_ai/task/rubrics.py +22 -15
synth_ai/task/server.py +43 -17
synth_ai/task/tracing_utils.py +12 -7
synth_ai/task/validators.py +0 -1
synth_ai/task/vendors.py +5 -7
synth_ai/tracing_v3/__init__.py +2 -0
synth_ai/tracing_v3/abstractions.py +21 -4
synth_ai/tracing_v3/db_config.py +26 -1
synth_ai/tracing_v3/decorators.py +18 -15
synth_ai/tracing_v3/examples/basic_usage.py +3 -2
synth_ai/tracing_v3/hooks.py +6 -4
synth_ai/tracing_v3/llm_call_record_helpers.py +6 -6
synth_ai/tracing_v3/replica_sync.py +1 -0
synth_ai/tracing_v3/session_tracer.py +63 -16
synth_ai/tracing_v3/storage/base.py +89 -1
synth_ai/tracing_v3/storage/config.py +21 -8
synth_ai/tracing_v3/storage/factory.py +10 -8
synth_ai/tracing_v3/storage/utils.py +4 -2
synth_ai/tracing_v3/turso/daemon.py +7 -2
synth_ai/tracing_v3/turso/models.py +5 -2
synth_ai/tracing_v3/turso/native_manager.py +1173 -0
synth_ai/tracing_v3/utils.py +4 -3
synth_ai/v0/api/__init__.py +8 -0
synth_ai/v0/api/models/__init__.py +8 -0
synth_ai/v0/api/models/supported.py +8 -0
synth_ai/v0/config/__init__.py +15 -0
synth_ai/v0/config/base_url.py +12 -0
synth_ai/v0/lm/__init__.py +51 -0
synth_ai/{lm → v0/lm}/caching/ephemeral.py +3 -5
synth_ai/{lm → v0/lm}/caching/handler.py +4 -4
synth_ai/{lm → v0/lm}/caching/initialize.py +1 -1
synth_ai/{lm → v0/lm}/caching/persistent.py +1 -1
synth_ai/{lm → v0/lm}/config.py +6 -1
synth_ai/{lm → v0/lm}/core/all.py +9 -9
synth_ai/{lm → v0/lm}/core/exceptions.py +0 -2
synth_ai/{lm → v0/lm}/core/main.py +19 -7
synth_ai/{lm → v0/lm}/core/main_v3.py +10 -10
synth_ai/{lm → v0/lm}/core/synth_models.py +2 -15
synth_ai/{lm → v0/lm}/core/vendor_clients.py +6 -4
synth_ai/{lm → v0/lm}/overrides.py +4 -4
synth_ai/{lm → v0/lm}/provider_support/anthropic.py +4 -4
synth_ai/{lm → v0/lm}/provider_support/openai.py +5 -5
synth_ai/{lm → v0/lm}/structured_outputs/handler.py +5 -5
synth_ai/{lm → v0/lm}/structured_outputs/rehabilitate.py +1 -1
synth_ai/{lm → v0/lm}/vendors/core/anthropic_api.py +16 -16
synth_ai/{lm → v0/lm}/vendors/core/gemini_api.py +5 -5
synth_ai/{lm → v0/lm}/vendors/core/mistral_api.py +5 -5
synth_ai/{lm → v0/lm}/vendors/core/openai_api.py +12 -10
synth_ai/{lm → v0/lm}/vendors/openai_standard.py +11 -9
synth_ai/{lm → v0/lm}/vendors/openai_standard_responses.py +8 -5
synth_ai/{lm → v0/lm}/vendors/supported/custom_endpoint.py +4 -6
synth_ai/{lm → v0/lm}/vendors/supported/deepseek.py +2 -2
synth_ai/{lm → v0/lm}/vendors/supported/grok.py +2 -2
synth_ai/{lm → v0/lm}/vendors/supported/groq.py +1 -1
synth_ai/{lm → v0/lm}/vendors/supported/ollama.py +1 -1
synth_ai/{lm → v0/lm}/vendors/supported/openrouter.py +3 -3
synth_ai/{lm → v0/lm}/vendors/supported/together.py +1 -1
synth_ai/{lm → v0/lm}/vendors/synth_client.py +38 -11
synth_ai/v0/tracing/upload.py +32 -135
synth_ai/v0/tracing_v3/__init__.py +10 -0
synth_ai/v0/tracing_v3/abstractions.py +3 -0
synth_ai/v0/tracing_v3/decorators.py +3 -0
synth_ai/v0/tracing_v3/llm_call_record_helpers.py +3 -0
synth_ai/v0/tracing_v3/session_tracer.py +3 -0
synth_ai-0.2.9.dev6.dist-info/METADATA +191 -0
{synth_ai-0.2.9.dev5.dist-info → synth_ai-0.2.9.dev6.dist-info}/RECORD +291 -262
{synth_ai-0.2.9.dev5.dist-info → synth_ai-0.2.9.dev6.dist-info}/top_level.txt +1 -0
examples/common_old/backend.py +0 -21
examples/evals_old/README.md +0 -98
examples/evals_old/__init__.py +0 -6
examples/evals_old/compare_models.py +0 -1037
examples/evals_old/example_log.md +0 -145
examples/evals_old/run_demo.sh +0 -126
examples/evals_old/trace_analysis.py +0 -270
examples/finetuning_old/_backup_synth_qwen/config.toml +0 -29
examples/finetuning_old/_backup_synth_qwen/example_log.md +0 -324
examples/finetuning_old/_backup_synth_qwen/filter_traces.py +0 -60
examples/finetuning_old/_backup_synth_qwen/filter_traces_achievements.py +0 -239
examples/finetuning_old/_backup_synth_qwen/purge_v3_traces.py +0 -109
examples/finetuning_old/_backup_synth_qwen/react_agent_lm.py +0 -1924
examples/finetuning_old/_backup_synth_qwen/readme.md +0 -49
examples/finetuning_old/_backup_synth_qwen/run_crafter_qwen4b.py +0 -114
examples/finetuning_old/_backup_synth_qwen/run_demo.sh +0 -195
examples/finetuning_old/_backup_synth_qwen/sft_kickoff.py +0 -118
examples/finetuning_old/synth_qwen_v1/README.md +0 -68
examples/finetuning_old/synth_qwen_v1/filter_traces.py +0 -60
examples/finetuning_old/synth_qwen_v1/filter_traces_achievements.py +0 -239
examples/finetuning_old/synth_qwen_v1/finetune.py +0 -46
examples/finetuning_old/synth_qwen_v1/hello_ft_model.py +0 -71
examples/finetuning_old/synth_qwen_v1/infer.py +0 -37
examples/finetuning_old/synth_qwen_v1/poll.py +0 -44
examples/finetuning_old/synth_qwen_v1/prepare_data.py +0 -35
examples/finetuning_old/synth_qwen_v1/purge_v3_traces.py +0 -109
examples/finetuning_old/synth_qwen_v1/react_agent_lm.py +0 -1932
examples/finetuning_old/synth_qwen_v1/run_crafter_sft_job.py +0 -207
examples/finetuning_old/synth_qwen_v1/run_ft_job.py +0 -232
examples/finetuning_old/synth_qwen_v1/upload_data.py +0 -34
examples/finetuning_old/synth_qwen_v1/util.py +0 -147
examples/rl_old/task_app.py +0 -962
examples/warming_up_to_rl/old/event_rewards.md +0 -234
examples/warming_up_to_rl/old/notes.md +0 -73
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_modal_ft/filter_traces_sft_turso.py +0 -738
synth_ai/environments/examples/crafter_classic/agent_demos/crafter_openai_ft/filter_traces_sft_turso.py +0 -580
synth_ai/experimental/synth_oss.py +0 -446
synth_ai/install_sqld.sh +0 -40
synth_ai/learning/filtering.py +0 -0
synth_ai/learning/offline/dpo.py +0 -0
synth_ai/learning/offline/providers.py +0 -7
synth_ai/learning/offline/sft.py +0 -0
synth_ai/learning/offline/shared.py +0 -0
synth_ai/learning/online/grpo.py +0 -0
synth_ai/learning/online/irft.py +0 -0
synth_ai/learning/prompts/banking77_injection_eval.py +0 -168
synth_ai/learning/prompts/gepa.py +0 -0
synth_ai/learning/prompts/hello_world_in_context_injection_ex.py +0 -213
synth_ai/learning/prompts/mipro.py +0 -289
synth_ai/learning/prompts/random_search.py +0 -246
synth_ai/learning/prompts/run_mipro_banking77.py +0 -172
synth_ai/learning/prompts/run_random_search_banking77.py +0 -324
synth_ai/rl/secrets.py +0 -19
synth_ai/scripts/verify_rewards.py +0 -100
synth_ai/tracing/__init__.py +0 -30
synth_ai/tracing_v1/__init__.py +0 -33
synth_ai/tracing_v3/turso/__init__.py +0 -25
synth_ai/tracing_v3/turso/manager.py +0 -774
synth_ai/zyk/__init__.py +0 -30
synth_ai-0.2.9.dev5.dist-info/METADATA +0 -131
/synth_ai/{lm → v0/lm}/caching/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/caching/constants.py +0 -0
/synth_ai/{lm → v0/lm}/caching/dbs.py +0 -0
/synth_ai/{lm → v0/lm}/constants.py +0 -0
/synth_ai/{lm → v0/lm}/core/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/cost/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/cost/monitor.py +0 -0
/synth_ai/{lm → v0/lm}/cost/statefulness.py +0 -0
/synth_ai/{lm → v0/lm}/injection.py +0 -0
/synth_ai/{lm → v0/lm}/provider_support/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/provider_support/suppress_logging.py +0 -0
/synth_ai/{lm → v0/lm}/structured_outputs/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/structured_outputs/inject.py +0 -0
/synth_ai/{lm → v0/lm}/tools/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/tools/base.py +0 -0
/synth_ai/{lm → v0/lm}/unified_interface.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/base.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/core/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/core/synth_dev_api.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/local/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/local/ollama.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/retries.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/supported/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/warmup.py +0 -0
{synth_ai-0.2.9.dev5.dist-info → synth_ai-0.2.9.dev6.dist-info}/WHEEL +0 -0
{synth_ai-0.2.9.dev5.dist-info → synth_ai-0.2.9.dev6.dist-info}/entry_points.txt +0 -0
{synth_ai-0.2.9.dev5.dist-info → synth_ai-0.2.9.dev6.dist-info}/licenses/LICENSE +0 -0

examples/swe/task_app/grpo_swe_mini.py ADDED Viewed

@@ -0,0 +1,571 @@
+"""Task app configuration for the mini-SWE agent integration."""
+from __future__ import annotations
+import json
+import logging
+import os
+from collections.abc import Iterable, Sequence
+from dataclasses import dataclass
+from pathlib import Path
+from typing import Any
+from synth_ai.task.apps import ModalDeploymentConfig, TaskAppEntry, register_task_app
+from synth_ai.task.contracts import RolloutMetrics, RolloutRequest, RolloutResponse, TaskInfo
+from synth_ai.task.datasets import TaskDatasetRegistry, TaskDatasetSpec
+from synth_ai.task.rubrics import load_rubric
+from synth_ai.task.server import ProxyConfig, RubricBundle, TaskAppConfig
+from synth_ai.task.tracing_utils import (
+    build_tracer_factory,
+    resolve_sft_output_dir,
+    resolve_tracing_db_url,
+    tracing_env_enabled,
+)
+from synth_ai.tracing_v3.session_tracer import SessionTracer
+logger = logging.getLogger(__name__)
+try:
+    from examples.swe.task_app.hosted.branching import (  # type: ignore
+        router as branching_router,
+    )
+    from examples.swe.task_app.hosted.environment_routes import (  # type: ignore # noqa: E501
+        router as environment_router,
+    )
+    from examples.swe.task_app.hosted.policy_routes import (  # type: ignore
+        router as policy_router,
+    )
+    from examples.swe.task_app.hosted.rollout import (  # type: ignore
+        RolloutEnvSpec as LegacyRolloutEnvSpec,
+    )
+    from examples.swe.task_app.hosted.rollout import (
+        RolloutPolicySpec as LegacyRolloutPolicySpec,
+    )
+    from examples.swe.task_app.hosted.rollout import (
+        RolloutRecordConfig as LegacyRolloutRecordConfig,
+    )
+    from examples.swe.task_app.hosted.rollout import (
+        RolloutRequest as LegacyRolloutRequest,
+    )
+    from examples.swe.task_app.hosted.rollout import (
+        RolloutResponse as LegacyRolloutResponse,
+    )
+    from examples.swe.task_app.hosted.rollout import (
+        RolloutSafetyConfig as LegacyRolloutSafetyConfig,
+    )
+    from examples.swe.task_app.hosted.rollout import (
+        execute_rollout as legacy_execute_rollout,
+    )
+    HAS_HOSTED = True
+except Exception:
+    try:  # pragma: no cover - optional dependency path
+        from examples.warming_up_to_rl.task_app.synth_envs_hosted.branching import (  # type: ignore
+            router as branching_router,
+        )
+        from examples.warming_up_to_rl.task_app.synth_envs_hosted.environment_routes import (  # type: ignore # noqa: E501
+            router as environment_router,
+        )
+        from examples.warming_up_to_rl.task_app.synth_envs_hosted.policy_routes import (  # type: ignore
+            router as policy_router,
+        )
+        from examples.warming_up_to_rl.task_app.synth_envs_hosted.rollout import (  # type: ignore
+            RolloutEnvSpec as LegacyRolloutEnvSpec,
+        )
+        from examples.warming_up_to_rl.task_app.synth_envs_hosted.rollout import (
+            RolloutPolicySpec as LegacyRolloutPolicySpec,
+        )
+        from examples.warming_up_to_rl.task_app.synth_envs_hosted.rollout import (
+            RolloutRecordConfig as LegacyRolloutRecordConfig,
+        )
+        from examples.warming_up_to_rl.task_app.synth_envs_hosted.rollout import (
+            RolloutRequest as LegacyRolloutRequest,
+        )
+        from examples.warming_up_to_rl.task_app.synth_envs_hosted.rollout import (
+            RolloutResponse as LegacyRolloutResponse,
+        )
+        from examples.warming_up_to_rl.task_app.synth_envs_hosted.rollout import (
+            RolloutSafetyConfig as LegacyRolloutSafetyConfig,
+        )
+        from examples.warming_up_to_rl.task_app.synth_envs_hosted.rollout import (
+            execute_rollout as legacy_execute_rollout,
+        )
+        HAS_HOSTED = True
+    except Exception as exc:  # pragma: no cover - optional dependency path
+        logger.warning(
+            "mini-swe task app running without hosted environment support: %s", exc
+        )
+        HAS_HOSTED = False
+_HERE = Path(__file__).resolve()
+def _resolve_repo_root() -> Path:
+    candidates = [
+        Path(os.getenv("SYNTH_AI_REPO_ROOT", "")).expanduser(),
+        _HERE.parents[3],
+        Path(__file__).resolve().parents[2],
+        Path.cwd(),
+    ]
+    for candidate in candidates:
+        if not candidate:
+            continue
+        try:
+            resolved = candidate.resolve()
+        except Exception:
+            continue
+        if (resolved / "pyproject.toml").exists():
+            return resolved
+        if (resolved / "synth_ai").is_dir():
+            return resolved
+    return Path(__file__).resolve().parents[3]
+REPO_ROOT = _resolve_repo_root()
+def _load_hf_dataset(source: str) -> list[dict[str, Any]]:
+    try:
+        from datasets import load_dataset  # type: ignore
+    except Exception as exc:  # pragma: no cover - optional dependency
+        raise RuntimeError(
+            "datasets package is required for hf:// dataset sources. "
+            "pip install datasets or set SWE_MINI_DATASET=file://<path>."
+        ) from exc
+    # source looks like hf://namespace/dataset:split
+    cleaned = source[len("hf://") :]
+    if ":" in cleaned:
+        dataset_id, split = cleaned.split(":", 1)
+    else:
+        dataset_id, split = cleaned, "train"
+    logger.info("Loading HuggingFace dataset %s split=%s", dataset_id, split)
+    ds = load_dataset(dataset_id, split=split)
+    return [dict(record) for record in ds]
+def _parse_records(text: str) -> list[dict[str, Any]]:
+    text = text.strip()
+    if not text:
+        return []
+    if text.startswith("["):
+        parsed = json.loads(text)
+        if isinstance(parsed, list):
+            return [dict(item) for item in parsed]
+        raise ValueError("Expected list JSON for dataset file")
+    records = []
+    for line in text.splitlines():
+        line = line.strip()
+        if not line:
+            continue
+        records.append(json.loads(line))
+    return records
+def _normalize_instance(raw: dict[str, Any]) -> dict[str, Any]:
+    instance_id = raw.get("instance_id") or raw.get("id")
+    if not instance_id:
+        raise ValueError(f"Dataset entry missing instance_id: {raw}")
+    problem_statement = raw.get("problem_statement") or raw.get("prompt") or ""
+    instructions = raw.get("instructions") or raw.get("extra") or ""
+    metadata = raw.get("metadata") or {}
+    if not isinstance(metadata, dict):
+        metadata = {"raw_metadata": metadata}
+    for key, value in raw.items():
+        if key in {"metadata", "instructions", "problem_statement"}:
+            continue
+        metadata.setdefault(key, value)
+    metadata.setdefault("raw_instance", raw)
+    metadata.setdefault("instance_id", instance_id)
+    if "image_name" not in metadata:
+        iid = str(instance_id).replace("__", "_1776_")
+        metadata["image_name"] = f"docker.io/swebench/sweb.eval.x86_64.{iid}:latest".lower()
+    return {
+        "instance_id": instance_id,
+        "problem_statement": problem_statement,
+        "instructions": instructions,
+        "metadata": metadata,
+    }
+def _load_instances() -> list[dict[str, Any]]:
+    default_dataset = "hf://princeton-nlp/SWE-Bench_Verified:test"
+    source = os.getenv("SWE_MINI_DATASET", default_dataset).strip()
+    if not source:
+        source = default_dataset
+    if source.startswith("file://"):
+        path = Path(source[len("file://") :]).expanduser()
+        if not path.exists():
+            raise FileNotFoundError(f"SWE_MINI_DATASET file not found: {path}")
+        data = path.read_text(encoding="utf-8")
+        records = _parse_records(data)
+    elif source.startswith("hf://"):
+        records = _load_hf_dataset(source)
+    else:
+        path = Path(source).expanduser()
+        if path.exists():
+            data = path.read_text(encoding="utf-8")
+            records = _parse_records(data)
+        else:
+            raise ValueError(
+                f"Unsupported SWE_MINI_DATASET value '{source}'. "
+                "Use file://..., or hf://dataset:split."
+            )
+    normalised = []
+    for record in records:
+        try:
+            normalised.append(_normalize_instance(record))
+        except Exception as exc:
+            logger.warning("Skipping invalid dataset entry: %s", exc)
+    if not normalised:
+        raise RuntimeError("No valid mini-swe dataset entries found.")
+    return normalised
+@dataclass
+class MiniSweDataset:
+    instances: list[dict[str, Any]]
+    def __post_init__(self) -> None:
+        self.by_id = {item["instance_id"]: item for item in self.instances}
+    def ids(self) -> list[str]:
+        return [item["instance_id"] for item in self.instances]
+    def get(self, instance_id: str) -> dict[str, Any]:
+        if instance_id not in self.by_id:
+            raise KeyError(f"Unknown mini-swe instance_id: {instance_id}")
+        return self.by_id[instance_id]
+    def sample_by_index(self, index: int) -> dict[str, Any]:
+        if not self.instances:
+            raise RuntimeError("Mini-swe dataset is empty")
+        return self.instances[index % len(self.instances)]
+DATASET_SPEC = TaskDatasetSpec(
+    id="mini_swe_sample",
+    name="mini-SWE Tasks",
+    version="0.1.0",
+    splits=["train"],
+    default_split="train",
+    description="Interactive SWE tasks executed via mini-swe-agent environments.",
+)
+def build_dataset() -> tuple[TaskDatasetRegistry, MiniSweDataset]:
+    registry = TaskDatasetRegistry()
+    dataset = MiniSweDataset(_load_instances())
+    registry.register(DATASET_SPEC, lambda _spec: dataset, cache=True)
+    return registry, dataset
+def _base_task_info(dataset: MiniSweDataset) -> TaskInfo:
+    return TaskInfo(
+        task={"id": "swe_mini", "name": "mini-SWE Tasks", "version": "0.1.0"},
+        environments=["swe-mini"],
+        action_space={
+            "type": "tool",
+            "tools": ["run_command", "submit_patch"],
+            "description": "Issue bash commands or submit the final patch.",
+        },
+        observation={
+            "summary": "Step-wise command output and submission status.",
+            "keys": ["task", "history", "last", "submitted"],
+        },
+        dataset={
+            **DATASET_SPEC.model_dump(),
+            "instances": dataset.ids()[:50],
+        },
+        rubric={
+            "version": "1",
+            "criteria_count": 2,
+            "source": "inline",
+            "aggregation": "weighted_sum",
+        },
+        inference={
+            "supports_proxy": True,
+            "endpoints": {
+                "openai": "/proxy/v1/chat/completions",
+                "groq": "/proxy/groq/v1/chat/completions",
+            },
+            "tool": {"name": "run_command", "parallel_tool_calls": False},
+        },
+        capabilities={
+            "supports_rollout": True,
+            "supports_env_lifecycle": True,
+            "requires_api_key_header": True,
+        },
+        limits={"max_ops": 2000, "max_time_s": 7200},
+    )
+OUTCOME_RUBRIC = load_rubric(
+    {
+        "version": "1",
+        "goal_text": "Complete the software engineering task and ensure tests pass.",
+        "aggregation": "weighted_sum",
+        "criteria": [
+            {
+                "id": "functional",
+                "description": "All acceptance tests and lint checks succeed.",
+                "weight": 1.0,
+            },
+            {
+                "id": "quality",
+                "description": "Code changes follow project conventions and include required updates.",
+                "weight": 1.0,
+            },
+        ],
+    }
+)
+EVENTS_RUBRIC = load_rubric(
+    {
+        "version": "1",
+        "goal_text": "Encourage deliberate, well-scoped shell interactions.",
+        "aggregation": "weighted_sum",
+        "criteria": [
+            {
+                "id": "productive_steps",
+                "description": "Commands meaningfully progress the task (editing files, running tests, inspecting context).",
+                "weight": 1.0,
+            }
+        ],
+    }
+)
+def describe_taskset(dataset: MiniSweDataset) -> dict[str, Any]:
+    return {
+        **DATASET_SPEC.model_dump(),
+        "instance_ids": dataset.ids(),
+    }
+def provide_task_instances(
+    dataset: MiniSweDataset, base_info: TaskInfo, seeds: Sequence[int]
+) -> Iterable[TaskInfo]:
+    infos: list[TaskInfo] = []
+    for seed in seeds:
+        instance = dataset.sample_by_index(int(seed))
+        infos.append(
+            TaskInfo(
+                task=base_info.task,
+                environments=base_info.environments,
+                action_space=base_info.action_space,
+                observation={**base_info.observation, "instance_id": instance["instance_id"]},
+                dataset={**base_info.dataset, "instance_id": instance["instance_id"]},
+                rubric=base_info.rubric,
+                inference=base_info.inference,
+                capabilities=base_info.capabilities,
+                limits=base_info.limits,
+            )
+        )
+    return infos
+def _ensure_env_has_task(
+    dataset: MiniSweDataset, env_spec: LegacyRolloutEnvSpec
+) -> LegacyRolloutEnvSpec:
+    config = dict(env_spec.config or {})
+    if "task" not in config:
+        instance_id = config.get("instance_id")
+        if not instance_id:
+            raise ValueError("mini-swe rollout request requires env.config.instance_id")
+        config["task"] = dataset.get(instance_id)
+    return env_spec.model_copy(update={"config": config})
+def build_config() -> TaskAppConfig:
+    registry, dataset = build_dataset()
+    base_info = _base_task_info(dataset)
+    tracing_enabled = tracing_env_enabled()
+    tracing_db_url = resolve_tracing_db_url()
+    tracer_factory = build_tracer_factory(SessionTracer, enabled=tracing_enabled, db_url=tracing_db_url)
+    sft_output_dir = resolve_sft_output_dir()
+    hosted_task_app = None
+    if HAS_HOSTED:
+        HostedTaskAppCls = None
+        try:
+            from examples.swe.task_app.hosted.hosted_app import (  # type: ignore
+                TaskApp as HostedTaskApp,
+            )
+            HostedTaskAppCls = HostedTaskApp
+        except Exception:
+            try:
+                from examples.warming_up_to_rl.task_app.synth_envs_hosted.hosted_app import (  # type: ignore
+                    TaskApp as HostedTaskApp,
+                )
+                HostedTaskAppCls = HostedTaskApp
+            except Exception as exc:  # pragma: no cover - optional dependency path
+                logger.warning("Unable to import HostedTaskApp for swe-mini: %s", exc)
+        if HostedTaskAppCls is not None:
+            hosted_task_app = HostedTaskAppCls(
+                service_base_url=os.getenv("SWE_MINI_SERVICE_BASE_URL"),
+                vllm_base_url=os.getenv(
+                    "SWE_MINI_VLLM_BASE_URL",
+                    "http://localhost:8020/proxy",
+                ),
+                default_model=os.getenv("SWE_MINI_DEFAULT_MODEL"),
+            )
+    app_state: dict[str, Any] = {
+        "dataset": dataset,
+        "allowed_environments": ["swe-mini"],
+        "tracing_enabled": tracing_enabled,
+    }
+    if tracer_factory is not None:
+        app_state["session_tracer_factory"] = tracer_factory
+    if sft_output_dir:
+        app_state["sft_output_dir"] = sft_output_dir
+    if hosted_task_app is not None:
+        app_state["task_app"] = hosted_task_app
+    if tracing_enabled:
+        logger.info("[swe-mini:tracing] enabled (db=%s)", tracing_db_url or "default")
+    else:
+        logger.info("[swe-mini:tracing] disabled")
+    if sft_output_dir:
+        logger.info("[swe-mini:sft] writing JSONL to %s", sft_output_dir)
+    routers: tuple = (environment_router, policy_router, branching_router) if HAS_HOSTED else ()
+    async def rollout_executor(request: RolloutRequest, fastapi_request) -> RolloutResponse:
+        if not HAS_HOSTED:
+            return RolloutResponse(
+                run_id=request.run_id,
+                trajectories=[],
+                branches={},
+                metrics=RolloutMetrics(
+                    episode_returns=[],
+                    mean_return=0.0,
+                    num_steps=0,
+                    num_episodes=0,
+                ),
+                aborted=True,
+                ops_executed=0,
+                trace=None,
+            )
+        env_spec = _ensure_env_has_task(dataset, request.env)
+        legacy_request = LegacyRolloutRequest(
+            run_id=request.run_id,
+            env=LegacyRolloutEnvSpec(
+                env_id=request.env.env_id,
+                env_name=env_spec.env_name or "swe-mini",
+                config=env_spec.config,
+                seed=request.env.seed,
+            ),
+            policy=LegacyRolloutPolicySpec(
+                policy_id=request.policy.policy_id,
+                policy_name=request.policy.policy_name or "swe-mini-react",
+                config=request.policy.config,
+            ),
+            ops=request.ops,
+            record=LegacyRolloutRecordConfig(**request.record.model_dump()),
+            on_done=request.on_done,
+            branch=getattr(request, "branch", None),
+            safety=LegacyRolloutSafetyConfig(**request.safety.model_dump()),
+            training_session_id=request.training_session_id,
+            synth_base_url=request.synth_base_url,
+        )
+        legacy_response: LegacyRolloutResponse = await legacy_execute_rollout(
+            legacy_request, fastapi_request
+        )
+        data = legacy_response.model_dump()
+        metrics = data.get("metrics", {}) or {}
+        metrics.setdefault("details", {})
+        data["metrics"] = metrics
+        return RolloutResponse.model_validate(data)
+    async def _noop_rollout(request: RolloutRequest, fastapi_request) -> RolloutResponse:
+        return RolloutResponse(
+            run_id=request.run_id,
+            trajectories=[],
+            branches={},
+            metrics=RolloutMetrics(
+                episode_returns=[],
+                mean_return=0.0,
+                num_steps=0,
+                num_episodes=0,
+            ),
+            aborted=True,
+            ops_executed=0,
+            trace=None,
+        )
+    rollout_callable = rollout_executor if HAS_HOSTED else _noop_rollout
+    config = TaskAppConfig(
+        app_id="swe-mini",
+        name="mini-SWE Task App",
+        description="Interactive SWE tasks executed via mini-swe-agent environments.",
+        base_task_info=base_info,
+        describe_taskset=lambda: describe_taskset(dataset),
+        provide_task_instances=lambda seeds: provide_task_instances(dataset, base_info, seeds),
+        rollout=rollout_callable,
+        dataset_registry=registry,
+        rubrics=RubricBundle(outcome=OUTCOME_RUBRIC, events=EVENTS_RUBRIC),
+        proxy=ProxyConfig(enable_openai=True, enable_groq=True),
+        routers=routers,
+        app_state=app_state,
+        cors_origins=["*"],
+    )
+    return config
+register_task_app(
+    entry=TaskAppEntry(
+        app_id="swe-mini",
+        description="mini-swe-agent task app with rollout + proxy endpoints",
+        config_factory=build_config,
+        aliases=("mini-swe", "swe-mini-task"),
+        env_files=(str(REPO_ROOT / "backend" / ".env.dev"),),
+        modal=ModalDeploymentConfig(
+            app_name="swe-mini-task-app",
+            python_version="3.11",
+            pip_packages=(
+                "fastapi>=0.109.0",
+                "uvicorn>=0.23.0",
+                "pydantic>=2.7.0",
+                "numpy>=1.24.0",
+                "aiohttp>=3.8.0",
+                "httpx>=0.24.0",
+                "python-dotenv>=1.0.1",
+                "sqlalchemy>=2.0.42",
+                "aiosqlite>=0.21.0",
+                "greenlet>=3.0.3",
+                "modal>=0.63.0",
+                "tenacity>=8.2.3",
+                "swebench[modal]>=1.1.0",
+                "swe-rex[modal]>=1.4.0",
+                "mini-swe-agent>=1.14.2",
+                "datasets>=2.18.0",
+                "litellm>=1.75.5",
+                "rich>=13.7.0",
+                "jinja2>=3.1.3",
+            ),
+            extra_local_dirs=(
+                (str(REPO_ROOT / "synth_ai"), "/opt/synth_ai_repo/synth_ai"),
+                (
+                    str(REPO_ROOT / "examples" / "swe" / "task_app" / "hosted"),
+                    "/opt/synth_ai_repo/examples/swe/task_app/hosted",
+                ),
+                (
+                    str(_HERE.parent),
+                    "/opt/synth_ai_repo/examples/swe/task_app",
+                ),
+            ),
+            secret_names=("swe-mini-environment", "groq-api-key", "openai-api-key"),
+            memory=32768,
+            cpu=6.0,
+            max_containers=10,
+        ),
+    )
+)

synth-ai 0.2.9.dev5__py3-none-any.whl → 0.2.9.dev6__py3-none-any.whl

Potentially problematic release.

synth-ai 0.2.9.dev5py3-none-any.whl → 0.2.9.dev6py3-none-any.whl