PyPI - synth-ai - Versions diffs - 0.2.9.dev7__py3-none-any.whl → 0.2.10__py3-none-any.whl - Mend

synth-ai 0.2.9.dev7py3-none-any.whl → 0.2.10py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of synth-ai might be problematic. Click here for more details.

Files changed (323) hide show

examples/__init__.py +16 -0
examples/crafter_debug_render.py +8 -11
examples/dev/qwen3_32b_qlora_4xh100.toml +40 -0
examples/multi_step/crafter_rl_lora.md +29 -0
examples/qwen_coder/README.md +102 -0
examples/qwen_coder/_shared.py +113 -0
examples/qwen_coder/configs/coder_lora_30b.toml +61 -0
examples/qwen_coder/configs/coder_lora_4b.toml +57 -0
examples/qwen_coder/configs/coder_lora_small.toml +58 -0
examples/qwen_coder/generate_dataset.py +98 -0
examples/qwen_coder/infer_ft_smoke.py +65 -0
examples/qwen_coder/infer_prod_proxy.py +73 -0
examples/qwen_coder/infer_via_synth.py +87 -0
examples/qwen_coder/scripts/infer_coder.sh +19 -0
examples/qwen_coder/scripts/train_coder_30b.sh +22 -0
examples/qwen_coder/sft_full_17b.py +103 -0
examples/qwen_coder/sft_lora_30b.py +110 -0
examples/qwen_coder/subset_jsonl.py +39 -0
examples/qwen_coder/todos.md +38 -0
examples/qwen_coder/validate_jsonl.py +60 -0
examples/rl/run_eval.py +36 -37
examples/rl/run_rl_and_save.py +5 -5
examples/rl/task_app/math_single_step.py +65 -43
examples/rl/task_app/math_task_app.py +3 -3
examples/sft/README.md +139 -0
examples/sft/configs/crafter_fft_qwen0p6b.toml +44 -0
examples/sft/configs/crafter_lora_qwen0p6b.toml +45 -0
examples/sft/evaluate.py +117 -0
examples/sft/export_dataset.py +117 -0
examples/sft/generate_traces.py +162 -0
examples/swe/__init__.py +12 -0
examples/swe/task_app/README.md +105 -0
examples/swe/task_app/__init__.py +2 -0
examples/swe/task_app/grpo_swe_mini.py +571 -0
examples/swe/task_app/grpo_swe_mini_task_app.py +136 -0
examples/swe/task_app/hosted/README.md +173 -0
examples/swe/task_app/hosted/__init__.py +5 -0
examples/swe/task_app/hosted/branching.py +143 -0
examples/swe/task_app/hosted/environment_routes.py +1289 -0
examples/swe/task_app/hosted/envs/__init__.py +1 -0
examples/swe/task_app/hosted/envs/crafter/__init__.py +6 -0
examples/swe/task_app/hosted/envs/crafter/app.py +1 -0
examples/swe/task_app/hosted/envs/crafter/environment.py +522 -0
examples/swe/task_app/hosted/envs/crafter/policy.py +478 -0
examples/swe/task_app/hosted/envs/crafter/react_agent.py +108 -0
examples/swe/task_app/hosted/envs/crafter/shared.py +305 -0
examples/swe/task_app/hosted/envs/crafter/tools.py +47 -0
examples/swe/task_app/hosted/envs/mini_swe/__init__.py +8 -0
examples/swe/task_app/hosted/envs/mini_swe/environment.py +1164 -0
examples/swe/task_app/hosted/envs/mini_swe/policy.py +355 -0
examples/swe/task_app/hosted/envs/mini_swe/shared.py +83 -0
examples/swe/task_app/hosted/envs/mini_swe/tools.py +96 -0
examples/swe/task_app/hosted/hosted_app.py +204 -0
examples/swe/task_app/hosted/inference/__init__.py +5 -0
examples/swe/task_app/hosted/inference/openai_client.py +618 -0
examples/swe/task_app/hosted/main.py +100 -0
examples/swe/task_app/hosted/policy_routes.py +1079 -0
examples/swe/task_app/hosted/registry.py +195 -0
examples/swe/task_app/hosted/rollout.py +1869 -0
examples/swe/task_app/hosted/storage/__init__.py +5 -0
examples/swe/task_app/hosted/storage/volume.py +211 -0
examples/swe/task_app/hosted/test_agents.py +161 -0
examples/swe/task_app/hosted/test_service.py +137 -0
examples/swe/task_app/hosted/utils.py +62 -0
examples/vlm/PROPOSAL.md +53 -0
examples/vlm/README.md +68 -0
examples/vlm/configs/crafter_vlm_gpt4o.toml +44 -0
examples/vlm/crafter_image_only_agent.py +207 -0
examples/vlm/crafter_openai_vlm_agent.py +277 -0
examples/vlm/filter_image_rows.py +63 -0
examples/vlm/run_crafter_vlm_benchmark.py +316 -0
examples/warming_up_to_rl/analyze_trace_db.py +5 -5
examples/warming_up_to_rl/configs/rl_from_base_qwen4b.toml +11 -1
examples/warming_up_to_rl/export_trace_sft.py +78 -21
examples/warming_up_to_rl/groq_test.py +4 -4
examples/warming_up_to_rl/manage_secrets.py +13 -18
examples/warming_up_to_rl/run_eval.py +42 -44
examples/warming_up_to_rl/run_fft_and_save.py +11 -16
examples/warming_up_to_rl/run_local_rollout.py +1 -3
examples/warming_up_to_rl/run_local_rollout_modal.py +2 -4
examples/warming_up_to_rl/run_local_rollout_parallel.py +1 -4
examples/warming_up_to_rl/run_local_rollout_traced.py +3 -5
examples/warming_up_to_rl/run_rl_and_save.py +5 -6
examples/warming_up_to_rl/run_rollout_remote.py +8 -10
examples/warming_up_to_rl/task_app/README.md +6 -2
examples/warming_up_to_rl/task_app/grpo_crafter.py +234 -35
examples/warming_up_to_rl/task_app/grpo_crafter_task_app.py +2 -3
examples/warming_up_to_rl/task_app/synth_envs_hosted/__init__.py +1 -1
examples/warming_up_to_rl/task_app/synth_envs_hosted/branching.py +9 -11
examples/warming_up_to_rl/task_app/synth_envs_hosted/environment_routes.py +131 -114
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/environment.py +101 -41
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/policy.py +73 -51
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/react_agent.py +14 -6
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/shared.py +16 -16
examples/warming_up_to_rl/task_app/synth_envs_hosted/hosted_app.py +32 -34
examples/warming_up_to_rl/task_app/synth_envs_hosted/inference/openai_client.py +94 -31
examples/warming_up_to_rl/task_app/synth_envs_hosted/main.py +0 -2
examples/warming_up_to_rl/task_app/synth_envs_hosted/policy_routes.py +303 -203
examples/warming_up_to_rl/task_app/synth_envs_hosted/registry.py +21 -23
examples/warming_up_to_rl/task_app/synth_envs_hosted/rollout.py +328 -225
examples/warming_up_to_rl/task_app/synth_envs_hosted/storage/volume.py +13 -13
examples/warming_up_to_rl/task_app/synth_envs_hosted/test_agents.py +1 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/test_service.py +1 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/utils.py +4 -3
synth_ai/api/models/supported.py +376 -0
synth_ai/api/train/builders.py +128 -21
synth_ai/api/train/cli.py +80 -64
synth_ai/api/train/config_finder.py +7 -2
synth_ai/api/train/env_resolver.py +1 -1
synth_ai/api/train/pollers.py +2 -1
synth_ai/api/train/supported_algos.py +139 -0
synth_ai/api/train/task_app.py +1 -2
synth_ai/api/train/utils.py +13 -44
synth_ai/cli/__init__.py +8 -0
synth_ai/cli/_modal_wrapper.py +28 -0
synth_ai/cli/_typer_patch.py +49 -0
synth_ai/cli/balance.py +1 -2
synth_ai/cli/calc.py +1 -1
synth_ai/cli/demo.py +2 -1
synth_ai/cli/recent.py +2 -2
synth_ai/cli/rl_demo.py +2 -1
synth_ai/cli/root.py +11 -13
synth_ai/cli/status.py +2 -2
synth_ai/cli/task_apps.py +529 -179
synth_ai/cli/traces.py +6 -4
synth_ai/cli/watch.py +12 -18
synth_ai/demo_registry.py +1 -1
synth_ai/demos/core/cli.py +36 -43
synth_ai/demos/demo_task_apps/__init__.py +3 -3
synth_ai/demos/demo_task_apps/core.py +17 -25
synth_ai/demos/demo_task_apps/crafter/grpo_crafter_task_app.py +3 -4
synth_ai/demos/demo_task_apps/math/app.py +2 -1
synth_ai/demos/demo_task_apps/math/deploy_modal.py +3 -4
synth_ai/demos/demo_task_apps/math/modal_task_app.py +16 -18
synth_ai/demos/demo_task_apps/math/task_app_entry.py +0 -1
synth_ai/environments/examples/crafter_classic/environment.py +76 -1
synth_ai/environments/reproducibility/tree.py +2 -5
synth_ai/environments/service/app.py +11 -12
synth_ai/environments/service/core_routes.py +4 -7
synth_ai/environments/stateful/engine.py +1 -1
synth_ai/environments/tasks/core.py +1 -0
synth_ai/environments/tasks/filters.py +5 -6
synth_ai/environments/tasks/utils.py +4 -5
synth_ai/handshake.py +9 -9
synth_ai/http.py +1 -1
synth_ai/http_client.py +18 -10
synth_ai/inference/client.py +15 -5
synth_ai/jobs/client.py +78 -83
synth_ai/learning/__init__.py +41 -6
synth_ai/learning/algorithms.py +14 -0
synth_ai/learning/client.py +91 -24
synth_ai/learning/config.py +2 -38
synth_ai/learning/ft_client.py +4 -59
synth_ai/learning/health.py +5 -6
synth_ai/learning/jobs.py +31 -47
synth_ai/{rl → learning/rl}/__init__.py +14 -4
synth_ai/learning/rl/client.py +267 -0
synth_ai/learning/rl/config.py +31 -0
synth_ai/{rl → learning/rl}/contracts.py +5 -8
synth_ai/{rl → learning/rl}/env_keys.py +39 -15
synth_ai/learning/rl/secrets.py +13 -0
synth_ai/learning/rl_client.py +2 -281
synth_ai/learning/sft/__init__.py +29 -0
synth_ai/learning/sft/client.py +68 -0
synth_ai/learning/sft/config.py +270 -0
synth_ai/learning/sft/data.py +295 -0
synth_ai/learning/sse.py +25 -24
synth_ai/learning/validators.py +25 -28
synth_ai/lm/__init__.py +21 -47
synth_ai/task/__init__.py +25 -27
synth_ai/task/apps/__init__.py +7 -8
synth_ai/task/auth.py +8 -8
synth_ai/task/client.py +14 -14
synth_ai/task/contracts.py +36 -35
synth_ai/task/datasets.py +6 -5
synth_ai/task/errors.py +10 -10
synth_ai/task/health.py +17 -9
synth_ai/task/json.py +58 -23
synth_ai/task/proxy.py +13 -9
synth_ai/task/rubrics.py +16 -15
synth_ai/task/server.py +12 -12
synth_ai/task/tracing_utils.py +4 -4
synth_ai/task/vendors.py +5 -6
synth_ai/tracing_v3/__init__.py +2 -0
synth_ai/tracing_v3/abstractions.py +21 -4
synth_ai/tracing_v3/decorators.py +18 -16
synth_ai/tracing_v3/hooks.py +5 -5
synth_ai/tracing_v3/llm_call_record_helpers.py +6 -6
synth_ai/tracing_v3/session_tracer.py +40 -14
synth_ai/tracing_v3/storage/base.py +85 -0
synth_ai/tracing_v3/storage/config.py +21 -8
synth_ai/tracing_v3/storage/factory.py +10 -7
synth_ai/tracing_v3/storage/utils.py +4 -2
synth_ai/tracing_v3/turso/daemon.py +7 -2
synth_ai/tracing_v3/turso/models.py +2 -2
synth_ai/tracing_v3/turso/native_manager.py +1173 -0
synth_ai/tracing_v3/utils.py +4 -4
synth_ai/v0/api/__init__.py +8 -0
synth_ai/v0/api/models/__init__.py +8 -0
synth_ai/v0/api/models/supported.py +8 -0
synth_ai/v0/config/__init__.py +15 -0
synth_ai/v0/config/base_url.py +12 -0
synth_ai/v0/lm/__init__.py +51 -0
synth_ai/{lm → v0/lm}/caching/ephemeral.py +2 -2
synth_ai/{lm → v0/lm}/caching/handler.py +4 -4
synth_ai/{lm → v0/lm}/caching/initialize.py +1 -1
synth_ai/{lm → v0/lm}/caching/persistent.py +1 -1
synth_ai/{lm → v0/lm}/config.py +6 -1
synth_ai/{lm → v0/lm}/core/all.py +9 -9
synth_ai/{lm → v0/lm}/core/main.py +6 -6
synth_ai/{lm → v0/lm}/core/main_v3.py +10 -10
synth_ai/{lm → v0/lm}/core/synth_models.py +2 -14
synth_ai/{lm → v0/lm}/core/vendor_clients.py +2 -2
synth_ai/{lm → v0/lm}/overrides.py +2 -2
synth_ai/{lm → v0/lm}/provider_support/anthropic.py +4 -4
synth_ai/{lm → v0/lm}/provider_support/openai.py +5 -5
synth_ai/{lm → v0/lm}/structured_outputs/handler.py +5 -5
synth_ai/{lm → v0/lm}/structured_outputs/rehabilitate.py +1 -1
synth_ai/{lm → v0/lm}/vendors/core/anthropic_api.py +9 -9
synth_ai/{lm → v0/lm}/vendors/core/gemini_api.py +5 -5
synth_ai/{lm → v0/lm}/vendors/core/mistral_api.py +5 -5
synth_ai/{lm → v0/lm}/vendors/core/openai_api.py +10 -10
synth_ai/{lm → v0/lm}/vendors/openai_standard.py +8 -8
synth_ai/{lm → v0/lm}/vendors/openai_standard_responses.py +2 -2
synth_ai/{lm → v0/lm}/vendors/supported/custom_endpoint.py +3 -3
synth_ai/{lm → v0/lm}/vendors/supported/deepseek.py +2 -2
synth_ai/{lm → v0/lm}/vendors/supported/grok.py +2 -2
synth_ai/{lm → v0/lm}/vendors/supported/groq.py +1 -1
synth_ai/{lm → v0/lm}/vendors/supported/ollama.py +1 -1
synth_ai/{lm → v0/lm}/vendors/supported/openrouter.py +3 -3
synth_ai/{lm → v0/lm}/vendors/supported/together.py +1 -1
synth_ai/{lm → v0/lm}/vendors/synth_client.py +1 -1
synth_ai/v0/tracing_v3/__init__.py +10 -0
synth_ai/v0/tracing_v3/abstractions.py +3 -0
synth_ai/v0/tracing_v3/decorators.py +3 -0
synth_ai/v0/tracing_v3/llm_call_record_helpers.py +3 -0
synth_ai/v0/tracing_v3/session_tracer.py +3 -0
{synth_ai-0.2.9.dev7.dist-info → synth_ai-0.2.10.dist-info}/METADATA +10 -7
{synth_ai-0.2.9.dev7.dist-info → synth_ai-0.2.10.dist-info}/RECORD +269 -233
examples/common_old/backend.py +0 -20
examples/evals_old/README.md +0 -98
examples/evals_old/__init__.py +0 -6
examples/evals_old/compare_models.py +0 -1038
examples/evals_old/example_log.md +0 -145
examples/evals_old/run_demo.sh +0 -126
examples/evals_old/trace_analysis.py +0 -270
examples/finetuning_old/_backup_synth_qwen/config.toml +0 -29
examples/finetuning_old/_backup_synth_qwen/example_log.md +0 -324
examples/finetuning_old/_backup_synth_qwen/filter_traces.py +0 -60
examples/finetuning_old/_backup_synth_qwen/filter_traces_achievements.py +0 -243
examples/finetuning_old/_backup_synth_qwen/purge_v3_traces.py +0 -109
examples/finetuning_old/_backup_synth_qwen/react_agent_lm.py +0 -1924
examples/finetuning_old/_backup_synth_qwen/readme.md +0 -49
examples/finetuning_old/_backup_synth_qwen/run_crafter_qwen4b.py +0 -114
examples/finetuning_old/_backup_synth_qwen/run_demo.sh +0 -195
examples/finetuning_old/_backup_synth_qwen/sft_kickoff.py +0 -119
examples/finetuning_old/synth_qwen_v1/README.md +0 -68
examples/finetuning_old/synth_qwen_v1/filter_traces.py +0 -60
examples/finetuning_old/synth_qwen_v1/filter_traces_achievements.py +0 -243
examples/finetuning_old/synth_qwen_v1/finetune.py +0 -46
examples/finetuning_old/synth_qwen_v1/hello_ft_model.py +0 -71
examples/finetuning_old/synth_qwen_v1/infer.py +0 -36
examples/finetuning_old/synth_qwen_v1/poll.py +0 -46
examples/finetuning_old/synth_qwen_v1/prepare_data.py +0 -35
examples/finetuning_old/synth_qwen_v1/purge_v3_traces.py +0 -109
examples/finetuning_old/synth_qwen_v1/react_agent_lm.py +0 -1933
examples/finetuning_old/synth_qwen_v1/run_crafter_sft_job.py +0 -210
examples/finetuning_old/synth_qwen_v1/run_ft_job.py +0 -237
examples/finetuning_old/synth_qwen_v1/upload_data.py +0 -34
examples/finetuning_old/synth_qwen_v1/util.py +0 -152
examples/rl_old/task_app.py +0 -1131
synth_ai/experimental/synth_oss.py +0 -445
synth_ai/learning/filtering.py +0 -0
synth_ai/learning/offline/dpo.py +0 -0
synth_ai/learning/offline/providers.py +0 -7
synth_ai/learning/offline/sft.py +0 -0
synth_ai/learning/offline/shared.py +0 -0
synth_ai/learning/online/grpo.py +0 -0
synth_ai/learning/online/irft.py +0 -0
synth_ai/learning/prompts/banking77_injection_eval.py +0 -168
synth_ai/learning/prompts/gepa.py +0 -0
synth_ai/learning/prompts/hello_world_in_context_injection_ex.py +0 -211
synth_ai/learning/prompts/mipro.py +0 -289
synth_ai/learning/prompts/random_search.py +0 -249
synth_ai/learning/prompts/run_mipro_banking77.py +0 -172
synth_ai/learning/prompts/run_random_search_banking77.py +0 -329
synth_ai/rl/secrets.py +0 -19
synth_ai/scripts/verify_rewards.py +0 -100
synth_ai/tracing/__init__.py +0 -30
synth_ai/tracing_v1/__init__.py +0 -33
synth_ai/tracing_v3/turso/__init__.py +0 -25
synth_ai/tracing_v3/turso/manager.py +0 -838
synth_ai/zyk/__init__.py +0 -30
/synth_ai/{lm → v0/lm}/caching/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/caching/constants.py +0 -0
/synth_ai/{lm → v0/lm}/caching/dbs.py +0 -0
/synth_ai/{lm → v0/lm}/constants.py +0 -0
/synth_ai/{lm → v0/lm}/core/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/core/exceptions.py +0 -0
/synth_ai/{lm → v0/lm}/cost/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/cost/monitor.py +0 -0
/synth_ai/{lm → v0/lm}/cost/statefulness.py +0 -0
/synth_ai/{lm → v0/lm}/injection.py +0 -0
/synth_ai/{lm → v0/lm}/provider_support/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/provider_support/suppress_logging.py +0 -0
/synth_ai/{lm → v0/lm}/structured_outputs/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/structured_outputs/inject.py +0 -0
/synth_ai/{lm → v0/lm}/tools/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/tools/base.py +0 -0
/synth_ai/{lm → v0/lm}/unified_interface.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/base.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/core/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/core/synth_dev_api.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/local/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/local/ollama.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/retries.py +0 -0
/synth_ai/{lm → v0/lm}/vendors/supported/__init__.py +0 -0
/synth_ai/{lm → v0/lm}/warmup.py +0 -0
{synth_ai-0.2.9.dev7.dist-info → synth_ai-0.2.10.dist-info}/WHEEL +0 -0
{synth_ai-0.2.9.dev7.dist-info → synth_ai-0.2.10.dist-info}/entry_points.txt +0 -0
{synth_ai-0.2.9.dev7.dist-info → synth_ai-0.2.10.dist-info}/licenses/LICENSE +0 -0
{synth_ai-0.2.9.dev7.dist-info → synth_ai-0.2.10.dist-info}/top_level.txt +0 -0

examples/swe/task_app/hosted/envs/mini_swe/policy.py ADDED Viewed

@@ -0,0 +1,355 @@
+from __future__ import annotations
+import json
+import logging
+import re
+from dataclasses import asdict, dataclass, field
+from typing import Any
+from jinja2 import StrictUndefined, Template
+from minisweagent.agents.default import FormatError
+from .shared import (
+    DEFAULT_ACTION_TEMPLATE,
+    DEFAULT_INSTANCE_TEMPLATE,
+    DEFAULT_SYSTEM_TEMPLATE,
+)
+from .tools import RUN_COMMAND_TOOL, SUBMIT_TOOL, TOOLS_SCHEMA
+logger = logging.getLogger(__name__)
+COMMAND_PATTERN = re.compile(r"```(?:bash)?\s*\n(.*?)\n```", re.DOTALL)
+def _render_template(source: str, **kwargs: Any) -> str:
+    return Template(source, undefined=StrictUndefined).render(**kwargs)
+@dataclass
+class MiniSwePolicyConfig:
+    system_template: str = DEFAULT_SYSTEM_TEMPLATE
+    instance_template: str = DEFAULT_INSTANCE_TEMPLATE
+    action_template: str = DEFAULT_ACTION_TEMPLATE
+    model: str | None = None
+    temperature: float | None = None
+    top_p: float | None = None
+    max_completion_tokens: int | None = None
+    tool_choice: str = "required"
+    use_tools: bool = True
+    step_limit: int = 0
+    cost_limit: float = 3.0
+    extra_template_vars: dict[str, Any] = field(default_factory=dict)
+    @classmethod
+    def from_payload(cls, payload: dict[str, Any]) -> MiniSwePolicyConfig:
+        base = MiniSwePolicyConfig()
+        for key in (
+            "system_template",
+            "instance_template",
+            "action_template",
+            "model",
+            "temperature",
+            "top_p",
+            "max_completion_tokens",
+            "tool_choice",
+            "use_tools",
+            "step_limit",
+            "cost_limit",
+        ):
+            if key in payload:
+                setattr(base, key, payload[key])
+        extra = payload.get("extra_template_vars") or {}
+        if isinstance(extra, dict):
+            base.extra_template_vars = dict(extra)
+        return base
+class MiniSwePolicy:
+    """Mini-SWE policy that mirrors the default agent prompt loop."""
+    name = "swe-mini"
+    def __init__(self, *, inference_url: str | None = None, model: str | None = None) -> None:
+        self.inference_url = inference_url
+        self.config = MiniSwePolicyConfig(model=model)
+        self.system_template = Template(self.config.system_template, undefined=StrictUndefined)
+        self.instance_template = Template(self.config.instance_template, undefined=StrictUndefined)
+        self.action_template = Template(self.config.action_template, undefined=StrictUndefined)
+        self.messages: list[dict[str, Any]] = []
+        self.turn_index = 0
+        self.history_messages: list[dict[str, Any]] = []
+        self.trajectory_history: list[dict[str, Any]] = []
+        self.task: dict[str, Any] | None = None
+        self.template_vars: dict[str, Any] = {}
+    async def initialize(self, payload: dict[str, Any]) -> None:
+        cfg = MiniSwePolicyConfig.from_payload(payload or {})
+        self.config = cfg
+        self.system_template = Template(cfg.system_template, undefined=StrictUndefined)
+        self.instance_template = Template(cfg.instance_template, undefined=StrictUndefined)
+        self.action_template = Template(cfg.action_template, undefined=StrictUndefined)
+        if cfg.model:
+            self.config.model = cfg.model
+        self.template_vars = dict(cfg.extra_template_vars or {})
+        logger.info("Mini-swe policy initialized with model=%s", self.config.model)
+        self._reset_state()
+    def _reset_state(self) -> None:
+        self.messages = []
+        self.history_messages = []
+        self.trajectory_history = []
+        self.turn_index = 0
+    def _append_user(self, content: str) -> None:
+        msg = {"role": "user", "content": content}
+        self.messages.append(msg)
+        self.history_messages.append(msg)
+        self.turn_index += 1
+    def _append_assistant(self, content: str) -> None:
+        msg = {"role": "assistant", "content": content}
+        self.messages.append(msg)
+        self.history_messages.append(msg)
+    def _apply_previous_cycle(self, metadata: dict[str, Any] | None) -> None:
+        if not metadata:
+            return
+        prev_tool_calls = metadata.get("prev_tool_calls")
+        prev_response = metadata.get("prev_inference_response")
+        prev_env_result = metadata.get("prev_env_result")
+        prev_assistant_text = metadata.get("prev_assistant_text")
+        if prev_assistant_text:
+            self._append_assistant(prev_assistant_text)
+        elif prev_response:
+            text = self._extract_response_text(prev_response)
+            if text:
+                self._append_assistant(text)
+        if prev_tool_calls or prev_env_result:
+            record = {
+                "turn": self.turn_index,
+                "tool_calls": prev_tool_calls,
+                "env_result": prev_env_result,
+            }
+            self.trajectory_history.append(record)
+    def _ensure_task_context(self, observation: dict[str, Any] | None) -> None:
+        if self.task is not None:
+            return
+        task = (observation or {}).get("task") or {}
+        self.task = dict(task)
+        render_vars = dict(self.template_vars)
+        render_vars.setdefault("task", task)
+        render_vars.setdefault("problem_statement", task.get("problem_statement", ""))
+        render_vars.setdefault("instructions", task.get("instructions", ""))
+        render_vars.setdefault("metadata", task.get("metadata", {}))
+        rendered_system = self.system_template.render(**render_vars)
+        rendered_user = self.instance_template.render(**render_vars)
+        self.messages.append({"role": "system", "content": rendered_system})
+        self.history_messages.append({"role": "system", "content": rendered_system})
+        self._append_user(rendered_user)
+    def _render_action_observation(self, observation: dict[str, Any]) -> str:
+        last = observation.get("last") or {}
+        output = {
+            "stdout": last.get("stdout", ""),
+            "returncode": last.get("returncode", 0),
+        }
+        template_input = {"output": output, "observation": observation}
+        return self.action_template.render(**template_input)
+    def _extract_response_text(self, response: dict[str, Any]) -> str:
+        try:
+            choices = response.get("choices") or []
+            for choice in choices:
+                msg = choice.get("message") or {}
+                content = msg.get("content")
+                if isinstance(content, str):
+                    return content
+                if isinstance(content, list):
+                    parts = []
+                    for entry in content:
+                        if isinstance(entry, dict):
+                            txt = entry.get("text") or entry.get("content")
+                            if isinstance(txt, str):
+                                parts.append(txt)
+                    if parts:
+                        return "".join(parts)
+        except Exception:
+            pass
+        return ""
+    def _build_inference_request(self) -> dict[str, Any]:
+        payload: dict[str, Any] = {"messages": self.messages}
+        if self.config.model:
+            payload["model"] = self.config.model
+        if self.config.temperature is not None:
+            payload["temperature"] = self.config.temperature
+        if self.config.top_p is not None:
+            payload["top_p"] = self.config.top_p
+        if self.config.max_completion_tokens is not None:
+            payload["max_completion_tokens"] = self.config.max_completion_tokens
+        if self.config.use_tools:
+            model_name = str(self.config.model or "").lower()
+            if "gpt-5" in model_name:
+                # GPT-5 models insist on a single tool; keep run_command to avoid shim calls.
+                tool_list: list[dict[str, Any]] = [RUN_COMMAND_TOOL]
+                payload["tools"] = tool_list
+                payload["tool_choice"] = {
+                    "type": "function",
+                    "function": {"name": "run_command"},
+                }
+                payload["parallel_tool_calls"] = False
+            else:
+                # Groq/Qwen and other OpenAI-compatible models handle both tools under auto mode.
+                tool_list = [RUN_COMMAND_TOOL, SUBMIT_TOOL]
+                payload["tools"] = tool_list
+                payload["tool_choice"] = "auto"
+                payload["parallel_tool_calls"] = False
+        return payload
+    async def step(
+        self,
+        observation_text: str,
+        state: dict[str, Any] | None = None,
+        metadata: dict[str, Any] | None = None,
+    ) -> tuple[list[dict[str, Any]], dict[str, Any]]:
+        raw_observation: dict[str, Any] | None = None
+        if metadata is not None:
+            candidate = metadata.get("raw_observation")
+            if isinstance(candidate, dict):
+                raw_observation = candidate
+        self._ensure_task_context(raw_observation)
+        self._apply_previous_cycle(metadata)
+        message_text = observation_text or ""
+        if raw_observation and raw_observation.get("last"):
+            rendered = self._render_action_observation(raw_observation)
+            message_text = f"{message_text}\n\n{rendered}" if message_text else rendered
+        elif not message_text:
+            message_text = (
+                "Observation: repository ready. Begin by inspecting files and planning next steps."
+            )
+        self._append_user(message_text)
+        inference_request = self._build_inference_request()
+        meta = {
+            "inference_request": inference_request,
+            "turn_index": self.turn_index,
+            "history_len": len(self.history_messages),
+            "tool_schema": TOOLS_SCHEMA,
+        }
+        if self.inference_url:
+            meta["inference_url"] = self.inference_url
+        return [], meta
+    @staticmethod
+    def _parse_command_from_text(text: str) -> str:
+        matches = COMMAND_PATTERN.findall(text or "")
+        if len(matches) != 1:
+            raise FormatError(
+                "Please provide exactly one bash command enclosed in a single ```bash``` block."
+            )
+        command = matches[0].strip()
+        if not command:
+            raise FormatError("Command block was empty. Provide a valid shell command.")
+        return command
+    def parse_response_to_tool_calls(
+        self,
+        response: dict[str, Any],
+        use_tools: bool = True,
+    ) -> list[dict[str, Any]]:
+        if use_tools:
+            # Prefer structured tool calls if available.
+            for choice in response.get("choices", []):
+                msg = choice.get("message") or {}
+                tool_calls = msg.get("tool_calls")
+                if tool_calls:
+                    parsed: list[dict[str, Any]] = []
+                    for tool in tool_calls:
+                        if not isinstance(tool, dict):
+                            continue
+                        name = tool.get("name")
+                        args = tool.get("arguments")
+                        if "function" in tool:
+                            name = tool["function"].get("name")
+                            args = tool["function"].get("arguments")
+                        if isinstance(args, str):
+                            try:
+                                args = json.loads(args)
+                            except json.JSONDecodeError:
+                                args = {"command": args}
+                        parsed.append({"tool_name": name, "arguments": args})
+                    if parsed:
+                        return parsed
+        text = self._extract_response_text(response)
+        if not text:
+            logger.warning("Model response missing content; defaulting to echo NOOP")
+            return [{"tool_name": "run_command", "arguments": {"command": "echo NOOP"}}]
+        try:
+            command = self._parse_command_from_text(text)
+        except FormatError as err:
+            logger.warning("Format error parsing command: %s; defaulting to echo NOOP", err)
+            return [{"tool_name": "run_command", "arguments": {"command": "echo NOOP"}}]
+        return [{"tool_name": "run_command", "arguments": {"command": command}}]
+    def state_dict(self) -> dict[str, Any]:
+        return {
+            "config": asdict(self.config),
+            "messages": self.messages,
+            "history_messages": self.history_messages,
+            "trajectory_history": self.trajectory_history,
+            "turn_index": self.turn_index,
+            "task": self.task,
+            "template_vars": self.template_vars,
+        }
+    def load_state_dict(self, state: dict[str, Any]) -> None:
+        self.config = MiniSwePolicyConfig.from_payload(state.get("config", {}))
+        self.system_template = Template(
+            self.config.system_template, undefined=StrictUndefined
+        )
+        self.instance_template = Template(
+            self.config.instance_template, undefined=StrictUndefined
+        )
+        self.action_template = Template(self.config.action_template, undefined=StrictUndefined)
+        self.messages = state.get("messages", [])
+        self.history_messages = state.get("history_messages", [])
+        self.trajectory_history = state.get("trajectory_history", [])
+        self.turn_index = int(state.get("turn_index", 0))
+        self.task = state.get("task")
+        self.template_vars = state.get("template_vars", {})
+    async def serialize(self) -> dict[str, Any]:
+        return {
+            "name": self.name,
+            "config": asdict(self.config),
+            "state": self.state_dict(),
+        }
+    @classmethod
+    async def deserialize(cls, payload: dict[str, Any]) -> MiniSwePolicy:
+        config = payload.get("config") or {}
+        state = payload.get("state") or {}
+        policy = cls(
+            inference_url=config.get("inference_url"),
+            model=config.get("model"),
+        )
+        await policy.initialize(config)
+        policy.load_state_dict(state)
+        return policy
+    async def terminate(self) -> None:
+        return None
+__all__ = ["MiniSwePolicy"]

examples/swe/task_app/hosted/envs/mini_swe/shared.py ADDED Viewed

@@ -0,0 +1,83 @@
+from __future__ import annotations
+import json
+import textwrap
+from typing import Any
+DEFAULT_SYSTEM_TEMPLATE = textwrap.dedent(
+    """\
+    You are a helpful assistant that can interact with a software repository by issuing shell commands.
+    Follow the workflow and formatting guidelines exactly. Every response MUST contain a THOUGHT section
+    and exactly one bash command enclosed in a single ```bash``` block.
+    """
+)
+DEFAULT_INSTANCE_TEMPLATE = textwrap.dedent(
+    """\
+    Please solve this task:
+    {{problem_statement}}
+    {{instructions}}
+    Remember:
+    - Explain your reasoning in a THOUGHT section before the command.
+    - Provide exactly one bash command wrapped in ```bash``` fences.
+    - Use non-interactive flags and prefer deterministic tooling.
+    - To finish, run `echo COMPLETE_TASK_AND_SUBMIT_FINAL_OUTPUT && git add -A && git diff --cached`.
+    """
+)
+DEFAULT_ACTION_TEMPLATE = textwrap.dedent(
+    """\
+    <returncode>{{ output.returncode }}</returncode>
+    {% if output.stdout | length < 10000 %}
+    <output>
+    {{ output.stdout }}
+    </output>
+    {% else %}
+    <warning>Output truncated ({{ output.stdout | length }} characters)</warning>
+    <output_head>{{ output.stdout[:5000] }}</output_head>
+    <output_tail>{{ output.stdout[-5000:] }}</output_tail>
+    {% endif %}
+    """
+)
+def summarise_history(history: list[dict[str, Any]], limit: int = 5) -> list[dict[str, Any]]:
+    """Return the most recent command history entries, truncated for transport."""
+    def _truncate(text: str, max_len: int = 4000) -> str:
+        if len(text) <= max_len:
+            return text
+        head = text[: max_len // 2]
+        tail = text[-max_len // 2 :]
+        return f"{head}\n... [truncated {len(text) - max_len} chars] ...\n{tail}"
+    trimmed: list[dict[str, Any]] = []
+    for item in history[-limit:]:
+        trimmed.append(
+            {
+                "command": item.get("command"),
+                "returncode": item.get("returncode"),
+                "stdout": _truncate(item.get("stdout", "")),
+                "duration": item.get("duration"),
+            }
+        )
+    return trimmed
+def format_observation(observation: dict[str, Any]) -> str:
+    """Simple pretty-printer used by tracing/logging."""
+    last = observation.get("last")
+    task = observation.get("task", {})
+    summary = {
+        "instance_id": task.get("instance_id"),
+        "step": observation.get("step_idx"),
+        "submitted": bool(observation.get("submitted")),
+        "last_command": (last or {}).get("command"),
+        "returncode": (last or {}).get("returncode"),
+    }
+    return json.dumps(summary, indent=2, sort_keys=True)

examples/swe/task_app/hosted/envs/mini_swe/tools.py ADDED Viewed

@@ -0,0 +1,96 @@
+"""Tool schema for mini-SWE command execution."""
+from __future__ import annotations
+RUN_COMMAND_TOOL = {
+    "type": "function",
+    "function": {
+        "name": "run_command",
+        "description": (
+            "Execute a bash command inside the task workspace. Use this for all shell "
+            "operations including editing files, running tests, and submitting results."
+        ),
+        "parameters": {
+            "type": "object",
+            "properties": {
+                "command": {
+                    "type": "string",
+                    "description": "The bash command to execute. Must be non-empty.",
+                },
+                "timeout": {
+                    "type": "integer",
+                    "minimum": 1,
+                    "maximum": 600,
+                    "description": (
+                        "Optional timeout (seconds) for the command. Defaults to the environment "
+                        "timeout if omitted."
+                    ),
+                },
+            },
+            "required": ["command"],
+            "additionalProperties": False,
+        },
+    },
+}
+SUBMIT_TOOL = {
+    "type": "function",
+    "function": {
+        "name": "submit_patch",
+        "description": (
+            "Finish the task and submit the final patch. Call this once you believe the "
+            "fix is complete and tests pass."
+        ),
+        "parameters": {
+            "type": "object",
+            "properties": {
+                "command": {
+                    "type": "string",
+                    "description": (
+                        "Optional submission command. Defaults to "
+                        "`echo COMPLETE_TASK_AND_SUBMIT_FINAL_OUTPUT && git add -A && git diff --cached` "
+                        "if omitted."
+                    ),
+                }
+            },
+            "required": [],
+            "additionalProperties": False,
+        },
+    },
+}
+TOOLS_SCHEMA = [RUN_COMMAND_TOOL, SUBMIT_TOOL]
+# Compatibility: some OpenAI reasoning models (e.g., gpt-5) insist on calling
+# a generic function (e.g., 'interact' or 'interact_many'). Provide stubs so
+# vendor requests do not 400 on unknown function names; the policy will map
+# these calls to concrete environment tools.
+COMPAT_INTERACT_TOOL = {
+    "type": "function",
+    "function": {
+        "name": "interact",
+        "description": "Compatibility shim for models that call a generic 'interact' tool.",
+        "parameters": {
+            "type": "object",
+            "properties": {},
+            "additionalProperties": True,
+        },
+    },
+}
+COMPAT_INTERACT_MANY_TOOL = {
+    "type": "function",
+    "function": {
+        "name": "interact_many",
+        "description": "Compatibility shim for models that call 'interact_many'.",
+        "parameters": {
+            "type": "object",
+            "properties": {},
+            "additionalProperties": True,
+        },
+    },
+}
+# Append compatibility tools last so preferred tools remain first in the list
+TOOLS_SCHEMA.extend([COMPAT_INTERACT_TOOL, COMPAT_INTERACT_MANY_TOOL])

synth-ai 0.2.9.dev7__py3-none-any.whl → 0.2.10__py3-none-any.whl

Potentially problematic release.

synth-ai 0.2.9.dev7py3-none-any.whl → 0.2.10py3-none-any.whl