PyPI - synth-ai - Versions diffs - 0.2.14__py3-none-any.whl → 0.2.16__py3-none-any.whl - Mend

synth-ai 0.2.14py3-none-any.whl → 0.2.16py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Potentially problematic release.

This version of synth-ai might be problematic. Click here for more details.

Files changed (236) hide show

examples/README.md +1 -0
examples/multi_step/SFT_README.md +147 -0
examples/multi_step/configs/crafter_rl_stepwise_hosted_judge.toml +9 -9
examples/multi_step/configs/crafter_sft_qwen30b_lora.toml +62 -0
examples/multi_step/convert_traces_to_sft.py +84 -0
examples/multi_step/run_sft_qwen30b.sh +45 -0
examples/qwen_coder/configs/coder_lora_30b.toml +2 -1
examples/qwen_coder/configs/coder_lora_4b.toml +2 -1
examples/qwen_coder/configs/coder_lora_small.toml +2 -1
examples/qwen_vl/BUGS_AND_FIXES.md +232 -0
examples/qwen_vl/IMAGE_VALIDATION_COMPLETE.md +271 -0
examples/qwen_vl/IMAGE_VALIDATION_SUMMARY.md +260 -0
examples/qwen_vl/INFERENCE_SFT_TESTS.md +412 -0
examples/qwen_vl/NEXT_STEPS_2B.md +325 -0
examples/qwen_vl/QUICKSTART.md +327 -0
examples/qwen_vl/QUICKSTART_RL_VISION.md +110 -0
examples/qwen_vl/README.md +154 -0
examples/qwen_vl/RL_VISION_COMPLETE.md +475 -0
examples/qwen_vl/RL_VISION_TESTING.md +333 -0
examples/qwen_vl/SDK_VISION_INTEGRATION.md +328 -0
examples/qwen_vl/SETUP_COMPLETE.md +275 -0
examples/qwen_vl/VISION_TESTS_COMPLETE.md +490 -0
examples/qwen_vl/VLM_PIPELINE_COMPLETE.md +242 -0
examples/qwen_vl/__init__.py +2 -0
examples/qwen_vl/collect_data_via_cli.md +423 -0
examples/qwen_vl/collect_vision_traces.py +368 -0
examples/qwen_vl/configs/crafter_rl_vision_qwen3vl4b.toml +127 -0
examples/qwen_vl/configs/crafter_vlm_sft_example.toml +60 -0
examples/qwen_vl/configs/eval_gpt4o_mini_vision.toml +43 -0
examples/qwen_vl/configs/eval_gpt4o_vision_proper.toml +29 -0
examples/qwen_vl/configs/eval_gpt5nano_vision.toml +45 -0
examples/qwen_vl/configs/eval_qwen2vl_vision.toml +44 -0
examples/qwen_vl/configs/filter_qwen2vl_sft.toml +50 -0
examples/qwen_vl/configs/filter_vision_sft.toml +53 -0
examples/qwen_vl/configs/filter_vision_test.toml +8 -0
examples/qwen_vl/configs/sft_qwen3_vl_2b_test.toml +54 -0
examples/qwen_vl/crafter_gpt5nano_agent.py +308 -0
examples/qwen_vl/crafter_qwen_vl_agent.py +300 -0
examples/qwen_vl/run_vision_comparison.sh +62 -0
examples/qwen_vl/run_vision_sft_pipeline.sh +175 -0
examples/qwen_vl/test_image_validation.py +201 -0
examples/qwen_vl/test_sft_vision_data.py +110 -0
examples/rl/README.md +1 -1
examples/rl/configs/eval_base_qwen.toml +17 -0
examples/rl/configs/eval_rl_qwen.toml +13 -0
examples/rl/configs/rl_from_base_qwen.toml +37 -0
examples/rl/configs/rl_from_base_qwen17.toml +76 -0
examples/rl/configs/rl_from_ft_qwen.toml +37 -0
examples/rl/run_eval.py +436 -0
examples/rl/run_rl_and_save.py +111 -0
examples/rl/task_app/README.md +22 -0
examples/rl/task_app/math_single_step.py +990 -0
examples/rl/task_app/math_task_app.py +111 -0
examples/sft/README.md +5 -5
examples/sft/configs/crafter_fft_qwen0p6b.toml +4 -2
examples/sft/configs/crafter_lora_qwen0p6b.toml +4 -3
examples/sft/evaluate.py +2 -4
examples/sft/export_dataset.py +7 -4
examples/swe/task_app/README.md +1 -1
examples/swe/task_app/grpo_swe_mini.py +0 -1
examples/swe/task_app/grpo_swe_mini_task_app.py +0 -12
examples/swe/task_app/hosted/envs/mini_swe/environment.py +13 -13
examples/swe/task_app/hosted/policy_routes.py +0 -2
examples/swe/task_app/hosted/rollout.py +0 -8
examples/task_apps/crafter/task_app/grpo_crafter.py +4 -7
examples/task_apps/crafter/task_app/synth_envs_hosted/envs/crafter/policy.py +59 -1
examples/task_apps/crafter/task_app/synth_envs_hosted/inference/openai_client.py +30 -0
examples/task_apps/crafter/task_app/synth_envs_hosted/policy_routes.py +62 -31
examples/task_apps/crafter/task_app/synth_envs_hosted/rollout.py +16 -14
examples/task_apps/enron/__init__.py +1 -0
examples/vlm/README.md +3 -3
examples/vlm/configs/crafter_vlm_gpt4o.toml +2 -0
examples/vlm/crafter_openai_vlm_agent.py +3 -5
examples/vlm/filter_image_rows.py +1 -1
examples/vlm/run_crafter_vlm_benchmark.py +2 -2
examples/warming_up_to_rl/_utils.py +92 -0
examples/warming_up_to_rl/analyze_trace_db.py +1 -1
examples/warming_up_to_rl/configs/crafter_fft.toml +2 -0
examples/warming_up_to_rl/configs/crafter_fft_4b.toml +2 -0
examples/warming_up_to_rl/configs/eval_fft_qwen4b.toml +2 -0
examples/warming_up_to_rl/configs/eval_groq_qwen32b.toml +2 -0
examples/warming_up_to_rl/configs/eval_modal_qwen4b.toml +2 -1
examples/warming_up_to_rl/configs/rl_from_base_qwen4b.toml +2 -1
examples/warming_up_to_rl/configs/rl_from_ft.toml +2 -0
examples/warming_up_to_rl/export_trace_sft.py +174 -60
examples/warming_up_to_rl/readme.md +63 -132
examples/warming_up_to_rl/run_fft_and_save.py +1 -1
examples/warming_up_to_rl/run_rl_and_save.py +1 -1
examples/warming_up_to_rl/task_app/README.md +42 -0
examples/warming_up_to_rl/task_app/grpo_crafter.py +696 -0
examples/warming_up_to_rl/task_app/grpo_crafter_task_app.py +135 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/README.md +173 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/__init__.py +5 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/branching.py +143 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/environment_routes.py +1226 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/__init__.py +1 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/__init__.py +6 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/app.py +1 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/environment.py +522 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/policy.py +478 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/react_agent.py +108 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/shared.py +305 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/envs/crafter/tools.py +47 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/hosted_app.py +204 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/inference/__init__.py +5 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/inference/openai_client.py +618 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/main.py +100 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/policy_routes.py +1081 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/registry.py +195 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/rollout.py +1861 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/storage/__init__.py +5 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/storage/volume.py +211 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/test_agents.py +161 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/test_service.py +137 -0
examples/warming_up_to_rl/task_app/synth_envs_hosted/utils.py +62 -0
synth_ai/__init__.py +44 -30
synth_ai/_utils/__init__.py +47 -0
synth_ai/_utils/base_url.py +10 -0
synth_ai/_utils/http.py +10 -0
synth_ai/_utils/prompts.py +10 -0
synth_ai/_utils/task_app_state.py +12 -0
synth_ai/_utils/user_config.py +10 -0
synth_ai/api/models/supported.py +144 -7
synth_ai/api/train/__init__.py +13 -1
synth_ai/api/train/cli.py +30 -7
synth_ai/api/train/config_finder.py +18 -11
synth_ai/api/train/env_resolver.py +13 -10
synth_ai/cli/__init__.py +62 -78
synth_ai/cli/_modal_wrapper.py +7 -5
synth_ai/cli/_typer_patch.py +0 -2
synth_ai/cli/_validate_task_app.py +22 -4
synth_ai/cli/legacy_root_backup.py +3 -1
synth_ai/cli/lib/__init__.py +10 -0
synth_ai/cli/lib/task_app_discovery.py +7 -0
synth_ai/cli/lib/task_app_env.py +518 -0
synth_ai/cli/recent.py +2 -1
synth_ai/cli/setup.py +266 -0
synth_ai/cli/status.py +1 -1
synth_ai/cli/task_app_deploy.py +16 -0
synth_ai/cli/task_app_list.py +25 -0
synth_ai/cli/task_app_modal_serve.py +16 -0
synth_ai/cli/task_app_serve.py +18 -0
synth_ai/cli/task_apps.py +71 -31
synth_ai/cli/traces.py +1 -1
synth_ai/cli/train.py +18 -0
synth_ai/cli/tui.py +7 -2
synth_ai/cli/turso.py +1 -1
synth_ai/cli/watch.py +1 -1
synth_ai/demos/__init__.py +10 -0
synth_ai/demos/core/__init__.py +28 -1
synth_ai/demos/crafter/__init__.py +1 -0
synth_ai/demos/crafter/crafter_fft_4b.toml +55 -0
synth_ai/demos/crafter/grpo_crafter_task_app.py +185 -0
synth_ai/demos/crafter/rl_from_base_qwen4b.toml +74 -0
synth_ai/demos/demo_registry.py +176 -0
synth_ai/demos/math/__init__.py +1 -0
synth_ai/demos/math/_common.py +16 -0
synth_ai/demos/math/app.py +38 -0
synth_ai/demos/math/config.toml +76 -0
synth_ai/demos/math/deploy_modal.py +54 -0
synth_ai/demos/math/modal_task_app.py +702 -0
synth_ai/demos/math/task_app_entry.py +51 -0
synth_ai/environments/environment/core.py +7 -1
synth_ai/environments/examples/bandit/engine.py +0 -1
synth_ai/environments/examples/bandit/environment.py +0 -1
synth_ai/environments/examples/wordle/environment.py +0 -1
synth_ai/evals/base.py +16 -5
synth_ai/evals/client.py +1 -1
synth_ai/inference/client.py +1 -1
synth_ai/judge_schemas.py +8 -8
synth_ai/learning/client.py +1 -1
synth_ai/learning/health.py +1 -1
synth_ai/learning/jobs.py +1 -1
synth_ai/learning/rl/client.py +1 -1
synth_ai/learning/rl/env_keys.py +1 -1
synth_ai/learning/rl/secrets.py +1 -1
synth_ai/learning/sft/client.py +1 -1
synth_ai/learning/sft/data.py +407 -4
synth_ai/learning/validators.py +4 -1
synth_ai/task/apps/__init__.py +4 -2
synth_ai/task/config.py +6 -4
synth_ai/task/rubrics/__init__.py +1 -2
synth_ai/task/rubrics/loaders.py +14 -10
synth_ai/task/rubrics.py +219 -0
synth_ai/task/trace_correlation_helpers.py +24 -11
synth_ai/task/tracing_utils.py +14 -3
synth_ai/task/validators.py +2 -3
synth_ai/tracing_v3/abstractions.py +3 -3
synth_ai/tracing_v3/config.py +15 -13
synth_ai/tracing_v3/constants.py +21 -0
synth_ai/tracing_v3/db_config.py +3 -1
synth_ai/tracing_v3/decorators.py +10 -7
synth_ai/tracing_v3/llm_call_record_helpers.py +5 -5
synth_ai/tracing_v3/session_tracer.py +7 -7
synth_ai/tracing_v3/storage/base.py +29 -29
synth_ai/tracing_v3/storage/config.py +3 -3
synth_ai/tracing_v3/turso/daemon.py +8 -9
synth_ai/tracing_v3/turso/native_manager.py +80 -72
synth_ai/tracing_v3/utils.py +2 -2
synth_ai/tui/cli/query_experiments.py +4 -4
synth_ai/tui/cli/query_experiments_v3.py +4 -4
synth_ai/tui/dashboard.py +14 -9
synth_ai/utils/__init__.py +101 -0
synth_ai/utils/base_url.py +94 -0
synth_ai/utils/cli.py +131 -0
synth_ai/utils/env.py +287 -0
synth_ai/utils/http.py +169 -0
synth_ai/utils/modal.py +308 -0
synth_ai/utils/process.py +212 -0
synth_ai/utils/prompts.py +39 -0
synth_ai/utils/sqld.py +122 -0
synth_ai/utils/task_app_discovery.py +882 -0
synth_ai/utils/task_app_env.py +186 -0
synth_ai/utils/task_app_state.py +318 -0
synth_ai/utils/user_config.py +137 -0
synth_ai/v0/config/__init__.py +1 -5
synth_ai/v0/config/base_url.py +1 -7
synth_ai/v0/tracing/config.py +1 -1
synth_ai/v0/tracing/decorators.py +1 -1
synth_ai/v0/tracing/upload.py +1 -1
synth_ai/v0/tracing_v1/config.py +1 -1
synth_ai/v0/tracing_v1/decorators.py +1 -1
synth_ai/v0/tracing_v1/upload.py +1 -1
{synth_ai-0.2.14.dist-info → synth_ai-0.2.16.dist-info}/METADATA +85 -31
{synth_ai-0.2.14.dist-info → synth_ai-0.2.16.dist-info}/RECORD +229 -117
synth_ai/cli/man.py +0 -106
synth_ai/compound/cais.py +0 -0
synth_ai/core/experiment.py +0 -13
synth_ai/core/system.py +0 -15
synth_ai/demo_registry.py +0 -295
synth_ai/handshake.py +0 -109
synth_ai/http.py +0 -26
{synth_ai-0.2.14.dist-info → synth_ai-0.2.16.dist-info}/WHEEL +0 -0
{synth_ai-0.2.14.dist-info → synth_ai-0.2.16.dist-info}/entry_points.txt +0 -0
{synth_ai-0.2.14.dist-info → synth_ai-0.2.16.dist-info}/licenses/LICENSE +0 -0
{synth_ai-0.2.14.dist-info → synth_ai-0.2.16.dist-info}/top_level.txt +0 -0

examples/task_apps/crafter/task_app/synth_envs_hosted/policy_routes.py CHANGED Viewed

@@ -417,8 +417,6 @@ async def step_policy(
             inf_req = meta["inference_request"]
             msgs = inf_req["messages"]
             model_name = inf_req.get("model") or getattr(policy, "model", None) or ""
-            system_messages: list[str] = []
-            user_messages: list[str] = []
             if msgs and len(msgs) > 0 and msgs[0]["role"] == "system":
                 sys_text = msgs[0]["content"]
                 policy_name = getattr(policy, "name", "") or type(policy).__name__.lower()
@@ -901,38 +899,71 @@ async def step_policy(
                             req_body["temperature"] = 0.1
                         meta["inference_request"] = req_body
-                # Strip image parts: Crafter policy currently only uses text prompts.
-                # Some providers reject image_url payloads entirely, so always flatten to plain text.
-                req_body2 = meta.get("inference_request", {})
-                if isinstance(req_body2, dict):
-                    msgs = req_body2.get("messages")
-                    if isinstance(msgs, list):
-                        new_msgs = []
-                        changed = False
-                        for m in msgs:
-                            try:
-                                if isinstance(m, dict):
-                                    content = m.get("content")
-                                    if isinstance(content, list):
-                                        parts: list[str] = []
-                                        for seg in content:
-                                            if isinstance(seg, dict):
-                                                txt = seg.get("text") or seg.get("content")
-                                                if isinstance(txt, str) and txt:
-                                                    parts.append(txt)
-                                        m2 = dict(m)
-                                        m2["content"] = "\n".join(parts)
-                                        new_msgs.append(m2)
-                                        changed = True
+                # Message flattening: Convert multimodal content to text-only for non-vision models.
+                # SKIP message flattening for vision models to preserve image_url parts!
+                # The old code here was flattening multimodal content (list) to text-only (str),
+                # which strips out image_url parts. This breaks vision models.
+                # Only flatten for non-vision models that can't handle multimodal format.
+                is_vision_model = False
+                try:
+                    # Check if the policy is a vision-capable policy
+                    if isinstance(policy, CrafterPolicy):
+                        is_vision_model = getattr(policy, "use_vision", False)
+                except Exception:
+                    pass
+                logger.debug(f"🔊 [POLICY_ROUTES] is_vision_model={is_vision_model}, will_flatten={not is_vision_model}")
+                if not is_vision_model:
+                    # Only flatten for non-vision models (backward compatibility)
+                    req_body2 = meta.get("inference_request", {})
+                    if isinstance(req_body2, dict):
+                        msgs = req_body2.get("messages")
+                        if isinstance(msgs, list):
+                            new_msgs = []
+                            changed = False
+                            for m in msgs:
+                                try:
+                                    if isinstance(m, dict):
+                                        content = m.get("content")
+                                        if isinstance(content, list):
+                                            parts: list[str] = []
+                                            for seg in content:
+                                                if isinstance(seg, dict):
+                                                    txt = seg.get("text") or seg.get("content")
+                                                    if isinstance(txt, str) and txt:
+                                                        parts.append(txt)
+                                            m2 = dict(m)
+                                            m2["content"] = "\n".join(parts)
+                                            new_msgs.append(m2)
+                                            changed = True
+                                        else:
+                                            new_msgs.append(m)
                                     else:
                                         new_msgs.append(m)
-                                else:
+                                except Exception:
                                     new_msgs.append(m)
-                            except Exception:
-                                new_msgs.append(m)
-                        if changed:
-                            req_body2["messages"] = new_msgs
-                            meta["inference_request"] = req_body2
+                            if changed:
+                                req_body2["messages"] = new_msgs
+                                meta["inference_request"] = req_body2
+                                logger.debug(f"🔊 [POLICY_ROUTES] Flattened messages for non-vision model")
+                else:
+                    logger.debug(f"🔊 [POLICY_ROUTES] Preserving multimodal content for vision model")
+                # DEBUG: Log final message structure before calling inference
+                final_req = meta.get("inference_request", {})
+                if isinstance(final_req, dict):
+                    final_msgs = final_req.get("messages", [])
+                    logger.debug(f"🔊 [POLICY_ROUTES_FINAL] Sending {len(final_msgs)} messages to inference")
+                    for idx, msg in enumerate(final_msgs):
+                        if isinstance(msg, dict):
+                            content = msg.get("content")
+                            logger.debug(f"🔊 [POLICY_ROUTES_FINAL] Message[{idx}]: type={type(content).__name__}, is_list={isinstance(content, list)}")
+                            if isinstance(content, list):
+                                logger.debug(f"🔊 [POLICY_ROUTES_FINAL]   Content list has {len(content)} items")
+                                for part_idx, part in enumerate(content[:3]):  # Show first 3 items
+                                    if isinstance(part, dict):
+                                        logger.debug(f"🔊 [POLICY_ROUTES_FINAL]     Part[{part_idx}]: type={part.get('type')}")
             _t_start = _t.time()
             call_started_at = datetime.utcnow()

examples/task_apps/crafter/task_app/synth_envs_hosted/rollout.py CHANGED Viewed

@@ -985,10 +985,15 @@ class RolloutTracingContext:
     def build_trace_payload(self, session_trace: Any) -> dict[str, Any] | None:
         if not self.return_trace or session_trace is None:
             return None
-        if self.trace_format == "full":
+        # For both "full" and "structured" formats, return the complete session trace
+        # The CLI (synth-ai eval) expects this for proper trace storage
+        if self.trace_format in ("full", "structured"):
             payload = session_trace.to_dict()
             payload.setdefault("metadata", {}).update(self.metadata_updates)
             return payload
+        # For "compact" format, return only summary stats
         metadata = dict(session_trace.metadata)
         metadata.update(self.metadata_updates)
         return {
@@ -1173,14 +1178,6 @@ async def execute_rollout(
             logger.debug(f"TRACER_FACTORY_FAIL: {exc}")
     tracing_context = RolloutTracingContext(tracer_instance, request, req)
     await tracing_context.start_session()
-    # Print whether tracing is active for this rollout
-    try:
-        print(
-            f"[rollout] tracing enabled={bool(tracing_context.enabled)} run_id={request.run_id}",
-            flush=True,
-        )
-    except Exception:
-        pass
     # Register run
     registry.register_run(request.run_id)
@@ -1625,16 +1622,21 @@ async def execute_rollout(
             elif op == "env":
                 if not pending_tool_calls:
+                    # Instead of failing, inject a no-op action to keep the rollout going
                     with contextlib.suppress(Exception):
                         logger.warning(
-                            "POLICY_STEP_FAIL: missing tool_calls; failing rollout run_id=%s op_idx=%s",
+                            "POLICY_STEP_NOOP: missing tool_calls; injecting noop action run_id=%s op_idx=%s",
                             request.run_id,
                             str(op_idx),
                         )
-                    raise HTTPException(
-                        status_code=500,
-                        detail="policy_step_failed: missing tool_calls (no_tool_calls)",
-                    )
+                    # Create a noop tool call in the format expected by the environment
+                    pending_tool_calls = [
+                        {
+                            "id": f"noop_{op_idx}",
+                            "tool": "interact",
+                            "arguments": {"action": "noop"},
+                        }
+                    ]
                 # Environment step
                 from .environment_routes import EnvStepRequest, step_environment

examples/task_apps/enron/__init__.py CHANGED Viewed

	@@ -1 +1,2 @@
1 1
2	+

examples/vlm/README.md CHANGED Viewed

@@ -21,8 +21,8 @@ plumbing with lightweight utilities for dataset curation and training.
 3. **Export multimodal SFT rows**
    ```
    uv run python examples/warming_up_to_rl/export_trace_sft.py \
-       --db traces/v3/synth_ai.db \
-       --output examples/vlm/output/crafter_traces_full.jsonl
+      --db traces/v3/task_app_traces_<timestamp>.db \
+       --output examples/vlm/output/crafter_sft_full.jsonl
    ```
    The exporter now emits `metadata.has_image`, `metadata.user_has_image`, and
    `metadata.assistant_has_image` flags per turn.
@@ -30,7 +30,7 @@ plumbing with lightweight utilities for dataset curation and training.
 4. **Filter to image-rich turns**
    ```
    uv run python examples/vlm/filter_image_rows.py \
-       --input examples/vlm/output/crafter_traces_full.jsonl \
+       --input examples/vlm/output/crafter_sft_full.jsonl \
        --output examples/vlm/output/crafter_vlm_dataset.jsonl
    ```

examples/vlm/configs/crafter_vlm_gpt4o.toml CHANGED Viewed

@@ -1,3 +1,5 @@
+type = "sft"
 [job]
 model = "openai/gpt-4o-mini-2024-07-18"
 modalities = ["text", "image"]

examples/vlm/crafter_openai_vlm_agent.py CHANGED Viewed

@@ -24,6 +24,7 @@ import asyncio
 import base64
 import json
 import os
+from contextlib import suppress
 from pathlib import Path
 from typing import Any
 from uuid import uuid4
@@ -62,7 +63,7 @@ class EpisodeResult:
                 if unlocked:
                     self.achievements.add(str(name))
         reward = obs.get("reward_last_step")
-        if isinstance(reward, (int, float)):
+        if isinstance(reward, int | float):
             self.total_reward += float(reward)
@@ -107,11 +108,8 @@ def _decode_and_save_image(observation: dict[str, Any], path: Path) -> None:
     if not isinstance(base64_data, str) or not base64_data:
         return
     path.parent.mkdir(parents=True, exist_ok=True)
-    try:
+    with suppress(Exception):
         path.write_bytes(base64.b64decode(base64_data))
-    except Exception:
-        # Best-effort; corrupted frames should not halt rollout
-        pass
 def _normalise_openai_request(payload: dict[str, Any], model: str, temperature: float) -> dict[str, Any]:

examples/vlm/filter_image_rows.py CHANGED Viewed

@@ -8,7 +8,7 @@ output now that each record's metadata includes `has_image`, `user_has_image`, a
 Usage:
     uv run python examples/vlm/filter_image_rows.py \
-        --input examples/sft/ft_data/crafter_traces.jsonl \
+        --input examples/sft/ft_data/crafter_sft.jsonl \
         --output examples/vlm/output/crafter_vlm_dataset.jsonl
 """

examples/vlm/run_crafter_vlm_benchmark.py CHANGED Viewed

@@ -224,7 +224,7 @@ async def _run_episode(
                         if unlocked:
                             achievements.add(str(name))
                 reward = obs.get("reward_last_step")
-                if isinstance(reward, (int, float)):
+                if isinstance(reward, int | float):
                     total_reward += float(reward)
             _save_observation_frame(env_response, frames_dir / f"step_{step_idx + 1:03d}.png")
@@ -263,7 +263,7 @@ def _summarise(results: list[EpisodeResult]) -> dict[str, Any]:
             "mean_steps": round(mean_steps, 2),
             "mean_achievements": round(mean_achievements, 2),
             "total_tool_calls": sum(r.tool_calls for r in mode_results),
-            "achievements": {name: count for name, count in sorted(achievement_counts.items())},
+            "achievements": dict(sorted(achievement_counts.items())),
         }
     return summary

examples/warming_up_to_rl/_utils.py ADDED Viewed

@@ -0,0 +1,92 @@
+from __future__ import annotations
+from collections.abc import Iterable, Sequence
+from synth_ai.task import (
+    RolloutEnvSpec,
+    RolloutPolicySpec,
+    RolloutRecordConfig,
+    RolloutRequest,
+    RolloutSafetyConfig,
+)
+DEFAULT_POLICY_NAME = "crafter-react"
+DEFAULT_ENV_NAME = "crafter"
+def parse_ops(spec: str | None) -> list[str] | None:
+    """Parse a comma-separated operations string into a list."""
+    if spec is None:
+        return None
+    ops = [op.strip() for op in spec.split(",") if op.strip()]
+    if not ops:
+        raise ValueError("Ops must contain at least one entry")
+    return ops
+def ops_from_pairs(max_llm_calls: int, *, cap: int | None = None) -> list[str]:
+    """Return alternating agent/env ops for the requested number of LLM calls."""
+    pairs = max(1, int(max_llm_calls or 0))
+    if cap is not None:
+        pairs = min(pairs, cap)
+    ops: list[str] = []
+    for _ in range(pairs):
+        ops.extend(["agent", "env"])
+    return ops
+def build_rollout_request(
+    *,
+    seed: int,
+    run_id: str,
+    model: str,
+    inference_url: str,
+    ops: Sequence[str] | Iterable[str],
+    inference_api_key: str | None = None,
+    extra_headers: dict[str, str] | None = None,
+    trace_format: str = "compact",
+    return_trace: bool = False,
+    policy_name: str = DEFAULT_POLICY_NAME,
+    env_name: str = DEFAULT_ENV_NAME,
+    max_policy_tokens: int | None = None,
+    record_trajectories: bool = True,
+) -> RolloutRequest:
+    """Construct a RolloutRequest shared across local rollout utilities."""
+    policy_config: dict[str, object] = {
+        "model": model,
+        "inference_url": inference_url,
+    }
+    if inference_api_key is not None:
+        policy_config["api_key"] = inference_api_key
+    if extra_headers:
+        policy_config["extra_headers"] = extra_headers
+    if max_policy_tokens is not None:
+        policy_config["max_completion_tokens"] = max_policy_tokens
+        policy_config["max_tokens"] = max_policy_tokens
+    record_cfg = RolloutRecordConfig(
+        trajectories=record_trajectories,
+        trace_format=trace_format,
+        return_trace=return_trace,
+    )
+    return RolloutRequest(
+        run_id=run_id,
+        env=RolloutEnvSpec(env_name=env_name, seed=seed, config={}),
+        policy=RolloutPolicySpec(policy_name=policy_name, config=policy_config),
+        ops=list(ops),
+        record=record_cfg,
+        on_done="reset",
+        safety=RolloutSafetyConfig(),
+    )
+__all__ = [
+    "DEFAULT_POLICY_NAME",
+    "DEFAULT_ENV_NAME",
+    "build_rollout_request",
+    "ops_from_pairs",
+    "parse_ops",
+]

examples/warming_up_to_rl/analyze_trace_db.py CHANGED Viewed

@@ -383,7 +383,7 @@ def main() -> None:
     parser.add_argument(
         "--db",
         type=Path,
-        default=Path("traces/v3/synth_ai.db"),
+        default=Path("traces/task_app_traces.db"),
         help="Path to the tracing_v3 SQLite database",
     )
     args = parser.parse_args()

examples/warming_up_to_rl/configs/crafter_fft.toml CHANGED Viewed

@@ -1,6 +1,8 @@
 # Crafter Full Finetune (FFT) example on H100
 # Adjust paths and hyperparameters to your environment before running.
+type = "sft"
 [job]
 model = "Qwen/Qwen3-4B"               # base model to finetune
 # Path to your SFT JSONL dataset

examples/warming_up_to_rl/configs/crafter_fft_4b.toml CHANGED Viewed

@@ -1,5 +1,7 @@
 # FFT job config for Qwen/Qwen3-4B on Crafter SFT dataset
+type = "sft"
 [algorithm]
 type = "offline"
 method = "supervised_finetune"

examples/warming_up_to_rl/configs/eval_fft_qwen4b.toml CHANGED Viewed

@@ -1,5 +1,7 @@
 # Eval config for finetuned Qwen/Qwen3-4B (FFT) via task app rollout
+type = "sft"
 # Required
 task_app_url = "https://synth-laboratories--grpo-crafter-task-app-final-warming--ceb5b2.modal.run"
 # Replace with your finished job id if different

examples/warming_up_to_rl/configs/eval_groq_qwen32b.toml CHANGED Viewed

@@ -1,6 +1,8 @@
 # Eval config for Groq Qwen3-32B
 # Fields mirror run_eval.py expectations
+type = "rl"
 # Required
 task_app_url = "https://synth-laboratories--grpo-crafter-task-app-final-warming--ceb5b2.modal.run"
 model = "qwen/qwen3-32b"

examples/warming_up_to_rl/configs/eval_modal_qwen4b.toml CHANGED Viewed

@@ -1,5 +1,7 @@
 # Eval config for Synth Modal inference Qwen/Qwen3-4B via task app rollout
+type = "rl"
 # Required
 task_app_url = "https://synth-laboratories--grpo-crafter-task-app-final-warming--ceb5b2.modal.run"
 model = "Qwen/Qwen3-4B"
@@ -20,4 +22,3 @@ concurrency = 10
 #   fetch the vLLM base from the task app /info to use as inference_url.
 # - Ensure the task app mounts the openai-api-key secret if your vLLM gateway
 #   requires a bearer token (OPENAI_API_KEY). Otherwise it will call unauthenticated.

examples/warming_up_to_rl/configs/rl_from_base_qwen4b.toml CHANGED Viewed

@@ -1,11 +1,12 @@
 # RL training starting from base Qwen/Qwen3-4B (TOML-only model selection)
+type = "rl"
 [algorithm]
 type = "online"
 method = "policy_gradient"
 variety = "gspo"
 [services]
 task_url = "https://synth-laboratories--grpo-crafter-task-app-final-warming--ceb5b2.modal.run"

examples/warming_up_to_rl/configs/rl_from_ft.toml CHANGED Viewed

@@ -1,5 +1,7 @@
 # RL training starting from a finetuned model id (TOML-only model selection)
+type = "rl"
 [services]
 # Task app base URL used by the RL job for rollouts
 # task_url = "https://YOUR-TASK-APP.modal.run"

synth-ai 0.2.14__py3-none-any.whl → 0.2.16__py3-none-any.whl

Potentially problematic release.

synth-ai 0.2.14py3-none-any.whl → 0.2.16py3-none-any.whl