PyPI - inspect-swe - Versions diffs - 0.2.4__py3-none-any.whl → 0.2.7__py3-none-any.whl - Mend

inspect-swe 0.2.4py3-none-any.whl → 0.2.7py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (9) hide show

inspect_swe/__init__.py CHANGED Viewed

@@ -1,4 +1,4 @@
-from ._claude_code.claude_code import ClaudeCodeOptions, claude_code
+from ._claude_code.claude_code import claude_code
 from ._tools.download import download_agent_binary
 from ._util.sandbox import SandboxPlatform
@@ -10,7 +10,6 @@ except ImportError:
 __all__ = [
     "claude_code",
-    "ClaudeCodeOptions",
     "download_agent_binary",
     "SandboxPlatform",
     "__version__",

inspect_swe/_claude_code/claude_code.py CHANGED Viewed

@@ -4,41 +4,20 @@ from typing import Any, Literal, Sequence
 from inspect_ai.agent import (
     Agent,
+    AgentAttempts,
     AgentState,
     agent,
     agent_with,
     sandbox_agent_bridge,
 )
 from inspect_ai.model import ChatMessageSystem, ChatMessageUser
+from inspect_ai.scorer import score
 from inspect_ai.tool import MCPServerConfig
 from inspect_ai.util import sandbox as sandbox_env
-from pydantic import BaseModel, Field
 from pydantic_core import to_json
-from inspect_swe._claude_code.install.install import ensure_claude_code_installed
-# TODO: AgentAttempts
-# TODO: AgentContinue
-# TODO: generate config merging (they are passing max_tokens=32000, temperature=1)
-class ClaudeCodeOptions(BaseModel):
-    """Claude Code options."""
-    system_prompt: str | None = Field(default=None)
-    """Additional system prompt to append to default system prompt."""
-    mcp_servers: Sequence[MCPServerConfig] | None = Field(default=None)
-    """MCP servers to make available to the agent."""
-    model: str | None = Field(default=None)
-    """ Model name to use for Opus and Sonnet calls (defaults to main model for task)."""
-    small_model: str | None = Field(default=None)
-    """Model to use for Haiku calls (defaults to main model for task)."""
-    env: dict[str, str] | None = Field(default=None)
-    """Environment variables to set for claude code."""
+from .._util._async import is_callable_coroutine
+from .install.install import ensure_claude_code_installed
 @agent
@@ -48,7 +27,14 @@ def claude_code(
        Autonomous coding agent capable of writing, testing, debugging,
        and iterating on code across multiple languages.
     """),
-    options: ClaudeCodeOptions | None = None,
+    system_prompt: str | None = None,
+    mcp_servers: Sequence[MCPServerConfig] | None = None,
+    allowed_tools: list[str] | None = None,
+    disallowed_tools: list[str] | None = None,
+    attempts: int | AgentAttempts = 1,
+    model: str | None = None,
+    small_model: str | None = None,
+    env: dict[str, str] | None = None,
     version: Literal["auto", "sandbox", "stable", "latest"] | str = "auto",
     user: str | None = None,
     sandbox: str | None = None,
@@ -59,10 +45,22 @@ def claude_code(
     The agent can either use a version of Claude Code installed in the sandbox, or can download a version and install it in the sandbox (see docs on `version` option below for details).
+    Use `allowed_tools` and `disallowed_tools` to control access to tools. See [Tools available to Claude](https://docs.anthropic.com/en/docs/claude-code/settings#tools-available-to-claude) for the list of built-in tools and [How to use Allowed Tools in Claude Code](https://www.instructa.ai/blog/claude-code/how-to-use-allowed-tools-in-claude-code) for details on the supported syntax. Note that `allowed_tools` enables you to filter allowed parameter values and `disallowed_tools` enables you to remove tools entirely. In other words, `allowed_tools` is not a complete list of what tools are available but rather just filters on tool parameters---to remove tools you need to explicitly set `disallowed_tools`.
+    Use the `attempts` option to enable additional submissions if the initial
+    submission(s) are incorrect (by default, no additional attempts are permitted).
     Args:
         name: Agent name (used in multi-agent systems with `as_tool()` and `handoff()`)
         description: Agent description (used in multi-agent systems with `as_tool()` and `handoff()`)
-        options: Claude code options.
+        system_prompt: Additional system prompt to append to default system prompt.
+        mcp_servers: MCP servers to make available to the agent.
+        allowed_tools: Parameter filters for built-in tools.
+        disallowed_tools: List of tool names to disallow entirely.
+        attempts: Configure agent to make multiple attempts.
+        model: Model name to use for Opus and Sonnet calls (defaults to main model for task).
+        small_model: Model to use for Haiku calls (defaults to main model for task).
+        env: Environment variables to set for claude code.
         version: Version of claude code to use. One of:
             - "auto": Use any available version of claude code in the sandbox, otherwise download the current stable version.
             - "sandbox": Use the version of claude code in the sandbox (raises `RuntimeError` if claude is not available in the sandbox)
@@ -72,16 +70,12 @@ def claude_code(
         user: User to execute claude code with.
         sandbox: Optional sandbox environment name.
     """
-    # provide default options if none specified
-    options = options or ClaudeCodeOptions()
     # resolve models
-    model = f"inspect/{options.model}" if options.model is not None else "inspect"
-    small_model = (
-        f"inspect/{options.small_model}"
-        if options.small_model is not None
-        else "inspect"
-    )
+    model = f"inspect/{model}" if model is not None else "inspect"
+    small_model = f"inspect/{small_model}" if small_model is not None else "inspect"
+    # resolve attempts
+    attempts = AgentAttempts(attempts) if isinstance(attempts, int) else attempts
     async def execute(state: AgentState) -> AgentState:
         async with sandbox_agent_bridge(state) as bridge:
@@ -95,9 +89,6 @@ def claude_code(
             # base options
             cmd = [
-                claude_binary,
-                "--session-id",
-                session_id,
                 "--print",  # run without interactions
                 "--dangerously-skip-permissions",
                 "--model",
@@ -108,56 +99,101 @@ def claude_code(
             system_messages = [
                 m.text for m in state.messages if isinstance(m, ChatMessageSystem)
             ]
-            if options.system_prompt is not None:
-                system_messages.append(options.system_prompt)
+            if system_prompt is not None:
+                system_messages.append(system_prompt)
             if system_messages:
                 cmd.extend(["--append-system-prompt", "\n\n".join(system_messages)])
             # mcp servers
-            if options.mcp_servers:
-                cmd.extend(mcp_server_args(options.mcp_servers))
+            cmd_allowed_tools = allowed_tools or []
+            if mcp_servers:
+                mcp_server_args, mcp_allowed_tools = resolve_mcp_servers(mcp_servers)
+                cmd.extend(mcp_server_args)
+                cmd_allowed_tools.extend(mcp_allowed_tools)
+            # add allowed and disallowed tools
+            if len(cmd_allowed_tools) > 0:
+                cmd.append("--allowed-tools")
+                cmd.append(",".join(cmd_allowed_tools))
+            if disallowed_tools is not None and len(disallowed_tools) > 0:
+                cmd.append("--disallowed-tools")
+                cmd.append(",".join(disallowed_tools))
             # user prompt
             prompt = "\n\n".join(
                 [m.text for m in state.messages if isinstance(m, ChatMessageUser)]
             )
-            cmd.append("--")
-            cmd.append(prompt)
             # resolve sandbox
             sbox = sandbox_env(sandbox)
             # execute the agent
-            result = await sbox.exec(
-                cmd=cmd,
-                env={
-                    "ANTHROPIC_BASE_URL": f"http://localhost:{bridge.port}",
-                    "ANTHROPIC_API_KEY": "sk-ant-api03-DOq5tyLPrk9M4hPE",
-                    "ANTHROPIC_MODEL": model,
-                    "ANTHROPIC_DEFAULT_OPUS_MODEL": model,
-                    "ANTHROPIC_DEFAULT_SONNET_MODEL": model,
-                    "CLAUDE_CODE_SUBAGENT_MODEL": model,
-                    "ANTHROPIC_DEFAULT_HAIKU_MODEL": small_model,
-                    "ANTHROPIC_SMALL_FAST_MODEL": small_model,
-                    "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
-                    "IS_SANDBOX": "1",
-                }
-                | (options.env or {}),
-                user=user,
-            )
-        if result.success:
-            return bridge.state
-        else:
-            raise RuntimeError(
-                f"Error executing claude code agent: {result.stdout}\n{result.stderr}"
-            )
+            agent_prompt = prompt
+            attempt_count = 0
+            while True:
+                # either starting a new session or resuming one
+                id_param = "--session-id" if attempt_count == 0 else "--resume"
+                agent_cmd = (
+                    [claude_binary, id_param, session_id] + cmd + ["--", agent_prompt]
+                )
+                # run agent
+                result = await sbox.exec(
+                    cmd=agent_cmd,
+                    env={
+                        "ANTHROPIC_BASE_URL": f"http://localhost:{bridge.port}",
+                        "ANTHROPIC_API_KEY": "sk-ant-api03-DOq5tyLPrk9M4hPE",
+                        "ANTHROPIC_MODEL": model,
+                        "ANTHROPIC_DEFAULT_OPUS_MODEL": model,
+                        "ANTHROPIC_DEFAULT_SONNET_MODEL": model,
+                        "CLAUDE_CODE_SUBAGENT_MODEL": model,
+                        "ANTHROPIC_DEFAULT_HAIKU_MODEL": small_model,
+                        "ANTHROPIC_SMALL_FAST_MODEL": small_model,
+                        "CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC": "1",
+                        "IS_SANDBOX": "1",
+                    }
+                    | (env or {}),
+                    user=user,
+                )
+                # raise for error
+                if not result.success:
+                    f"Error executing claude code agent: {result.stdout}\n{result.stderr}"
+                # exit if we are at max_attempts
+                attempt_count += 1
+                if attempt_count >= attempts.attempts:
+                    break
+                # score this attempt
+                answer_scores = await score(state)
+                # break if we score 'correct'
+                if attempts.score_value(answer_scores[0].value) == 1.0:
+                    break
+                # otherwise update prompt with incorrect message and continue
+                else:
+                    if callable(attempts.incorrect_message):
+                        if not is_callable_coroutine(attempts.incorrect_message):
+                            raise ValueError(
+                                "The incorrect_message function must be async."
+                            )
+                        agent_prompt = await attempts.incorrect_message(
+                            state, answer_scores
+                        )
+                    else:
+                        agent_prompt = attempts.incorrect_message
+        return bridge.state
     # return agent with specified name and descritpion
     return agent_with(execute, name=name, description=description)
-def mcp_server_args(mcp_servers: Sequence[MCPServerConfig]) -> list[str]:
+def resolve_mcp_servers(
+    mcp_servers: Sequence[MCPServerConfig],
+) -> tuple[list[str], list[str]]:
     # build servers and allowed tools
     mcp_servers_json: dict[str, dict[str, Any]] = {}
     allowed_tools: list[str] = []
@@ -177,14 +213,11 @@ def mcp_server_args(mcp_servers: Sequence[MCPServerConfig]) -> list[str]:
             )
     # map to cli args
-    cmds: list[str] = []
+    mcp_config_cmds: list[str] = []
     if len(mcp_servers_json) > 0:
-        cmds.append("--mcp-config")
-        cmds.append(
+        mcp_config_cmds.append("--mcp-config")
+        mcp_config_cmds.append(
             to_json({"mcpServers": mcp_servers_json}, exclude_none=True).decode()
         )
-    if len(allowed_tools):
-        cmds.append("--allowed-tools")
-        cmds.append(",".join(allowed_tools))
-    return cmds
+    return mcp_config_cmds, allowed_tools

inspect_swe/_util/_async.py CHANGED Viewed

@@ -1,5 +1,6 @@
 import asyncio
-from typing import Coroutine, Literal, TypeVar, cast
+import inspect
+from typing import Any, Coroutine, Literal, TypeVar, cast
 import nest_asyncio  # type: ignore
 import sniffio
@@ -9,6 +10,14 @@ from .platform import running_in_notebook
 T = TypeVar("T")
+def is_callable_coroutine(func_or_cls: Any) -> bool:
+    if inspect.iscoroutinefunction(func_or_cls):
+        return True
+    elif callable(func_or_cls):
+        return inspect.iscoroutinefunction(func_or_cls.__call__)
+    return False
 def run_coroutine(coroutine: Coroutine[None, None, T]) -> T:
     if current_async_backend() == "trio":
         raise RuntimeError("run_coroutine cannot be used with trio")

inspect_swe/_version.py CHANGED Viewed

@@ -28,7 +28,7 @@ version_tuple: VERSION_TUPLE
 commit_id: COMMIT_ID
 __commit_id__: COMMIT_ID
-__version__ = version = '0.2.4'
-__version_tuple__ = version_tuple = (0, 2, 4)
+__version__ = version = '0.2.7'
+__version_tuple__ = version_tuple = (0, 2, 7)
 __commit_id__ = commit_id = None

{inspect_swe-0.2.4.dist-info → inspect_swe-0.2.7.dist-info}/METADATA RENAMED Viewed

@@ -1,6 +1,6 @@
 Metadata-Version: 2.4
 Name: inspect_swe
-Version: 0.2.4
+Version: 0.2.7
 Summary: Software engineering agents for Inspect AI.
 Project-URL: Documentation, https://meridianlabs-ai.github.io/inspect_swe/
 Project-URL: Source Code, https://github.com/meridianlabs-ai/inspect_swe
@@ -10,7 +10,7 @@ License: MIT License
 License-File: LICENSE
 Requires-Python: >=3.10
 Requires-Dist: httpx
-Requires-Dist: inspect-ai>=0.3.125
+Requires-Dist: inspect-ai>=0.3.126
 Requires-Dist: nest-asyncio
 Requires-Dist: platformdirs
 Requires-Dist: pydantic>=2.11.4

{inspect_swe-0.2.4.dist-info → inspect_swe-0.2.7.dist-info}/RECORD RENAMED Viewed

@@ -1,9 +1,9 @@
-inspect_swe/__init__.py,sha256=aqHkY79cer0TXcw2dy7RRLkGWoTCmCPFprPuCtXR_6k,386
+inspect_swe/__init__.py,sha256=yJ9tBcF2Wy11mVmLh1fTYXgYcsSHv30GAW-tVwE-r3s,342
 inspect_swe/_registry.py,sha256=jM37ysrY39Ufd67GRKbiwfSViOLlm-82lm_JEaWKshw,97
-inspect_swe/_version.py,sha256=NRw4Jle4n9v_DD2wtplRqflGCvX8OU5eAjycYY0vY3Y,704
+inspect_swe/_version.py,sha256=yXzK2akXKIKUAfJk0WCQothqygqvndys6GBuXxo-wk0,704
 inspect_swe/py.typed,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 inspect_swe/_claude_code/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-inspect_swe/_claude_code/claude_code.py,sha256=-E_Ibu_xwIuDGGYgSFKXeBitfny0kINjwu-n-2rQdj8,7114
+inspect_swe/_claude_code/claude_code.py,sha256=V1C79iWhVawTYy-JeRsUYM6VdiGWO_bjH_qRWf3r5lM,9825
 inspect_swe/_claude_code/install/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 inspect_swe/_claude_code/install/cache.py,sha256=k08bCxGq-iYVpO16LNQhPjxTM9p2iecpqMjqYd2WBss,1708
 inspect_swe/_claude_code/install/download.py,sha256=s1y4CDHVbJenfsR7OUwwxr5QFp-rDi4XnIxumDEvmws,3217
@@ -11,7 +11,7 @@ inspect_swe/_claude_code/install/install.py,sha256=nbf1SZJzr4DBPfUmBH64zWcdI4AnK
 inspect_swe/_tools/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
 inspect_swe/_tools/download.py,sha256=Jn_gcFR5Kw2vTYA1dWOFYRpqFtoFnKFv2Kv-4xT8tz4,1283
 inspect_swe/_util/__init__.py,sha256=47DEQpj8HBSa-_TImW-5JCeuQeRkm5NMpJWZG3hSuFU,0
-inspect_swe/_util/_async.py,sha256=cL8_Smmj2Es41TefceGDYLyVaO7gZ56VJcA4oByrWfQ,1520
+inspect_swe/_util/_async.py,sha256=foxHmEaZusCbK8HOBbThZKCnwaPFerwLhQXh7jIafVU,1778
 inspect_swe/_util/_yaml.py,sha256=sRgf0UryF9Bd7pEEyfzL1qZBCgrpYe0l3l3U7bYeU44,505
 inspect_swe/_util/appdirs.py,sha256=V3o1ERdSYLjKP-m4O1T_Hvkx0UsP2HdfvsshLSQgP6E,562
 inspect_swe/_util/checksum.py,sha256=i-_GhtgCFd5eFj3PPJiGSCHDhZdPcIPNwiqddX93Sls,186
@@ -20,8 +20,8 @@ inspect_swe/_util/download.py,sha256=cCUau4ZBOKezpotJV5-v3JY_5CuYDZ-VcWlLf_EyNL0
 inspect_swe/_util/platform.py,sha256=wm4efIFfdyTeaV2oxOXVvYl1u22MHX3jQMERHJMgv7A,339
 inspect_swe/_util/sandbox.py,sha256=2wYmVz5EGUDBhqbN3NgLAOsyKeU-KRI161MZMJ54n4M,1769
 inspect_swe/_util/trace.py,sha256=mFHmBKn2F8iJP9PpTHaCseMHnTMz3ErRx6RCKV83rZk,139
-inspect_swe-0.2.4.dist-info/METADATA,sha256=wxryGFAjtZarLk41tmkyAGPVuiIh5OWFQq1QylHw0VM,1724
-inspect_swe-0.2.4.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
-inspect_swe-0.2.4.dist-info/entry_points.txt,sha256=OzpvUhd7M3T2Rog4MjwJAxIKeX5ljiR0mVYM9GefBKg,49
-inspect_swe-0.2.4.dist-info/licenses/LICENSE,sha256=Hi3UDcbD6yCKZ1mcgt7pprzSG0rDEnSrbrm3XinyiDA,1070
-inspect_swe-0.2.4.dist-info/RECORD,,
+inspect_swe-0.2.7.dist-info/METADATA,sha256=keVzMz6nRC72XluU9hqrPlgixueQtCj5bsNm98A6L0A,1724
+inspect_swe-0.2.7.dist-info/WHEEL,sha256=qtCwoSJWgHk21S1Kb4ihdzI2rlJ1ZKaIurTj_ngOhyQ,87
+inspect_swe-0.2.7.dist-info/entry_points.txt,sha256=OzpvUhd7M3T2Rog4MjwJAxIKeX5ljiR0mVYM9GefBKg,49
+inspect_swe-0.2.7.dist-info/licenses/LICENSE,sha256=Hi3UDcbD6yCKZ1mcgt7pprzSG0rDEnSrbrm3XinyiDA,1070
+inspect_swe-0.2.7.dist-info/RECORD,,

{inspect_swe-0.2.4.dist-info → inspect_swe-0.2.7.dist-info}/WHEEL RENAMED Viewed

File without changes

{inspect_swe-0.2.4.dist-info → inspect_swe-0.2.7.dist-info}/entry_points.txt RENAMED Viewed

File without changes

{inspect_swe-0.2.4.dist-info → inspect_swe-0.2.7.dist-info}/licenses/LICENSE RENAMED Viewed

File without changes

inspect-swe 0.2.4__py3-none-any.whl → 0.2.7__py3-none-any.whl

inspect-swe 0.2.4py3-none-any.whl → 0.2.7py3-none-any.whl