PyPI - inspect-ai - Versions diffs - 0.3.81__py3-none-any.whl → 0.3.83__py3-none-any.whl - Mend

inspect-ai 0.3.81py3-none-any.whl → 0.3.83py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (297) hide show

inspect_ai/__init__.py +2 -1
inspect_ai/_cli/eval.py +35 -2
inspect_ai/_cli/util.py +44 -1
inspect_ai/_display/core/config.py +1 -1
inspect_ai/_display/core/display.py +13 -4
inspect_ai/_display/core/results.py +1 -1
inspect_ai/_display/textual/app.py +14 -3
inspect_ai/_display/textual/display.py +4 -0
inspect_ai/_display/textual/widgets/samples.py +9 -3
inspect_ai/_display/textual/widgets/task_detail.py +8 -8
inspect_ai/_display/textual/widgets/tasks.py +17 -1
inspect_ai/_display/textual/widgets/vscode.py +44 -0
inspect_ai/_eval/eval.py +74 -25
inspect_ai/_eval/evalset.py +22 -18
inspect_ai/_eval/loader.py +34 -11
inspect_ai/_eval/run.py +13 -15
inspect_ai/_eval/score.py +13 -3
inspect_ai/_eval/task/generate.py +8 -9
inspect_ai/_eval/task/log.py +55 -6
inspect_ai/_eval/task/run.py +51 -10
inspect_ai/_eval/task/task.py +23 -9
inspect_ai/_util/constants.py +2 -0
inspect_ai/_util/file.py +30 -1
inspect_ai/_util/json.py +37 -1
inspect_ai/_util/registry.py +1 -0
inspect_ai/_util/vscode.py +37 -0
inspect_ai/_view/server.py +113 -1
inspect_ai/_view/www/App.css +7 -1
inspect_ai/_view/www/dist/assets/index.css +813 -415
inspect_ai/_view/www/dist/assets/index.js +54475 -32003
inspect_ai/_view/www/eslint.config.mjs +1 -1
inspect_ai/_view/www/log-schema.json +137 -31
inspect_ai/_view/www/node_modules/flatted/python/flatted.py +149 -0
inspect_ai/_view/www/package.json +11 -2
inspect_ai/_view/www/src/App.tsx +161 -853
inspect_ai/_view/www/src/api/api-browser.ts +176 -5
inspect_ai/_view/www/src/api/api-vscode.ts +75 -1
inspect_ai/_view/www/src/api/client-api.ts +66 -10
inspect_ai/_view/www/src/api/jsonrpc.ts +2 -0
inspect_ai/_view/www/src/api/types.ts +107 -2
inspect_ai/_view/www/src/appearance/icons.ts +2 -0
inspect_ai/_view/www/src/components/AsciinemaPlayer.tsx +3 -3
inspect_ai/_view/www/src/components/Card.tsx +6 -4
inspect_ai/_view/www/src/components/DownloadPanel.tsx +2 -2
inspect_ai/_view/www/src/components/ExpandablePanel.tsx +56 -61
inspect_ai/_view/www/src/components/FindBand.tsx +17 -9
inspect_ai/_view/www/src/components/HumanBaselineView.tsx +1 -1
inspect_ai/_view/www/src/components/JsonPanel.tsx +14 -24
inspect_ai/_view/www/src/components/LargeModal.tsx +2 -35
inspect_ai/_view/www/src/components/LightboxCarousel.tsx +27 -11
inspect_ai/_view/www/src/components/LinkButton.module.css +16 -0
inspect_ai/_view/www/src/components/LinkButton.tsx +33 -0
inspect_ai/_view/www/src/components/LiveVirtualList.module.css +11 -0
inspect_ai/_view/www/src/components/LiveVirtualList.tsx +177 -0
inspect_ai/_view/www/src/components/MarkdownDiv.tsx +116 -26
inspect_ai/_view/www/src/components/MessageBand.tsx +14 -9
inspect_ai/_view/www/src/components/Modal.module.css +38 -0
inspect_ai/_view/www/src/components/Modal.tsx +77 -0
inspect_ai/_view/www/src/components/MorePopOver.tsx +3 -3
inspect_ai/_view/www/src/components/NavPills.tsx +20 -8
inspect_ai/_view/www/src/components/NoContentsPanel.module.css +12 -0
inspect_ai/_view/www/src/components/NoContentsPanel.tsx +20 -0
inspect_ai/_view/www/src/components/ProgressBar.module.css +5 -4
inspect_ai/_view/www/src/components/ProgressBar.tsx +3 -2
inspect_ai/_view/www/src/components/PulsingDots.module.css +81 -0
inspect_ai/_view/www/src/components/PulsingDots.tsx +45 -0
inspect_ai/_view/www/src/components/TabSet.tsx +4 -37
inspect_ai/_view/www/src/components/ToolButton.tsx +3 -4
inspect_ai/_view/www/src/index.tsx +26 -94
inspect_ai/_view/www/src/logfile/remoteLogFile.ts +9 -1
inspect_ai/_view/www/src/logfile/remoteZipFile.ts +30 -4
inspect_ai/_view/www/src/metadata/RenderedContent.tsx +4 -6
inspect_ai/_view/www/src/plan/DetailStep.module.css +4 -0
inspect_ai/_view/www/src/plan/DetailStep.tsx +6 -3
inspect_ai/_view/www/src/plan/ScorerDetailView.tsx +1 -1
inspect_ai/_view/www/src/plan/SolverDetailView.module.css +2 -1
inspect_ai/_view/www/src/samples/InlineSampleDisplay.module.css +9 -1
inspect_ai/_view/www/src/samples/InlineSampleDisplay.tsx +74 -28
inspect_ai/_view/www/src/samples/SampleDialog.tsx +58 -22
inspect_ai/_view/www/src/samples/SampleDisplay.module.css +4 -0
inspect_ai/_view/www/src/samples/SampleDisplay.tsx +135 -104
inspect_ai/_view/www/src/samples/SampleSummaryView.module.css +10 -0
inspect_ai/_view/www/src/samples/SampleSummaryView.tsx +83 -36
inspect_ai/_view/www/src/samples/SamplesTools.tsx +35 -30
inspect_ai/_view/www/src/samples/chat/ChatMessage.tsx +2 -1
inspect_ai/_view/www/src/samples/chat/ChatMessageRenderer.tsx +1 -1
inspect_ai/_view/www/src/samples/chat/ChatViewVirtualList.tsx +45 -53
inspect_ai/_view/www/src/samples/chat/MessageContent.tsx +6 -1
inspect_ai/_view/www/src/samples/chat/MessageContents.tsx +5 -0
inspect_ai/_view/www/src/samples/chat/messages.ts +36 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolCallView.module.css +3 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolCallView.tsx +11 -1
inspect_ai/_view/www/src/samples/chat/tools/ToolInput.tsx +22 -46
inspect_ai/_view/www/src/samples/descriptor/samplesDescriptor.tsx +34 -20
inspect_ai/_view/www/src/samples/descriptor/score/BooleanScoreDescriptor.module.css +3 -3
inspect_ai/_view/www/src/samples/descriptor/score/BooleanScoreDescriptor.tsx +1 -1
inspect_ai/_view/www/src/samples/descriptor/score/ObjectScoreDescriptor.module.css +4 -4
inspect_ai/_view/www/src/samples/descriptor/score/ObjectScoreDescriptor.tsx +10 -10
inspect_ai/_view/www/src/samples/descriptor/types.ts +6 -5
inspect_ai/_view/www/src/samples/list/SampleFooter.module.css +22 -3
inspect_ai/_view/www/src/samples/list/SampleFooter.tsx +27 -2
inspect_ai/_view/www/src/samples/list/SampleList.tsx +122 -85
inspect_ai/_view/www/src/samples/list/SampleRow.module.css +6 -0
inspect_ai/_view/www/src/samples/list/SampleRow.tsx +28 -15
inspect_ai/_view/www/src/samples/sample-tools/SelectScorer.tsx +29 -18
inspect_ai/_view/www/src/samples/sample-tools/SortFilter.tsx +28 -28
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/SampleFilter.tsx +19 -9
inspect_ai/_view/www/src/samples/sampleDataAdapter.ts +33 -0
inspect_ai/_view/www/src/samples/sampleLimit.ts +2 -2
inspect_ai/_view/www/src/samples/scores/SampleScores.tsx +12 -27
inspect_ai/_view/www/src/samples/scores/SampleScoresGrid.module.css +38 -0
inspect_ai/_view/www/src/samples/scores/SampleScoresGrid.tsx +118 -0
inspect_ai/_view/www/src/samples/scores/{SampleScoreView.module.css → SampleScoresView.module.css} +10 -1
inspect_ai/_view/www/src/samples/scores/SampleScoresView.tsx +78 -0
inspect_ai/_view/www/src/samples/transcript/ErrorEventView.tsx +0 -13
inspect_ai/_view/www/src/samples/transcript/InfoEventView.tsx +0 -13
inspect_ai/_view/www/src/samples/transcript/InputEventView.tsx +0 -13
inspect_ai/_view/www/src/samples/transcript/ModelEventView.module.css +4 -0
inspect_ai/_view/www/src/samples/transcript/ModelEventView.tsx +10 -24
inspect_ai/_view/www/src/samples/transcript/SampleInitEventView.tsx +0 -13
inspect_ai/_view/www/src/samples/transcript/SampleLimitEventView.tsx +4 -22
inspect_ai/_view/www/src/samples/transcript/SandboxEventView.tsx +15 -24
inspect_ai/_view/www/src/samples/transcript/ScoreEventView.tsx +0 -13
inspect_ai/_view/www/src/samples/transcript/StepEventView.tsx +6 -28
inspect_ai/_view/www/src/samples/transcript/SubtaskEventView.tsx +24 -34
inspect_ai/_view/www/src/samples/transcript/ToolEventView.module.css +4 -0
inspect_ai/_view/www/src/samples/transcript/ToolEventView.tsx +33 -17
inspect_ai/_view/www/src/samples/transcript/TranscriptView.tsx +197 -338
inspect_ai/_view/www/src/samples/transcript/TranscriptVirtualListComponent.module.css +16 -0
inspect_ai/_view/www/src/samples/transcript/TranscriptVirtualListComponent.tsx +44 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNav.tsx +7 -4
inspect_ai/_view/www/src/samples/transcript/event/EventPanel.tsx +81 -60
inspect_ai/_view/www/src/samples/transcript/event/EventProgressPanel.module.css +23 -0
inspect_ai/_view/www/src/samples/transcript/event/EventProgressPanel.tsx +27 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventRenderers.tsx +29 -1
inspect_ai/_view/www/src/samples/transcript/state/StateEventView.tsx +102 -72
inspect_ai/_view/www/src/scoring/utils.ts +87 -0
inspect_ai/_view/www/src/state/appSlice.ts +244 -0
inspect_ai/_view/www/src/state/hooks.ts +399 -0
inspect_ai/_view/www/src/state/logPolling.ts +200 -0
inspect_ai/_view/www/src/state/logSlice.ts +224 -0
inspect_ai/_view/www/src/state/logsPolling.ts +118 -0
inspect_ai/_view/www/src/state/logsSlice.ts +181 -0
inspect_ai/_view/www/src/state/samplePolling.ts +314 -0
inspect_ai/_view/www/src/state/sampleSlice.ts +140 -0
inspect_ai/_view/www/src/state/sampleUtils.ts +21 -0
inspect_ai/_view/www/src/state/scrolling.ts +206 -0
inspect_ai/_view/www/src/state/store.ts +168 -0
inspect_ai/_view/www/src/state/store_filter.ts +84 -0
inspect_ai/_view/www/src/state/utils.ts +23 -0
inspect_ai/_view/www/src/storage/index.ts +26 -0
inspect_ai/_view/www/src/types/log.d.ts +36 -26
inspect_ai/_view/www/src/types/markdown-it-katex.d.ts +21 -0
inspect_ai/_view/www/src/types.ts +94 -32
inspect_ai/_view/www/src/utils/attachments.ts +58 -23
inspect_ai/_view/www/src/utils/json-worker.ts +79 -12
inspect_ai/_view/www/src/utils/logger.ts +52 -0
inspect_ai/_view/www/src/utils/polling.ts +100 -0
inspect_ai/_view/www/src/utils/react.ts +30 -0
inspect_ai/_view/www/src/utils/vscode.ts +1 -1
inspect_ai/_view/www/src/workspace/WorkSpace.tsx +184 -217
inspect_ai/_view/www/src/workspace/WorkSpaceView.tsx +11 -53
inspect_ai/_view/www/src/workspace/navbar/Navbar.tsx +8 -18
inspect_ai/_view/www/src/workspace/navbar/PrimaryBar.module.css +1 -0
inspect_ai/_view/www/src/workspace/navbar/PrimaryBar.tsx +40 -22
inspect_ai/_view/www/src/workspace/navbar/ResultsPanel.module.css +16 -1
inspect_ai/_view/www/src/workspace/navbar/ResultsPanel.tsx +159 -103
inspect_ai/_view/www/src/workspace/navbar/RunningStatusPanel.module.css +32 -0
inspect_ai/_view/www/src/workspace/navbar/RunningStatusPanel.tsx +32 -0
inspect_ai/_view/www/src/workspace/navbar/ScoreGrid.module.css +35 -0
inspect_ai/_view/www/src/workspace/navbar/ScoreGrid.tsx +117 -0
inspect_ai/_view/www/src/workspace/navbar/SecondaryBar.tsx +12 -14
inspect_ai/_view/www/src/workspace/navbar/StatusPanel.tsx +6 -2
inspect_ai/_view/www/src/workspace/sidebar/LogDirectoryTitleView.tsx +4 -4
inspect_ai/_view/www/src/workspace/sidebar/Sidebar.module.css +3 -2
inspect_ai/_view/www/src/workspace/sidebar/Sidebar.tsx +28 -13
inspect_ai/_view/www/src/workspace/tabs/InfoTab.tsx +5 -10
inspect_ai/_view/www/src/workspace/tabs/JsonTab.tsx +4 -4
inspect_ai/_view/www/src/workspace/tabs/RunningNoSamples.module.css +22 -0
inspect_ai/_view/www/src/workspace/tabs/RunningNoSamples.tsx +19 -0
inspect_ai/_view/www/src/workspace/tabs/SamplesTab.tsx +128 -115
inspect_ai/_view/www/src/workspace/tabs/grouping.ts +37 -5
inspect_ai/_view/www/src/workspace/tabs/types.ts +4 -0
inspect_ai/_view/www/src/workspace/types.ts +4 -3
inspect_ai/_view/www/src/workspace/utils.ts +4 -4
inspect_ai/_view/www/vite.config.js +6 -0
inspect_ai/_view/www/yarn.lock +464 -355
inspect_ai/agent/__init__.py +36 -0
inspect_ai/agent/_agent.py +268 -0
inspect_ai/agent/_as_solver.py +72 -0
inspect_ai/agent/_as_tool.py +122 -0
inspect_ai/{solver → agent}/_bridge/bridge.py +23 -37
inspect_ai/{solver → agent}/_bridge/patch.py +9 -8
inspect_ai/agent/_filter.py +46 -0
inspect_ai/agent/_handoff.py +93 -0
inspect_ai/{solver/_human_agent → agent/_human}/agent.py +11 -12
inspect_ai/{solver/_human_agent → agent/_human}/commands/__init__.py +2 -3
inspect_ai/{solver/_human_agent → agent/_human}/commands/clock.py +3 -1
inspect_ai/{solver/_human_agent → agent/_human}/commands/score.py +5 -5
inspect_ai/{solver/_human_agent → agent/_human}/install.py +6 -3
inspect_ai/{solver/_human_agent → agent/_human}/service.py +7 -3
inspect_ai/{solver/_human_agent → agent/_human}/state.py +5 -5
inspect_ai/agent/_react.py +241 -0
inspect_ai/agent/_run.py +36 -0
inspect_ai/agent/_types.py +81 -0
inspect_ai/log/_condense.py +26 -0
inspect_ai/log/_log.py +17 -5
inspect_ai/log/_recorders/buffer/__init__.py +14 -0
inspect_ai/log/_recorders/buffer/buffer.py +30 -0
inspect_ai/log/_recorders/buffer/database.py +685 -0
inspect_ai/log/_recorders/buffer/filestore.py +259 -0
inspect_ai/log/_recorders/buffer/types.py +84 -0
inspect_ai/log/_recorders/eval.py +2 -11
inspect_ai/log/_recorders/types.py +30 -0
inspect_ai/log/_transcript.py +32 -2
inspect_ai/model/__init__.py +7 -1
inspect_ai/model/_call_tools.py +257 -52
inspect_ai/model/_chat_message.py +7 -4
inspect_ai/model/_conversation.py +13 -62
inspect_ai/model/_display.py +85 -0
inspect_ai/model/_generate_config.py +2 -2
inspect_ai/model/_model.py +114 -14
inspect_ai/model/_model_output.py +14 -9
inspect_ai/model/_openai.py +16 -4
inspect_ai/model/_openai_computer_use.py +162 -0
inspect_ai/model/_openai_responses.py +319 -165
inspect_ai/model/_providers/anthropic.py +20 -21
inspect_ai/model/_providers/azureai.py +24 -13
inspect_ai/model/_providers/bedrock.py +1 -7
inspect_ai/model/_providers/cloudflare.py +3 -3
inspect_ai/model/_providers/goodfire.py +2 -6
inspect_ai/model/_providers/google.py +11 -10
inspect_ai/model/_providers/groq.py +6 -3
inspect_ai/model/_providers/hf.py +7 -3
inspect_ai/model/_providers/mistral.py +7 -10
inspect_ai/model/_providers/openai.py +47 -17
inspect_ai/model/_providers/openai_o1.py +11 -4
inspect_ai/model/_providers/openai_responses.py +12 -14
inspect_ai/model/_providers/providers.py +2 -2
inspect_ai/model/_providers/together.py +12 -2
inspect_ai/model/_providers/util/chatapi.py +7 -2
inspect_ai/model/_providers/util/hf_handler.py +4 -2
inspect_ai/model/_providers/util/llama31.py +4 -2
inspect_ai/model/_providers/vertex.py +11 -9
inspect_ai/model/_providers/vllm.py +4 -4
inspect_ai/scorer/__init__.py +2 -0
inspect_ai/scorer/_metrics/__init__.py +2 -0
inspect_ai/scorer/_metrics/grouped.py +84 -0
inspect_ai/scorer/_score.py +26 -6
inspect_ai/solver/__init__.py +2 -2
inspect_ai/solver/_basic_agent.py +22 -9
inspect_ai/solver/_bridge.py +31 -0
inspect_ai/solver/_chain.py +20 -12
inspect_ai/solver/_fork.py +5 -1
inspect_ai/solver/_human_agent.py +52 -0
inspect_ai/solver/_prompt.py +3 -1
inspect_ai/solver/_run.py +59 -0
inspect_ai/solver/_solver.py +14 -4
inspect_ai/solver/_task_state.py +5 -3
inspect_ai/tool/_tool_call.py +15 -8
inspect_ai/tool/_tool_def.py +17 -12
inspect_ai/tool/_tool_support_helpers.py +4 -4
inspect_ai/tool/_tool_with.py +14 -11
inspect_ai/tool/_tools/_bash_session.py +11 -2
inspect_ai/tool/_tools/_computer/_common.py +18 -2
inspect_ai/tool/_tools/_computer/_computer.py +18 -2
inspect_ai/tool/_tools/_computer/_resources/tool/_constants.py +2 -0
inspect_ai/tool/_tools/_computer/_resources/tool/_x11_client.py +17 -0
inspect_ai/tool/_tools/_think.py +1 -1
inspect_ai/tool/_tools/_web_browser/_web_browser.py +103 -62
inspect_ai/util/__init__.py +2 -0
inspect_ai/util/_anyio.py +27 -0
inspect_ai/util/_sandbox/__init__.py +2 -1
inspect_ai/util/_sandbox/context.py +32 -7
inspect_ai/util/_sandbox/docker/cleanup.py +4 -0
inspect_ai/util/_sandbox/docker/compose.py +2 -2
inspect_ai/util/_sandbox/docker/docker.py +12 -1
inspect_ai/util/_store_model.py +30 -7
inspect_ai/util/_subprocess.py +13 -3
inspect_ai/util/_subtask.py +1 -0
{inspect_ai-0.3.81.dist-info → inspect_ai-0.3.83.dist-info}/METADATA +1 -1
{inspect_ai-0.3.81.dist-info → inspect_ai-0.3.83.dist-info}/RECORD +295 -229
inspect_ai/_view/www/src/samples/scores/SampleScoreView.tsx +0 -169
inspect_ai/_view/www/src/samples/transcript/SampleTranscript.tsx +0 -22
/inspect_ai/{solver → agent}/_bridge/__init__.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/__init__.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/commands/command.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/commands/instructions.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/commands/note.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/commands/status.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/commands/submit.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/panel.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/view.py +0 -0
{inspect_ai-0.3.81.dist-info → inspect_ai-0.3.83.dist-info}/WHEEL +0 -0
{inspect_ai-0.3.81.dist-info → inspect_ai-0.3.83.dist-info}/entry_points.txt +0 -0
{inspect_ai-0.3.81.dist-info → inspect_ai-0.3.83.dist-info}/licenses/LICENSE +0 -0
{inspect_ai-0.3.81.dist-info → inspect_ai-0.3.83.dist-info}/top_level.txt +0 -0

inspect_ai/__init__.py CHANGED Viewed

@@ -10,7 +10,8 @@ from inspect_ai._eval.score import score, score_async
 from inspect_ai._eval.task import Epochs, Task, TaskInfo, task_with
 from inspect_ai._eval.task.tasks import Tasks
 from inspect_ai._util.constants import PKG_NAME
-from inspect_ai.solver._human_agent.agent import human_agent
+from inspect_ai.agent._human.agent import human_cli
+from inspect_ai.solver._human_agent import human_agent
 __version__ = importlib_version(PKG_NAME)

inspect_ai/_cli/eval.py CHANGED Viewed

@@ -10,6 +10,7 @@ from inspect_ai._util.constants import (
     ALL_LOG_LEVELS,
     DEFAULT_EPOCHS,
     DEFAULT_LOG_LEVEL_TRANSCRIPT,
+    DEFAULT_LOG_SHARED,
     DEFAULT_MAX_CONNECTIONS,
 )
 from inspect_ai._util.file import filesystem
@@ -25,7 +26,12 @@ from .common import (
     common_options,
     process_common_options,
 )
-from .util import parse_cli_args, parse_cli_config, parse_sandbox
+from .util import (
+    int_or_bool_flag_callback,
+    parse_cli_args,
+    parse_cli_config,
+    parse_sandbox,
+)
 MAX_SAMPLES_HELP = "Maximum number of samples to run in parallel (default is running all samples in parallel)"
 MAX_TASKS_HELP = "Maximum number of tasks to run in parallel (default is 1)"
@@ -41,6 +47,7 @@ LOG_IMAGES_HELP = (
     "Include base64 encoded versions of filename or URL based images in the log file."
 )
 LOG_BUFFER_HELP = "Number of samples to buffer before writing log file. If not specified, an appropriate default for the format and filesystem is chosen (10 for most all cases, 100 for JSON logs on remote filesystems)."
+LOG_SHARED_HELP = "Sync sample events to log directory so that users on other systems can see log updates in realtime (defaults to no syncing). If enabled will sync every 10 seconds (or pass a value to sync every `n` seconds)."
 NO_SCORE_HELP = (
     "Do not score model output (use the inspect score command to score output later)"
 )
@@ -266,6 +273,15 @@ def eval_options(func: Callable[..., Any]) -> Callable[..., click.Context]:
     @click.option(
         "--log-buffer", type=int, help=LOG_BUFFER_HELP, envvar="INSPECT_EVAL_LOG_BUFFER"
     )
+    @click.option(
+        "--log-shared",
+        is_flag=False,
+        flag_value="true",
+        default=None,
+        callback=int_or_bool_flag_callback(DEFAULT_LOG_SHARED),
+        help=LOG_SHARED_HELP,
+        envvar=["INSPECT_LOG_SHARED", "INSPECT_EVAL_LOG_SHARED"],
+    )
     @click.option(
         "--no-score",
         type=bool,
@@ -396,7 +412,7 @@ def eval_options(func: Callable[..., Any]) -> Callable[..., click.Context]:
     @click.option(
         "--reasoning-effort",
         type=click.Choice(["low", "medium", "high"]),
-        help="Constrains effort on reasoning for reasoning models. Open AI o-series models only.",
+        help="Constrains effort on reasoning for reasoning models (defaults to `medium`). Open AI o-series models only.",
         envvar="INSPECT_EVAL_REASONING_EFFORT",
     )
     @click.option(
@@ -503,6 +519,7 @@ def eval_command(
     no_log_samples: bool | None,
     log_images: bool | None,
     log_buffer: int | None,
+    log_shared: int | None,
     no_score: bool | None,
     no_score_display: bool | None,
     log_format: Literal["eval", "json"] | None,
@@ -556,6 +573,7 @@ def eval_command(
         no_log_samples=no_log_samples,
         log_images=log_images,
         log_buffer=log_buffer,
+        log_shared=log_shared,
         no_score=no_score,
         no_score_display=no_score_display,
         is_eval_set=False,
@@ -670,6 +688,7 @@ def eval_set_command(
     no_log_samples: bool | None,
     log_images: bool | None,
     log_buffer: int | None,
+    log_shared: int | None,
     no_score: bool | None,
     no_score_display: bool | None,
     bundle_dir: str | None,
@@ -728,6 +747,7 @@ def eval_set_command(
         no_log_samples=no_log_samples,
         log_images=log_images,
         log_buffer=log_buffer,
+        log_shared=log_shared,
         no_score=no_score,
         no_score_display=no_score_display,
         is_eval_set=True,
@@ -783,6 +803,7 @@ def eval_exec(
     no_log_samples: bool | None,
     log_images: bool | None,
     log_buffer: int | None,
+    log_shared: int | None,
     no_score: bool | None,
     no_score_display: bool | None,
     is_eval_set: bool = False,
@@ -865,6 +886,7 @@ def eval_exec(
             log_samples=log_samples,
             log_images=log_images,
             log_buffer=log_buffer,
+            log_shared=log_shared,
             score=score,
             score_display=score_display,
         )
@@ -1004,6 +1026,15 @@ def parse_comma_separated(value: str | None) -> list[str] | None:
 @click.option(
     "--log-buffer", type=int, help=LOG_BUFFER_HELP, envvar="INSPECT_EVAL_LOG_BUFFER"
 )
+@click.option(
+    "--log-shared",
+    is_flag=False,
+    flag_value="true",
+    default=None,
+    callback=int_or_bool_flag_callback(DEFAULT_LOG_SHARED),
+    help=LOG_SHARED_HELP,
+    envvar=["INSPECT_LOG_SHARED", "INSPECT_EVAL_LOG_SHARED"],
+)
 @click.option(
     "--no-score",
     type=bool,
@@ -1052,6 +1083,7 @@ def eval_retry_command(
     no_log_samples: bool | None,
     log_images: bool | None,
     log_buffer: int | None,
+    log_shared: int | None,
     no_score: bool | None,
     no_score_display: bool | None,
     max_connections: int | None,
@@ -1099,6 +1131,7 @@ def eval_retry_command(
         log_samples=log_samples,
         log_images=log_images,
         log_buffer=log_buffer,
+        log_shared=log_shared,
         score=score,
         score_display=score_display,
         max_retries=max_retries,

inspect_ai/_cli/util.py CHANGED Viewed

@@ -1,11 +1,54 @@
-from typing import Any
+from typing import Any, Callable
+import click
 import yaml
 from inspect_ai._util.config import resolve_args
 from inspect_ai.util._sandbox.environment import SandboxEnvironmentSpec
+def int_or_bool_flag_callback(
+    true_value: int, false_value: int = 0
+) -> Callable[[click.Context, click.Parameter, Any], int]:
+    def callback(ctx: click.Context, param: click.Parameter, value: Any) -> int:
+        """Callback to parse the an option that can either be a boolean flag or integer.
+        Desired behavior:
+        - Not specified at all -> false_value
+        - Specified with no value -> true_value
+        - Specified with "true"/"false" -> true_value or false_value respectively
+        - Specified with an integer -> that integer
+        """
+        # 1. If this parameter was never given on the command line,
+        #    then we return 0.
+        source = ctx.get_parameter_source(param.name) if param.name else ""
+        if source == click.core.ParameterSource.DEFAULT:
+            # Means the user did NOT specify the flag at all
+            return false_value
+        # 2. The user did specify the flag. If value is None,
+        #    that means they used the flag with no argument, e.g. --my-flag
+        if value is None:
+            return true_value
+        # 3. If there is a value, try to parse booleans or an integer.
+        lower_val = value.lower()
+        if lower_val in ("true", "yes", "1"):
+            return true_value
+        elif lower_val in ("false", "no", "0"):
+            return false_value
+        else:
+            # 4. Otherwise, assume it is an integer
+            try:
+                return int(value)
+            except ValueError:
+                raise click.BadParameter(
+                    f"Expected 'true', 'false', or an integer for --{param.name}. Got: {value}"
+                )
+    return callback
 def parse_cli_config(
     args: tuple[str] | list[str] | None, config: str | None
 ) -> dict[str, Any]:

inspect_ai/_display/core/config.py CHANGED Viewed

@@ -36,7 +36,7 @@ def task_config(
             value = value if isinstance(value, list) else [value]
             value = [str(v) for v in value]
             config_print.append(f"{name}: {','.join(value)}")
-        elif name not in ["limit", "model", "response_schema"]:
+        elif name not in ["limit", "model", "response_schema", "log_shared"]:
             if isinstance(value, list):
                 value = ",".join([str(v) for v in value])
             if isinstance(value, str):

inspect_ai/_display/core/display.py CHANGED Viewed

@@ -15,6 +15,7 @@ from typing import (
 )
 import rich
+from pydantic import BaseModel, Field, field_validator
 from rich.console import Console
 from inspect_ai.log import EvalConfig, EvalResults, EvalStats
@@ -104,12 +105,20 @@ class TaskScreen(contextlib.AbstractContextManager["TaskScreen"]):
         raise NotImplementedError("input_panel not implemented by current display")
-@dataclass
-class TaskDisplayMetric:
+class TaskDisplayMetric(BaseModel):
     scorer: str
     name: str
-    value: float | int
-    reducer: str | None
+    value: float | int | None = Field(default=None)
+    reducer: str | None = Field(default=None)
+    @field_validator("value", mode="before")
+    @classmethod
+    def handle_null_value(cls, v: Any) -> Union[float, int, None]:
+        if v is None:
+            return None
+        if isinstance(v, float | int):
+            return v
+        raise ValueError(f"Expected float, int, or None, got {type(v)}")
 @runtime_checkable

inspect_ai/_display/core/results.py CHANGED Viewed

@@ -180,7 +180,7 @@ def task_metric(metrics: list[TaskDisplayMetric], width: int | None = None) -> s
     )
     metric = metrics[0]
-    if np.isnan(metric.value):
+    if metric.value is None or np.isnan(metric.value):
         value = " n/a"
     else:
         value = f"{metric.value:.2f}"

inspect_ai/_display/textual/app.py CHANGED Viewed

@@ -58,10 +58,12 @@ class TaskScreenResult(Generic[TR]):
         value: TR | BaseException,
         tasks: list[TaskWithResult],
         output: list[str],
+        warnings: list[str],
     ) -> None:
         self.value = value
         self.tasks = tasks
         self.output = output
+        self.warnings = warnings
 class TaskScreenApp(App[TR]):
@@ -86,6 +88,7 @@ class TaskScreenApp(App[TR]):
         self._worker: Worker[TR] | None = None
         self._error: BaseException | None = None
         self._output: list[str] = []
+        self._warnings: list[str] = []
         # task screen
         self._total_tasks = 0
@@ -120,7 +123,12 @@ class TaskScreenApp(App[TR]):
             value = CancelledError()
         # return result w/ output
-        return TaskScreenResult(value=value, tasks=self._app_tasks, output=self._output)
+        return TaskScreenResult(
+            value=value,
+            tasks=self._app_tasks,
+            output=self._output,
+            warnings=self._warnings,
+        )
     async def on_load(self) -> None:
         # events used to synchronise loading
@@ -349,8 +357,11 @@ class TaskScreenApp(App[TR]):
         if text.endswith("\n"):
             text = text[:-1]
-        # track output (for printing at the end)
-        self._output.append(text)
+        # track output and warnings (for printing at the end)
+        if "WARNING" in text:
+            self._warnings.append(text)
+        else:
+            self._output.append(text)
         # write to console view
         self.query_one(ConsoleView).write_ansi(text)

inspect_ai/_display/textual/display.py CHANGED Viewed

@@ -42,6 +42,10 @@ class TextualDisplay(Display):
         # print tasks
         rich.print(tasks_results(result.tasks))
+        # print warnings
+        if result.warnings:
+            print("\n".join(result.warnings))
         # raise error as required
         if isinstance(result.value, BaseException):
             raise result.value

inspect_ai/_display/textual/widgets/samples.py CHANGED Viewed

@@ -17,7 +17,7 @@ from textual.widgets import (
     OptionList,
     Static,
 )
-from textual.widgets.option_list import Option
+from textual.widgets.option_list import Option, OptionDoesNotExist
 from inspect_ai._display.textual.widgets.port_mappings import get_url
 from inspect_ai._util.format import format_progress_time
@@ -124,7 +124,7 @@ class SamplesList(OptionList):
     def set_samples(self, samples: list[ActiveSample]) -> None:
         # check for a highlighted sample (make sure we don't remove it)
         highlighted_id = (
-            self.get_option_at_index(self.highlighted).id
+            self.get_id_at_index(self.highlighted)
             if self.highlighted is not None
             else None
         )
@@ -179,12 +179,18 @@ class SamplesList(OptionList):
             self.scroll_to_highlight()
     def sample_for_highlighted(self, highlighted: int) -> ActiveSample | None:
-        highlighted_id = self.get_option_at_index(highlighted).id
+        highlighted_id = self.get_id_at_index(highlighted)
         if highlighted_id is not None:
             return sample_for_id(self.samples, highlighted_id)
         else:
             return None
+    def get_id_at_index(self, index: int) -> str | None:
+        try:
+            return self.get_option_at_index(index).id
+        except OptionDoesNotExist:
+            return None
 class SampleVNC(Horizontal):
     DEFAULT_CSS = """

inspect_ai/_display/textual/widgets/task_detail.py CHANGED Viewed

@@ -14,7 +14,7 @@ from inspect_ai._display.core.display import TaskDisplayMetric
 @dataclass
 class TaskMetric:
     name: str
-    value: float
+    value: float | int | None
 class TaskDetail(Widget):
@@ -221,21 +221,21 @@ class TaskMetrics(Widget):
             self.recompute_grid()
     def on_mount(self) -> None:
-        self.recompute_grid()
+        self.recompute_grid(True)
-    def recompute_grid(self) -> None:
-        if not self.is_mounted:
+    def recompute_grid(self, force: bool = False) -> None:
+        if not self.is_mounted and not force:
             return
         grid = self.query_one(f"#{self.grid_id()}")
         grid.remove_children()
         for metric in self.metrics:
             # Add the value static but keep it around
             # for future updates
-            self.value_widgets[metric.name] = Static(
-                self._metric_value(metric.value), markup=False
-            )
+            if metric.value is not None:
+                self.value_widgets[metric.name] = Static(
+                    self._metric_value(metric.value), markup=False
+                )
             grid.mount(Static(metric.name, markup=False))
             grid.mount(self.value_widgets[metric.name])

inspect_ai/_display/textual/widgets/tasks.py CHANGED Viewed

@@ -17,6 +17,11 @@ from inspect_ai._display.core.results import task_metric
 from inspect_ai._display.textual.widgets.clock import Clock
 from inspect_ai._display.textual.widgets.task_detail import TaskDetail
 from inspect_ai._display.textual.widgets.toggle import Toggle
+from inspect_ai._display.textual.widgets.vscode import conditional_vscode_link
+from inspect_ai._util.file import to_uri
+from inspect_ai._util.vscode import (
+    VSCodeCommand,
+)
 from ...core.display import (
     Progress,
@@ -151,7 +156,7 @@ class TaskProgressView(Widget):
         height: auto;
         width: 1fr;
         layout: grid;
-        grid-size: 8 2;
+        grid-size: 9 2;
         grid-columns: auto auto auto auto 1fr auto auto auto;
         grid-rows: auto auto;
         grid-gutter: 0 1;
@@ -200,6 +205,15 @@ class TaskProgressView(Widget):
         self.sample_count_width: int = sample_count_width
         self.display_metrics = display_metrics
+        self.view_log_link = conditional_vscode_link(
+            "[View Log]",
+            VSCodeCommand(
+                command="inspect.openLogViewer",
+                args=[to_uri(task.profile.log_location)]
+                if task.profile.log_location
+                else [],
+            ),
+        )
     metrics: reactive[list[TaskDisplayMetric] | None] = reactive(None)
     metrics_width: reactive[int | None] = reactive(None)
@@ -222,6 +236,8 @@ class TaskProgressView(Widget):
         yield self.count_display
         yield self.metrics_display
         yield Clock()
+        yield self.view_log_link
         yield self.task_detail
     @on(Toggle.Toggled)

inspect_ai/_display/textual/widgets/vscode.py ADDED Viewed

@@ -0,0 +1,44 @@
+from textual.widget import Widget
+from textual.widgets import Link, Static
+from inspect_ai._util.vscode import (
+    VSCodeCommand,
+    can_execute_vscode_command,
+    execute_vscode_commands,
+)
+def conditional_vscode_link(text: str, command: VSCodeCommand) -> Widget:
+    if can_execute_vscode_command(command.command):
+        vscode_link = VSCodeLink(text)
+        vscode_link.commands = [command]
+        return vscode_link
+    else:
+        return Static()
+class VSCodeLink(Link):
+    def __init__(
+        self,
+        text: str,
+        *,
+        url: str | None = None,
+        tooltip: str | None = None,
+        name: str | None = None,
+        id: str | None = None,
+        classes: str | None = None,
+        disabled: bool = False,
+    ) -> None:
+        super().__init__(
+            text,
+            url=url,
+            tooltip=tooltip,
+            name=name,
+            id=id,
+            classes=classes,
+            disabled=disabled,
+        )
+        self.commands: list[VSCodeCommand] = []
+    def on_click(self) -> None:
+        execute_vscode_commands(self.commands)

inspect-ai 0.3.81__py3-none-any.whl → 0.3.83__py3-none-any.whl

inspect-ai 0.3.81py3-none-any.whl → 0.3.83py3-none-any.whl