PyPI - inspect-ai - Versions diffs - 0.3.81__py3-none-any.whl → 0.3.83__py3-none-any.whl - Mend

inspect-ai 0.3.81py3-none-any.whl → 0.3.83py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (297) hide show

inspect_ai/__init__.py +2 -1
inspect_ai/_cli/eval.py +35 -2
inspect_ai/_cli/util.py +44 -1
inspect_ai/_display/core/config.py +1 -1
inspect_ai/_display/core/display.py +13 -4
inspect_ai/_display/core/results.py +1 -1
inspect_ai/_display/textual/app.py +14 -3
inspect_ai/_display/textual/display.py +4 -0
inspect_ai/_display/textual/widgets/samples.py +9 -3
inspect_ai/_display/textual/widgets/task_detail.py +8 -8
inspect_ai/_display/textual/widgets/tasks.py +17 -1
inspect_ai/_display/textual/widgets/vscode.py +44 -0
inspect_ai/_eval/eval.py +74 -25
inspect_ai/_eval/evalset.py +22 -18
inspect_ai/_eval/loader.py +34 -11
inspect_ai/_eval/run.py +13 -15
inspect_ai/_eval/score.py +13 -3
inspect_ai/_eval/task/generate.py +8 -9
inspect_ai/_eval/task/log.py +55 -6
inspect_ai/_eval/task/run.py +51 -10
inspect_ai/_eval/task/task.py +23 -9
inspect_ai/_util/constants.py +2 -0
inspect_ai/_util/file.py +30 -1
inspect_ai/_util/json.py +37 -1
inspect_ai/_util/registry.py +1 -0
inspect_ai/_util/vscode.py +37 -0
inspect_ai/_view/server.py +113 -1
inspect_ai/_view/www/App.css +7 -1
inspect_ai/_view/www/dist/assets/index.css +813 -415
inspect_ai/_view/www/dist/assets/index.js +54475 -32003
inspect_ai/_view/www/eslint.config.mjs +1 -1
inspect_ai/_view/www/log-schema.json +137 -31
inspect_ai/_view/www/node_modules/flatted/python/flatted.py +149 -0
inspect_ai/_view/www/package.json +11 -2
inspect_ai/_view/www/src/App.tsx +161 -853
inspect_ai/_view/www/src/api/api-browser.ts +176 -5
inspect_ai/_view/www/src/api/api-vscode.ts +75 -1
inspect_ai/_view/www/src/api/client-api.ts +66 -10
inspect_ai/_view/www/src/api/jsonrpc.ts +2 -0
inspect_ai/_view/www/src/api/types.ts +107 -2
inspect_ai/_view/www/src/appearance/icons.ts +2 -0
inspect_ai/_view/www/src/components/AsciinemaPlayer.tsx +3 -3
inspect_ai/_view/www/src/components/Card.tsx +6 -4
inspect_ai/_view/www/src/components/DownloadPanel.tsx +2 -2
inspect_ai/_view/www/src/components/ExpandablePanel.tsx +56 -61
inspect_ai/_view/www/src/components/FindBand.tsx +17 -9
inspect_ai/_view/www/src/components/HumanBaselineView.tsx +1 -1
inspect_ai/_view/www/src/components/JsonPanel.tsx +14 -24
inspect_ai/_view/www/src/components/LargeModal.tsx +2 -35
inspect_ai/_view/www/src/components/LightboxCarousel.tsx +27 -11
inspect_ai/_view/www/src/components/LinkButton.module.css +16 -0
inspect_ai/_view/www/src/components/LinkButton.tsx +33 -0
inspect_ai/_view/www/src/components/LiveVirtualList.module.css +11 -0
inspect_ai/_view/www/src/components/LiveVirtualList.tsx +177 -0
inspect_ai/_view/www/src/components/MarkdownDiv.tsx +116 -26
inspect_ai/_view/www/src/components/MessageBand.tsx +14 -9
inspect_ai/_view/www/src/components/Modal.module.css +38 -0
inspect_ai/_view/www/src/components/Modal.tsx +77 -0
inspect_ai/_view/www/src/components/MorePopOver.tsx +3 -3
inspect_ai/_view/www/src/components/NavPills.tsx +20 -8
inspect_ai/_view/www/src/components/NoContentsPanel.module.css +12 -0
inspect_ai/_view/www/src/components/NoContentsPanel.tsx +20 -0
inspect_ai/_view/www/src/components/ProgressBar.module.css +5 -4
inspect_ai/_view/www/src/components/ProgressBar.tsx +3 -2
inspect_ai/_view/www/src/components/PulsingDots.module.css +81 -0
inspect_ai/_view/www/src/components/PulsingDots.tsx +45 -0
inspect_ai/_view/www/src/components/TabSet.tsx +4 -37
inspect_ai/_view/www/src/components/ToolButton.tsx +3 -4
inspect_ai/_view/www/src/index.tsx +26 -94
inspect_ai/_view/www/src/logfile/remoteLogFile.ts +9 -1
inspect_ai/_view/www/src/logfile/remoteZipFile.ts +30 -4
inspect_ai/_view/www/src/metadata/RenderedContent.tsx +4 -6
inspect_ai/_view/www/src/plan/DetailStep.module.css +4 -0
inspect_ai/_view/www/src/plan/DetailStep.tsx +6 -3
inspect_ai/_view/www/src/plan/ScorerDetailView.tsx +1 -1
inspect_ai/_view/www/src/plan/SolverDetailView.module.css +2 -1
inspect_ai/_view/www/src/samples/InlineSampleDisplay.module.css +9 -1
inspect_ai/_view/www/src/samples/InlineSampleDisplay.tsx +74 -28
inspect_ai/_view/www/src/samples/SampleDialog.tsx +58 -22
inspect_ai/_view/www/src/samples/SampleDisplay.module.css +4 -0
inspect_ai/_view/www/src/samples/SampleDisplay.tsx +135 -104
inspect_ai/_view/www/src/samples/SampleSummaryView.module.css +10 -0
inspect_ai/_view/www/src/samples/SampleSummaryView.tsx +83 -36
inspect_ai/_view/www/src/samples/SamplesTools.tsx +35 -30
inspect_ai/_view/www/src/samples/chat/ChatMessage.tsx +2 -1
inspect_ai/_view/www/src/samples/chat/ChatMessageRenderer.tsx +1 -1
inspect_ai/_view/www/src/samples/chat/ChatViewVirtualList.tsx +45 -53
inspect_ai/_view/www/src/samples/chat/MessageContent.tsx +6 -1
inspect_ai/_view/www/src/samples/chat/MessageContents.tsx +5 -0
inspect_ai/_view/www/src/samples/chat/messages.ts +36 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolCallView.module.css +3 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolCallView.tsx +11 -1
inspect_ai/_view/www/src/samples/chat/tools/ToolInput.tsx +22 -46
inspect_ai/_view/www/src/samples/descriptor/samplesDescriptor.tsx +34 -20
inspect_ai/_view/www/src/samples/descriptor/score/BooleanScoreDescriptor.module.css +3 -3
inspect_ai/_view/www/src/samples/descriptor/score/BooleanScoreDescriptor.tsx +1 -1
inspect_ai/_view/www/src/samples/descriptor/score/ObjectScoreDescriptor.module.css +4 -4
inspect_ai/_view/www/src/samples/descriptor/score/ObjectScoreDescriptor.tsx +10 -10
inspect_ai/_view/www/src/samples/descriptor/types.ts +6 -5
inspect_ai/_view/www/src/samples/list/SampleFooter.module.css +22 -3
inspect_ai/_view/www/src/samples/list/SampleFooter.tsx +27 -2
inspect_ai/_view/www/src/samples/list/SampleList.tsx +122 -85
inspect_ai/_view/www/src/samples/list/SampleRow.module.css +6 -0
inspect_ai/_view/www/src/samples/list/SampleRow.tsx +28 -15
inspect_ai/_view/www/src/samples/sample-tools/SelectScorer.tsx +29 -18
inspect_ai/_view/www/src/samples/sample-tools/SortFilter.tsx +28 -28
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/SampleFilter.tsx +19 -9
inspect_ai/_view/www/src/samples/sampleDataAdapter.ts +33 -0
inspect_ai/_view/www/src/samples/sampleLimit.ts +2 -2
inspect_ai/_view/www/src/samples/scores/SampleScores.tsx +12 -27
inspect_ai/_view/www/src/samples/scores/SampleScoresGrid.module.css +38 -0
inspect_ai/_view/www/src/samples/scores/SampleScoresGrid.tsx +118 -0
inspect_ai/_view/www/src/samples/scores/{SampleScoreView.module.css → SampleScoresView.module.css} +10 -1
inspect_ai/_view/www/src/samples/scores/SampleScoresView.tsx +78 -0
inspect_ai/_view/www/src/samples/transcript/ErrorEventView.tsx +0 -13
inspect_ai/_view/www/src/samples/transcript/InfoEventView.tsx +0 -13
inspect_ai/_view/www/src/samples/transcript/InputEventView.tsx +0 -13
inspect_ai/_view/www/src/samples/transcript/ModelEventView.module.css +4 -0
inspect_ai/_view/www/src/samples/transcript/ModelEventView.tsx +10 -24
inspect_ai/_view/www/src/samples/transcript/SampleInitEventView.tsx +0 -13
inspect_ai/_view/www/src/samples/transcript/SampleLimitEventView.tsx +4 -22
inspect_ai/_view/www/src/samples/transcript/SandboxEventView.tsx +15 -24
inspect_ai/_view/www/src/samples/transcript/ScoreEventView.tsx +0 -13
inspect_ai/_view/www/src/samples/transcript/StepEventView.tsx +6 -28
inspect_ai/_view/www/src/samples/transcript/SubtaskEventView.tsx +24 -34
inspect_ai/_view/www/src/samples/transcript/ToolEventView.module.css +4 -0
inspect_ai/_view/www/src/samples/transcript/ToolEventView.tsx +33 -17
inspect_ai/_view/www/src/samples/transcript/TranscriptView.tsx +197 -338
inspect_ai/_view/www/src/samples/transcript/TranscriptVirtualListComponent.module.css +16 -0
inspect_ai/_view/www/src/samples/transcript/TranscriptVirtualListComponent.tsx +44 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNav.tsx +7 -4
inspect_ai/_view/www/src/samples/transcript/event/EventPanel.tsx +81 -60
inspect_ai/_view/www/src/samples/transcript/event/EventProgressPanel.module.css +23 -0
inspect_ai/_view/www/src/samples/transcript/event/EventProgressPanel.tsx +27 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventRenderers.tsx +29 -1
inspect_ai/_view/www/src/samples/transcript/state/StateEventView.tsx +102 -72
inspect_ai/_view/www/src/scoring/utils.ts +87 -0
inspect_ai/_view/www/src/state/appSlice.ts +244 -0
inspect_ai/_view/www/src/state/hooks.ts +399 -0
inspect_ai/_view/www/src/state/logPolling.ts +200 -0
inspect_ai/_view/www/src/state/logSlice.ts +224 -0
inspect_ai/_view/www/src/state/logsPolling.ts +118 -0
inspect_ai/_view/www/src/state/logsSlice.ts +181 -0
inspect_ai/_view/www/src/state/samplePolling.ts +314 -0
inspect_ai/_view/www/src/state/sampleSlice.ts +140 -0
inspect_ai/_view/www/src/state/sampleUtils.ts +21 -0
inspect_ai/_view/www/src/state/scrolling.ts +206 -0
inspect_ai/_view/www/src/state/store.ts +168 -0
inspect_ai/_view/www/src/state/store_filter.ts +84 -0
inspect_ai/_view/www/src/state/utils.ts +23 -0
inspect_ai/_view/www/src/storage/index.ts +26 -0
inspect_ai/_view/www/src/types/log.d.ts +36 -26
inspect_ai/_view/www/src/types/markdown-it-katex.d.ts +21 -0
inspect_ai/_view/www/src/types.ts +94 -32
inspect_ai/_view/www/src/utils/attachments.ts +58 -23
inspect_ai/_view/www/src/utils/json-worker.ts +79 -12
inspect_ai/_view/www/src/utils/logger.ts +52 -0
inspect_ai/_view/www/src/utils/polling.ts +100 -0
inspect_ai/_view/www/src/utils/react.ts +30 -0
inspect_ai/_view/www/src/utils/vscode.ts +1 -1
inspect_ai/_view/www/src/workspace/WorkSpace.tsx +184 -217
inspect_ai/_view/www/src/workspace/WorkSpaceView.tsx +11 -53
inspect_ai/_view/www/src/workspace/navbar/Navbar.tsx +8 -18
inspect_ai/_view/www/src/workspace/navbar/PrimaryBar.module.css +1 -0
inspect_ai/_view/www/src/workspace/navbar/PrimaryBar.tsx +40 -22
inspect_ai/_view/www/src/workspace/navbar/ResultsPanel.module.css +16 -1
inspect_ai/_view/www/src/workspace/navbar/ResultsPanel.tsx +159 -103
inspect_ai/_view/www/src/workspace/navbar/RunningStatusPanel.module.css +32 -0
inspect_ai/_view/www/src/workspace/navbar/RunningStatusPanel.tsx +32 -0
inspect_ai/_view/www/src/workspace/navbar/ScoreGrid.module.css +35 -0
inspect_ai/_view/www/src/workspace/navbar/ScoreGrid.tsx +117 -0
inspect_ai/_view/www/src/workspace/navbar/SecondaryBar.tsx +12 -14
inspect_ai/_view/www/src/workspace/navbar/StatusPanel.tsx +6 -2
inspect_ai/_view/www/src/workspace/sidebar/LogDirectoryTitleView.tsx +4 -4
inspect_ai/_view/www/src/workspace/sidebar/Sidebar.module.css +3 -2
inspect_ai/_view/www/src/workspace/sidebar/Sidebar.tsx +28 -13
inspect_ai/_view/www/src/workspace/tabs/InfoTab.tsx +5 -10
inspect_ai/_view/www/src/workspace/tabs/JsonTab.tsx +4 -4
inspect_ai/_view/www/src/workspace/tabs/RunningNoSamples.module.css +22 -0
inspect_ai/_view/www/src/workspace/tabs/RunningNoSamples.tsx +19 -0
inspect_ai/_view/www/src/workspace/tabs/SamplesTab.tsx +128 -115
inspect_ai/_view/www/src/workspace/tabs/grouping.ts +37 -5
inspect_ai/_view/www/src/workspace/tabs/types.ts +4 -0
inspect_ai/_view/www/src/workspace/types.ts +4 -3
inspect_ai/_view/www/src/workspace/utils.ts +4 -4
inspect_ai/_view/www/vite.config.js +6 -0
inspect_ai/_view/www/yarn.lock +464 -355
inspect_ai/agent/__init__.py +36 -0
inspect_ai/agent/_agent.py +268 -0
inspect_ai/agent/_as_solver.py +72 -0
inspect_ai/agent/_as_tool.py +122 -0
inspect_ai/{solver → agent}/_bridge/bridge.py +23 -37
inspect_ai/{solver → agent}/_bridge/patch.py +9 -8
inspect_ai/agent/_filter.py +46 -0
inspect_ai/agent/_handoff.py +93 -0
inspect_ai/{solver/_human_agent → agent/_human}/agent.py +11 -12
inspect_ai/{solver/_human_agent → agent/_human}/commands/__init__.py +2 -3
inspect_ai/{solver/_human_agent → agent/_human}/commands/clock.py +3 -1
inspect_ai/{solver/_human_agent → agent/_human}/commands/score.py +5 -5
inspect_ai/{solver/_human_agent → agent/_human}/install.py +6 -3
inspect_ai/{solver/_human_agent → agent/_human}/service.py +7 -3
inspect_ai/{solver/_human_agent → agent/_human}/state.py +5 -5
inspect_ai/agent/_react.py +241 -0
inspect_ai/agent/_run.py +36 -0
inspect_ai/agent/_types.py +81 -0
inspect_ai/log/_condense.py +26 -0
inspect_ai/log/_log.py +17 -5
inspect_ai/log/_recorders/buffer/__init__.py +14 -0
inspect_ai/log/_recorders/buffer/buffer.py +30 -0
inspect_ai/log/_recorders/buffer/database.py +685 -0
inspect_ai/log/_recorders/buffer/filestore.py +259 -0
inspect_ai/log/_recorders/buffer/types.py +84 -0
inspect_ai/log/_recorders/eval.py +2 -11
inspect_ai/log/_recorders/types.py +30 -0
inspect_ai/log/_transcript.py +32 -2
inspect_ai/model/__init__.py +7 -1
inspect_ai/model/_call_tools.py +257 -52
inspect_ai/model/_chat_message.py +7 -4
inspect_ai/model/_conversation.py +13 -62
inspect_ai/model/_display.py +85 -0
inspect_ai/model/_generate_config.py +2 -2
inspect_ai/model/_model.py +114 -14
inspect_ai/model/_model_output.py +14 -9
inspect_ai/model/_openai.py +16 -4
inspect_ai/model/_openai_computer_use.py +162 -0
inspect_ai/model/_openai_responses.py +319 -165
inspect_ai/model/_providers/anthropic.py +20 -21
inspect_ai/model/_providers/azureai.py +24 -13
inspect_ai/model/_providers/bedrock.py +1 -7
inspect_ai/model/_providers/cloudflare.py +3 -3
inspect_ai/model/_providers/goodfire.py +2 -6
inspect_ai/model/_providers/google.py +11 -10
inspect_ai/model/_providers/groq.py +6 -3
inspect_ai/model/_providers/hf.py +7 -3
inspect_ai/model/_providers/mistral.py +7 -10
inspect_ai/model/_providers/openai.py +47 -17
inspect_ai/model/_providers/openai_o1.py +11 -4
inspect_ai/model/_providers/openai_responses.py +12 -14
inspect_ai/model/_providers/providers.py +2 -2
inspect_ai/model/_providers/together.py +12 -2
inspect_ai/model/_providers/util/chatapi.py +7 -2
inspect_ai/model/_providers/util/hf_handler.py +4 -2
inspect_ai/model/_providers/util/llama31.py +4 -2
inspect_ai/model/_providers/vertex.py +11 -9
inspect_ai/model/_providers/vllm.py +4 -4
inspect_ai/scorer/__init__.py +2 -0
inspect_ai/scorer/_metrics/__init__.py +2 -0
inspect_ai/scorer/_metrics/grouped.py +84 -0
inspect_ai/scorer/_score.py +26 -6
inspect_ai/solver/__init__.py +2 -2
inspect_ai/solver/_basic_agent.py +22 -9
inspect_ai/solver/_bridge.py +31 -0
inspect_ai/solver/_chain.py +20 -12
inspect_ai/solver/_fork.py +5 -1
inspect_ai/solver/_human_agent.py +52 -0
inspect_ai/solver/_prompt.py +3 -1
inspect_ai/solver/_run.py +59 -0
inspect_ai/solver/_solver.py +14 -4
inspect_ai/solver/_task_state.py +5 -3
inspect_ai/tool/_tool_call.py +15 -8
inspect_ai/tool/_tool_def.py +17 -12
inspect_ai/tool/_tool_support_helpers.py +4 -4
inspect_ai/tool/_tool_with.py +14 -11
inspect_ai/tool/_tools/_bash_session.py +11 -2
inspect_ai/tool/_tools/_computer/_common.py +18 -2
inspect_ai/tool/_tools/_computer/_computer.py +18 -2
inspect_ai/tool/_tools/_computer/_resources/tool/_constants.py +2 -0
inspect_ai/tool/_tools/_computer/_resources/tool/_x11_client.py +17 -0
inspect_ai/tool/_tools/_think.py +1 -1
inspect_ai/tool/_tools/_web_browser/_web_browser.py +103 -62
inspect_ai/util/__init__.py +2 -0
inspect_ai/util/_anyio.py +27 -0
inspect_ai/util/_sandbox/__init__.py +2 -1
inspect_ai/util/_sandbox/context.py +32 -7
inspect_ai/util/_sandbox/docker/cleanup.py +4 -0
inspect_ai/util/_sandbox/docker/compose.py +2 -2
inspect_ai/util/_sandbox/docker/docker.py +12 -1
inspect_ai/util/_store_model.py +30 -7
inspect_ai/util/_subprocess.py +13 -3
inspect_ai/util/_subtask.py +1 -0
{inspect_ai-0.3.81.dist-info → inspect_ai-0.3.83.dist-info}/METADATA +1 -1
{inspect_ai-0.3.81.dist-info → inspect_ai-0.3.83.dist-info}/RECORD +295 -229
inspect_ai/_view/www/src/samples/scores/SampleScoreView.tsx +0 -169
inspect_ai/_view/www/src/samples/transcript/SampleTranscript.tsx +0 -22
/inspect_ai/{solver → agent}/_bridge/__init__.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/__init__.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/commands/command.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/commands/instructions.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/commands/note.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/commands/status.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/commands/submit.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/panel.py +0 -0
/inspect_ai/{solver/_human_agent → agent/_human}/view.py +0 -0
{inspect_ai-0.3.81.dist-info → inspect_ai-0.3.83.dist-info}/WHEEL +0 -0
{inspect_ai-0.3.81.dist-info → inspect_ai-0.3.83.dist-info}/entry_points.txt +0 -0
{inspect_ai-0.3.81.dist-info → inspect_ai-0.3.83.dist-info}/licenses/LICENSE +0 -0
{inspect_ai-0.3.81.dist-info → inspect_ai-0.3.83.dist-info}/top_level.txt +0 -0

inspect_ai/log/_recorders/buffer/filestore.py ADDED Viewed

@@ -0,0 +1,259 @@
+import os
+import tempfile
+from logging import getLogger
+from pathlib import Path
+from typing import Literal
+from zipfile import ZIP_DEFLATED, ZipFile
+from pydantic import BaseModel, Field
+from typing_extensions import override
+from inspect_ai._display.core.display import TaskDisplayMetric
+from inspect_ai._util.constants import DEFAULT_LOG_SHARED, EVAL_LOG_FORMAT
+from inspect_ai._util.file import FileSystem, basename, dirname, file, filesystem
+from inspect_ai._util.json import to_json_safe, to_json_str_safe
+from inspect_ai.log._file import read_eval_log
+from ..types import SampleSummary
+from .types import SampleBuffer, SampleData, Samples
+logger = getLogger(__name__)
+class Segment(BaseModel):
+    id: int
+    last_event_id: int
+    last_attachment_id: int
+class SegmentFile(BaseModel):
+    id: str | int
+    epoch: int
+    data: SampleData
+class SampleManifest(BaseModel):
+    summary: SampleSummary
+    segments: list[int] = Field(default_factory=list)
+class Manifest(BaseModel):
+    metrics: list[TaskDisplayMetric] = Field(default_factory=list)
+    samples: list[SampleManifest] = Field(default_factory=list)
+    segments: list[Segment] = Field(default_factory=list)
+MANIFEST = "manifest.json"
+class SampleBufferFilestore(SampleBuffer):
+    def __init__(
+        self,
+        location: str,
+        *,
+        create: bool = True,
+        update_interval: int = DEFAULT_LOG_SHARED,
+    ) -> None:
+        self._fs = filesystem(location)
+        self._dir = f"{sample_buffer_dir(dirname(location), self._fs)}{self._fs.sep}{os.path.splitext(basename(location))[0]}{self._fs.sep}"
+        self.update_interval = update_interval
+        if create:
+            self._fs.mkdir(self._dir, exist_ok=True)
+            # place a file in the dir to force it to be created
+            self._fs.touch(f"{self._dir}.keep")
+    def write_manifest(self, manifest: Manifest) -> None:
+        with file(self._manifest_file(), "wb") as f:
+            f.write(to_json_safe(manifest))
+    def write_segment(self, id: int, files: list[SegmentFile]) -> None:
+        # write the file locally
+        with tempfile.NamedTemporaryFile(mode="wb", delete=False) as segment_file:
+            name = segment_file.name
+            with ZipFile(
+                segment_file, mode="w", compression=ZIP_DEFLATED, compresslevel=5
+            ) as zip:
+                for sf in files:
+                    zip.writestr(
+                        segment_file_name(sf.id, sf.epoch),
+                        to_json_str_safe(sf.data),
+                    )
+            segment_file.flush()
+            os.fsync(segment_file.fileno())
+        # write then move for atomicity
+        try:
+            with open(name, "rb") as zf:
+                with file(f"{self._dir}{segment_name(id)}", "wb") as f:
+                    f.write(zf.read())
+                    f.flush()
+        finally:
+            os.unlink(name)
+    def read_manifest(self) -> Manifest | None:
+        try:
+            with file(self._manifest_file(), "r") as f:
+                contents = f.read()
+                return Manifest.model_validate_json(contents)
+        except FileNotFoundError:
+            return None
+    def read_segment_data(
+        self, id: int, sample_id: str | int, epoch_id: int
+    ) -> SampleData:
+        segment_file = f"{self._dir}{segment_name(id)}"
+        with file(segment_file, "rb") as f:
+            with ZipFile(f, mode="r") as zip:
+                with zip.open(segment_file_name(sample_id, epoch_id), "r") as sf:
+                    return SampleData.model_validate_json(sf.read())
+    def cleanup(self) -> None:
+        cleanup_sample_buffer_filestore(self._dir, self._fs)
+    @classmethod
+    @override
+    def running_tasks(cls, log_dir: str) -> list[str] | None:
+        buffer_dir = Path(sample_buffer_dir(log_dir))
+        if buffer_dir.exists():
+            return [
+                f"{basename(path.name)}.{EVAL_LOG_FORMAT}"
+                for path in buffer_dir.iterdir()
+                if path.is_dir()
+            ]
+        else:
+            return None
+    @override
+    def get_samples(
+        self, etag: str | None = None
+    ) -> Samples | Literal["NotModified"] | None:
+        # get the etag on the filestore
+        try:
+            info = self._fs.info(self._manifest_file())
+            fs_etag = info.etag or f"{info.mtime}{info.size}"
+        except FileNotFoundError:
+            return None
+        # if the etag matches then return not modified
+        if etag == fs_etag:
+            return "NotModified"
+        # read the manifest
+        manifest = self.read_manifest()
+        if manifest is None:
+            return None
+        # provide samples + etag from the manifest
+        return Samples(
+            samples=[sm.summary for sm in manifest.samples],
+            metrics=manifest.metrics,
+            refresh=self.update_interval,
+            etag=fs_etag,
+        )
+    @override
+    def get_sample_data(
+        self,
+        id: str | int,
+        epoch: int,
+        after_event_id: int | None = None,
+        after_attachment_id: int | None = None,
+    ) -> SampleData | None:
+        # read the manifest
+        manifest = self.read_manifest()
+        if manifest is None:
+            return None
+        # find this sample in the manifest
+        sample = next(
+            (
+                sample
+                for sample in manifest.samples
+                if sample.summary.id == id and sample.summary.epoch == epoch
+            ),
+            None,
+        )
+        if sample is None:
+            return None
+        # determine which segments we need to return in order to
+        # satisfy the after_event_id and after_attachment_id
+        after_event_id = after_event_id or -1
+        after_attachment_id = after_attachment_id or -1
+        segments = [
+            segment for segment in manifest.segments if segment.id in sample.segments
+        ]
+        segments = [
+            segment
+            for segment in segments
+            if segment.last_event_id > after_event_id
+            or segment.last_attachment_id > after_attachment_id
+        ]
+        # collect data from the segments
+        sample_data = SampleData(events=[], attachments=[])
+        for segment in segments:
+            data = self.read_segment_data(segment.id, id, epoch)
+            sample_data.events.extend(data.events)
+            sample_data.attachments.extend(data.attachments)
+        return sample_data
+    def _manifest_file(self) -> str:
+        return f"{self._dir}{MANIFEST}"
+def cleanup_sample_buffer_filestores(log_dir: str) -> None:
+    # read log buffer dirs (bail if there is no buffer_dir)
+    fs = filesystem(log_dir)
+    buffer_dir = sample_buffer_dir(log_dir, fs)
+    try:
+        log_buffers = [
+            buffer for buffer in fs.ls(buffer_dir) if buffer.type == "directory"
+        ]
+    except FileNotFoundError:
+        return
+    # for each buffer dir, confirm there is a running .eval file
+    # (remove the buffer dir if there is no .eval or the eval is finished)
+    for log_buffer in log_buffers:
+        try:
+            log_file = f"{log_dir}{fs.sep}{basename(log_buffer.name)}.{EVAL_LOG_FORMAT}"
+            log_header = read_eval_log(log_file, header_only=True)
+            if log_header.status != "started":
+                cleanup_sample_buffer_filestore(log_buffer.name, fs)
+        except FileNotFoundError:
+            cleanup_sample_buffer_filestore(log_buffer.name, fs)
+    # remove the .buffer dir if it's empty
+    try:
+        if len(fs.ls(buffer_dir)) == 0:
+            fs.rm(buffer_dir, recursive=True)
+    except FileNotFoundError:
+        pass
+def cleanup_sample_buffer_filestore(buffer_dir: str, fs: FileSystem) -> None:
+    try:
+        fs.rm(buffer_dir, recursive=True)
+    except Exception as ex:
+        logger.warning(
+            f"Error cleaning up sample buffer database at {buffer_dir}: {ex}"
+        )
+def segment_name(id: int) -> str:
+    return f"segment.{id}.zip"
+def segment_file_name(id: str | int, epoch: int) -> str:
+    return f"{id}_{epoch}.json"
+def sample_buffer_dir(log_dir: str, fs: FileSystem | None = None) -> str:
+    log_dir = log_dir.rstrip("/\\")
+    fs = fs or filesystem(log_dir)
+    return f"{log_dir}{fs.sep}.buffer"

inspect_ai/log/_recorders/buffer/types.py ADDED Viewed

@@ -0,0 +1,84 @@
+import abc
+from typing import Literal, TypeAlias
+from pydantic import BaseModel, JsonValue
+from inspect_ai._display.core.display import TaskDisplayMetric
+from ..types import SampleSummary
+JsonData: TypeAlias = dict[str, JsonValue]
+class Samples(BaseModel):
+    samples: list[SampleSummary]
+    metrics: list[TaskDisplayMetric]
+    refresh: int
+    etag: str
+class EventData(BaseModel):
+    id: int
+    event_id: str
+    sample_id: str
+    epoch: int
+    event: JsonData
+class AttachmentData(BaseModel):
+    id: int
+    sample_id: str
+    epoch: int
+    hash: str
+    content: str
+class SampleData(BaseModel):
+    events: list[EventData]
+    attachments: list[AttachmentData]
+class SampleBuffer(abc.ABC):
+    @classmethod
+    @abc.abstractmethod
+    def running_tasks(cls, log_dir: str) -> list[str] | None: ...
+    @abc.abstractmethod
+    def get_samples(
+        self, etag: str | None = None
+    ) -> Samples | Literal["NotModified"] | None:
+        """Get the manifest of all running samples.
+        Args:
+          etag: Optional etag (returned in `Samples`) for checking
+            whether there are any changes in the datatabase.
+        Returns:
+          - `Samples` if the database exists and has updates
+          - "NotModifed" if the database exists and has no updates.
+          - None if the database no longer exists
+        """
+        ...
+    @abc.abstractmethod
+    def get_sample_data(
+        self,
+        id: str | int,
+        epoch: int,
+        after_event_id: int | None = None,
+        after_attachment_id: int | None = None,
+    ) -> SampleData | None:
+        """Get event and attachment data for a sample.
+        Args:
+          id: Sample id
+          epoch: Sample epoch
+          after_event_id: Optional. Fetch only event data greater than this id.
+          after_attachment_id: Optioinal. Fetch only attachment data greater than this id.
+        Returns:
+          - `SampleData` with event and attachment data.
+          - None if the database no longer exists
+        """
+        ...

inspect_ai/log/_recorders/eval.py CHANGED Viewed

@@ -23,7 +23,6 @@ from inspect_ai._util.file import FileSystem, dirname, file, filesystem
 from inspect_ai._util.json import jsonable_python
 from inspect_ai._util.trace import trace_action
 from inspect_ai.model._chat_message import ChatMessage
-from inspect_ai.scorer._metric import Score
 from .._log import (
     EvalLog,
@@ -36,20 +35,11 @@ from .._log import (
     sort_samples,
 )
 from .file import FileRecorder
+from .types import SampleSummary
 logger = getLogger(__name__)
-class SampleSummary(BaseModel):
-    id: int | str
-    epoch: int
-    input: str | list[ChatMessage]
-    target: str | list[str]
-    scores: dict[str, Score] | None = Field(default=None)
-    error: str | None = Field(default=None)
-    limit: str | None = Field(default=None)
 class LogStart(BaseModel):
     version: int
     eval: EvalSpec
@@ -331,6 +321,7 @@ class ZipLogFile:
                         epoch=sample.epoch,
                         input=text_inputs(sample.input),
                         target=sample.target,
+                        completed=True,
                         scores=sample.scores,
                         error=sample.error.message
                         if sample.error is not None

inspect_ai/log/_recorders/types.py ADDED Viewed

@@ -0,0 +1,30 @@
+from pydantic import BaseModel, Field, model_validator
+from inspect_ai.log._transcript import Event
+from inspect_ai.model._chat_message import ChatMessage
+from inspect_ai.scorer._metric import Score
+class SampleEvent(BaseModel):
+    id: str | int
+    epoch: int
+    event: Event
+class SampleSummary(BaseModel):
+    id: int | str
+    epoch: int
+    input: str | list[ChatMessage]
+    target: str | list[str]
+    completed: bool = Field(default=False)
+    scores: dict[str, Score] | None = Field(default=None)
+    error: str | None = Field(default=None)
+    limit: str | None = Field(default=None)
+    @model_validator(mode="after")
+    def thin_scores(self) -> "SampleSummary":
+        if self.scores is not None:
+            self.scores = {
+                key: Score(value=score.value) for key, score in self.scores.items()
+            }
+        return self

inspect_ai/log/_transcript.py CHANGED Viewed

@@ -15,6 +15,7 @@ from typing import (
 )
 from pydantic import BaseModel, ConfigDict, Field, JsonValue, field_serializer
+from shortuuid import uuid
 from inspect_ai._util.constants import SAMPLE_SUBTASK
 from inspect_ai._util.error import EvalError
@@ -43,6 +44,13 @@ logger = getLogger(__name__)
 class BaseEvent(BaseModel):
+    model_config = {
+        "json_schema_extra": lambda schema: schema.get("properties", {}).pop(
+            "id_", None
+        )
+    }
+    id_: str = Field(default_factory=lambda: str(uuid()), exclude=True)
     timestamp: datetime = Field(default_factory=datetime.now)
     """Clock time at which event occurred."""
@@ -170,8 +178,8 @@ class ToolEvent(BaseEvent):
     arguments: dict[str, JsonValue]
     """Arguments to function."""
-    internal_name: str | None = Field(default=None)
-    """Internal name for tool (if any)."""
+    internal: JsonValue | None = Field(default=None)
+    """Model provider specific payload - typically used to aid transformation back to model types."""
     view: ToolCallContent | None = Field(default=None)
     """Custom view of tool call input."""
@@ -194,6 +202,12 @@ class ToolEvent(BaseEvent):
     working_time: float | None = Field(default=None)
     """Working time for tool call (i.e. time not spent waiting on semaphores)."""
+    agent: str | None = Field(default=None)
+    """Name of agent if the tool call was an agent handoff."""
+    failed: bool | None = Field(default=None)
+    """Did the tool call fail with a hard error?."""
     def _set_result(
         self,
         result: ToolResult,
@@ -201,6 +215,8 @@ class ToolEvent(BaseEvent):
         error: ToolCallError | None,
         events: list["Event"],
         waiting_time: float,
+        agent: str | None,
+        failed: bool | None,
     ) -> None:
         self.result = result
         self.truncated = truncated
@@ -210,6 +226,8 @@ class ToolEvent(BaseEvent):
         completed = datetime.now()
         self.completed = completed
         self.working_time = (completed - self.timestamp).total_seconds() - waiting_time
+        self.agent = agent
+        self.failed = failed
     # mechanism for operator to cancel the tool call
@@ -451,8 +469,11 @@ ET = TypeVar("ET", bound=BaseEvent)
 class Transcript:
     """Transcript of events."""
+    _event_logger: Callable[[Event], None] | None
     def __init__(self, name: str = "") -> None:
         self.name = name
+        self._event_logger = None
         self._events: list[Event] = []
     def info(self, data: JsonValue, *, source: str | None = None) -> None:
@@ -493,8 +514,17 @@ class Transcript:
         return None
     def _event(self, event: Event) -> None:
+        if self._event_logger:
+            self._event_logger(event)
         self._events.append(event)
+    def _event_updated(self, event: Event) -> None:
+        if self._event_logger:
+            self._event_logger(event)
+    def _subscribe(self, event_logger: Callable[[Event], None]) -> None:
+        self._event_logger = event_logger
 def transcript() -> Transcript:
     """Get the current `Transcript`."""

inspect_ai/model/__init__.py CHANGED Viewed

@@ -18,7 +18,7 @@ from ._cache import (
     cache_prune,
     cache_size,
 )
-from ._call_tools import call_tools
+from ._call_tools import ExecuteToolsResult, call_tools, execute_tools
 from ._chat_message import (
     ChatMessage,
     ChatMessageAssistant,
@@ -27,6 +27,7 @@ from ._chat_message import (
     ChatMessageTool,
     ChatMessageUser,
 )
+from ._conversation import ModelConversation
 from ._generate_config import GenerateConfig, GenerateConfigArgs, ResponseSchema
 from ._model import (
     Model,
@@ -34,6 +35,7 @@ from ._model import (
     ModelName,
     get_model,
 )
+from ._model_call import ModelCall
 from ._model_output import (
     ChatCompletionChoice,
     Logprob,
@@ -64,7 +66,9 @@ __all__ = [
     "ChatMessageAssistant",
     "ChatMessageTool",
     "ChatCompletionChoice",
+    "ModelCall",
     "ModelOutput",
+    "ModelConversation",
     "Logprobs",
     "Logprob",
     "TopLogprob",
@@ -74,6 +78,8 @@ __all__ = [
     "ModelUsage",
     "StopReason",
     "call_tools",
+    "execute_tools",
+    "ExecuteToolsResult",
     "cache_clear",
     "cache_list_expired",
     "cache_path",

inspect-ai 0.3.81__py3-none-any.whl → 0.3.83__py3-none-any.whl

inspect-ai 0.3.81py3-none-any.whl → 0.3.83py3-none-any.whl