PyPI - inspect-ai - Versions diffs - 0.3.62__py3-none-any.whl → 0.3.64__py3-none-any.whl - Mend

inspect-ai 0.3.62py3-none-any.whl → 0.3.64py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (518) hide show

inspect_ai/_cli/cache.py +8 -7
inspect_ai/_cli/common.py +0 -12
inspect_ai/_cli/eval.py +32 -4
inspect_ai/_cli/info.py +1 -0
inspect_ai/_cli/list.py +1 -1
inspect_ai/_cli/log.py +2 -0
inspect_ai/_cli/main.py +1 -1
inspect_ai/_cli/sandbox.py +4 -1
inspect_ai/_cli/score.py +181 -32
inspect_ai/_cli/trace.py +10 -0
inspect_ai/_cli/view.py +4 -2
inspect_ai/_display/core/active.py +2 -3
inspect_ai/_display/core/config.py +7 -1
inspect_ai/_display/textual/widgets/samples.py +4 -3
inspect_ai/_display/textual/widgets/sandbox.py +6 -0
inspect_ai/_eval/eval.py +104 -101
inspect_ai/_eval/evalset.py +75 -75
inspect_ai/_eval/loader.py +122 -12
inspect_ai/_eval/registry.py +1 -1
inspect_ai/_eval/run.py +14 -0
inspect_ai/_eval/score.py +125 -36
inspect_ai/_eval/task/log.py +105 -4
inspect_ai/_eval/task/results.py +92 -38
inspect_ai/_eval/task/run.py +9 -2
inspect_ai/_eval/task/sandbox.py +35 -2
inspect_ai/_eval/task/task.py +49 -46
inspect_ai/_util/constants.py +1 -1
inspect_ai/_util/content.py +8 -0
inspect_ai/_util/error.py +2 -0
inspect_ai/_util/file.py +15 -1
inspect_ai/_util/hash.py +1 -1
inspect_ai/_util/logger.py +4 -2
inspect_ai/_util/registry.py +7 -1
inspect_ai/_view/view.py +1 -2
inspect_ai/_view/www/.vscode/extensions.json +3 -0
inspect_ai/_view/www/.vscode/settings.json +8 -0
inspect_ai/_view/www/App.css +97 -29
inspect_ai/_view/www/README.md +1 -1
inspect_ai/_view/www/dist/assets/index.css +16663 -14674
inspect_ai/_view/www/dist/assets/index.js +58808 -51348
inspect_ai/_view/www/dist/index.html +1 -1
inspect_ai/_view/www/index.html +2 -2
inspect_ai/_view/www/log-schema.json +87 -73
inspect_ai/_view/www/package.json +22 -4
inspect_ai/_view/www/postcss.config.cjs +8 -9
inspect_ai/_view/www/src/{App.mjs → App.tsx} +356 -365
inspect_ai/_view/www/src/AppErrorBoundary.tsx +47 -0
inspect_ai/_view/www/src/api/api-browser.ts +2 -2
inspect_ai/_view/www/src/api/api-http.ts +3 -5
inspect_ai/_view/www/src/api/api-vscode.ts +6 -6
inspect_ai/_view/www/src/api/client-api.ts +4 -4
inspect_ai/_view/www/src/api/index.ts +4 -4
inspect_ai/_view/www/src/api/{Types.ts → types.ts} +25 -9
inspect_ai/_view/www/src/appearance/colors.ts +9 -0
inspect_ai/_view/www/src/appearance/fonts.ts +39 -0
inspect_ai/_view/www/src/appearance/icons.ts +100 -0
inspect_ai/_view/www/src/appearance/{Styles.mjs → styles.ts} +2 -32
inspect_ai/_view/www/src/components/AnsiDisplay.tsx +198 -0
inspect_ai/_view/www/src/components/AsciinemaPlayer.tsx +86 -0
inspect_ai/_view/www/src/components/Card.css +60 -0
inspect_ai/_view/www/src/components/Card.tsx +109 -0
inspect_ai/_view/www/src/components/CopyButton.module.css +11 -0
inspect_ai/_view/www/src/components/CopyButton.tsx +58 -0
inspect_ai/_view/www/src/components/DownloadButton.css +4 -0
inspect_ai/_view/www/src/components/DownloadButton.tsx +25 -0
inspect_ai/_view/www/src/components/DownloadPanel.css +10 -0
inspect_ai/_view/www/src/components/DownloadPanel.tsx +30 -0
inspect_ai/_view/www/src/components/EmptyPanel.css +12 -0
inspect_ai/_view/www/src/components/EmptyPanel.tsx +15 -0
inspect_ai/_view/www/src/components/ErrorPanel.css +37 -0
inspect_ai/_view/www/src/components/ErrorPanel.tsx +39 -0
inspect_ai/_view/www/src/components/ExpandablePanel.css +40 -0
inspect_ai/_view/www/src/components/ExpandablePanel.tsx +115 -0
inspect_ai/_view/www/src/components/FindBand.css +49 -0
inspect_ai/_view/www/src/components/FindBand.tsx +130 -0
inspect_ai/_view/www/src/components/HumanBaselineView.css +41 -0
inspect_ai/_view/www/src/components/HumanBaselineView.tsx +162 -0
inspect_ai/_view/www/src/components/JsonPanel.css +20 -0
inspect_ai/_view/www/src/components/JsonPanel.tsx +82 -0
inspect_ai/_view/www/src/components/LabeledValue.css +20 -0
inspect_ai/_view/www/src/components/LabeledValue.tsx +41 -0
inspect_ai/_view/www/src/components/LargeModal.module.css +54 -0
inspect_ai/_view/www/src/components/LargeModal.tsx +189 -0
inspect_ai/_view/www/src/components/LightboxCarousel.css +95 -0
inspect_ai/_view/www/src/components/LightboxCarousel.tsx +132 -0
inspect_ai/_view/www/src/components/MarkdownDiv.css +3 -0
inspect_ai/_view/www/src/components/MarkdownDiv.tsx +133 -0
inspect_ai/_view/www/src/components/MessageBand.css +43 -0
inspect_ai/_view/www/src/components/MessageBand.tsx +39 -0
inspect_ai/_view/www/src/components/MorePopOver.css +0 -0
inspect_ai/_view/www/src/components/MorePopOver.tsx +67 -0
inspect_ai/_view/www/src/components/NavPills.module.css +18 -0
inspect_ai/_view/www/src/components/NavPills.tsx +101 -0
inspect_ai/_view/www/src/components/ProgressBar.module.css +37 -0
inspect_ai/_view/www/src/components/ProgressBar.tsx +22 -0
inspect_ai/_view/www/src/components/TabSet.module.css +40 -0
inspect_ai/_view/www/src/components/TabSet.tsx +215 -0
inspect_ai/_view/www/src/components/ToolButton.css +3 -0
inspect_ai/_view/www/src/components/ToolButton.tsx +27 -0
inspect_ai/_view/www/src/components/VirtualList.module.css +19 -0
inspect_ai/_view/www/src/components/VirtualList.tsx +292 -0
inspect_ai/_view/www/src/{index.js → index.tsx} +45 -19
inspect_ai/_view/www/src/{log → logfile}/remoteLogFile.ts +3 -8
inspect_ai/_view/www/src/{utils/remoteZipFile.mjs → logfile/remoteZipFile.ts} +86 -80
inspect_ai/_view/www/src/metadata/MetaDataGrid.tsx +83 -0
inspect_ai/_view/www/src/metadata/MetaDataView.module.css +35 -0
inspect_ai/_view/www/src/metadata/MetaDataView.tsx +95 -0
inspect_ai/_view/www/src/metadata/MetadataGrid.module.css +15 -0
inspect_ai/_view/www/src/metadata/RenderedContent.module.css +12 -0
inspect_ai/_view/www/src/{components/RenderedContent/RenderedContent.mjs → metadata/RenderedContent.tsx} +92 -73
inspect_ai/_view/www/src/metadata/types.ts +18 -0
inspect_ai/_view/www/src/plan/DatasetDetailView.module.css +3 -0
inspect_ai/_view/www/src/plan/DatasetDetailView.tsx +37 -0
inspect_ai/_view/www/src/plan/DetailStep.module.css +9 -0
inspect_ai/_view/www/src/plan/DetailStep.tsx +31 -0
inspect_ai/_view/www/src/plan/PlanCard.tsx +28 -0
inspect_ai/_view/www/src/plan/PlanDetailView.module.css +48 -0
inspect_ai/_view/www/src/plan/PlanDetailView.tsx +324 -0
inspect_ai/_view/www/src/plan/ScorerDetailView.module.css +3 -0
inspect_ai/_view/www/src/plan/ScorerDetailView.tsx +30 -0
inspect_ai/_view/www/src/plan/SolverDetailView.module.css +15 -0
inspect_ai/_view/www/src/plan/SolverDetailView.tsx +32 -0
inspect_ai/_view/www/src/samples/InlineSampleDisplay.module.css +8 -0
inspect_ai/_view/www/src/samples/InlineSampleDisplay.tsx +53 -0
inspect_ai/_view/www/src/samples/SampleDialog.tsx +122 -0
inspect_ai/_view/www/src/samples/SampleDisplay.module.css +29 -0
inspect_ai/_view/www/src/samples/SampleDisplay.tsx +331 -0
inspect_ai/_view/www/src/samples/SampleSummaryView.module.css +24 -0
inspect_ai/_view/www/src/samples/SampleSummaryView.tsx +177 -0
inspect_ai/_view/www/src/samples/SamplesTools.tsx +52 -0
inspect_ai/_view/www/src/samples/chat/ChatMessage.module.css +29 -0
inspect_ai/_view/www/src/samples/chat/ChatMessage.tsx +76 -0
inspect_ai/_view/www/src/samples/chat/ChatMessageRenderer.tsx +60 -0
inspect_ai/_view/www/src/samples/chat/ChatMessageRow.module.css +9 -0
inspect_ai/_view/www/src/samples/chat/ChatMessageRow.tsx +57 -0
inspect_ai/_view/www/src/samples/chat/ChatView.tsx +47 -0
inspect_ai/_view/www/src/samples/chat/ChatViewVirtualList.module.css +4 -0
inspect_ai/_view/www/src/samples/chat/ChatViewVirtualList.tsx +58 -0
inspect_ai/_view/www/src/samples/chat/MessageContent.module.css +4 -0
inspect_ai/_view/www/src/samples/chat/MessageContent.tsx +157 -0
inspect_ai/_view/www/src/samples/chat/MessageContents.module.css +3 -0
inspect_ai/_view/www/src/samples/chat/MessageContents.tsx +133 -0
inspect_ai/_view/www/src/samples/chat/messages.ts +112 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolCallView.tsx +147 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolInput.module.css +14 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolInput.tsx +76 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolOutput.module.css +19 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolOutput.tsx +60 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolTitle.module.css +4 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolTitle.tsx +18 -0
inspect_ai/_view/www/src/samples/chat/tools/tool.ts +92 -0
inspect_ai/_view/www/src/samples/descriptor/samplesDescriptor.tsx +365 -0
inspect_ai/_view/www/src/samples/descriptor/score/BooleanScoreDescriptor.module.css +22 -0
inspect_ai/_view/www/src/samples/descriptor/score/BooleanScoreDescriptor.tsx +26 -0
inspect_ai/_view/www/src/samples/descriptor/score/CategoricalScoreDescriptor.tsx +18 -0
inspect_ai/_view/www/src/samples/descriptor/score/NumericScoreDescriptor.tsx +27 -0
inspect_ai/_view/www/src/samples/descriptor/score/ObjectScoreDescriptor.module.css +18 -0
inspect_ai/_view/www/src/samples/descriptor/score/ObjectScoreDescriptor.tsx +71 -0
inspect_ai/_view/www/src/samples/descriptor/score/OtherScoreDescriptor.tsx +20 -0
inspect_ai/_view/www/src/samples/descriptor/score/PassFailScoreDescriptor.module.css +28 -0
inspect_ai/_view/www/src/samples/descriptor/score/PassFailScoreDescriptor.tsx +81 -0
inspect_ai/_view/www/src/samples/descriptor/score/ScoreDescriptor.tsx +99 -0
inspect_ai/_view/www/src/samples/descriptor/types.ts +55 -0
inspect_ai/_view/www/src/samples/error/FlatSampleErrorView.module.css +19 -0
inspect_ai/_view/www/src/samples/error/FlatSampleErrorView.tsx +22 -0
inspect_ai/_view/www/src/samples/error/SampleErrorView.module.css +17 -0
inspect_ai/_view/www/src/samples/error/SampleErrorView.tsx +31 -0
inspect_ai/_view/www/src/samples/error/error.ts +15 -0
inspect_ai/_view/www/src/samples/list/SampleFooter.module.css +9 -0
inspect_ai/_view/www/src/samples/list/SampleFooter.tsx +14 -0
inspect_ai/_view/www/src/samples/list/SampleHeader.module.css +13 -0
inspect_ai/_view/www/src/samples/list/SampleHeader.tsx +36 -0
inspect_ai/_view/www/src/samples/list/SampleList.module.css +11 -0
inspect_ai/_view/www/src/samples/list/SampleList.tsx +247 -0
inspect_ai/_view/www/src/samples/list/SampleRow.module.css +33 -0
inspect_ai/_view/www/src/samples/list/SampleRow.tsx +98 -0
inspect_ai/_view/www/src/samples/list/SampleSeparator.module.css +6 -0
inspect_ai/_view/www/src/samples/list/SampleSeparator.tsx +24 -0
inspect_ai/_view/www/src/samples/sample-tools/EpochFilter.module.css +9 -0
inspect_ai/_view/www/src/samples/sample-tools/EpochFilter.tsx +51 -0
inspect_ai/_view/www/src/samples/sample-tools/SelectScorer.module.css +16 -0
inspect_ai/_view/www/src/samples/sample-tools/SelectScorer.tsx +175 -0
inspect_ai/_view/www/src/samples/sample-tools/SortFilter.module.css +9 -0
inspect_ai/_view/www/src/samples/sample-tools/SortFilter.tsx +186 -0
inspect_ai/_view/www/src/samples/{tools/filters.mjs → sample-tools/filters.ts} +86 -81
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/SampleFilter.module.css +16 -0
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/SampleFilter.tsx +288 -0
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/completions.ts +346 -0
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/language.ts +19 -0
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/tokenize.ts +97 -0
inspect_ai/_view/www/src/samples/{SampleLimit.mjs → sampleLimit.ts} +3 -6
inspect_ai/_view/www/src/samples/scores/SampleScoreView.module.css +53 -0
inspect_ai/_view/www/src/samples/scores/SampleScoreView.tsx +168 -0
inspect_ai/_view/www/src/samples/scores/SampleScores.module.css +5 -0
inspect_ai/_view/www/src/samples/scores/SampleScores.tsx +37 -0
inspect_ai/_view/www/src/samples/transcript/ApprovalEventView.tsx +66 -0
inspect_ai/_view/www/src/samples/transcript/ErrorEventView.tsx +51 -0
inspect_ai/_view/www/src/samples/transcript/InfoEventView.module.css +3 -0
inspect_ai/_view/www/src/samples/transcript/InfoEventView.tsx +54 -0
inspect_ai/_view/www/src/samples/transcript/InputEventView.tsx +48 -0
inspect_ai/_view/www/src/samples/transcript/LoggerEventView.module.css +6 -0
inspect_ai/_view/www/src/samples/transcript/LoggerEventView.tsx +36 -0
inspect_ai/_view/www/src/samples/transcript/ModelEventView.module.css +43 -0
inspect_ai/_view/www/src/samples/transcript/ModelEventView.tsx +223 -0
inspect_ai/_view/www/src/samples/transcript/SampleInitEventView.module.css +23 -0
inspect_ai/_view/www/src/samples/transcript/SampleInitEventView.tsx +112 -0
inspect_ai/_view/www/src/samples/transcript/SampleLimitEventView.tsx +75 -0
inspect_ai/_view/www/src/samples/transcript/SampleTranscript.tsx +22 -0
inspect_ai/_view/www/src/samples/transcript/ScoreEventView.module.css +15 -0
inspect_ai/_view/www/src/samples/transcript/ScoreEventView.tsx +100 -0
inspect_ai/_view/www/src/samples/transcript/StepEventView.tsx +171 -0
inspect_ai/_view/www/src/samples/transcript/SubtaskEventView.module.css +19 -0
inspect_ai/_view/www/src/samples/transcript/SubtaskEventView.tsx +133 -0
inspect_ai/_view/www/src/samples/transcript/ToolEventView.module.css +10 -0
inspect_ai/_view/www/src/samples/transcript/ToolEventView.tsx +92 -0
inspect_ai/_view/www/src/samples/transcript/TranscriptView.module.css +49 -0
inspect_ai/_view/www/src/samples/transcript/TranscriptView.tsx +449 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNav.module.css +5 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNav.tsx +43 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNavs.module.css +3 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNavs.tsx +39 -0
inspect_ai/_view/www/src/samples/transcript/event/EventPanel.module.css +25 -0
inspect_ai/_view/www/src/samples/transcript/event/EventPanel.tsx +191 -0
inspect_ai/_view/www/src/samples/transcript/event/EventRow.module.css +13 -0
inspect_ai/_view/www/src/samples/transcript/event/EventRow.tsx +32 -0
inspect_ai/_view/www/src/samples/transcript/event/EventSection.module.css +8 -0
inspect_ai/_view/www/src/samples/transcript/event/EventSection.tsx +29 -0
inspect_ai/_view/www/src/samples/transcript/state/StateDiffView.tsx +67 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventRenderers.tsx +285 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventRenders.module.css +10 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventView.module.css +9 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventView.tsx +346 -0
inspect_ai/_view/www/src/samples/transcript/types.ts +58 -0
inspect_ai/_view/www/src/types/log.d.ts +108 -19
inspect_ai/_view/www/src/types/prism.d.ts +11 -0
inspect_ai/_view/www/src/types.ts +71 -0
inspect_ai/_view/www/src/usage/ModelTokenTable.tsx +28 -0
inspect_ai/_view/www/src/usage/ModelUsagePanel.module.css +24 -0
inspect_ai/_view/www/src/usage/ModelUsagePanel.tsx +97 -0
inspect_ai/_view/www/src/usage/TokenTable.module.css +17 -0
inspect_ai/_view/www/src/usage/TokenTable.tsx +91 -0
inspect_ai/_view/www/src/usage/UsageCard.module.css +15 -0
inspect_ai/_view/www/src/usage/UsageCard.tsx +67 -0
inspect_ai/_view/www/src/utils/attachments.ts +42 -0
inspect_ai/_view/www/src/utils/{Base64.mjs → base64.ts} +1 -6
inspect_ai/_view/www/src/{components/Browser.mjs → utils/browser.ts} +0 -1
inspect_ai/_view/www/src/utils/debugging.ts +28 -0
inspect_ai/_view/www/src/utils/dom.ts +30 -0
inspect_ai/_view/www/src/utils/format.ts +194 -0
inspect_ai/_view/www/src/utils/git.ts +7 -0
inspect_ai/_view/www/src/utils/html.ts +6 -0
inspect_ai/_view/www/src/utils/http.ts +14 -0
inspect_ai/_view/www/src/utils/{Path.mjs → path.ts} +2 -9
inspect_ai/_view/www/src/utils/{Print.mjs → print.ts} +34 -26
inspect_ai/_view/www/src/utils/queue.ts +51 -0
inspect_ai/_view/www/src/utils/sync.ts +114 -0
inspect_ai/_view/www/src/utils/{Type.mjs → type.ts} +3 -6
inspect_ai/_view/www/src/utils/vscode.ts +13 -0
inspect_ai/_view/www/src/workspace/WorkSpace.tsx +324 -0
inspect_ai/_view/www/src/workspace/WorkSpaceView.module.css +33 -0
inspect_ai/_view/www/src/workspace/WorkSpaceView.tsx +158 -0
inspect_ai/_view/www/src/workspace/error/TaskErrorPanel.module.css +3 -0
inspect_ai/_view/www/src/workspace/error/TaskErrorPanel.tsx +28 -0
inspect_ai/_view/www/src/workspace/navbar/Navbar.module.css +54 -0
inspect_ai/_view/www/src/workspace/navbar/Navbar.tsx +68 -0
inspect_ai/_view/www/src/workspace/navbar/PrimaryBar.module.css +52 -0
inspect_ai/_view/www/src/workspace/navbar/PrimaryBar.tsx +114 -0
inspect_ai/_view/www/src/workspace/navbar/ResultsPanel.module.css +90 -0
inspect_ai/_view/www/src/workspace/navbar/ResultsPanel.tsx +180 -0
inspect_ai/_view/www/src/workspace/navbar/SecondaryBar.module.css +28 -0
inspect_ai/_view/www/src/workspace/navbar/SecondaryBar.tsx +226 -0
inspect_ai/_view/www/src/workspace/navbar/StatusPanel.module.css +14 -0
inspect_ai/_view/www/src/workspace/navbar/StatusPanel.tsx +61 -0
inspect_ai/_view/www/src/workspace/sidebar/EvalStatus.module.css +15 -0
inspect_ai/_view/www/src/workspace/sidebar/EvalStatus.tsx +71 -0
inspect_ai/_view/www/src/workspace/sidebar/LogDirectoryTitleView.module.css +5 -0
inspect_ai/_view/www/src/workspace/sidebar/LogDirectoryTitleView.tsx +56 -0
inspect_ai/_view/www/src/workspace/sidebar/Sidebar.module.css +68 -0
inspect_ai/_view/www/src/workspace/sidebar/Sidebar.tsx +85 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarLogEntry.module.css +29 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarLogEntry.tsx +95 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarScoreView.module.css +23 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarScoreView.tsx +43 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarScoresView.module.css +35 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarScoresView.tsx +63 -0
inspect_ai/_view/www/src/workspace/tabs/InfoTab.module.css +0 -0
inspect_ai/_view/www/src/workspace/tabs/InfoTab.tsx +70 -0
inspect_ai/_view/www/src/workspace/tabs/JsonTab.module.css +5 -0
inspect_ai/_view/www/src/workspace/tabs/JsonTab.tsx +46 -0
inspect_ai/_view/www/src/workspace/tabs/SamplesTab.tsx +204 -0
inspect_ai/_view/www/src/workspace/tabs/grouping.ts +195 -0
inspect_ai/_view/www/src/workspace/tabs/types.ts +19 -0
inspect_ai/_view/www/src/workspace/types.ts +10 -0
inspect_ai/_view/www/src/workspace/utils.ts +34 -0
inspect_ai/_view/www/tsconfig.json +23 -9
inspect_ai/_view/www/vite.config.js +8 -17
inspect_ai/_view/www/yarn.lock +627 -556
inspect_ai/approval/_approval.py +2 -0
inspect_ai/approval/_approver.py +4 -4
inspect_ai/approval/_auto.py +1 -1
inspect_ai/approval/_human/approver.py +3 -0
inspect_ai/approval/_policy.py +5 -0
inspect_ai/approval/_registry.py +2 -2
inspect_ai/dataset/_dataset.py +64 -37
inspect_ai/dataset/_sources/__init__.py +0 -0
inspect_ai/dataset/_sources/csv.py +20 -12
inspect_ai/dataset/_sources/file.py +4 -0
inspect_ai/dataset/_sources/hf.py +39 -29
inspect_ai/dataset/_sources/json.py +17 -9
inspect_ai/log/__init__.py +2 -0
inspect_ai/log/_convert.py +3 -3
inspect_ai/log/_file.py +24 -9
inspect_ai/log/_log.py +101 -13
inspect_ai/log/_message.py +4 -2
inspect_ai/log/_recorders/file.py +4 -0
inspect_ai/log/_recorders/json.py +5 -7
inspect_ai/log/_recorders/recorder.py +3 -0
inspect_ai/log/_transcript.py +19 -8
inspect_ai/model/__init__.py +2 -0
inspect_ai/model/_cache.py +39 -21
inspect_ai/model/_call_tools.py +4 -3
inspect_ai/model/_chat_message.py +14 -4
inspect_ai/model/_generate_config.py +1 -1
inspect_ai/model/_model.py +31 -24
inspect_ai/model/_model_output.py +14 -1
inspect_ai/model/_openai.py +10 -18
inspect_ai/model/_providers/anthropic.py +3 -3
inspect_ai/model/_providers/google.py +9 -5
inspect_ai/model/_providers/openai.py +5 -9
inspect_ai/model/_providers/openai_o1.py +3 -5
inspect_ai/model/_providers/openrouter.py +86 -0
inspect_ai/model/_providers/providers.py +11 -0
inspect_ai/scorer/__init__.py +6 -1
inspect_ai/scorer/_answer.py +7 -7
inspect_ai/scorer/_classification.py +38 -18
inspect_ai/scorer/_common.py +2 -8
inspect_ai/scorer/_match.py +4 -5
inspect_ai/scorer/_metric.py +87 -28
inspect_ai/scorer/_metrics/__init__.py +3 -3
inspect_ai/scorer/_metrics/accuracy.py +8 -10
inspect_ai/scorer/_metrics/mean.py +3 -17
inspect_ai/scorer/_metrics/std.py +111 -30
inspect_ai/scorer/_model.py +12 -12
inspect_ai/scorer/_pattern.py +3 -3
inspect_ai/scorer/_reducer/reducer.py +36 -21
inspect_ai/scorer/_reducer/registry.py +2 -2
inspect_ai/scorer/_reducer/types.py +7 -1
inspect_ai/scorer/_score.py +11 -1
inspect_ai/scorer/_scorer.py +110 -16
inspect_ai/solver/__init__.py +1 -1
inspect_ai/solver/_basic_agent.py +19 -22
inspect_ai/solver/_bridge/__init__.py +0 -3
inspect_ai/solver/_bridge/bridge.py +3 -3
inspect_ai/solver/_chain.py +1 -2
inspect_ai/solver/_critique.py +3 -3
inspect_ai/solver/_fork.py +2 -2
inspect_ai/solver/_human_agent/__init__.py +0 -0
inspect_ai/solver/_human_agent/agent.py +5 -8
inspect_ai/solver/_human_agent/commands/clock.py +14 -10
inspect_ai/solver/_human_agent/commands/note.py +1 -1
inspect_ai/solver/_human_agent/commands/score.py +0 -11
inspect_ai/solver/_multiple_choice.py +38 -26
inspect_ai/solver/_prompt.py +7 -7
inspect_ai/solver/_solver.py +53 -52
inspect_ai/solver/_task_state.py +80 -69
inspect_ai/solver/_use_tools.py +9 -9
inspect_ai/tool/__init__.py +4 -1
inspect_ai/tool/_tool.py +43 -14
inspect_ai/tool/_tool_call.py +6 -2
inspect_ai/tool/_tool_choice.py +3 -1
inspect_ai/tool/_tool_def.py +10 -8
inspect_ai/tool/_tool_params.py +24 -0
inspect_ai/tool/_tool_with.py +7 -7
inspect_ai/tool/_tools/__init__.py +0 -0
inspect_ai/tool/{beta → _tools}/_computer/_common.py +2 -2
inspect_ai/tool/{beta → _tools}/_computer/_computer.py +13 -5
inspect_ai/tool/_tools/_computer/_resources/tool/__init__.py +0 -0
inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/_x11_client.py +1 -1
inspect_ai/tool/_tools/_computer/_resources/tool/requirements.txt +0 -0
inspect_ai/tool/_tools/_execute.py +23 -11
inspect_ai/tool/_tools/_web_browser/_resources/README.md +2 -2
inspect_ai/tool/_tools/_web_browser/_web_browser.py +5 -3
inspect_ai/tool/_tools/_web_search.py +7 -5
inspect_ai/tool/beta.py +3 -0
inspect_ai/util/_concurrency.py +3 -3
inspect_ai/util/_panel.py +2 -0
inspect_ai/util/_resource.py +12 -12
inspect_ai/util/_sandbox/docker/compose.py +23 -20
inspect_ai/util/_sandbox/docker/config.py +2 -1
inspect_ai/util/_sandbox/docker/docker.py +42 -86
inspect_ai/util/_sandbox/docker/service.py +100 -0
inspect_ai/util/_sandbox/environment.py +99 -96
inspect_ai/util/_sandbox/self_check.py +124 -16
inspect_ai/util/_subprocess.py +5 -3
inspect_ai/util/_subtask.py +15 -16
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/LICENSE +1 -1
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/METADATA +11 -6
inspect_ai-0.3.64.dist-info/RECORD +625 -0
inspect_ai/_view/www/src/Register.mjs +0 -3
inspect_ai/_view/www/src/Types.mjs +0 -38
inspect_ai/_view/www/src/appearance/Colors.mjs +0 -27
inspect_ai/_view/www/src/appearance/Fonts.mjs +0 -66
inspect_ai/_view/www/src/appearance/Icons.mjs +0 -240
inspect_ai/_view/www/src/components/AnsiDisplay.mjs +0 -184
inspect_ai/_view/www/src/components/AppErrorBoundary.mjs +0 -34
inspect_ai/_view/www/src/components/AsciiCinemaPlayer.mjs +0 -74
inspect_ai/_view/www/src/components/Card.mjs +0 -126
inspect_ai/_view/www/src/components/ChatView.mjs +0 -441
inspect_ai/_view/www/src/components/CopyButton.mjs +0 -48
inspect_ai/_view/www/src/components/Dialog.mjs +0 -61
inspect_ai/_view/www/src/components/DownloadButton.mjs +0 -15
inspect_ai/_view/www/src/components/DownloadPanel.mjs +0 -29
inspect_ai/_view/www/src/components/EmptyPanel.mjs +0 -23
inspect_ai/_view/www/src/components/ErrorPanel.mjs +0 -66
inspect_ai/_view/www/src/components/ExpandablePanel.mjs +0 -136
inspect_ai/_view/www/src/components/FindBand.mjs +0 -157
inspect_ai/_view/www/src/components/HumanBaselineView.mjs +0 -168
inspect_ai/_view/www/src/components/JsonPanel.mjs +0 -61
inspect_ai/_view/www/src/components/LabeledValue.mjs +0 -32
inspect_ai/_view/www/src/components/LargeModal.mjs +0 -190
inspect_ai/_view/www/src/components/LightboxCarousel.mjs +0 -217
inspect_ai/_view/www/src/components/MarkdownDiv.mjs +0 -118
inspect_ai/_view/www/src/components/MessageBand.mjs +0 -48
inspect_ai/_view/www/src/components/MessageContent.mjs +0 -111
inspect_ai/_view/www/src/components/MetaDataGrid.mjs +0 -92
inspect_ai/_view/www/src/components/MetaDataView.mjs +0 -109
inspect_ai/_view/www/src/components/MorePopOver.mjs +0 -50
inspect_ai/_view/www/src/components/NavPills.mjs +0 -63
inspect_ai/_view/www/src/components/ProgressBar.mjs +0 -51
inspect_ai/_view/www/src/components/RenderedContent/ChatMessageRenderer.mjs +0 -54
inspect_ai/_view/www/src/components/RenderedContent/Types.mjs +0 -19
inspect_ai/_view/www/src/components/TabSet.mjs +0 -184
inspect_ai/_view/www/src/components/ToolButton.mjs +0 -16
inspect_ai/_view/www/src/components/Tools.mjs +0 -376
inspect_ai/_view/www/src/components/VirtualList.mjs +0 -280
inspect_ai/_view/www/src/components/ansi-output.js +0 -932
inspect_ai/_view/www/src/json/JsonTab.mjs +0 -48
inspect_ai/_view/www/src/log-reader/Log-Reader.mjs +0 -25
inspect_ai/_view/www/src/log-reader/Native-Log-Reader.mjs +0 -13
inspect_ai/_view/www/src/log-reader/Open-AI-Log-Reader.mjs +0 -263
inspect_ai/_view/www/src/navbar/Navbar.mjs +0 -418
inspect_ai/_view/www/src/navbar/SecondaryBar.mjs +0 -175
inspect_ai/_view/www/src/plan/PlanCard.mjs +0 -418
inspect_ai/_view/www/src/samples/SampleDialog.mjs +0 -123
inspect_ai/_view/www/src/samples/SampleDisplay.mjs +0 -516
inspect_ai/_view/www/src/samples/SampleError.mjs +0 -99
inspect_ai/_view/www/src/samples/SampleList.mjs +0 -427
inspect_ai/_view/www/src/samples/SampleScoreView.mjs +0 -172
inspect_ai/_view/www/src/samples/SampleScores.mjs +0 -34
inspect_ai/_view/www/src/samples/SampleTranscript.mjs +0 -20
inspect_ai/_view/www/src/samples/SamplesDescriptor.mjs +0 -771
inspect_ai/_view/www/src/samples/SamplesTab.mjs +0 -399
inspect_ai/_view/www/src/samples/SamplesTools.mjs +0 -64
inspect_ai/_view/www/src/samples/tools/EpochFilter.mjs +0 -38
inspect_ai/_view/www/src/samples/tools/SampleFilter.mjs +0 -756
inspect_ai/_view/www/src/samples/tools/SelectScorer.mjs +0 -141
inspect_ai/_view/www/src/samples/tools/SortFilter.mjs +0 -151
inspect_ai/_view/www/src/samples/transcript/ApprovalEventView.mjs +0 -71
inspect_ai/_view/www/src/samples/transcript/ErrorEventView.mjs +0 -44
inspect_ai/_view/www/src/samples/transcript/EventPanel.mjs +0 -271
inspect_ai/_view/www/src/samples/transcript/EventRow.mjs +0 -46
inspect_ai/_view/www/src/samples/transcript/EventSection.mjs +0 -33
inspect_ai/_view/www/src/samples/transcript/InfoEventView.mjs +0 -59
inspect_ai/_view/www/src/samples/transcript/InputEventView.mjs +0 -44
inspect_ai/_view/www/src/samples/transcript/LoggerEventView.mjs +0 -32
inspect_ai/_view/www/src/samples/transcript/ModelEventView.mjs +0 -216
inspect_ai/_view/www/src/samples/transcript/SampleInitEventView.mjs +0 -107
inspect_ai/_view/www/src/samples/transcript/SampleLimitEventView.mjs +0 -74
inspect_ai/_view/www/src/samples/transcript/ScoreEventView.mjs +0 -100
inspect_ai/_view/www/src/samples/transcript/StepEventView.mjs +0 -187
inspect_ai/_view/www/src/samples/transcript/SubtaskEventView.mjs +0 -133
inspect_ai/_view/www/src/samples/transcript/ToolEventView.mjs +0 -88
inspect_ai/_view/www/src/samples/transcript/TranscriptView.mjs +0 -459
inspect_ai/_view/www/src/samples/transcript/Types.mjs +0 -44
inspect_ai/_view/www/src/samples/transcript/state/StateDiffView.mjs +0 -53
inspect_ai/_view/www/src/samples/transcript/state/StateEventRenderers.mjs +0 -254
inspect_ai/_view/www/src/samples/transcript/state/StateEventView.mjs +0 -313
inspect_ai/_view/www/src/sidebar/Sidebar.mjs +0 -418
inspect_ai/_view/www/src/usage/ModelTokenTable.mjs +0 -72
inspect_ai/_view/www/src/usage/UsageCard.mjs +0 -159
inspect_ai/_view/www/src/utils/Format.mjs +0 -260
inspect_ai/_view/www/src/utils/Git.mjs +0 -12
inspect_ai/_view/www/src/utils/Html.mjs +0 -21
inspect_ai/_view/www/src/utils/attachments.mjs +0 -31
inspect_ai/_view/www/src/utils/debugging.mjs +0 -23
inspect_ai/_view/www/src/utils/http.mjs +0 -18
inspect_ai/_view/www/src/utils/queue.mjs +0 -67
inspect_ai/_view/www/src/utils/sync.mjs +0 -101
inspect_ai/_view/www/src/workspace/TaskErrorPanel.mjs +0 -17
inspect_ai/_view/www/src/workspace/WorkSpace.mjs +0 -516
inspect_ai/tool/beta/__init__.py +0 -5
inspect_ai-0.3.62.dist-info/RECORD +0 -481
/inspect_ai/{tool/beta/_computer/_resources/tool → _eval}/__init__.py +0 -0
/inspect_ai/{tool/beta/_computer/_resources/tool/requirements.txt → _util/__init__.py} +0 -0
/inspect_ai/_view/www/src/{constants.mjs → constants.ts} +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/__init__.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_computer_split.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/Dockerfile +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/README.md +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/entrypoint.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/novnc_startup.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/x11vnc_startup.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/xfce_startup.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/xvfb_startup.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/.config/Code/User/globalStorage/state.vscdb +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/.config/Code/User/settings.json +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/.config/xfce4/xfconf/xfce-perchannel-xml/xfce4-panel.xml +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/.config/xfce4/xfconf/xfce-perchannel-xml/xfce4-screensaver.xml +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/Desktop/Firefox Web Browser.desktop +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/Desktop/Terminal.desktop +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/Desktop/Visual Studio Code.desktop +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/_logger.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/_run.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/_tool_result.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/computer_tool.py +0 -0
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/WHEEL +0 -0
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/entry_points.txt +0 -0
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/top_level.txt +0 -0

inspect_ai/_cli/cache.py CHANGED Viewed

@@ -42,7 +42,10 @@ def _print_table(title: str, paths: list[tuple[str, int]]) -> None:
 @click.group("cache")
 def cache_command() -> None:
-    """Manage the inspect cache."""
+    """Manage the inspect model output cache.
+    Learn more about model output caching at https://inspect.ai-safety-institute.org.uk/caching.html.
+    """
     return None
@@ -62,11 +65,9 @@ def cache_command() -> None:
     type=str,
     help="Clear the cache for a specific model (e.g. --model=openai/gpt-4). Can be passed multiple times.",
 )
-def clear(
-    all: bool, model: tuple[str, ...], log_level: str, log_level_transcript: str
-) -> None:
+def clear(all: bool, model: tuple[str, ...], log_level: str) -> None:
     """Clear all cache files. Requires either --all or --model flags."""
-    init_logger(log_level, log_level_transcript)
+    init_logger(log_level)
     if model:
         _print_table(
@@ -119,14 +120,14 @@ def list_caches(pruneable: bool) -> None:
     type=str,
     help="Only prune a specific model (e.g. --model=openai/gpt-4). Can be passed multiple times.",
 )
-def prune(log_level: str, log_level_transcript: str, model: tuple[str, ...]) -> None:
+def prune(log_level: str, model: tuple[str, ...]) -> None:
     """Prune all expired cache entries
     Over time the cache directory can grow, but many cache entries will be
     expired. This command will remove all expired cache entries for ease of
     maintenance.
     """
-    init_logger(log_level, log_level_transcript)
+    init_logger(log_level)
     expired_cache_entries = cache_list_expired(list(model))

inspect_ai/_cli/common.py CHANGED Viewed

@@ -9,14 +9,12 @@ from inspect_ai._util.constants import (
     ALL_LOG_LEVELS,
     DEFAULT_DISPLAY,
     DEFAULT_LOG_LEVEL,
-    DEFAULT_LOG_LEVEL_TRANSCRIPT,
 )
 from inspect_ai.util._display import init_display_type
 class CommonOptions(TypedDict):
     log_level: str
-    log_level_transcript: str
     log_dir: str
     display: Literal["full", "conversation", "rich", "plain", "none"]
     no_ansi: bool | None
@@ -36,16 +34,6 @@ def log_level_options(func: Callable[..., Any]) -> Callable[..., click.Context]:
         envvar="INSPECT_LOG_LEVEL",
         help=f"Set the log level (defaults to '{DEFAULT_LOG_LEVEL}')",
     )
-    @click.option(
-        "--log-level-transcript",
-        type=click.Choice(
-            [level.lower() for level in ALL_LOG_LEVELS],
-            case_sensitive=False,
-        ),
-        default=DEFAULT_LOG_LEVEL_TRANSCRIPT,
-        envvar="INSPECT_LOG_LEVEL_TRANSCRIPT",
-        help=f"Set the log level of the transcript (defaults to '{DEFAULT_LOG_LEVEL_TRANSCRIPT}')",
-    )
     @functools.wraps(func)
     def wrapper(*args: Any, **kwargs: Any) -> click.Context:
         return cast(click.Context, func(*args, **kwargs))

inspect_ai/_cli/eval.py CHANGED Viewed

@@ -7,7 +7,9 @@ from typing_extensions import Unpack
 from inspect_ai import Epochs, eval, eval_retry
 from inspect_ai._eval.evalset import eval_set
 from inspect_ai._util.constants import (
+    ALL_LOG_LEVELS,
     DEFAULT_EPOCHS,
+    DEFAULT_LOG_LEVEL_TRANSCRIPT,
     DEFAULT_MAX_CONNECTIONS,
     DEFAULT_MAX_RETRIES,
 )
@@ -399,6 +401,16 @@ def eval_options(func: Callable[..., Any]) -> Callable[..., click.Context]:
         envvar=["INSPECT_LOG_FORMAT", "INSPECT_EVAL_LOG_FORMAT"],
         help="Format for writing log files.",
     )
+    @click.option(
+        "--log-level-transcript",
+        type=click.Choice(
+            [level.lower() for level in ALL_LOG_LEVELS],
+            case_sensitive=False,
+        ),
+        default=DEFAULT_LOG_LEVEL_TRANSCRIPT,
+        envvar="INSPECT_LOG_LEVEL_TRANSCRIPT",
+        help=f"Set the log level of the transcript (defaults to '{DEFAULT_LOG_LEVEL_TRANSCRIPT}')",
+    )
     @common_options
     @functools.wraps(func)
     def wrapper(*args: Any, **kwargs: Any) -> click.Context:
@@ -468,6 +480,7 @@ def eval_command(
     no_score: bool | None,
     no_score_display: bool | None,
     log_format: Literal["eval", "json"] | None,
+    log_level_transcript: str,
     **common: Unpack[CommonOptions],
 ) -> None:
     """Evaluate tasks."""
@@ -482,7 +495,7 @@ def eval_command(
         tasks=tasks,
         solver=solver,
         log_level=common["log_level"],
-        log_level_transcript=common["log_level_transcript"],
+        log_level_transcript=log_level_transcript,
         log_dir=common["log_dir"],
         log_format=log_format,
         model=model,
@@ -630,9 +643,13 @@ def eval_set_command(
     bundle_dir: str | None,
     bundle_overwrite: bool | None,
     log_format: Literal["eval", "json"] | None,
+    log_level_transcript: str,
     **common: Unpack[CommonOptions],
 ) -> int:
-    """Evaluate a set of tasks."""
+    """Evaluate a set of tasks with retries.
+    Learn more about eval sets at https://inspect.ai-safety-institute.org.uk/eval-sets.html.
+    """
     # read config
     config = config_from_locals(dict(locals()))
@@ -644,7 +661,7 @@ def eval_set_command(
         tasks=tasks,
         solver=solver,
         log_level=common["log_level"],
-        log_level_transcript=common["log_level_transcript"],
+        log_level_transcript=log_level_transcript,
         log_dir=common["log_dir"],
         log_format=log_format,
         model=model,
@@ -967,6 +984,16 @@ def parse_comma_separated(value: str | None) -> list[str] | None:
     "--max-retries", type=int, help=MAX_RETRIES_HELP, envvar="INSPECT_EVAL_MAX_RETRIES"
 )
 @click.option("--timeout", type=int, help=TIMEOUT_HELP, envvar="INSPECT_EVAL_TIMEOUT")
+@click.option(
+    "--log-level-transcript",
+    type=click.Choice(
+        [level.lower() for level in ALL_LOG_LEVELS],
+        case_sensitive=False,
+    ),
+    default=DEFAULT_LOG_LEVEL_TRANSCRIPT,
+    envvar="INSPECT_LOG_LEVEL_TRANSCRIPT",
+    help=f"Set the log level of the transcript (defaults to '{DEFAULT_LOG_LEVEL_TRANSCRIPT}')",
+)
 @common_options
 def eval_retry_command(
     log_files: tuple[str],
@@ -986,6 +1013,7 @@ def eval_retry_command(
     max_connections: int | None,
     max_retries: int | None,
     timeout: int | None,
+    log_level_transcript: str,
     **common: Unpack[CommonOptions],
 ) -> None:
     """Retry failed evaluation(s)"""
@@ -1014,7 +1042,7 @@ def eval_retry_command(
     eval_retry(
         retry_log_files,
         log_level=common["log_level"],
-        log_level_transcript=common["log_level_transcript"],
+        log_level_transcript=log_level_transcript,
         log_dir=common["log_dir"],
         max_samples=max_samples,
         max_tasks=max_tasks,

inspect_ai/_cli/info.py CHANGED Viewed

@@ -25,6 +25,7 @@ def info_command() -> None:
     help="Output version and path info as JSON",
 )
 def version(json: bool) -> None:
+    """Output version and path info."""
     if json:
         print(dumps(dict(version=__version__, path=PKG_PATH.as_posix()), indent=2))
     else:

inspect_ai/_cli/list.py CHANGED Viewed

@@ -14,7 +14,7 @@ from inspect_ai._eval.task import TaskInfo
 @click.group("list")
 def list_command() -> None:
-    """List tasks or eval logs."""
+    """List tasks on the filesystem."""
     return None

inspect_ai/_cli/log.py CHANGED Viewed

@@ -29,6 +29,8 @@ def log_command() -> None:
     The default format is 'eval'. You can change this by setting the INSPECT_LOG_FORMAT environment variable or using the --log-format command line option.
     The 'log' commands enable you to read Inspect logs uniformly as JSON no matter their physical storage format, and also enable you to read only the headers (everything but the samples) from log files, which is useful for very large logs.
+    Learn more about managing log files at https://inspect.ai-safety-institute.org.uk/eval-logs.html.
     """
     return None

inspect_ai/_cli/main.py CHANGED Viewed

@@ -53,7 +53,7 @@ inspect.add_command(trace_command)
 def main() -> None:
     set_exception_hook()
     init_dotenv()
-    inspect(auto_envvar_prefix="INSPECT")
+    inspect(auto_envvar_prefix="INSPECT")  # pylint: disable=no-value-for-parameter
 if __name__ == "__main__":

inspect_ai/_cli/sandbox.py CHANGED Viewed

@@ -7,7 +7,10 @@ from inspect_ai.util._sandbox.registry import registry_find_sandboxenv
 @click.group("sandbox")
 def sandbox_command() -> None:
-    """Manage Sandbox Environments."""
+    """Manage Sandbox Environments.
+    Learn more about sandboxing at https://inspect.ai-safety-institute.org.uk/sandboxing.html.
+    """
     return None

inspect_ai/_cli/score.py CHANGED Viewed

@@ -2,33 +2,61 @@ import asyncio
 import os
 import click
+import rich
+from rich.panel import Panel
+from rich.prompt import Prompt
+from rich.table import Table
 from typing_extensions import Unpack
+from inspect_ai._cli.util import parse_cli_config
 from inspect_ai._display import display
+from inspect_ai._display.core.rich import rich_theme
 from inspect_ai._eval.context import init_eval_context, init_task_context
-from inspect_ai._eval.loader import load_tasks
-from inspect_ai._eval.score import task_score
-from inspect_ai._util.constants import SCORED_SUFFIX
+from inspect_ai._eval.score import ScoreAction, task_score
+from inspect_ai._util.file import basename, dirname, exists
+from inspect_ai.log._log import EvalLog
 from inspect_ai.log._recorders import create_recorder_for_location
 from inspect_ai.model import get_model
 from .common import CommonOptions, common_options, process_common_options
+SCORES_PER_ROW = 4
 @click.command("score")
-@click.argument("task", type=str)
 @click.argument("log-file", type=str, required=True)
 @click.option(
-    "--no-overwrite",
+    "--scorer",
+    type=str,
+    envvar="INSPECT_SCORE_SCORER",
+    help="Scorer to use for scoring",
+)
+@click.option(
+    "-S",
+    multiple=True,
+    type=str,
+    envvar="INSPECT_SCORE_SCORER_ARGS",
+    help="One or more scorer arguments (e.g. -S arg=value)",
+)
+@click.option(
+    "--action",
+    type=click.Choice(["append", "overwrite"]),
+    envvar="INSPECT_SCORE_SCORER_ACTION",
+    help="Whether to append or overwrite the existing scores.",
+)
+@click.option(
+    "--overwrite",
     type=bool,
     is_flag=True,
-    help="Do not overwrite unscored log_files with the scored version (instead write a new file w/ '-scored' appended)",
+    help="Overwrite log file with the scored version",
 )
 @common_options
 def score_command(
-    task: str,
     log_file: str,
-    no_overwrite: bool | None,
+    overwrite: bool | None,
+    scorer: str | None,
+    s: tuple[str] | None,
+    action: ScoreAction | None,
     **common: Unpack[CommonOptions],
 ) -> None:
     """Score a previous evaluation run."""
@@ -38,31 +66,43 @@ def score_command(
     # score
     asyncio.run(
         score(
-            task,
-            common["log_dir"],
-            log_file,
-            False if no_overwrite else True,
-            common["log_level"],
-            common["log_level_transcript"],
+            log_dir=common["log_dir"],
+            log_file=log_file,
+            scorer=scorer,
+            s=s,
+            overwrite=False if overwrite is None else overwrite,
+            action=action,
+            log_level=common["log_level"],
         )
     )
 async def score(
-    task: str,
     log_dir: str,
     log_file: str,
+    scorer: str | None,
+    s: tuple[str] | None,
     overwrite: bool,
+    action: ScoreAction | None,
     log_level: str | None,
-    log_level_transcript: str | None,
+    output_file: str | None = None,
 ) -> None:
     # init eval context
-    init_eval_context(log_level, log_level_transcript)
+    init_eval_context(log_level, None)
+    scorer_args = parse_cli_config(args=s, config=None)
     # read the eval log
     recorder = create_recorder_for_location(log_file, log_dir)
     eval_log = await recorder.read_log(log_file)
+    # resolve the target output file (prompts user)
+    output_file = resolve_output_file(
+        log_file, output_file=output_file, overwrite=overwrite
+    )
+    # resolve action
+    action = resolve_action(eval_log, action)
     # check that there are samples therein
     if eval_log.samples is None or len(eval_log.samples) == 0:
         raise ValueError(f"{log_file} does not include samples to score")
@@ -77,23 +117,132 @@ async def score(
     # initialize active model
     init_task_context(model)
-    # instantiate the task so we can get its scorer and metrics
-    score_task = load_tasks([task], model)[0]
     # re-score the task
-    eval_log = await task_score(score_task, eval_log)
+    eval_log = await task_score(
+        log=eval_log, scorer=scorer, scorer_args=scorer_args, action=action
+    )
-    # re-write the log (w/ a -score suffix if requested)
-    _, ext = os.path.splitext(log_file)
-    scored = f"{SCORED_SUFFIX}{ext}"
-    if not overwrite and not log_file.endswith(scored):
-        log_file = log_file.removesuffix(ext) + scored
-    await recorder.write_log(log_file, eval_log)
+    # re-write the log
+    await recorder.write_log(output_file, eval_log)
     # print results
-    display().print(f"\n{eval_log.eval.task}")
+    print_results(output_file, eval_log)
+def print_results(output_file: str, eval_log: EvalLog) -> None:
+    # the theme
+    theme = rich_theme()
+    # Create results panel
+    grid = Table.grid(expand=True)
+    grid.add_column()
+    grid.add_row("")
     if eval_log.results:
-        for score in eval_log.results.scores:
-            for name, metric in score.metrics.items():
-                display().print(f"{name}: {metric.value}")
-    display().print(f"log: {log_file}\n")
+        # Process scores in groups
+        for i in range(0, len(eval_log.results.scores), SCORES_PER_ROW):
+            # Create a grid for this row of scores
+            score_row = Table.grid(
+                expand=False,
+                padding=(0, 2, 0, 0),
+            )
+            # Add columns for each score in this row
+            for _ in range(SCORES_PER_ROW):
+                score_row.add_column()
+            # Create individual score tables and add them to the row
+            score_tables: list[Table | str] = []
+            for score in eval_log.results.scores[i : i + SCORES_PER_ROW]:
+                table = Table(
+                    show_header=False, show_lines=False, box=None, show_edge=False
+                )
+                table.add_column()
+                table.add_column()
+                # Add score name and metrics
+                table.add_row(f"[bold]{score.name}[/bold]")
+                for name, metric in score.metrics.items():
+                    table.add_row(f"{name}", f"{metric.value:.3f}")
+                score_tables.append(table)
+            # Fill remaining slots with empty tables if needed
+            while len(score_tables) < SCORES_PER_ROW:
+                score_tables.append("")
+            # Add the score tables to this row
+            score_row.add_row(*score_tables)
+            # Add this row of scores to the main grid
+            grid.add_row(score_row)
+    grid.add_row("")
+    grid.add_row(f" Log: [{theme.link}]{output_file}[/{theme.link}]")
+    p = Panel(
+        title=f"[bold][{theme.meta}]Results for {eval_log.eval.task}[/bold][/{theme.meta}]",
+        title_align="left",
+        renderable=grid,
+    )
+    # Print the results panel
+    display().print("")
+    console = rich.get_console()
+    console.print(p)
+def resolve_output_file(log_file: str, output_file: str | None, overwrite: bool) -> str:
+    # resolve the output file (we may overwrite, use the passed file name, or suggest a new name)
+    if output_file is None:
+        if overwrite:
+            # explicitly asked to overwrite
+            return log_file
+        else:
+            if exists(log_file):
+                # Ask if we should overwrite
+                file_action = Prompt.ask(
+                    "Overwrite existing log file or create new log file?",
+                    choices=["overwrite", "create", "o", "c"],
+                    default="create",
+                )
+                if file_action in ["overwrite", "o"]:
+                    return log_file
+                else:
+                    file_name = basename(log_file)
+                    base_dir = dirname(log_file)
+                    _, ext = os.path.splitext(file_name)
+                    count = 0
+                    def filename() -> str:
+                        if count > 0:
+                            return f"{file_name.removesuffix(ext)}-scored-{count}{ext}"
+                        else:
+                            return f"{file_name.removesuffix(ext)}-scored{ext}"
+                    while exists(f"{os.path.join(base_dir, filename())}"):
+                        count = count + 1
+                    suggested_file = filename()
+                    user_file = Prompt.ask("Output file name?", default=suggested_file)
+                    return os.path.join(base_dir, user_file)
+            else:
+                return log_file
+    else:
+        return output_file
+def resolve_action(eval_log: EvalLog, action: ScoreAction | None) -> ScoreAction:
+    if action is not None:
+        return action
+    if eval_log.results is not None and len(eval_log.results.scores) > 0:
+        user_action = Prompt.ask(
+            "Overwrite existing scores or append as additional scores?",
+            choices=["overwrite", "append", "o", "a"],
+            default="append",
+        )
+        return "overwrite" if user_action in ["ovewrite", "o"] else "append"
+    else:
+        return "overwrite"

inspect_ai/_cli/trace.py CHANGED Viewed

@@ -26,6 +26,8 @@ def trace_command() -> None:
     """List and read execution traces.
     Inspect includes a TRACE log-level which is right below the HTTP and INFO log levels (so not written to the console by default). However, TRACE logs are always recorded to a separate file, and the last 10 TRACE logs are preserved. The 'trace' command provides ways to list and read these traces.
+    Learn more about execution traces at https://inspect.ai-safety-institute.org.uk/tracing.html.
     """
     return None
@@ -109,11 +111,13 @@ def anomolies_command(trace_file: str | None, filter: str | None, all: bool) ->
     canceled_actions: dict[str, ActionTraceRecord] = {}
     error_actions: dict[str, ActionTraceRecord] = {}
     timeout_actions: dict[str, ActionTraceRecord] = {}
+    start_trace: ActionTraceRecord | None = None
     def action_started(trace: ActionTraceRecord) -> None:
         running_actions[trace.trace_id] = trace
     def action_completed(trace: ActionTraceRecord) -> ActionTraceRecord:
+        nonlocal start_trace
         start_trace = running_actions.get(trace.trace_id)
         if start_trace:
             del running_actions[trace.trace_id]
@@ -122,14 +126,20 @@ def anomolies_command(trace_file: str | None, filter: str | None, all: bool) ->
             raise RuntimeError(f"Expected {trace.trace_id} in action dictionary.")
     def action_failed(trace: ActionTraceRecord) -> None:
+        nonlocal start_trace
         if all:
+            assert start_trace
             error_actions[start_trace.trace_id] = trace
     def action_canceled(trace: ActionTraceRecord) -> None:
+        nonlocal start_trace
+        assert start_trace
         canceled_actions[start_trace.trace_id] = trace
     def action_timeout(trace: ActionTraceRecord) -> None:
+        nonlocal start_trace
         if all:
+            assert start_trace
             timeout_actions[start_trace.trace_id] = trace
     for trace in traces:

inspect_ai/_cli/view.py CHANGED Viewed

@@ -39,7 +39,10 @@ def start_options(func: Callable[..., Any]) -> Callable[..., click.Context]:
 @common_options
 @click.pass_context
 def view_command(ctx: click.Context, **kwargs: Unpack[CommonOptions]) -> None:
-    """View command group."""
+    """Inspect log viewer.
+    Learn more about using the log viewer at https://inspect.ai-safety-institute.org.uk/log-viewer.html.
+    """
     if ctx.invoked_subcommand is None:
         ctx.invoke(start, **kwargs)
     else:
@@ -78,7 +81,6 @@ def start(
         port=port,
         authorization=authorization,
         log_level=common["log_level"],
-        log_level_transcript=common["log_level_transcript"],
     )

inspect_ai/_display/core/active.py CHANGED Viewed

@@ -10,6 +10,8 @@ from ..rich.display import RichDisplay
 from ..textual.display import TextualDisplay
 from .display import Display, TaskScreen
+_active_display: Display | None = None
 def display() -> Display:
     global _active_display
@@ -28,9 +30,6 @@ def display() -> Display:
     return _active_display
-_active_display: Display | None = None
 def task_screen() -> TaskScreen:
     screen = _active_task_screen.get(None)
     if screen is None:

inspect_ai/_display/core/config.py CHANGED Viewed

@@ -1,4 +1,5 @@
 from inspect_ai._util.registry import is_registry_dict
+from inspect_ai.log._log import eval_config_defaults
 from .display import TaskProfile
@@ -13,7 +14,12 @@ def task_config(
         value = task_args[key]
         if is_registry_dict(value):
             task_args[key] = value["name"]
-    config = dict(profile.eval_config.model_dump(exclude_none=True)) | task_args
+    # get eval_config overrides
+    eval_config = dict(profile.eval_config.model_dump(exclude_none=True))
+    for name, default_value in eval_config_defaults().items():
+        if eval_config.get(name, None) == default_value:
+            del eval_config[name]
+    config = eval_config | task_args
     if generate_config:
         config = dict(profile.generate_config.model_dump(exclude_none=True)) | config
     if profile.tags:

inspect_ai/_display/textual/widgets/samples.py CHANGED Viewed

@@ -347,7 +347,7 @@ class SampleLimits(Widget):
 class SandboxesView(Vertical):
     DEFAULT_CSS = """
     SandboxesView {
-        padding: 1 0 1 0;
+        padding: 1 0 0 0;
         background: transparent;
         height: auto;
     }
@@ -358,6 +358,7 @@ class SandboxesView(Vertical):
         background: transparent;
     }
     .clipboard-message {
+        height: auto;
         margin-top: 1;
     }
     """
@@ -372,7 +373,6 @@ class SandboxesView(Vertical):
     async def sync_sample(self, sample: ActiveSample) -> None:
         if len(sample.sandboxes) > 0:
             multiple_sandboxes = len(sample.sandboxes) > 1
-            self.display = True
             sandboxes_caption = cast(Static, self.query_one("#sandboxes-caption"))
             sandboxes_caption.update(
                 f"[bold]sandbox container{'s' if multiple_sandboxes else ''}:[/bold]"
@@ -395,6 +395,7 @@ class SandboxesView(Vertical):
                     markup=True,
                 )
             )
+            self.display = True
         else:
             self.display = False
@@ -473,7 +474,7 @@ class SampleToolbar(Horizontal):
                     else None
                 )
                 if isinstance(last_event, ToolEvent):
-                    last_event.cancel()
+                    last_event._cancel()
             elif event.button.id == self.CANCEL_SCORE_OUTPUT:
                 self.sample.interrupt("score")
             elif event.button.id == self.CANCEL_RAISE_ERROR:

inspect_ai/_display/textual/widgets/sandbox.py CHANGED Viewed

@@ -9,6 +9,12 @@ from .port_mappings import PortMappingsView
 class SandboxView(Vertical):
     DEFAULT_CSS = """
+    SandboxView {
+        height: auto;
+    }
+    SandboxView * {
+        height: auto;
+    }
     .indent {
         width: 2;
     }

inspect-ai 0.3.62__py3-none-any.whl → 0.3.64__py3-none-any.whl

inspect-ai 0.3.62py3-none-any.whl → 0.3.64py3-none-any.whl