PyPI - inspect-ai - Versions diffs - 0.3.62__py3-none-any.whl → 0.3.64__py3-none-any.whl - Mend

inspect-ai 0.3.62py3-none-any.whl → 0.3.64py3-none-any.whl

This diff represents the content of publicly available package versions that have been released to one of the supported registries. The information contained in this diff is provided for informational purposes only and reflects changes between package versions as they appear in their respective public registries.

Files changed (518) hide show

inspect_ai/_cli/cache.py +8 -7
inspect_ai/_cli/common.py +0 -12
inspect_ai/_cli/eval.py +32 -4
inspect_ai/_cli/info.py +1 -0
inspect_ai/_cli/list.py +1 -1
inspect_ai/_cli/log.py +2 -0
inspect_ai/_cli/main.py +1 -1
inspect_ai/_cli/sandbox.py +4 -1
inspect_ai/_cli/score.py +181 -32
inspect_ai/_cli/trace.py +10 -0
inspect_ai/_cli/view.py +4 -2
inspect_ai/_display/core/active.py +2 -3
inspect_ai/_display/core/config.py +7 -1
inspect_ai/_display/textual/widgets/samples.py +4 -3
inspect_ai/_display/textual/widgets/sandbox.py +6 -0
inspect_ai/_eval/eval.py +104 -101
inspect_ai/_eval/evalset.py +75 -75
inspect_ai/_eval/loader.py +122 -12
inspect_ai/_eval/registry.py +1 -1
inspect_ai/_eval/run.py +14 -0
inspect_ai/_eval/score.py +125 -36
inspect_ai/_eval/task/log.py +105 -4
inspect_ai/_eval/task/results.py +92 -38
inspect_ai/_eval/task/run.py +9 -2
inspect_ai/_eval/task/sandbox.py +35 -2
inspect_ai/_eval/task/task.py +49 -46
inspect_ai/_util/constants.py +1 -1
inspect_ai/_util/content.py +8 -0
inspect_ai/_util/error.py +2 -0
inspect_ai/_util/file.py +15 -1
inspect_ai/_util/hash.py +1 -1
inspect_ai/_util/logger.py +4 -2
inspect_ai/_util/registry.py +7 -1
inspect_ai/_view/view.py +1 -2
inspect_ai/_view/www/.vscode/extensions.json +3 -0
inspect_ai/_view/www/.vscode/settings.json +8 -0
inspect_ai/_view/www/App.css +97 -29
inspect_ai/_view/www/README.md +1 -1
inspect_ai/_view/www/dist/assets/index.css +16663 -14674
inspect_ai/_view/www/dist/assets/index.js +58808 -51348
inspect_ai/_view/www/dist/index.html +1 -1
inspect_ai/_view/www/index.html +2 -2
inspect_ai/_view/www/log-schema.json +87 -73
inspect_ai/_view/www/package.json +22 -4
inspect_ai/_view/www/postcss.config.cjs +8 -9
inspect_ai/_view/www/src/{App.mjs → App.tsx} +356 -365
inspect_ai/_view/www/src/AppErrorBoundary.tsx +47 -0
inspect_ai/_view/www/src/api/api-browser.ts +2 -2
inspect_ai/_view/www/src/api/api-http.ts +3 -5
inspect_ai/_view/www/src/api/api-vscode.ts +6 -6
inspect_ai/_view/www/src/api/client-api.ts +4 -4
inspect_ai/_view/www/src/api/index.ts +4 -4
inspect_ai/_view/www/src/api/{Types.ts → types.ts} +25 -9
inspect_ai/_view/www/src/appearance/colors.ts +9 -0
inspect_ai/_view/www/src/appearance/fonts.ts +39 -0
inspect_ai/_view/www/src/appearance/icons.ts +100 -0
inspect_ai/_view/www/src/appearance/{Styles.mjs → styles.ts} +2 -32
inspect_ai/_view/www/src/components/AnsiDisplay.tsx +198 -0
inspect_ai/_view/www/src/components/AsciinemaPlayer.tsx +86 -0
inspect_ai/_view/www/src/components/Card.css +60 -0
inspect_ai/_view/www/src/components/Card.tsx +109 -0
inspect_ai/_view/www/src/components/CopyButton.module.css +11 -0
inspect_ai/_view/www/src/components/CopyButton.tsx +58 -0
inspect_ai/_view/www/src/components/DownloadButton.css +4 -0
inspect_ai/_view/www/src/components/DownloadButton.tsx +25 -0
inspect_ai/_view/www/src/components/DownloadPanel.css +10 -0
inspect_ai/_view/www/src/components/DownloadPanel.tsx +30 -0
inspect_ai/_view/www/src/components/EmptyPanel.css +12 -0
inspect_ai/_view/www/src/components/EmptyPanel.tsx +15 -0
inspect_ai/_view/www/src/components/ErrorPanel.css +37 -0
inspect_ai/_view/www/src/components/ErrorPanel.tsx +39 -0
inspect_ai/_view/www/src/components/ExpandablePanel.css +40 -0
inspect_ai/_view/www/src/components/ExpandablePanel.tsx +115 -0
inspect_ai/_view/www/src/components/FindBand.css +49 -0
inspect_ai/_view/www/src/components/FindBand.tsx +130 -0
inspect_ai/_view/www/src/components/HumanBaselineView.css +41 -0
inspect_ai/_view/www/src/components/HumanBaselineView.tsx +162 -0
inspect_ai/_view/www/src/components/JsonPanel.css +20 -0
inspect_ai/_view/www/src/components/JsonPanel.tsx +82 -0
inspect_ai/_view/www/src/components/LabeledValue.css +20 -0
inspect_ai/_view/www/src/components/LabeledValue.tsx +41 -0
inspect_ai/_view/www/src/components/LargeModal.module.css +54 -0
inspect_ai/_view/www/src/components/LargeModal.tsx +189 -0
inspect_ai/_view/www/src/components/LightboxCarousel.css +95 -0
inspect_ai/_view/www/src/components/LightboxCarousel.tsx +132 -0
inspect_ai/_view/www/src/components/MarkdownDiv.css +3 -0
inspect_ai/_view/www/src/components/MarkdownDiv.tsx +133 -0
inspect_ai/_view/www/src/components/MessageBand.css +43 -0
inspect_ai/_view/www/src/components/MessageBand.tsx +39 -0
inspect_ai/_view/www/src/components/MorePopOver.css +0 -0
inspect_ai/_view/www/src/components/MorePopOver.tsx +67 -0
inspect_ai/_view/www/src/components/NavPills.module.css +18 -0
inspect_ai/_view/www/src/components/NavPills.tsx +101 -0
inspect_ai/_view/www/src/components/ProgressBar.module.css +37 -0
inspect_ai/_view/www/src/components/ProgressBar.tsx +22 -0
inspect_ai/_view/www/src/components/TabSet.module.css +40 -0
inspect_ai/_view/www/src/components/TabSet.tsx +215 -0
inspect_ai/_view/www/src/components/ToolButton.css +3 -0
inspect_ai/_view/www/src/components/ToolButton.tsx +27 -0
inspect_ai/_view/www/src/components/VirtualList.module.css +19 -0
inspect_ai/_view/www/src/components/VirtualList.tsx +292 -0
inspect_ai/_view/www/src/{index.js → index.tsx} +45 -19
inspect_ai/_view/www/src/{log → logfile}/remoteLogFile.ts +3 -8
inspect_ai/_view/www/src/{utils/remoteZipFile.mjs → logfile/remoteZipFile.ts} +86 -80
inspect_ai/_view/www/src/metadata/MetaDataGrid.tsx +83 -0
inspect_ai/_view/www/src/metadata/MetaDataView.module.css +35 -0
inspect_ai/_view/www/src/metadata/MetaDataView.tsx +95 -0
inspect_ai/_view/www/src/metadata/MetadataGrid.module.css +15 -0
inspect_ai/_view/www/src/metadata/RenderedContent.module.css +12 -0
inspect_ai/_view/www/src/{components/RenderedContent/RenderedContent.mjs → metadata/RenderedContent.tsx} +92 -73
inspect_ai/_view/www/src/metadata/types.ts +18 -0
inspect_ai/_view/www/src/plan/DatasetDetailView.module.css +3 -0
inspect_ai/_view/www/src/plan/DatasetDetailView.tsx +37 -0
inspect_ai/_view/www/src/plan/DetailStep.module.css +9 -0
inspect_ai/_view/www/src/plan/DetailStep.tsx +31 -0
inspect_ai/_view/www/src/plan/PlanCard.tsx +28 -0
inspect_ai/_view/www/src/plan/PlanDetailView.module.css +48 -0
inspect_ai/_view/www/src/plan/PlanDetailView.tsx +324 -0
inspect_ai/_view/www/src/plan/ScorerDetailView.module.css +3 -0
inspect_ai/_view/www/src/plan/ScorerDetailView.tsx +30 -0
inspect_ai/_view/www/src/plan/SolverDetailView.module.css +15 -0
inspect_ai/_view/www/src/plan/SolverDetailView.tsx +32 -0
inspect_ai/_view/www/src/samples/InlineSampleDisplay.module.css +8 -0
inspect_ai/_view/www/src/samples/InlineSampleDisplay.tsx +53 -0
inspect_ai/_view/www/src/samples/SampleDialog.tsx +122 -0
inspect_ai/_view/www/src/samples/SampleDisplay.module.css +29 -0
inspect_ai/_view/www/src/samples/SampleDisplay.tsx +331 -0
inspect_ai/_view/www/src/samples/SampleSummaryView.module.css +24 -0
inspect_ai/_view/www/src/samples/SampleSummaryView.tsx +177 -0
inspect_ai/_view/www/src/samples/SamplesTools.tsx +52 -0
inspect_ai/_view/www/src/samples/chat/ChatMessage.module.css +29 -0
inspect_ai/_view/www/src/samples/chat/ChatMessage.tsx +76 -0
inspect_ai/_view/www/src/samples/chat/ChatMessageRenderer.tsx +60 -0
inspect_ai/_view/www/src/samples/chat/ChatMessageRow.module.css +9 -0
inspect_ai/_view/www/src/samples/chat/ChatMessageRow.tsx +57 -0
inspect_ai/_view/www/src/samples/chat/ChatView.tsx +47 -0
inspect_ai/_view/www/src/samples/chat/ChatViewVirtualList.module.css +4 -0
inspect_ai/_view/www/src/samples/chat/ChatViewVirtualList.tsx +58 -0
inspect_ai/_view/www/src/samples/chat/MessageContent.module.css +4 -0
inspect_ai/_view/www/src/samples/chat/MessageContent.tsx +157 -0
inspect_ai/_view/www/src/samples/chat/MessageContents.module.css +3 -0
inspect_ai/_view/www/src/samples/chat/MessageContents.tsx +133 -0
inspect_ai/_view/www/src/samples/chat/messages.ts +112 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolCallView.tsx +147 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolInput.module.css +14 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolInput.tsx +76 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolOutput.module.css +19 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolOutput.tsx +60 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolTitle.module.css +4 -0
inspect_ai/_view/www/src/samples/chat/tools/ToolTitle.tsx +18 -0
inspect_ai/_view/www/src/samples/chat/tools/tool.ts +92 -0
inspect_ai/_view/www/src/samples/descriptor/samplesDescriptor.tsx +365 -0
inspect_ai/_view/www/src/samples/descriptor/score/BooleanScoreDescriptor.module.css +22 -0
inspect_ai/_view/www/src/samples/descriptor/score/BooleanScoreDescriptor.tsx +26 -0
inspect_ai/_view/www/src/samples/descriptor/score/CategoricalScoreDescriptor.tsx +18 -0
inspect_ai/_view/www/src/samples/descriptor/score/NumericScoreDescriptor.tsx +27 -0
inspect_ai/_view/www/src/samples/descriptor/score/ObjectScoreDescriptor.module.css +18 -0
inspect_ai/_view/www/src/samples/descriptor/score/ObjectScoreDescriptor.tsx +71 -0
inspect_ai/_view/www/src/samples/descriptor/score/OtherScoreDescriptor.tsx +20 -0
inspect_ai/_view/www/src/samples/descriptor/score/PassFailScoreDescriptor.module.css +28 -0
inspect_ai/_view/www/src/samples/descriptor/score/PassFailScoreDescriptor.tsx +81 -0
inspect_ai/_view/www/src/samples/descriptor/score/ScoreDescriptor.tsx +99 -0
inspect_ai/_view/www/src/samples/descriptor/types.ts +55 -0
inspect_ai/_view/www/src/samples/error/FlatSampleErrorView.module.css +19 -0
inspect_ai/_view/www/src/samples/error/FlatSampleErrorView.tsx +22 -0
inspect_ai/_view/www/src/samples/error/SampleErrorView.module.css +17 -0
inspect_ai/_view/www/src/samples/error/SampleErrorView.tsx +31 -0
inspect_ai/_view/www/src/samples/error/error.ts +15 -0
inspect_ai/_view/www/src/samples/list/SampleFooter.module.css +9 -0
inspect_ai/_view/www/src/samples/list/SampleFooter.tsx +14 -0
inspect_ai/_view/www/src/samples/list/SampleHeader.module.css +13 -0
inspect_ai/_view/www/src/samples/list/SampleHeader.tsx +36 -0
inspect_ai/_view/www/src/samples/list/SampleList.module.css +11 -0
inspect_ai/_view/www/src/samples/list/SampleList.tsx +247 -0
inspect_ai/_view/www/src/samples/list/SampleRow.module.css +33 -0
inspect_ai/_view/www/src/samples/list/SampleRow.tsx +98 -0
inspect_ai/_view/www/src/samples/list/SampleSeparator.module.css +6 -0
inspect_ai/_view/www/src/samples/list/SampleSeparator.tsx +24 -0
inspect_ai/_view/www/src/samples/sample-tools/EpochFilter.module.css +9 -0
inspect_ai/_view/www/src/samples/sample-tools/EpochFilter.tsx +51 -0
inspect_ai/_view/www/src/samples/sample-tools/SelectScorer.module.css +16 -0
inspect_ai/_view/www/src/samples/sample-tools/SelectScorer.tsx +175 -0
inspect_ai/_view/www/src/samples/sample-tools/SortFilter.module.css +9 -0
inspect_ai/_view/www/src/samples/sample-tools/SortFilter.tsx +186 -0
inspect_ai/_view/www/src/samples/{tools/filters.mjs → sample-tools/filters.ts} +86 -81
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/SampleFilter.module.css +16 -0
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/SampleFilter.tsx +288 -0
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/completions.ts +346 -0
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/language.ts +19 -0
inspect_ai/_view/www/src/samples/sample-tools/sample-filter/tokenize.ts +97 -0
inspect_ai/_view/www/src/samples/{SampleLimit.mjs → sampleLimit.ts} +3 -6
inspect_ai/_view/www/src/samples/scores/SampleScoreView.module.css +53 -0
inspect_ai/_view/www/src/samples/scores/SampleScoreView.tsx +168 -0
inspect_ai/_view/www/src/samples/scores/SampleScores.module.css +5 -0
inspect_ai/_view/www/src/samples/scores/SampleScores.tsx +37 -0
inspect_ai/_view/www/src/samples/transcript/ApprovalEventView.tsx +66 -0
inspect_ai/_view/www/src/samples/transcript/ErrorEventView.tsx +51 -0
inspect_ai/_view/www/src/samples/transcript/InfoEventView.module.css +3 -0
inspect_ai/_view/www/src/samples/transcript/InfoEventView.tsx +54 -0
inspect_ai/_view/www/src/samples/transcript/InputEventView.tsx +48 -0
inspect_ai/_view/www/src/samples/transcript/LoggerEventView.module.css +6 -0
inspect_ai/_view/www/src/samples/transcript/LoggerEventView.tsx +36 -0
inspect_ai/_view/www/src/samples/transcript/ModelEventView.module.css +43 -0
inspect_ai/_view/www/src/samples/transcript/ModelEventView.tsx +223 -0
inspect_ai/_view/www/src/samples/transcript/SampleInitEventView.module.css +23 -0
inspect_ai/_view/www/src/samples/transcript/SampleInitEventView.tsx +112 -0
inspect_ai/_view/www/src/samples/transcript/SampleLimitEventView.tsx +75 -0
inspect_ai/_view/www/src/samples/transcript/SampleTranscript.tsx +22 -0
inspect_ai/_view/www/src/samples/transcript/ScoreEventView.module.css +15 -0
inspect_ai/_view/www/src/samples/transcript/ScoreEventView.tsx +100 -0
inspect_ai/_view/www/src/samples/transcript/StepEventView.tsx +171 -0
inspect_ai/_view/www/src/samples/transcript/SubtaskEventView.module.css +19 -0
inspect_ai/_view/www/src/samples/transcript/SubtaskEventView.tsx +133 -0
inspect_ai/_view/www/src/samples/transcript/ToolEventView.module.css +10 -0
inspect_ai/_view/www/src/samples/transcript/ToolEventView.tsx +92 -0
inspect_ai/_view/www/src/samples/transcript/TranscriptView.module.css +49 -0
inspect_ai/_view/www/src/samples/transcript/TranscriptView.tsx +449 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNav.module.css +5 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNav.tsx +43 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNavs.module.css +3 -0
inspect_ai/_view/www/src/samples/transcript/event/EventNavs.tsx +39 -0
inspect_ai/_view/www/src/samples/transcript/event/EventPanel.module.css +25 -0
inspect_ai/_view/www/src/samples/transcript/event/EventPanel.tsx +191 -0
inspect_ai/_view/www/src/samples/transcript/event/EventRow.module.css +13 -0
inspect_ai/_view/www/src/samples/transcript/event/EventRow.tsx +32 -0
inspect_ai/_view/www/src/samples/transcript/event/EventSection.module.css +8 -0
inspect_ai/_view/www/src/samples/transcript/event/EventSection.tsx +29 -0
inspect_ai/_view/www/src/samples/transcript/state/StateDiffView.tsx +67 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventRenderers.tsx +285 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventRenders.module.css +10 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventView.module.css +9 -0
inspect_ai/_view/www/src/samples/transcript/state/StateEventView.tsx +346 -0
inspect_ai/_view/www/src/samples/transcript/types.ts +58 -0
inspect_ai/_view/www/src/types/log.d.ts +108 -19
inspect_ai/_view/www/src/types/prism.d.ts +11 -0
inspect_ai/_view/www/src/types.ts +71 -0
inspect_ai/_view/www/src/usage/ModelTokenTable.tsx +28 -0
inspect_ai/_view/www/src/usage/ModelUsagePanel.module.css +24 -0
inspect_ai/_view/www/src/usage/ModelUsagePanel.tsx +97 -0
inspect_ai/_view/www/src/usage/TokenTable.module.css +17 -0
inspect_ai/_view/www/src/usage/TokenTable.tsx +91 -0
inspect_ai/_view/www/src/usage/UsageCard.module.css +15 -0
inspect_ai/_view/www/src/usage/UsageCard.tsx +67 -0
inspect_ai/_view/www/src/utils/attachments.ts +42 -0
inspect_ai/_view/www/src/utils/{Base64.mjs → base64.ts} +1 -6
inspect_ai/_view/www/src/{components/Browser.mjs → utils/browser.ts} +0 -1
inspect_ai/_view/www/src/utils/debugging.ts +28 -0
inspect_ai/_view/www/src/utils/dom.ts +30 -0
inspect_ai/_view/www/src/utils/format.ts +194 -0
inspect_ai/_view/www/src/utils/git.ts +7 -0
inspect_ai/_view/www/src/utils/html.ts +6 -0
inspect_ai/_view/www/src/utils/http.ts +14 -0
inspect_ai/_view/www/src/utils/{Path.mjs → path.ts} +2 -9
inspect_ai/_view/www/src/utils/{Print.mjs → print.ts} +34 -26
inspect_ai/_view/www/src/utils/queue.ts +51 -0
inspect_ai/_view/www/src/utils/sync.ts +114 -0
inspect_ai/_view/www/src/utils/{Type.mjs → type.ts} +3 -6
inspect_ai/_view/www/src/utils/vscode.ts +13 -0
inspect_ai/_view/www/src/workspace/WorkSpace.tsx +324 -0
inspect_ai/_view/www/src/workspace/WorkSpaceView.module.css +33 -0
inspect_ai/_view/www/src/workspace/WorkSpaceView.tsx +158 -0
inspect_ai/_view/www/src/workspace/error/TaskErrorPanel.module.css +3 -0
inspect_ai/_view/www/src/workspace/error/TaskErrorPanel.tsx +28 -0
inspect_ai/_view/www/src/workspace/navbar/Navbar.module.css +54 -0
inspect_ai/_view/www/src/workspace/navbar/Navbar.tsx +68 -0
inspect_ai/_view/www/src/workspace/navbar/PrimaryBar.module.css +52 -0
inspect_ai/_view/www/src/workspace/navbar/PrimaryBar.tsx +114 -0
inspect_ai/_view/www/src/workspace/navbar/ResultsPanel.module.css +90 -0
inspect_ai/_view/www/src/workspace/navbar/ResultsPanel.tsx +180 -0
inspect_ai/_view/www/src/workspace/navbar/SecondaryBar.module.css +28 -0
inspect_ai/_view/www/src/workspace/navbar/SecondaryBar.tsx +226 -0
inspect_ai/_view/www/src/workspace/navbar/StatusPanel.module.css +14 -0
inspect_ai/_view/www/src/workspace/navbar/StatusPanel.tsx +61 -0
inspect_ai/_view/www/src/workspace/sidebar/EvalStatus.module.css +15 -0
inspect_ai/_view/www/src/workspace/sidebar/EvalStatus.tsx +71 -0
inspect_ai/_view/www/src/workspace/sidebar/LogDirectoryTitleView.module.css +5 -0
inspect_ai/_view/www/src/workspace/sidebar/LogDirectoryTitleView.tsx +56 -0
inspect_ai/_view/www/src/workspace/sidebar/Sidebar.module.css +68 -0
inspect_ai/_view/www/src/workspace/sidebar/Sidebar.tsx +85 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarLogEntry.module.css +29 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarLogEntry.tsx +95 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarScoreView.module.css +23 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarScoreView.tsx +43 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarScoresView.module.css +35 -0
inspect_ai/_view/www/src/workspace/sidebar/SidebarScoresView.tsx +63 -0
inspect_ai/_view/www/src/workspace/tabs/InfoTab.module.css +0 -0
inspect_ai/_view/www/src/workspace/tabs/InfoTab.tsx +70 -0
inspect_ai/_view/www/src/workspace/tabs/JsonTab.module.css +5 -0
inspect_ai/_view/www/src/workspace/tabs/JsonTab.tsx +46 -0
inspect_ai/_view/www/src/workspace/tabs/SamplesTab.tsx +204 -0
inspect_ai/_view/www/src/workspace/tabs/grouping.ts +195 -0
inspect_ai/_view/www/src/workspace/tabs/types.ts +19 -0
inspect_ai/_view/www/src/workspace/types.ts +10 -0
inspect_ai/_view/www/src/workspace/utils.ts +34 -0
inspect_ai/_view/www/tsconfig.json +23 -9
inspect_ai/_view/www/vite.config.js +8 -17
inspect_ai/_view/www/yarn.lock +627 -556
inspect_ai/approval/_approval.py +2 -0
inspect_ai/approval/_approver.py +4 -4
inspect_ai/approval/_auto.py +1 -1
inspect_ai/approval/_human/approver.py +3 -0
inspect_ai/approval/_policy.py +5 -0
inspect_ai/approval/_registry.py +2 -2
inspect_ai/dataset/_dataset.py +64 -37
inspect_ai/dataset/_sources/__init__.py +0 -0
inspect_ai/dataset/_sources/csv.py +20 -12
inspect_ai/dataset/_sources/file.py +4 -0
inspect_ai/dataset/_sources/hf.py +39 -29
inspect_ai/dataset/_sources/json.py +17 -9
inspect_ai/log/__init__.py +2 -0
inspect_ai/log/_convert.py +3 -3
inspect_ai/log/_file.py +24 -9
inspect_ai/log/_log.py +101 -13
inspect_ai/log/_message.py +4 -2
inspect_ai/log/_recorders/file.py +4 -0
inspect_ai/log/_recorders/json.py +5 -7
inspect_ai/log/_recorders/recorder.py +3 -0
inspect_ai/log/_transcript.py +19 -8
inspect_ai/model/__init__.py +2 -0
inspect_ai/model/_cache.py +39 -21
inspect_ai/model/_call_tools.py +4 -3
inspect_ai/model/_chat_message.py +14 -4
inspect_ai/model/_generate_config.py +1 -1
inspect_ai/model/_model.py +31 -24
inspect_ai/model/_model_output.py +14 -1
inspect_ai/model/_openai.py +10 -18
inspect_ai/model/_providers/anthropic.py +3 -3
inspect_ai/model/_providers/google.py +9 -5
inspect_ai/model/_providers/openai.py +5 -9
inspect_ai/model/_providers/openai_o1.py +3 -5
inspect_ai/model/_providers/openrouter.py +86 -0
inspect_ai/model/_providers/providers.py +11 -0
inspect_ai/scorer/__init__.py +6 -1
inspect_ai/scorer/_answer.py +7 -7
inspect_ai/scorer/_classification.py +38 -18
inspect_ai/scorer/_common.py +2 -8
inspect_ai/scorer/_match.py +4 -5
inspect_ai/scorer/_metric.py +87 -28
inspect_ai/scorer/_metrics/__init__.py +3 -3
inspect_ai/scorer/_metrics/accuracy.py +8 -10
inspect_ai/scorer/_metrics/mean.py +3 -17
inspect_ai/scorer/_metrics/std.py +111 -30
inspect_ai/scorer/_model.py +12 -12
inspect_ai/scorer/_pattern.py +3 -3
inspect_ai/scorer/_reducer/reducer.py +36 -21
inspect_ai/scorer/_reducer/registry.py +2 -2
inspect_ai/scorer/_reducer/types.py +7 -1
inspect_ai/scorer/_score.py +11 -1
inspect_ai/scorer/_scorer.py +110 -16
inspect_ai/solver/__init__.py +1 -1
inspect_ai/solver/_basic_agent.py +19 -22
inspect_ai/solver/_bridge/__init__.py +0 -3
inspect_ai/solver/_bridge/bridge.py +3 -3
inspect_ai/solver/_chain.py +1 -2
inspect_ai/solver/_critique.py +3 -3
inspect_ai/solver/_fork.py +2 -2
inspect_ai/solver/_human_agent/__init__.py +0 -0
inspect_ai/solver/_human_agent/agent.py +5 -8
inspect_ai/solver/_human_agent/commands/clock.py +14 -10
inspect_ai/solver/_human_agent/commands/note.py +1 -1
inspect_ai/solver/_human_agent/commands/score.py +0 -11
inspect_ai/solver/_multiple_choice.py +38 -26
inspect_ai/solver/_prompt.py +7 -7
inspect_ai/solver/_solver.py +53 -52
inspect_ai/solver/_task_state.py +80 -69
inspect_ai/solver/_use_tools.py +9 -9
inspect_ai/tool/__init__.py +4 -1
inspect_ai/tool/_tool.py +43 -14
inspect_ai/tool/_tool_call.py +6 -2
inspect_ai/tool/_tool_choice.py +3 -1
inspect_ai/tool/_tool_def.py +10 -8
inspect_ai/tool/_tool_params.py +24 -0
inspect_ai/tool/_tool_with.py +7 -7
inspect_ai/tool/_tools/__init__.py +0 -0
inspect_ai/tool/{beta → _tools}/_computer/_common.py +2 -2
inspect_ai/tool/{beta → _tools}/_computer/_computer.py +13 -5
inspect_ai/tool/_tools/_computer/_resources/tool/__init__.py +0 -0
inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/_x11_client.py +1 -1
inspect_ai/tool/_tools/_computer/_resources/tool/requirements.txt +0 -0
inspect_ai/tool/_tools/_execute.py +23 -11
inspect_ai/tool/_tools/_web_browser/_resources/README.md +2 -2
inspect_ai/tool/_tools/_web_browser/_web_browser.py +5 -3
inspect_ai/tool/_tools/_web_search.py +7 -5
inspect_ai/tool/beta.py +3 -0
inspect_ai/util/_concurrency.py +3 -3
inspect_ai/util/_panel.py +2 -0
inspect_ai/util/_resource.py +12 -12
inspect_ai/util/_sandbox/docker/compose.py +23 -20
inspect_ai/util/_sandbox/docker/config.py +2 -1
inspect_ai/util/_sandbox/docker/docker.py +42 -86
inspect_ai/util/_sandbox/docker/service.py +100 -0
inspect_ai/util/_sandbox/environment.py +99 -96
inspect_ai/util/_sandbox/self_check.py +124 -16
inspect_ai/util/_subprocess.py +5 -3
inspect_ai/util/_subtask.py +15 -16
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/LICENSE +1 -1
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/METADATA +11 -6
inspect_ai-0.3.64.dist-info/RECORD +625 -0
inspect_ai/_view/www/src/Register.mjs +0 -3
inspect_ai/_view/www/src/Types.mjs +0 -38
inspect_ai/_view/www/src/appearance/Colors.mjs +0 -27
inspect_ai/_view/www/src/appearance/Fonts.mjs +0 -66
inspect_ai/_view/www/src/appearance/Icons.mjs +0 -240
inspect_ai/_view/www/src/components/AnsiDisplay.mjs +0 -184
inspect_ai/_view/www/src/components/AppErrorBoundary.mjs +0 -34
inspect_ai/_view/www/src/components/AsciiCinemaPlayer.mjs +0 -74
inspect_ai/_view/www/src/components/Card.mjs +0 -126
inspect_ai/_view/www/src/components/ChatView.mjs +0 -441
inspect_ai/_view/www/src/components/CopyButton.mjs +0 -48
inspect_ai/_view/www/src/components/Dialog.mjs +0 -61
inspect_ai/_view/www/src/components/DownloadButton.mjs +0 -15
inspect_ai/_view/www/src/components/DownloadPanel.mjs +0 -29
inspect_ai/_view/www/src/components/EmptyPanel.mjs +0 -23
inspect_ai/_view/www/src/components/ErrorPanel.mjs +0 -66
inspect_ai/_view/www/src/components/ExpandablePanel.mjs +0 -136
inspect_ai/_view/www/src/components/FindBand.mjs +0 -157
inspect_ai/_view/www/src/components/HumanBaselineView.mjs +0 -168
inspect_ai/_view/www/src/components/JsonPanel.mjs +0 -61
inspect_ai/_view/www/src/components/LabeledValue.mjs +0 -32
inspect_ai/_view/www/src/components/LargeModal.mjs +0 -190
inspect_ai/_view/www/src/components/LightboxCarousel.mjs +0 -217
inspect_ai/_view/www/src/components/MarkdownDiv.mjs +0 -118
inspect_ai/_view/www/src/components/MessageBand.mjs +0 -48
inspect_ai/_view/www/src/components/MessageContent.mjs +0 -111
inspect_ai/_view/www/src/components/MetaDataGrid.mjs +0 -92
inspect_ai/_view/www/src/components/MetaDataView.mjs +0 -109
inspect_ai/_view/www/src/components/MorePopOver.mjs +0 -50
inspect_ai/_view/www/src/components/NavPills.mjs +0 -63
inspect_ai/_view/www/src/components/ProgressBar.mjs +0 -51
inspect_ai/_view/www/src/components/RenderedContent/ChatMessageRenderer.mjs +0 -54
inspect_ai/_view/www/src/components/RenderedContent/Types.mjs +0 -19
inspect_ai/_view/www/src/components/TabSet.mjs +0 -184
inspect_ai/_view/www/src/components/ToolButton.mjs +0 -16
inspect_ai/_view/www/src/components/Tools.mjs +0 -376
inspect_ai/_view/www/src/components/VirtualList.mjs +0 -280
inspect_ai/_view/www/src/components/ansi-output.js +0 -932
inspect_ai/_view/www/src/json/JsonTab.mjs +0 -48
inspect_ai/_view/www/src/log-reader/Log-Reader.mjs +0 -25
inspect_ai/_view/www/src/log-reader/Native-Log-Reader.mjs +0 -13
inspect_ai/_view/www/src/log-reader/Open-AI-Log-Reader.mjs +0 -263
inspect_ai/_view/www/src/navbar/Navbar.mjs +0 -418
inspect_ai/_view/www/src/navbar/SecondaryBar.mjs +0 -175
inspect_ai/_view/www/src/plan/PlanCard.mjs +0 -418
inspect_ai/_view/www/src/samples/SampleDialog.mjs +0 -123
inspect_ai/_view/www/src/samples/SampleDisplay.mjs +0 -516
inspect_ai/_view/www/src/samples/SampleError.mjs +0 -99
inspect_ai/_view/www/src/samples/SampleList.mjs +0 -427
inspect_ai/_view/www/src/samples/SampleScoreView.mjs +0 -172
inspect_ai/_view/www/src/samples/SampleScores.mjs +0 -34
inspect_ai/_view/www/src/samples/SampleTranscript.mjs +0 -20
inspect_ai/_view/www/src/samples/SamplesDescriptor.mjs +0 -771
inspect_ai/_view/www/src/samples/SamplesTab.mjs +0 -399
inspect_ai/_view/www/src/samples/SamplesTools.mjs +0 -64
inspect_ai/_view/www/src/samples/tools/EpochFilter.mjs +0 -38
inspect_ai/_view/www/src/samples/tools/SampleFilter.mjs +0 -756
inspect_ai/_view/www/src/samples/tools/SelectScorer.mjs +0 -141
inspect_ai/_view/www/src/samples/tools/SortFilter.mjs +0 -151
inspect_ai/_view/www/src/samples/transcript/ApprovalEventView.mjs +0 -71
inspect_ai/_view/www/src/samples/transcript/ErrorEventView.mjs +0 -44
inspect_ai/_view/www/src/samples/transcript/EventPanel.mjs +0 -271
inspect_ai/_view/www/src/samples/transcript/EventRow.mjs +0 -46
inspect_ai/_view/www/src/samples/transcript/EventSection.mjs +0 -33
inspect_ai/_view/www/src/samples/transcript/InfoEventView.mjs +0 -59
inspect_ai/_view/www/src/samples/transcript/InputEventView.mjs +0 -44
inspect_ai/_view/www/src/samples/transcript/LoggerEventView.mjs +0 -32
inspect_ai/_view/www/src/samples/transcript/ModelEventView.mjs +0 -216
inspect_ai/_view/www/src/samples/transcript/SampleInitEventView.mjs +0 -107
inspect_ai/_view/www/src/samples/transcript/SampleLimitEventView.mjs +0 -74
inspect_ai/_view/www/src/samples/transcript/ScoreEventView.mjs +0 -100
inspect_ai/_view/www/src/samples/transcript/StepEventView.mjs +0 -187
inspect_ai/_view/www/src/samples/transcript/SubtaskEventView.mjs +0 -133
inspect_ai/_view/www/src/samples/transcript/ToolEventView.mjs +0 -88
inspect_ai/_view/www/src/samples/transcript/TranscriptView.mjs +0 -459
inspect_ai/_view/www/src/samples/transcript/Types.mjs +0 -44
inspect_ai/_view/www/src/samples/transcript/state/StateDiffView.mjs +0 -53
inspect_ai/_view/www/src/samples/transcript/state/StateEventRenderers.mjs +0 -254
inspect_ai/_view/www/src/samples/transcript/state/StateEventView.mjs +0 -313
inspect_ai/_view/www/src/sidebar/Sidebar.mjs +0 -418
inspect_ai/_view/www/src/usage/ModelTokenTable.mjs +0 -72
inspect_ai/_view/www/src/usage/UsageCard.mjs +0 -159
inspect_ai/_view/www/src/utils/Format.mjs +0 -260
inspect_ai/_view/www/src/utils/Git.mjs +0 -12
inspect_ai/_view/www/src/utils/Html.mjs +0 -21
inspect_ai/_view/www/src/utils/attachments.mjs +0 -31
inspect_ai/_view/www/src/utils/debugging.mjs +0 -23
inspect_ai/_view/www/src/utils/http.mjs +0 -18
inspect_ai/_view/www/src/utils/queue.mjs +0 -67
inspect_ai/_view/www/src/utils/sync.mjs +0 -101
inspect_ai/_view/www/src/workspace/TaskErrorPanel.mjs +0 -17
inspect_ai/_view/www/src/workspace/WorkSpace.mjs +0 -516
inspect_ai/tool/beta/__init__.py +0 -5
inspect_ai-0.3.62.dist-info/RECORD +0 -481
/inspect_ai/{tool/beta/_computer/_resources/tool → _eval}/__init__.py +0 -0
/inspect_ai/{tool/beta/_computer/_resources/tool/requirements.txt → _util/__init__.py} +0 -0
/inspect_ai/_view/www/src/{constants.mjs → constants.ts} +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/__init__.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_computer_split.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/Dockerfile +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/README.md +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/entrypoint.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/novnc_startup.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/x11vnc_startup.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/xfce_startup.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/entrypoint/xvfb_startup.sh +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/.config/Code/User/globalStorage/state.vscdb +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/.config/Code/User/settings.json +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/.config/xfce4/xfconf/xfce-perchannel-xml/xfce4-panel.xml +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/.config/xfce4/xfconf/xfce-perchannel-xml/xfce4-screensaver.xml +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/Desktop/Firefox Web Browser.desktop +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/Desktop/Terminal.desktop +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/image_home_dir/Desktop/Visual Studio Code.desktop +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/_logger.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/_run.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/_tool_result.py +0 -0
/inspect_ai/tool/{beta → _tools}/_computer/_resources/tool/computer_tool.py +0 -0
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/WHEEL +0 -0
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/entry_points.txt +0 -0
{inspect_ai-0.3.62.dist-info → inspect_ai-0.3.64.dist-info}/top_level.txt +0 -0

inspect_ai/_eval/score.py CHANGED Viewed

@@ -1,15 +1,16 @@
 import asyncio
 from copy import deepcopy
-from typing import Callable, cast
+from pathlib import Path
+from typing import Any, Callable, Literal, cast
 from inspect_ai._display import display
-from inspect_ai._util.path import chdir_python
+from inspect_ai._eval.loader import scorer_from_spec
 from inspect_ai._util.platform import platform_init
 from inspect_ai._util.registry import registry_create, registry_unqualified_name
 from inspect_ai.log import (
     EvalLog,
-    EvalMetric,
 )
+from inspect_ai.log._log import EvalMetricDefinition
 from inspect_ai.model import ModelName
 from inspect_ai.scorer import Metric, Scorer, Target
 from inspect_ai.scorer._metric import SampleScore
@@ -19,18 +20,19 @@ from inspect_ai.scorer._reducer import (
     create_reducers,
     reducer_log_names,
 )
-from inspect_ai.scorer._scorer import unique_scorer_name
+from inspect_ai.scorer._scorer import ScorerSpec, unique_scorer_name
 from inspect_ai.solver import TaskState
-from .task import Task
 from .task.results import eval_results
-from .task.util import task_run_dir
+ScoreAction = Literal["append", "overwrite"]
 def score(
     log: EvalLog,
     scorers: Scorer | list[Scorer],
     epochs_reducer: ScoreReducers | None = None,
+    action: ScoreAction | None = None,
 ) -> EvalLog:
     """Score an evaluation log.
@@ -40,6 +42,7 @@ def score(
        epochs_reducer (ScoreReducers | None):
            Reducer function(s) for aggregating scores in each sample.
            Defaults to previously used reducer(s).
+       action: Whether to append or overwrite this score
     Returns:
        Log with scores yielded by scorer.
@@ -50,13 +53,14 @@ def score(
     # resolve scorers into a list
     scorers = [scorers] if isinstance(scorers, Scorer) else scorers
-    return asyncio.run(score_async(log, scorers, epochs_reducer))
+    return asyncio.run(score_async(log, scorers, epochs_reducer, action))
 async def score_async(
     log: EvalLog,
     scorers: list[Scorer],
     epochs_reducer: ScoreReducers | None = None,
+    action: ScoreAction | None = None,
 ) -> EvalLog:
     """Score an evaluation log.
@@ -66,6 +70,8 @@ async def score_async(
        epochs_reducer (ScoreReducers  | None):
          Reducer function(s) for aggregating scores in each sample.
          Defaults to previously used reducer(s).
+       action: Whether to append or overwrite this score
     Returns:
@@ -109,7 +115,22 @@ async def score_async(
         # write them back (gather ensures that they come back in the same order)
         for index, score in enumerate(scores):
-            log.samples[index].scores = {k: v.score for k, v in score.items()}
+            if action == "overwrite":
+                log.samples[index].scores = {k: v.score for k, v in score.items()}
+            else:
+                existing_scores = log.samples[index].scores or {}
+                new_scores = {k: v.score for k, v in score.items()}
+                for key, value in new_scores.items():
+                    if key not in existing_scores:
+                        existing_scores[key] = value
+                    else:
+                        # This key already exists, dedupe its name
+                        count = 1
+                        while f"{key}-{count}" in existing_scores.keys():
+                            count = count + 1
+                        existing_scores[f"{key}-{count}"] = value
+                log.samples[index].scores = existing_scores
         # collect metrics from EvalLog (they may overlap w/ the scorer metrics,
         # that will be taken care of in eval_results)
@@ -130,30 +151,37 @@ async def score_async(
     return log
-async def task_score(task: Task, log: EvalLog) -> EvalLog:
-    with chdir_python(task_run_dir(task)):
-        # confirm we have a scorer
-        if task.scorer is None:
-            raise ValueError("You must specify a scorer for evals to be scored.")
+async def task_score(
+    log: EvalLog,
+    scorer: str | None = None,
+    scorer_args: dict[str, Any] | None = None,
+    action: ScoreAction | None = None,
+) -> EvalLog:
+    # confirm we have a scorer
+    scorers = resolve_scorers(log, scorer, scorer_args)
+    if len(scorers) == 0:
+        raise ValueError(
+            "Unable to resolve any scorers for this log. Please specify a scorer using the '--scorer' param."
+        )
-        # confirm we have samples
-        if log.samples is None or len(log.samples) == 0:
-            raise ValueError("There are no samples to score in the log.")
+    # confirm we have samples
+    if log.samples is None or len(log.samples) == 0:
+        raise ValueError("There are no samples to score in the log.")
-        task_name = task.name
-        display().print(f"Scoring {len(log.samples)} samples for task: {task_name}")
+    task_name = log.eval.task
+    display().print(f"\nScoring {task_name} ({len(log.samples)} samples)")
-        # perform scoring
-        log = await score_async(log, task.scorer)
+    # perform scoring
+    log = await score_async(log=log, scorers=scorers, action=action)
     # compute and log metrics
-    display().print(f"Aggregating scores for task: {task_name}")
-    if task.scorer and log.samples:
+    if log.samples:
         sample_scores = [
             {
                 score_key: SampleScore(
                     score=score,
                     sample_id=sample.id,
+                    sample_metadata=sample.metadata,
                 )
                 for score_key, score in sample.scores.items()
             }
@@ -161,12 +189,15 @@ async def task_score(task: Task, log: EvalLog) -> EvalLog:
             if sample.scores is not None
         ]
+        epochs_reducer = reducers_from_log(log)
+        metrics = metrics_from_log(log)
         log.results, log.reductions = eval_results(
             log.results.total_samples if log.results else 0,
             sample_scores,
-            task.epochs_reducer,
-            task.scorer,
-            task.metrics,
+            epochs_reducer,
+            scorers,
+            metrics,
         )
     return log
@@ -185,6 +216,7 @@ async def run_score_task(
         results[scorer_name] = SampleScore(
             score=result,
             sample_id=state.sample_id,
+            sample_metadata=state.metadata,
             scorer=registry_unqualified_name(scorer),
         )
@@ -192,21 +224,78 @@ async def run_score_task(
     return results
-def metrics_from_log(log: EvalLog) -> list[Metric]:
+def metrics_from_log(log: EvalLog) -> list[Metric] | dict[str, list[Metric]] | None:
+    # See if we have metrics in the eval itself
+    if log.eval.metrics:
+        if isinstance(log.eval.metrics, list):
+            return [metric_from_log(metric) for metric in log.eval.metrics]
+        else:
+            return {
+                key: [metric_from_log(metric) for metric in metrics]
+                for key, metrics in log.eval.metrics.items()
+            }
+    return None
+def metric_from_log(metric: EvalMetricDefinition) -> Metric:
+    return cast(
+        Metric, registry_create("metric", metric.name, **(metric.options or {}))
+    )
+def reducers_from_log(log: EvalLog) -> list[ScoreReducer] | None:
+    return create_reducers(log.eval.config.epochs_reducer)
+def resolve_scorers(
+    log: EvalLog, scorer: str | None, scorer_args: dict[str, Any] | None
+) -> list[Scorer]:
+    """
+    Create a list of Scorer objects from an evaluation log.
+    Args:
+        log: EvalLog object containing evaluation configuration and results
+        scorer:: Scorer name (simple name or file.py@name).
+        scorer_args: Dictionary of scorer arguments
+    Returns:
+        list[Scorer]: List of initialized scorers
+    """
+    # resolve the scorer path
+    task_path = Path(log.eval.task_file) if log.eval.task_file else None
+    # If there is an explicit scorer
+    if scorer:
+        return [
+            scorer_from_spec(
+                spec=ScorerSpec(scorer=scorer),
+                task_path=task_path,
+                **(scorer_args or {}),
+            )
+        ]
+    # See if we can create scorers from the eval itself
+    elif log.eval.scorers is not None:
+        return (
+            [
+                scorer_from_spec(
+                    spec=ScorerSpec(scorer=score.name),
+                    task_path=task_path,
+                    **(score.options or {}),
+                )
+                for score in log.eval.scorers
+            ]
+            if log.results
+            else []
+        )
+    # Otherwise, perhaps we can re-create them from the results
     return (
         [
-            metric_from_log(metric)
+            scorer_from_spec(
+                spec=ScorerSpec(scorer=score.name), task_path=task_path, **score.params
+            )
             for score in log.results.scores
-            for metric in score.metrics.values()
         ]
         if log.results
         else []
     )
-def metric_from_log(metric: EvalMetric) -> Metric:
-    return cast(Metric, registry_create("metric", metric.name, **metric.options))
-def reducers_from_log(log: EvalLog) -> list[ScoreReducer] | None:
-    return create_reducers(log.eval.config.epochs_reducer)

inspect_ai/_eval/task/log.py CHANGED Viewed

@@ -4,9 +4,7 @@ from typing import Any, Literal, cast
 from shortuuid import uuid
 from inspect_ai._eval.task.util import slice_dataset
-from inspect_ai._util.constants import (
-    PKG_NAME,
-)
+from inspect_ai._util.constants import PKG_NAME
 from inspect_ai._util.datetime import iso_now
 from inspect_ai._util.git import git_context
 from inspect_ai._util.path import cwd_relative_path
@@ -27,7 +25,13 @@ from inspect_ai.log import (
     EvalSpec,
     EvalStats,
 )
-from inspect_ai.log._log import EvalLog, EvalSampleReductions
+from inspect_ai.log._log import (
+    EvalLog,
+    EvalMetricDefinition,
+    EvalSampleReductions,
+    EvalScorer,
+    eval_config_defaults,
+)
 from inspect_ai.log._recorders import Recorder
 from inspect_ai.model import (
     GenerateConfig,
@@ -35,6 +39,8 @@ from inspect_ai.model import (
     ModelName,
 )
 from inspect_ai.model._model import model_usage
+from inspect_ai.scorer._metric import MetricSpec
+from inspect_ai.scorer._scorer import ScorerSpec
 from inspect_ai.solver._plan import Plan
 from inspect_ai.solver._solver import Solver, SolverSpec
 from inspect_ai.util._sandbox.environment import SandboxEnvironmentSpec
@@ -52,6 +58,8 @@ class TaskLogger:
         tags: list[str] | None,
         model: Model,
         dataset: Dataset,
+        scorer: list[ScorerSpec] | None,
+        metrics: list[MetricSpec] | dict[str, list[MetricSpec]] | None,
         sandbox: SandboxEnvironmentSpec | None,
         task_attribs: dict[str, Any],
         task_args: dict[str, Any],
@@ -92,6 +100,17 @@ class TaskLogger:
             ],
         )
+        # write defaults for unspecified config
+        for name, value in eval_config_defaults().items():
+            if getattr(eval_config, name, None) is None:
+                setattr(eval_config, name, value)
+        # resolve scorers
+        eval_scorers = resolve_eval_scorers(scorer)
+        # resolve metrics
+        eval_metrics = resolve_eval_metrics(metrics)
         # create eval spec
         self.eval = EvalSpec(
             run_id=run_id,
@@ -114,6 +133,8 @@ class TaskLogger:
                 sample_ids=sample_ids,
                 shuffled=dataset.shuffled,
             ),
+            scorers=eval_scorers,
+            metrics=eval_metrics,
             sandbox=sandbox,
             model_args=model_args,
             config=eval_config,
@@ -200,3 +221,83 @@ def collect_eval_data(stats: EvalStats) -> None:
     # collect stats
     stats.completed_at = iso_now()
     stats.model_usage = model_usage()
+def resolve_eval_metrics(
+    metrics: list[MetricSpec] | dict[str, list[MetricSpec]] | None,
+) -> list[EvalMetricDefinition] | dict[str, list[EvalMetricDefinition]] | None:
+    if metrics is None:
+        return None
+    elif isinstance(metrics, list):
+        return [EvalMetricDefinition(name=m.metric, options=m.args) for m in metrics]
+    else:
+        return {
+            k: [
+                EvalMetricDefinition(name=v.metric, options=v.args) for v in metric_list
+            ]
+            for k, metric_list in metrics.items()
+        }
+def resolve_eval_scorers(scorers: list[ScorerSpec] | None) -> list[EvalScorer] | None:
+    if scorers is None:
+        return None
+    else:
+        results = []
+        for scorer in scorers:
+            results.append(
+                EvalScorer(
+                    name=scorer.scorer,
+                    metrics=resolve_scorer_metrics(scorer.metrics),
+                    options=scorer.args,
+                    metadata=scorer.metadata,
+                )
+            )
+        return results
+def resolve_scorer_metrics(
+    metrics: list[MetricSpec | dict[str, list[MetricSpec]]]
+    | dict[str, list[MetricSpec]]
+    | None,
+) -> (
+    list[EvalMetricDefinition | dict[str, list[EvalMetricDefinition]]]
+    | dict[str, list[EvalMetricDefinition]]
+    | None
+):
+    if metrics is None:
+        return None
+    elif isinstance(metrics, list):
+        resolved_metrics: list[
+            EvalMetricDefinition | dict[str, list[EvalMetricDefinition]]
+        ] = []
+        for metric_item in metrics:
+            if isinstance(metric_item, MetricSpec):
+                resolved_metrics.append(
+                    EvalMetricDefinition(
+                        name=metric_item.metric, options=metric_item.args
+                    )
+                )
+            elif isinstance(metric_item, dict):
+                resolved_metrics.append(
+                    {
+                        metric_group: [
+                            EvalMetricDefinition(
+                                name=metric_spec.metric, options=metric_spec.args
+                            )
+                            for metric_spec in metric_specs
+                        ]
+                        for metric_group, metric_specs in metric_item.items()
+                    }
+                )
+            else:
+                raise TypeError(f"Unexpected item in list: {metric_item}")
+        return resolved_metrics
+    else:
+        return {
+            metric_group: [
+                EvalMetricDefinition(name=metric_spec.metric, options=metric_spec.args)
+                for metric_spec in metric_specs
+            ]
+            for metric_group, metric_specs in metrics.items()
+        }

inspect_ai/_eval/task/results.py CHANGED Viewed

@@ -1,10 +1,13 @@
 import fnmatch
+import inspect
+import logging
 import re
 from collections import defaultdict
 from copy import deepcopy
 from dataclasses import dataclass, field
-from typing import Any, Tuple, cast
+from typing import Any, Tuple, TypeGuard, cast, get_args, get_origin, get_type_hints
+from inspect_ai._util.logger import warn_once
 from inspect_ai._util.registry import (
     registry_info,
     registry_log_name,
@@ -19,7 +22,12 @@ from inspect_ai.log import (
 )
 from inspect_ai.log._log import EvalSampleReductions
 from inspect_ai.scorer import Metric, Score, Scorer
-from inspect_ai.scorer._metric import SampleScore
+from inspect_ai.scorer._metric import (
+    MetricDeprecated,
+    MetricProtocol,
+    SampleScore,
+    Value,
+)
 from inspect_ai.scorer._metrics.accuracy import accuracy
 from inspect_ai.scorer._metrics.std import stderr
 from inspect_ai.scorer._reducer import ScoreReducer, mean_score, reducer_log_name
@@ -29,6 +37,8 @@ from inspect_ai.scorer._scorer import (
     unique_scorer_name,
 )
+logger = logging.getLogger(__name__)
 @dataclass
 class ScorerInfo:
@@ -99,12 +109,14 @@ def eval_results(
                 reduced_samples = EvalSampleReductions(
                     scorer=scorer_name,
                     reducer=reducer_display_nm,
-                    samples=reduced_scores,
+                    samples=[
+                        EvalSampleScore(**ss.score.__dict__, sample_id=ss.sample_id)
+                        for ss in reduced_scores
+                    ],
                 )
                 sample_reductions.append(reduced_samples)
                 # Compute metrics for this scorer
-                simple_scores = cast(list[Score], reduced_scores)
                 targets = metrics if metrics is not None else scorer_info.metrics
                 if isinstance(targets, list):
                     ## split the metrics into the simple metrics and any dictionary
@@ -119,7 +131,7 @@ def eval_results(
                         scorer_for_metrics(
                             scorer_name=scorer_name,
                             scorer_info=scorer_info,
-                            scores=simple_scores,
+                            sample_scores=reduced_scores,
                             metrics=simple_metrics,
                             reducer_name=reducer_display_nm,
                         )
@@ -129,7 +141,7 @@ def eval_results(
                             scorers_from_metric_dict(
                                 scorer_name=scorer_name,
                                 scorer_info=scorer_info,
-                                scores=simple_scores,
+                                sample_scores=reduced_scores,
                                 metrics=dict_metric,
                                 reducer_name=reducer_display_nm,
                             )
@@ -145,7 +157,7 @@ def eval_results(
                         scorers_from_metric_dict(
                             scorer_name=scorer_name,
                             scorer_info=scorer_info,
-                            scores=simple_scores,
+                            sample_scores=reduced_scores,
                             metrics=targets,
                             reducer_name=reducer_display_nm,
                         )
@@ -184,7 +196,7 @@ def split_metrics(
 def scorer_for_metrics(
     scorer_name: str,
     scorer_info: ScorerInfo,
-    scores: list[Score],
+    sample_scores: list[SampleScore],
     metrics: list[Metric],
     reducer_name: str | None = None,
 ) -> list[EvalScore]:
@@ -200,10 +212,10 @@ def scorer_for_metrics(
         key = metrics_unique_key(
             registry_unqualified_name(metric), list(list_metrics.keys())
         )
+        params = registry_params(metric)
         # process metric values
-        if len(scores) > 0:
-            metric_value = metric(scores)
+        if len(sample_scores) > 0:
+            metric_value = call_metric(metric, sample_scores)
         else:
             metric_value = float("Nan")
         base_metric_name = registry_log_name(metric)
@@ -215,8 +227,7 @@ def scorer_for_metrics(
                 if value is not None:
                     name = metrics_unique_key(metric_key, list(list_metrics.keys()))
                     list_metrics[name] = EvalMetric(
-                        name=name,
-                        value=float(value),
+                        name=name, value=float(value), params=params
                     )
         # If the metric value is a list, turn each element in the list
@@ -229,13 +240,14 @@ def scorer_for_metrics(
                         with_suffix(key, count), list(list_metrics.keys())
                     )
-                    list_metrics[name] = EvalMetric(name=name, value=float(value))
+                    list_metrics[name] = EvalMetric(
+                        name=name, value=float(value), params=params
+                    )
         # the metric is a float, str, or int
         else:
             list_metrics[key] = EvalMetric(
-                name=base_metric_name,
-                value=float(metric_value),
+                name=base_metric_name, value=float(metric_value), params=params
             )
     # build results
@@ -257,7 +269,7 @@ def scorer_for_metrics(
 def scorers_from_metric_dict(
     scorer_name: str,
     scorer_info: ScorerInfo,
-    scores: list[Score],
+    sample_scores: list[SampleScore],
     metrics: dict[str, list[Metric]],
     reducer_name: str | None = None,
 ) -> list[EvalScore]:
@@ -265,18 +277,22 @@ def scorers_from_metric_dict(
     # Expand any metric keys
     resolved_metrics = (
-        resolve_glob_metric_keys(metrics, scores[0]) if len(scores) > 0 else metrics
+        resolve_glob_metric_keys(metrics, sample_scores[0].score)
+        if len(sample_scores) > 0
+        else metrics
     )
     for metric_key, metric_list in resolved_metrics.items():
         # filter scores to a list of scalars with the value of the metric name
-        metric_scores: list[Score] = []
-        for score in scores:
-            if isinstance(score.value, dict):
-                if metric_key in score.value:
+        metric_scores: list[SampleScore] = []
+        for sample_score in sample_scores:
+            if isinstance(sample_score.score.value, dict):
+                if metric_key in sample_score.score.value:
                     # Convert the score into a simple scalar value to apply metrics
-                    metric_score = deepcopy(score)
-                    metric_score.value = cast(float, score.value[metric_key])
+                    metric_score = deepcopy(sample_score)
+                    metric_score.score.value = cast(
+                        float, sample_score.score.value[metric_key]
+                    )
                     metric_scores.append(metric_score)
                 else:
                     raise TypeError(
@@ -291,8 +307,9 @@ def scorers_from_metric_dict(
         for target_metric in metric_list:
             # compute the metric value
             metric_name = registry_log_name(target_metric)
+            metric_params = registry_params(target_metric)
             if len(metric_scores) > 0:
-                value = target_metric(metric_scores)
+                value = call_metric(target_metric, metric_scores)
             else:
                 value = float("Nan")
@@ -302,20 +319,17 @@ def scorers_from_metric_dict(
                 for key, val in value.items():
                     name = f"{metric_name}_{key}"
                     result_metrics[name] = EvalMetric(
-                        name=name,
-                        value=cast(float, val),
+                        name=name, value=cast(float, val), params=metric_params
                     )
             elif isinstance(value, list):
                 for idx, item in enumerate(value):
                     name = f"{metric_name}_{idx}"
                     result_metrics[name] = EvalMetric(
-                        name=name,
-                        value=cast(float, item),
+                        name=name, value=cast(float, item), params=metric_params
                     )
             else:
                 result_metrics[metric_name] = EvalMetric(
-                    name=metric_name,
-                    value=cast(float, value),
+                    name=metric_name, value=cast(float, value), params=metric_params
                 )
         # create a scorer result for this metric
@@ -336,6 +350,48 @@ def scorers_from_metric_dict(
     return results
+def call_metric(metric: Metric, sample_scores: list[SampleScore]) -> Value:
+    if is_metric_deprecated(metric):
+        warn_once(
+            logger,
+            f"Metric {registry_log_name(metric)} should be updated to take list[SampleScore]. "
+            f"Metrics with list[Score] are deprecated.",
+        )
+        scores = [sample_score.score for sample_score in sample_scores]
+        return metric(scores)
+    else:
+        metric = cast(MetricProtocol, metric)
+        return metric(sample_scores)
+def is_metric_deprecated(metric: Metric) -> TypeGuard[MetricDeprecated]:
+    """Type guard to check if a metric follows the deprecated signature."""
+    try:
+        # signature and params
+        sig = inspect.signature(metric)
+        param_types = get_type_hints(metric)
+        # there should be only one param, check it
+        first_param = next(iter(sig.parameters.values()), None)
+        if first_param is None:
+            # No parameters, who knows what this is, treat it as deprecated
+            return True
+        expected_type: Any = param_types.get(first_param.name, None)
+        if expected_type is None or expected_type is Any:
+            # no helpful type info, treat it as deprecated
+            return True
+        # Extract generic base type and arguments to check if it matches list[Score]
+        origin = get_origin(expected_type)
+        args = get_args(expected_type)
+        return origin is list and args == (Score,)
+    except (AttributeError, ValueError, TypeError):
+        return False
 def resolve_glob_metric_keys(
     metrics: dict[str, list[Metric]], base_score: Score
 ) -> dict[str, list[Metric]]:
@@ -375,7 +431,7 @@ def resolve_glob_metric_keys(
 def reduce_scores(
     scores: list[SampleScore], reducer: ScoreReducer
-) -> list[EvalSampleScore]:
+) -> list[SampleScore]:
     # Group the scores by sample_id
     grouped_scores: dict[str, list[SampleScore]] = defaultdict(list)
     for sample_score in scores:
@@ -383,16 +439,14 @@ def reduce_scores(
             grouped_scores[str(sample_score.sample_id)].append(sample_score)
     # reduce the scores
-    reduced_scores: list[EvalSampleScore] = []
+    reduced_scores: list[SampleScore] = []
     for scores in grouped_scores.values():
         reduced = reducer([score.score for score in scores])
         reduced_scores.append(
-            EvalSampleScore(
+            SampleScore(
                 sample_id=scores[0].sample_id,
-                value=reduced.value,
-                answer=reduced.answer,
-                explanation=reduced.explanation,
-                metadata=reduced.metadata,
+                sample_metadata=scores[0].sample_metadata,
+                score=reduced,
             )
         )

inspect-ai 0.3.62__py3-none-any.whl → 0.3.64__py3-none-any.whl

inspect-ai 0.3.62py3-none-any.whl → 0.3.64py3-none-any.whl